Формализация знаний в гуманитарном исследовании



Скачать 146.91 Kb.
страница1/4
Дата12.05.2018
Размер146.91 Kb.
ТипАнализ
  1   2   3   4

УДК 004.912: 303.7

ВЕГА – КОМПЬЮТЕРНАЯ СИСТЕМА КЛАССИФИКАЦИИ И
АНАЛИЗА ТЕКСТОВ

К.К.Боярский, Е.А.Каневский


ВЕГА представляет собой систему для классификации и обработки как анкетной, так и другого рода текстовой информации. Обсуждаются особенности анализа текстовой информации, основанной на контент-анали­тическом сравнении фраз. Рассматриваются возможности системы и некоторые особенности ее функционирования. Большое внимание уделяется вопросам практического использования описываемой системы.

Ключевые слова: анализ текста, классификация, контент-анализ, словари, социологические анкеты, открытые вопросы, статистический анализ, шкалирование.

Введение


В текстовых массивах, циркулирующих в обществе, содержатся специфические познавательные возможности. Анализируются различные тексты: материалы средств массовой информации, политические материалы в виде программ партий и кандидатов в электоральных кампаниях, уставы партий и движений, биографии и дневники, научные публикации и др. Социология сама стимулирует появление в обществе специальных текстов, проводя конкурсы сочинений и автобиографий, организуя интервью.

Анализом содержания текстов занимаются многие исследователи при изучении влияния средств массовой информации на общественное мнение, документов истории и культуры, политического, экономического, юридического и даже экологического сознания общества. Одной из первых систем автоматизированного анализа текстов явилась General Inquirer (Гарвард, 1968), широко использующая различные словари [1]. Современные системы TACT и TextPack также основаны на использовании словарей [2].

Сегодня наибольшее распространение получили два метода анализа: кластерный анализ и контент-анализ. Показано, что возможно использовать математический аппарат кластерного анализа для автоматического выделения естественных тематических групп из случайной однородной массы текстового материала (например, набора статей из различных журналов). Созданы методы классификации полнотекстовых баз данных (БД) на основе алгоритмов визуального эвристического кластерного анализа документов. Методы основаны на составлении частотных словарей и выделении тех слов, частота встречаемости которых во всех текстах БД превышает общеупотребительную частоту [3].

Другим методом качественно-количественного изучения содержания текстов является контент-анализ (КА). В процессе КА все многообразие текстов по интересующей исследователя тематике сводится к набору определенных элементов, которые затем подвергаются подсчету и анализу. На использовании контент-анализа построены программы TACT, ARRAS, TextPack, SYREX, SATO [4].

Обычно в качестве элемента содержания (единицы анализа) при "машинном" КА используют слово, которому ставят в соответствие определенную категорию. Это удобно, так как слово выделено в тексте пробелами изначально. Однако слово характеризуется лишь номинативной, назывной функцией. Единицей выражения мысли является предложение, которое используется в качестве единицы содержания при классическом ("ручном") КА. Мы используем в качестве элемента содержания несколько другую единицу анализа – фразу, которая может состоять даже из одного слова. Каждая фраза является выражением одного суждения, одной мысли. При сравнении фразы считаются идентичными друг другу при совпадении двух-трех слов или одного-двух ключевых слов [5].

Любые попытки применения КА к текстовым массивам неизбежно связаны с проблемой классификации и, следовательно, с разработкой классификатора. Простейшая структура классификатора обычно напоминает таблицу и содержит категории (группы) и их модальности (типы). Более сложный классификатор имеет древовидную структуру, состоящую из классов и групп. В большинстве исследований заранее составляется формализованная, полностью закрытая схема классификации [6]. При повторяющихся исследованиях, например, в средствах массовой информации, стандартный классификатор даже помогает сравнивать результаты очередного обследования с предыдущими.

Однако при анализе быстро меняющейся ситуации даже опытный исследователь, проводя обследования через 1–2 года, не может заранее создать полностью готовый классификатор. Причина ясна: сместилась тематика ответов респондентов, их волнует уже не то, что год или два тому назад. Поэтому на один и тот же вопрос (открытого типа) они отвечают совсем не так, как раньше. Очевидно, что в этом случае классификатор должен уточняться непосредственно в процессе КА, при осмыслении материалов данного опроса.




Поделитесь с Вашими друзьями:
  1   2   3   4


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница