Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного-поиска



Скачать 416.67 Kb.
страница1/8
Дата01.07.2018
Размер416.67 Kb.
  1   2   3   4   5   6   7   8

Лингвистическая онтология по
естественным наукам и технологиям для
приложений в сфере информационного-поиска
Б.В. Добров1, Н.В. Лукашевич2
Аннотация

В работе описывается идея, методология и текущее состояние проекта по созданию лингвистической онтологии – специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам. В настоящее время ресурс содержит более 30 тысяч понятий, 70,000 терминов для таких научных дисциплин как математика, физика, химия, геология и биология. В статье также рассматриваются типы изменений описаний понятий, происходящих при перемещении описаний из общезначимой лингвистической онтологии в лингвистическую онтологию конкретной прикладной области.



1. Введение
Эффективное решение задач информационного поиска научно-технической информации является одним из условий перехода отраслей экономики на качественно новые технологические уровни.

Большое распространение получили глобальные машины поиска, обеспечивающие поиск на основе лексического совпадения запроса и документа. Для профессионального, в том числе научно-технического, поиска информации требуется обеспечение поиска, основанного на знаниях, – использование синонимов, возможности автоматического расширения запроса, возможностей автоматического анализа результатов запроса и помощь в интерактивном поиске.





Традиционными средствами тематического поиска научной информации в течение многих лет являлись информационно-поисковые тезаурусы. Однако такие тезаурусы создавались для их использования в процессе ручного индексирования и поиска, и не обеспечивают эффективного информационного поиска в автоматических режимах (Salton, 1998; Soergel et.al., 2004).

В настоящее время перспективы организации более качественного, содержательного информационного поиска в сети интернет связываются с разработкой онтологий.

Согласно (Gruber, 1993), под онтологиями понимают систему явной концептуализации предметной области, то есть формального представления предметной области.

Отметим, что существуют разные формальные интерпретации (Guarino, 1998; Hovy, 1998; Stumme, 2001) столь нечеткого определения. Общим для всех формализаций является выделение множества объектов (концептов, понятий), алфавита отношений, правил установления отношений и аксиом, задающих правила вывода на множестве отношений.

С точки зрения использования онтологий в задачах автоматической обработки текста существует два подхода к установлению соответствия между онтологией предметной области и языком предметной области (лексиконом).

С одной стороны, сначала строится система понятий, которым затем приписываются наборы языковых выражений (слов, терминов, словосочетаний). Обнаружение этих выражений в тексте позволяет инициировать соответствующие понятия и связанные с ними правила (Gruber, 1993).

С другой стороны, замечено, что существующие лингвистические ресурсы (словари, глоссарии, тезаурусы) также задают определенную концептуализацию предметной области.

В результате, согласно современным воззрениям, термину «онтология» удовлетворяет широкий спектр структур, представляющих знания о той или иной предметной области. В качестве в разной степени формализованных онтологий рассматриваются (Welty et.al., 1999):




  1. Словарь с определениями,




  1. Простая таксономия,




  1. Тезаурус (таксономия с терминами),




  1. Модель с произвольным набором отношений,

(*)

  1. Таксономия и произвольный набор отношений,




  1. Полностью аксиоматизированная теория.




Одновременно подчеркивается (Gomez-Perez et.al., 2000) различие между фундаментальными онтологиями (fundamental ontologies), которые описывают предметную область максимально полно ((*), п.6), безотносительно к приложениям и обычно с максимальной степенью формализации, и прикладными онтологиями (application ontologies), которые также называются «легкими» онтологиями (lightweight ontologies) и которые формализуются настолько, насколько это необходимо для приложения ((*), пп. 1-5).

Понятно, что создать фундаментальную онтологию для большой области научного знания не представляется возможным в силу существования различных теорий и постоянного изменения трактовки самых базовых понятий.

С другой стороны, степень формализации описания предметных областей в традиционных информационно-поисковых тезаурусах оказалась недостаточной для автоматического расширения запросов в информационном поиске .

Возникает вопрос, какова же должна быть степень формализации предметной области, структура онтологии, чтобы



  • с одной стороны, эту онтологию можно было создать и начать использовать в разумные сроки (2-3 года) относительно небольшим коллективом,

  • с другой стороны, чтобы степень формализации понятийной структуры предметной области обеспечивала возможность содержательного информационного поиска в автоматических режимах.

Как уже указывалось, понятия онтологии, предназначенные для поддержки решения задач информационного поиска, должны быть аккуратно связаны со значениями терминов предметной области. Такого рода онтологии называются лингвистическими онтологиями: главной характеристикой лингвистических онтологий является то, что они связаны со значениями (“are bound to the semantics”) языковых выражений (слов, именных групп и т.п.) (Gomez-Perez et al., 2000)

В качестве примера лингвистической онтологии часто приводится ресурс WordNet (Miller et.al., 1990). Этот ресурс представляет в виде иерархической структуры систему значений слов общезначимого английского языка. Вместе с тем возникает достаточно много проектов, которые описывают на основе модели WordNet терминологические системы конкретных предметных областей, то есть создают лингвистические онтологии этих областей (Buitellar, Sacalenau, 2001; Vossen, 2001; Roventini, Marinelli, 2004).


Под руководством авторов в 2004 году были начаты работы над созданием лингвистической онтологии для автоматической обработки в области естественных наук.

В статье, обобщающей работы (Добров и др., 2005; Добров, Лукашевич, 2006а,б), описывается идея, методология и текущее состояние проекта. Во втором разделе рассматриваются достоинства и недостатки существующих лингвистических ресурсов с точки зрения применимости для автоматической обработки научных текстов в сфере естественных наук. В третьем разделе мы описываем идею и основные положения проекта создания лингвистической онтологии для естественных наук. В следующем разделе описывается ранее созданные авторами онтологии – Тезаурус русского языка РуТез, Общественно-политический тезаурус, на основе методологии создания которых создается и новая лингвистическая онтология. В пятом разделе излагаются этапы построения онтологии, приводятся данные о текущем состоянии ресурса, о способах тестирования создаваемой онтологии. Шестой раздел описывает типы изменений в описаниях понятий, полученных онтологией ОЕНТ из Тезауруса РуТез.

2 Ресурсы для смыслового анализа электронных коллекций
2.1 Традиционные информационно-поисковые тезаурусы
Хронологически первыми ресурсами, служащими для упорядочения работы с электронными коллекциями были информационно-поисковые тезаурусы (ИПТ) (ИНИОН, 1989; Шемакин, 1974; UNBIS Thesaurus, 1976; LIV, 1994), в которых синонимичные термины были собраны вокруг наиболее представительного термина (предпочтительного термина), называемого дескриптором, а между дескрипторами устанавливались отношения.

Однако традиционные информационно-поисковые тезаурусы разрабатывались для ручного индексирования человеком- индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. Применение традиционных информационно-поисковых тезаурусов при автоматическом индексировании и автоматическом расширении запроса приводит лишь к ухудшению характеристик поиска по сравнению с поиском по словам (Salton, 1989; Voorhees, 1999).

Это связано с тем, что традиционный информационно-поисковый тезаурус описывает по сути дела искусственный язык, служащий для фиксации основной темы документа. Человек-индексатор должен был перевести естественный язык документа на искусственный язык тезауруса. Поэтому вся процедура разработки и использования информационно-поисковых тезаурусов основывалась на лингвистических и предметных знаниях эксперта. Многие решения, принимаемые в процессе создания тезаурусов, были направлены на то, чтобы сделать работу индексатора более удобной и менее субъективной.

Чтобы использоваться в автоматическом режиме традиционным тезаурусам не достает значительного объема информации:



  • описания большого количества понятий более низкого уровня иерархии, чем представленные дескрипторы;

  • намного более подробное описание синонимии терминов;

  • описания многозначности слов;

  • недостаточна также система традиционных отношений между дескрипторами тезауруса и их свойств, базирующая в основном на использовании отношений ВЫШЕ-НИЖЕ и Ассоциация.

В России наиболее известен Тезаурус научно-технических терминов (Шемакин, 1974), который издан в 1972 году. Тезаурус описывает терминологию военно-промышленного комплекса 70-х годов, не соответствует реалиям и технологиям настоящего времени. ВИНИТИ обладает громадным массивом научно-технических текстов, имеются наборы терминов (Белоногов и др., 1993) по научно-техническим отраслям. Но эти термины не организованы иерархическими связями в единый ресурс научно-технической терминологии.


2.2 От информационно-поисковых тезаурусов к фундаментальным онтологиям
Некоторые авторы (Soergel et al., 2004; Tudhope et al., 2001), решая проблему модификации традиционных информационно-поисковых тезаурусов к современным задачам автоматической обработки больших текстовых коллекций, предлагают преобразовать систему отношений тезауруса в более формализованный набор предикатов (уровень формализации 5, см. введение) и описать правила вывода (аксиомы).

Так, например, в работе (Soergel et al., 2004) в качестве примеров модификации информационно-поискового тезауруса по сельскому хозяйству AGROVOC приводятся следующие словарные статьи:

Исходные статьи тезауруса (NT – отношение НИЖЕ, BT - отношение ВЫШЕ):

milk


NT cow milk

NT milk fat

cow

NT cow milk



Cheddar cheese

BT cow milk


Преобразованные словарные статьи выглядят следующим образом:

milk


<includesSpecific> cow milk

<containsSubstance> milk fat

cow


<hasComponent> cow milk

Cheddar cheese



<madeFrom> cow milk
Пример предлагаемых правил вывода:

Правило 1:

Part_X <mayContainSubstance> Substance_Y

IF Animal_W <hasComponent> Part_X

AND Animal_W <ingests> Substance_Y
Правило 2:

Food_Z <containsSubstance> Substance_Y:

IF Food_Z <madeFrom> Part_X

AND Part_X <containsSubstance> Substance_Y


Предполагается, что система, имея такие правила вывода, может автоматически получить, что сыр-чеддер содержит (containsSubstance) молочный жир, и, что если коровы на ферме съели корма, зараженные ртутью, то, сыр, сделанный из этого молока, также, возможно, будет заражен ртутью (Cheddar cheese <mayContainSubstance>mercury).

Однако, чтобы такой вывод действительно отработал, помимо изменений в описании понятий и терминов предметной области, нужно иметь автоматические средства обработки естественно-языковых текстов, позволяющие в неограниченном связном тексте точно и полно извлекать последовательности фактов, уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в корма попала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именно эти корма, изготовление сыра чеддер этой фермой произведено в период времени сразу после того, как эти коровы съели эти корма и т.п.

Кроме того, в тексте слова корма и ртуть могут оказаться в разных частях длинного предложения, или в разных предложениях текста, например, из-за использования эллиптической конструкции или местоимения и т.п., что значительно усложнит выявление этого факта.

Понятно, что в настоящее (и ближайшее) время ни одна из существующих систем автоматической обработки текстов, извлечения знаний из текстов не может обеспечить такой уровень точности и полноты получения информации из текстов, на которых надежно можно было обосновывать работу таких правил вывода.

Таким образом, по нашему мнению, значительные трудозатраты на такого рода формализацию информационно-поисковых тезаурусов не приведут к улучшению качества автоматической обработки текстов и созданию ресурсов, лучше приспособленных к автоматическим режимам работы, чем существующие информационно-поисковые тезаурусы.


Каталог: issue spec -> docs


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница