Современные проблемы ивт



страница1/6
Дата13.05.2018
Размер1.39 Mb.
  1   2   3   4   5   6

СОВРЕМЕННЫЕ ПРОБЛЕМЫ ИВТ
1. ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Введение

По мере развития техники и материального производства наблюдается рост числа неформализуемых или не четко формализуемых проблем, для решения которых не существует строгих математических подходов. Дисциплину, изучающую возможности и методы создания систем для решения задач, которые требуют определенных интеллектуальных усилий при выполнении их человеком, называют искусственным интеллектом. Системы искусственного интеллекта, решающие задачи по обработке знаний и при этом проявляющие черты, сходные с чертами естественного интеллекта, принято называть интеллектуальными системами.

Термин искусственный интеллект (artificial intelligence) предложен в 1956 г. в Стэнфордском университете (США). Но история искусственного интеллекта имеет далекую предысторию.

Впервые идею создания искусственного разума, подобного человеческому мозгу, высказал в XIV веке Р.Луллий (ок.1235-ок.1315). В XVIII в. Г.Лейбниц (1646 — 1716) и Р.Декарт (1596 — 1650) независимо друг от друга продолжили попытки создания искусственного интеллекта на основе классификации понятий всех наук.

В 40-х гг. XX века после создания ЭВМ, в частности, благодаря работам Н.Винера (1894 — 1964), идеи создания интеллектуальных систем встали на реальную почву.

Работы в области искусственного интеллекта можно классифицировать по типам решаемых задач, выделяя задачи:



  • распознавание образов;

  • доказательство теорем;

  • машинный перевод;

  • понимание и синтез речи и текстов на естественных языках (ЕЯ);

  • обучение;

  • принятие решений и др.

Для решения этих задач на компьютерах необходима разработка соответствующих методов и средств представления и обработки знаний. В этом аспекте искусственного интеллекта различают дедуктивные системы, математическую лингвистику и языки ИИ, нечеткие множества, экспертные системы, многоагентные системы, нейрокибернетику. Применяемые методы опираются на одну из двух парадигм.

Одна из них основана на стремлении использовать аналогии с явлениями живой природы. Во-первых, это направление изучения функционирования человеческого мозга и поиска путей его имитации в ИИ. Так, нейрокибернетика (или нейроинформатика) ориентирована на аппаратное моделирование структур, подобных структурам мозга. Во-вторых, изучение природы наследственности и использование эволюционных принципов в технических системах. Близко к ИИ примыкает бионика и применение ее принципов в робототехнических системах.

Вторая парадигма не связана со структурой мозга и природными реализациями живых организмов. Это направление "черного ящика". т.е. устройства, которое должно выполнять сложные функции, которые считались лишь уделом мыслящих существ, однако "черный ящик" никак не связывался с устройством мозга. Это направление искусственного интеллекта ориентировано на поиски алгоритмов решения интеллектуальных задач на существующих моделях компьютеров.

Понятие исчисления (дедуктивной системы) ввел в 1943 г. американский математик Э.Пост (E.Post). Подход к автоматическому доказательству теорем описал Эрбран (J.Herbrand) в 1930 г., но реализация процедуры доказательства стала возможной после появления ЭВМ, особенно после разработки метода резолюций Д.Робинсоном (J.Robinson) в 1965 г.

Метод резолюций нашел свое эффективное применение в логическом программировании и языке Пролог, созданном в Марселе Ковальским и Колмероэ в 1973 г. Их первоначальная программа, написанная на Фортране, предназначалась для построения систем обработки текстов на естественных языках. Эффективность Пролога была продемонстрирована после разработки компилятора Пролога в конце 70-х.

Но первым языком искусственного интеллекта, не потерявшим своей популярности до наших дней, был созданный в 1958 г. Джоном Мак-Карти (J.McCarthy) из Массачусетсткого технологического института язык обработки списков ЛИСП (LISP — LISt Processing), ставший языком функционального программирования.

В реальных задачах детерминированность является лишь модельным приближением, не всегда адекватным исследуемой ситуации. Это относится и к математической логике. Для отражения неопределенности, присутствующей в практических задачах вследствие неполноты исходных данных, Л.Заде (Lotfi Zadeh) к 1965 г. разработал теорию нечетких множеств, нашедшую широкое применение в системах ИИ, в частности, в экспертных системах.

Экспертные системы, основанные на выявлении и представлении в компьютере человеческих знаний, привлекли к себе заметное внимание в середине 70-х годов. Одними из первых были разработаны ставшие уже классическими экспертные системы MYCIN и DENDRAL для медицины и химии.

MICIN — экспертная система для медицинской диагностики. Разработана группой по инфекционным заболеваниям Стэнфордского университета. Ставит соответствующий диагноз, исходя из представленных ей симптомов, и рекомендует курс медикаментозного лечения любой из диагностированных инфекций. База данных состоит из 450 правил.

DENDRAL — экспертная система для распознавания химических структур. Первые версии данной системы появились еще в 1965 году также в Стэнфордском университете. Пользователь дает системе DENDRAL некоторую информацию о веществе и данные спектрометрии, а система выдает диагноз в виде соответствующей химической структуры.

К числу первых из разработанных экспертных систем относится также PROSPECTOR — экспертная система, созданная для содействия поиску коммерчески оправданных месторождений полезных ископаемых.

В 1969 г. в Электротехнической лаборатории (Япония) началась разработка проекта "промышленный интеллектуальный робот". Цель этой разработки — создание очувствленного манипуляционного робота с элементами искусственного интеллекта для выполнения сборочно-монтажных работ с визуальным контролем

Трудно назвать конкретную дату, которую можно было бы назвать днем рождения многоагентных систем (МАС), поскольку многие события в истории ИИ так или иначе были прелюдией к созданию МАС. Среди этих событий нельзя не отметить работы У.Р.Эшби (Ashby), М.Л.Цетлина, Д.А.Поспелова и др. Заметный вклад в теорию МАС внес К.Хьюитт (C.Hewitt), рассматривавший в 1977 г. распределенную систему, как совокупность взаимодействующих акторов. Использование МАС направлено на снижение сложности систем управления, повышение их живучести, росту быстродействия, так как процессы легче распараллеливаются, происходит локализация большинства связей на малых расстояниях.

Генетические алгоритмы (ГА) – наиболее значительное представление эволюционных вычислений. Д.Холланд (J.Holland) признан в мире как основоположник ГА. Он и его последователи Д Голдберг (D.Goldberg), Де Янг (De Jong) и др. разработали основы и ряд стратегий генетического поиска при решении задач оптимизации и принятия решений в различных приложениях.

Достаточно весомы результаты работ по проблемам искусственного интеллекта, проводившихся в России.

В 1954 г. в МГУ под руководством профессора А.А.Ляпунова (1911 — 1973) начал свою работу семинар "Автоматы и мышление". В этом семинаре принимали участие крупнейшие физиологи, лингвисты, психологи, математики.

В 1959 г. по инициативе А.И.Берга создается Научный совет по комплексной проблеме "Кибернетика" при Президиуме АН СССР. Аксель Иванович Берг (1893-1979) создал в АН СССР Институт радиотехники и электроники, способствовал созданию Института семиотики, стоял у истоков такого научного направления как вычислительная лингвистика (вместе с А.А.Ляпуновым).

В 1955 — 1964 гг. создаются отдельные программы и исследуется поиск решения логических задач. В Ленинграде (ЛОМИ — Ленинградское отделение математического института им. В.А.Стеклова) создается программа, автоматически доказывающая теоремы (АЛПЕВ ЛОМИ). Она основана на оригинальном обратном выводе С.Ю.Маслова, аналогичном методу резолюций Робинсона.

В 1965-1980 гг. получает развитие новая наука— ситуационное управление (соответствует представлению знаний в западной терминологии). Основоположник этой научной школы — профессор Д.А.Поспелов. Разработаны специальные модели представления ситуаций — представления знаний.

В Московском государственном университете создается язык РЕФАЛ.

Развитию генетических алгоритмов в СССР и России способствовали работы Л.А.Растригина, Ю.И.Неймарка, И.Л.Букатовой и др.

Первой советской системой по моделированию автономных агентов стала ТАИР, разработанная под руководством Н.М.Амосова.

Одной из сфер приложений искусственного интеллекта, позволяющей сравнивать возможности естественного и искусственного интеллектов является игра в шахматы. Над программами шахматной игры трудятся целые коллективы. В 1974 г. состоялся турнир шахматных программ, который выиграла советская программа Каисса.

Способы представления знаний

Среди способов представления знаний различают словари с определениями понятий, тезаурусы, таксономии, онтологии, базы знаний.

Тезаурусом называют множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений. Каждому понятию сопоставляется синонимичный дескриптор, и для дескрипторов явным образом указываются семантические отношения: род — вид, часть — целое, цель — средство и т. д.

Таксоном называют объект (понятие) некоторой предметной области. Таксономия (т.е. закон и упорядочение) — иерархическая структура классификаций определенного набора таксонов. В таксономиях отражены отношения "род-вид".

Онтология (в информатике) — формальное представление некоторой области знаний, включающее иерархическую структуру понятий, их связи и правила (теоремы, ограничения), принятые в этой области. Онтология вместе с набором индивидуальных экземпляров классов образует базу знаний. В действительности, трудно определить, где кончается онтология и где начинается база знаний. При этом онтологией можно называть базу однозначно понимаемых знаний.

Введение в управление знаниями
Управление знаниями (knowledge management) — новая дисциплина, занимающаяся вопросами создания и управления знаниями, представляющими интерес для компаний. Управление знаниями определяют также как совокупность процессов, которые управляют созданием, распространением, обработкой и использованием знаний внутри предприятия. Управление знаниями включает определение ценных для компании знаний, их распространение среди сотрудников компании, использование и генерирование новых знаний.

Среди теоретических предпосылок возникновения knowledge management (КМ) можно выделить следующие.

Известно, что приобретаемый опыт в производстве изделий позволяет сокращать издержки и затраты, что связано с расширением знаний (в сфере экономики ).

В сфере социологии знания генерируются, главным образом, в коллективах. На макроуровне — развиваются идеи постиндустриального, информационного или основанного на знании общества. На микроуровне исследуется поведение человека в группах и сообществах.

В философии и психологии КМ исследует различия между скрытыми и явными знаниями, между "знать как" и "знать что". Психология изучает то, как люди обучаются, забывают, действуют и т.п.

Различают корпоративные знания явные и неявные. Явные знания — это содержание документов организации таких, как письма, статьи, справочники, патенты, чертежи, программное обеспечение и т. п. Неявные (скрытые) знания — это персональные знания, связанные с индивидуальным опытом сотрудников. Часто именно скрытое знание является ключевым при принятии решении и управлении производственными процессами.

В управлении знаниями можно выделить следующие этапы:

1. Накопление, часто происходящее стихийно и бессистемно.

2. Извлечение.

3. Структурирование — выделение основных понятий, выработка способов представления информации.

4. Формализация — перевод знаний в машинный формат.

5. Сопровождение (обслуживание) — удаление, корректировка, добавление, фильтрация данных и знаний для поиска информации, необходимой пользователям.


Data Mining
Data Mining (DM) — направление в области интеллектуальных систем, связанное с поиском в больших объемах данных скрытых закономерностей. Data Mining можно интерпретировать как обнаружение знаний в базах данных или как интеллектуальный анализ данных. Дословно DM переводится как добыча данных. Другими словами, это добыча знаний, необходимых для принятия решений в различных сферах человеческой деятельности. При этом под знаниями понимается совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д. Искомые закономерности часто выражаются в виде шаблонов (паттернов — patterns), которые представляют собой некоторые выборки данных. Построение моделей прогнозирования также является целью поиска закономерностей.

Cтатистические методы методы анализа данных и OLAP в основном ориентированы на проверку заранее сформулированных гипотез и на предварительный анализ данных, в то время как Data Mining занимается поиском неочевидных закономерностей.

Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. В большинстве источников называются следующие основные задачи:


  • классификация,

  • кластеризация,

  • ассоциация,

  • последовательность,

  • прогнозирование,

Важной задачей, близкой к Data mining является поиск знаний (knowledge discovery).

С помощью классификации объекты распределяются между заранее определенными группами.

Целью кластеризации является определение таких групп.

Ассоциация имеет целью определение отношений между событиями.

Прогнозирование используется для предсказания событий на основе известных уже имевших место фактов и событий.

Text Mining — одна из подобластей Data Mining, которая ориентирована на обработку текстовой информации и широко применяется для мониторинга ресурсов Интернет. Задача Text Mining — проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining:



  • реферирование текстов на естественном языке;

  • классификацию (тематическое индексирование) текстовых документов;

  • кластеризацию текстовых документов и их фрагментов;

  • построение онтологии текстового документа (основных терминов и связей между ними), например семантической сети;

  • визуализация полученных знаний.

Основная особенность Data Mining — это сочетание количественного и качественного анализа. Большинство аналитических методов, используемых в технологии Data Mining, - это известные математические алгоритмы и методы.

Процесс извлечения знаний в Data Mining состоит из следующих стадий:

Стадия 1. Выявление закономерностей (свободный поиск).

Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).

Стадия 3. Анализ исключений — выявление и объяснение аномалий, найденных в закономерностях.

Арсенал средств Data Mining довольно обширен. Классификация методов Data Mining выполняется по ряду признаков.

В зависимости от полноты используемых при анализе данных различают методы следующих двух групп:

1. Методы с непосредственным использованием данных с их сохранением на всех стадиях анализа. Недостаток методов этой группы — возможные сложности анализа сверхбольших баз данных. К этой группе относятся кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.

2. Методы с выявлением и использованием формализованных закономерностей, или дистилляция шаблонов. При этом образцы (шаблоны) информации извлекаются из исходных данных на стадии свободного поиска и преобразуются в некие формальные конструкции, которые и используются на стадиях прогностического моделирования и анализа исключений. Очевидно, что шаблоны значительно компактнее самих баз данных. К этой группе относятся логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях.

Статистические методы Data mining подразделяют на следующие группы:

1. Дескриптивный анализ и описание исходных данных.

2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).

3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).

4. Анализ временных рядов (динамические модели и прогнозирование).

К кибернетическим методам Data Mining относят:

искусственные нейронные сети (распознавание, кластеризация, прогноз);

• эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);

генетические алгоритмы (оптимизация);

• ассоциативную память (поиск аналогов, прототипов);

нечеткую логику;

• деревья решений;

экспертные системы.


Задачи обработки текстовой информации
Обработка текста в интеллектуальных системах включает морфологический, синтаксический и семантический анализ.

Морфологический анализ выполняется вне связи с контекстом, его результатами являются выделение основ слов, определение свойств слова (часть речи, падеж, число и т.п.), идентификация в множестве слов (словаре). Используют два метода морфологического анализа. Декларативный метод заключается в записи в словарь всех грамматических форм слова. Этот метод трудоемок при создании словаря, но прост при его использовании. Процедурный метод основан на записи в словарь только основ слов и выделении при собственно анализе этих основ, т.е. анализ фактически сводится к отбрасыванию аффиксов (окончаний и суффиксов) и сопоставлению оставшейся основы с содержимым словаря. Отметим, что часть слова после удаления окончания называют токеном.

Синтаксический анализ предназначен для определения структуры фрагментов (предложений) текста. Отметим, что в программировании синтаксическим анализом называют фазу трансляции, на которой проверяется соблюдение синтаксиса исходного языка и вырабатывается описание на некотором промежуточном языке для последующей генерации кода объектной программы

Семантический анализ — определение (в интеллектуальных системах) смысловых характеристик слов или словосочетаний. Одной из задач семантического анализа является контекстно-свободный поиск документов по запросу в виде слова или фразы в больших документальных базах. Большинство существующих систем основываются исключительно на морфологическом анализе слов и не задействуют более сложных схем анализа [3].

В управлении знаниями различают данные трех типов: сильно структурированные данные (собственно данные), слабо структурированные данные (текстовые документы на языке естественном или ограниченно естественном), информация о способах решения проблем (иногда именно эту группу называют знаниями).

Для работы с сильно структурированными данными используют технологии реляционных баз данных.

В работе с слабо структурированными данными различают несколько групп задач. К ним относятся: машинный перевод, общение человека с компьютером, синтез речи, а также задачи, рассмтриваемые ниже.

1. Поиск текстовой информации (информационный поиск). Эта задача решается в информационно-поисковых системах с использованием понятий поисковый образ и запрос и определением степени их релевантности. Оценка релевантности чаще всего производится статистическими методами. В качестве критериев релевантности применяют:



  • число совпадений слов запроса со словами в документе с учетом синонимов (предварительно выполняют морфологический анализ — выделение в словах их основы и определение грамматических характеристик слова;

  • то же, но каждое совпадение имеет вес, зависящий от расстояния между ключевыми словами в документе и, возможно, от их очередности;

  • то же, что и первый критерий, но вес совпадения зависит от частоты использования слова в базе документов, более редкие слова обусловливают больший вес.

Отдельное место в задаче поиска занимает поиск по динамически формируемым запросам. Реализация поиска по запросам, формируемым в процессе самого поиска, используется для извлечения новых фактов или формировании сообщений по вновь сформированной теме, при создании компьютерного виртуального собеседника и с необходимостью входит в число задач управления знаниями.

2. Классификация и кластеризация документов. Под кластеризацией понимают выделение признаков объектов некоторого множества, характеризующих степень их взаимного сходства или различия, и формирование на основе такого выделения групп (классов) родственных объектов. Собственно отнесение объектов к тому или иному классу из числа заданных называют классификацией .

Одним из методов выделения классообразующих признаков для текстовых документов является взвешивание терминов. Веса терминов в заданной выборке документов определяются одним из следующих способов:


  • по наличию -го термина (слова) в -м документе (=1) или его отсутствия (=0);

  • по частости появления -го слова в -м документе;

  • по относительной частости, которую можно определить как произведение частости и логарифма отношения /, где — число документов в выборке, — число документов, в которых встречается -е слово;

  • по относительной частости с учетом длин документов

= ,

где — число слов в выборке.

При классификации сопоставляют входящие в систему документы с сформированными классами. Отнесение документа к определенному классу выполняется по минимуму расстояния классифицируемого документа от сформированных классов. Понятие расстояния можно связать с той или иной нормой разности векторов =(, ,..., ) двух сравниваемых документов, например:

= | -

Для решения задач классификации используются алгоритмы, типичные для ИПС или систем Data Mining. Например, в Data Mining находит применение алгоритм дерева решений (Decision Tree), в соответствии с которым значение каждого из исследуемых атрибутов классифицируется с использованием правил вида “если — то”. Каждый узел дерева представляет собой некий вопрос. ответ на который позволяет отнести рассматриваемый документ к тому или иному классу.

Классы образуют путем разделения или объединения документов выборки в группы по критерию "близости" — малого расстояния между документами. Используемый при этом метод кластеризации иногда называют методом “ближайшего соседа”.

3. Построение тезаурусов. Тезаурус — упорядоченный перечень терминов, используемых в некоторой предметной области, с отражением семантических связей между ними. Существуют стандарты на требования к тезаурусам, на их структуру и правила построения (ГОСТ 7.25-80 и ГОСТ 7.24-90). Эти стандарты ориентированы на тезаурусы конкретных предметных областей, структурирование тезаурусов связано с такими понятиями, как дисциплина, предмет, метод, процесс. явление, свойство, величина, отношение и др.

4. Выражение семантики документа на формальном языке. Перевод текста с естественного языка на формальный требуется для реализации возможностей автоматической семантической обработки текста. Примерами формальных языков могут служить языки онтологий.

5. Принятие решений. Решение может быть представлено одним или совокупностью нескольких элементов заданного целевого множества. В отличие от задачи поиска, где результатом может быть много альтернатив, здесь совокупность нескольких элементов есть одна альтернатива. Поэтому кроме отношения релевантности, нужно учитывать некоторые дополнительные отношения предпочтительности. Эти отношения задаются экспертами (как в методе анализа иерархий) или представлены функцией полезности (как в задачах оптимизации), определенной на множестве метаданных.

6. Генерация новых знаний. К новым знаниям в системах управления знаниями относится установление новых отношений на множестве элементов базы знаний (БЗ), приводящее к получению нового полезного решения возникшей практической проблемы. Это выражается в добавлении или новых продукций к базе знаний, или новых вершин и/или связей в семантическую сеть понятий. Например, установление связи документов, описывающих практические задачи, и документов, описывающих принятие решения в условиях, совпадающих с условиями задачи. Если задача принятия решений относится к интерпретации фактов при заданной базе знаний, то генерация новых знаний — изменение самой БЗ. К генерации новых знаний следует отнести извлечение информации из текстовых данных (Data Mining) и представление ее, например, в виде семантической сети.

7. Автоматическое реферирование и автоматический машинный перевод. Автоматический машинный перевод – это одна из старейших задач искусственного интеллекта и на текущий момент представлено множество коммерческих систем, способных переводить несложные тексты.


Онтологии
Существует несколько определений онтологии. Дословный перевод от древнегреческого (греч. on, ontos — сущее, logos — учение) — наука о сущем. Термин «Онтология» был предложен Р. Гоклениусом в 1613 г. и обозначал раздел философии, изучающий бытие.

В искусственном интеллекте и информатике онтология – это формальное описание понятий (классов) в рассматриваемой предметной области, свойств каждого понятия (атрибутов, слотов, ролей), включает также декларативные и процедурные интерпретации понятий и их отношений и ограничения (фасеты), наложенные на слоты. В центре большинства онтологий находятся классы. Слоты могут иметь различные фасеты, которые описывают тип значения, разрешенные значения, число значений (мощность) и др.

Другое определение онтологии дается следующей ее моделью:

, (1)

где — множество понятий предметной области, называемых также концептами, — множество отношений между концептами, — множество функций интерпретации концептов и отношений.

Частные случаи (1):


  • Простой словарь = , = ; словари часто называют глоссариями, в них наряду с самими концепатми описываются грамматические, стилистические характеристики и примеры использования.

  • Простая таксономия (т.е. иерархическая система понятий) = .

Важно различать класс и его имя: классы представляют понятия предметной области, а не слова, которые обозначают эти понятия. Синонимы одного и того же понятия не представляют различные классы.

Онтологии формально схожи с XML Schema, но отличаются тем, что онтологии являются представлением знаний, а не форматом сообщений.

Для представления онтологий применяют дескриптивную логику, логику первого порядка, графы и семантические сети.

Язык описания онтологий — формальный язык, используемый для кодирования онтологии. Наиболее известные среди них: OWL — ontology web language, стандарт W3C, язык для семантических утверждений, разработанный как расширение RDF и RDFS; KIF (Knowledge Interchange Format или формат обмена знаниями) — основанный на S-выражениях синтаксис для логики; CycL — онтологический язык, использующийся в проекте Cyc, основан на исчислении предикатов с некоторыми расширениями более высокого порядка; DAML+OIL.

Обычно разработка онтологии включает:

• определение понятий;

• расположение понятий в таксономическом порядке (подкласс – надкласс);

• определение слотов и описание допускаемых значений этих слотов;

• заполнение значений слотов экземпляров.

Не существует единственного правильного способа моделирования предметной области – всегда существуют жизнеспособные альтернативы. Лучшее решение почти всегда зависит от предполагаемого приложения и ожидаемых расширений. Разработка онтологии – это итерационный процесс, причем обычно этот процесс должен продолжаться в течение всего жизненного цикла онтологии [1].

Различают варианты разработки онтологий:


  • нисходящий — разработка начинается с определения самых общих понятий предметной области с последующей конкретизацией понятий;

  • восходящий — разработка начинается с определения самых конкретных классов, листьев иерархии, с последующей группировкой этих классов в более общие понятия;

  • комбинированный — это сочетание нисходящего и восходящего подходов, сначала определяются наиболее заметные понятия, которые затем соответствующим образом обобщаются и ограничиваются.

Основные применения онтологий: семантический поиск информации (включая поиск ответов на вопросы), создание баз знаний, автоматическая рубрикация документов, реализация процедур вывода и др.

Для создания и поддержки онтологий разработан ряд программных продуктов, которые выполняют редактирование, просмотр, документирование онтологий, импорт и экспорт онтологий между системами и другие функции управления онтологиями.


Средства построения онтологий
Инструменты построения онтологий

Основная функция любого редактора онтологий состоит в поддержке процесса формализации знаний и представлении онтологии как спецификации (точного и полного описания).

Система Ontolingua была разработана в KSL (Knowledge Systems Laboratory) Стенфордского университета и стала первым инструментом инженерии онтологий. Она состоит из сервера и языка представления знаний.

Сервер Ontolingua организован в виде набора онтологий, относящихся к Web-приложениям, которые надстраиваются над системой представления знаний Ontolingua. Редактор онтологий – наиболее важное приложение сервера Ontolingua является Web-приложением на основе форм HTML. Кроме редактора онтологий, сервер Ontolingua включает сетевое приложение Webster (получение определений концептов), сервер OKBC (доступ к онтологиям Ontolingua по протоколу OKBC) и Chimaera (анализ, объединение, интегрирование онтологий). Все приложения, кроме сервера OKBC, реализованы на основе форм HTML. Система представления знаний реализована на Lisp.

Сервер Ontolingua также предоставляет архив онтологий, включающий большое количество онтологий различных предметных областей, что позволяет создавать онтологии из уже существующих. Сервер поддерживает совместную разработку онтологии несколькими пользователями, для чего используются понятия пользователей и групп. Система включает графический браузер, позволяющий просмотреть иерархию концептов, включая экземпляры. Ontolingua обеспечивает использование принципа множественного наследования и богатый набор примитивов. Сохраненные на сервере онтологии могут быть преобразованы в различные форматы для использования другими приложениями, а также импортированы из ряда языков в язык Ontolingua.

Protégé – локальная, свободно распространяемая Java-программа, разработанная группой медицинской информатики Стенфордского университета (первая версия – 1987, последняя Protégé-2.1.1 – июнь 2004). Программа предназначена для построения (создания, редактирования и просмотра) онтологий прикладной области. Её первоначальная цель – помочь разработчикам программного обеспечения в создании и поддержке явных моделей предметной области и включение этих моделей непосредственно в программный код. Protégé включает редактор онтологий, позволяющий проектировать онтологии, разворачивая иерархическую структуру абстрактных или конкретных классов и слотов. Структура онтологии сделана аналогично иерархической структуре каталога. На основе сформированной онтологии, Protégé может генерировать формы получения знаний для введения экземпляров классов и подклассов. Инструмент имеет графический интерфейс, удобный для использования неопытными пользователями, снабжен справками и примерами.

Protégé основан на фреймовой модели представления знания OKBC (Open Knowledge Base Connectivity) и снабжен рядом плагинов, что позволяет его адаптировать для редактирования моделей, хранимых в разных форматах (стандартный текстовый, в базе данных JDBC, UML, языков XML, XOL, SHOE, RDF и RDFS, DAML+OIL, OWL).

OntoEdit первоначально был разработан в институте AIFB (Institute of Applied Informatics and Formal Description Methods) Университета Karlsruhe (сейчас коммерциализован Ontoprise GmbH) выполняет проверку, просмотр, кодирование и модификацию онтологий. В настоящее время OntoEdit поддерживает языки представления: FLogic, включая машину вывода, OIL, расширение RDFS и внутреннюю, основанную на XML, сериализацию модели онтологии, используя OXML — язык представления знаний OntoEdit (OntoEdit’s XML-based Ontology representation Language). К достоинствам инструмента можно отнести удобство использования; разработку онтологии под руководством методологии и с помощью процесса логического вывода; разработку аксиом; расширяемую структуру посредством плагинов, а также очень хорошую документацию.

Так же как и Protégé, OntoEdit – автономное Java–приложение, которое можно локально установить на компьютере. Свободно распространяемая версия OntoEdit Free ограничена 50 концептами, 50 отношениями и 50 экземплярами. Архитектура OntoEdit подобна Protégé.

OilEd – автономный графический редактор онтологий, разработан в Манчестерском университете в рамках европейского IST проекта On-To-Knowledge. Инструмент основан на языке OIL (сейчас адаптирован для DAML+OIL, в перспективе – OWL), который сочетает в себе фреймовую структуру и выразительность дескриптивной логики (DL -Description Logics) с сервисами рассуждения. Что позволило обеспечить понятный и интуитивный стиль интерфейса пользователя и преимущества поддержки рассуждения (обнаружение логически противоречивых классов и скрытых отношений подкласса).

Из недостатков можно выделить отсутствие поддержки экземпляров. Существующая версия не обеспечивает полную среду разработки – не поддерживается разработка онтологий большого масштаба, миграция и интеграция онтологий, контроль версий и т.д. OilEd можно рассматривать как “NotePad” редакторов онтологий, предлагающий достаточную функциональность, чтобы позволить пользователям строить онтологии и продемонстрировать, как можно использовать механизм рассуждения FaCT для проверки онтологии на непротиворечивость.

В последнее время наблюдается рост популярности редактора OilEd. Он используется как для обучения, так и для исследования. Инструмент свободно распространяется по общедоступной лицензии GPL.

WebOnto разработан для Tadzebao – инструмента исследования онтологий и предназначен для поддержки совместного просмотра, создания и редактирования онтологий. Его цели – простота использования, предоставление средств масштабирования для построения больших онтологий.

Для моделирования онтологий WebOnto использует язык OCML (Operational Conceptual Modeling Language). В WebOnto пользователь может создавать структуры, включая классы с множественным наследованием, что можно выполнять графически. Все слоты наследуются корректно. Инструмент проверяет вновь вводимые данные контролем целостности кода OCML.

Инструмент имеет ряд полезных особенностей: сохранение структурных диаграмм, раздельный просмотр отношений, классов, правил и т.д. Другие возможности включают совместную работу нескольких пользователей над онтологией, использование диаграмм, функций передачи и приёма и др.

OntoSaurus является Web-браузером для баз знаний LOOM. Он состоит из двух основных модулей: сервера онтологий и Web-браузера для редактирования и просмотра онтологий LOOM с помощью HTML-форм, обеспечивая для них графический интерфейс. OntoSaurus также предоставляет ограниченные средства редактирования, но его основная функция — просмотр онтологий. Но для построения сложных онтологий нужно понимать язык LOOM. Большинство пользователей строят онтологию на языке LOOM в другом редакторе, а затем для просмотра и редактирования импортируют его в OntoSaurus. В OntoSaurus реализованы все возможности языка LOOM. Обеспечиваются автоматический контроль совместимости, дедуктивная поддержка рассуждения и некоторые другие функции.

Конструктор онтологий ODE (Ontological Design Environment), который взаимодействует с пользователями на концептуальном уровне в отличие от инструментов, подобно OntoSaurus, общающихся на символьном уровне. Мотивом для ODE послужило то, что людям проще формулировать онтологии на концептуальном уровне. ODE обеспечивает пользователей набором таблиц для заполнения (концептов, атрибутов, отношений) и автоматически генерирует для них код в LOOM, Ontolingua и FLogic.

KADS22 — инструмент поддержки проектирования моделей знаний согласно методологии CommonKADS. Онтологии составляют часть таких моделей знаний (другая часть — модели вывода). Модели CommonKADS определены в CML (Conceptual Modeling Language). KADS22 – интерактивный графический интерфейс для CML со следующими функциональными возможностями: синтаксический анализ файлов CML, печать, просмотр гипертекста, поиск, генерация глоссария и генерация HTML.

Инструменты для отображения, выравнивания и объединения онтологий

Сегодня онтологии доступны в разных представлениях. Но, что делать, когда мы находим несколько онтологий, которые бы хотели использовать, но они не соответствуют друг другу?

Тогда используют средства отображения, выравнивания и объединения онтологий, которые нужны для того, чтобы не только вводить и редактировать онтологическую информацию, но и анализировать ее, выполняя типичные операции над онтологиями, например:


  • объединение (merging) онтологий — операция, которая по двум онтологиям генерирует третью, объединяющую информацию из первых двух;

  • отображение (mapping) одной онтологии на другую — нахождение семантических связей между подобными элементами разных онтологий;

  • выравнивание (alignment) онтологий — установка различного вида соответствий между двумя онтологиями для того, чтобы они могли использовать информацию друг друга.

Инструменты объединения онтологий помогают пользователям найти сходство и различие между исходными онтологиями и создают результирующую онтологию, которая содержит элементы исходных онтологий. Для достижения этой цели они автоматически определяют соответствия между концептами в исходных онтологиях или обеспечивают среду, где пользователь может легко найти и определить эти соответствия. Эти инструменты известны как инструменты отображения, выравнивания и объединения онтологий, так как они выполняют сходные операции для процессов отображения, выравнивания и объединения.

Отображение (mapping) онтологии заключается в нахождении семантических связей подобных элементов из разных онтологий.

Выравнивание (alignment) онтологий состоит в том, чтобы установить различные виды соответствия (или связи) между двумя онтологиями, а затем повторно сохранить исходные онтологии и таким образом, в дальнейшем использовать информацию друг друга. Объединение (merging) онтологий – генерация одной согласованной онтологии из двух исходных.

Исследователи разных областей информатики работают над автоматическим или поддерживаемым инструментально объединением онтологий (или иерархии классов, или объектно-ориентированных схем, или схем баз данных – определенная терминология изменяется в зависимости от области применения). Однако и автоматическое объединение онтологий, и создание инструментальных средств, которые бы управляли пользователем в этом процессе, находятся на ранних стадиях развития. В этом разделе представлен краткий обзор некоторых из существующих подходов.

Инструментальные средства, которые имеют дело с нахождением соответствия между онтологиями, классифицируются следующим образом:

для объединения двух онтологий с целью создания одной новой (PROMPT, Chimaera, OntoMerge);

для определения функции преобразования из одной онтологии в другую (OntoMorph);

для определения отображения между концептами в двух онтологиях, находя пары соответствующих концептов (например, OBSERVER, FCA-Merge);

для определения правил отображения для связи только релевантных частей исходных онтологий (ONION).

Рассмотрим теперь вышеупомянутые средства более подробно.

PROMPT — дополнение к системе Protégé, реализованное в виде плагина, служит для объединения и группировки онтологий. При объединении двух онтологий PROMPT создает список предлагаемых операций. Операция может состоять, например, из объединения двух терминов или копирования терминов в новую онтологию. Пользователь может выполнить операцию, выбирая одну из предлагаемых или определяя непосредственно операцию. PROMPT выполняет выбранную операцию и дополнительные изменения, вызванные этой операцией. Потом список предлагаемых операций модифицируется и создается список конфликтов и возможных решений этих конфликтов. Это повторяется до тех пор, пока не будет готова новая онтология.

Chimaera — интерактивный инструмент для объединения, основанный на редакторе онтологий Ontolingua. Chimaera позволяет пользователю объединять онтологии, разработанные в различных формализмах. Пользователь может запрашивать анализ или руководство от Chimaera в любой момент в течение процесса объединения, и инструмент направит его на те места в онтологии, где требуется его вмешательство. В своих предложениях Chimaera главным образом полагается на то, из какой онтологии прибыли концепты, основываясь на их именах. Chimaera оставляет решение о том, что делать пользователю, и не делает никаких предложений самостоятельно. Единственное таксономическое отношение, которое рассматривает Chimaera – отношение подкласс — суперкласс. Chimaera самый близкий к PROMPT. Однако поскольку он использует в своем анализе только иерархию класса, он пропускает многие из соответствий, которые находит PROMPT. Эти соответствия включают предложения по объединению слотов с подобными именами, которые относятся к объединенным классам, объединению доменов слотов, которые были объединены и т. д.

В OntoMerge объединенная онтология есть объединение двух исходных онтологий и набора аксиом соединения. Первый шаг в процессе объединения в OntoMerge состоит в трансляции обеих онтологий к общему синтаксическому представлению на разработанном авторами языке. Затем инженер онтологии определяет аксиомы соединения, содержащие термины из обеих онтологий. Процесс трансляции экземпляров выглядит следующим образом: все экземпляры в исходных онтологиях, рассматриваются как находящиеся в объединенной онтологии. Затем на основе инструкций в исходных онтологиях и аксиом соединения машина вывода сделает заключение, таким образом, создавая новые данные в объединенной онтологии. OntoMerge предоставляет инструменты для трансляции данных-экземпляров в объединенную онтологию.

OntoMorph определяет набор операторов преобразования, которые можно применить к онтологии. Затем человек-эксперт использует начальный список пар и исходных онтологий для определения набора операторов, которые должны быть применены к исходным онтологиям для устранения различий между ними, и OntoMorph применяет эти операторы. Таким образом, совокупность операций может выполняться за один шаг. Однако, человек-эксперт не получает никакого руководства за исключением начального списка пар.

Система OBSERVER применяет дескриптивную логику (DL) для ответа на запросы, используя несколько онтологий и информацию об отображении между ними. Вначале пользователи определяют набор межонтологических отношений. Система помогает справиться с этой задачей, находя синонимы в исходных онтологиях. Определив отображения, пользователи могут формулировать запросы в терминах DL с помощью собственной онтологии. Затем OBSERVER использует информацию отображения для формулировки запросов к исходным онтологиям. OBSERVER в значительной степени полагается на тот факт, что описания в онтологиях и запросах являются содержательными.

FCA-Merge — метод для сравнения онтологий, которые имеют набор общих экземпляров или набор общих документов, аннотируемых с помощью концептов исходных онтологий. Основываясь на этой информации, FCA-Merge использует математические методы из Formal Concept Analysis для того чтобы произвести решетку концептов, связывающую концепты исходных онтологий. Алгоритм предлагает отношения эквивалентности и подкласс-суперкласс. Затем инженер онтологии может анализировать результат и использовать его как руководство для создания объединенной онтологии. Однако предположение, что две объединяемые онтологии используют общий набор экземпляров или имеют набор документов, в котором каждый документ аннотируется терминами обоих источников слишком жесткое и на практике такая ситуация происходит редко. В качестве альтернативы, авторы предлагают использовать методы обработки естественного языка для аннотации набора документов концептами из этих двух онтологий.

Система ONION (ONtology compositION) основана на алгебре онтологии. Поэтому, она предоставляет инструменты для определения правил артикуляции (соединения) между онтологиями. Правила артикуляции обычно учитывают только релевантные части исходных онтологий. Для того чтобы предложить соединение, ONION использует и лексические методы, и методы на основе графов. Метод нахождения лексического подобия между именами концептов использует словари и методы семантической индексации, основанные на местонахождении группы слов в тексте.

Инструменты аннотирования на основе онтологий

Важнейшим предусловием реализации целей семантического Web является возможность аннотировать Web-ресурсы семантической информацией. В связи с этим в последние годы инструменты инженерии онтологий эволюционируют в сторону разработки инструментов аннотирования на основе онтологий.

Инструмент аннотации MnM обеспечивает поддержку автоматической и полуавтоматической разметки Web-страниц семантическим содержанием. MnM интегрирует Web-браузер и редактор онтологии и обеспечивает открытые интерфейсы связи с серверами онтологий и инструментами извлечения информации. MnM можно рассматривать в качестве одного из первых примеров следующего поколения редакторов онтологий, на основе Web, ориентирующихся на семантическую разметку и обеспечивающих механизм полномасштабной автоматической разметки Web-страниц.

С помощью SHOE’s Knowledge Annotator пользователь может также описывать содержание Web-страниц. Инструмент имеет интерфейс, который отображает экземпляры, онтологии и утверждения (собранные документы). Также обеспечивается проверка целостности. SHOE’s Knowledge Annotator позволяет пользователям выполнять разметку страниц в SHOE, под управлением онтологий доступных локально или через URL. Эти размеченные страницы могут быть проанализированы инструментальными средствами, знающими язык SHOE, типа SHOE Search. Аннотируемые Web-страницы могут быть также проанализированы другим инструментом по имени Expos'e, а содержание будет сохранено в репозитарии. Это SHOE-знание затем сохраняется в базе знаний Parka.

Инструмент Metabrowser также частично решает проблему аннотирования Web-ресурсов. Он может работать, например, на базе онтологии Дублинского ядра (Дублинское ядро можно рассматривать как простейшую онтологию) и предлагать ряд возможностей для автоматического создания и просмотра метаданных. Metabrowser (включая свободно распространяемую версию), отображает метаданные Web-страницы вместе с самой Web-страницей.

Известны и российские разработки, например, системы CAKE, ВИКОНТ, VITA, позволяющих визуально проектировать онтологии различных предметных областей, или система БиГОР для сопровождения онтологий, как составных частей образовательных ресурсов.
Сравнительный анализ инструментов

Мы вкратце рассмотрели три группы инструментов: построения онтологий; отображения, выравнивания и объединения онтологий и аннотирования на основе онтологий. В соответствии с каждой группой инструментов попытаемся сравнить их между собой

Инструменты построения онтологий можно разделить на два типа: разработанные для редактирования онтологий на определенном языке онтологий и интегрированные наращиваемые инструментальные сайты (Web-приложения, на основе форм HTML и/или Java-апплетов), большинство из которых не зависит от языка представления.

Следует подчеркнуть, что большинство из рассмотренных инструментальных средств разрабатываются университетскими исследовательскими группами, которые предоставляют открытый код, либо предлагают свободный доступ к функциям. Однако наиболее перспективные из них передаются коммерческим компаниям (например, OntoEdit Professional — лицензированный продукт).

Инструменты OntoEdit, WebODE и KADS22 дают поддержку методологиям построения онтологий, соответственно On-To-Knowledge, METHONTOLOGY и CommonKADS, что не мешает им быть используемыми в других методологиях или вообще без них.

Касаясь технического аспекта, а именно архитектуры программного обеспечения (локальная, клиент-серверная, n-уровневая), расширяемости, языков программирования, на которых реализованы инструменты, способов хранения онтологий (в файлах или базах данных), необходимо отметить следующее.

Более ранние инструменты Ontolingua, OntoSaurus и WebOnto имеют клиент-серверную архитектуру. Protégé, OntoEdit и OilEd имеют 3-х уровневую архитектуру, где существует четкое разделение между хранением онтологий, модулями бизнес-логики, логики приложений и приложениями интерфейса пользователя. Эти инструменты обладают большими возможностями по наращиванию (например, при помощи плагинов). Большинство инструментов хранит свои онтологии в текстовых файлах, что ограничивает размер онтологий. Только Protégé и WebODE могут хранить свои онтологии в базах данных и таким образом управлять большими онтологиями. Наконец, большинство инструментов реализовано на Java.

Выше уже говорилось о том, что модели знания инструментов определяют компоненты, которые должны использоваться при построении онтологии. Большинство инструментов представляет онтологии, комбинируя фреймы и логику первого порядка (First Order Logic — FOL). Однако это еще не означает, что они могут представлять одни и те же компоненты с одним и тем же количеством информации. Только два из перечисленных инструментов, OilEd и OntoSaurus, основаны на дескриптивной логике.

Далее остановимся на некоторых свойствах редакторов онтологий. Интерфейс пользователя редакторов онтологий может быть Web-приложением на основе форм HTML (Ontolingua, OntoSaurus и WebODE) и/или Java-апплетов (WebOnto) или локальным приложением (Protégé, OntoEdit, OilEd).

Все редакторы онтологий за исключением OilEd, Ontolingua и OntoSaurus обеспечивают графические средства редактирования и просмотра онтологий, где классы обычно представлены узлами на графах, а отношения — дугами между ними. Дополнительно к этим графическим функциям, OilEd, OntoEdit Professional, Protégé и WebODE предоставляют некоторую поддержку в написании формальных аксиом и сложных выражений.

OntoEdit, Ontolingua, OntoSaurus, WebODE и WebOnto поддерживают совместную разработку онтологий, предоставляя отдельным пользователям или группам пользователей разрешение на доступ и написание различных наборов онтологий.

Разнообразие инструментов для отображения, выравнивания и объединения онтологий делает сложным их непосредственное сравнение. Фактически, когда разработчик должен решить вопрос, какой инструмент является наиболее подходящим, все будет зависеть от конкретной задачи. Например, если объединяемые онтологии совместно используют набор экземпляров, то лучше всех может работать FCA-Merge. Если онтологии имеют экземпляры, но совместно их не используют, и многие значения слотов содержат текст, лучшим выбором может стать GLUE. Если только части онтологий должны быть отображены, можно было бы выбрать инструмент ONION. Если онтологии имеют очень ограниченную структуру, а концепты имеют подробные определения на естественном языке (одном), инструментальные средства ISI/USC могут обеспечивать лучшие ответы. Если экземпляры вообще не доступны, и онтологии содержат много отношений между концептами, лучше всех может работать Prompt .


IDEF5

Понятие онтологии и онтологического анализа вошли и в процедуры и стандарты моделирования бизнес-процессов.

Для моделирования сложных систем разработан ряд методологий, например методологии семейства IDEF (Integrated DEFintion). IDEF содержит 14 государственных стандартов США, созданных в рамках предложенной ВВС США программы компьютеризации промышленности ICAM. Они предназначены для анализа процессов взаимодействия в производственных системах. Методика IDEF5 служит для представления онтологий в графической форме.

Онтологический анализ обычно начинается с составления словаря терминов, который используется при обсуждении и исследовании характеристик объектов и процессов, составляющих рассматриваемую систему, а также создания системы точных определений этих терминов. Кроме того, документируются основные логические взаимосвязи между соответствующими введенным терминам понятиями. Результатом этого анализа является словарь терминов, точных их определений и взаимосвязей между ними.

Таким образом, онтология содержит совокупность терминов и правила, согласно которым эти термины могут быть скомбинированы для построения достоверных утверждений о состоянии рассматриваемой системы в некоторый момент времени. Кроме того, на основе этих утверждений могут быть сделаны соответствующие выводы, позволяющие вносить изменения в систему для повышения эффективности её функционирования.

Разработку онтологии в соответствии с IDEF5 рекомендуется проводить в следующей последовательности:

1) Подготовка к разработке — формулировка целей, плана и распределение ролей участников.

2) Сбор данных.

3) Анализ и группирование данных.

4) Создание исходной версии онтологии.

5) Уточнение онтологии, ее утверждение.

На начальном этапе построения онтологии должны быть выполнены следующие задачи:



  • создание и документирование словаря терминов;

  • описание правил и ограничений, согласно которым на базе введенной терминологии формируются достоверные утверждения, описывающие состояние системы;

  • построение модели, которая на основе существующих утверждений позволяет формировать необходимые дополнительные утверждения.

Для поддержания процесса построения онтологии в IDEF5 разработаны специальные онтологические языки: схемный язык (Schematic Language-SL) и язык доработок и уточнений (Elaboration Language-EL).

Элементы графического языка IDEF5 представлены на рис. 1. С помощью этих элементов изображаются диаграммы классификации (обобщения), композиции (агрегирования), состояний и взаимосвязей между классами.





Рис. 1.  Основные графические элементы IDEF5


Существуют четыре основных вида схем, которые используются для накопления информации об онтологии в прозрачной графической форме.

  • диаграмма классификации (Classification Schematics) — обеспечивает механизм для логической систематизации знаний, накопленных при изучении системы;

  • композиционная схема (Composition Schematics) — механизм графического представления состава классов онтологии, позволяющий описывать, что из каких частей состоит, т. е. наглядно отображать состав объектов, относящихся к тому или иному классу;

  • схема взаимосвязей (Relation Schematics) — инструмент визуализации и изучения взаимосвязей между различными классами объектов в системе;

  • диаграмма состояния объекта (Object State Schematics) — средство документации процессов с точки зрения изменения состояния объекта.

Таким образом, диаграммы состояния в IDEF5 наглядно представляют изменения состояния или класса объекта в течение всего хода процесса. При построении концептуальной модели используются предметные знания в виде набора понятий и связывающих их отношений. Каждое понятие имеет имя и может иметь атрибуты, каждый атрибут может иметь значение с учетом специфики предметной области.

Строение и свойства любой системы могут быть эффективно исследованы при помощи словаря терминов, используемых при описании характеристик объектов и процессов, имеющих отношение к рассматриваемой системе, точных и однозначных определений всех терминов этого словаря и классификации логических взаимосвязей между этими терминами. Набор этих средств и является онтологией системы, а стандарт IDEF5 предоставляет структурированную методологию, с помощью которой можно наглядно и эффективно разрабатывать, поддерживать и изучать эту онтологию.


Системы управления знаниями
Знания — совокупность сведений, отчетов, фактов, понятий, представлений о чем-либо, накопленных в результате обучения, опыта, в процессе деятельности. Корпоративные знания — знания, которые доступны организации в явном виде и могут использоваться для повышения эффективности сотрудниками данной организации.

Управление знаниями (Knowledge Management) — совокупность процессов и технологий, предназначенных для выявления, создания, распространения, обработки, хранения и предоставления для использования знаний. Управление знаниями — это стратегия предприятия, цель которой — выявить и обратить на пользу фирме всю имеющуюся у нее информацию, опыт и квалификацию сотрудников с тем, чтобы повысить качество обслуживания клиентов и сократить время реакции на меняющиеся рыночные условия. Термин "управление знаниями" начал использоваться еще в середине 1990-х годов в связи с проблемами, возникшими при обработке больших объемов информации в крупных корпорациях. Он связан с поддержкой процессов создания, распространения, обработки и использования знаний внутри предприятия. При этом знания классифицируются и распределяются по категориям в соответствии с предопределенной, но развивающейся онтологией структурированных и слабо структурированных баз данных и баз знаний.

Система управления знаниями (СУЗ или Organizational Memory Information Systems — OMIS) является корпоративной информационной системой, предназначенной для хранения, генерирования и доставки пользователям полезной информации по вопросам деятельности компании. Назначение OMIS — накопление информации, позволяющей решать производственные задачи, обеспечение доступности и повторной используемости знаний на уровне всей корпорации. Для этого OMIS должна предоставлять нужные данные, не полагаясь на запросы пользователей. Система должна действовать как интеллектуальный помощник пользователя. В СУЗ знаниями считают всю доступную информацию (документы, сведения о заказчиках, описание технологий работы, продукции и т. д.), а также закономерности предметной области, полученные из практического опыта или внешних источников.

Одними из первых СУЗ были хранилища данных. В дальнейшем идея хранилища трансформировалась в понятие корпоративной памяти, которая содержит гетерогенную информацию из различных источников и обеспечивает доступ к ней для решения производственных задач.

При построении систем управления знаниями используют такие разделы искусственного интеллекта, как онтологии, многоагентные системы, экспертные системы. OMIS должны быть связаны с другими компонентами корпоративных информационных систем, поддерживающими управление документами и документооборотом.

На физическом уровне СУЗ рекомендуется создавать в виде хранилищ данных, отличающихся от обычных распределенных БД согласованностью хранимой информации.

Архитектура СУЗ и используемые в СУЗ методы функционирования существенно зависят от характера обслуживаемой информации.

В случае сильно структурированных данных управление данными реализуется с помощью обычных средств СУБД. Интеллектуальный анализ данных выполняется методами, характерными для систем OLAP, извлечение сведений о зависимостях и закономерностях, имеющихся в данных, осуществляется с помощью систем Data Mining.

Основу большинства технологий управления слабо структурированными данными составляют модели онтологий и их представление в общем случае в виде тезаурусов и семантических сетей, а в некоторых более частных случаях — в виде морфологических таблиц, альтернативных И-ИЛИ-графов, фреймов, описывающих иерархии целей, показателей, альтернатив и т.п. Применяются также технологии информационно-поисковых систем.

При разработке СУЗ выделяют следующие этапы:

накопление — стихийное и бессистемное накопление информации в организации;

извлечение — процесс, идентичный традиционному извлечению знаний для экспертной системы (один из наиболее сложных и трудоемких этапов, от его успешности зависит дальнейшая жизнеспособность системы);

структурирование — на этом этапе должны быть выделены основные понятия, выработана структура представления информации, обладающая максимальной наглядностью, простотой изменения и дополнения;

формализация — представление структурированной информации в форматах машинной обработки, то есть на языках описания данных и знаний;

обслуживание — под процессом обслуживания понимается корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям.

Примером системы, реализующей онтологический подход к представлению и управлению знаниями, может служить система БиГОР. Эта система предназначена для компиляции новых учебных пособий из элементов — отдельных документов (модулей) базы знаний. Очевидно, что в системе могут формироваться любые ассоциации документов, связанных отношениями онтологии, для решения конкретных возникающих задач. Тем самым, БиГОР можно считать системой генерации новых знаний.


Онтологическая СУЗ

Онтологичекая система управления знаниями (онтологическая СУЗ) основана на использовании онтологий. Создаваемая для СУЗ онтология приложения представляется в виде семантической сети и словаря понятий (тезауруса).



Знания в онтологической системе управления знаниями выражены отдельными понятиями (сущностями, концептами) и отношениями между понятиями, которые в семантической сети изображаются соответственно вершинами и ребрами. Каждому понятию могут соответствовать модули знаний (документы, статьи), содержащие необходимые описания, относящиеся к понятию. Модули имеют метаданные, имена понятий входят в число метаданных. Понятия, используемые для определения -го понятия с именем , называются предшествующими понятиями (по отношению к ), их множество обозначим , а понятия, для определения которых используется , называются последующими, их множество обозначим . Следовательно, -й вершине соответствует отношение (, , ), причем для корневой вершины сети =, для терминальных вершин =.

Понятия (вершины) можно подразделять на частные (факты) и базовые (знания, обобщающие факты). Создание базовой подсети или ее корректировка и являются собственно генерацией новых знаний. Примером знаний в базовой подсети могут быть методы решения проблем, а фактами в частной подсети — программы решения задач или документы с описаниями действий в конкретных ситуациях, которые возникали в процессе функционирования предприятия (рис. 1).





Рис. 1.  Примеры компонентов семантической сети

Общая семантическая сеть в онтологической СУЗ может быть разделена на ряд фрагментов, соответствующих разделам корпоративных знаний. Такими фрагментами могут быть "маркетинг", "кадры", "обеспечение качества продукции" и др. На рис. 2 приведен упрощенный пример фрагмента семантической сети для решения задач реинжиниринга. На рисунке цветными показаны вершины, соответствующие базовой подсети, а неокрашенные вершины соответствуют фактам.





Рис. 2.  Фрагмент семантической сети "Реинжиниринг"

Рассмотрим, каким образом могут решаться задачи управления знаниями с помощью онтологической СУЗ.

1. Задача поиска документов. Словарь СУЗ содержит все используемые в онтологии понятия. Поиск документов осуществляется с помощью индекса, включающего имя понятия (учитываются только основы слов) и месторасположение относящихся к нему документов в информационной сети.

Особенностью СУЗ является целесообразность реализации методов поиска по динамически формируемым запросам. Часто нужный документ характеризуется не концептами, содержащимися в запросе, а близкими к ним в семантическом смысле терминами. Наличие семантической сети (СС) позволяет автоматически расширить поисковый запрос синонимами и концептами, находящимися в СС в "окрестности" заданного исходного концепта.

2. Задача принятия решений. Принятие решений в онтологической СУЗ осуществляется с помощью известного метода поиска в глубину. Автоматический поиск решений возможен, если известна функция оценки формируемых решений — целевая функция, заданная на множестве понятий. Тогда используются те или иные методы дискретной оптимизации, например, генетические алгоритмы. Как правило, такая функция не задана, вследствие чего оценка промежуточных и окончательных решений производится ЛПР (лицом, принимающим решение) в интерактивном режиме. Роль СУЗ при этом заключается в прокладывании маршрута поиска в семантической сети с учетом допустимости шагов формирования решения. Очередной шаг поиска заключается в переходе от текущей вершины к одной из вершин , после чего становится текущей вершиной. Любая текущая вершина либо принимается ЛПР, либо отвергается. Для этого могут быть использованы экспертные оценки, например, в соответствии с методом анализа иерархий. Далее осуществляется либо переход в новую текущую вершину и ее анализ, либо бектрекинг. Процесс продолжается, пока не будет принято решение о прекращении поиска с фиксацией полученного результата.

Обычно формирование решения происходит при наличии тех или иных ограничений. Типичными ограничениями являются ограничения на совместимость или на принадлежность компонент решения к одной и той же группе (например, выбираемых единиц оборудования к продукции одного и того же производителя). Эти ограничения учитываются в семантической сети включением в сеть некоторых дополнительных вершин (например, вершин производителей оборудования) и соответствующих ребер.

3. Генерация новых знаний. Генерацию новых знаний следует отождествлять либо с выделением в уже сформированной базе знаний компонентов, отвечающих условиям поставленной задачи, либо с включением в базовую часть семантической сети новых элементов, каковыми могут быть:


  • новые понятия;

  • новые отношения между понятиями;

  • новые отношения между понятиями и документами.

Выделение компонентов в имеющейся базе знаний в простейшем случае совпадает с задачей поиска документов по заданным ключевым словам. В случаях, когда результат поиска на множестве документов может быть оценен количественно, задача сводится к задаче принятия решений.

Включение новых элементов в семантическую сеть может осуществлять ЛПР (администратор базы знаний). Но возможны и полуавтоматические методы генерации. Так, выявление новых концептов — это поиск специфических терминов в новых документах, поступающих в БД. Такими терминами являются термины, отсутствовавшие в СС и встречающиеся только в новом документе.

Новые отношения могут устанавливаться по признаку совместного использования концептов при решении конкретной проблемы. Это динамически определяемые отношения, причем ослабевающие со временем (для них целесообразно установить некоторый "период полураспада").

Новые отношения между понятиями и документами могут включаться в СС, если в документах СУЗ автоматически выделяются все термины (как в БиГОРе), соответствующие понятиям онтологии. Пользователю остается лишь отобрать нужные термины, которые будут трансформироваться в гиперссылки. Новые отношения между понятиями и документами появляются также при добавлении в метаданные документов ссылок на термины.

Реализация онтологической СУЗ возможна с помощью онтологических систем формирования учебных материалов типа БиГОР. Для моделирования онтологической СУЗ, помимо семантической сети, можно использовать сети Петри или диаграммы деятельности языка UML. С их помощью отображается процесс принятия решения как последовательность событий.




Рис. 3.  Представление отношения (Qi, Mi, Gi) в системе БиГОР

Пример 1


На рис. 3 и 4 показаны примеры представления отношения (, , ) в системе БиГОР. Так, в примере рис. 3:

={информационные технологии},

= реинжиниринг,

={автоматизация проектирования; автоматизация управления предприятием; вычислительная сеть}.

В рамке показаны краткое определение понятия и список модулей, относящихся к .





Рис. 4.  Пример фрагмента тезауруса приложения "CALS-технологии" в системе БиГОР


Каталог: sites
sites -> Валявский Андрей Как понять ребенка
sites -> Петинова М. А. П 29 Философия техники
sites -> Народная художественная культура. Профиль Теория и история народной художественной культуры
sites -> Программа «Психология личности»
sites -> Отчет о научно-исследовательской работе за 2014 год ростов-на-Дону 2014
sites -> Вопросы для обсуждения, докладов, рефератов по дисциплине социология молодежи для студентов, обучающихся на направлении 040700 Организация работы с молодёжью


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница