В. К. Финн Об интеллектуальном анализе данных



Скачать 346.7 Kb.
страница1/5
Дата10.05.2018
Размер346.7 Kb.
  1   2   3   4   5




В.К. Финн

Об интеллектуальном анализе данных


// Новости Искусственного интеллекта, № 3, 2004
Одним из активно развивающихся разделов направления исследований «искусственный интеллект» является анализ данных, получивший названия в англоязычной литературе “data mining” и “knowledge discovery” [1].

Под “knowledge discovery in databases” (обнаружение знаний в базах данных) (КДД) понимают какой-либо нетривиальный процесс идентификации достоверных, новых, потенциально полезных и хорошо понимаемых образцов (структур, patterns) в данных ([1], с. 6).

Под данными понимают множество фактов (разумеется, представленных в соответствии с формулируемыми целями их использования), а под образцами (patterns) понимают некоторые выражения Е (формулы языка L), некоторым образом характеризующие подмножество фактов (при этом утверждается, что Е не сводится к перечислению подмножества фактов из БД). Предполагается, конечно, что L есть некоторый формальный язык представления знаний.

Под процессом КДД понимают многошаговую систему процедур, включающую подготовку данных, поиск образцов в БД, оценку извлеченного знания, корректировку и итерацию процедур.

Под достоверностью извлеченных образцов понимают сохранение их оценки (некоторой степени достоверности) на новых (расширенных) данных.

Под знанием [1] понимают извлеченный из БД образец Е, выраженный в языке L такой, что он имеет оценку , где  - заданный порог.

Под Data Mining понимают этап процесса КДД, состоящий в применении специфических алгоритмов порождения образцов Еi, извлеченных из БД (т.е. имеющегося множества фактов). Множество образцов может быть открытым, а их перечисление реализуется специальным алгоритмом.

Основными этапами КДД процесса являются следующие установки и процедуры [1].



  1. Выбор предметной области и релевантного знания для реализации целей конечного пользователя компьютерной системы.

  2. Выбор исходного множества данных (базы фактов) и подмножества переменных, которые необходимы для извлечения нового знания из базы фактов.

  3. Уточнение данных и предпроцессинг: выбор основных операций над данными так, что они могут способствовать уменьшению «шума», определение стратегий для его минимизации.

  4. Редукция данных: обнаружение полезных особенностей данных, чтобы представление данных было адекватным решению задач, соответствующих цели КДД.

  5. Выбор задачи data mining исследования, т.е. спецификация процесса КДД как классификации, кластеризации и т.д.

  6. Выбор алгоритмов, реализующих data mining для поиска образцов (patterns) в данных. Этот выбор должен быть согласован с моделями и параметрами представления данных.

  7. Data mining: поиск образцов в форме интересной для пользователя (правила классификации и кластеризации, регрессия, деревья решений и т.д.).

  8. Интерпретация порожденных образцов с возможным повторением этапов 1 – 7 для дальнейшей итерации.

  9. Обзор и согласование обнаруженного знания.

Таким образом, согласно [1] КДД процесс является использованием data mining алгоритмов для выделения знания (некоторых образцов, извлеченных из баз фактов) в соответствии с формулируемыми критериями принятия результатов при условии необходимого предпроцессинга, формирования выборок из базы фактов и некоторых ее преобразований.

Машинное открытие закономерностей, машинное обучение и, наконец, интеллектуальный анализ данных являются близкими по решаемым задачам и используемым методам направлениями в исследованиях и практических приложениях компьютерной науки. При широком толковании термина «интеллектуальный анализ данных» (ИАД) “data mining” и “knowledge discovery” являются видом ИАД. Это широкое толкование ИАД, по-видимому, состоит в том, что из неупорядоченных и неформализованных данных посредством различных формальных методов, могущих перерабатывать эти данные посредством некоторых алгоритмов в интерпретируемые результаты так, что из них можно извлечь некоторые знания в явном виде такие, что до применения этих методов эти знания были скрыты в массиве данных (т.е. в базе фактов [2]).

Методы извлечения новых знаний из баз фактов, применяемые в ИАД, весьма различны – это и статистические процедуры, генетические алгоритмы, нейронные сети, деревья решений, индуктивное логическое программирование и т.д. Общим обстоятельством в различных реализациях ИАД является то, что данные недостаточно формализованы, но извлекаемость из них посредством компьютерных программ новых полезных знаний возможна.

Относительно возможностей и перспектив развития ИАД возникают следующие естественные вопросы.



  1. Можно ли выделить типы предметных областей (моделей) таких, что им будут соответствовать специальные эвристики формализация которых облегчит решение задач ИАД, относящихся к эти предметным областям?

  2. Можно ли предложить формальные языки и логические средства ИАД такие, что с их помощью будут формализованы рассуждения, автоматизация которых приведет к программным системам, являющимся инструментом решения задач ИАД для соответствующих областей (моделей)?

  3. Существуют ли методы ИАД, способные не только извлекать из данных образцы (в смысле data mining) или некоторые закономерности, но и пригодные для формирования фрагментов теорий, использующих эмпирические данные?1

  4. Существуют ли интеллектуальные системы, пригодные для получения ответов на вопросы 1 – 3, и каково их строение?

  5. Каков смысл слова интеллектуальный в названии ИАД – раздела компьютерной науки?

Под словом «интеллектуальный» в названии ИАД будем понимать обнаружение нового (относительно имеющейся базы фактов (БФ) и базы знаний (БЗ)) знания, извлеченного из БФ и БЗ посредством интеллектуальной системы (ИС). Таким образом, ИАД есть анализ данных посредством ИС. Эта формулировка и есть ответ на вопрос 5.

Однако этот ответ будет информативным лишь при условии уточнения термина «интеллектуальная система» [3].

ИС есть компьютерная система для решения классов задач, которые или не могут быть решены человеком в реальное время, или же их решение требует автоматизированной поддержки, или же их решение дает результаты сопоставимые по информативности с решениями человека. Характеризация компьютерной системы как интеллектуальной будет неполной, если не будут уточнены как природа решаемых задач, так и средства их решения, реализуемые благодаря определенной архитектуре компьютерной системы.

Задачи, решаемые посредством ИС, являются некорректными в том смысле, что они требуют применения формализованной эвристики и не предполагают полноты знаний, являющихся исходными посылками при решении этих задач. Это означает, что применяемые эвристики должны приближенно отображать некоторые аспекты интеллекта [3], а, именно: способности упорядочения данных и знаний с выделением существенных параметров в данных в соответствии с реализуемой целью; способности к рассуждению как синтеза различных познавательных процедур, включающего эмпирическую индукцию, аналогию и дедукцию; способности к выдвижению гипотез («мыслить, следовательно, уметь выдвигать гипотезы» [4] – так считают П. Гаек и Т. Гавранек), способности отвечать на вопрос «почему?», которая может быть реализована посредством абдуктивного объяснения начального состояния базы фактов; способности к обучению на основе позитивных и негативных примеров, способности к фальсификации полученных результатов, и, наконец, способности к адаптации в соответствии с изменением множества фактов и знаний.

Аппроксимация этих способностей в компьютерной системе, которая является интеллектуальной, возможна благодаря ее специальной архитектуре2: ИС=Решатель задач + Информационная среда + Интеллектуальный интерфейс, где

Решатель задач = Рассуждатель + Вычислитель + Синтезатор,

Информационная среда = БФ + БЗ,

Интеллектуальный интерфейс = диалог + представление результатов (включая графику) + научение работе с системой.

Рассуждатель есть подсистема, реализующая логические средства решения задач, посредством которых формализуется соответствующая эвристика. Результатом такой формализации являются различные типы рассуждений, например, приближенные рассуждения, использующие аппарат нечетких множеств (эти рассуждения могут включать генетические алгоритмы); индуктивные рассуждения, использующие антиунификацию, которые осуществляются посредством индуктивного логического программирования, и, наконец, рассуждения, образованные синтезом различных познавательных процедур (например, индукции, аналогии абдукции и дедукции).

Очевидно, что и использование индукции или аналогии достаточно для того, чтобы рассуждения, включающие их, были бы правдоподобными.

Эта очевидность вытекает из того факта, что индукция и аналогия не переносят истинность посылок на заключение (перенос истинности с посылок на заключение является принципом дедукции как достоверного вывода). Аналогичное имеет место и для абдуктивного вывода в понимании Ч.С.Пирса [5].

Важно понимать, что правдоподобные рассуждения, формализующие эвристику решения задач, адекватные цели применения ИС, являются основным инструментом ее Решателя реализуемым в Рассуждателе.

В частности, правдоподобные рассуждения являются логическим средством автоматического порождения гипотез на основе БФ и БЗ, что является специфическим видом процесса КДД.

Существенно отметить, что индукция, аналогия и абдукция являются амплиативными выводами в смысле Ч.С.Пирса, т.е. выводами правдоподобными и порождающими новое знание относительно своих посылок, что является необходимым условием когнитивных процедур [3].

Словосочетание «вывод, основанный на знаниях» неявно подразумевает, что имеются в виду либо амплиативные выводы (т.е. «творческие» выводы, реализующие эвристические приемы – некоторые аргументированные догадки), либо дедуктивные выводы, применяемые к информативным посылкам из БФ и БЗ, характеризующим предметную область, благодаря представленным о ней знаниям.

Двумя другими компонентами Решателя являются Вычислитель и Синтезатор. Вычислитель применяется к числовым данным, используя численные методы, релевантные целям ИС (например, таковыми являются различные статистические методы анализа данных, квантовохимические расчеты для прогнозирования биологической активности химических соединений и т.д.).

Синтезатор выбирает стратегии, адекватные не только цели ИС, но и состоянию БФ, и результатам предыдущих применений Решателя.

Второй компонентой ИС является информационная среда, образованная двумя подсистемами – базой фактов (БФ) и базой знаний (БЗ). Попытаемся уточнить эти термины.

БФ – это представление элементарных событий некоторого фрагмента изучаемой предметной области. Каждое элементарное событие – это элемент некоторого отношения. Фрагмент же предметной области характеризуется заданной системой отношений R1(k),…, Rs(k), c арностью k1,….., ks , соответственно.

Факт есть элементарное высказывание pij языка представления знаний L с некоторой оценкой ij, представляющее j-ый элемент отношения Ri(k), где i = 1, ….,s.

Отметим, что оценка ij не обязательно является двузначной (истина, ложь), а может быть истинностным значением некоторой неклассической логики (в т.ч. вариантов нечетких логик). Таким образом, БФ есть множество элементарных высказываний pij с оценкой ij.

Наличие БФ как подсистемы ИС создает возможность осуществления машинного обучения [6,7], а, следовательно, расширения БЗ.

Если в ИС реализуется машинное обучение на основе БФ (т.е. обучение на положительных и отрицательных примерах изучаемых эффектов), то, возможно, использовать абдуктивное объяснение начального состояния БФ [5,8] не только для принятия порожденных Решателем гипотез, но и для расширения БФ (в случае, если не все факты начального состояния объяснены, ИС применяется к расширенной БФ с целью получить объясняющие БФ гипотезы).

Второй составляющей информационной среды ИС является БЗ – подсистема представления знаний [9].

Объяснение термина «знание» не является ныне сферой лишь философии и философской логики, ибо для создания БЗ требуется характеризация идеи «знание в компьютерной системе» («знание в КС»). Обычно выделяют три типа знаний для КС: декларативные, процедурные и концептуальные.

Под процедурными знаниями понимают задание алгоритмов и их комбинаций, применяемых в Решателе задач для достижения цели. Процедурным знанием являются стратегии решения задач, образованные посредством комбинирования различных видов, рассуждений и вычислений. Под декларативным знанием понимают системы утверждений и, в частности, характеризацию предметной области. Таковой являются аксиомы структуры данных (например, булевской) и дескриптивные утверждения, характеризующие предметную область (они могут быть необходимыми условиями корректности результатов применяемых процедур Решателя задач).

Декларативным знанием ИС являются также утверждения, выражающие в импликативном виде правила вывода Рассуждателя. Эти утверждения образуют метатеорию ИС и создают возможность исследования на логическом уровне процедур Рассуждателя. Разумеется, это возможно лишь при условии, что имеется алгоритмическая интерпретация предикатов, представляющих процедуры (т.е. правила вывода) и входящих в соответствующие импликативные утверждения.

Наконец, концептуальным знанием ИС является множество утверждений и определений понятий, характеризующих принципы создания ИС. Это знание является метатеоретическим, которым руководствуются создатели ИС.

Уточним теперь, три идеи: «представление знаний в ИС», «система знаний для ИС» и «база знаний ИС» (БЗ).

Рассуждения и вычисления, представление знаний и интерфейс являются практическими реализациями принципов функционирования ИС. Посредством этих компонент функционирования ИС осуществляется ИАД.

Под «представлением знаний в ИС» понимают как выбор формы выражения знания посредством некоторого специального языка L, так и содержание, отображающего фрагмент предметной области, введенный в ИС в соответствии с целями, т.е. решаемыми задачами [10].

Наиболее известными формами представления знаний в ИС являются язык логики предикатов 1-го порядка, семантические сети и фреймы [10].

В [11] рассматривался способ представления знаний для машинного обучения в БФ положительных и отрицательных примеров, названный квазиаксиоматическими теориями (КАТ). КАТ состоит из аксиом структуры данных (они необходимы для формализации сходства фактов), аксиом предметной области (они характеризуют ее лишь частично), процедурных аксиом, представляющих правила правдоподобного вывода; открытого множества фактов (т.е. БФ) и гипотез, порожденных Решателем задач, а также правил вывода, включающих правила правдоподобного вывода. Очевидно, что КАТ есть вид открытой теории, представленной в ИС. Отметим также предложенную Д.А. Поспеловым форму представления знаний, названную им семиотической моделью [12]. Этот способ представлений знаний может быть использован для анализа данных ситуационного управления.

Охарактеризуем теперь идею «система знаний для ИС». Разумеется, что не всякий набор сведений о предметной области пригоден для достижения целей ИС, т.е. для решения множества задач, которое осуществит Решатель. Может быть предложено следующее уточнение идеи «система знаний для ИС».

10. Пусть задана БФ для решения соответствующего класса задач ИС. Каждый факт F из БФ будем называть элементом базового множества знаний для ИС. Если F использовался Решателем (т.е. Рассуждателем или Вычислителем), то будем говорить, что F релевантен цели ИС (относительно данной задачи) (или: реально релевантен цели ИС); Иначе, будем говорить, что F потенциально релевантен цели ИС (относительно класса задач, решаемых в ИС).

20. Пусть заданы множества квантифицированных высказываний Σ* языка представления знаний L, выразительная сила которого не слабее выразительной силы языка логики предикатов 1-го порядка, и множество Σ0 неэлементарных бескванторных высказываний L.

Σ = Σ*Σ0 будем называть базовым множеством знаний для ИС.3

Каждый элемент базового множества знаний Σ по определению релевантен цели ИС.

Если pΣ и p было использовано Решателем при решении данной задачи, то, будем говорить, что p реально релевантно цели ИС (относительно данной задачи); иначе, будем говорить, что p потенциально релевантно цели (относительно класса задач, решаемых в ИС).

30. Будем называть каркасом ИС пару


Каталог: about -> persons -> finn -> pages
about -> Методическая разработка практического занятия для преподавателя п. 00 Профессиональный цикл оп. 00 Общепрофессиональные дисциплины
persons -> Статические и динамические экспертные системы
pages -> В. К. Финн к структурной когнитологии: феноменология сознания с точки зрения искусственного интеллекта
persons -> К вопросу о формальном отражении образного мышления и интуиции специалиста слабо структурированной предметной области
persons -> Ростки будущего


Поделитесь с Вашими друзьями:
  1   2   3   4   5


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница