В. К. Финн Об интеллектуальном анализе данных


R] – множество результатов Решателя, применяемого к БФ, т.е. Решатель (БФ) =[R



Скачать 346.7 Kb.
страница5/5
Дата10.05.2018
Размер346.7 Kb.
1   2   3   4   5
R] – множество результатов Решателя, применяемого к БФ, т.е. Решатель (БФ) =[R].

  1. Цель ИС является одновременно и суперпроблемой Р1, и множеством ее конкретизаций – проблемами Р(j)1, относящимися к конкретным предметным областям W и соответствующим им БФ. Эта цель осуществляется посредством формализованной эвристики, которая способна не только имитировать интеллектуальные способности человека (в смысле теста А. Тьюринга), но и усиливать их. Это означает, что Рассуждатель реализует классы рассуждений таких, что аппроксимируются важные познавательные возможности человеческого интеллекта: выделение существенных особенностей в фактах посредством установления их сходства (в особенности структурного для сложноорганизованных объектов), осуществление правдоподобных рассуждений, являющихся синтезом различных познавательных процедур (в том числе: индукции, аналогии и дедукции), использование фальсификации на основе контрпримеров, аргументирование принимаемых решений, объяснение результатов посредством абдукции, автоматическое порождение гипотез с эффективно приписываемой им оценкой правдоподобия, обучение на примерах из БФ, выбор стратегий после коррекции результатов (процесс ЕЕ в схеме роста знания К.Р. Поппера).

В [8] правдоподобные рассуждения, аппроксимирующие указанные выше интеллектуальные способности, были названы СРЕ-рассуждениями – когнитивными правдоподобными эмпирическими рассуждениями.

Таким образом, Рассуждатели, которые осуществляют СРЕ-рассуждения, применяются для суперпроблем Р1 таких, что для решения их задач используются исходные данные, которые являются изменяемыми и пополняемыми множествами высказываний (под изменением высказывания мы понимаем пересмотр его истинностного значения, а БФ для таких высказываний ранее были названы эпистемическими).

Очевидно, что СРЕ-рассуждения являются недедуктивными: из истинности их посылок не вытекает истинность следствия. Следствия СРЕ-рассуждений являются лишь правдоподобными высказываниями. СРЕ-рассуждения содержат амплиативные выводы (термин Ч.С. Пирса), следствия которых есть результат некоторой догадки, оформленной в виде применения специальных правил. Примерами таких правил являются правила для индукции, аналогии и абдукции.

Отметим, что класс когнитивных рассуждений (СР-рассуждений), содержащих амплиативные выводы, шире класса СРЕ-рассуждений. Класс СР-рассуждений подразделяется на три известных в литературе подкласса [14]: вероятностные (например, использующие байесовские правила), приближенные (например, использующие аппарат нечетких множеств), правдоподобные рассуждения, являющиеся организацией различных взаимодействующих процедур (например, аргументации и пересмотра истинностных значений). СРЕ-рассуждения являются примером последнего типа рассуждений.

Третье следствие Принципов I – XI состоит в том, что, говоря метафорически, «мозгом» ИС является взаимодействие Рассуждателя, реализующего СР-рассуждения, с информационной средой ИС (т.е. с БФ и БЗ) при условии открытости БФ и БЗ, создающих возможность их коррекции (ЕЕ – в схеме роста знания), благодаря которой человеко-машинная система осуществляет адаптацию к изменившемуся состоянию ИС. Это создает возможность сформулировать новую суперпроблему (Р2 в схеме роста знания).

Следовательно, строение и возможности Рассуждателя определяют тип анализа данных, компьютерной системы (КС), обладающей Решателем который используется для анализа данных (в том числе ДМ и КДД). Можно выделить три основных типа Решателей для анализа данных:

1. Решатель = Вычислитель + Синтезатор, Рассуждатель отсутствует, Вычислитель может осуществлять различные процедуры над числовыми данными, Синтезатор же объединяет различные вычислительные методы, реализуемые Вычислителем. Компьютерную систему с таким Решателем будем называть вычислительной.

2. Решатель = Рассуждатель + Вычислитель + Синтезатор, где Рассуждатель осуществляет комбинаторные алгоритмы [22], а Синтезатор объединяет вычислительные методы Вычислителя и комбинаторные алгоритмы Рассуждателя. Компьютерную систему с таким Решателем будем называть комбинаторно-вычислительной.

3. Решатель = Рассуждатель + Вычислитель + Синтезатор, где Рассуждатель реализует СР-рассуждения, а Синтезатор формирует стратегии решения задач, объединяющие рассуждения, вычисления и комбинаторные алгоритмы. Однако рассуждения являются управляющей процедурой выполняемой стратегии решения задач.

КС с Решателем типа 3 и БЗ= Σ, Σ, Г, С будем называть интеллектуальной, и, соответственно, анализ данных посредством этой ИС будем называть интеллектуальным анализом данных.

ИС реализует анализ данных посредством взаимодействия трех типов знания – концептуального (в соответствии с Принципами I – XI), декларативного и процедурного (схема этого взаимодействия представлена в приведенной выше диаграмме).

Примерами анализа данных в вычислительных системах являются КС, использующие различные статистические методы и нейронные сети.

Примерами КС, которые были названы выше комбинаторно-вычислительными, являются системы, использующие деревья решений (см. в связи с этим [7]), а также системы формирования знаний методами локальной геометрии [23, 24].

Обратим внимание еще раз на одно важное обстоятельство: для интеллектуального анализа данных необходимо определить тип предметной области W, соответствующей суперпроблеме Р1 и проблеме Р(j)1 согласно Принципу III (адекватности W и Р1).



  1. Четвертое следствие Принципов I – XI состоит в интерпретируемости результатов работы Рассуждателя  в БФ, где  = Рассуждатель (БФ). Эта интерпретируемость основана на Принципах I (Цель ИС Р1), II (Выделение и характеризация предметной области W), III (адекватность W и Р1, где Р1 – суперпроблема), IV (условие применимости ИС), V (синтез познавательных процедур для КДД), VI (фальсифицируемость и аргументируемость [R] – результатов работы Решателя) и X (принцип абдуктивного объяснения результатов ИС) и, наконец, XI (эволюционная эпистемология решения задач в ИС, включающая ЕЕ – коррекцию результатов и исправление ошибок).

Интерпретируемость результатов ИС средствами БФ означает их «экологическую чистоту» относительно W, минимально искажаемую формальными средствами Решателя.

В связи с условием интерпретируемости результатов работы Решателя отметим сомнительность в возможности интерпретируемости результатов нейронных сетей, о чем справедливо сказано в [23].



  1. Пятым следствием упомянутых выше Принципов I – XI является возможность извлекать из результатов работы ИС не только «образцы», добываемые из данных в смысле «data mining», но и формулировать гипотезы о закономерностях, обнаруженных в расширяемых последовательностях БФ в интерактивном режиме работы ИС.

Пусть I – множество имен реализаций ИС, тогда множество реализаций ИС обозначим посредством RI, где RI=[R]iI. Будем говорить, что р – устойчивый результат, если pRI. Устойчивый результат будем называть гипотезой о закономерности относительно RI, если р – универсально квантифицированное высказывание (т.е. кванторная приставка начинается с квантора общности, а р имеет предваренную нормальную форму).

Если предметная область W имеет тип (в), т.е. БФ, соответствующая ей, содержит в неявно заданном виде причинно-следственные отношения, то гипотезы о закономерностях будут выражать зависимости причинно-следственного типа, порожденные Рассуждателем [8] (о возможностях машинного открытия закономерностей см. в [25]).

Очевидно, что не каждый результат ДМ и КДД является гипотезой о закономерностях, однако существует возможность порождения гипотез о закономерностях посредством ИС, применяемых к открытым БФ. Этот случай применения компьютерных систем, разумеется, является интеллектуальным анализом данных.

Сделаем теперь некоторые замечания о терминологии, относящейся к анализу данных. Термины “data mining” (ДМ) и “knowledge discovery” (КД) могут быть, соответственно, переведены как «добыча из данных» и «открытие знания» (или «обнаружение знания») Аналогично термин “knowledge discovery in data bases” (КДД) переводится как «открытие знаний в базах данных». Недостаточно четкое раскрытие смысла терминов ДМ, КД и КДД было отмечено в [23]. Можно предположить, что источником трудностей уточнения смысла этих терминов является отсутствие соответствующих уточнений таких идей искусственного интеллекта как «интеллектуальная система», «Решатель задач», «Синтез познавательных процедур», «знание для интеллектуальной системы», «когнитивное рассуждение». Рассмотрение же идей ДМ, КД и КДД в системе перечисленных выше уточненных идей создает возможность различать возможные виды анализа данных. Обратим также внимание на тот факт, что ДМ в смысле [1] трудно отличить от распознавания образов, в котором из данных извлекается «образец». По-видимому, наиболее плодотворным путем развития методов анализа данных в рамках исследований ИИ является определенные выше «интеллектуальный анализ данных» посредством ИС и анализ данных посредством «комбинаторно-вычислительных систем».

Современные компьютерные технологии сделали возможным анализ клинических данных осуществлять посредством различных точно определенных процедур, которые не только извлекают из данных явно содержащиеся в них «образцы» в смысле ДМ, но и порождают обобщение для систем БФ, могущие быть интерпретируемыми как гипотезы о закономерностях относительно соответствующих семейств БФ. В [26] авторы рассматривают способы анализа клинических данных, полагая, что они могут быть только количественными. Более того, они считают, что осуществляемая диагностика должна характеризоваться посредством вероятностей. Они, конечно, рассматривают клинические прогнозы как гипотезы, которые могут использовать предполагаемые причины диагноза. Авторы область клинической эпидемиологии характеризуют как evidence based medicine. К сожалению, этот термин переведен как «доказательная медицина», а не как «медицина, основанная на очевидных фактах». Смысл же этого термина состоит в том, что решения, принимаемые врачами, должны быть аргументированными (но не доказанными – ведь авторы говорят о вероятных прогнозах, т.е. о гипотезах!), что означает, что решения используют аргументы, извлеченные из клинических данных. Однако данные могут быть не только количественными, они могут включать также качественные параметры. Следовательно, анализ данных в медицине должен (при условии использования компьютерных технологий) совершаться в рамках сложившейся культуры ИИ. Сформулированные типы анализа данных посредством вычислительных систем, комбинаторно-вычислительных систем и интеллектуальных систем (т.е. интеллектуальный анализ данных) необходимы «медицине, основанной на очевидных фактах». А это означает, что выбор таких систем должен быть адекватен предметной области и соответствующей проблеме P(j)1. Более того, анализ клинических данных не может быть лишь количественным, он должен быть и качественным, использующим адекватные БЗ и Решатели задач.

Следует обратить внимание также и на другое важное обстоятельство – измерение (т.е. применение количественных методов) должно предполагать первоначальную формализацию данных как систем отношений. Само же измерение есть отображение реляционной системы в числовую [27]. Следовательно, без качественного предпроцессинга вряд ли можно обойтись (это есть один из аспектов КДД).

Настоящий номер «Новостей искусственного интеллекта» посвящен проблеме анализа данных в ИИ. В нем имеются два раздела «Методы машинного обучения и анализа данных» и «Анализ данных в медицине».

В первом разделе журнала публикуются статьи С.О. Кузнецова «Методы теории решеток и анализа формальных понятий в машинном обучении», М.О. Корляковой «Исследование алгоритмов обобщения для организации описания предметной области» и С.М. Гусаковой «Подход к решению задач атрибуции исторических источников с помощью ДСМ - метода».

В статье С.О. Кузнецова представлен обзор применения алгебраических методов для машинного обучения, используемого для обнаружения знаний в БФ. Следует подчеркнуть тот факт, что машинное обучение является необходимым инструментом КДД как для комбинаторно-вычислительных систем, так и для систем для интеллектуального анализа данных.

Статья М.О. Корляковой посвящена исследованию КДД – точнее, его алгоритмическим аспектам. Рассматриваемые автором алгоритмы предназначены для использования в обнаружении знаний в БФ.

В статье С.М. Гусаковой предложен метод интеллектуального анализа данных посредством некоторой модификации ДСМ – метода автоматического порождения гипотез [8] для задачи атрибуции исторических источников. Следует отметить важность применения методов ИИ к проблемам гуманитарных наук.

Во втором разделе журнала рассмотрены проблемы анализа медицинских данных.

В статье «Технология Data Mining в медико-биологических исследованиях В.А. Дюк представил обстоятельный обзор обнаружения знаний в базах данных» (КДД). Автор приводит пример системы для прогнозирования времени жизни пациентов, перенесших сердечный приступ, по данным эхокардиограммы. Таким образом, рассматриваемая система по нашей классификации является системой с Рассуждателем, реализующим комбинаторно-вычислительный анализ БФ с последующим предсказанием исследуемого эффекта. В силу того, что Рассуждатель использует правила продукционного типа, автор обоснованно называет эту систему экспертной. В статье также содержатся критические замечания относительно анализа данных посредством нейронных сетей, деревьев решений и генетических алгоритмов.

В статье Б.А. Кобринского рассмотрены проблемы инженерии медицинских знаний для формирования баз знаний с участием множества экспертов.

Статья О.Ю. Ребровой «Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики» является отчетом о результатах применения статистических методов и нейронных сетей для диагностики трех типов инсульта по клиническим данным. Автор относит применяемые методы к сфере «доказательной медицины». В [28] представлен обзор применения статистических методов в медицине.

В статье Е.С. Панкратовой формулируются принципы представления знаний для задач клинической и лабораторной диагностики. Предложенные средства предназначены для использования в интеллектуальных системах с Рассуждателем, реализующим синтез индукции, аналогии и абдукции, образующий ДСМ – рассуждения [7,8]. Анализ данных осуществляется в БФ посредством Решателя с Рассуждателем, реализующим ДСМ – рассуждения.

В начале данной статьи были сформулированы пять вопросов об анализе данных как инструменте ИИ и перспективах его развития как средства интеллектуального анализа данных (ИАД). Введенная в статье терминология есть попытка формулирования системы идей, характеризующей различные типы анализа данных, соответствующие природе предметных областей, благодаря которой возможно уточнение смысла термина ИАД. Кратким резюме было бы следующее утверждение: ИАД есть процесс извлечения новых знаний из БФ и БЗ посредством ИС, имеющий Решатель с подсистемой Рассуждателя, реализующей когнитивные рассуждения.

Анализ данных является необходимым этапом любой познавательной деятельности в сферах науки, управления, медицины и юридической деятельности. В силу этого отображение познавательной деятельности в ИС, использующей БФ со сложно структурированными объектами, является постоянной потребностью компьютерной науки, которая адекватно характеризуется схемой эволюционной эпистемологии P(j)1→ TT→ EE→ P(j)2, где P(j)1 и P(j)2 - исходная и новая проблемы относительно предметной области W.

Автор выражает глубокую благодарность Д.В. Виноградову и М.А. Михеенковой за ценные замечания.
Литература
[1]. Fayyad U.M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R.

Advances in Knowledge Discovery and Data Mining, The AAAI Press, 1996.

[2] Финн В.К. Об особенностях ДСМ–метода как средства интеллектуального анализа данных, НТИ, сер.2, №5, 2001, с. 1-4.

[3] Финн В.К. Искусственный интеллект: Идейная база и основной продукт, 9-ая национальная конференция по искусственному интеллекту, Труды конференции, Т.1, М., Физматлит, 2004, с.11-20.

[4] Гаек П., Гавранек Т., Автоматическое образование гипотез. М.: Наука, 1984.

[5] Josephson J.R., Josephson S.G. (Eds.) Abductive Inference: Computation, Philosophi, Technology. New York: Cambridge University Press, 1994.

[6] Jain S., Osherson D., Royer J.S., Sharma A. Systems That Learn. An Introduction to Learning Theory, second edition. The MIT Press, Cambridge, Massachusetts, London, England, 1999.

[7] Кузнецов С.О. Методы теории решеток и анализа формальных понятий в машинном обучении. Настоящий номер журнала «Новости искусственного интеллекта».

[8] Финн В.К. Синтез познавательных процедур и проблема индукции. НТИ, сер.2, № 1-2, 1999, с. 8-44.

[9] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. Питер-Пресс, 2000.

[10] Nilsson N.J. Artificial Intelligence: A New Synthesis. Morgan Kaufmann Publishers, Inc., San Francisco, California, 1998.

[11] Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Информатика, Т.15, М.: 1991, с. 54-101.

[12] Поспелов Д.А. Ситуационное управление. Теория и практика. М.: Наука, главная редакция физико-математической литературы, 1986.

[13] Antoniou G. Nonmonotonic reasoning. MIT Press, 1997.

[14] Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах. М.: Физматлит, 2004.

[15] Аншаков О.М. Обобщенные кванторы, определяемые с помощью шаблонов. Ч.I. НТИ, сер.2, № 11, 2000, с. 5-17.

[16] Аншаков О.М. Обобщенные кванторы, определяемые с помощью шаблонов. Ч. II. НТИ, сер. 2, № 5, 2001, с. 35-48.

[17] Тарский А. Понятие истины в языках дедуктивных наук. Философия и логика Львовско-Варшавской школы. М.: РОССПЭН, 1999, с. 19-155.

[18] Поппер К.Р. Объективное знание. Эволюционный подход. М.: УРСС, 2002.

[19] Аншаков О.М., Скворцов Д.П., Финн В.К. Логические средства экспертных систем типа ДСМ. Семиотика и информатика. Выпуск 28, М.: 1986, с. 65-101.

[20] Гемпель К.Г. Логика объяснения. Дом интеллектуальной книги, М.: 1998.

[21] Эволюционная эпистемология и логика социальных наук. Карл Поппер и его критики. Эдиториал УРСС. М.: 2000.

[22] Рейнгольд Э., Нивергельт Ю., Део Н. Комбинаторные алгоритмы. Теория и практика. Мир, М.: 1998.

[23] Дюк В.А. Технологии Data Mining в медико-биологических исследованиях. Настоящий номер журнала «Новости искусственного интеллекта».

[24] Дюк В. Обработка данных на ПК в примерах. Питер, Санкт-Петербург, 1997.

[25] Simon H.A. Machine Discovery. Foundations of Science, vol. 1, №2, 1995/96, pp. 171-200.

[26] Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы доказательной медицины. Медиа Сфера, М.: 2004.

[27] Пфанцагль И. Теория измерений. М.: Мир, 1976.



[28] Реброва О. Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. Медиа Сфера, М.: 2002.


1 Положительный ответ на этот вопрос означает, что возможно автоматизированное формирование фрагментов баз знаний.

2 Архитектура ИС не сводится к архитектуре экспертных систем с продукционными правилами.

3 Σ* или Σ0 могут быть пустыми множествами, если Σ*=, то базовое множество для ИС будем называть простым.

4 П может принадлежать Рассуждателю, или Вычислителю, или Синтезатору («или» является неисключающим»

Каталог: about -> persons -> finn -> pages
about -> Методическая разработка практического занятия для преподавателя п. 00 Профессиональный цикл оп. 00 Общепрофессиональные дисциплины
persons -> Статические и динамические экспертные системы
pages -> В. К. Финн к структурной когнитологии: феноменология сознания с точки зрения искусственного интеллекта
persons -> К вопросу о формальном отражении образного мышления и интуиции специалиста слабо структурированной предметной области
persons -> Ростки будущего


Поделитесь с Вашими друзьями:
1   2   3   4   5


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница