П. С. Ростовцев, В. С. Костин, А. Л. Олех, A. C. Жданов Автоматизация анализа социально-экономических данных. Детерминация моделей



страница1/15
Дата25.05.2018
Размер0.83 Mb.
ТипИсследование
  1   2   3   4   5   6   7   8   9   ...   15

П.С.Ростовцев, В.С.Костин, А.Л.Олех, A.C.Жданов

Автоматизация анализа социально-экономических данных. Детерминация моделей

Исследование поддержано грантом РФФИ 00-06-80221

Введение


Можно различными путями подходить к анализу данных социально-экономических исследований.

Первый путь - построить теоретическую картину явления и проверить заранее сформулированные модели на эмпирических данных. Но жизнь богаче любой теории, а теория должна иметь свои эмпирические основания.

Второй путь - получить соответствующую теме исследования информацию и "ловить рыбку" из этих данных: изучать разнообразные взаимосвязи, выделять выборки интересующие совокупности объектов, испытывать на них различные модели явлений, глядишь, сами данные наведут на закономерности, которые можно увязать в теорию.

Этот "эмпирический" подход чреват ошибками, так как данные могут иметь случайные отклонения, которые легко принять за закономерности. Руководствуясь статистическими критериями - проверяя гипотезы независимости, гипотезы об отклонении параметров от их ожидаемых значений, число таких ошибок можно существенно сократить. В соответствии с теорией проверки гипотез, гипотезы отвергаются, если получены маловероятные значения критериев. Порог для этой вероятности - "уровень значимости" - назначается заранее. Чаще всего отвергнутая гипотеза означает, что возможна взаимосвязь переменных, наличие регрессионной зависимости и др. Традиционно уровень значимости назначается равным =0.05 или =0.01.

Предположим, наши (анкетные) данные получены случайным образом, так, что все статистики критерия проверяемых нами гипотез независимы - ленивый интервьюер заполнял анкеты сидя под кустиком. Пусть мы проверяем 100 гипотез (к примеру, о независимости переменных). Тогда при уровне значимости =0.05 мы с вероятностью 1-(1-0.05)100=0.994, а при =0.01 - вероятностью 1-(1-0.01)100=0.634, мы получим статистики критерия, которые, казалось бы, стоит интерпретировать, несмотря на то, что данные идеально плохи. Это проблема множественных сравнений.

Что же, правы "теоретики"?

Автоматизация анализа данных, которой мы занимались ранее [8], была преимущественно направленным перебором коэффициентов взаимосвязи, поиском связанных переменных. По причине множественных сравнений результат мог получиться сомнительным, хотя, конечно, если существует закономерность, она имеет больший шанс быть обнаруженной, чем ложная закономерность. Такое можно сказать о множестве методов, которые ведут перебор "информативных" признаков. Эта автоматизация вполне соответствует эмпирическому подходу.

В данной работе мы надеемся в определенной степени реабилитировать эмпирический подход, представив процедуру детерминации групп объектов, отличающихся моделями данных. В этой процедуре значимость статистик определяется с учетом множественного сравнения на основе компьютерного эксперимента, имитирующего данные в условиях независимости.

А именно, рассматривается одновременно множество пар "группа объектов - модель". Для каждой пары изучается, отличается ли модель данных внутри группы объектов от модели для совокупности объектов вне этой группы. Нулевая гипотеза - это гипотеза неразличимости моделей в группах и их дополнениях. Критерий - вероятность получить случайно в условиях гипотезы хотя бы одно сочетание группы объектов и модели, лучше подчеркивающее индивидуальность группы. Слова "хотя бы одно сочетание" имеет в методе ключевое значение: обычно, за исключением специальных случаев статистического анализа, чаще дисперсионного анализа [2, 3, 12, 18], модели связи переменных рассматриваются без их сопоставления между собой.

Метод является развитием работ [9, 10], в которых ранее удалось реализовать метод множественных сравнений в анализе таблиц для неальтернативных вопросов, где были представлены основные идеи множественных сравнений для простых статистик в детерминационном анализе и в типологическом группировании, а также работы [7], в которой впервые было реализовано множественное сравнение при анализе связи непересекающихся групп объектов с проблемной группой.

Метод реализован в виде компьютерной программы, которая совместима по данным со статистическим пакетом SPSS [17] и может быть подключена к нему пунктом меню. Работа ориентирована на приложения в социологических исследованиях, но статистические методы универсальны, и она может пригодиться в различных областях.

Вклад соавторов. Метод в основном был разработан П.С Ростовцевым, им же был подготовлен текст работы. Программная реализация метода сделана в основном В.С.Костиным, глубокое понимание сути проблемы и статистических вопросов реализации метода, позволили уточнить ряд его важных деталей. В частности, идея использования аппроксимации множественной значимости с помощью бета распределения B(1,b,x) является результатом совместного труда Костина и Ростовцева. Возможность использования неальтернативных признаков для задания групп объектов обеспечил А.С.Жданов, управление форматом выдачи - А.Л.Олех.





Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7   8   9   ...   15


База данных защищена авторским правом ©znate.ru 2017
обратиться к администрации

    Главная страница