Конспект лекций Санкт-Петербург 2007 г


Таксономический (кластерный) анализ



страница10/14
Дата30.12.2017
Размер3.54 Mb.
ТипЛекция
1   ...   6   7   8   9   10   11   12   13   14
Таксономический (кластерный) анализ

Задача кластерного анализа идентична R-технике факторного ана­лиза: классификация единиц выборки, субъектов. В факторном анализе это индивиды.

Если в наборе индивидов есть какие-то естественные группировки, то они выявляются с помощью статистических методов и определяются по степени корреляции между элементами выборки.

Пример. Изучаются внешне наблюдаемые характеристики какой-то группы лиц: пол, вес, рост. Вариации этих характеристик (больший или меньший рост, вес, вторичные половые признаки) по степени корреля­ции образуют две группы: 1)лица, с наличием вторичных мужских поло­вых признаков, большим ростом и.большим весом и 2) лица с наличием женских вторичных половых признаков, имеющие меньший рост и мень­ший вес. Можно предположить, что эти группы объединены каким-то су­щественным признаком - половыми различиями.

В геометрическом смысле корреляция означает меру близости между значениями, которые образуюттак называемые разряжения и сгущения (кластеры, таксоны).
Процедура таксономического анализа

Существует два основных подхода: процедура сгущения (сбегания) и процедура разряжения (разбегания).

1. При процедуре сгущения нулевой гипотезой является предположение о том, что все точки в геометрическом пространстве рассеяны равно­мерно. Определяется расстояние между любыми двумя точками и выяс­няется, что они приближены друг к другу больше, чем при случайном рас­сеянии. Потом измеряется расстояние между третьей точкой и предыду­щими двумя, четвертой и предыдущими тремя и т. д. Образуется центр сгущения к которому '-подтягиваются» эти случайно рассеянные точки.

2. Процедура разряжения исходит из противоположной гипотезы: все точки имеют между собой расстояние равное нулю. Измеряется рассто­яние между двумя любыми точками и выясняется, что одна из них «оттал­кивается» от другой. Потом измеряется расстояние между третьей точ­кой и предыдущими двумя, четвертой и предыдущими тремя и т. д. Таким образом, из исходного конгломерата точки «отталкиваются» и получает­ся та же картина, как и при процедуре сгущения.

Обе процедуры являются пошаговыми. Причем при каждом шаге ко­личество точек в каждом кластере увеличивается. Из-за характера процедуры она называется иерархическим кластерным анализом.

Вообще, все многомерные методы имеют между собой большое внут­реннее сходство, то есть в результате адекватно проведенных R-техники факторного анализа и таксономического анализа получается одна и та же структура.

Например, можно взять произвольную точку в кластере и проследить ее вариацию на основе влияния всех других точек, входящих в кластер (процедура дисперсионного анализа). Наиболее полно будут определять дисперсию те точки, которые входят в один таксон.

Все многомерные методы являются не взаимоисключающими, а вза­имодополняющими, так как в своей основе они имеют нормальное рас­пределение. Если распределение не нормальное, например распреде­ление Пуассона, то соотношение между многомерными методами будет нарушаться.


Путевой (причинный) анализ

В данной процедуре для анализа корреляции используются графы. Если требуется вынести суждение о связи Аи Б, то по графу отыскивает­ся кратчайшая связь между точками Аи 6. Причем, чем короче связь, тем вероятнее причинность.

При таком подходе значительно повышается вероятность надежно­сти суждения о причинности. Хотя подход не дает представления о ее направлении.
Логарифмический линейный анализ

Основная идея заключается в том. что на основе характеристик ло­гарифмов нормального распределения можно изучать точечное влияние каждого уровня каждого фактора входной переменной на каждый уро­вень результирующей переменной.

В результате дисперсионного анализа получается матрица влияния каждого фактора полностью на вариацию результирующей переменной и эффекты взаимодействия факторов.

Таблица 1. Матрица дисперсионного анализа






Значение влияния на С (%)

С ошибка

А → С







В → С







А+В → С







Таблица 2. Матрица логарифмического линейного анализа





С







а

б

в

г

А

а













б













в













г













В

а













б













в













г













Где А и В - входные переменные; С - результирующая переменная; а, б, в и г - ступени переменных или категории шкал признаков.

Результирующая матрица линейного анализа полностью совпадает с таб­лицей сопряженности трех факторов.

Таблица 3.





С







а

б

в

г

А

а













б













в













В клетках результирующей матрицы линейного анализа физические значения заменяются на соответствующие им значения логарифмичес­кого нормального распределения. Таким образом, можно установить достоверность или отсутствие достоверности влияния каждого фактора, введенного в простую корреляционную матрицу, то есть можно контро­лировать промежуточные переменные. В результате в исходной матри­це получаются показатели достоверности связей Ас В, В с С и А с С. Об­щая оценка основана на Х2. Количество степеней свободы - это количе­ство клеток минус 1.

Логарифмический линейный анализ является самым совершенным методом, способным контролировать промежуточные переменные и оце­нивать достоверность по каждой ступени шкал. Причем тройная таблица практически не поддается анализу в целостном виде, а при логарифми­ческом линейном анализе можно вводить до десяти факторов одновре­менно.




Каталог: data -> uploads
data -> Примерная тематика рефератов для сдачи кандидатского экзамена по философии гуманитарные специальности, 2003-2004 уч
data -> Программа дисциплины для направления 040201. 65 «Социология» подготовки бакалавра
data -> Программа дисциплины «Э. Дюркгейм вчера и сегодня
data -> Методика исследования журналистики
data -> Источники в социологии
uploads -> «В стороне от больших дорог»
uploads -> «Грех у дверей…» о человеческой свободе в раю, «под законом»
uploads -> Конкурс «Русь моя родная»
uploads -> Программа производственной практики


Поделитесь с Вашими друзьями:
1   ...   6   7   8   9   10   11   12   13   14


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница