Проверка гипотезы о равенстве вероятностей биномиального закона распределения (о равенстве долей признака) двух генеральных совокупностей


Посчитаем число степеней свободы k



страница4/17
Дата16.08.2018
Размер0.8 Mb.
ТипУчебное пособие
1   2   3   4   5   6   7   8   9   ...   17
Посчитаем число степеней свободы k:
Число событий - это число ячеек в таблице сопряженности, оно равно r • s.

Изучим число связей между частотами, входящими в таблицу сопряженности:






- число таких независимых соотношений равно (r-1), т.е. на единицу меньше r, поскольку из-за наличия связи 1) любое из соотношений является следствием остальных соотношений;



- здесь аналогично число независимых соотношений равно (s-1).


Подсчитаем число степеней свободы:

Как было сказано, распределение χ2 (или распределение Пирсона) является предельным для случайной величины Х2, поэтому использовать его как приближение для реальных распределений Х2 можно только при большом числе наблюдений n . Считается достаточным для возможности заменить распределение случайной величины Х2 распределением случайной величины χ2 выполнение следующего ограничения: для каждой ячейки теоретические частоты должны быть не меньше 5:




Какие же значения Х2 считаются настолько большими, что они несопоставимы с гипотезой Н0? Очевидно те, появление которых при выполнении гипотезы Н0 маловероятно, т.е. те, которые превосходят критические значения распределения χ2, соответствующие выбранному уровню значимости.

В задачах данного типа всегда по смыслу рассматривается правосторонняя критическая область, т.к. если нулевая гипотеза неверна, то Х2 принимает большое значение и, следовательно, χ2 также принимает большое значение.

Обратим внимание на то, что для всех теоретических частот данного примера, которые записаны в таблице под наклонной линией, выполняется указанное выше ограничение – все они больше 5):

Продолжим вычисления:







Найдем наблюдаемое значение критерия:



Найдем число степеней свободы: k=(2-1)•(3-1)=2. На основе этого числа степеней свободы и заданного в условии задачи значения a = 5% найдем с использованием приведенной в приложении таблицы «Критические точки распределения χ2» критическое значение χ2кр, которое оказалось равным χ2кр = 6.0. Это значение при заданном уровне значимости отделяет область принятия нулевой гипотезы от области отказа от нулевой гипотезы и перехода тем самым к области принятия альтернативной гипотезы. Таким образом, найденное табличное значение χ2кр =6.0 является тем граничным значением, выше которого значения критерия Х2 следует считать большими и, следовательно, полагать, что изучаемые признаки связаны между собой. Если же значение критерия Х2 оказывается меньше найденного критического значения, то, напротив, различия в наблюдаемых и теоретических частотах следует полагать мало отличающимися (говорят: незначимо различающимися), что позволяет

принять нулевую гипотезу.

Итак, опишем еще раз алгоритм решения задачи:

если наблюдаемое значение критерия (иначе: значение критерия, вычисленное на основе имеющихся экспериментальных данных) оказалось меньше критического значения критерия, которое определяется по таблице «Критические точки распределения χ2» на основе двух значений - вычисляемого в задаче числа степеней свободы и заданного условием задачи уровня значимости , то принимается нулевая, т.е. основная, гипотеза об отсутствии связи между изучаемыми признаками как не противоречащая экспериментальным данным с уровнем значимости  (или с уровнем доверия ). Если же наблюдаемое значение критерия оказывается больше этого критического значения, то отвергаем нулевую гипотезу как противоречащую имеющимся наблюдениям и тем самым, переходя к альтернативе, полагаем справедливой конкурирующую гипотезу, которая говорит о наличии связи между признаками.

Для наглядности изобразим полученные результаты графически, используя график плотности распределения χ2. При построении графика был использован один графиков плотности распределения Пирсона, приведенных в приложении (следует обратить внимание на то, что поведение графиков плотности меняется в зависимости от величины числа степеней свободы k; в нашем примере k=2):

Поскольку в примере наблюдаемое значение критерия, равное 53.72, попало в критическую область, то следует отвергнуть нулевую гипотезу как противоречащую экспериментальным данным и тем самым принять альтернативную гипотезу. Это означает, что наше исследование показало наличие зависимости между полом школьника старших классов и временем, которые затрачивается школьником на компьютерные игры. На основе исходной информации можно заметить повышенный интерес именно юношей к компьютерным играм.

Далее возникает естественный вопрос: если обнаружена связь между номинальными признаками, то как количественно определить тесноту (силу) этой связи, с помощью какого коэффициента?

Ответ на этот вопрос не столь однозначен, поскольку нет единого, повсеместно принятого для этой цели коэффициента. Это объясняется тем обстоятельством, что ни один из коэффициентов не может передать сложные связи признаков при анализе взаимовлияний большого числа признаков с несколькими уровнями. Каждый из используемых коэффициентов обладает определенными достоинствами и недостатками.

Из наиболее ранних и часто используемых коэффициентов можно упомянуть следующие:


Коэффициент «фи»


Здесь n- размер выборки; Х2- наблюдаемое значение критерия.

Достоинством этого коэффициента является простота вычисления; недостатком коэффициента является то, что он не нормирован, т.е. может принимать значения, большие единицы. Коэффициент «фи» не превосходит 1 лишь для таблиц сопряженности 2×2. Для таких простейших таблиц его значение, равное единице, означает наличие строгой линейной связи между признаками. Если одна из переменных таблицы сопряженности имеет более двух уровней, то значение коэффициента может превышать 1.

Для таблиц размера 2х2 может быть использован коэффициент контингенции, который вычисляется по формуле:

Удобство этого коэффициента заключается в том, что он принимает значения от (-1) до (+1), причем крайние значения возникают при наличии строгой обратной (-1)и строгой прямой (+1) зависимостей между признаками.

Также используется коэффициент взаимной сопряженности Пирсона:



Можно показать, что коэффициенты «фи» и KП иногда могут давать весьма различные значения. Вычислим разность квадратов значений этих коэффициентов:



Можно с некоторой долей приближения предложить следующую градацию значений коэффициента связи между признаками в случае, когда коэффициент связи нормирован на единицу:

0-0.3 – слабая связь признаков;

0.3-0.7 – умеренная связь признаков;

0.7-1 – сильная связь признаков.
Для рассмотренного ранее примера вычислим тесноту связи признаков на основе нескольких коэффициентов:



В данном случае значения коэффициентов получились близкими, поскольку величина n велика. Величины коэффициентов говорят о наличии умеренной связи между признаками, т.е. между полом школьника и его пристрастием к компьютерным играм.


Замечание:

В частном случае сопряженности, когда признаки А и В принимают только

по два значения А1 , А2 и В1 , В2 (r=s=2), т.е. для таблиц сопряженности 2×2, формула для вычисления критерия Х2 упрощается. Вычисления в данном случае удобнее вести на основе формулы, которая получена на основе исходной формулы, введенной в теореме Пирсона - Фишера:

Рассмотрим пример:

Один пытливый молодой человек решил провести собственное расследование. Он захотел установить, зависимы или нет такие два признака – цвет глаз девушки и любимый цвет ее одежды. Для облегчения ситуации он сам задал цветовую гамму всего из двух цветов – синего и коричневого. Каждая из опрошенных девушек должна была из двух цветов выбрать один более предпочтительный для нее цвет. Кроме того, он исключил из исследования зеленоглазых девушек. Случайным образом отобрав 100 девушек, он получил следующую таблицу сопряженности:


Предпочтительный


Каталог: data -> 2011
2011 -> Семинар "Человеческий капитал как междисциплинарная область исследований"
2011 -> Тамара Михайловна Тузова Специфика философской рефлексии
2011 -> Программа дисциплины «Философия» для направления 080100. 62 «Экономика»
2011 -> Программа дисциплины «Социология управления»
2011 -> Программа дисциплины «Основы теории коммуникации»
2011 -> Тезисы международной научно-практической конференции "Реализация гендерной политики: от международного до муниципального уровня"
2011 -> Программа дисциплины «Введение в социологию и история социологии»
2011 -> Николо Макиавелли Государь
2011 -> Экономическая социология
2011 -> Экономическая социология


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   17


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница