Проверка гипотезы о равенстве вероятностей биномиального закона распределения (о равенстве долей признака) двух генеральных совокупностей



страница3/17
Дата16.08.2018
Размер0.8 Mb.
ТипУчебное пособие
1   2   3   4   5   6   7   8   9   ...   17
на игры

время
Пол

1

2

3

Итого



Юноши

36

59

61

156


Девушки

48

51

15

114

Итого


84

110

76

270




Признак

А

Возникла таблица, которая носит название «таблица сопряженности» или «таблица кросстабуляции». В данном примере размер таблицы 2×3 (2 – число строк таблицы; 3 - число столбцов таблицы).

Мы в нашем примере для простоты ограничились лишь двумя признаками. Первый признак - это пол школьника (произвели разделение школьников по половому или гендерному признаку); второй признак - это затраты времени на компьютерные игры. Обозначим признаки заглавными буквами А и В.

Аналогичным образом устроены и более сложные таблицы сопряженности (с большим числом включенных в таблицу признаков).

Поставлена задача: установить, есть ли связь между пристрастием школьника к компьютерным играм и тем, является ли школьник девушкой или же юношей?

Формализуем данную задачу. Для этого сформулируем задачу по проверке статистической гипотезы о связи номинальных признаков. Введем две статистические гипотезы (основную гипотезу и противоречащую ей альтернативную гипотезу):



Постановка задачи:
Н0: признаки независимы;

Н1: признаки зависимы.
Признаки независимы – в данном случае это означает, что нет связи между полом школьника и временем, которое он проводит за компьютерными играми; признаки зависимы – это значит, что связь между полом школьника и временными затратами на компьютерные игры существует.

Конечно, данная постановка задачи должна быть дополнена заданием величины уровня значимости . Пусть  = 5% . Отметим, что в задаче может быть задана и другая величина, а именно величина  – уровень доверия (доверительная вероятность), которая связана со значением  соотношением +=1.

Напомним, что смысл значения  следующий - это вероятность отвергнуть нулевую гипотезу при условии ее справедливости.

Укажем число градаций по каждому признаку:

признак А (гендерный признак) имеет r уровней; в нашем примере r = 2;

признак В (затраты времени на компьютерные игры) имеет s уровней; в нашем примере s = 3.

Введем обозначения:

i - номер строки (i=1,2,…,r)

j- номер столбца (j=1,2,…,s)

nij - частота события AiBj – это количество объектов, обладающих комбинацией уровней Ai и Bj признаков А и В.

Через ● будем обозначать суммирование по соответствующему признаку, тогда






Таблица сопряженности признаков А и В для нашей задачи может быть переписана следующим образом (в ней введены обозначения, которые используются в дальнейшем):



В

А


B1

B2

B3

Итого

A1

n11 =36

48,53


n12 =59

63,56


n13 =61

43,91


n1=156

A2

n21 =48

35,47


n22 =51

46,44


n23 =15

32,09


n2=114

Итого

n1=84

n2=110

n3=76

n=270

Что означает, допустим, событие А1 в данном примере? Событие А1={случайно выбранный школьник относится к категории юношей}.

Как на основе результатов эксперимента приближенно вычислить вероятность этого события? Вероятность события может быть приближенно найдена как относительная частота этого события:


Что означает событие В3 в данном примере? Событие В3={случайно выбранный школьник тратит на компьютерные игры более четырех часов в неделю}.

Как найти вероятность события В3? Также на основе экспериментальных данных можно приближенно вычислить вероятность этого события как относительную частоту этого события:

В общем случае вероятности событий приближенно определим так:

Согласно основным теоремам теории вероятностей справедливо равенство «Вероятность пересечения независимых событий равна произведению вероятностей этих событий»:


В предположении справедливости утверждения о независимости признаков, заложенного в нулевой гипотезе, будем считать справедливым данное соотношение, в котором перейдем к приближенным выражениям для вычисления вероятностей. Тогда получим следующее приближенное равенство:


Из данного соотношения после сокращения левой и правой частей равенства на n получим:

Величины называются ожидаемыми или теоретическими частотами (имеется в виду ожидаемыми при выполнении гипотезы H0).

При выполнении гипотезы H0 ожидаемые частоты не должны сильно отличаться от наблюдаемых частот nij . Наблюдаемые частоты – это частоты, полученные на основе эксперимента (на основе выборки).Эти частоты присутствуют в исходной таблице примера.

Наша задача заключается в следующем – выяснить, равенства (*) приблизительно выполняются или же, напротив, обнаруживаются существенные различия в значениях правой и левой частей соотношения (*) .

Если будет найдено, что равенства (*) примерно выполняются, то гипотезу H0 следует признать справедливой. Если же будет установлено, что равенства (*) плохо выполняются, то гипотезу H0 отвергнем, т.е. отвергнем утверждение о независимости признаков и, следовательно, признаем справедливой альтернативную гипотезу H1 о зависимости признаков.

Параллельно возникает еще один вопрос, на который нужно ответить. Что означает, что равенство (*) примерно выполняется (насколько примерно), и что означает, что равенство (*) выполняется плохо? Ответим на эти вопросы несколько позже.

Вычислим для нашего конкретного примера ожидаемые (теоретические) частоты:

Эти вычисленные величины частот проставим в каждую клетку ранее приведенной таблицы, причем расположим их ниже наклонных линий.

Если видимые различия между наблюдаемыми частотами (т.е.частотами, полученными на основе опытных данных) и ожидаемыми частотами (т.е. частотами, рассчитанными на основе гипотезы о независимости признаков) можно объяснить случайными колебаниями, то отвергать гипотезу о независимости признаков нет оснований. Поэтому снова следует вернуться к проблеме сопоставления, выяснения различий этих частот.

Применяется следующий общепринятый способ сопоставления этих частот. Чтобы сформулировать критерий Пирсона - Фишера в общем и легко запоминающемся виде, обозначим наблюдаемые частоты через Н, а ожидаемые или теоретические частоты обозначим через Т. Если модель о независимости признаков верна, то числа Н и Т должны быть близки друг другу, следовательно, сумма квадратов отклонений (Н-Т)2 не должна быть большой. Эту разность нормируют на Т (ибо чем больше Т, тем больше Н может отклоняться от Т).


Мера согласия опытных данных с теоретической моделью:


В формуле сумма берется по всем ячейкам таблицы сопряженности. Именно этот критерий (эта случайная величина), обозначенная Х2, используется в задачах по изучению связи номинальных признаков для ответа на вопрос о том, можно ли полагать изучаемые признаки независимыми или же, напротив, следует полагать их зависимыми, связанными друг с другом.

Для ответа на вопрос, какую величину следует принять за большое значение случайной величины Х2, надо знать распределение этой случайной величины. Ответ на этот вопрос дает следующая теорема:
Теорема (К. Пирсон, Р. Фишер):
Если справедлива гипотеза Н0, на основе которой рассчитаны теоретические частоты Т, то при неограниченном росте числа наблюдений n распределение случайной величины Х2 стремится к распределению χ - квадрат (χ2).

Число степеней свободы этого распределения равно разности между числом событий и числом связей между частотами nij, заложенных в таблице сопряженности.



Каталог: data -> 2011
2011 -> Семинар "Человеческий капитал как междисциплинарная область исследований"
2011 -> Тамара Михайловна Тузова Специфика философской рефлексии
2011 -> Программа дисциплины «Философия» для направления 080100. 62 «Экономика»
2011 -> Программа дисциплины «Социология управления»
2011 -> Программа дисциплины «Основы теории коммуникации»
2011 -> Тезисы международной научно-практической конференции "Реализация гендерной политики: от международного до муниципального уровня"
2011 -> Программа дисциплины «Введение в социологию и история социологии»
2011 -> Николо Макиавелли Государь
2011 -> Экономическая социология
2011 -> Экономическая социология


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   17


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница