Программа «Высшее образование»



страница45/71
Дата10.05.2018
Размер4.29 Mb.
ТипПрограмма
1   ...   41   42   43   44   45   46   47   48   ...   71
частота» \

гранит

+

мешанного







от числа 1

накопленная




медианном

ыедаакнсгс

интервала

X




объектов j

до




интервале

интервала
















медаяшого интервала







1




ι







ι /

ι 1

\ /












L (п/2)

(Р) -




(Р)

Эту формулу можно записать очень просто с использованием обозначений, приведенны внизу:

Me = x +1 -

P

Чем выше уровень измерения, тем богаче возможности описания «поведения» признака. Если признак измерен по метрической шкале, то кроме моды и медианы для описания поведения признака используется известная всем мера центральной тенденции — средняя арифметическая.



Среднее арифметическое

Для любой совокупности значений признака это сумма всех значений, деленная на и число. Вернемся к примеру признака — продолжительность затрат времени на учебу. Обозначим число студентов-гуманитариев через n (для нашего случая n=1000), а через X — значение этой продолжительности для i-го студента. Тогда средняя арифметическая продолжительности будет равна:


n i=1
Таким образом можно определить среднею продолжительность затрат времени на учебу в группа студентов с любой «будущей профессией», с любой степенью удовлетворенности учебой и т. д.

Социолог часто встречается с ситуацией, когда конкретные значения признака по отдельным объектам неизвестны. Исходно имеются только интервалы изменения признака и частота (абсолютная или относительная) встречаемости объектов в этих интервалах. Например, та же продолжительность может быть задана в виде интервалов и частоты в них. Это может быть в двух случаях. Первый — данные о продолжительности получены c помощью прямого вопроса анкеты: «Сколько времени Вы в среднем в неделю тратите на занятия, связанные с учебой?». При этом предлагаются заданные заранее интервалы. По сути, мы имеем дело с порядковой шкалой. В этом случае также можно вычислить среднее значение продолжительности для некоторой группы студентов. Только она называется средняя взвешенная и вычисляется несколько по-другому.

Второй случай, когда у социолога отсутствуют конкретные значения по каждому объекту в ситуации вторичного анализа. Вторичным анализом социолог называет анализ «чужи » данны для решения свои собственны , новы задач. Тогда часто при одится работать уже с вычисленными до него средними арифметическими. Например, результаты исследования бюджетов времени обычно публикуются в виде средних затрат времени с указанием объема группы, для которой они получены. В процессе вторичного анализа возникает необходимость объединения каких-то групп и, соответственно, в подсчете общей средней. В этой ситуации также необходима средняя взвешенная для вычисления «средней средних».

Вычислим среднюю продолжительность затрат времени на учебу студентами-гуманитариями по данным таблицы 3.1.3. Для этого предполагается, что продолжительность для каждого респондента, отнесенного к интервалу, равна середине интервала. Для наши шести интервалов их середины соответственно равны:

Х1 = 0,5; X2 = 1,75; X3 = 3,25; X4 = 5,5; X5 = 7,5; X6 = 8,5.

Нам известно число студентов в каждом интервале: щ = 27; n2 = 75; n3 = 150; n4 = 348; n5 = 250; n6 = 150. Тогда продолжительность затрат времени на учебу в среднем на студента или средняя взвешенная продолжительность равна:



X = (0,5х27+1,75х75+3,25х150+5,5х348+7,5х250Н-8,5х150)/1000=5,7 Формула для вычисления средней взвешенной выглядит для k интервалов следующим образом:

k

njxj


nj

j=1

где Xj — середина j-го интервала.

Аналогично вычисляется «средняя средних». Допустим, перед социологом стоит задача вычисления средней продолжительности жизни мужчин в России по данным отдельных областей. Эти данные представляют собой среднюю продолжительность жизни мужчин по каждой области. Естественно, «среднюю средних» вычисляем с весами, равными численности мужчин в каждой области.

Все рассмотренные характеристики: мода, медиана, средняя арифметическая, среднее взвешенное — являются средними. Они характеризуют центральные тенденции одномерного распределения. Есть и другие средние, но они в социологии применяются редко. Поэтому среднюю арифметическую называют просто средней, а мода и медиана сохраняют свои названия. Без процедуры усреднения социолог-эмпирик существовать не может. Другое дело, с помощью каких средних он проводит эту процедуру.

Сами по себе значения «средни » мало о чем говорят, если социолог не видит эмпирическую кривую распределения, например, на экране компьютера. В ситуации «невидения» ему помогают интерпретировать любые средние так называемые меры вариации, меры рассеяния объектов вокруг этих средних. Сначала мы рассмотрим меру вариации для случая метрической шкалы, а затем для порядковой и номинальной.

Прежде чем перейти к этой проблеме, заметим, что любая средняя характеризует центральную тенденцию распределения только тогда, когда объекты в основном сосредоточены вокруг этих средних, т.е. изучаемая совокупность объектов однородна относительно признака. Однородность это очень важное понятие для всех, кто работает с эмпирией. Социолог сталкивается с проблемой однородности в разных контекстах. Как раз вот здесь пара понятий «качество — количество» очень важна. Разделение понятий качественная однородность и количественная однородность имеет огромный смысл. Например, разве есть смысл в среднем доходе или в среднем возрасте россиянина? Конечно же, нет. И в то же время есть смысл в средней заработной плате сельских врачей или в среднем возрасте мужчин-пенсионеров. Необходима качественная однородность для того, чтобы начать анализ количественных характеристик распределения признака.

Сами количественные характеристики могут указывать/показывать на отсутствие количественной однородности по анализируемому признаку. Это в свою очередь будет говорить о наличии качественной неоднородности.
Дисперсия

Рассмотрим меру вариации/рассеяния/разброса/изменчивости для метрической шкалы. По эмпирической кривой распределения или гистограмме на рис. 3.2.3 видим, что совокупность студентов неоднородна по продолжительности затрат времени на учебу. С одной стороны, очевидно, что средняя продолжительность учебы как характеристика имеет смысл, поскольку вполне правомерно сравнение средней продолжительности учебы для выделенны нами групп студентов: социологов, политологов, культурологов и т. д. С другой стороны, в ситуации неоднородности такое сравнение содержательно ни о чем не говорит.

Какова может быть мера неоднородности/однородности по продолжительности? Об этом можно судить по степени отклонения продолжительности затрат времени на учебу отдельного студента от сред­ней продолжительности, которая в нашем случае равна 5,7 (в часах).

Индивидуальные отклонения (Xi - X) нельзя просто суммировать, чтобы

судить об общем отклонении. Отклонения в одну сторону будут погашаться отклонениями в другую. Чтобы этого не было, индивидуальные отклонения возводятся в квадрат, а затем складываются. Эта сумма делится на число респондентов, и получается характеристика, называемая дисперсией 2). Это мера вариации значений признака в среднем и вокруг средней арифметической.

(X, - X)



σ= n

Следует заметить, что при небольшом числе объектов делить нужно не на n, а на (n —1). Для социолога это не принципиально, так как он работает обычно с достаточно большим числом объектов.

Корень квадратный из дисперсии называется среднеквадратическим отклонением — сигма). По ней можно сравнивать меры рассеяния разных признаков, одного признака для различных совокупностей. Прямое сравнение дисперсий, среднеквадратически отклонений мало что дает. Рассмотрим пример из нашего исследования. Вычислим среднее арифметическое и среднеквадратическое отклонение продолжительности затрат времени на учебу для нескольки групп студентов. Допустим, что для

социологов ( X = б, σ = 4), психологов (X = 5,4, σ =3,5), политологов (X =

4,5, σ = 3,5), историков (X = 6, σ = 2). Какие выводы можно сделать по этим данным?

Социологи и историки затрачивают на учебу в среднем одинаковое время, но совокупность социологов менее однородна, потому что среднеквадратическое отклонение больше. Пси ологи затрачивают на учебу в среднем больше времени, чем политологи, и они более однородны, чем группа политологов. Дисперсия одинакова в этих группах, относительно разных по значению средних. Когда средние и дисперсии в сравниваемых группах различны, на помощь приходит коэффициент вариации.



Коэффициент

вариации

Этот коэффициент при наших обозначениях равен V = = * 100



X

Он представляет собой долю вариации в процентах (%), приходящуюся на единицу средней. В нашем случае соответственно четырем группам: V1 = 66,7% (для социологов), V2 = 64,8% (для психологов), V3 = 77,8% (для политологов), V4 = 33,3% (для историков). Таким образом, группа историков более однородна по продолжительности затрат времени на учебу, чем все остальные группы. Самая неоднородная группа политологи. Это означает, что среди них оказались и очень много, и очень мало занимающиеся.

Среднее арифметическое и дисперсия интерпретируются всегда вместе. Например, существует так называемое правило «трех сигм», очень важное при работе с эмпирией. Оно означает, что если все значения признака находятся в интервале от -3σ до +3σ, то считается, что закон распределения признака нормальный, т. е., как минимум, эмпирическая кривая имеет унимодальный характер (одна мода, один горб). На рис. 3.2.5 изображен идеальный нормальный закон распределения. Запомните его, ибо математический аппарат для анализа нормальных распределений очень богат. Для идеально нормального распределения мода, медиана и среднее арифметическое равны.

Если для анализа распределений использовать «язык» статистического анализа, то сами рассмотренные характеристики,

например X, являются величинами, имеющими свой собственный закон распределения. Представим себе, что каждый из вас для одного и того же исследования сформировал выборочную совокупность. Пусть у каждого будет самая из самых «хорошая» (репрезентативная) выборка. Если подсчитать, к примеру, средний возраст опрошенных по этим выборкам, то значения будут различны. Среднее этих значений и будет истинным значением среднего возраста в генеральной совокупности. Аналогичны рассуждения и в случае средней продолжительности затрат времени на учебу.

Отклонение средни от «истинной средней» будет носить случайный арактер. Оказывается, эту случайность можно оценить. На этом основан подсчет так называемых доверительных интервалов, т. е. интервалов, в которых находится истинное (для генеральной совокупности) значение признака. Но это только для тех величин (характеристик), для которых известен закон распределения. Они называются статистиками. Среднее арифметическое и является статистикой с нормальным законом распределения. Для нее легко определяется доверительный интервал.



Другие меры вариации

Рассмотрим меру вариации, меру отклонения, меру рассеяния значений признака вокруг медианы. Такой мерой является квартил ный размах, с которым мы встречались при построении шкалы Л. Терстоуна. Вспомним, что содержательно это интервал, в котором вокруг медианы сосредоточилось 50% экспертов. Это единственная мера вариации для порядковых шкал. На рис. 3.2.4 три пунктирные линии проведены для определения медианы и соответствующего ей квартильного размаха {он равен (Q3 - Q1)/2 }. Без сравнительного контекста трудно сказать, мало это или много. Для социолога познавательная возможность любого математического конструкта, а это пока простейшие формулы на уровне обыденного понимания, определяются только в сравнительном контексте, т. е. при сравнении значений, полученных в разных условиях.

Перейдем к самым трудным для понимания мерам — мерам качественной вариации, т. е. мерам вариации для признаков, измеренны по номинальным шкалам. Самое главное, что любая такая мера характеризует степень отклонения распределения признака от равномерного, т. е. когда каждой градации признака соответствует одно и то же число объектов. Максимальное значение меры обычно соответствует ситуации равномерного распределения, а минимальное — ситуации, когда все объекты сосредоточены в одной градации.

Как мы знаем, любой номинальный признак сводится к совокупности бинарны , ди отомически , т. е. принимающи значения 0 или 1. В этом случае столбец нашей исходной матрицы данных «объект-признак», соответствующий одному признаку, превращается как бы в несколько столбцов, каждый из которых соответствует отдельному свойству (быть социологом, быть политологом и т. д.). Анализировать мы должны теперь поведение «свойства», а не признака. По всем объектам это совокупность из нулей и единиц.

0000 1 1 1 1 1 1 ...00 1 1 1

Предположим, что этот ряд получен по свойству — быть в будущем социологом. Если i-й студент — социолог, то ему соответствует хi=1 , а если он не социолог, то хi = 0. Оказывается, для такого вида данных имеет смысл среднее арифметическое. Она равна X = k/n, где k — число будущих социологов, a n — число всех студентов-гуманитариев.

Почему имеет смысл средняя арифметическая для ди отомической

шкалы? Потому что она содержательно интерпретируется. Если X = 0, то это означает, что все студенты-гуманитарии в нашей выборке не социологи. Если X = 1, то все студенты — социологи. Если X = 0,5, то половина студентов X будущие социологи, а половина — не социологи. Продолжая наши рассуждения, можно сделать вывод и для случаев,_когда 0 < X < 0,5 и 0,5 < X < 1. Первый из них означает, что в совокупности меньше 50% студентов социологи. Второй — в совокупности больше 50% социологов.

Таким образом, как это ни парадоксально, можно вычислять среднее арифметическое по признаку «пол». Только важно правильно интерпретировать полученный результат, исходя из того, каким образом закодирован этот признак. Разумеется, социологу нет никакого смысла в использовании такого рода средней, отражающей «центральную тенденцию». Он прекрасно работает с относительными частотами в %. Приведенная средняя интересна не для целей первичного анализа, а для анализа с применением сложных математических методов. К примеру, для такой средней можно подсчитать дисперсию. Если для дихотомических признаков имеет смысл использование характеристик метрической шкалы, значит, возможно использование и математических методов, работающих с метрическими данными. Дисперсия в данном случае равна:


Эта дисперсия и является мерой вариации для бинарного (дихотомического) признака. При этом она равна нулю, если все объекты либо обладают, либо не обладают анализируемым свойством. Что естественно, так как в эти случая разброса в данны не наблюдается. Максимальное значение этой дисперсии достигается в случае равномерного распределения (k = n/2), и оно равно 1/4. При этом 1 = 1/2, σ = 1/2, V=100%.

Напомню вам одно правило из школьной арифметики. Если есть два целых числа, то среднее геометрическое этих чисел всегда меньше или равно среднему арифметическому. Равенство достигается, когда числа равны.



4ab <(а + b)/2

Этим соотношением и воспользуемся для введения коэффициента качественной вариации. Вначале предположим, что номинальный признак имеет только две градации, причем в первую градацию попало Ni объектов, а во вторую —N2 объектов {число всех объектов равно n = Ni + N2,). И если теперь в соотношение между средней арифметической и средней геометрической подставить



а = N2; b = N22, т получим N1 · N2 < (n12 + N22 )/2

Максимальное значение N, · N2 будет только в случае N1 = N2 , и оно будет равно η2 / 4. А это ведь случай равномерного распределения. Коэффициентом качественной вариации и будет отношение реального значения произведения ( N, • N2) к максимальному его значению, равному η / 4 .

Коэффициент равен нулю, если все объекты в одной градации, и единице, если распределение равномерное. Коэффициент легко обобщается на случай, когда число градаций равно k. Представим себе, что из всей

совокупности объектов мы образовали всевозможные пары. Вспомним метод парных сравнений Терстоуна и вычисление числа всевозможных пар для сравнения объектов. Здесь ситуация аналогичная. Пары не повторяются, объект сам с собой пару не образует. В случае двух градаций произведение (N1 · N2) есть не что иное, как число пар, различных между собой.

Если градаций три и по ним частоты равны (N1, N2, N3), то число различных пар будет равно (N1-N2 + N1-N3 + N2-N3). Число членов в этой сумме вычисляется как число парных сочетаний из трех элементов по два. Вспоминаем, что это число равно k(k-1)/2, когда число элементов равно k.

Тогда коэффициент вариации вычисляется как отношение:

€ реального числа различных пар, равного (N1-N2 + N1-N3 + N2-N3);

€ к максимальному (случай равномерного распределения), равному {(n2 / 9)(3 · 2 / 2)}. В первых круглых скобках — то, во что превращается каждый член суммы, а во вторых — число членов в этой сумме.

В общем случае для k градаций реальное число пар равно

k-1 k □ Г 2 2 1

□□ □ NiNj а максимальное - {(n /k )(k(k -1)/2)}. Таким образом,

i =1 j=2

формула для вычисления коэффициента качественной вариации приведена по частям, т. е. отдельно числитель (реальное) и отдельно знаменатель (максимальное).

Коэффициентом вариации (R) может служить и величина, равная среднему геометрическому из относительных частот в долях (частости) умноженному на число градаций, т. е.



Для вычисления этой величины необходимо избавиться от пустых градаций, иначе она обратится в нуль. R=1 при равномерном распределении.

Приведем еще один пример вычисления меры качественной вариации.
В качестве такой меры служит энтропия, о которой мы упоминали в
контексте «языка» анализа распределений, опирающегося на
информационный подход. Энтропия — это основное понятие так
называемой теории информации. Распределение признака интерпретируется
как некое сообщение, несущее определенный объем информации. Этот
объем можно оценить энтропией как мерой

«определенности»/«неопределенности». Ее трудно объяснить и трудно понять без знания логарифмов и логарифмических законов распределения. Более того, замечательные свойства этой меры могут быть оценены только при многомерном анализе. Пока вам придется просто этому поверить. Итак, энтропия Н(х) при числе градаций равном k и при обозначении i-й частости (доли) через р; равна:



k

H(x) = -□ Pi 1og р{

i=1

Логарифм может быть взят по любому основанию, ибо нетрудно перейти от одного основания к другому. Напомним, что есть натуральный логарифм (по основанию «е»), десятичный (по основанию «10»), двоичный (по основанию «2»).

Энтропия — положительная величина, несмотря на то, что перед суммой стоит минус. Он погашается другим минусом, появляющимся за счет того, что логарифм берется от правильной дроби (это вам известно из школьной математики). Значение энтропии равно нулю, если все объекты сосредоточены в одной градации (но чтобы это показать, нужны знания о «пределах» — lim). В самом деле, тогда мера неопределенности минимальная. Энтропия равна log k, если распределение равномерное, т. е. в этом случае максимальная неопределенность. Чтобы значение меры не зависело от числа градаций, можно использовать в качестве меры качественной вариации нормированную величину энтропии.

Термин нормировка будет дальше встречаться часто. Это процедура преобразования некоторой величины в необходимый для исследователя вид. Она нужна для того, чтобы какие-то показатели/коэффициенты/ индексы изменялись либо от 0 до 1, либо от -1 до +1. Тогда делается возможным сравнение их значений, полученных при разных условиях, например, для различных совокупностей объектов.

На практике пользуются в сравнительном контексте только одной мерой качественной вариации, ибо каждая мера отражает свое собственное понимание вариации. Потому значения, полученные по разным мерам, не имеет смысла сравнивать.




Поделитесь с Вашими друзьями:
1   ...   41   42   43   44   45   46   47   48   ...   71


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница