Программа «Высшее образование»



страница44/71
Дата10.05.2018
Размер4.29 Mb.
ТипПрограмма
1   ...   40   41   42   43   44   45   46   47   ...   71
Процент/частость/

Рис. 3.2.1 Гистограмма и эмпирическая кривая распределения студентов по профессиональным группам




20 .·



















10..·




















































«■
















—ί+

12 3 4 5 6 7 8 (будущая профессия студентов)

Аналогичным образом строится гистограмма и эмпирическая кривая распределения для второго признака, т. е. для распределения студентов по степени их удовлетворенности учебой. Они изображены на рис. 3.2.2. Если для номинальных и порядковых шкал гистограммы эмпирическая кривая распределения служит только для визуализации, то для метрических они имеют особый смысл.


Процент/частость







30

I



















25
















*' *-ч






















\i









f



t







]

2

3

4

5



(степени удовлетворенности учебой студентов)


Рис. 3.2.2 Гистограмма и эмпирическая кривая распределения по степени удовлетворенности учебой
Построим гистограмму и эмпирическую кривую распределения для признака «продолжительность затрат времени на учебу». В этом случае гистограмма строится несколько иначе. Как вы заметили, каждый столбик гистограммы по площади был равен числу респондентов. Визуально передается не высота столбика, а его площадь. Ширина столбика равнялась единице и для номинального, и для порядкового признаков. В данном случае ширину нельзя выбрать одинаковой, так как наши интервалы разные. Поэтому гистограмма строится по плотности распределения. Плотность в интервале -это число респондентов, приходящихся на единицу интервала. Обозначим плотность в наших шести интервалах через

Pi, Р2, Р3, Р4, P5, Рб

Тогда Pi = 27/1 = 27; Р2= 75/1,5 = 50; Р3 = 150/1,5 = 100;


Р4 = 348/3 = 116; Р5 = 250/1 = 250; Ρβ = 150/1 = 150


ПЛОТНОСТЬ


В данном случае эмпирическая кривая распределения не имеет содержательного смысла, ибо не передает характера распределения. Поэтому такую кривую строят при делении на равные интервалы. Число интервалов при этом определяется уже исходя из формальных критериев. Для порядковой и метрической шкалы гистограмму и эмпирическую кривую распределения можно построить и по накопленной частоте. Только в этом случае для эмпирической кривой распределения существует специфическое название. Она называется кумулята, а накопленную частоту называют кумулятивной. Построим ее по данным, представленным в таблице 3.2.1.
Таблица 3.2.1

Распределение по продолжительности учебы (равные интервалы)

Показатели

Продолжительность учебы

Итого

0-1

1-2

2-3

3-4

4-5

5-6

6-7

7-8

8-9

Абсолютная частота

27

50

75

100

48

100

200

250

150

1000

Относитель­ная частота в поопентм

2,7

5,0

7,5

10

4,8

10

20

25

15

100

Накоплен­ная частота

2,7

7.7

15,2

25,2

30

40

60

85

100



На рис. 3.2.4 изображены гистограмма и кумулята по продолжительности затрат времени на учебу (интервалы равные, их девять). Кумулята — это всегда возрастающая кривая. Пока на пунктирные линии не обращайте внимания.

Графическое изображение распределений в виде эмпирических кривых распределения (полигоны и кумуляты) нужны социологу в зависимости от типа шкал для разны целей. Для номинальной шкалы мы можем упорядочить (провести ранжирование) различные профессиональные группы по их представительности (объему) в наших данных и соответственно выделить модальные (самые большие по объему) группы. Для порядковой шкалы, кроме этого, определяется и степень единодушия студентов в оценке своей удовлетворенности учебой. Вспоминаем шкалу Терстоуна, для Построения которой посредством медианы и квартального размаха оценивалась степень единодушия экспертов. Самую важную роль играют эмпирические кривые распределения для метрических признаков. Но
эта роль связана не с первичным анализом и не с изучением поведения
эмпирически индикаторов, а с анализом поведения

показателей/коэффициентов/ индексов.





Рис. -?.24Кумулята по продолжительности затрат времен» на учебу
При статистическом подходе к анализу распределений каждый такой показатель теоретически может иметь закон распределения с определенными параметрами и по эмпирической кривой распределения можно судить о том, каков этот закон. Знание законов дает возможность применения к анализу эмпирии всего богатства средств, накопленных в математической статистике. Законов очень много, и отсюда названия: нормальный закон распределения (рис. 3.2.5), логарифмический закон распределения (рис. 3.2.6), линейный закон распределения (рис. 3.2.7) и т.д. Законы вы проходили и в школе. Уравнение прямой, параболы, гиперболы интерпретируются как математические законы, связывающие две величины X и Y. Некоторые законы нельзя записать в явном виде, т. е. в виде математической формулы.

Что касается самого факта существования закона распределения какого-то показателя, то это требует доказательства. Например, в виде проверки статистических гипотез. Эту тему относим к последующим этапам в вашем образовании.

Перейдем к рассмотрению характеристик, описывающих (отсюда название дескриптивная статистика) «поведение» признака в целом, в виде некоторой эмпирической тенденции. Потому они и называются мерами центральной тенденции.




Рис. 3.15 Рис. 3.2.6 Рис. 3.2.7
Мода

Наиболее часто встречающееся значение признака называется модой. Таки значений может быть и несколько. В нашем случае третья профессия является модальной. Социолог никогда не работает с одной единственной модой, а употребляет понятие «модальные значения». Для нашего примера профессии 3 и 8 являются модальными. Аналогична ситуация в случае порядковых шкал. Мода равна 2 (наиболее часто встречаются студенты, степень удовлетворенности учебой которых равен двум). В качестве модальных значений имеет смысл рассматривать все же два значения, 2 и 4, т. е. наиболее распространены две группы по степени удовлетворенности. И это несмотря на то, что по объему они различны. Однако по сравнению с другими группами они достаточно большие. Можно считать, что наличие таких модальных групп специфично, характерно, типично для изучаемой совокупности студентов-гуманитариев. Это самая простая эмпирическая закономерность.

На ождение модального значения в случае метрической шкалы невозможно по рис. 3.2.3, ибо ширина интервалов различна и это модальное значение может находиться в любом интервале. Поэтому прежде всего возникает задача определения модального интервала — интервала, содержащего моду. Для этого необ одимо перейти от деления на интервалы, основанного на содержательны критерия , к делению на интервалы по формальным критериям. При этом интервалы должны иметь равную длину и их число должно зависеть от степени изменчивости признака. Чем больше степень изменчивости, тем больше нужно интервалов для определения модального. На рис. 3.2.8 приведена гистограмма, построенная для случая деления «продолжительности» на девять равных интервалов. Абсолютные частоты в этих интервалах были приведены выше в таблице 3.2.1. Плотность в каждом интервале пропорциональна этим абсолютным частотам. Ширина интервала равна 1. Эмпирическая кривая распределения в этом случае называется эмпирической функцией распределения плотности.


Существует математическая формула для вычисления моды, но мы приведем лишь геометрический способ нахождения моды в модальном интервале. Модальным интервалом является интервал в 7—8 часов. Значение моды вычисляется геометрически (пересечение пунктирных линий на рис. 3.2.8) и примерно равно 7,3 часа (см. стрелочку на том же рисунке). Является логичным, что мода должна находиться ближе к тому концу модального интервала, который примыкает к интервалу с большим числом объектов. Возникает вопрос, как подсчитать значение моды, если модальный интервал первый или последний по счету. Тогда за моду принимается середина эти интервалов.

Модальные значения определенным образом говорят о арактере поведения признака и в основном о числе «горбов». Например, вспоминаем задачу ранжирования по предпочтениям различных сортов пива. С какими ситуациями мы сталкивались? С достаточным единодушием (один горбик, одна мода), с двумя противоположными тенденциями (два горбика, две моды) и с полным разнообразием (практически равномерное распределение — моды нет). Чтобы как-то продвинуться в анализе предпочтений, мы использовали еще одну характеристику — медиану, к рассмотрению которой и переходим.


Медиана

Эта мера центральной тенденции, или характеристика распределения, имеет смысл только для порядковы и метрически шкал. С медианой мы сталкивались при построении шкалы Терстоуна и опять же в процедуре ранжирования. В общем случае медиана — значение признака, соответствующее середине упорядоченного ряда. Например, пусть у нас есть данные по каждой области — доли голосов в %, отданных избирателями на выборах господину Икс. Тогда значение медианы, равное 15%, интерпретируется следующим образом. В половине областей отдано за господина Икс больше 15% голосов, а в половине — меньше 15%. Не правда ли, это очень важная характеристика для интерпретации результатов выборов?

Для вычисления медианы в этом случае мы должны были упорядочить все области в порядке возрастания или убывания числа голосов. Если число областей нечетное, то в середине ряда — одна единственная область. Медиана тогда равна числу голосов, отданных господину Икс в этой области. Если число областей четное, то середину ряда составляют две области и медиана вычисляется как среднее значение по этим двум областям.

В случае нашего примера метрической шкалы — продолжительность затрат времени на учебу — медиана может быть вычислена таким же образом. Для этого проведем упорядочение студентов по возрастанию/убыванию этих затрат и найдем середину аналогичным образом. Медиану можно вычислить и по кумуляте (см. шкалу Терстроуна).



Для порядковы и метрически шкал необ одимым является понятие медианного интервала, т.е. интервала содержащего медиану. Как правило, вы не любите формулы, поэтому приведем вербальное описание формулы для вычисления медианы в медианном интервале. Это делается по двум соображениям. Первое — показать, что математическая формула всегда отражает содержание. Второе — математической формулой иногда пользоваться удобнее для избежания очень длинны описаний. Итак, медиана в медианном интервале вычисляется по формуле:

нижняя




ширина







полотна \

частота \







Поделитесь с Вашими друзьями:
1   ...   40   41   42   43   44   45   46   47   ...   71


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница