Мангейм Дж


ПОДГОТОВКА И ОБРАБОТКА ДАННЫХ



страница85/123
Дата31.12.2017
Размер6.16 Mb.
ТипКурс лекций
1   ...   81   82   83   84   85   86   87   88   ...   123
12. ПОДГОТОВКА И ОБРАБОТКА ДАННЫХ

Мы достигли той стадии исследовательского процесса, когда в нашем распоряжении уже имеется массив данных и предстоит выбрать наиболее доступный и эффективный способ его обработки. Именно на этой стадии мы начинаем окончательное оформление результатов наших усилий в виде схем, графиков, статистических выкладок и других элементов, составляющих отчет о проделанной научной работе; эту часть нашего исследования мы представляем для всеобщего обозрения и прочтения. Однако остается еще один гораздо менее заметный комплекс операций, которых нельзя избежать, если мы хотим извлечь из наших данных наиболее полную информацию. Имеется в виду подготовка и обработка данных, чему будет посвящена настоящая глава. Как исследователь приписывает цифровые значения той информации, которую он или она собрали, чтобы можно было бы ее основательно проанализировать? Как можно использовать эти цифры, чтобы осмысленно связаться с компьютером, без которого обрабатываемые нами массовые данные зачастую становятся неуправляемыми? Что в этом случае компьютер может сказать нам о наших данных? Как мы должны спрашивать его? Эти и другие имеющие отношение к делу вопросы должны быть решены прежде, чем мы перейдем к анализу данных и презентации результатов. [c.356]

КОДИРОВАНИЕ: ЧТО ВСЕ ЭТИ ЦИФРЫ ЗНАЧАТ?

Процесс присвоения количественных значений имеющейся у нас информации называется кодированием. Кодирование для измерений значит то же, что алфавит для речи, а именно средство, с помощью которого информации придается форма связного и продолжительного сообщения. Так же как каждая буква или комбинация букв алфавита представляет определенный звук, каждая цифра или комбинация цифр кода представляет определенную характеристику или состояние исследуемого объекта. И так же, как буквы позволяют тем, кто знает алфавит, оперировать сложными мыслями, цифры позволяют тем, кто [c.356] знает код, оперировать сложными понятиями в более сокращенной форме. Кроме того, цифровая кодировка дает возможность исследователю пойти еще дальше, поскольку кодированная информация, особенно кодированная в цифровой форме, позволяет применить математические методы, и тогда полученные данные могут выявить то, что без обращения к цифровой интерпретации могло остаться скрытым. Другими словами, кодирование открывает путь к более глубокому исследованию, чем это могло бы быть в любом другом случае.

Цифровые коды в исследовательской работе очень похожи на азбуку Морзе в телеграфии, с которой вы, вероятно, знакомы. В азбуке Морзе определенные комбинации точек и тире заменяют буквы алфавита. Сами точки и тире преобразуются в длинные и короткие звуки, которые могут быть переданы по радио от соответственно оборудованной передающей станции к соответственно оборудованному приемнику. Звуки затем преобразуются в буквы, и передача сообщения, таким образом, завершена. На рис. 12.1 этот процесс изображен в форме диаграммы.



Рис. 12.1. Кодирование в телеграфии

Точно также в научном исследовании каждая цифра кода означает определенную градацию данной переменной. Например, если мы измеряем уровень образования членов определенной группы, в которой каждый опрашиваемый может иметь незаконченную высшую школу, законченную высшую школу и законченное высшее образование колледжа, мы можем представить эти три уровня градаций цифрами 1, 2, 3. Или же, если мы хотим учесть число лет обучения, цифровой код должен отражать это число (например, цифра 7 будет значить семь лет обучения). Обе системы кодирования позволяют довольно точно подытожить результаты исследования, хотя принципы, кодирования разнятся. Ну и, поскольку мы имеем комплекс закодированных в той или иной форме данных, можно обрабатывать и анализировать их в соответствии с нашими желаниями, прежде чем преобразовывать их обратно в словесную форму при подготовке отчета о нашей нагнои деятельности. Этот процесс перевода информации из словесной формы в цифровую и обратно в обобщенной форме показан на рис. 12.2.





Рис. 12.2. Кодирование в исследовании

Самое главное, что необходимо помнить при разработке кодирования данных, – это то, что принцип [c.357] кодирования должен всегда определяться характером измерения исследуемой переменной. Так, переменные, измеряемые номинальными шкалами, должны иметь номинальные коды, переменные, измеряемые шкалами порядков, – порядковые, и переменные, измеряемые интервальными шкалами, – интервальные. Внешне все эти цифры могут казаться [c.358] одними и теми же, однако их значения в каждом случае существенно отличны от других. Анализ или оперирован данными, преобразованными из словесной формы в цифровую, чреваты непреодолимым искушением применить м годы, которые просто невозможны в данном случае в си особенностей измерения переменной (более подробно мы рассмотрим эту проблему в следующих главах). Такое искушение нужно преодолеть, если мы хотим извлечь пользу своего исследования. [c.359]

Механизм закодирования (или раскодирования) данных действительно очень прост. Мы начнем с определения типа каждой переменной нашего исследования с точки зрения шкалы ее измерения. Если это номинальная переменная, в которой нам нужно распределить цифры кода между взаимоисключающими категориями, невзирая на порядок их расположения, то мы делаем это так, как нам удобно. Возьмем довольно типичный пример. Если члены исследуемой группы подразделяются по вероисповеданию на протестантов, католиков и иудеев, то распределить коды между этими категориями можно согласно любой из нижеследующих схем:


 

1  Протестанты
2  Католики
3  Иудеи

1  Католики
5  Иудеи
8  Протестанты

1  Иудеи
2  Протестанты
3  Католики

43  Протестанты
17  Католики
27  Иудеи

 

В каждом случае отдельная цифровая градация используется для обозначения градации или категории переменной. Поскольку вероисповедание есть номинальная характеристика, порядок расположения и размерность кода не имеют никакого значения. Мы можем при кодировании использовать одно-, трех- и даже десятизначные цифры, если нам этого захочется. Конечно, лучше давать наиболее простые и удобные коды, и обычно выбирают простые цифры с наименьшим количеством знаков, но вообще это зависит от нашей приверженности к экономии, а не от каких-либо математических требований.

Можно также использовать более сложную схему номинального кодирования для более полного отражения информации. Например, мы хотим в нашем исследовании более подробно представить информацию о лицах протестантского и иудейского вероисповедания. Тогда мы можем использовать систему двузначных кодов, которая строится на предыдущей классификации. В качестве первой цифры выбираем ту же, что и ранее (например, 1 – протестанты, 2 – католики, 3 – иудеи). Вторая будет обозначать новую информацию. Взгляните на следующую схему:



 

10  Протестанты
11     Баптисты
12     Методисты
13     Просвитериане
14     Лютеране

20  Католики
30  Иудеи
31     Ортодоксальные
32     Консервативные
33     Реформистские

 

[c.360]

Здесь наши коды отражают (в первой колонке) приблизительную разницу между категориями и в то же время (вторая колонка) дают возможность уточнения. В результате мы имеем более полную запись характеристик исследуемых лиц, которая вместе с тем сохраняет следы менее точной (но зачастую более удобной с точки зрения анализа) системы записи, с которой мы начали.

Если бы нам нужно было перечислить все градации протестантского вероисповедания, то возможности кода в диапазоне “10” (от 10 до 19) вскоре были бы исчерпаны и нам пришлось бы изменить схему записи. Любой из нижепредложенных вариантов может легко решить эту проблему, хотя выбор того или иного пути может варьироваться в зависимости от задач исследовательского анализа или навыков компьютерного программирования.

В первом случае мы просто увеличили количество двузначных кодов (комплектов десятичных кодов), приписанных протестантам, тогда как во втором – упорядочили их. И опять если переменная, по сути, является номинальной, то ни конкретная цифра, ни количество знаков кода не имеют никакого значения. До тех пор пока наша система кодировки является оптимально экономной, а градации переменной – взаимоисключающими, любая цифра удовлетворительна. [c.361]

Когда мы кодируем порядковые переменные, наши возможности уже несколько ограничены. Поскольку порядковое измерение не предполагает равных или просто известных нам интервалов, мы остаемся, вольны в выборе цифр любой величины. Но поскольку порядковое измерение требует сохранения в наших кодах относительного ранжирования градаций (позиций), мы должны заботиться о том, чтобы наши цифры были по меньшей мере определенным образом расположены. Так, для переменной уровень политического развития или любой другой переменной, содержащей разницу в уровне, степени или сходстве градаций, любая из предложенных ниже систем кодировки может быть одинаково верной (и одинаково значимой).


 

1 Самый низкий
2 Низкий
3 Высокий
4 Высший

 

1 Самый низкий
6 Низкий
7 Высокий
9 Высший

1
17
24
3027

Самый низкий
Низкий
Высокий
Высший

Каждая из них сохраняет порядок, заданный самой переменной. И ни одна не является более точной, чем остальные, поскольку точность здесь – функция не самих цифр, а стоящего за ними порядкового измерения. Как и ранее, наша приверженность к экономии может подтолкнуть нас к выбору первой из трех предложенных схем, однако если не принимать этого во внимание, то наш выбор строго случаен.

Напротив, ни одна из следующих схем не является подходящей:



 

1 Самый низкий
9 Низкий
6 Высокий
7 Высший

1 Высший
2 Высокий
3 Низкий
4 Самый низкий

 

Если относительная величина или расположение цифровых кодов (а следовательно, и направление их изменения) не имеют значения для номинальных измерений, то в случае работы с порядковыми данными они очень важны. В первом из вышеприведенных примеров смещен порядок кодов, во втором он изменен на обратный. В результате ни одна из систем кодировки не сохраняет в достаточной мере относительного расположения и величины градаций самой переменной. Таким образом, коды неверно передают сведения. Они либо лишают нас возможности выстроить наши данные по порядку, либо вводят в заблуждение относительно причин [c.362] той систематизации, которую мы пытаемся выработать. Короче говоря, подобных ошибок нужно избегать при работе с порядковыми данными.

Разработка кодов для интервальных измерений, с одной стороны, – наиболее трудоемкий процесс, однако с другой – он может оказаться наилегчайшим. Здесь цифры имеют гораздо более точное значение, и наши возможности в кодировании существенно ограничены. Доллар – это доллар, год – это год, а разница между 47 и 43% такова же, как и между 73 и 69%. В интервальном измерении не только величины являются взаимоисключающими и определяющими порядок расположения, но и интервал между двумя соседними значениями одинаков и неизменен. Кодирование интервальных данных должно сохранять эти характеристики.

На первый взгляд это может показаться невыполнимой задачей. Для того чтобы закодировать интервальную переменную, необходимо найти такую систему кодов, где каждый исключает другие, каждый соответствует определенной величине переменной, каждый отстоит на равное количество единиц измерения от ближайшего соседа и дистанция эта между двумя соседними величинами известна. В действительности, однако, нахождение таких цифр, в общем-то, простая задача, поскольку в отличие от большинства номинальных или порядковых шкал, когда исследователь, по сути дела, вынужден выискивать цифровые эквиваленты для своих сведений, многие интервальные коды заданы изначально. Иными словами, интервальные коды гораздо чаще, чем на более низких уровнях измерения, следуют непосредственно из операционных характеристик самой переменной. Если определить личный доход как количество долларов, которое он или она зарабатывает за определенное время, то каждое конкретное количество заработанных долларов определяет не только какую-либо градацию переменной дохода, но и код для этой градации. Если градации номинальных и порядковых переменных в основе своей являются вербальными (как, например, протестант и католик, высокий и низкий уровни развития) и должны быть заменены цифровыми эквивалентами, то градации интервальных переменных изначально имеют цифровую форму (доллары дохода при исчислении стажа работы в административном [c.363] учреждении) и не требуют специального перевода. Результатом является то, что при кодировании интервальных данных основное внимание уделяется не созданию имеющих смысл кодов, а опознаванию и сохранению их.

Как отмечалось в гл. 3, иногда могут возникнуть такие ситуации, когда исследователь, желая повысить возможности обработки и информационную отдачу своих данных, захочет свести интервальные данные к порядковым категориям. Например, для нас гораздо проще и значимее может оказаться анализ респондентов по общему уровню их доходов, чем учет каждого доллара разницы. В таких случаях в первоначальной кодировке данных можно сохранить их интервальный характер, а затем полученные категории преобразовать согласно нуждам исследователя (например, мы записываем действительное количество долларов, заработанных респондентами, а затем группируем их в более крупные категории) или же можно действовать по методу, когда данные сразу, по мере поступления записываются в сгруппированном виде так, как будто мы классифицируем респондентов по большим категориям дохода и не фиксируем точный размер их заработка. Каждый метод имеет свои достоинства и свои недостатки, которые должны учитываться в каждом конкретном случае. Какой бы метод ни был взят, исследователь должен быть уверен, что выбранная схема кодирования отвечает требованиям измерения конкретного признака.

Становится очевидным, что процесс приписывания определенных кодов данным неотделим от процесса операционализации переменных. Безусловно, коды – это ничто иное, как цифровое выражение наших операциональных определений. Поэтому обсуждение проблемы кодирования было бы более уместно в начале книги. Все вопросы, связанные с тем, какие коды дать градациям переменных, должны быть решены на ранних стадиях исследовательского процесса. Все это неотъемлемая часть верного планирования исследования. Однако истинная ценность кодов становится понятной позже, поскольку именно на стадии анализа данных коды начинают играть ту роль, которую они призваны сыграть во всем проекте исследования. Именно тогда коды дают возможность перейти от обзора к обработке данных, а затем от обработки – к интерпретации. Для того чтобы понять, как происходит этот переход, давайте рассмотрим некоторые аспекты техники кодирования. [c.364]

КНИГА КОДОВ И КОДИРОВАЛЬНЫЙ БЛАНК

Первое, что нам следует рассмотреть, – это книга кодов. Книга кодов – это перечень всех переменных, встречающихся в исследовании, всех значений, которые могут принимать переменные, и всех приписанных им цифровых значений.

Представьте, например, что 1 июля 1995 г. правительства Ирана, Никарагуа и Вьетнама заключили соглашения с некоторыми рекламными агентствами с целью улучшения своего имиджа в американской прессе и что мы хотим провести исследование, для того чтобы определить, каково воздействие этих усилий на содержание новостей и редакционных статей. В таком исследовании нам можно сравнить период, непосредственно предшествующий, и период, непосредственно следующий за исходной датой, с тем чтобы установить, что произошло после заключения контрактов: 1) количество репортажей о каждой) стране значительно возросло или значительно упало, 2) отношение к этим странам в прессе более предпочтительно или менее предпочтительно, чем в предыдущий период. Необходимо также учитывать такие дополнительные факторы, как регулярные сезонные перемены в репортажах, например большее внимание прессы к некоторым странам в период туристского сезона, или увеличение потока достойных внимания прессы событий во время обострения политической ситуации или в результате стихийных бедствий; однако для большей наглядности мы не будем обращать внимание на эти факторы.

Для того чтобы оценить эффект усилий по улучшению имиджа, мы можем обратиться к любому количеству репортажей новостей или проанализировать лишь перечень, который может быть в форме как заголовков, так и кратких резюме различных статей и содержит, по сути дела, значительную долю информации; можно также использовать его лишь для обозначения самих статей. Для наглядности давайте воспользуемся перечнем (который в нашем случае содержит заголовки и полные библиографические ссылки) в “Reader's guide to Periodical Literature”, в котором публикуется содержание большого количества популярных журналов; выберем гуда заголовки “Иран”, “Никарагуа”, “Вьетнам”. Нашей зависимой переменной будет деятельность профессиональных рекламных агентств, точнее, ее отсутствие (до l июля 1995 г.) или присутствие (после этой даты). [c.365]

Следуя двум отмеченным принципам, мы будем иметь два комплекса зависимых переменных. В первом будет учитываться количество статей, в нем будет отмечаться ежемесячное количество их в период до и после тестирования и соотношение (на основании заголовка или содержания) статей, относящихся к политической, экономической или социальной системам каждой страны. В дальнейшем мы будем обозначать эти статьи как затрагивающие внутренние или внешние проблемы. Второй комплекс зависимых переменных будет учитывать качество репортажей на основании суждений о том, насколько положительно или отрицательно (опять же на основании заголовков) оцениваются в них названные страны. И, наконец, в любом исследовании такого рода необходимо иметь специальные коды для обозначения каждой отдельной статьи, страны, к которой она относится, даты публикации, объема статьи, типа издания, в котором она появилась.

В упрощенном виде макет кодировки для этого гипотетического исследования представлен в табл. 12.1. Как видите, макет кодировки суммирует переменные, используемые в исследовании, и приданные им значения. Это, по сути дела, немного больше, чем просто формальная классификация, с которой начинается любое исследование. Здесь эта классификация представлена во всех деталях, включая инструкции к интерпретации, и структура ее построена не в соответствии с нашими гипотезами, а с тем, чтобы облегчить сбор информации. Книга кодов обеспечивает постепенное продвижение к тому, что мы пытаемся выяснить, а также описание этого искомого, когда мы его нашли.

Эта “Книга кодов” идентифицирует компьютерные колонки, в которых будут храниться данные, а также предоставляет описания информации, которая должна быть найдена в определенном месте. Она также сообщает, какие коды были использованы для представления данных, не являющихся числовыми. Например, кодовая таблица, представленная в табл. 12.1, показывает, что номер 1, обнаруженный в компьютерной колонке 16, означает тип журнала, в котором была найдена искомая статья, а именно – еженедельник (как, например, “Time” или “Newsweek”). Такая организация информации помогает исследователю записывать данные правильно и аккуратно интерпретировать результаты анализа, после того как он закончен. А [c.366] тем, кто может использовать эти данные впоследствии, это также дает возможность увидеть, как организованы данные, и в свою очередь интерпретировать результаты анализа, не опираясь на уже существующее мнение.



Таблица 12.1.


Каталог: files
files -> Истоки и причины отклоняющегося поведения
files -> №1. Введение в клиническую психологию
files -> Общая характеристика исследования
files -> Клиническая психология
files -> Валявский Андрей Как понять ребенка
files -> К вопросу о формировании специальных компетенций руководителей общеобразовательных учреждений в целях создания внутришкольных межэтнических коммуникаций
files -> Русские глазами французов и французы глазами русских. Стереотипы восприятия


Поделитесь с Вашими друзьями:
1   ...   81   82   83   84   85   86   87   88   ...   123


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница