Підготовка емпіричних даних до обробки і аналізу
Соціологія: загальний курс. Навчальний посібник для студентів вищих закладів освіти України
ЧАСТИНА ЧЕТВЕРТА.
МЕТОДОЛОГІЯ І МЕТОДИ СОЦІОЛОГІЧНИХ ДОСЛІДЖЕНЬ
Розділ 10.
СТАТИСТИЧНА ОБРОБКА І АНАЛІЗ ЕМПІРИЧНОЇ ІНФОРМАЦІЇ
10. 2. Підготовка емпіричних даних до обробки і аналізу
Інформація (лат. Informatio – ознайомлення, роз’яснення, представлення, поняття) – відомості про щось (про оточуючий світ і процеси, що в ньому відбуваються), які можна зберігати, переробляти і передавати від одного суб’єкта спостереження до іншого,
Структурування інформації передбачає визначення показників і об’єктів, на яких слід їх виміряти, а також індикаторів, які для цього слід зафіксувати. Формалізація зазвичай включає процедури побудови вибірки, доступу до інформації та її фіксації, а також вимірювальні процедури. Структуризована і формалізована інформація – це дані дослідження, а процес формалізації – це збір даних.
Як правило, статистичні програми подають у вигляді матриць типу “об’єкт-ознака”.
Матриця даних
Можна виділити (умовно) декілька етапів підготовки даних до обробки і аналізу:
І) збір і кодування даних; 2) введення даних в комп’ютер; 3) перевірка і чистка даних; 4) спеціальна підготовка даних.
Етап збору і кодування даних включає заповнення інструментарію: перевірку на правильність і повноту заповнення; кодування відкритих питань, питань із складною структурою і пропущених значень. Як правило, якість заповнення інструментарію залежить від умов праці анкетерів, інтерв’юерів, місця опитування та інших чинників. Контроль за якістю заповнення інструментарію починається з перевірки правильності відповіді на кожне запитання і при необхідності відповідь коректується. Наприклад, на запитання: “Чи знаєте ви основні положення Закону “Про вибори Президента України?” найчастіше відповідають: “Так, знаю”.”Але далі в питальнику (анкеті) стоїть відкрите контрольне запитання: “Якщо знаєте, назвіть їх, будь-ласка”. Він залишається незаповненим. Якщо з респондентом працював інтерв’юер, анкетер, то біля цього питання повинна стояти відмітка: “важко було відповісти”, “не знає” і т. п. Тоді стає зрозумілим, що респондент необізнаний зі змістом цього документа. Але якщо респондент заповнював питальник самостійно, то тут одержання однозначної відповіді утруднене. В цьому випадку альтернативу “так, знаю” треба закреслити і відмітити іншу, скоріше всього “немає відповіді”, “важко відповісти” і т. п. Потім підраховуються неправильні відповіді. При виправленні кожної третьої відповіді в питальнику його краще не готувати до машинної обробки. У випадку, якщо респондент не відповів на 10-15 відсотків основних запитань, проти них контролер ставить відмітку “немає відповіді”, і анкета йде на обробку до ЕОМ.
Більш суворими є вимоги до запитань, які стосуються соціально-демографічних характеристик респондентів (стать, вік, освіта і т. д.). Якщо немає відповідей на ці запитання, інструментарій виймається із загального масиву. Виключається із обробки на ЕОМ документи, заповнені нерозбірливо, а також записи, які не піддаються однозначному трактуванню.
Допущені до обробки документи нумеруються, починаючи з № 1,з метою контролю за їх проходженням. В подальшому масив документів передається кодувальникам. Але перед тим, як передати анкети до рук операторів, слід закодувати відкриті запитання. На кожне відкрите запитання, як правило, складають не менше п’яти шифрів – кодів. Вище вже наводилося одне з відкритих запитань: “Якщо знаєте, назвіть, будь-ласка”. Відповіді на нього можуть бути найрізноманітнішими: від повних, глибоких, грунтовних – до відповідей – схем. Шифри – коди повинні відбивати шкалу інтенсивності відповідей на відкрите запитання. Зазвичай кодування таких відповідей проходить у два – три етапи. Спочатку варіанти відповідей виписуються окремо, підраховують кількість вживань кожного варіанту – частота його повторення. Потім варіанти групуються за смисловою близькістю, співпадінням. Таких груп, як доводить практика, набирається чотири – п’ять, і кожній з них присвоюється свій шифр або код.
Кодування – ланка, що пов’язує якісну і кількісну інформацію. На даній основі саме й здійснюються числові операції з інформацією, введеною в пам’ять електронної машини. Якщо під час кодування відбувається збій, заміна або втрата коду, то інформація стає неправильною. У відносно простих випадках кодування іноді поєднують із заповненням або перевіркою інструментарію; проте в дослідженнях складних і відповідальних рекомендується, щоб кодування здійснювалось окремим виконавцем.
Введення даних до комп’ютера здійснюється за спеціальним макетом, який створюється у відповідності з тим або іншим статистичним пакетом. Наприклад, макет введення для пакета SPSS, крім формата змінних, може передбачати перевірку даних на значення, що допускаються, і логічну сумісність, автоматичний пропуск питань, які не відносяться до респондента, що дозволяє значно скоротити кількість помилок введення.
Перевірка даних на значення, що допускаються, і логічну сумісність може здійснюватись одночасно із введенням або після його завершення. В першому випадку виявлені помилки виправляються негайно, у другому – виправлення помилок виділяють в окремий етап, який називається чисткою даних.
Спеціальна підготовка даних являє собою перетворення їх у форму, зручну для обробки і аналізу. На цьому етапі остаточно формулюють вимірювальні шкали, вираховують вторинні змінні – індекси, здійснюють різні групування даних.