Обробка і аналіз первинної інформації
Соціологія: загальний курс. Навчальний посібник для студентів вищих закладів освіти України
ЧАСТИНА ЧЕТВЕРТА.
МЕТОДОЛОГІЯ І МЕТОДИ СОЦІОЛОГІЧНИХ ДОСЛІДЖЕНЬ
Розділ 10.
СТАТИСТИЧНА ОБРОБКА І АНАЛІЗ ЕМПІРИЧНОЇ ІНФОРМАЦІЇ
10.3. Обробка і аналіз первинної інформації
Сутність обробки первинної інформації полягає в її узагальненні. Результати узагальнення називають соціологічною інформацією. Вибір методів обробки і аналізу інформації залежить від мети і завдань дослідження, а також від способів вимірювання показників,
Вимірювання здійснюється за допомогою різних шкал, яким відповідають різні правила математичного аналізу даних. В соціологічних дослідженнях застосовуються, як правило, шкали трьох основних типів: номінальна, порядкова (рангова) і інтервальна.
Номінальна шкала є найпростішою, вона фіксує (відбиває) дихотомічну відповідь: “так” або “ні”. За допомогою порядкової шкали можливо зафіксувати більш визначений стан, який віддзеркалює ранжируваний розподіл, наприклад, певної кількості професій. На шкалі виміру престижу високий рівень привабливості професій позначимо цифрою 1, низький
Шкала престижу професій
Номінальній шкалі в анкеті відповідають запитання, які сприяють виявленню думок, установок, об’єктивних характеристик респондента (стать, вік, освіта і т. д.). Порядковій шкалі (ранговій) відповідає основне число запитань анкети або бланка інтерв’ю. Варіанти відповідей у питанні розподілу в суворому порядку зменшення або зростання інтенсивності ознаки. Інтервальна шкала більш детальна, глибока. В соціологічному дослідженні за її допомогою вимірюються ті характеристики, які можна виразити числами: вік, освіта, стаж роботи та ін. За цією шкалою можливе вирахування різних величин. Вона допускає грунтовну математичну обробку інформації.
Поширеною формою узагальнення первинної соціологічної інформації є групування. На цьому етапі виділяються суттєві ознаки або одна якась ознака (наприклад, стать, вік, освіта), і респондент зараховується в ту або іншу групу у відповідності з обраною ознакою. Коли сумуються відповіді респондентів з врахуванням, наприклад, статі, то здійснюється просте групування. В даному випадку буде дві групи. Якщо візьмемо в якості ознаки рівень освіти, то буде мінімум три, а то й чотири, п’ять і більше груп.
Вибір ознаки групування обумовлюється завданнями і гіпотезами соціологічного дослідження. Помилка у виборі ознаки групування веде до помилок при аналізі характеристик груп, їх співставленні і порівнюванні.
Соціологічну інформацію групують за:
– номінальною ознакою (род занять, національність і т. д.);
– ознаками, які відповідають ранговим шкалам (наприклад, за рівнем активності: висока, середня, низька);
– кількісною ознакою (групи характеризуються числовим значенням, вони є якісно порівняльними між собою, наприклад, групування за віковими інтервалами: 18 – 20 років, 21 – 25 років, 26 – 30 і т. д.).
Якщо вивчення номінальних і рангових груп ведеться з використанням прийомів математики, то групи, розподілені за кількісного ознакою, вивчаються за допомогою математичної статистики.
Групування респондентів за двома або більше ознаками (наприклад, за статтю, віком і освітою) називають перехресним або комбінованим. В залежності від дослідницьких завдань вона може бути структурною, типологічною, аналітичною. Якщо, наприклад, треба встановити віковий склад респондентів, то застосовують структурне групування за віковим інтервалом. Якщо ж треба виділити із респондентів групи за такою, наприклад, ознакою, як “ставлення до приватизації”, тоді здійснюють типологічне групування (виділяються відповідні типи опитаних). Аналітичне групування проводиться за двома і більше ознаками і слугує для виявлення їх взаємозв’язку.
Як правило, респонденти діляться на декілька груп (за статтю, віком, освітою і т. д.). Кожній групі відповідає певне визначене число (n1, n2, nЗ,…, nх), яке характеризує кількісний склад групи. Соціологи називають такий ряд чисел, одержаний в результаті групування, рядом розподілу. Виділяють варіаційний і атрибутивний ряди розподілу. Варіаційний ряд розподілу засновується на кількісних ознаках явищ і процесів, що вивчаються, атрибутивний – віддзеркалює результати групування опитаних за кількісними ознаками.
До яких би статистичних і математичних методів аналізу одержаної інформації ми не вдавались, вирішальна роль в інтерпретації емпіричних даних належить науковій ерудиції дослідника, концепції самого дослідження. В логіку інтерпретації соціологічних даних обов’язково повинна входити перевірка раніше поставлених гіпотез. При пілотажному дослідженні гіпотеза перевіряється співвідношенням уявленого твердження з одержаною внаслідок дослідження числовою величиною. При описовому і аналітичному дослідженнях процедура перевірки гіпотез значно ускладнюється. Тут середні величини – лише перші кроки на шляху до істини. Треба зробити і другий і третій кроки, щоб підійти найближче до неї. Для цього із всієї опитаної сукупності треба виділити однорідні за соціально-демографічними характеристиками підгрупи.
Перевірка гіпотези про статистичний зв’язок між ознаками найчастіше здійснюється за критерієм “ХІІ – квадрат”; для виміру щільності зв’язку застосовуються різні коефіцієнти, вибір яких залежить від характеру таблиць зв’язування ознак. Найбільш простими є двомірні таблиці зв’язування; вони широко використовуються соціологами, оскільки є наочними і універсальними.
Для вивчення лінійних парних зв’язків між кількісними показниками використовують кореляційний аналіз. Проте найчастіше кореляція є результатом впливу якихось глибших причин на обидва показники. Коли ж зв’язок між змінними має нелінійний характер (а також для порядкових змінних), застосовуються коефіцієнти рангової кореляції.
Для опису структури зв’язків в деякій системі показників застосовується матриця кореляцій – квадратна таблиця, в кожній клітинці якої вміщують коефіцієнт кореляції для пари змінних. Для більш суворого аналізу використовують розвідувальний факторний або кластерний аналіз. Останній застосовується також для опису структури об’єктів, які становлять вибірку.
Для кількісних залежних змінних зазвичай використовується регресійний (якщо незалежні змінні також є кількісними) або дисперсійний (якщо предикатори виміряні за номінальним або порядковим шкалами) аналіз. До якісних (номінальних і порядкових) залежних змінних в аналогічних ситуаціях застосовується дискримінантний або кластерний аналіз.
Поява множинного класифікаційного аналізу і методу індикаторних змінних дозволила використовувати в будь-яких моделях як кількісні, так і якісні предикатори. Саме це сприяло широкому розповсюдженню регресійних і регресійноподібних моделей.