АНАЛІЗ РЕГРЕСІЙНИЙ
Соціологія короткий енциклопедичний словник
АНАЛІЗ РЕГРЕСІЙНИЙ метод багатовимірної статистики, що дає змогу описати та проаналізувати зв’язок між залежною змінною Y та декількома незалежними змінними (інша назва – фактори, предиктори) X1,…, Хк.
У разі, якщо к = 1, то говорять про парну регресію, якщо ж к > 1, то говорять про множинну регресію. Метою А. р. є визначення форми зв’язку між залежною змінною і факторами, побудова та оцінювання параметрів рівняння регресії, оцінка якості побудованого рівняння та його змістовна інтерпретація.
Всі змінні, що використовуються при побудові рівняння регресії, мають бути метричними. Як виняток можна використовувати дихотомічні змінні, закодовані значеннями 0 та 1. Такі дихотомічні змінні інтерпретуються як імовірності об’єктів належати до певної категорії. Напр., якщо ознаку “стать” закодовано 0 – “чоловік”, 1 – “жінка”, то значення відповідної дихотомічної
В заг. вигляді рівняння регресії має вигляд: Y = F (Х1,… Хк), де Y є оцінка значення У на основі значень Х1,.., Хк, а вид функції Е визначає форму зв’язку між залежною змінною і факторами. З огляду на матем. простоту та, що не менш важливо, простоту інтерпретації, часто розглядають лінійну форму зв’язку (хоча потрібно зауважити, що є розвинені методи нелінійного А. р. У такому разі рівняння регресії набуває такого вигляду: Y = Ао+А1Х1 + … + АkХk. Побудова рівняння регресії здійснюється так, щоб мінімізувати суму квадратів відхилень реальних значень змінної У від оцінок У, обчислених за рівнянням (т. зв. метод найменших квадратів). Коефіцієнти А1…, Ак наз. коефіцієнтами регресії і мають досить просту і чітку інтерпретацію: А. демонструє, наскільки зміниться значення залежної змінної У при зміні фактора Xj на одну одиницю і фіксованих на середньому рівні значень інших факторів. Іншими словами, кожен коефіцієнт регресії оцінює вплив відповідного фактора на залежну змінну з видаленням впливу всіх інших факторів, що беруть участь у рівнянні регресії. Константа А (вільний член рівняння) чіткої змістовної інтерпретації не має. Так напр., якщо Хj – стаж робітника (виміряний у роках), Х2 – кваліфікаційний розряд робітника і У-заробітна плата (виміряна в сотнях грн.), то рівняння Y = 0,2Х1 + 1,1Х2 + 3,8 показує, що збільшення розряду на одиницю приведе для робітника з середнім для даного підприємства стажем до збільшення заробітної плати в середньому на 10,1 грн. Водночас збільшення стажу на один рік для робітника з середньою для даного підприємства кваліфікацією приведе до збільшення зарплати в середньому на 20 грн.
Для того щоб мати можливість порівнювати вплив різних факторів на поведінку залежної ознаки, всі змінні стандартизують (і таким чином роблять їх безрозмірними), а вже потім будують рівняння регресії – т. зв. рівняння регресії в стандартних координатах. Його особливістю є відсутність вільного члена. Так, напр., якщо після стандартизації змінних наведене вище рівняння регресії матиме вигляд: Y = 0,12Х1 + 0,48Х2, то можна сказати, що на даному підприємстві кваліфікація спричиняє в 4 рази більший порівняно із стажем вплив на заробітну плату робітника.
Якість рівняння регресії (інакше кажучи, наскільки дійсно добре побудоване рівняння відображає поведінку залежної змінної) оцінюють або шляхом аналізу залишків (різниць між реальними та обчисленими значеннями залежної змінної), або на основі частки дисперсії залежної ознаки, поясненої (представленої) побудованим рівнянням. Квадрат коефіцієнта сукупної кореляції між залежною змінною та факторами наз. коефіцієнтом детермінації. Значення коефіцієнта детермінації дорівнює частці дисперсії залежної ознаки, що пояснюється побудованим рівнянням. Так напр., якщо для наведеного вище рівняння коефіцієнт детермінації дорівнює 0,86, то це означає, що на даному підприємстві варіація заробітної плати робітника на 86% залежить від кваліфікації то стажу робітника, а на 14% – від інших факторів (що не увійшли до побудованого рівняння).
Поряд з методами нелінійної регресії для метричних ознак є і спеціальні регресійні методи, що дають змогу також аналізувати і якісні ознаки (напр., логіт-регресія). Побудова рівнянь регресії для реальних даних потребує наявності обчислювальної техніки та відповідного програмного забезпечення.