АНАЛІЗ КЛАСТЕРНИЙ
Соціологія короткий енциклопедичний словник
АНАЛІЗ КЛАСТЕРНИЙ – багатовимірний статист, метод автоматичної класифікації об’єктів на основі обраної формальної міри відстані (відмінності) або близькості (подібності) між об’єктами. Застосовується А. к. також для класифікації ознак. Інші назви методу – таксономічний аналіз, автоматичне розпізнавання образів.
А. к. поділяє об’єкти на кілька порівняно однорідних груп, що наз. кластерами (інша назва – таксони). Кластери будуються так, щоб відстань між об’єктами з одного
А. к. може використовуватися як для пошуку структури в множині об’єктів (розвідувальний підхід, висування гіпотез), так і для побудови цілком певної структури (підтримуючий підхід, підтвердження певних гіпотез дослідника).
Основні етапи А. к.: 1) відбір об’єктів для кластеризадії; 2) відбір ознак, у просторі яких виконуватиметься кластеризація; 3) вибір способу визначення відстані між об’єктами; 4) застосування одного з методів А. к.; 5) перевірка надійності та інтерпретація отриманої кластерної структури.
При доборі об’єктів для класифікації потрібно враховувати, що, якщо є припущення про можливий значний вплив певної ознаки на очікувані результати кластеризації, то необхідно розподілити об’єкти на групи за значеннями цієї ознаки і потім виконувати кластеризацію в кожній групі окремо. Так, напр., якщо у дослідника є гіпотеза про те, що стать респондента має значний вплив на класифікацію респондентів за їх ставленням до проблеми злочинності, то необхідно виконати класифікацію окремо для чоловіків і для жінок. Відбирання змінних, у просторі яких виконуватиметься кластеризація, здійснюється передусім звичайно на підставі мети класифікації. Але, крім того, потрібно брати до уваги шкали вимірювання обраних змінних (це впливає на можливості використання мір відносності), їх скорельованість, а також навіть те, в яких одиницях виміряні ці змінні (досить часто обрані змінні перед застосуванням алгоритму А. к. стандартизують).
Відстань між об’єктами визначається як деяка функція сі (х, у), яка будь-якій парі об’єктів х та у (заданих своїми координатами в обраному просторі ознак) ставить у відповідність деяке невід’ємне число. Така функція обов’язково повинна мати такі чотири властивості (т. зв. стандартні властивості метрики): бути симетричною (d (х, у) = d (у, х) ), фіксувати відмінність між різними об’єктами (х ≠ у тоді і тільки тоді, коли d (х, у) ≠ 0), не фіксувати відмінності між ідентичними об’єктами (d (х, у ) =0 тоді і тільки тоді, коли х = у), а також задовольнити “нерівності трикутника” (d (x, y)≤ d (x, z)+(d (z, y)). Існує досить велика кількість різних мір відстані. При обиранні конкретної міри відстані дослідник керується насамперед тим, в яких шкалах виміряні змінні, в просторі яких виконуватиметься кластеризація. Для метричних змінних часто застосовують звичайну геометричну (або її часто наз. евклідовою) відстань. Для номінальних дихотомічних змінних використовують міри відстані, побудовані на кількості збігів та розбігів відповідних значень (відстань за Хемінгом, коефіцієнт Джекарда тощо). Так, напр., якщо ми намагаємося виділити групи депутатів однакової орієнтації в певному парламенті, то відстань між об’єктами (депутатами) може бути оцінена кількістю розбіжностей (“за” чи “проти”) в результатах їх голосувань з серії взаємопов’язаних законопроектів. Номінальні змінні з декількома можливими значеннями можуть бути перетворені без втрати інформації на сукупність дихотомічних фіктивних змінних. Є розроблені способи обчислення відстані і для випадку порядкових шкал. Якщо класифікуються не об’єкти, а ознаки, то досить часто використовують відстані, побудовані на основі коефіцієнтів кореляції (чим більше скорельовані між собою дві змінні, тим меншою є відстань між ними).
Існує велика кількість алгоритмів, що розрізняються послідовністю побудови кластерів, методами об’єднання або розподілення кластерів на проміжних етапах класифікації, можливостями врахувати при побудові кластерів деякі додаткові умови (напр., необхідність отримати кластери, що містять не менше, ніж певна кількість об’єктів) тощо. Необхідно зауважити, що різні методи можуть давати різні кластерні структури для одних і тих самих даних. Серед найбільш відомих потрібно назвати ієрархічні алгоритми А. к. ітераційні алгоритми оптимізації відповідно до певного критерію якості, алгоритми пошуку “скупчень” об’єктів.
Надійність кластеризації часто оцінюють шляхом випадкового розділення всієї сукупності об’єктів на декілька частин і виконання кластеризації кожної з цих частин окремо. Виділення однакових або близьких кластерних структур (за кількістю, розміром та статист, показниками кластерів) у кожній з частин свідчить про надійність отриманих результатів.
Інтерпретація виділених класів об’єктів виконується на основі статист, розподілів у кластерах як змінних, за якими проводилася кластеризащя, так і “зовнішніх” змінних (тобто таких, що не брали участі в кластеризації).
Алгоритми А. к. є дуже трудомісткими і тому їх застосування потребує наявності обчислювальної техніки та відповідного програмного забезпечення.