Кластерный анализ
План
Вступ. 3
Завдання і умови. 4
Аналіз і інтерпретація його результатів. 5
Цілі кластеризації 6
Методи кластеризації 7
Формальна постановка завдання кластеризації 8
Застосування. 9
Використана література. 11
Вступ
Кластерний аналіз (англ|. Data| clustering|) — завдання|задача| розбиття заданої вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно|суттєвий| відрізнялися. Завдання|задача| кластеризації відноситься до статистичної обробки, а також до широкого класу завдань|задач| навчання|вчення| без вчителя|учителя|. Кластерний аналіз — це багатовимірна|багатомірна| статистична процедура, що виконує збір|збирання| даних, що містять|утримують| інформацію про вибірку об'єктів, і потім|і тоді| що упорядковує об'єкти в порівняно однорідні групи (кластери)(Q-кластеризація|, або Q-техника|, власне кластерний аналіз). Кластер — група елементів, що характеризуються загальною|спільною| властивістю, головна мета|ціль| кластерного аналізу — знаходження груп схожих об'єктів у вибірці (примітка|тлумачення| 1). Спектр застосувань|вживань| кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології і інших дисциплінах. «Тематика досліджень варіює від аналізу морфології муміфікованих гризунів в Новій Гвінеї до вивчення результатів голосування сенаторів США, від аналізу поведінкових функцій заморожених тарганів при їх розморожуванні до дослідження географічного розподілу деяких видів позбавляючи в Саськачеване» (примітка|тлумачення| 1). Проте|однак| універсальність застосування|вживання| привела до появи великої кількості несумісних термінів, методів і підходів, що утрудняють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.
Завдання|задачі| і умови
Кластерний аналіз виконує наступні|слідуючі| основні завдання|задачі|:
- Розробка типології або класифікації.
- Дослідження корисних концептуальних схем групування об'єктів
- Породження гіпотез на основі дослідження даних.
- Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних (примітка|тлумачення| 1).
Незалежно від предмету вивчення застосування|вживання| кластерного аналізу припускає|передбачає| наступні|слідуючі| етапи: — Відбір вибірки для кластеризації. — Визначення безлічі змінних, по яких оцінюватимуться|оцінюватимуть| об'єкти у вибірці. — Обчислення|підрахунок| значень тієї або іншої міри схожості між об'єктами. — Застосування|вживання| методу кластерного аналізу для створення|створіння| груп схожих об'єктів. — Перевірка достовірності результатів кластерного рішення|розв'язання,вирішення,розв'язування| (примітка|тлумачення| 1).
Кластерний аналіз пред'являє наступні|слідуючі| вимоги до даним: по-перше, показники не повинні корелювати між собою; по-друге, показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути близьке до нормального; по-четверте, показники повинні відповідати вимозі «стійкості», під якою розуміється відсутність впливу на їх значення випадкових чинників|факторів|; по-п'яте, вибірка повинна бути однорідна, не містити|утримувати| «викидів» (примітка|тлумачення| 2). Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «ремонту» — викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна гідність|чеснота,достоїнство| — z-стандартизація| без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити зменшення чіткості розділення|поділу| груп). Інакше вибірку потрібно коректувати.
Аналіз і інтерпретація його результатів
При аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз методами ієрархічного агломеративні сімейства, а саме методом Уорду, при якому усередині|всередині| кластерів оптимізується мінімальна дисперсія, у результаті створюються кластери приблизно рівних розмірів. Метод Уорду найбільш вдалий|успішний| для аналізу соціологічних даних. Як міра відмінності краще квадратичне евклідове відстань, яка сприяє збільшенню контрастності кластерів (примітка|тлумачення| 1). Головним підсумком ієрархічного кластерного аналізу є|з'являється,являється| дендрограмма| або «сосульчата| діаграма». При її інтерпретації дослідники стикаються з|із| проблемою того ж роду, що і тлумачення результатів факторного аналізу — відсутністю однозначних критеріїв виділення кластерів. Як головні рекомендується використовувати два способи — візуальний аналіз дендрограмми| і порівняння результатів кластеризації, виконаної