Кластерний аналіз

План

Вступ. 3

Завдання і умови. 4

Аналіз і інтерпретація його результатів. 5

Цілі кластеризації 6

Методи кластеризації 7

Формальна постановка завдання кластеризації 8

Застосування. 9

Використана література. 11


Вступ

Кластерний аналіз (англ|. Data| clustering|) — завдання|задача| розбиття заданої вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно|суттєвий| відрізнялися. Завдання|задача| кластеризації відноситься до статистичної обробки, а також до широкого класу завдань|задач| навчання|вчення| без вчителя|учителя|. Кластерний аналіз — це багатовимірна|багатомірна| статистична процедура, що виконує збір|збирання| даних, що містять|утримують| інформацію про вибірку об'єктів, і потім|і тоді| що упорядковує об'єкти в порівняно однорідні групи (кластери)(Q-кластеризація|, або Q-техника|, власне кластерний аналіз). Кластер — група елементів, що характеризуються загальною|спільною| властивістю, головна мета|ціль| кластерного аналізу — знаходження груп схожих об'єктів у вибірці (примітка|тлумачення| 1). Спектр застосувань|вживань| кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології і інших дисциплінах. «Тематика досліджень варіює від аналізу морфології муміфікованих гризунів в Новій Гвінеї до вивчення результатів голосування сенаторів США, від аналізу поведінкових функцій заморожених тарганів при їх розморожуванні до дослідження географічного розподілу деяких видів позбавляючи в Саськачеване» (примітка|тлумачення| 1). Проте|однак| універсальність застосування|вживання| привела до появи великої кількості несумісних термінів, методів і підходів, що утрудняють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.


Завдання|задачі| і умови

Кластерний аналіз виконує наступні|слідуючі| основні завдання|задачі|:

  • Розробка типології або класифікації.
  • Дослідження корисних концептуальних схем групування об'єктів
  • Породження гіпотез на основі дослідження даних.
  • Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних (примітка|тлумачення| 1).

Незалежно від предмету вивчення застосування|вживання| кластерного аналізу припускає|передбачає| наступні|слідуючі| етапи: — Відбір вибірки для кластеризації. — Визначення безлічі змінних, по яких оцінюватимуться|оцінюватимуть| об'єкти у вибірці. — Обчислення|підрахунок| значень тієї або іншої міри схожості між об'єктами. — Застосування|вживання| методу кластерного аналізу для створення|створіння| груп схожих об'єктів. — Перевірка достовірності результатів кластерного рішення|розв'язання,вирішення,розв'язування| (примітка|тлумачення| 1).

Кластерний аналіз пред'являє наступні|слідуючі| вимоги до даним: по-перше, показники не повинні корелювати між собою; по-друге, показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути близьке до нормального; по-четверте, показники повинні відповідати вимозі «стійкості», під якою розуміється відсутність впливу на їх значення випадкових чинників|факторів|; по-п'яте, вибірка повинна бути однорідна, не містити|утримувати| «викидів» (примітка|тлумачення| 2). Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «ремонту» — викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна гідність|чеснота,достоїнство| — z-стандартизація| без негативних наслідків для вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити зменшення чіткості розділення|поділу| груп). Інакше вибірку потрібно коректувати.

 

Аналіз і інтерпретація його результатів

При аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз методами ієрархічного агломеративні сімейства, а саме методом Уорду, при якому усередині|всередині| кластерів оптимізується мінімальна дисперсія, у результаті створюються кластери приблизно рівних розмірів. Метод Уорду найбільш вдалий|успішний| для аналізу соціологічних даних. Як міра відмінності краще квадратичне евклідове відстань, яка сприяє збільшенню контрастності кластерів (примітка|тлумачення| 1). Головним підсумком ієрархічного кластерного аналізу є|з'являється,являється| дендрограмма| або «сосульчата| діаграма». При її інтерпретації дослідники стикаються з|із| проблемою того ж роду, що і тлумачення результатів факторного аналізу — відсутністю однозначних критеріїв виділення кластерів. Як головні рекомендується використовувати два способи — візуальний аналіз дендрограмми| і порівняння результатів кластеризації, виконаної

1 2 3

Схожі роботи

Реферати

Курсові

Дипломні