Общие сведения о кластерном анализе

От англ. CLUSTER  — скопление, «гроздь», группа объектов, характеризующихся общими свойствами.

Кластерный анализ — метод классификации объектов (респонден­тов, территориальных единиц,  признаков,  описывающих эти объекты). Другие названия кластерного анализа – распознавание образов, таксономия, ботриология.

Цель классификации — это разделение рассматриваемой совокуп­ности на однородные группы объектов, близкие между собой по опре­деленному критерию и отличающиеся от объектов в других группах. В результате кластерного анализа при помощи предварительно заданных переменных формируются группы наблюдений. Под наблюдениями здесь понимаются отдельные личности (респонденты) или любые другие объекты. Члены одной группы (одного кластера) должны обладать схожими проявлениями переменных, а члены разных групп различными.

Наряду с кластеризацией наблюдений в SPSS предусмотрена кластеризация переменных. Здесь на основе заданных наблюдений образовываются группы переменных. Так как в принципе то же самое делает и факторный анализ, то мы ограничимся рассмотрением только кластеризации наблюдений.

Для рассмотрения принципа кластерного анализа выберем сначала очень простой пример.

Возьмем сведения о 17 сортах пива по следующим признакам:

  1. калорийность
  2. страна – производитель
  3. содержание алкоголя
  4. цена (для одинакового количества)

Возьмём переменные kalorien (калории) и kosten (цена) и представим их при помощи простой диаграммы рассеяния. Получим диаграмму рассеяния, на которой видны  четыре отдельных отчётливых группировки точек, три из них в нижней половине диаграммы и одну в верхнем правом углу. Следовательно, переменные kalorien (калории) и kosten (цена), явно распадаются на четыре различных кластера по сортам пива.  Сорта пива, которые по значениям двух рассмотренных переменных похожи друг на друга, принадлежат к одному кластеру; сорта пива, находящиеся в различных кластерах, не похожи друг на друга. Решающим критерием для определения схожести и различия двух сортов пива является расстояние между точками на диаграмме рассеяния, соответствующими этим сортам.

Ссылка на основную публикацию
Adblock
detector