Википедия

Иерархическая кластеризация

Иерархическая кластеризация (также графовые алгоритмы кластеризации и иерархический кластерный анализ) — совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева) вложенных кластеров. Выделяют два класса методов иерархической кластеризации:

  • Агломеративные методы (англ. agglomerative): новые кластеры создаются путем объединения более мелких кластеров и, таким образом, дерево создается от листьев к стволу;
  • Дивизивные или дивизионные методы (англ. divisive): новые кластеры создаются путем деления более крупных кластеров на более мелкие и, таким образом, дерево создается от ствола к листьям.
image
Дендрограмма

Алгоритмы иерархической кластеризации предполагают, что анализируемое множество объектов характеризуется определённой степенью связности. По количеству признаков иногда выделяют монотетические и политетические методы классификации. Как и большинство визуальных способов представления зависимостей графы быстро теряют наглядность при увеличении числа кластеров. Существует ряд специализированных программ для построения графов.

Дендрограмма

image
Дендрограмма кластеризации ирисов Фишера

Под дендрограммой обычно понимается дерево, построенное по матрице мер близости. Дендрограмма позволяет изобразить взаимные связи между объектами из заданного множества. Для создания дендрограммы требуется матрица сходства (или различия), которая определяет уровень сходства между парами кластеров. Чаще используются агломеративные методы.

Для построения матрицы сходства (различия) необходимо задать меру расстояния между двумя кластерами. Наиболее часто используются следующие методы определения расстояния (англ. sorting strategies):

  1. Метод одиночной связи (англ. single linkage), также известен, как «метод ближайшего соседа». Расстояние между двумя кластерами полагается равным минимальному расстоянию между двумя элементами из разных кластеров: image, где image— расстояние между элементами image и image, принадлежащими кластерам image и image
  2. Метод полной связи (англ. complete linkage), также известен, как «метод дальнего соседа». Расстояние между двумя кластерами полагается равным максимальному расстоянию между двумя элементами из разных кластеров: image;
  3. Метод средней связи (англ. pair-group method using arithmetic mean):
    • Невзвешенный (англ. UPGMA). Расстояние между двумя кластерами полагается равным среднему расстоянию между элементами этих кластеров: image , где image— расстояние между элементами image и image, принадлежащими кластерам image и image, а image и imageмощности кластеров.
    • Взвешенный (англ. WPGMA).
  4. Центроидный метод (англ. pair-group method using the centroid average):
    • Невзвешенный (англ. UPGMC). Расстояние между кластерами полагается равным расстоянию между их центроидами (центрами массы): image, где image и image— центройды image и image.
    • Взвешенный (англ. WPGMC).
  5. Метод Уорда (англ. Ward’s method). В отличие от других методов кластерного анализа, для оценки расстояний между кластерами здесь используются методы дисперсионного анализа. В качестве расстояния между кластерами берётся прирост суммы квадратов расстояний объектов до центра кластера, получаемого в результате их объединения: image. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению дисперсии. Этот метод применяется для задач с близко расположенными кластерами.

Для первых трёх методов существует общая формула, предложенная А. Н. Колмогоровым для мер сходства:

image

где image — группа из двух объектов (кластеров) image и image; image — объект (кластер), с которым ищется сходство указанной группы; image — число элементов в кластере image; image — число элементов в кластере image. Для расстояний имеется аналогичная формула Ланса — Вильямса.

Корреляционные плеяды

image
Дендрит

Широко применяются в геоботанике и флористике. Их часто называют корреляционными плеядами.

Частным случаем является метод, известный как метод построения оптимальных деревьев (дендритов), который был предложен математиком львовской школы Гуго Штейнгаузом, впоследствии метод был развит математиками вроцлавской таксономической школы. Дендриты также не должны образовывать циклов. Можно частично использовать направленные дуги графов при использовании дополнительно мер включения (несимметричных мер сходства).

Метод «диагонализации» матрицы различия и графическое изображение кластеров вдоль главной диагонали матрицы различия (диаграмма Чекановского) впервые предложен Яном Чекановским в 1909 году. Приведём описание методики:

Сущность этого метода заключается в том, что всю амплитуду полученных величин сходства разбивают на ряд классов, а затем в матрице величин сходства заменяют эти величины штриховкой, различной для каждого класса, причём обычно для более высоких классов сходства применяют более тёмную штриховку. Затем, меняя порядок описаний в таблице, добиваются того, чтобы более сходные описания оказались рядом

Приведём гипотетический пример получения вышеуказанной диаграммы. Основой метода является построение матрицы транзитивного замыкания.

image
Пример расчёта диаграммы Чекановского

Для построения матрицы транзитивного замыкания возьмём простую матрицу сходства и умножим её саму на себя:

image,

где image — элемент, стоящий на пересечении image-ой строки и image-го столбца в новой (второй) матрице, полученной после первой итерации; image — общее количество строк (столбцов) матрицы сходства. Данную процедуру необходимо продолжать, пока матрица не станет идемпотентной (то есть самоподобной): image, где n — число итераций.

Далее преобразовываем матрицу таким образом, чтобы близкие числовые значения находились рядом. Если каждому числовому значению присвоить какой-либо цвет или оттенок цвета (как в нашем случае), то получим классическую диаграмму Чекановского. Традиционно более тёмный цвет соответствует большему сходству, а более светлый — меньшему. В этом она схожа с теплокартой для матрицы расстояний.

См. также

Источники и примечания

  1. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 345 с.
  2. Классификация и кластер. Под ред. Дж. Вэн Райзина. М.: Мир, 1980. 390 с.
  3. Sneath P.H.A., Sokal R.R. Numerical taxonomy: The principles and practices of numerical classification. — San-Francisco: Freeman, 1973. — 573 p.
  4. Ward J.H. Hierarchical grouping to optimize an objective function // J. of the American Statistical Association, 1963. — 236 р.
  5. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.
  6. Lance G.N., Willams W.T. A general theory of classification sorting strategies. 1. Hierarchical systems // Comp. J. 1967. № 9. P. 373—380.
  7. von Terentjev P.V. Biometrische Untersuchungen über die morphologischen Merkmale von Rana ridibunda Pall. (Amphibia, Salientia) Архивная копия от 5 марта 2016 на Wayback Machine // Biometrika. 1931. № 23(1-2). P. 23-51.
  8. Терентьев П. В. Метод корреляционных плеяд // Вестн. ЛГУ. № 9. 1959. С. 35-43.
  9. Терентьев П. В. Дальнейшее развитие метода корреляционных плеяд // Применение математических методов в биологии. Т. 1. Л.: 1960. С. 42-58.
  10. Выханду Л. К. Об исследовании многопризнаковых биологических систем // Применение математических методов в биологии. Л.: вып. 3. 1964. С. 19-22.
  11. Штейнгауз Г. Математический калейдоскоп. — М.: Наука, 1981. — 160 с.
  12. Florek K., Lukaszewicz S., Percal S., Steinhaus H., Zubrzycki S. Taksonomia Wroclawska // Przegl. antropol. 1951. T. 17. S. 193—211.
  13. Czekanowski J. Zur differential Diagnose der Neandertalgruppe // Korrespbl. Dtsch. Ges. Anthropol. 1909. Bd 40. S. 44-47.
  14. Василевич В. И. Статистические методы в геоботанике. — Л.: Наука, 1969. — 232 с.
  15. Tamura S., Hiquchi S., Tanaka K. Pattern classification based on fuzzy relation Архивная копия от 17 мая 2017 на Wayback Machine // IEEE transaction on systems, man, and cybernetics, 1971, SMC 1, № 1, P. 61-67.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Иерархическая кластеризация, Что такое Иерархическая кластеризация? Что означает Иерархическая кластеризация?

Ierarhicheskaya klasterizaciya takzhe grafovye algoritmy klasterizacii i ierarhicheskij klasternyj analiz sovokupnost algoritmov uporyadochivaniya dannyh napravlennyh na sozdanie ierarhii dereva vlozhennyh klasterov Vydelyayut dva klassa metodov ierarhicheskoj klasterizacii Aglomerativnye metody angl agglomerative novye klastery sozdayutsya putem obedineniya bolee melkih klasterov i takim obrazom derevo sozdaetsya ot listev k stvolu Divizivnye ili divizionnye metody angl divisive novye klastery sozdayutsya putem deleniya bolee krupnyh klasterov na bolee melkie i takim obrazom derevo sozdaetsya ot stvola k listyam Dendrogramma Algoritmy ierarhicheskoj klasterizacii predpolagayut chto analiziruemoe mnozhestvo obektov harakterizuetsya opredelyonnoj stepenyu svyaznosti Po kolichestvu priznakov inogda vydelyayut monoteticheskie i politeticheskie metody klassifikacii Kak i bolshinstvo vizualnyh sposobov predstavleniya zavisimostej grafy bystro teryayut naglyadnost pri uvelichenii chisla klasterov Sushestvuet ryad specializirovannyh programm dlya postroeniya grafov DendrogrammaDendrogramma klasterizacii irisov Fishera Pod dendrogrammoj obychno ponimaetsya derevo postroennoe po matrice mer blizosti Dendrogramma pozvolyaet izobrazit vzaimnye svyazi mezhdu obektami iz zadannogo mnozhestva Dlya sozdaniya dendrogrammy trebuetsya matrica shodstva ili razlichiya kotoraya opredelyaet uroven shodstva mezhdu parami klasterov Chashe ispolzuyutsya aglomerativnye metody Dlya postroeniya matricy shodstva razlichiya neobhodimo zadat meru rasstoyaniya mezhdu dvumya klasterami Naibolee chasto ispolzuyutsya sleduyushie metody opredeleniya rasstoyaniya angl sorting strategies Metod odinochnoj svyazi angl single linkage takzhe izvesten kak metod blizhajshego soseda Rasstoyanie mezhdu dvumya klasterami polagaetsya ravnym minimalnomu rasstoyaniyu mezhdu dvumya elementami iz raznyh klasterov min d a b a A b B displaystyle min d a b a in A b in B gde d a b displaystyle d a b rasstoyanie mezhdu elementami a displaystyle a i b displaystyle b prinadlezhashimi klasteram A displaystyle A i B displaystyle B Metod polnoj svyazi angl complete linkage takzhe izvesten kak metod dalnego soseda Rasstoyanie mezhdu dvumya klasterami polagaetsya ravnym maksimalnomu rasstoyaniyu mezhdu dvumya elementami iz raznyh klasterov max d a b a A b B displaystyle max d a b a in A b in B Metod srednej svyazi angl pair group method using arithmetic mean Nevzveshennyj angl UPGMA Rasstoyanie mezhdu dvumya klasterami polagaetsya ravnym srednemu rasstoyaniyu mezhdu elementami etih klasterov 1 A B a A b Bd a b displaystyle 1 over A cdot B sum a in A sum b in B d a b gde d a b displaystyle d a b rasstoyanie mezhdu elementami a displaystyle a i b displaystyle b prinadlezhashimi klasteram A displaystyle A i B displaystyle B a A displaystyle A i B displaystyle B moshnosti klasterov Vzveshennyj angl WPGMA Centroidnyj metod angl pair group method using the centroid average Nevzveshennyj angl UPGMC Rasstoyanie mezhdu klasterami polagaetsya ravnym rasstoyaniyu mezhdu ih centroidami centrami massy cA cB displaystyle c A c B gde cA displaystyle c A i cB displaystyle c B centrojdy A displaystyle A i B displaystyle B Vzveshennyj angl WPGMC Metod Uorda angl Ward s method V otlichie ot drugih metodov klasternogo analiza dlya ocenki rasstoyanij mezhdu klasterami zdes ispolzuyutsya metody dispersionnogo analiza V kachestve rasstoyaniya mezhdu klasterami beryotsya prirost summy kvadratov rasstoyanij obektov do centra klastera poluchaemogo v rezultate ih obedineniya D i xi x 2 xi A xi a 2 xi B xi b 2 displaystyle Delta sum i x i bar x 2 sum x i in A x i bar a 2 sum x i in B x i bar b 2 Na kazhdom shage algoritma obedinyayutsya takie dva klastera kotorye privodyat k minimalnomu uvelicheniyu dispersii Etot metod primenyaetsya dlya zadach s blizko raspolozhennymi klasterami Dlya pervyh tryoh metodov sushestvuet obshaya formula predlozhennaya A N Kolmogorovym dlya mer shodstva Kh i j k niK i k h njK j k h ni nj 1h 1 h 1 displaystyle K eta i j k left frac n i K i k eta n j K j k eta n i n j right frac 1 eta mathcal 1 leqslant eta leqslant mathcal 1 gde i j displaystyle i j gruppa iz dvuh obektov klasterov i displaystyle i i j displaystyle j k displaystyle k obekt klaster s kotorym ishetsya shodstvo ukazannoj gruppy ni displaystyle n i chislo elementov v klastere i displaystyle i nj displaystyle n j chislo elementov v klastere j displaystyle j Dlya rasstoyanij imeetsya analogichnaya formula Lansa Vilyamsa Korrelyacionnye pleyadyDendrit Shiroko primenyayutsya v geobotanike i floristike Ih chasto nazyvayut korrelyacionnymi pleyadami Chastnym sluchaem yavlyaetsya metod izvestnyj kak metod postroeniya optimalnyh derevev dendritov kotoryj byl predlozhen matematikom lvovskoj shkoly Gugo Shtejngauzom vposledstvii metod byl razvit matematikami vroclavskoj taksonomicheskoj shkoly Dendrity takzhe ne dolzhny obrazovyvat ciklov Mozhno chastichno ispolzovat napravlennye dugi grafov pri ispolzovanii dopolnitelno mer vklyucheniya nesimmetrichnyh mer shodstva Metod diagonalizacii matricy razlichiya i graficheskoe izobrazhenie klasterov vdol glavnoj diagonali matricy razlichiya diagramma Chekanovskogo vpervye predlozhen Yanom Chekanovskim v 1909 godu Privedyom opisanie metodiki Sushnost etogo metoda zaklyuchaetsya v tom chto vsyu amplitudu poluchennyh velichin shodstva razbivayut na ryad klassov a zatem v matrice velichin shodstva zamenyayut eti velichiny shtrihovkoj razlichnoj dlya kazhdogo klassa prichyom obychno dlya bolee vysokih klassov shodstva primenyayut bolee tyomnuyu shtrihovku Zatem menyaya poryadok opisanij v tablice dobivayutsya togo chtoby bolee shodnye opisaniya okazalis ryadom Privedyom gipoteticheskij primer polucheniya vysheukazannoj diagrammy Osnovoj metoda yavlyaetsya postroenie matricy tranzitivnogo zamykaniya Primer raschyota diagrammy Chekanovskogo Dlya postroeniya matricy tranzitivnogo zamykaniya vozmyom prostuyu matricu shodstva i umnozhim eyo samu na sebya K 2 i j max min K i 1 K 1 j min K i q K q j displaystyle K 2 i j max min K i 1 K 1 j min K i q K q j gde K i j displaystyle K i j element stoyashij na peresechenii i displaystyle i oj stroki i j displaystyle j go stolbca v novoj vtoroj matrice poluchennoj posle pervoj iteracii q displaystyle q obshee kolichestvo strok stolbcov matricy shodstva Dannuyu proceduru neobhodimo prodolzhat poka matrica ne stanet idempotentnoj to est samopodobnoj K n i j K n 1 i j displaystyle K n i j K n 1 i j gde n chislo iteracij Dalee preobrazovyvaem matricu takim obrazom chtoby blizkie chislovye znacheniya nahodilis ryadom Esli kazhdomu chislovomu znacheniyu prisvoit kakoj libo cvet ili ottenok cveta kak v nashem sluchae to poluchim klassicheskuyu diagrammu Chekanovskogo Tradicionno bolee tyomnyj cvet sootvetstvuet bolshemu shodstvu a bolee svetlyj menshemu V etom ona shozha s teplokartoj dlya matricy rasstoyanij Sm takzheGraf matematika Klasternyj analiz Metricheskoe prostranstvo Zadacha klassifikacii pol Istochniki i primechaniyaZhambyu M Ierarhicheskij klaster analiz i sootvetstviya M Finansy i statistika 1988 345 s Klassifikaciya i klaster Pod red Dzh Ven Rajzina M Mir 1980 390 s Sneath P H A Sokal R R Numerical taxonomy The principles and practices of numerical classification San Francisco Freeman 1973 573 p Ward J H Hierarchical grouping to optimize an objective function J of the American Statistical Association 1963 236 r Ajvazyan S A Buhshtaber V M Enyukov I S Meshalkin L D Prikladnaya statistika Klassifikaciya i snizhenie razmernosti M Finansy i statistika 1989 607 s Lance G N Willams W T A general theory of classification sorting strategies 1 Hierarchical systems Comp J 1967 9 P 373 380 von Terentjev P V Biometrische Untersuchungen uber die morphologischen Merkmale von Rana ridibunda Pall Amphibia Salientia Arhivnaya kopiya ot 5 marta 2016 na Wayback Machine Biometrika 1931 23 1 2 P 23 51 Terentev P V Metod korrelyacionnyh pleyad Vestn LGU 9 1959 S 35 43 Terentev P V Dalnejshee razvitie metoda korrelyacionnyh pleyad Primenenie matematicheskih metodov v biologii T 1 L 1960 S 42 58 Vyhandu L K Ob issledovanii mnogopriznakovyh biologicheskih sistem Primenenie matematicheskih metodov v biologii L vyp 3 1964 S 19 22 Shtejngauz G Matematicheskij kalejdoskop M Nauka 1981 160 s Florek K Lukaszewicz S Percal S Steinhaus H Zubrzycki S Taksonomia Wroclawska Przegl antropol 1951 T 17 S 193 211 Czekanowski J Zur differential Diagnose der Neandertalgruppe Korrespbl Dtsch Ges Anthropol 1909 Bd 40 S 44 47 Vasilevich V I Statisticheskie metody v geobotanike L Nauka 1969 232 s Tamura S Hiquchi S Tanaka K Pattern classification based on fuzzy relation Arhivnaya kopiya ot 17 maya 2017 na Wayback Machine IEEE transaction on systems man and cybernetics 1971 SMC 1 1 P 61 67

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто