Википедия

Кластерный анализ

Кластерный анализ (англ. cluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

image
Результат кластерного анализа обозначен раскрашиванием точек в соответствии с принадлежностью к одному из трёх кластеров.

Большинство исследователей (см., напр.,) склоняются к тому, что впервые термин «кластерный анализ» (англ. cluster — гроздь, сгусток, пучок) был предложен психологом [англ.]. Впоследствии возник ряд терминов, которые в настоящее время принято считать синонимами термина «кластерный анализ»: автоматическая классификация, ботриология.

Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии, геологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Задачи и условия

Кластерный анализ выполняет следующие основные задачи:

  • Разработка типологии или классификации.
  • Исследование полезных концептуальных схем группирования объектов.
  • Порождение гипотез на основе исследования данных.
  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.
  • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.
  • Вычисление значений той или иной меры сходства (или различия) между объектами.
  • Применение метода кластерного анализа для создания групп сходных объектов.
  • Проверка достоверности результатов кластерного решения.

Можно встретить описание двух фундаментальных требований, предъявляемых к данным — однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описывались сходным набором характеристик. Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.

Типология задач кластеризации

Типы входных данных

  • Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
  • Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов метрического пространства.
  • Матрица сходства между объектами. Учитывается степень сходства объекта с другими объектами выборки в метрическом пространстве. Сходство здесь дополняет расстояние (различие) между объектами до 1.

В современной науке применяется несколько алгоритмов обработки входных данных. Анализ путём сравнения объектов, исходя из признаков, (наиболее распространённый в биологических науках) называется анализа Q-режима (англ. Q-mode analysis), а в случае сравнения признаков, на основе объектов — анализа R-режима. Существуют попытки использования гибридных режимов анализа (например, RQ-режим), но данная методология ещё должным образом не разработана.[источник не указан 745 дней]

Цели кластеризации

  • путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
  • (англ. novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии. Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

Методы кластеризации

Общепринятой классификации методов кластеризации не существует, но можно выделить ряд групп подходов (некоторые методы можно отнести сразу к нескольким группам и потому предлагается рассматривать данную типизацию как некоторое приближение к реальной классификации методов кластеризации):

  1. Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов. Некоторые авторы (например, А. И. Орлов) считают, что данная группа вовсе не относится к кластеризации, и противопоставляют её под названием «дискриминация», то есть выбор отнесения объектов к одной из известных групп (обучающих выборок).
  2. Подходы на основе систем искусственного интеллекта: весьма условная группа, так как методов очень много и методически они весьма различны.
  3. Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
  4. Теоретико-графовый подход.
    • Графовые алгоритмы кластеризации
  5. Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы в свою очередь подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации.
    • Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии.
  6. Другие методы. Не вошедшие в предыдущие группы.
    • DBSCAN и др.

Подходы 4 и 5 иногда объединяют под названием структурного или геометрического подхода, обладающего большей формализованностью понятия близости. Несмотря на значительные различия между перечисленными методами все они опираются на исходную «гипотезу компактности»: в пространстве объектов все близкие объекты должны относиться к одному кластеру, а все различные объекты соответственно должны находиться в различных кластерах.

Формальная постановка задачи кластеризации

Пусть image — множество объектов, image — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами image. Имеется конечная обучающая выборка объектов image. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике image, а объекты разных кластеров существенно отличались. При этом каждому объекту image приписывается номер кластера image.

Алгоритм кластеризации — это функция image, которая любому объекту image ставит в соответствие номер кластера image. Множество image в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов image изначально не заданы, и даже может быть неизвестно само множество image.

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин (как считает ряд авторов):

  • не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты. Следовательно, для определения качества кластеризации требуется эксперт предметной области, который бы мог оценить осмысленность выделения кластеров.
  • число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Это справедливо только для методов дискриминации, так как в методах кластеризации выделение кластеров идёт за счёт формализованного подхода на основе мер близости.
  • результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом. Но есть ряд рекомендаций по выбору мер близости для различных задач.

Применение

В биологии

В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с её помощью анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет в конечном счете узнать вклад каждого гена в формирование изучаемого феномена.

В области экологии широко применяется для выделения пространственно однородных групп организмов, сообществ и т. п. Реже методы кластерного анализа применяются для исследования сообществ во времени. Гетерогенность структуры сообществ приводит к возникновению нетривиальных методов кластерного анализа (например, метод Чекановского).

Исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства, а не меры различия (расстояния).

В социологии

При анализе результатов социологических исследований рекомендуется осуществлять анализ методами иерархического агломеративного семейства, а именно методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются кластеры приблизительно равных размеров. Метод Уорда наиболее удачен для анализа социологических данных. В качестве меры различия лучше квадратичное евклидово расстояние, которое способствует увеличению контрастности кластеров. Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма». При её интерпретации исследователи сталкиваются с проблемой того же рода, что и толкование результатов факторного анализа — отсутствием однозначных критериев выделения кластеров. В качестве главных рекомендуется использовать два способа — визуальный анализ дендрограммы и сравнение результатов кластеризации, выполненной различными методами.

Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки. «Виноградную ветвь» (терминология Олдендерфера М. С. и Блэшфилда Р. К.) целесообразно «обрезать» на отметке 5 шкалы Rescaled Distance Cluster Combine, таким образом будет достигнут 80 % уровень сходства. Если выделение кластеров по этой метке затруднено (на ней происходит слияние нескольких мелких кластеров в один крупный), то можно выбрать другую метку. Такая методика предлагается Олдендерфером и Блэшфилдом.

Теперь возникает вопрос устойчивости принятого кластерного решения. По сути, проверка устойчивости кластеризации сводится к проверке её достоверности. Здесь существует эмпирическое правило — устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.

Проверить адекватность решения, не прибегая к помощи другого вида анализа, нельзя. По крайней мере, в теоретическом плане эта проблема не решена. В классической работе Олдендерфера и Блэшфилда «Кластерный анализ» подробно рассматриваются и в итоге отвергаются дополнительные пять методов проверки устойчивости:

  1.  — не рекомендуется и ограничена в использовании;
  2. тесты значимости (дисперсионный анализ) — всегда дают значимый результат;
  3. методика повторных (случайных) выборок, что, тем не менее, не доказывает обоснованность решения;
  4. тесты значимости для внешних признаков пригодны только для повторных измерений;
  5. методы Монте-Карло очень сложны и доступны только опытным математикам[источник не указан 4687 дней].

В информатике

  •  — используется для «интеллектуальной» группировки результатов при поиске файлов, веб-сайтов, других объектов, предоставляя пользователю возможность быстрой навигации, выбора заведомо более релевантного подмножества и исключения заведомо менее релевантного — что может повысить юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка.
    •  — кластеризующая поисковая машина компании
    • Nigma — российская поисковая система с автоматической кластеризацией результатов
    • Quintura — визуальная облака ключевых слов
  • Сегментация изображений (англ. image segmentation) — кластеризация может быть использована для разбиения цифрового изображения на отдельные области с целью обнаружения границ (англ. edge detection) или распознавания объектов.
  • Интеллектуальный анализ данных (англ. data mining) — кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.

См. также

  • Кластеризация документов
  • Классификация документов
  • Нейронные сети
  • Самоорганизующаяся карта Кохонена
  • Кластерный анализ финансовых рынков Архивная копия от 21 февраля 2017 на Wayback Machine

Примечания

  1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.
  2. Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. — 176 с.
  3. Хайдуков Д. С. Применение кластерного анализа в государственном управлении// Философия математики: актуальные проблемы. — М.: МАКС Пресс, 2009. — 287 с.
  4. Классификация и кластер. Под ред. Дж. Вэн Райзина. М.: Мир, 1980. 390 с.
  5. Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. — С. 10.
  6. Tryon R. C. Cluster analysis. — London: Ann Arbor Edwards Bros, 1939. — 139 p.
  7. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 345 с.
  8. Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.
  9. Бериков В. С., Лбов Г. С. Современные тенденции в кластерном анализе Архивная копия от 10 августа 2013 на Wayback Machine // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы», 2008. — 26 с.
  10. Вятченин Д. А. Нечёткие методы автоматической классификации. — Минск: Технопринт, 2004. — 219 с.
  11. Олдендерфер М. С., Блэшфилд Р. К. Кластерный анализ / Факторный, дискриминантный и кластерный анализ: пер. с англ.; Под. ред. И. С. Енюкова. — М.: Финансы и статистика, 1989—215 с.

Ссылки

На русском языке

  • www.MachineLearning.ru — профессиональный вики-ресурс, посвященный машинному обучению и интеллектуальному анализу данных

На английском языке

  • COMPACT — Comparative Package for Clustering Assessment Архивная копия от 26 февраля 2007 на Wayback Machine. A free Matlab package, 2006.
  • P. Berkhin, Survey of Clustering Data Mining Techniques Архивная копия от 17 января 2007 на Wayback Machine, Accrue Software, 2002.
  • Jain, Murty and Flynn: Data Clustering: A Review Архивная копия от 3 февраля 2007 на Wayback Machine, ACM Comp. Surv., 1999.
  • for another presentation of hierarchical, k-means and fuzzy c-means see this introduction to clustering Архивная копия от 29 января 2007 на Wayback Machine. Also has an explanation on mixture of .
  • David Dowe, Mixture Modelling page Архивная копия от 5 апреля 2007 на Wayback Machine — other clustering and mixture model links.
  • a tutorial on clustering  (недоступная ссылка с 13-05-2013 [4444 дня] — история)
  • The on-line textbook: Information Theory, Inference, and Learning Algorithms Архивная копия от 6 февраля 2015 на Wayback Machine, by David J. C. MacKay includes chapters on k-means clustering, soft k-means clustering, and derivations including the E-M algorithm and the variational view of the E-M algorithm.
  • An overview of non-parametric clustering and computer vision
  • «The Self-Organized Gene», tutorial explaining clustering through competitive learning and self-organizing maps.
  • kernlab  (недоступная ссылка с 13-05-2013 [4444 дня] — история) — R package for kernel based machine learning (includes spectral clustering implementation)
  • Tutorial Архивная копия от 29 декабря 2007 на Wayback Machine — Tutorial with introduction of Clustering Algorithms (k-means, fuzzy-c-means, hierarchical, mixture of gaussians) + some interactive demos (java applets)
  • Data Mining Software Архивная копия от 24 июня 2017 на Wayback Machine — Data mining software frequently utilizes clustering techniques.
  • Java Competitve Learning Application  (недоступная ссылка с 13-05-2013 [4444 дня] — история) A suite of Unsupervised Neural Networks for clustering. Written in Java. Complete with all source code.
  • Machine Learning Software Архивная копия от 3 апреля 2018 на Wayback Machine — Also contains much clustering software.
  • Fuzzy Clustering Algorithms and their Application to Medical Image Analysis PhD Thesis, 2001, by AI Shihab. Архивная копия от 27 сентября 2007 на Wayback Machine
  • Cluster Computing and MapReduce Lecture 4 Архивная копия от 14 января 2019 на Wayback Machine
  • PyClustering Library Архивная копия от 11 июня 2018 на Wayback Machine — Python library contains clustering algorithms (C++ source code can be also used — CCORE part of the library) and collection of neural and oscillatory networks with examples and demos.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Кластерный анализ, Что такое Кластерный анализ? Что означает Кластерный анализ?

Klasternyj analiz angl cluster analysis mnogomernaya statisticheskaya procedura vypolnyayushaya sbor dannyh soderzhashih informaciyu o vyborke obektov i zatem uporyadochivayushaya obekty v sravnitelno odnorodnye gruppy Zadacha klasterizacii otnositsya k statisticheskoj obrabotke a takzhe k shirokomu klassu zadach obucheniya bez uchitelya Rezultat klasternogo analiza oboznachen raskrashivaniem tochek v sootvetstvii s prinadlezhnostyu k odnomu iz tryoh klasterov Bolshinstvo issledovatelej sm napr sklonyayutsya k tomu chto vpervye termin klasternyj analiz angl cluster grozd sgustok puchok byl predlozhen psihologom angl Vposledstvii voznik ryad terminov kotorye v nastoyashee vremya prinyato schitat sinonimami termina klasternyj analiz avtomaticheskaya klassifikaciya botriologiya Spektr primenenij klasternogo analiza ochen shirok ego ispolzuyut v arheologii medicine psihologii himii biologii gosudarstvennom upravlenii filologii antropologii marketinge sociologii geologii i drugih disciplinah Odnako universalnost primeneniya privela k poyavleniyu bolshogo kolichestva nesovmestimyh terminov metodov i podhodov zatrudnyayushih odnoznachnoe ispolzovanie i neprotivorechivuyu interpretaciyu klasternogo analiza Zadachi i usloviyaKlasternyj analiz vypolnyaet sleduyushie osnovnye zadachi Razrabotka tipologii ili klassifikacii Issledovanie poleznyh konceptualnyh shem gruppirovaniya obektov Porozhdenie gipotez na osnove issledovaniya dannyh Proverka gipotez ili issledovaniya dlya opredeleniya dejstvitelno li tipy gruppy vydelennye tem ili inym sposobom prisutstvuyut v imeyushihsya dannyh Nezavisimo ot predmeta izucheniya primenenie klasternogo analiza predpolagaet sleduyushie etapy Otbor vyborki dlya klasterizacii Podrazumevaetsya chto imeet smysl klasterizovat tolko kolichestvennye dannye Opredelenie mnozhestva peremennyh po kotorym budut ocenivatsya obekty v vyborke to est priznakovogo prostranstva Vychislenie znachenij toj ili inoj mery shodstva ili razlichiya mezhdu obektami Primenenie metoda klasternogo analiza dlya sozdaniya grupp shodnyh obektov Proverka dostovernosti rezultatov klasternogo resheniya Mozhno vstretit opisanie dvuh fundamentalnyh trebovanij predyavlyaemyh k dannym odnorodnost i polnota Odnorodnost trebuet chtoby vse klasterizuemye sushnosti byli odnoj prirody opisyvalis shodnym naborom harakteristik Esli klasternomu analizu predshestvuet faktornyj analiz to vyborka ne nuzhdaetsya v remonte izlozhennye trebovaniya vypolnyayutsya avtomaticheski samoj proceduroj faktornogo modelirovaniya est eshyo odno dostoinstvo z standartizaciya bez negativnyh posledstvij dlya vyborki esli eyo provodit neposredstvenno dlya klasternogo analiza ona mozhet povlech za soboj umenshenie chyotkosti razdeleniya grupp V protivnom sluchae vyborku nuzhno korrektirovat Tipologiya zadach klasterizaciiTipy vhodnyh dannyh Priznakovoe opisanie obektov Kazhdyj obekt opisyvaetsya naborom svoih harakteristik nazyvaemyh priznakami Priznaki mogut byt chislovymi ili nechislovymi Matrica rasstoyanij mezhdu obektami Kazhdyj obekt opisyvaetsya rasstoyaniyami do vseh ostalnyh obektov metricheskogo prostranstva Matrica shodstva mezhdu obektami Uchityvaetsya stepen shodstva obekta s drugimi obektami vyborki v metricheskom prostranstve Shodstvo zdes dopolnyaet rasstoyanie razlichie mezhdu obektami do 1 V sovremennoj nauke primenyaetsya neskolko algoritmov obrabotki vhodnyh dannyh Analiz putyom sravneniya obektov ishodya iz priznakov naibolee rasprostranyonnyj v biologicheskih naukah nazyvaetsya analiza Q rezhima angl Q mode analysis a v sluchae sravneniya priznakov na osnove obektov analiza R rezhima Sushestvuyut popytki ispolzovaniya gibridnyh rezhimov analiza naprimer RQ rezhim no dannaya metodologiya eshyo dolzhnym obrazom ne razrabotana istochnik ne ukazan 745 dnej Celi klasterizacii putyom vyyavleniya klasternoj struktury Razbienie vyborki na gruppy shozhih obektov pozvolyaet uprostit dalnejshuyu obrabotku dannyh i prinyatiya reshenij primenyaya k kazhdomu klasteru svoj metod analiza strategiya razdelyaj i vlastvuj Szhatie dannyh Esli ishodnaya vyborka izbytochno bolshaya to mozhno sokratit eyo ostaviv po odnomu naibolee tipichnomu predstavitelyu ot kazhdogo klastera angl novelty detection Vydelyayutsya netipichnye obekty kotorye ne udayotsya prisoedinit ni k odnomu iz klasterov V pervom sluchae chislo klasterov starayutsya sdelat pomenshe Vo vtorom sluchae vazhnee obespechit vysokuyu stepen shodstva obektov vnutri kazhdogo klastera a klasterov mozhet byt skolko ugodno V tretem sluchae naibolshij interes predstavlyayut otdelnye obekty ne vpisyvayushiesya ni v odin iz klasterov Vo vseh etih sluchayah mozhet primenyatsya ierarhicheskaya klasterizaciya kogda krupnye klastery drobyatsya na bolee melkie te v svoyu ochered drobyatsya eshyo melche i t d Takie zadachi nazyvayutsya zadachami taksonomii Rezultatom taksonomii yavlyaetsya drevoobraznaya ierarhicheskaya struktura Pri etom kazhdyj obekt harakterizuetsya perechisleniem vseh klasterov kotorym on prinadlezhit obychno ot krupnogo k melkomu Metody klasterizacii Obsheprinyatoj klassifikacii metodov klasterizacii ne sushestvuet no mozhno vydelit ryad grupp podhodov nekotorye metody mozhno otnesti srazu k neskolkim gruppam i potomu predlagaetsya rassmatrivat dannuyu tipizaciyu kak nekotoroe priblizhenie k realnoj klassifikacii metodov klasterizacii Veroyatnostnyj podhod Predpolagaetsya chto kazhdyj rassmatrivaemyj obekt otnositsya k odnomu iz k klassov Nekotorye avtory naprimer A I Orlov schitayut chto dannaya gruppa vovse ne otnositsya k klasterizacii i protivopostavlyayut eyo pod nazvaniem diskriminaciya to est vybor otneseniya obektov k odnoj iz izvestnyh grupp obuchayushih vyborok K srednih K median EM algoritm Algoritmy semejstva FOREL Diskriminantnyj analiz Podhody na osnove sistem iskusstvennogo intellekta vesma uslovnaya gruppa tak kak metodov ochen mnogo i metodicheski oni vesma razlichny Metod nechetkoj klasterizacii C srednih Nejronnaya set Kohonena Geneticheskij algoritm Logicheskij podhod Postroenie dendrogrammy osushestvlyaetsya s pomoshyu dereva reshenij Teoretiko grafovyj podhod Grafovye algoritmy klasterizacii Ierarhicheskij podhod Predpolagaetsya nalichie vlozhennyh grupp klasterov razlichnogo poryadka Algoritmy v svoyu ochered podrazdelyayutsya na aglomerativnye obedinitelnye i divizivnye razdelyayushie Po kolichestvu priznakov inogda vydelyayut monoteticheskie i politeticheskie metody klassifikacii Ierarhicheskaya divizivnaya klasterizaciya ili taksonomiya Zadachi klasterizacii rassmatrivayutsya v kolichestvennoj taksonomii Drugie metody Ne voshedshie v predydushie gruppy DBSCAN i dr Podhody 4 i 5 inogda obedinyayut pod nazvaniem strukturnogo ili geometricheskogo podhoda obladayushego bolshej formalizovannostyu ponyatiya blizosti Nesmotrya na znachitelnye razlichiya mezhdu perechislennymi metodami vse oni opirayutsya na ishodnuyu gipotezu kompaktnosti v prostranstve obektov vse blizkie obekty dolzhny otnositsya k odnomu klasteru a vse razlichnye obekty sootvetstvenno dolzhny nahoditsya v razlichnyh klasterah Formalnaya postanovka zadachi klasterizaciiPust X displaystyle X mnozhestvo obektov Y displaystyle Y mnozhestvo nomerov imyon metok klasterov Zadana funkciya rasstoyaniya mezhdu obektami r x x displaystyle rho x x Imeetsya konechnaya obuchayushaya vyborka obektov Xm x1 xm X displaystyle X m x 1 dots x m subset X Trebuetsya razbit vyborku na neperesekayushiesya podmnozhestva nazyvaemye klasterami tak chtoby kazhdyj klaster sostoyal iz obektov blizkih po metrike r displaystyle rho a obekty raznyh klasterov sushestvenno otlichalis Pri etom kazhdomu obektu xi Xm displaystyle x i in X m pripisyvaetsya nomer klastera yi displaystyle y i Algoritm klasterizacii eto funkciya a X Y displaystyle a colon X to Y kotoraya lyubomu obektu x X displaystyle x in X stavit v sootvetstvie nomer klastera y Y displaystyle y in Y Mnozhestvo Y displaystyle Y v nekotoryh sluchayah izvestno zaranee odnako chashe stavitsya zadacha opredelit optimalnoe chislo klasterov s tochki zreniya togo ili inogo kriteriya kachestva klasterizacii Klasterizaciya obuchenie bez uchitelya otlichaetsya ot klassifikacii obucheniya s uchitelem tem chto metki ishodnyh obektov yi displaystyle y i iznachalno ne zadany i dazhe mozhet byt neizvestno samo mnozhestvo Y displaystyle Y Reshenie zadachi klasterizacii principialno neodnoznachno i tomu est neskolko prichin kak schitaet ryad avtorov ne sushestvuet odnoznachno nailuchshego kriteriya kachestva klasterizacii Izvesten celyj ryad evristicheskih kriteriev a takzhe ryad algoritmov ne imeyushih chyotko vyrazhennogo kriteriya no osushestvlyayushih dostatochno razumnuyu klasterizaciyu po postroeniyu Vse oni mogut davat raznye rezultaty Sledovatelno dlya opredeleniya kachestva klasterizacii trebuetsya ekspert predmetnoj oblasti kotoryj by mog ocenit osmyslennost vydeleniya klasterov chislo klasterov kak pravilo neizvestno zaranee i ustanavlivaetsya v sootvetstvii s nekotorym subektivnym kriteriem Eto spravedlivo tolko dlya metodov diskriminacii tak kak v metodah klasterizacii vydelenie klasterov idyot za schyot formalizovannogo podhoda na osnove mer blizosti rezultat klasterizacii sushestvenno zavisit ot metriki vybor kotoroj kak pravilo takzhe subektiven i opredelyaetsya ekspertom No est ryad rekomendacij po vyboru mer blizosti dlya razlichnyh zadach PrimenenieV biologii V biologii klasterizaciya imeet mnozhestvo prilozhenij v samyh raznyh oblastyah Naprimer v bioinformatike s eyo pomoshyu analiziruyutsya slozhnye seti vzaimodejstvuyushih genov sostoyashie poroj iz soten ili dazhe tysyach elementov Klasternyj analiz pozvolyaet vydelit podseti uzkie mesta koncentratory i drugie skrytye svojstva izuchaemoj sistemy chto pozvolyaet v konechnom schete uznat vklad kazhdogo gena v formirovanie izuchaemogo fenomena V oblasti ekologii shiroko primenyaetsya dlya vydeleniya prostranstvenno odnorodnyh grupp organizmov soobshestv i t p Rezhe metody klasternogo analiza primenyayutsya dlya issledovaniya soobshestv vo vremeni Geterogennost struktury soobshestv privodit k vozniknoveniyu netrivialnyh metodov klasternogo analiza naprimer metod Chekanovskogo Istoricheski slozhilos tak chto v kachestve mer blizosti v biologii chashe ispolzuyutsya mery shodstva a ne mery razlichiya rasstoyaniya V sociologii Pri analize rezultatov sociologicheskih issledovanij rekomenduetsya osushestvlyat analiz metodami ierarhicheskogo aglomerativnogo semejstva a imenno metodom Uorda pri kotorom vnutri klasterov optimiziruetsya minimalnaya dispersiya v itoge sozdayutsya klastery priblizitelno ravnyh razmerov Metod Uorda naibolee udachen dlya analiza sociologicheskih dannyh V kachestve mery razlichiya luchshe kvadratichnoe evklidovo rasstoyanie kotoroe sposobstvuet uvelicheniyu kontrastnosti klasterov Glavnym itogom ierarhicheskogo klasternogo analiza yavlyaetsya dendrogramma ili sosulchataya diagramma Pri eyo interpretacii issledovateli stalkivayutsya s problemoj togo zhe roda chto i tolkovanie rezultatov faktornogo analiza otsutstviem odnoznachnyh kriteriev vydeleniya klasterov V kachestve glavnyh rekomenduetsya ispolzovat dva sposoba vizualnyj analiz dendrogrammy i sravnenie rezultatov klasterizacii vypolnennoj razlichnymi metodami Vizualnyj analiz dendrogrammy predpolagaet obrezanie dereva na optimalnom urovne shodstva elementov vyborki Vinogradnuyu vetv terminologiya Oldenderfera M S i Bleshfilda R K celesoobrazno obrezat na otmetke 5 shkaly Rescaled Distance Cluster Combine takim obrazom budet dostignut 80 uroven shodstva Esli vydelenie klasterov po etoj metke zatrudneno na nej proishodit sliyanie neskolkih melkih klasterov v odin krupnyj to mozhno vybrat druguyu metku Takaya metodika predlagaetsya Oldenderferom i Bleshfildom Teper voznikaet vopros ustojchivosti prinyatogo klasternogo resheniya Po suti proverka ustojchivosti klasterizacii svoditsya k proverke eyo dostovernosti Zdes sushestvuet empiricheskoe pravilo ustojchivaya tipologiya sohranyaetsya pri izmenenii metodov klasterizacii Rezultaty ierarhicheskogo klasternogo analiza mozhno proveryat iterativnym klasternym analizom po metodu k srednih Esli sravnivaemye klassifikacii grupp respondentov imeyut dolyu sovpadenij bolee 70 bolee 2 3 sovpadenij to klasternoe reshenie prinimaetsya Proverit adekvatnost resheniya ne pribegaya k pomoshi drugogo vida analiza nelzya Po krajnej mere v teoreticheskom plane eta problema ne reshena V klassicheskoj rabote Oldenderfera i Bleshfilda Klasternyj analiz podrobno rassmatrivayutsya i v itoge otvergayutsya dopolnitelnye pyat metodov proverki ustojchivosti ne rekomenduetsya i ogranichena v ispolzovanii testy znachimosti dispersionnyj analiz vsegda dayut znachimyj rezultat metodika povtornyh sluchajnyh vyborok chto tem ne menee ne dokazyvaet obosnovannost resheniya testy znachimosti dlya vneshnih priznakov prigodny tolko dlya povtornyh izmerenij metody Monte Karlo ochen slozhny i dostupny tolko opytnym matematikam istochnik ne ukazan 4687 dnej V informatike ispolzuetsya dlya intellektualnoj gruppirovki rezultatov pri poiske fajlov veb sajtov drugih obektov predostavlyaya polzovatelyu vozmozhnost bystroj navigacii vybora zavedomo bolee relevantnogo podmnozhestva i isklyucheniya zavedomo menee relevantnogo chto mozhet povysit yuzabiliti interfejsa po sravneniyu s vyvodom v vide prostogo sortirovannogo po relevantnosti spiska klasterizuyushaya poiskovaya mashina kompanii Nigma rossijskaya poiskovaya sistema s avtomaticheskoj klasterizaciej rezultatov Quintura vizualnaya oblaka klyuchevyh slov Segmentaciya izobrazhenij angl image segmentation klasterizaciya mozhet byt ispolzovana dlya razbieniya cifrovogo izobrazheniya na otdelnye oblasti s celyu obnaruzheniya granic angl edge detection ili raspoznavaniya obektov Intellektualnyj analiz dannyh angl data mining klasterizaciya v Data Mining priobretaet cennost togda kogda ona vystupaet odnim iz etapov analiza dannyh postroeniya zakonchennogo analiticheskogo resheniya Analitiku chasto legche vydelit gruppy shozhih obektov izuchit ih osobennosti i postroit dlya kazhdoj gruppy otdelnuyu model chem sozdavat odnu obshuyu model dlya vseh dannyh Takim priemom postoyanno polzuyutsya v marketinge vydelyaya gruppy klientov pokupatelej tovarov i razrabatyvaya dlya kazhdoj iz nih otdelnuyu strategiyu Sm takzheKlasterizaciya dokumentov Klassifikaciya dokumentov Nejronnye seti Samoorganizuyushayasya karta Kohonena Klasternyj analiz finansovyh rynkov Arhivnaya kopiya ot 21 fevralya 2017 na Wayback MachinePrimechaniyaAjvazyan S A Buhshtaber V M Enyukov I S Meshalkin L D Prikladnaya statistika Klassifikaciya i snizhenie razmernosti M Finansy i statistika 1989 607 s Mandel I D Klasternyj analiz M Finansy i statistika 1988 176 s Hajdukov D S Primenenie klasternogo analiza v gosudarstvennom upravlenii Filosofiya matematiki aktualnye problemy M MAKS Press 2009 287 s Klassifikaciya i klaster Pod red Dzh Ven Rajzina M Mir 1980 390 s Mandel I D Klasternyj analiz M Finansy i statistika 1988 S 10 Tryon R C Cluster analysis London Ann Arbor Edwards Bros 1939 139 p Zhambyu M Ierarhicheskij klaster analiz i sootvetstviya M Finansy i statistika 1988 345 s Dyuran B Odell P Klasternyj analiz M Statistika 1977 128 s Berikov V S Lbov G S Sovremennye tendencii v klasternom analize Arhivnaya kopiya ot 10 avgusta 2013 na Wayback Machine Vserossijskij konkursnyj otbor obzorno analiticheskih statej po prioritetnomu napravleniyu Informacionno telekommunikacionnye sistemy 2008 26 s Vyatchenin D A Nechyotkie metody avtomaticheskoj klassifikacii Minsk Tehnoprint 2004 219 s Oldenderfer M S Bleshfild R K Klasternyj analiz Faktornyj diskriminantnyj i klasternyj analiz per s angl Pod red I S Enyukova M Finansy i statistika 1989 215 s SsylkiNa russkom yazyke www MachineLearning ru professionalnyj viki resurs posvyashennyj mashinnomu obucheniyu i intellektualnomu analizu dannyh Na anglijskom yazyke COMPACT Comparative Package for Clustering Assessment Arhivnaya kopiya ot 26 fevralya 2007 na Wayback Machine A free Matlab package 2006 P Berkhin Survey of Clustering Data Mining Techniques Arhivnaya kopiya ot 17 yanvarya 2007 na Wayback Machine Accrue Software 2002 Jain Murty and Flynn Data Clustering A Review Arhivnaya kopiya ot 3 fevralya 2007 na Wayback Machine ACM Comp Surv 1999 for another presentation of hierarchical k means and fuzzy c means see this introduction to clustering Arhivnaya kopiya ot 29 yanvarya 2007 na Wayback Machine Also has an explanation on mixture of David Dowe Mixture Modelling page Arhivnaya kopiya ot 5 aprelya 2007 na Wayback Machine other clustering and mixture model links a tutorial on clustering nedostupnaya ssylka s 13 05 2013 4444 dnya istoriya The on line textbook Information Theory Inference and Learning Algorithms Arhivnaya kopiya ot 6 fevralya 2015 na Wayback Machine by David J C MacKay includes chapters on k means clustering soft k means clustering and derivations including the E M algorithm and the variational view of the E M algorithm An overview of non parametric clustering and computer vision The Self Organized Gene tutorial explaining clustering through competitive learning and self organizing maps kernlab nedostupnaya ssylka s 13 05 2013 4444 dnya istoriya R package for kernel based machine learning includes spectral clustering implementation Tutorial Arhivnaya kopiya ot 29 dekabrya 2007 na Wayback Machine Tutorial with introduction of Clustering Algorithms k means fuzzy c means hierarchical mixture of gaussians some interactive demos java applets Data Mining Software Arhivnaya kopiya ot 24 iyunya 2017 na Wayback Machine Data mining software frequently utilizes clustering techniques Java Competitve Learning Application nedostupnaya ssylka s 13 05 2013 4444 dnya istoriya A suite of Unsupervised Neural Networks for clustering Written in Java Complete with all source code Machine Learning Software Arhivnaya kopiya ot 3 aprelya 2018 na Wayback Machine Also contains much clustering software Fuzzy Clustering Algorithms and their Application to Medical Image Analysis PhD Thesis 2001 by AI Shihab Arhivnaya kopiya ot 27 sentyabrya 2007 na Wayback Machine Cluster Computing and MapReduce Lecture 4 Arhivnaya kopiya ot 14 yanvarya 2019 na Wayback Machine PyClustering Library Arhivnaya kopiya ot 11 iyunya 2018 na Wayback Machine Python library contains clustering algorithms C source code can be also used CCORE part of the library and collection of neural and oscillatory networks with examples and demos U etoj stati po matematike est neskolko problem pomogite ih ispravit V state est spisok istochnikov no ne hvataet snosok Bez snosok slozhno opredelit iz kakogo istochnika vzyato kazhdoe otdelnoe utverzhdenie Vy mozhete uluchshit statyu prostaviv snoski na istochniki podtverzhdayushie informaciyu Svedeniya bez snosok mogut byt udaleny 12 sentyabrya 2012 Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто