Задача классификации
Задача классифика́ции — задача, в которой множество объектов (ситуаций) необходимо разделить некоторым образом на классы, при этом задано конечное множество объектов, для которых известно, к каким классам они относятся (выборка), но классовая принадлежность остальных объектов неизвестна. Для решения задачи требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества, то есть указать, к какому классу он относится.
В математической статистике задачи классификации называются также задачами дискриминантного анализа. В машинном обучении задача классификации решается, в частности, с помощью методов искусственных нейронных сетей при постановке эксперимента в виде обучения с учителем.
Существуют также другие способы постановки эксперимента — обучение без учителя, но они используются для решения другой задачи — кластеризации или таксономии. В этих задачах разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В некоторых прикладных областях, и даже в самой математической статистике, из-за близости задач часто не различают задачи кластеризации от задач классификации.
Некоторые алгоритмы для решения задач классификации комбинируют обучение с учителем с обучением без учителя, например, одна из версий нейронных сетей Кохонена — сети векторного квантования, обучаемые с учителем.
Математическая постановка задачи
Пусть — множество описаний объектов,
— множество номеров (или наименований) классов. Существует неизвестная целевая зависимость — отображение
, значения которой известны только на объектах конечной обучающей выборки
. Требуется построить алгоритм
, способный классифицировать произвольный объект
.
Вероятностная постановка задачи
Более общей считается вероятностная постановка задачи. Предполагается, что множество пар «объект, класс» является вероятностным пространством с неизвестной вероятностной мерой
. Имеется конечная обучающая выборка наблюдений
, сгенерированная согласно вероятностной мере
. Требуется построить алгоритм
, способный классифицировать произвольный объект
.
Признаковое пространство
Признаком называется отображение , где
— множество допустимых значений признака. Если заданы признаки
, то вектор
называется признаковым описанием объекта
. Признаковые описания допустимо отождествлять с самими объектами. При этом множество
называют признаковым пространством.
В зависимости от множества признаки делятся на следующие типы:
- бинарный признак:
;
- номинальный признак:
— конечное множество;
- порядковый признак:
— конечное упорядоченное множество;
- количественный признак:
— множество действительных чисел.
Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.
Типология задач классификации
Типы входных данных
- Признаковое описание — наиболее распространённый случай. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
- Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки. С этим типом входных данных работают немногие методы, в частности, метод
ближайших соседей, , .
- Временной ряд или сигнал представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
- Изображение или видеоряд.
- Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к базе данных и так далее. Как правило, они приводятся к первому или второму случаю путём предварительной обработки данных и извлечения признаков.
Классификацию сигналов и изображений называют также распознаванием образов.
Типы классов
- Двухклассовая классификация. Наиболее простой в техническом отношении случай, который служит основой для решения более сложных задач.
- Многоклассовая классификация. Когда число классов достигает многих тысяч (например, при распознавании иероглифов или слитной речи), задача классификации становится существенно более трудной.
- Непересекающиеся классы.
- Пересекающиеся классы. Объект может относиться одновременно к нескольким классам.
- Нечёткие классы. Требуется определять степень принадлежности объекта каждому из классов, обычно это действительное число от 0 до 1.
См. также
- Задачи прогнозирования
- Распознавание образов
- Наивный байесовский классификатор
- Линейный классификатор
- Классификация текстов
Литература
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. — 2-е изд., испр.. — М.: ДМК Пресс, 2018. — 652 с. — ISBN 978-5-97060-618-6.
- Журавлёв Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
- Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
- Hastie, T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p. — ISBN 978-0-387-84857-0..
- Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.
Ссылки
- www.MachineLearning.ru — профессиональный вики-ресурс, посвящённый машинному обучению и интеллектуальному анализу данных
- Константин Воронцов. Курс лекций Математические методы обучения по прецедентам, МФТИ, 2004—2008
- Юрий Лифшиц. Автоматическая классификация текстов (Слайды) — лекция № 6 из курса «Алгоритмы для Интернета»
- kNN и Потенциальная энергия (апплет), Е. М. Миркес и университет Лейстера.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Задача классификации, Что такое Задача классификации? Что означает Задача классификации?
U etogo termina sushestvuyut i drugie znacheniya sm Klassifikaciya znacheniya Zadacha klassifika cii zadacha v kotoroj mnozhestvo obektov situacij neobhodimo razdelit nekotorym obrazom na klassy pri etom zadano konechnoe mnozhestvo obektov dlya kotoryh izvestno k kakim klassam oni otnosyatsya vyborka no klassovaya prinadlezhnost ostalnyh obektov neizvestna Dlya resheniya zadachi trebuetsya postroit algoritm sposobnyj klassificirovat proizvolnyj obekt iz ishodnogo mnozhestva to est ukazat k kakomu klassu on otnositsya V matematicheskoj statistike zadachi klassifikacii nazyvayutsya takzhe zadachami diskriminantnogo analiza V mashinnom obuchenii zadacha klassifikacii reshaetsya v chastnosti s pomoshyu metodov iskusstvennyh nejronnyh setej pri postanovke eksperimenta v vide obucheniya s uchitelem Sushestvuyut takzhe drugie sposoby postanovki eksperimenta obuchenie bez uchitelya no oni ispolzuyutsya dlya resheniya drugoj zadachi klasterizacii ili taksonomii V etih zadachah razdelenie obektov obuchayushej vyborki na klassy ne zadayotsya i trebuetsya klassificirovat obekty tolko na osnove ih shodstva drug s drugom V nekotoryh prikladnyh oblastyah i dazhe v samoj matematicheskoj statistike iz za blizosti zadach chasto ne razlichayut zadachi klasterizacii ot zadach klassifikacii Nekotorye algoritmy dlya resheniya zadach klassifikacii kombiniruyut obuchenie s uchitelem s obucheniem bez uchitelya naprimer odna iz versij nejronnyh setej Kohonena seti vektornogo kvantovaniya obuchaemye s uchitelem Matematicheskaya postanovka zadachiPust X displaystyle X mnozhestvo opisanij obektov Y displaystyle Y mnozhestvo nomerov ili naimenovanij klassov Sushestvuet neizvestnaya celevaya zavisimost otobrazhenie y X Y displaystyle y colon X to Y znacheniya kotoroj izvestny tolko na obektah konechnoj obuchayushej vyborki Xm x1 y1 xm ym displaystyle X m x 1 y 1 dots x m y m Trebuetsya postroit algoritm a X Y displaystyle a colon X to Y sposobnyj klassificirovat proizvolnyj obekt x X displaystyle x in X Veroyatnostnaya postanovka zadachi Bolee obshej schitaetsya veroyatnostnaya postanovka zadachi Predpolagaetsya chto mnozhestvo par obekt klass X Y displaystyle X times Y yavlyaetsya veroyatnostnym prostranstvom s neizvestnoj veroyatnostnoj meroj P displaystyle mathsf P Imeetsya konechnaya obuchayushaya vyborka nablyudenij Xm x1 y1 xm ym displaystyle X m x 1 y 1 dots x m y m sgenerirovannaya soglasno veroyatnostnoj mere P displaystyle mathsf P Trebuetsya postroit algoritm a X Y displaystyle a colon X to Y sposobnyj klassificirovat proizvolnyj obekt x X displaystyle x in X Priznakovoe prostranstvo Priznakom nazyvaetsya otobrazhenie f X Df displaystyle f colon X to D f gde Df displaystyle D f mnozhestvo dopustimyh znachenij priznaka Esli zadany priznaki f1 fn displaystyle f 1 dots f n to vektor x f1 x fn x displaystyle mathbf x f 1 x dots f n x nazyvaetsya priznakovym opisaniem obekta x X displaystyle x in X Priznakovye opisaniya dopustimo otozhdestvlyat s samimi obektami Pri etom mnozhestvo X Df1 Dfn displaystyle X D f 1 times dots times D f n nazyvayut priznakovym prostranstvom V zavisimosti ot mnozhestva Df displaystyle D f priznaki delyatsya na sleduyushie tipy binarnyj priznak Df 0 1 displaystyle D f 0 1 nominalnyj priznak Df displaystyle D f konechnoe mnozhestvo poryadkovyj priznak Df displaystyle D f konechnoe uporyadochennoe mnozhestvo kolichestvennyj priznak Df displaystyle D f mnozhestvo dejstvitelnyh chisel Chasto vstrechayutsya prikladnye zadachi s raznotipnymi priznakami dlya ih resheniya podhodyat daleko ne vse metody Tipologiya zadach klassifikaciiTipy vhodnyh dannyh Priznakovoe opisanie naibolee rasprostranyonnyj sluchaj Kazhdyj obekt opisyvaetsya naborom svoih harakteristik nazyvaemyh priznakami Priznaki mogut byt chislovymi ili nechislovymi Matrica rasstoyanij mezhdu obektami Kazhdyj obekt opisyvaetsya rasstoyaniyami do vseh ostalnyh obektov obuchayushej vyborki S etim tipom vhodnyh dannyh rabotayut nemnogie metody v chastnosti metod k displaystyle k blizhajshih sosedej Vremennoj ryad ili signal predstavlyaet soboj posledovatelnost izmerenij vo vremeni Kazhdoe izmerenie mozhet predstavlyatsya chislom vektorom a v obshem sluchae priznakovym opisaniem issleduemogo obekta v dannyj moment vremeni Izobrazhenie ili videoryad Vstrechayutsya i bolee slozhnye sluchai kogda vhodnye dannye predstavlyayutsya v vide grafov tekstov rezultatov zaprosov k baze dannyh i tak dalee Kak pravilo oni privodyatsya k pervomu ili vtoromu sluchayu putyom predvaritelnoj obrabotki dannyh i izvlecheniya priznakov Klassifikaciyu signalov i izobrazhenij nazyvayut takzhe raspoznavaniem obrazov Tipy klassov Dvuhklassovaya klassifikaciya Naibolee prostoj v tehnicheskom otnoshenii sluchaj kotoryj sluzhit osnovoj dlya resheniya bolee slozhnyh zadach Mnogoklassovaya klassifikaciya Kogda chislo klassov dostigaet mnogih tysyach naprimer pri raspoznavanii ieroglifov ili slitnoj rechi zadacha klassifikacii stanovitsya sushestvenno bolee trudnoj Neperesekayushiesya klassy Peresekayushiesya klassy Obekt mozhet otnositsya odnovremenno k neskolkim klassam Nechyotkie klassy Trebuetsya opredelyat stepen prinadlezhnosti obekta kazhdomu iz klassov obychno eto dejstvitelnoe chislo ot 0 do 1 Sm takzheZadachi prognozirovaniya Raspoznavanie obrazov Naivnyj bajesovskij klassifikator Linejnyj klassifikator Klassifikaciya tekstovLiteraturaAjvazyan S A Buhshtaber V M Enyukov I S Meshalkin L D Prikladnaya statistika klassifikaciya i snizhenie razmernosti M Finansy i statistika 1989 Vapnik V N Vosstanovlenie zavisimostej po empiricheskim dannym M Nauka 1979 Gudfellou Ya Bendzhio I Kurvill A Glubokoe obuchenie per s ang A A Slinkina 2 e izd ispr M DMK Press 2018 652 s ISBN 978 5 97060 618 6 Zhuravlyov Yu I Ryazanov V V Senko O V Raspoznavanie Matematicheskie metody Programmnaya sistema Prakticheskie primeneniya M Fazis 2006 ISBN 5 7036 0108 8 Zagorujko N G Prikladnye metody analiza dannyh i znanij Novosibirsk IM SO RAN 1999 ISBN 5 86134 060 9 Shlezinger M Glavach V Desyat lekcij po statisticheskomu i strukturnomu raspoznavaniyu Kiev Naukova dumka 2004 ISBN 966 00 0341 2 Hastie T Tibshirani R Friedman J The Elements of Statistical Learning Data Mining Inference and Prediction 2nd ed Springer Verlag 2009 746 p ISBN 978 0 387 84857 0 Mitchell T Machine Learning McGraw Hill Science Engineering Math 1997 ISBN 0 07 042807 7 Ssylkiwww MachineLearning ru professionalnyj viki resurs posvyashyonnyj mashinnomu obucheniyu i intellektualnomu analizu dannyh Konstantin Voroncov Kurs lekcij Matematicheskie metody obucheniya po precedentam MFTI 2004 2008 Yurij Lifshic Avtomaticheskaya klassifikaciya tekstov Slajdy lekciya 6 iz kursa Algoritmy dlya Interneta kNN i Potencialnaya energiya applet E M Mirkes i universitet Lejstera
