Признаковое описание
Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.
Формальное определение
Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области. Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга — заёмщики, в задаче фильтрации спама — отдельные сообщения.
Признак (англ. feature) — результат измерения некоторой характеристики объекта, то есть отображение:
,
где — множество допустимых значений признака.
Значениями признаков могут быть тексты, графы, оцифрованные изображения, числовые последовательности, записи базы данных и т. п. В зависимости от множества признаки делятся на следующие типы:
- бинарный признак:
;
- номинальный признак:
— конечное множество;
- порядковый признак:
— конечное упорядоченное множество;
- количественный признак:
— множество действительных чисел.
Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.
Если заданы признаки , то вектор
называется признаковым описанием объекта
.
В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: . При этом множество
называют признаковым пространством.
Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки длины
, записанная в виде матрицы размера
(
строк,
столбцов). Столбцы этой матрицы соответствуют признакам
, а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа, и большое число методов обучения подразумевает такое представление данных.
В приложениях
Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков (англ. feature extraction) из данных или генерация признаков (англ. feature generation). Таким образом, в качестве признака можно брать и любое отображение из множества в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения взять некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.
Литература
- Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. — 471 с.
- Журавлев Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — ISBN 5-86134-060-9.
- Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: Data Mining, Inference, and Prediction. — Springer, 2001. — 533 p. — ISBN 9780387952840.
Ссылки
- Признаковое описание, machinelearning.ru
Для улучшения этой статьи желательно: |
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Признаковое описание, Что такое Признаковое описание? Что означает Признаковое описание?
Priznakovoe opisanie obekta angl feature vector eto vektor kotoryj sostavlen iz znachenij sootvetstvuyushih nekotoromu naboru priznakov dlya dannogo obekta Znacheniya priznakov mogut byt razlichnogo ne obyazatelno chislovogo tipa Yavlyaetsya odnim iz samyh rasprostranyonnyh v mashinnom obuchenii sposobov vvoda dannyh Formalnoe opredelenieOboznachim cherez X mnozhestvo obektov situacij precedentov nekotoroj predmetnoj oblasti Naprimer v zadachah mashinnogo obucheniya vstrechayushihsya v medicine precedentami mogut yavlyatsya pacienty v sfere kreditovaniya pri provedenii kreditnogo skoringa zayomshiki v zadache filtracii spama otdelnye soobsheniya Priznak angl feature rezultat izmereniya nekotoroj harakteristiki obekta to est otobrazhenie f X Df displaystyle f colon X to D f gde Df displaystyle D f mnozhestvo dopustimyh znachenij priznaka Znacheniyami priznakov mogut byt teksty grafy ocifrovannye izobrazheniya chislovye posledovatelnosti zapisi bazy dannyh i t p V zavisimosti ot mnozhestva Df displaystyle D f priznaki delyatsya na sleduyushie tipy binarnyj priznak Df 0 1 displaystyle D f 0 1 nominalnyj priznak Df displaystyle D f konechnoe mnozhestvo poryadkovyj priznak Df displaystyle D f konechnoe uporyadochennoe mnozhestvo kolichestvennyj priznak Df displaystyle D f mnozhestvo dejstvitelnyh chisel Chasto vstrechayutsya prikladnye zadachi s raznotipnymi priznakami dlya resheniya kotoryh podhodyat daleko ne vse metody Esli zadany priznaki f1 fn displaystyle f 1 dots f n to vektor x f1 x fn x displaystyle mathbf x f 1 x dots f n x nazyvaetsya priznakovym opisaniem obekta x X displaystyle x in X V mashinnom obuchenii priznakovye opisaniya dopustimo otozhdestvlyat s samimi obektami to est X Df1 Df2 Dfn displaystyle X D f 1 times D f 2 times dots times D f n Pri etom mnozhestvo X displaystyle X nazyvayut priznakovym prostranstvom Matricej obektov priznakov matrica informacii matrica ishodnyh dannyh nazyvaetsya sovokupnost priznakovyh opisanij obektov obuchayushej vyborki Xl x1 x2 xl displaystyle X l x 1 x 2 dots x l dliny l displaystyle l zapisannaya v vide matricy razmera l n displaystyle l times n l displaystyle l strok n displaystyle n stolbcov Stolbcy etoj matricy sootvetstvuyut priznakam f1 fn displaystyle f 1 dots f n a kazhdaya stroka yavlyaetsya priznakovym opisaniyam odnogo obuchayushego obekta Takoj vid predstavleniya yavlyaetsya prinyatym v zadachah klassifikacii i regressionnogo analiza i bolshoe chislo metodov obucheniya podrazumevaet takoe predstavlenie dannyh V prilozheniyahVstrechayushiesya na praktike zadachi mogut ne soderzhat udobnyh dlya matematicheskoj obrabotki dannyh Naprimer v zadache filtracii spama obekty soobsheniya predstavleny tekstami proizvolnoj dliny mogut soderzhat vlozheniya razlichnyh formatov i t p Dlya privedeniya dannyh k standartnomu vidu primenyaetsya procedura izvlechenie priznakov angl feature extraction iz dannyh ili generaciya priznakov angl feature generation Takim obrazom v kachestve priznaka mozhno brat i lyuboe otobrazhenie iz mnozhestva X displaystyle X v mnozhestvo znachenij udobnoe dlya obrabotki Nichto ne meshaet v kachestve takogo otobrazheniya vzyat nekotoryj algoritm klassifikacii ili regressii chto pozvolyaet poluchat slozhnye kompozicii algoritmov LiteraturaAjvazyan S A Enyukov I S Meshalkin L D Prikladnaya statistika osnovy modelirovaniya i pervichnaya obrabotka dannyh M Finansy i statistika 1983 471 s Zhuravlev Yu I Ryazanov V V Senko O V Raspoznavanie Matematicheskie metody Programmnaya sistema Prakticheskie primeneniya M Fazis 2006 Zagorujko N G Prikladnye metody analiza dannyh i znanij Novosibirsk IM SO RAN 1999 ISBN 5 86134 060 9 Hastie T Tibshirani R Friedman J The elements of statistical learning Data Mining Inference and Prediction Springer 2001 533 p ISBN 9780387952840 SsylkiPriznakovoe opisanie machinelearning ruDlya uluchsheniya etoj stati zhelatelno Prostavit snoski vnesti bolee tochnye ukazaniya na istochniki Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom
