Википедия

Анализ текста

Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из , основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.

Группы задач ИАТ

Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.

Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом классификацией документов, система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.

Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соответствующая задача называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура отбора признаков).

Применение

В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.

В безопасности

Многие пакеты анализа текста, такие как и , нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.

В программном обеспечении

Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.

Примечания

  1. Berry, 2003, p. xi.

Литература

На русском:

  • Пескова О. В. Алгоритмы классификации полнотекстовых документов // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. — М.: МИЭМ (Московский государственный институт электроники и математики), 2011. — С. 170—212. — ISBN 978–5–94506–294–8.

На английском:

  • Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 p. — ISBN 0387955631.
  • Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 p. — ISBN 9781461432234.
  • Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference, 2007. — 358 p. — ISBN 1599043734.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Анализ текста, Что такое Анализ текста? Что означает Анализ текста?

Intellektualnyj analiz tekstov IAT angl text mining napravlenie v iskusstvennom intellekte celyu kotorogo yavlyaetsya poluchenie informacii iz osnovyvayas na primenenii effektivnyh v prakticheskom plane metodov mashinnogo obucheniya i obrabotki estestvennogo yazyka Nazvanie intellektualnyj analiz tekstov pereklikaetsya s ponyatiem intellektualnyj analiz dannyh IAD angl data mining chto vyrazhaet shozhest ih celej podhodov k pererabotke informacii i sfer primeneniya raznica proyavlyaetsya lish v konechnyh metodah a takzhe v tom chto IAD imeet delo s hranilishami i bazami dannyh a ne elektronnymi bibliotekami i korpusami tekstov Gruppy zadach IATKlyuchevymi gruppami zadach IAT yavlyayutsya kategorizaciya tekstov izvlechenie informacii i informacionnyj poisk obrabotka izmenenij v kollekciyah tekstov a takzhe razrabotka sredstv predstavleniya informacii dlya polzovatelya Kategorizaciya dokumentov zaklyuchaetsya v otnesenii dokumentov iz kollekcii k odnoj ili neskolkim gruppam klassam klasteram shozhih mezhdu soboj tekstov naprimer po teme ili stilyu Kategorizaciya mozhet proishodit pri uchastii cheloveka tak i bez nego V pervom sluchae nazyvaemom klassifikaciej dokumentov sistema IAT dolzhna otnesti teksty k uzhe opredelyonnym udobnym dlya nego klassam V terminah mashinnogo obucheniya dlya etogo neobhodimo proizvesti obuchenie s uchitelem dlya chego polzovatel dolzhen predostavit sisteme IAT kak mnozhestvo klassov tak i obrazcy dokumentov prinadlezhashih etim klassam Vtoroj sluchaj kategorizacii nazyvaetsya klasterizaciej dokumentov Pri etom sistema IAT dolzhna sama opredelit mnozhestvo klasterov po kotorym mogut byt raspredeleny teksty v mashinnom obuchenii sootvetstvuyushaya zadacha nazyvaetsya obucheniem bez uchitelya V etom sluchae polzovatel dolzhen soobshit sisteme IAT kolichestvo klasterov na kotoroe emu hotelos by razbit obrabatyvaemuyu kollekciyu podrazumevaetsya chto v algoritm programmy uzhe zalozhena procedura otbora priznakov PrimenenieV poslednee vremya analiz teksta privlekaet vsyo bolshe vnimaniya v razlichnyh oblastyah takih kak bezopasnost kommerciya nauka V bezopasnosti Mnogie pakety analiza teksta takie kak i naceleny na rynok prilozhenij bezopasnosti v chastnosti na analiz istochnikov prostogo teksta naprimer novostnyh sajtov V programmnom obespechenii Issledovaniya i razrabotki podrazdelenij krupnyh kompanij takih kak IBM Apple i Microsoft issleduyut tehnologii analiza teksta s celyu budushej avtomatizacii processov analiza i izvlecheniya dannyh PrimechaniyaBerry 2003 p xi LiteraturaNa russkom Peskova O V Algoritmy klassifikacii polnotekstovyh dokumentov Avtomaticheskaya obrabotka tekstov na estestvennom yazyke i kompyuternaya lingvistika M MIEM Moskovskij gosudarstvennyj institut elektroniki i matematiki 2011 S 170 212 ISBN 978 5 94506 294 8 Na anglijskom Survey of Text Mining I Clustering Classification and Retrieval Ed by M W Berry 2004 Springer 2003 261 p ISBN 0387955631 Aggarwal C C Zhai C Mining Text Data Springer 2012 527 p ISBN 9781461432234 Do Prado H A Emerging Technologies of Text Mining Techniques and Applications Ed by H A Do Prado E Ferneda Idea Group Reference 2007 358 p ISBN 1599043734

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто