Извлечение информации

Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов . Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:

MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
MUC-5 (1993): Венчурные операции в области микроэлектроники.
MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
MUC-7 (1998): Отчёты о запусках спутников.

Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.

Типичные подзадачи извлечения информации:

Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
Разрешение анафоры и кореференций: поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).
: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.

Примечания

Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.
Этой задачей занимается интеллектуальный анализ данных (data mining).
Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

См. также

Информация
Релевантность
База знаний
Онтология (информатика)
Управление данными
Компьютерная лингвистика
Представление знаний

Ссылки

Машинная обработка естественных языков: Apache UIMA
Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности.
Извлечение знаний из текстов на естественном языке для решения задач на сетевых моделях.
Протокол Z39.50: открытый доступ к библиографической информации. (недоступная ссылка с 13-05-2013 [4442 дня] — история)
Расширяемая платформа добычи текстов.
Активные индивидуальные методы извлечения знаний и данных
Автореферат диссертации Симакова К. В. на тему «Модели и методы извлечения знаний из текстов на естественном языке».
Модель извлечения фактов из естественно-языковых текстов и метод её обучения.

Иноязычные

Extracción informacion (Spanish site)
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
http://projects.ldc.upenn.edu/ace/ Архивная копия от 25 сентября 2013 на Wayback Machine ACE (LDC)
ACE (NIST)
http://lcl2.di.uniroma1.it (недоступная ссылка) — TermExtractor
TermFinder, on-line terminology extractor for EN, FR & IT — web application
Video tutorials, talks, lectures Videolectures.net
Automate Metadata Extraction for Corporate Search and Mashups (Apache UIMA)

[1] Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.

[2] Этой задачей занимается интеллектуальный анализ данных (data mining).

[3] Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

Извлечение информации

Примечания

См. также

Ссылки

NiNa.Az

Император Конин

Император Кобун

Император Коан

Император Когэн

Император Итоку