Извлечение информации
Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов . Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.
В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.
Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:
- MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
- MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
- MUC-5 (1993): Венчурные операции в области микроэлектроники.
- MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
- MUC-7 (1998): Отчёты о запусках спутников.
Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.
Типичные подзадачи извлечения информации:
- Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
- Разрешение анафоры и кореференций: поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
- Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).
- : выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.
Примечания
- Под обработкой данных может пониматься, помимо прочего, и просто накопление их в базе данных.
- Этой задачей занимается интеллектуальный анализ данных (data mining).
- Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.
См. также
- Информация
- Релевантность
- База знаний
- Онтология (информатика)
- Управление данными
- Компьютерная лингвистика
- Представление знаний
Ссылки
- Машинная обработка естественных языков: Apache UIMA
- Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности.
- Извлечение знаний из текстов на естественном языке для решения задач на сетевых моделях.
- Протокол Z39.50: открытый доступ к библиографической информации. (недоступная ссылка с 13-05-2013 [4442 дня] — история)
- Расширяемая платформа добычи текстов.
- Активные индивидуальные методы извлечения знаний и данных
- Автореферат диссертации Симакова К. В. на тему «Модели и методы извлечения знаний из текстов на естественном языке».
- Модель извлечения фактов из естественно-языковых текстов и метод её обучения.
Иноязычные
- Extracción informacion (Spanish site)
- http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
- http://projects.ldc.upenn.edu/ace/ Архивная копия от 25 сентября 2013 на Wayback Machine ACE (LDC)
- ACE (NIST)
- http://lcl2.di.uniroma1.it (недоступная ссылка) — TermExtractor
- TermFinder, on-line terminology extractor for EN, FR & IT — web application
- Video tutorials, talks, lectures Videolectures.net
- Automate Metadata Extraction for Corporate Search and Mashups (Apache UIMA)
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Извлечение информации, Что такое Извлечение информации? Что означает Извлечение информации?
Ne sleduet putat s Data Mining Izvlechenie informacii angl information extraction eto zadacha avtomaticheskogo izvlecheniya postroeniya strukturirovannyh dannyh iz nestrukturirovannyh ili slabostrukturirovannyh mashinochitaemyh dokumentov Izvlechenie informacii yavlyaetsya raznovidnostyu informacionnogo poiska svyazannogo s obrabotkoj teksta na estestvennom yazyke Primerom izvlecheniya informacii mozhet byt poisk delovyh vizitov formalno eto zapisyvaetsya tak NanesliVizit Kompaniya Kto Kompaniya Komu DataVizita iz novostnyh lent takih kak Vchera 1 aprelya 2007 goda predstaviteli korporacii Pepelac Interneshnl posetili ofis kompanii Gravicap Prodakshnz Glavnaya cel takogo preobrazovaniya vozmozhnost analiza iznachalno haotichnoj informacii s pomoshyu standartnyh metodov Bolee uzkoj celyu mozhet sluzhit naprimer zadacha vyyavit logicheskie zakonomernosti v opisannyh v tekste sobytiyah V sovremennyh informacionnyh tehnologiyah rol takoj procedury kak izvlechenie informacii vsyo bolshe vozrastaet iz za stremitelnogo uvelicheniya kolichestva nestrukturirovannoj bez metadannyh informacii v chastnosti v Internete Eta informaciya mozhet byt sdelana bolee strukturirovannoj posredstvom preobrazovaniya v relyacionnuyu formu ili dobavleniem XML razmetki Pri monitoringe novostnyh lent s pomoshyu intellektualnyh agentov kak raz i potrebuyutsya metody izvlecheniya informacii i preobrazovaniya eyo v takuyu formu s kotoroj budet udobnee rabotat pozzhe Tipichnaya zadacha izvlecheniya informacii proskanirovat nabor dokumentov napisannyh na estestvennom yazyke i napolnit bazu dannyh vydelennoj poleznoj informaciej Sovremennye podhody izvlecheniya informacii ispolzuyut metody obrabotki estestvennogo yazyka napravlennye lish na ochen ogranichennyj nabor tem voprosov problem chasto tolko na odnu temu Naprimer Konferenciya po Ponimaniyu soobshenij en Message Understanding Conference MUC eto konferenciya sorevnovatelnogo haraktera i v proshlom ona fokusirovalas na takih voprosah MUC 1 1987 MUC 2 1989 Voenno morskie operacii MUC 3 1991 MUC 4 1992 Terrorizm v latinoamerikanskih stranah MUC 5 1993 Venchurnye operacii v oblasti mikroelektroniki MUC 6 1995 Novostnye stati ob izmeneniyah v upravlyayushih processah MUC 7 1998 Otchyoty o zapuskah sputnikov Teksty na estestvennom yazyke mogut potrebovat nekoego predvaritelnogo preobrazovaniya na yazyk naprimer RDF Resource Description Framework ponyatnyj dlya kompyutera Tipichnye podzadachi izvlecheniya informacii Raspoznavanie imenovannyh elementov sushnostej naprimer imyon lyudej nazvanij organizacij geograficheskih nazvanij sobytij vremenny h i denezhnyh oboznachenij i pr Razreshenie anafory i koreferencij poisk svyazej otnosyashihsya k odnomu i tomu zhe obektu Tipichnyj sluchaj takih ssylok mestoimennaya anafora Vydelenie terminologii nahozhdenie dlya dannogo teksta klyuchevyh slov i slovosochetanij kollokacij vydelenie iz teksta smyslovoj emotivnoj ocenochnoj i pr informacii Byvaet generativnym i deklarativnym PrimechaniyaPod obrabotkoj dannyh mozhet ponimatsya pomimo prochego i prosto nakoplenie ih v baze dannyh Etoj zadachej zanimaetsya intellektualnyj analiz dannyh data mining Koncepciya razvitiya Interneta gde k kazhdomu dokumentu prisoedinyaetsya fajl s metadannymi v XML formate nazyvaetsya semanticheskoj pautinoj i schitaetsya ochen perspektivnoj no stoit otmetit eto ne to zhe samoe chto preobrazovanie samogo dokumenta Sm takzheInformaciya Relevantnost Baza znanij Ontologiya informatika Upravlenie dannymi Kompyuternaya lingvistika Predstavlenie znanijSsylkiMashinnaya obrabotka estestvennyh yazykov Apache UIMA Sistema izvlecheniya i poiska strukturirovannoj informacii iz bolshih tekstovyh massivov SMI Arhitekturnye i lingvisticheskie osobennosti Izvlechenie znanij iz tekstov na estestvennom yazyke dlya resheniya zadach na setevyh modelyah Protokol Z39 50 otkrytyj dostup k bibliograficheskoj informacii nedostupnaya ssylka s 13 05 2013 4442 dnya istoriya Rasshiryaemaya platforma dobychi tekstov Aktivnye individualnye metody izvlecheniya znanij i dannyh Avtoreferat dissertacii Simakova K V na temu Modeli i metody izvlecheniya znanij iz tekstov na estestvennom yazyke Model izvlecheniya faktov iz estestvenno yazykovyh tekstov i metod eyo obucheniya Inoyazychnye Extraccion informacion Spanish site http www itl nist gov iaui 894 02 related projects muc MUC http projects ldc upenn edu ace Arhivnaya kopiya ot 25 sentyabrya 2013 na Wayback Machine ACE LDC ACE NIST http lcl2 di uniroma1 it nedostupnaya ssylka TermExtractor TermFinder on line terminology extractor for EN FR amp IT web application Video tutorials talks lectures Videolectures net Automate Metadata Extraction for Corporate Search and Mashups Apache UIMA
