Извлечение знаний
Извлечение знаний (англ. knowledge extraction) — создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, англ. Natural language processing, NLP) и процессу «Извлечения, Преобразования, Загрузки» (англ. Extract, Transform, Load, ETL, для хранилищ данных), главный критерий результата — создание структурированной информации или преобразование в реляционную схему. Это требует либо преобразования существующего формального знания (повторного использования идентификаторов или онтологий), либо генерацией схемы, основанной на исходных данных.
Группа RDB2RDF W3C занимается стандартизацией языка для извлечения среды описания ресурса (англ. resource description frameworks, RDF) из реляционной базы данных. Другой популярный пример извлечения знаний — преобразование Википедии в структурированные данные и отображение в существующее знание (см. DBpedia и Freebase).
Обзор
После стандартизации языков представления знания, таких как «среда описания ресурса» (англ. Resource Description Framework, RDF) и «язык описания онтологий» (англ. Web Ontology Language, OWL), много исследований проводилось в этой области, особенно относительно преобразования реляционной базы данных в RDF, [англ.], обнаружения знаний и обучения онтологий. Основной процесс использует традиционные методы извлечения информации и методы «извлечения, преобразования и загрузка» (англ. extract, transform, load, ETL), которые преобразуют данные из исходных форматов в структурированные форматы.
Следующие критерии могут быть использованы для попыток категоризации в этой теме (некоторые из них обеспечивают извлечение знаний из реляционных баз данных):
| Источник | Какие данные могут быть обработаны: Текст, Реляционная база данных, XML, CSV |
|---|---|
| Представление | Как извлечённые данные могут быть представлены для использования (файл онтологии (объектной модели), семантическая база данных)? Как можно запрашивать информацию из полученного представления? |
| Синхронизация | Выполняется ли извлечение знания один раз для получения дампа или результат синхронизируется с источником? Извлечение статическое или динамическое? Записываются ли изменения в результате обратно в источник (двунаправленность)? |
| Повторное использование словаря | Позволяет ли средство извлечения повторное использование существующих словарей при извлечении. Например, столбец таблицы 'firstName' может быть отражён в столбец foaf: firstName. Некоторые автоматические подходы не способны к отображению словаря. |
| Автоматизация | Степень участия/автоматизации извлечения: Ручной режим, есть GUI, полуавтоматический, автоматический. |
| Необходимость объектной модели предметной области | Требуется ли наперёд заданная объектная модель для отображения в неё. Таким образом, либо отображение создаётся, либо схема получается из источника путём ([англ.]). |
Примеры
Связывание именованных сущностей
- DBpedia Spotlight, [англ.], Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст с помощью [англ.], а затем разрешения неоднозначностей путём [англ.] и связывания найденных сущностей в депозитарий знаний DBpedia (Dandelion dataTXT demo, или DBpedia Spotlight web demo, или PoolParty Extractor Demo).
Президент Обама призвал в среду Конгресс включить расширение налоговых каникул для студентов в пакет экономического стимулирования, утверждая, что эта политика даст более крепкую поддержку.
- Так как Президент Обама связан в DBpedia с ресурсом LinkedData, дальнейшая информация может быть извлечена автоматически и Семантический механизм рассуждений может, например, сделать вывод, что упомянутая сущность является неким типом личности (используя FOAF) и президентом США (используя [англ.]). Контрпримеры: Методы, которые только распознают сущности и не связывают со статьями в Википедии или другими объектами, не обеспечивают извлечение дальнейших структурированных данных и формального знания.
Преобразование реляционной базы данных в RDF
- Triplify, D2R Server, Ultrawrap и [англ.] прредставления RDF являются средствами, которые преобразуют реляционную базу данных в RDF. В течение это процесса эти средства позволяют повторное использование словарей и онтологии в процессе преобразования. Когда преобразуется типичная реляционная таблица с названием users, один столбец (например, name) или группа столбцов (например, first_name и last_name) должны обеспечивать унифицированный идентификатор создаваемой сущности. Обычно используется главный ключ. Любой другой столбец может быть извлечён как связанный с этой сущностью. Затем используются (и повторно используются) свойства с формально определённой семантикой для интерпретации информации. Например, столбец таблицы user, названный marriedTo (женат на/замужем за) может быть определён как семантическое отношение, а столбец homepage (домашняя страница) может быть преобразован в свойство из словаря FOAF с названием foaf: homepage, тем самым квалифицируя его как обратную функциональность. Тогда каждый вход таблицы user может быть сделан экземпляром класса foaf:Person (онтология Население). Кроме того, предметная область (в виде онтологии) может быть создана из status_id путём вручную созданных правил (если status_id равен 2, строка таблицы принадлежит классу Учитель) или (полу-)автоматическими методами ([англ.]). Ниже приведён пример преобразования:
| Name | marriedTo | homepage | status_id |
|---|---|---|---|
| Peter | Mary | http://example.org/Peters_page (недоступная ссылка) | 1 |
| Claus | Eva | http://example.org/Claus_page (недоступная ссылка) | 2 |
:Peter :marriedTo :Mary . :marriedTo OWL:SymmetricProperty . :Peter foaf:homepage <http://example.org/Peters_page> . :Peter foaf:Person (Физическое лицо). :Peter :Student (Студент). :Claus :Teacher (Учитель). Извлечение из структурированных источников в RDF
Отображение 1:1 из таблиц/представлений реляционной базы данных в RDF сущности/атрибуты/значения
При построении представления реляционной базы данных (РБД, англ. relational database) стартовой точкой часто служит диаграмма сущность-связь (англ. entity-relationship diagram, ERD). Обычно каждая сущность представлена как таблица базы данных, каждое свойство сущности становится столбцом в этой таблице, а связь между сущностями показывается внешними ключами. Каждая таблица обычно определяет конкретный класс сущностей, а каждый столбец определяет одно из свойств этой сущности. Каждая строка в таблице описывает экземпляр сущности, однозначно определённый главным ключом. Строки таблицы вместе описывают набор сущностей. В эквивалентном RDF представлении того же набора сущности:
- Каждый столбец в таблице является свойством (то есть предикатом)
- Каждое значение в столбце является свойством атрибута (то есть является объектом)
- Каждый ключ строки представляет ID сущности (то есть субъектом)
- Каждая строка представляет экземпляр сущности
- Каждая строка (экземпляр сущности) представляется в RDF коллекцией кортежей с общим субъектом (ID сущности).
Таким образом, чтобы выразить эквивалентное представление, основанное на семантике RDF, базовый алгоритм будет выглядеть следующим образом:
- создаём схему RDF (RDFS) класса для каждой таблицы
- преобразуем все главные ключи и внешние ключи в IRI идентификаторы
- назначаем IRI предикат каждому столбцу
- назначаем rdf: type предикат каждой строке, связывая его с IRI идентификатором RDFS класса
- Для каждого столбца, не являющегося ни частью главного ключа, ни частью внешнего ключа, строим тройку, содержащую IRI главного ключа в качестве субъекта (подлежащего), IRI столбца в качестве предиката и значения столбца в качестве объекта.
Раннее упоминание базового или прямого отображения можно найти в сравнении Тимом Бернерсом-Ли ER-модели с RDF моделью.
Сложные отображения реляционных баз данных в RDF
1:1 отображение, упомянутое выше представляет старые данные как RDF напрямую, а дополнительная доработка может быть использована для улучшения полноценности вывода RDF соответственно заданному сценарию использования. Как правило, информация теряется в течение преобразования диаграммы сущность-связь (англ. entity-relationship diagram, ERD) в реляционные таблицы (детальное описание можно найти в статье «[англ.]») и должна быть восстановлена путём обратного проектирования. С концептуальной точки зрения подходы для извлечения могут прийти с двух направлений. Первое направление пытается извлечь или обучить (с помощью машинного обучения) OWL схему из заданной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил отображения для улучшения 1:1 отображения. Более тщательно разработанные методы использовали эвристические или обучающие алгоритмы для порождения схематической информации (методы частично совпадают с [англ.]). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей SQL схеме (анализируя, например, внешние ключи), другие подходы анализируют содержимое и значения в таблицах для создания концептуальных иерархий (например, столбцы с малым числом значений являются кандидатами стать категориями). Второе направление пытается отобразить схему и её содержимое в существующую онтологию предметной области (см. также «Отображение онтологий»). Часто, однако, подходящая онтология предметной области не существует и её сначала следует создать.
XML
Поскольку XML структурирован в виде дерева, любые данные легко представить в формате RDF, который структурирован в виде графа. XML2 RDF является одним примером подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Случай, однако, более сложен, чем в случае реляционных баз данных. В реляционных таблицах главный ключ является идеальным кандидатом для субъекта выделенных троек. XML элемент, однако, может быть преобразован — в зависимости о контекста — как субъект, как предикат или как объект тройки. XSLT может быть использован как стандартный язык преобразования для ручного преобразования XML в RDF.
Обзор методов / средств
| Название | Источник данных | Представление результата | Синхронизация данных | Язык отображения | Повторное исполь- зование словаря | Автома- тизация отобра- жения | Требуется онтология области | Исполь- зование GUI |
|---|---|---|---|---|---|---|---|---|
| Прямое отображение реляционных данных в RDF | Реляционные данные | SPARQL/ETL | динамическая | нет | автомати- ческая | нет | нет | |
| CSV2RDF4LOD | CSV | ETL | статическая | RDF | да | ручная | нет | нет |
| Convert2RDF | Текстовый файл с разделителями | ETL | статическая | RDF/DAML | да | ручная | нет | да |
| D2R Server Архивная копия от 26 февраля 2012 на Wayback Machine | РБД | SPARQL | двунаправленная | D2R Map | да | ручная | нет | нет |
| DartGrid | РБД | Язык запросов OWL | динамическая | Визуальные средства | да | ручная | нет | да |
| DataMaster | РБД | ETL | статическая | собственный | да | ручной | да | да |
| Расширение Google Refine’s RDF | CSV, XML | ETL | статическая | отсутствует | полуавто- матическая | нет | да | |
| Krextor | XML | ETL | статическая | XSLT | да | ручная | да | нет |
| MAPONTO | РБД | ETL | статическая | собственный | да | ручная | да | нет |
| METAmorphoses | РБД | ETL | статическая | собственный язык, базирующийся на xml отображении | да | ручная | нет | да |
| MappingMaster | CSV | ETL | статическая | MappingMaster | да | GUI | нет | да |
| ODEMapster | РБД | ETL | статическая | собственная | да | ручная | да | да |
| OntoWiki CSV Importer Plug-in — DataCube & Tabular | CSV | ETL | статическая | RDF Data Cube Vocaublary | да | полуавто- матическая | нет | да |
| Poolparty Extraktor (PPX) | XML, Text | LinkedData | динамическая | RDF (SKOS) | да | полуавто- матическая | да | нет |
| RDBToOnto | РБД | ETL | статическая | отсутствует | нет | автомати- ческая, пользователь имеет шанс тонкой настройки результата | нет | да |
| RDF 123 | CSV | ETL | статическая | нет | нет | ручная | нет | да |
| RDOTE | РБД | ETL | статическая | SQL | да | ручная | да | да |
| Relational.OWL | РБД | ETL | статическая | отсутствует | нет | автомати- ческая | нет | нет |
| T2LD | CSV | ETL | статическая | нет | нет | автомати- ческая | нет | нет |
| RDF-словарь [англ.] (англ. RDF Data Cube Vocabulary) | Многомерные статистические данные в электронных таблицах | словарь Куба данных | да | ручная | нет | |||
| TopBraid Composer | CSV | ETL | статическая | SKOS | нет | полуавто- матическая | нет | да |
| Triplify | РБД | LinkedData | динамическая | SQL | да | ручная | нет | нет |
| Ultrawrap | РБД | SPARQL/ ETL | динамическая | да | полуавто- матическая | нет | да | |
| Virtuoso RDF Views | РБД | SPARQL | динамическая | Meta Schema Language | да | полуавто- матическая | нет | да |
| Virtuoso Sponger | структури- рованные и полуструкту- рированные источники данных | SPARQL | динамическая | Virtuoso PL & XSLT | да | полуавто- матическая | нет | нет |
| VisAVis | РБД | RDQL | ручная | SQL | да | ручная | да | да |
| XLWrap: Spreadsheet to RDF | CSV | ETL | статическая | TriG Syntax | да | ручная | нет | нет |
| XML в RDF | XML | ETL | статическая | нет | нет | автомати- ческая | нет | нет |
Извлечение из естественного языкового источника
Наибольшая порция информации, содержащаяся в бизнес-документе (около 80 %), закодирована в естественном языке и потому не структурирована. Поскольку неструктурированные данные является, скорее, сложной задачей для извлечения знания, требуются более изощрённые методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность приобрести огромное количество извлечённых знаний компенсирует увеличивающуюся сложность и ухудшающееся качество извлечения. Далее источники на естественном языке понимаются как источники информации, в которых данные приведены как неструктурированные текстовые данные. Если данный текст вставлен в документ с разметкой (например, HTML-документ), упомянутые системы обычно удаляют элементы разметки автоматически.
Традиционное извлечение информации
Традиционное извлечение информации (англ. information extraction, IE) — это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды информации, которые следует извлечь, должны быть указаны в модели перед началом процесса обработки, вот почему весь процесс традиционного извлечения информации зависим от рассматриваемой предметной области. ИЗ (англ. IE) распадается на следующие пять подзадач.
- [англ.] (англ. Named entity recognition, NER)
- Разрешение кореференции(англ. Coreference resolution, CO)
- Построение элементов шаблона (ПЭ, англ. Template element construction, TE) (или Добавление атрибутов к сущностям)
- Выявление связей между сущностями (ВС, англ. Template relation construction, TR)
- Построение полного описания события (ППО, англ. Template scenario production, ST)
Задача распознавания именованных сущностей заключается в узнавании и категоризации всех именованных сущностей, содержащихся в тексте (назначение именованным сущностям предопределённые категории). Это работает путём применения методов, основанных на грамматике, или на статистических моделях.
Разрешение кореференции устанавливает эквивалентные сущности, которые были распознаны в тексте алгоритмом NER. Есть два связанных вида отношения эквавалентности. Первое отношение относится к связи между двумя различными сущностями (например, IBM Europe и IBM), а второе относится к связи между сущностью и её анафорической ссылкой (например, it и IBM). Оба вида могут быть распознаны разрешением кореференции.
Во время построения элементов шаблона система IE устанавливает описательные свойства сущностей, распознанные системами NER и CO. Эти свойства соответствуют обычным качествам, как «красный» или «большой».
Выявление связей между отдельными сущностями устанавливает отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, такие как работает-для или расположено-в, с ограничением, что как область, так и диапазон соответствуют сущностям.
Полные описания событий, которые проводятся в тексте, распознаются и структурируются согласно сущностям, распознанных системами NER и CO, а отношения распознаются системой ВС.
Извлечение информации на основе онтологий
Извлечение информации на основе онтологий (англ. Ontology-based information extraction, OBIE) является подобластью извлечения информации, в которой используется по меньшей мере одна онтология для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для распознавания понятий, сущностей и отношений использованных онтологий в тексте, которые будут структурированы в онтологию после процесса. Таким образом, вводимые онтологии формируют модель извлекаемой информации.
Обучение онтологий
Обучение онтологий (англ. Ontology learning, OL) это автоматическое или полуавтоматическое создание онтологий, включая извлечение соответствующих терминов объектной области из текста естественного языка. Так как построение онтологий вручную требует крайне интенсивной работы и затрат времени, существует большой стимул для автоматизации процесса.
Семантическое аннотирование
Во время семантического аннотирования (англ. semantic annotation, SA) текст на естественном языке сопровождается метаданными (часто представимы в [англ.], англ. Resource Description Framework in Attributes), которые должны сделать семантику содержащихся элементов понимаемыми машинами. В этом процессе, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими элементами и, например, понятиями из онтологий. Таким образом получаем знания, которые открывают значение сущности в обрабатываемом контексте, а потому определяет значение текста в [англ.] с возможностью делать логические выводы. Семантическая аннотация обычно расщепляется на следующие две подзадачи.
- Извлечение терминологии
- Связывание именованных сущностей
На уровне извлечения терминологии из текста извлекаются лексические термины. С этой целью лексический анализатор сначала определяет границы слов и выделяет аббревиатуры. Затем из текста извлекаются термины, которые соответствуют понятиям, с помощью словаря специфичных области исследования для связывания сущностей.
При связывании сущностей устанавливается связь между извлечёнными лексическими членами из текста-источника и понятиями из онтологии или базы знаний, такой как DBpedia. Для этого кандидаты в понятия выявляются согласно определённым значениям элемента с помощью словаря. Наконец, анализируется контекст терминов для определения наиболее подходящего разрешения многозначности и термину назначается правильное понятие.
Средства
Следующие критерии могут быть использованы для категоризации средств, которые извлекают знание из текстов на естественном языке.
| Источник | Какие входные форматы могут быть обработаны (простой текст, HTML или PDF, например)? |
| Парадигма доступа | Может ли средство запросить часть данных из источника или необходим полный дамп для процесса извлечения? |
| Синхронизация данных | Синхронизирован ли результат извлечения с источником? |
| Использование объектной модели | Связывает ли средство результат с объектной моделью? |
| Автоматизация отображения | Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)? |
| Требование объектной модели | Требует ли средство наличия объектной модели для извлечения? |
| Использование GUI | Имеет ли средство графический пользовательский интерфейс (англ. Graphical User Interface, GUI)? |
| Подход | Какой подход (IE, OBIE, OL или SA) средство использует? |
| Извлекаемые сущности | Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены средством? |
| Применяемые техники | Какие техники применяются (например, NLP, статистические методы, кластеризация или машинное обучение)? |
| Выходная модель | Какая модель используется для представления результата средства (например, RDF или OWL)? |
| Поддерживаемые предметные области | Какие предметные области поддерживаются (например, экономика или биология)? |
| Поддерживаемые языки | Какие языки могут быть обработаны (например, английский, немецкий или русский)? |
Следующая таблица описывает некоторые средства для извлечения знаний из источников естественного языка.
| Название | Источник | Парадигма доступа | Синхронизация данных | Использование объектной модели | Автоматизация отображения | Требование объектной модели | Использование GUI | Подход | Извлекаемые сущности | Применяемые техники | Выходная модель | Поддерживаемые области | Поддерживаемые языки |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AeroText | текстовые данные, HTML, XML, SGML | дамп | нет | да | автоматическое | да | да | IE | именованные сущности, связи, события | лингвинистические правила | собственная | не зависит от области | английский, испанский, арабский, китайский, индонезийский |
| AlchemyAPI | текстовые данные, HTML | автоматическое | да | SA | многоязычный | ||||||||
| ANNIE | текстовые данные | дамп | да | да | IE | алгоритмы конечного автомата | многоязычный | ||||||
| ASIUM (LRI) | текстовые данные | дамп | полуавтомат | да | OL | понятия, иерархия понятий | NLP, кластеризация | ||||||
| Exhaustive Extraction компании [англ.] | автоматическое | IE | именованные сущности, связи, события | NLP | |||||||||
| Dandelion API | текстовые данные, HTML, URL | REST | нет | нет | автоматически | нет | да | SA | именованные сущности, понятия | статистические методы | JSON | не зависит от области | многоязычный |
| DBpedia Spotlight | текстовые данные, HTML | дамп, SPARQL | да | да | автоматическое | нет | да | SA | annotation to each word, annotation to non-stopwords | NLP, statistical methods, машинное обучение | RDFa | не зависит от области | английский |
| EntityClassifier.eu | текстовые данные, HTML | дамп | да | да | автоматическое | нет | да | IE, OL, SA | annotation to each word, annotation to non-stopwords | rule-based grammar | XML | не зависит от области | английский, немецкий, голландский |
| FRED | текстовые данные | дамп, REST API | да | да | автоматическое | нет | да | IE, OL, SA, онтологические шаблоны проектирования, семантика фреймов | слова NIF или EarMark аннотация, предикаты, экземпляры, композиционная семантика, понятия таксономий, семантические роли, описательные отношения, события, наклонение, грамматическое время, связывание именованных сущностей, связывание событий, эмоции | NLP, машинное обучение, heuristic rules | RDF / OWL | не зависит от области | английский, другие языки после перевода |
| iDocument | HTML, PDF, DOC | SPARQL | да | да | OBIE | instances, property values | NLP | personal, business | |||||
| NetOwl Extractor | текстовые данные, HTML, XML, SGML, PDF, MS Office | дамп | нет | да | автоматически | да | да | IE | именованные сущности, связи, события | NLP | XML, JSON, RDF — OWL, others | множественные области | английский, арабский, китайский (упрощённый и традийионный), французский, корейский, персидский (фарси и дари), русский, испанский |
| OntoGen Архивная копия от 30 марта 2010 на Wayback Machine | полуавтомат | да | OL | понятия, иерархия понятий, non-taxonomic отношения, instances | NLP, машинное обучение, кластеризация | ||||||||
| OntoLearn Архивная копия от 9 августа 2017 на Wayback Machine | текстовые данные, HTML | дамп | нет | да | автоматически | да | нет | OL | понятия, иерархия понятий, instances | NLP, statistical methods | собственная | не зависит от области | английский |
| OntoLearn Reloaded | текстовые данные, HTML | дамп | нет | да | автоматически | да | нет | OL | понятия, иерархия понятий, instances | NLP, statistical methods | собственная | не зависит от области | английский |
| OntoSyphon | HTML, PDF, DOC | дамп, search engine queries | нет | да | автоматически | да | нет | OBIE | понятия, отношения, instances | NLP, statistical methods | RDF | не зависит от области | английский |
| ontoX | текстовые данные | дамп | нет | да | полуавтоматически | да | нет | OBIE | instances, datatype property values | heuristic-based methods | собственная | не зависит от области | не зависит от языка |
| OpenCalais | текстовые данные, HTML, XML | дамп | нет | да | автоматически | да | нет | SA | annotation to entities, annotation to события, annotation to facts | NLP, машинное обучение | RDF | не зависит от области | английский, французский, испанский |
| PoolParty Extractor (2011) | текстовые данные, HTML, DOC, ODT | дамп | нет | да | автоматически | да | да | OBIE | именованные сущности, понятия, отношения, понятия, that categorize the text, enrichments | NLP, машинное обучение, статистические методы | RDF, OWL | не зависит от области | английский, немецкий, испанский, французский |
| Rosoka | текстовые данные, HTML, XML, SGML, PDF, MS Office | дамп | да | да | автоматически | нет | да | IE | извлечение именованных сущностей, разрешение сущностей, извлечение связей, атрибутов, понятий, мультивекторный анализ тональности высказывания, геопривязка, идентификация языка, машинное обучение | NLP | XML, JSON, POJO | множественные области | многоязычный (200+ язык) |
| SCOOBIE | текстовые данные, HTML | дамп | нет | да | автоматически | нет | нет | OBIE | instances, property values, RDFS types | NLP, машинное обучение | RDF, RDFa | не зависит от области | английский, немецкий |
| SemTag | HTML | дамп | нет | да | автоматически | да | нет | SA | машинное обучение | database record | не зависит от области | не зависит от языка | |
| smart FIX | текстовые данные, HTML, PDF, DOC, e-Mail | дамп | да | нет | автоматически | нет | да | OBIE | именованные сущности | NLP, машинное обучение | собственная | не зависит от области | английский, немецкий, французский, голландский, польский |
| Text2Onto | текстовые данные, HTML, PDF | дамп | да | нет | полуавтоматически | да | да | OL | понятия, концепция понятий, non-taxonomic отношения, instances, axioms | NLP, статистические методы, машинное обучение, rule-based methods | OWL | не зависит от области | английский, немецкий, испанский |
| Text-To-Onto | текстовые данные, HTML, PDF, PostScript | дамп | полуавтоматически | да | да | OL | понятия, иерархия понятий, non-taxonomic отношения, lexical entities referring понятиям, lexical entities referring to отношения | NLP, машинное обучение, кластеризация, статистические методы | немецкий | ||||
| ThatNeedle | Текстовые данные | дамп | автоматически | нет | понятия, отношения, hierarchy | NLP, собственная | JSON | множественные области | английский | ||||
| The Wiki Machine | текстовые данные, HTML, PDF, DOC | дамп | нет | да | автоматически | да | да | SA | маркировка имен собственных, маркировка имён нарицательных | машинное обучение | RDFa | независимый от области | английский, немецкий, испанский, французский, португальский, итальянский, русский |
| ThingFinder | IE | именованные сущности, связи, события | многоязычный |
Обнаружение знаний
Обнаружение знаний описывает процесс автоматического поиска больших объёмов данных для моделей, которые могут считаться знанием о данных. Это часто описывается как извлечение знания из входных данных. Обнаружение знаний разрабатывается для анализа данных и тесно связано как с методологией, так и терминологией.
Наиболее известная ветвь интеллектуального анализа данных — обнаружение знаний, известное также как обнаружение знаний в базах данных. Как и многие другие формы обнаружения знаний, этот анализ создаёт абстракции входных данных. Знание, приобретённое в результате этого процесса, может стать дополнительными данными, которые могут быть использованы для дальнейшего использования и поисков. Часто выходные данные процесса обнаружения знаний не имеет практической ценности, так что [англ.], известное также как «[англ.]», предназначено для обнаружения и извлечения (имеющего практическое значение) активного знания и выводов из этого знания.
Другое перспективное приложение обнаружения знаний находится в области [англ.], обнаружения слабых мест и соответствия стандартам, которое вовлекает понимание существующего программного обеспечения. Этот процесс связан с понятием обратной разработки. Обычно знание, получаемое из существующего программного обеспечения, представляется в виде моделей, к которым могут быть сделаны конкретные запросы, если необходимо. Модель сущность — связь является частым форматом, представляющим знание и получаемым из существующего программного обеспечения. Консорциум Object Management Group разработал спецификацию [англ.] (англ. Knowledge Discovery Metamodel, KDM), которая определяет онтологию для программных ресурсов и их связей, предназначенную для обнаружения знаний в существующем коде. Обнаружение знаний из известных программных систем, известное также как [англ.], тесно связано с интеллектуальным анализом данных, поскольку существующие программные находки имеют огромное значение для управления рисками и [англ.], которые служат ключевыми элементами для анализа и развития программных систем. Вместо анализа индивидуальных наборов данных [англ.] фокусируется на метаданных, таких как производственный поток (например, поток данных, поток управления, схема вызовов), архитектуре, схемах баз данных и деловых правилах/терминах/процессах.
Ввод данных
- Базы данных
- [англ.]
- База данных
- [англ.]
- Хранилище данных
- [англ.]
- Исходный код
- Конфигурационные файлы
- Скрипты сборки
- Текст
- [англ.]
- [англ.]
- [англ.]
- [англ.]
- [англ.]
- [англ.]
- Web
Форматы вывода
- Модель данных
- Метаданные
- Метамодели
- Онтология
- Представление знаний
- Тег (метаданные)
- [англ.]
- [англ.]
- Нотация и модель бизнес-процессов
- Промежуточное представление
- Среда описания ресурса
- Метрики программного обеспечения
См. также
- Кластерный анализ
- Археология данных
Примечания
- RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/ Архивная копия от 11 мая 2016 на Wayback Machine, charter: http://www.w3.org/2009/08/rdb2rdf-charter Архивная копия от 20 марта 2016 на Wayback Machine, R2RML: RDB в RDF Mapping Language: http://www.w3.org/TR/r2rml/ Архивная копия от 10 октября 2021 на Wayback Machine
- LOD2 EU (недоступная ссылка) Deliverable 3.1.1 Knowledge Extraction from Structured Sources
- Calais Release 4, 2009.
- Berners-Lee, 1998.
- Hu, Qu, 2007, с. 225‐238.
- Ghawi, Cullot, 2007.
- Li, Du, Wang, 2005, с. 209—220.
- Tirmizi, Miranker, Sequeda, 2008.
- Cerbah, 2008.
- RDQL = RDF Query Language
- Wimalasuriya, Dou, 2010, с. 306 – 323.
- Не путать с MS IE = Интернет эксплорер компании Микрософт!
- Cunningham, 2005, с. 665–677.
- Erdmann, Maedche, Schnurr, Staab, 2000.
- Rao, McNamee, Dredze, 2011, с. 93—115.
- Rocket Software, Inc. (2012). «technology for extracting intelligence from text»
- Orchestr8 (2012): «AlchemyAPI Overview»
- The University of Sheffield (2011). «ANNIE: a Nearly-New Information Extraction System»
- Mendes, Jakob, Garcia-Sílva, Bizer, 2011, с. 1 – 8.
- Gangemi, Presutti, Recupero и др., 2016.
- Adrian, Maus, Dengel, 2009.
- SRA International, Inc. (2012). «NetOwl Extractor»
- Fortuna, Grobelnik, Mladenic, 2007, с. 309–318.
- Missikoff, Navigli, Velardi, 2002, с. 60 – 63.
- McDowell, Cafarella, 2006, с. 428 – 444.
- Yildiz, Miksch, 2007, с. 660 – 673.
- Dill, Eiron, Gibson и др., 2003, с. 178 – 186.
- Uren, Cimiano, Iria и др., 2006, с. 14 – 28.
- Cimiano, Völker, 2005.
- Maedche, Volz, 2001.
- Machine Linking. «We connect to the Linked Open Data cloud»
- Inxight ThingFinder and ThingFinder Professional. Inxight Federal Systems (2008). Дата обращения: 18 июня 2012. Архивировано из оригинала 29 июня 2012 года.
- Frawley, Piatetsky-Shapiro, Matheus, 1992, с. 57—70.
- Fayyad, Piatetsky-Shapiro, Smyth, 1996, с. 37—54.
- Cao, 2010, с. 755–769.
Литература
- Cao L. Domain driven data mining: challenges and prospects // IEEE Trans. on Knowledge and Data Engineering. — 2010. — Т. 22, вып. 6. — doi:10.1109/tkde.2010.32.
- Life in the Linked Data Cloud // www.opencalais.com. — 2009. Архивировано 24 ноября 2009 года. Выдержка: Википедия имеет двойника с именем DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но преобразованную в понимаемый машинами формат.
- Benjamin Adrian, Heiko Maus, Andreas Dengel. iDocument: Using Ontologies for Extracting Information from Text. — 2009.
- William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus. Knowledge Discovery in Databases: An Overview // AI Magazine. — 1992. — Т. 13, № 3. — С. 57—70. Архивировано 4 марта 2016 года.
- Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. From Data Mining to Knowledge Discovery in Databases // AI Magazine. — 1996. — Т. 17, № 3. — С. 37—54. Архивировано 4 мая 2016 года.
- Tim Berners-Lee. Relational Databases on the Semantic Web. — 1998.
- Farid Cerbah. Learning Highly Structured Semantic Repositories from Relational Databases // The Semantic Web: Research and Applications. — Berlin / Heidelberg: Springer, 2008. — Т. 5021. — (Lecture Notes in Computer Science). Архивная копия от 20 июля 2011 на Wayback Machine
- Syed Hamid Tirmizi, Daniel P. Miranker, Juan Sequeda. Translating SQL Applications to the Semantic Web // Database and Expert Systems Applications. — 2008. — Т. 5181/2008. — (Lecture Notes in Computer Science).
- Wei Hu, Yuzhong Qu. Discovering Simple Mappings Between Relational Database Schemas and Ontologies // Proc. of 6th International Semantic Web Conference (ISWC 2007), 2nd Asian Semantic Web Conference (ASWC 2007). — Busan, Korea, 11‐15 November 2007, 2007. — Т. 4825. — С. 225‐238. — (Lecture Notes in Computer Science).
- Ghawi R., Cullot N. Database-to-Ontology Mapping Generation for Semantic Interoperability // Third International Workshop on Database Interoperability (InterDB 2007).. — 2007.
- Man Li, Xiaoyong Du, Shan Wang. A Semi-automatic Ontology Acquisition Method for the Semantic Web // WAIM. — Springer, 2005. — Т. 3739. — С. 209—220. — (Lecture Notes in Computer Science). — doi:10.1007/11563952_19.
- Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, Misael Mongiovì. Semantic Web Machine Reading with FRED // Semantic Web Journal. — 2016. — doi:10.3233/SW-160240.
- Philipp Cimiano, Johanna Völker. Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery // Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems. — 2005. — Т. 3513. — С. 227 – 238.
- Hamish Cunningham. Information Extraction, Automatic // Encyclopedia of Language and Linguistics. — 2005. — С. 665 – 677.
- Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, R. Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John A. Tomlin, Jason Y. Zien. SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation // Proceedings of the 12th international conference on World Wide Web. — 2003. — С. 178 – 186.
- Erdmann M., Maedche A., Schnurr H.-P., Staab S. From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools // Proceedings of the COLING. — 2000.
- Blaz Fortuna, Marko Grobelnik, Dunja Mladenic. OntoGen: Semi-automatic Ontology Editor // Proceedings of the 2007 conference on Human interface, Part 2. — 2007. — С. 309 – 318.
- Alexander Maedche, Raphael Volz. The Ontology Extraction & Maintenance Framework Text-To-Onto // Proceedings of the IEEE International Conference on Data Mining. — 2001.
- Luke K. McDowell, Michael Cafarella. Ontology-driven Information Extraction with OntoSyphon // Proceedings of the 5th international conference on The Semantic Web. — 2006. — С. 428 – 444.
- Pablo N. Mendes, Max Jakob, Andrés Garcia-Sílva, Christian Bizer. DBpedia Spotlight: Shedding Light on the Web of Documents // Proceedings of the 7th International Conference on Semantic Systems. — 2011. — С. 1 – 8. Архивная копия от 5 апреля 2012 на Wayback Machine
- Delip Rao, Paul McNamee, Mark Dredze. Entity Linking: Finding Extracted Entities in a Knowledge Base // Multi-source, Multi-lingual Information Extraction and Summarization. — 2011. (недоступная ссылка)
- Victoria Uren, Philipp Cimiano, José Iria, Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna. Semantic annotation for knowledge management: Requirements and a survey of the state of the art // Web Semantics: Science, Services and Agents on the World Wide Web. — 2006. — Т. 4, вып. 1. — С. 14 – 28. (недоступная ссылка)
- Daya C. Wimalasuriya, Dejing Dou. Ontology-based information extraction: An introduction and a survey of current approaches // Journal of Information Science. — 2010. — Т. 36, вып. 3. — С. 306 – 323.
- Burcu Yildiz, Silvia Miksch. ontoX - A Method for Ontology-Driven Information Extraction // Proceedings of the 2007 international conference on Computational science and its applications. — 2007. — Т. 3. — С. 660 – 673.
У этой статьи есть несколько проблем, помогите их исправить: |
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Извлечение знаний, Что такое Извлечение знаний? Что означает Извлечение знаний?
Izvlechenie znanij angl knowledge extraction sozdanie znanij iz strukturirovannyh relyacionnyh baz dannyh XML i nestrukturirovannyh istochnikov teksty dokumenty izobrazheniya Poluchennoe znanie dolzhno imet format pozvolyayushij kompyuternyj vvod i dolzhno predstavlyat znaniya tak chtoby oblegchit logicheskie vyvody Hotya po metodike process podoben izvlecheniyu informacii obrabotke estestvennogo yazyka angl Natural language processing NLP i processu Izvlecheniya Preobrazovaniya Zagruzki angl Extract Transform Load ETL dlya hranilish dannyh glavnyj kriterij rezultata sozdanie strukturirovannoj informacii ili preobrazovanie v relyacionnuyu shemu Eto trebuet libo preobrazovaniya sushestvuyushego formalnogo znaniya povtornogo ispolzovaniya identifikatorov ili ontologij libo generaciej shemy osnovannoj na ishodnyh dannyh Gruppa RDB2RDF W3C zanimaetsya standartizaciej yazyka dlya izvlecheniya sredy opisaniya resursa angl resource description frameworks RDF iz relyacionnoj bazy dannyh Drugoj populyarnyj primer izvlecheniya znanij preobrazovanie Vikipedii v strukturirovannye dannye i otobrazhenie v sushestvuyushee znanie sm DBpedia i Freebase ObzorPosle standartizacii yazykov predstavleniya znaniya takih kak sreda opisaniya resursa angl Resource Description Framework RDF i yazyk opisaniya ontologij angl Web Ontology Language OWL mnogo issledovanij provodilos v etoj oblasti osobenno otnositelno preobrazovaniya relyacionnoj bazy dannyh v RDF angl obnaruzheniya znanij i obucheniya ontologij Osnovnoj process ispolzuet tradicionnye metody izvlecheniya informacii i metody izvlecheniya preobrazovaniya i zagruzka angl extract transform load ETL kotorye preobrazuyut dannye iz ishodnyh formatov v strukturirovannye formaty Sleduyushie kriterii mogut byt ispolzovany dlya popytok kategorizacii v etoj teme nekotorye iz nih obespechivayut izvlechenie znanij iz relyacionnyh baz dannyh Istochnik Kakie dannye mogut byt obrabotany Tekst Relyacionnaya baza dannyh XML CSVPredstavlenie Kak izvlechyonnye dannye mogut byt predstavleny dlya ispolzovaniya fajl ontologii obektnoj modeli semanticheskaya baza dannyh Kak mozhno zaprashivat informaciyu iz poluchennogo predstavleniya Sinhronizaciya Vypolnyaetsya li izvlechenie znaniya odin raz dlya polucheniya dampa ili rezultat sinhroniziruetsya s istochnikom Izvlechenie staticheskoe ili dinamicheskoe Zapisyvayutsya li izmeneniya v rezultate obratno v istochnik dvunapravlennost Povtornoe ispolzovanie slovarya Pozvolyaet li sredstvo izvlecheniya povtornoe ispolzovanie sushestvuyushih slovarej pri izvlechenii Naprimer stolbec tablicy firstName mozhet byt otrazhyon v stolbec foaf firstName Nekotorye avtomaticheskie podhody ne sposobny k otobrazheniyu slovarya Avtomatizaciya Stepen uchastiya avtomatizacii izvlecheniya Ruchnoj rezhim est GUI poluavtomaticheskij avtomaticheskij Neobhodimost obektnoj modeli predmetnoj oblasti Trebuetsya li naperyod zadannaya obektnaya model dlya otobrazheniya v neyo Takim obrazom libo otobrazhenie sozdayotsya libo shema poluchaetsya iz istochnika putyom angl PrimerySvyazyvanie imenovannyh sushnostej DBpedia Spotlight angl Dandelion dataTXT Zemanta API Extractiv i PoolParty Extractor analiziruyut proizvolnyj tekst s pomoshyu angl a zatem razresheniya neodnoznachnostej putyom angl i svyazyvaniya najdennyh sushnostej v depozitarij znanij DBpedia Dandelion dataTXT demo ili DBpedia Spotlight web demo ili PoolParty Extractor Demo Prezident Obama prizval v sredu Kongress vklyuchit rasshirenie nalogovyh kanikul dlya studentov v paket ekonomicheskogo stimulirovaniya utverzhdaya chto eta politika dast bolee krepkuyu podderzhku Tak kak Prezident Obama svyazan v DBpedia s resursom LinkedData dalnejshaya informaciya mozhet byt izvlechena avtomaticheski i Semanticheskij mehanizm rassuzhdenij mozhet naprimer sdelat vyvod chto upomyanutaya sushnost yavlyaetsya nekim tipom lichnosti ispolzuya FOAF i prezidentom SShA ispolzuya angl Kontrprimery Metody kotorye tolko raspoznayut sushnosti i ne svyazyvayut so statyami v Vikipedii ili drugimi obektami ne obespechivayut izvlechenie dalnejshih strukturirovannyh dannyh i formalnogo znaniya Preobrazovanie relyacionnoj bazy dannyh v RDF Triplify D2R Server Ultrawrap i angl prredstavleniya RDF yavlyayutsya sredstvami kotorye preobrazuyut relyacionnuyu bazu dannyh v RDF V techenie eto processa eti sredstva pozvolyayut povtornoe ispolzovanie slovarej i ontologii v processe preobrazovaniya Kogda preobrazuetsya tipichnaya relyacionnaya tablica s nazvaniem users odin stolbec naprimer name ili gruppa stolbcov naprimer first name i last name dolzhny obespechivat unificirovannyj identifikator sozdavaemoj sushnosti Obychno ispolzuetsya glavnyj klyuch Lyuboj drugoj stolbec mozhet byt izvlechyon kak svyazannyj s etoj sushnostyu Zatem ispolzuyutsya i povtorno ispolzuyutsya svojstva s formalno opredelyonnoj semantikoj dlya interpretacii informacii Naprimer stolbec tablicy user nazvannyj marriedTo zhenat na zamuzhem za mozhet byt opredelyon kak semanticheskoe otnoshenie a stolbec homepage domashnyaya stranica mozhet byt preobrazovan v svojstvo iz slovarya FOAF s nazvaniem foaf homepage tem samym kvalificiruya ego kak obratnuyu funkcionalnost Togda kazhdyj vhod tablicy user mozhet byt sdelan ekzemplyarom klassa foaf Person ontologiya Naselenie Krome togo predmetnaya oblast v vide ontologii mozhet byt sozdana iz status id putyom vruchnuyu sozdannyh pravil esli status id raven 2 stroka tablicy prinadlezhit klassu Uchitel ili polu avtomaticheskimi metodami angl Nizhe privedyon primer preobrazovaniya Name marriedTo homepage status idPeter Mary http example org Peters page nedostupnaya ssylka 1Claus Eva http example org Claus page nedostupnaya ssylka 2 Peter marriedTo Mary marriedTo OWL SymmetricProperty Peter foaf homepage lt http example org Peters page gt Peter foaf Person Fizicheskoe lico Peter Student Student Claus Teacher Uchitel Izvlechenie iz strukturirovannyh istochnikov v RDFOtobrazhenie 1 1 iz tablic predstavlenij relyacionnoj bazy dannyh v RDF sushnosti atributy znacheniya Pri postroenii predstavleniya relyacionnoj bazy dannyh RBD angl relational database startovoj tochkoj chasto sluzhit diagramma sushnost svyaz angl entity relationship diagram ERD Obychno kazhdaya sushnost predstavlena kak tablica bazy dannyh kazhdoe svojstvo sushnosti stanovitsya stolbcom v etoj tablice a svyaz mezhdu sushnostyami pokazyvaetsya vneshnimi klyuchami Kazhdaya tablica obychno opredelyaet konkretnyj klass sushnostej a kazhdyj stolbec opredelyaet odno iz svojstv etoj sushnosti Kazhdaya stroka v tablice opisyvaet ekzemplyar sushnosti odnoznachno opredelyonnyj glavnym klyuchom Stroki tablicy vmeste opisyvayut nabor sushnostej V ekvivalentnom RDF predstavlenii togo zhe nabora sushnosti Kazhdyj stolbec v tablice yavlyaetsya svojstvom to est predikatom Kazhdoe znachenie v stolbce yavlyaetsya svojstvom atributa to est yavlyaetsya obektom Kazhdyj klyuch stroki predstavlyaet ID sushnosti to est subektom Kazhdaya stroka predstavlyaet ekzemplyar sushnosti Kazhdaya stroka ekzemplyar sushnosti predstavlyaetsya v RDF kollekciej kortezhej s obshim subektom ID sushnosti Takim obrazom chtoby vyrazit ekvivalentnoe predstavlenie osnovannoe na semantike RDF bazovyj algoritm budet vyglyadet sleduyushim obrazom sozdayom shemu RDF RDFS klassa dlya kazhdoj tablicy preobrazuem vse glavnye klyuchi i vneshnie klyuchi v IRI identifikatory naznachaem IRI predikat kazhdomu stolbcu naznachaem rdf type predikat kazhdoj stroke svyazyvaya ego s IRI identifikatorom RDFS klassa Dlya kazhdogo stolbca ne yavlyayushegosya ni chastyu glavnogo klyucha ni chastyu vneshnego klyucha stroim trojku soderzhashuyu IRI glavnogo klyucha v kachestve subekta podlezhashego IRI stolbca v kachestve predikata i znacheniya stolbca v kachestve obekta Rannee upominanie bazovogo ili pryamogo otobrazheniya mozhno najti v sravnenii Timom Bernersom Li ER modeli s RDF modelyu Slozhnye otobrazheniya relyacionnyh baz dannyh v RDF 1 1 otobrazhenie upomyanutoe vyshe predstavlyaet starye dannye kak RDF napryamuyu a dopolnitelnaya dorabotka mozhet byt ispolzovana dlya uluchsheniya polnocennosti vyvoda RDF sootvetstvenno zadannomu scenariyu ispolzovaniya Kak pravilo informaciya teryaetsya v techenie preobrazovaniya diagrammy sushnost svyaz angl entity relationship diagram ERD v relyacionnye tablicy detalnoe opisanie mozhno najti v state angl i dolzhna byt vosstanovlena putyom obratnogo proektirovaniya S konceptualnoj tochki zreniya podhody dlya izvlecheniya mogut prijti s dvuh napravlenij Pervoe napravlenie pytaetsya izvlech ili obuchit s pomoshyu mashinnogo obucheniya OWL shemu iz zadannoj shemy bazy dannyh Rannie podhody ispolzovali fiksirovannoe kolichestvo sozdannyh vruchnuyu pravil otobrazheniya dlya uluchsheniya 1 1 otobrazheniya Bolee tshatelno razrabotannye metody ispolzovali evristicheskie ili obuchayushie algoritmy dlya porozhdeniya shematicheskoj informacii metody chastichno sovpadayut s angl V to vremya kak nekotorye podhody pytayutsya izvlech informaciyu iz struktury prisushej SQL sheme analiziruya naprimer vneshnie klyuchi drugie podhody analiziruyut soderzhimoe i znacheniya v tablicah dlya sozdaniya konceptualnyh ierarhij naprimer stolbcy s malym chislom znachenij yavlyayutsya kandidatami stat kategoriyami Vtoroe napravlenie pytaetsya otobrazit shemu i eyo soderzhimoe v sushestvuyushuyu ontologiyu predmetnoj oblasti sm takzhe Otobrazhenie ontologij Chasto odnako podhodyashaya ontologiya predmetnoj oblasti ne sushestvuet i eyo snachala sleduet sozdat XML Poskolku XML strukturirovan v vide dereva lyubye dannye legko predstavit v formate RDF kotoryj strukturirovan v vide grafa XML2 RDF yavlyaetsya odnim primerom podhoda kotoryj ispolzuet pustye uzly RDF i preobrazuet elementy i atributy XML v svojstva RDF Sluchaj odnako bolee slozhen chem v sluchae relyacionnyh baz dannyh V relyacionnyh tablicah glavnyj klyuch yavlyaetsya idealnym kandidatom dlya subekta vydelennyh troek XML element odnako mozhet byt preobrazovan v zavisimosti o konteksta kak subekt kak predikat ili kak obekt trojki XSLT mozhet byt ispolzovan kak standartnyj yazyk preobrazovaniya dlya ruchnogo preobrazovaniya XML v RDF Obzor metodov sredstv Nazvanie Istochnik dannyh Predstavlenie rezultata Sinhronizaciya dannyh Yazyk otobrazheniya Povtornoe ispol zovanie slovarya Avtoma tizaciya otobra zheniya Trebuetsya ontologiya oblasti Ispol zovanie GUIPryamoe otobrazhenie relyacionnyh dannyh v RDF Relyacionnye dannye SPARQL ETL dinamicheskaya net avtomati cheskaya net netCSV2RDF4LOD CSV ETL staticheskaya RDF da ruchnaya net netConvert2RDF Tekstovyj fajl s razdelitelyami ETL staticheskaya RDF DAML da ruchnaya net daD2R Server Arhivnaya kopiya ot 26 fevralya 2012 na Wayback Machine RBD SPARQL dvunapravlennaya D2R Map da ruchnaya net netDartGrid RBD Yazyk zaprosov OWL dinamicheskaya Vizualnye sredstva da ruchnaya net daDataMaster RBD ETL staticheskaya sobstvennyj da ruchnoj da daRasshirenie Google Refine s RDF CSV XML ETL staticheskaya otsutstvuet poluavto maticheskaya net daKrextor XML ETL staticheskaya XSLT da ruchnaya da netMAPONTO RBD ETL staticheskaya sobstvennyj da ruchnaya da netMETAmorphoses RBD ETL staticheskaya sobstvennyj yazyk baziruyushijsya na xml otobrazhenii da ruchnaya net daMappingMaster CSV ETL staticheskaya MappingMaster da GUI net daODEMapster RBD ETL staticheskaya sobstvennaya da ruchnaya da daOntoWiki CSV Importer Plug in DataCube amp Tabular CSV ETL staticheskaya RDF Data Cube Vocaublary da poluavto maticheskaya net daPoolparty Extraktor PPX XML Text LinkedData dinamicheskaya RDF SKOS da poluavto maticheskaya da netRDBToOnto RBD ETL staticheskaya otsutstvuet net avtomati cheskaya polzovatel imeet shans tonkoj nastrojki rezultata net daRDF 123 CSV ETL staticheskaya net net ruchnaya net daRDOTE RBD ETL staticheskaya SQL da ruchnaya da daRelational OWL RBD ETL staticheskaya otsutstvuet net avtomati cheskaya net netT2LD CSV ETL staticheskaya net net avtomati cheskaya net netRDF slovar angl angl RDF Data Cube Vocabulary Mnogomernye statisticheskie dannye v elektronnyh tablicah slovar Kuba dannyh da ruchnaya netTopBraid Composer CSV ETL staticheskaya SKOS net poluavto maticheskaya net daTriplify RBD LinkedData dinamicheskaya SQL da ruchnaya net netUltrawrap RBD SPARQL ETL dinamicheskaya da poluavto maticheskaya net daVirtuoso RDF Views RBD SPARQL dinamicheskaya Meta Schema Language da poluavto maticheskaya net daVirtuoso Sponger strukturi rovannye i polustruktu rirovannye istochniki dannyh SPARQL dinamicheskaya Virtuoso PL amp XSLT da poluavto maticheskaya net netVisAVis RBD RDQL ruchnaya SQL da ruchnaya da daXLWrap Spreadsheet to RDF CSV ETL staticheskaya TriG Syntax da ruchnaya net netXML v RDF XML ETL staticheskaya net net avtomati cheskaya net netIzvlechenie iz estestvennogo yazykovogo istochnikaNaibolshaya porciya informacii soderzhashayasya v biznes dokumente okolo 80 zakodirovana v estestvennom yazyke i potomu ne strukturirovana Poskolku nestrukturirovannye dannye yavlyaetsya skoree slozhnoj zadachej dlya izvlecheniya znaniya trebuyutsya bolee izoshryonnye metody kotorye obychno dayut hudshie rezultaty po sravneniyu so strukturirovannymi dannymi Odnako vozmozhnost priobresti ogromnoe kolichestvo izvlechyonnyh znanij kompensiruet uvelichivayushuyusya slozhnost i uhudshayusheesya kachestvo izvlecheniya Dalee istochniki na estestvennom yazyke ponimayutsya kak istochniki informacii v kotoryh dannye privedeny kak nestrukturirovannye tekstovye dannye Esli dannyj tekst vstavlen v dokument s razmetkoj naprimer HTML dokument upomyanutye sistemy obychno udalyayut elementy razmetki avtomaticheski Tradicionnoe izvlechenie informacii Tradicionnoe izvlechenie informacii angl information extraction IE eto tehnologiya obrabotki estestvennogo yazyka kotoraya izvlekaet informaciyu iz tekstov na estestvennom yazyke i strukturiruet ih podhodyashim obrazom Vidy informacii kotorye sleduet izvlech dolzhny byt ukazany v modeli pered nachalom processa obrabotki vot pochemu ves process tradicionnogo izvlecheniya informacii zavisim ot rassmatrivaemoj predmetnoj oblasti IZ angl IE raspadaetsya na sleduyushie pyat podzadach angl angl Named entity recognition NER Razreshenie koreferencii angl Coreference resolution CO Postroenie elementov shablona PE angl Template element construction TE ili Dobavlenie atributov k sushnostyam Vyyavlenie svyazej mezhdu sushnostyami VS angl Template relation construction TR Postroenie polnogo opisaniya sobytiya PPO angl Template scenario production ST Zadacha raspoznavaniya imenovannyh sushnostej zaklyuchaetsya v uznavanii i kategorizacii vseh imenovannyh sushnostej soderzhashihsya v tekste naznachenie imenovannym sushnostyam predopredelyonnye kategorii Eto rabotaet putyom primeneniya metodov osnovannyh na grammatike ili na statisticheskih modelyah Razreshenie koreferencii ustanavlivaet ekvivalentnye sushnosti kotorye byli raspoznany v tekste algoritmom NER Est dva svyazannyh vida otnosheniya ekvavalentnosti Pervoe otnoshenie otnositsya k svyazi mezhdu dvumya razlichnymi sushnostyami naprimer IBM Europe i IBM a vtoroe otnositsya k svyazi mezhdu sushnostyu i eyo anaforicheskoj ssylkoj naprimer it i IBM Oba vida mogut byt raspoznany razresheniem koreferencii Vo vremya postroeniya elementov shablona sistema IE ustanavlivaet opisatelnye svojstva sushnostej raspoznannye sistemami NER i CO Eti svojstva sootvetstvuyut obychnym kachestvam kak krasnyj ili bolshoj Vyyavlenie svyazej mezhdu otdelnymi sushnostyami ustanavlivaet otnosheniya kotorye sushestvuyut mezhdu elementami shablona Eti otnosheniya mogut byt neskolkih vidov takie kak rabotaet dlya ili raspolozheno v s ogranicheniem chto kak oblast tak i diapazon sootvetstvuyut sushnostyam Polnye opisaniya sobytij kotorye provodyatsya v tekste raspoznayutsya i strukturiruyutsya soglasno sushnostyam raspoznannyh sistemami NER i CO a otnosheniya raspoznayutsya sistemoj VS Izvlechenie informacii na osnove ontologij Izvlechenie informacii na osnove ontologij angl Ontology based information extraction OBIE yavlyaetsya podoblastyu izvlecheniya informacii v kotoroj ispolzuetsya po menshej mere odna ontologiya dlya upravleniya processom izvlecheniya informacii iz teksta na estestvennom yazyke Sistema OBIE ispolzuet metody tradicionnogo izvlecheniya informacii dlya raspoznavaniya ponyatij sushnostej i otnoshenij ispolzovannyh ontologij v tekste kotorye budut strukturirovany v ontologiyu posle processa Takim obrazom vvodimye ontologii formiruyut model izvlekaemoj informacii Obuchenie ontologij Osnovnaya statya Obuchenie ontologij angl Ontology learning OL eto avtomaticheskoe ili poluavtomaticheskoe sozdanie ontologij vklyuchaya izvlechenie sootvetstvuyushih terminov obektnoj oblasti iz teksta estestvennogo yazyka Tak kak postroenie ontologij vruchnuyu trebuet krajne intensivnoj raboty i zatrat vremeni sushestvuet bolshoj stimul dlya avtomatizacii processa Semanticheskoe annotirovanie Vo vremya semanticheskogo annotirovaniya angl semantic annotation SA tekst na estestvennom yazyke soprovozhdaetsya metadannymi chasto predstavimy v angl angl Resource Description Framework in Attributes kotorye dolzhny sdelat semantiku soderzhashihsya elementov ponimaemymi mashinami V etom processe kotoryj obychno yavlyaetsya poluavtomaticheskim znaniya izvlekayutsya v tom smysle chto ustanavlivaetsya svyaz mezhdu leksicheskimi elementami i naprimer ponyatiyami iz ontologij Takim obrazom poluchaem znaniya kotorye otkryvayut znachenie sushnosti v obrabatyvaemom kontekste a potomu opredelyaet znachenie teksta v angl s vozmozhnostyu delat logicheskie vyvody Semanticheskaya annotaciya obychno rassheplyaetsya na sleduyushie dve podzadachi Izvlechenie terminologii Svyazyvanie imenovannyh sushnostej Na urovne izvlecheniya terminologii iz teksta izvlekayutsya leksicheskie terminy S etoj celyu leksicheskij analizator snachala opredelyaet granicy slov i vydelyaet abbreviatury Zatem iz teksta izvlekayutsya terminy kotorye sootvetstvuyut ponyatiyam s pomoshyu slovarya specifichnyh oblasti issledovaniya dlya svyazyvaniya sushnostej Pri svyazyvanii sushnostej ustanavlivaetsya svyaz mezhdu izvlechyonnymi leksicheskimi chlenami iz teksta istochnika i ponyatiyami iz ontologii ili bazy znanij takoj kak DBpedia Dlya etogo kandidaty v ponyatiya vyyavlyayutsya soglasno opredelyonnym znacheniyam elementa s pomoshyu slovarya Nakonec analiziruetsya kontekst terminov dlya opredeleniya naibolee podhodyashego razresheniya mnogoznachnosti i terminu naznachaetsya pravilnoe ponyatie Sredstva Sleduyushie kriterii mogut byt ispolzovany dlya kategorizacii sredstv kotorye izvlekayut znanie iz tekstov na estestvennom yazyke Istochnik Kakie vhodnye formaty mogut byt obrabotany prostoj tekst HTML ili PDF naprimer Paradigma dostupa Mozhet li sredstvo zaprosit chast dannyh iz istochnika ili neobhodim polnyj damp dlya processa izvlecheniya Sinhronizaciya dannyh Sinhronizirovan li rezultat izvlecheniya s istochnikom Ispolzovanie obektnoj modeli Svyazyvaet li sredstvo rezultat s obektnoj modelyu Avtomatizaciya otobrazheniya Naskolko avtomatizirovan process izvlecheniya ruchnoj poluavtomaticheskij ili avtomaticheskij Trebovanie obektnoj modeli Trebuet li sredstvo nalichiya obektnoj modeli dlya izvlecheniya Ispolzovanie GUI Imeet li sredstvo graficheskij polzovatelskij interfejs angl Graphical User Interface GUI Podhod Kakoj podhod IE OBIE OL ili SA sredstvo ispolzuet Izvlekaemye sushnosti Kakie tipy sushnostej naprimer imenovannye sushnosti koncepcii ili otnosheniya mogut byt izvlecheny sredstvom Primenyaemye tehniki Kakie tehniki primenyayutsya naprimer NLP statisticheskie metody klasterizaciya ili mashinnoe obuchenie Vyhodnaya model Kakaya model ispolzuetsya dlya predstavleniya rezultata sredstva naprimer RDF ili OWL Podderzhivaemye predmetnye oblasti Kakie predmetnye oblasti podderzhivayutsya naprimer ekonomika ili biologiya Podderzhivaemye yazyki Kakie yazyki mogut byt obrabotany naprimer anglijskij nemeckij ili russkij Sleduyushaya tablica opisyvaet nekotorye sredstva dlya izvlecheniya znanij iz istochnikov estestvennogo yazyka Nazvanie Istochnik Paradigma dostupa Sinhronizaciya dannyh Ispolzovanie obektnoj modeli Avtomatizaciya otobrazheniya Trebovanie obektnoj modeli Ispolzovanie GUI Podhod Izvlekaemye sushnosti Primenyaemye tehniki Vyhodnaya model Podderzhivaemye oblasti Podderzhivaemye yazykiAeroText tekstovye dannye HTML XML SGML damp net da avtomaticheskoe da da IE imenovannye sushnosti svyazi sobytiya lingvinisticheskie pravila sobstvennaya ne zavisit ot oblasti anglijskij ispanskij arabskij kitajskij indonezijskijAlchemyAPI tekstovye dannye HTML avtomaticheskoe da SA mnogoyazychnyjANNIE tekstovye dannye damp da da IE algoritmy konechnogo avtomata mnogoyazychnyjASIUM LRI tekstovye dannye damp poluavtomat da OL ponyatiya ierarhiya ponyatij NLP klasterizaciyaExhaustive Extraction kompanii angl avtomaticheskoe IE imenovannye sushnosti svyazi sobytiya NLPDandelion API tekstovye dannye HTML URL REST net net avtomaticheski net da SA imenovannye sushnosti ponyatiya statisticheskie metody JSON ne zavisit ot oblasti mnogoyazychnyjDBpedia Spotlight tekstovye dannye HTML damp SPARQL da da avtomaticheskoe net da SA annotation to each word annotation to non stopwords NLP statistical methods mashinnoe obuchenie RDFa ne zavisit ot oblasti anglijskijEntityClassifier eu tekstovye dannye HTML damp da da avtomaticheskoe net da IE OL SA annotation to each word annotation to non stopwords rule based grammar XML ne zavisit ot oblasti anglijskij nemeckij gollandskijFRED tekstovye dannye damp REST API da da avtomaticheskoe net da IE OL SA ontologicheskie shablony proektirovaniya semantika frejmov slova NIF ili EarMark annotaciya predikaty ekzemplyary kompozicionnaya semantika ponyatiya taksonomij semanticheskie roli opisatelnye otnosheniya sobytiya naklonenie grammaticheskoe vremya svyazyvanie imenovannyh sushnostej svyazyvanie sobytij emocii NLP mashinnoe obuchenie heuristic rules RDF OWL ne zavisit ot oblasti anglijskij drugie yazyki posle perevodaiDocument HTML PDF DOC SPARQL da da OBIE instances property values NLP personal businessNetOwl Extractor tekstovye dannye HTML XML SGML PDF MS Office damp net da avtomaticheski da da IE imenovannye sushnosti svyazi sobytiya NLP XML JSON RDF OWL others mnozhestvennye oblasti anglijskij arabskij kitajskij uproshyonnyj i tradijionnyj francuzskij korejskij persidskij farsi i dari russkij ispanskijOntoGen Arhivnaya kopiya ot 30 marta 2010 na Wayback Machine poluavtomat da OL ponyatiya ierarhiya ponyatij non taxonomic otnosheniya instances NLP mashinnoe obuchenie klasterizaciyaOntoLearn Arhivnaya kopiya ot 9 avgusta 2017 na Wayback Machine tekstovye dannye HTML damp net da avtomaticheski da net OL ponyatiya ierarhiya ponyatij instances NLP statistical methods sobstvennaya ne zavisit ot oblasti anglijskijOntoLearn Reloaded tekstovye dannye HTML damp net da avtomaticheski da net OL ponyatiya ierarhiya ponyatij instances NLP statistical methods sobstvennaya ne zavisit ot oblasti anglijskijOntoSyphon HTML PDF DOC damp search engine queries net da avtomaticheski da net OBIE ponyatiya otnosheniya instances NLP statistical methods RDF ne zavisit ot oblasti anglijskijontoX tekstovye dannye damp net da poluavtomaticheski da net OBIE instances datatype property values heuristic based methods sobstvennaya ne zavisit ot oblasti ne zavisit ot yazykaOpenCalais tekstovye dannye HTML XML damp net da avtomaticheski da net SA annotation to entities annotation to sobytiya annotation to facts NLP mashinnoe obuchenie RDF ne zavisit ot oblasti anglijskij francuzskij ispanskijPoolParty Extractor 2011 tekstovye dannye HTML DOC ODT damp net da avtomaticheski da da OBIE imenovannye sushnosti ponyatiya otnosheniya ponyatiya that categorize the text enrichments NLP mashinnoe obuchenie statisticheskie metody RDF OWL ne zavisit ot oblasti anglijskij nemeckij ispanskij francuzskijRosoka tekstovye dannye HTML XML SGML PDF MS Office damp da da avtomaticheski net da IE izvlechenie imenovannyh sushnostej razreshenie sushnostej izvlechenie svyazej atributov ponyatij multivektornyj analiz tonalnosti vyskazyvaniya geoprivyazka identifikaciya yazyka mashinnoe obuchenie NLP XML JSON POJO mnozhestvennye oblasti mnogoyazychnyj 200 yazyk SCOOBIE tekstovye dannye HTML damp net da avtomaticheski net net OBIE instances property values RDFS types NLP mashinnoe obuchenie RDF RDFa ne zavisit ot oblasti anglijskij nemeckijSemTag HTML damp net da avtomaticheski da net SA mashinnoe obuchenie database record ne zavisit ot oblasti ne zavisit ot yazykasmart FIX tekstovye dannye HTML PDF DOC e Mail damp da net avtomaticheski net da OBIE imenovannye sushnosti NLP mashinnoe obuchenie sobstvennaya ne zavisit ot oblasti anglijskij nemeckij francuzskij gollandskij polskijText2Onto tekstovye dannye HTML PDF damp da net poluavtomaticheski da da OL ponyatiya koncepciya ponyatij non taxonomic otnosheniya instances axioms NLP statisticheskie metody mashinnoe obuchenie rule based methods OWL ne zavisit ot oblasti anglijskij nemeckij ispanskijText To Onto tekstovye dannye HTML PDF PostScript damp poluavtomaticheski da da OL ponyatiya ierarhiya ponyatij non taxonomic otnosheniya lexical entities referring ponyatiyam lexical entities referring to otnosheniya NLP mashinnoe obuchenie klasterizaciya statisticheskie metody nemeckijThatNeedle Tekstovye dannye damp avtomaticheski net ponyatiya otnosheniya hierarchy NLP sobstvennaya JSON mnozhestvennye oblasti anglijskijThe Wiki Machine tekstovye dannye HTML PDF DOC damp net da avtomaticheski da da SA markirovka imen sobstvennyh markirovka imyon naricatelnyh mashinnoe obuchenie RDFa nezavisimyj ot oblasti anglijskij nemeckij ispanskij francuzskij portugalskij italyanskij russkijThingFinder IE imenovannye sushnosti svyazi sobytiya mnogoyazychnyjObnaruzhenie znanijObnaruzhenie znanij opisyvaet process avtomaticheskogo poiska bolshih obyomov dannyh dlya modelej kotorye mogut schitatsya znaniem o dannyh Eto chasto opisyvaetsya kak izvlechenie znaniya iz vhodnyh dannyh Obnaruzhenie znanij razrabatyvaetsya dlya analiza dannyh i tesno svyazano kak s metodologiej tak i terminologiej Naibolee izvestnaya vetv intellektualnogo analiza dannyh obnaruzhenie znanij izvestnoe takzhe kak obnaruzhenie znanij v bazah dannyh Kak i mnogie drugie formy obnaruzheniya znanij etot analiz sozdayot abstrakcii vhodnyh dannyh Znanie priobretyonnoe v rezultate etogo processa mozhet stat dopolnitelnymi dannymi kotorye mogut byt ispolzovany dlya dalnejshego ispolzovaniya i poiskov Chasto vyhodnye dannye processa obnaruzheniya znanij ne imeet prakticheskoj cennosti tak chto angl izvestnoe takzhe kak angl prednaznacheno dlya obnaruzheniya i izvlecheniya imeyushego prakticheskoe znachenie aktivnogo znaniya i vyvodov iz etogo znaniya Drugoe perspektivnoe prilozhenie obnaruzheniya znanij nahoditsya v oblasti angl obnaruzheniya slabyh mest i sootvetstviya standartam kotoroe vovlekaet ponimanie sushestvuyushego programmnogo obespecheniya Etot process svyazan s ponyatiem obratnoj razrabotki Obychno znanie poluchaemoe iz sushestvuyushego programmnogo obespecheniya predstavlyaetsya v vide modelej k kotorym mogut byt sdelany konkretnye zaprosy esli neobhodimo Model sushnost svyaz yavlyaetsya chastym formatom predstavlyayushim znanie i poluchaemym iz sushestvuyushego programmnogo obespecheniya Konsorcium Object Management Group razrabotal specifikaciyu angl angl Knowledge Discovery Metamodel KDM kotoraya opredelyaet ontologiyu dlya programmnyh resursov i ih svyazej prednaznachennuyu dlya obnaruzheniya znanij v sushestvuyushem kode Obnaruzhenie znanij iz izvestnyh programmnyh sistem izvestnoe takzhe kak angl tesno svyazano s intellektualnym analizom dannyh poskolku sushestvuyushie programmnye nahodki imeyut ogromnoe znachenie dlya upravleniya riskami i angl kotorye sluzhat klyuchevymi elementami dlya analiza i razvitiya programmnyh sistem Vmesto analiza individualnyh naborov dannyh angl fokusiruetsya na metadannyh takih kak proizvodstvennyj potok naprimer potok dannyh potok upravleniya shema vyzovov arhitekture shemah baz dannyh i delovyh pravilah terminah processah Vvod dannyh Bazy dannyh angl Baza dannyh angl Hranilishe dannyh angl Ishodnyj kod Konfiguracionnye fajly Skripty sborki Tekst angl angl angl angl angl angl WebFormaty vyvoda Model dannyh Metadannye Metamodeli Ontologiya Predstavlenie znanij Teg metadannye angl angl Notaciya i model biznes processov Promezhutochnoe predstavlenie Sreda opisaniya resursa Metriki programmnogo obespecheniyaSm takzheKlasternyj analiz Arheologiya dannyhPrimechaniyaRDB2RDF Working Group Website http www w3 org 2001 sw rdb2rdf Arhivnaya kopiya ot 11 maya 2016 na Wayback Machine charter http www w3 org 2009 08 rdb2rdf charter Arhivnaya kopiya ot 20 marta 2016 na Wayback Machine R2RML RDB v RDF Mapping Language http www w3 org TR r2rml Arhivnaya kopiya ot 10 oktyabrya 2021 na Wayback Machine LOD2 EU nedostupnaya ssylka Deliverable 3 1 1 Knowledge Extraction from Structured Sources Calais Release 4 2009 Berners Lee 1998 Hu Qu 2007 s 225 238 Ghawi Cullot 2007 Li Du Wang 2005 s 209 220 Tirmizi Miranker Sequeda 2008 Cerbah 2008 RDQL RDF Query Language Wimalasuriya Dou 2010 s 306 323 Ne putat s MS IE Internet eksplorer kompanii Mikrosoft Cunningham 2005 s 665 677 Erdmann Maedche Schnurr Staab 2000 Rao McNamee Dredze 2011 s 93 115 Rocket Software Inc 2012 technology for extracting intelligence from text Orchestr8 2012 AlchemyAPI Overview The University of Sheffield 2011 ANNIE a Nearly New Information Extraction System Mendes Jakob Garcia Silva Bizer 2011 s 1 8 Gangemi Presutti Recupero i dr 2016 Adrian Maus Dengel 2009 SRA International Inc 2012 NetOwl Extractor Fortuna Grobelnik Mladenic 2007 s 309 318 Missikoff Navigli Velardi 2002 s 60 63 McDowell Cafarella 2006 s 428 444 Yildiz Miksch 2007 s 660 673 Dill Eiron Gibson i dr 2003 s 178 186 Uren Cimiano Iria i dr 2006 s 14 28 Cimiano Volker 2005 Maedche Volz 2001 Machine Linking We connect to the Linked Open Data cloud Inxight ThingFinder and ThingFinder Professional neopr Inxight Federal Systems 2008 Data obrasheniya 18 iyunya 2012 Arhivirovano iz originala 29 iyunya 2012 goda Frawley Piatetsky Shapiro Matheus 1992 s 57 70 Fayyad Piatetsky Shapiro Smyth 1996 s 37 54 Cao 2010 s 755 769 LiteraturaCao L Domain driven data mining challenges and prospects IEEE Trans on Knowledge and Data Engineering 2010 T 22 vyp 6 doi 10 1109 tkde 2010 32 Life in the Linked Data Cloud www opencalais com 2009 Arhivirovano 24 noyabrya 2009 goda Vyderzhka Vikipediya imeet dvojnika s imenem DBpedia DBpedia imeet tu zhe strukturirovannuyu informaciyu chto i Vikipediya no preobrazovannuyu v ponimaemyj mashinami format Benjamin Adrian Heiko Maus Andreas Dengel iDocument Using Ontologies for Extracting Information from Text 2009 William J Frawley Gregory Piatetsky Shapiro Christopher J Matheus Knowledge Discovery in Databases An Overview AI Magazine 1992 T 13 3 S 57 70 Arhivirovano 4 marta 2016 goda Usama M Fayyad Gregory Piatetsky Shapiro Padhraic Smyth From Data Mining to Knowledge Discovery in Databases AI Magazine 1996 T 17 3 S 37 54 Arhivirovano 4 maya 2016 goda Tim Berners Lee Relational Databases on the Semantic Web 1998 Farid Cerbah Learning Highly Structured Semantic Repositories from Relational Databases The Semantic Web Research and Applications Berlin Heidelberg Springer 2008 T 5021 Lecture Notes in Computer Science Arhivnaya kopiya ot 20 iyulya 2011 na Wayback Machine Syed Hamid Tirmizi Daniel P Miranker Juan Sequeda Translating SQL Applications to the Semantic Web Database and Expert Systems Applications 2008 T 5181 2008 Lecture Notes in Computer Science Wei Hu Yuzhong Qu Discovering Simple Mappings Between Relational Database Schemas and Ontologies Proc of 6th International Semantic Web Conference ISWC 2007 2nd Asian Semantic Web Conference ASWC 2007 Busan Korea 11 15 November 2007 2007 T 4825 S 225 238 Lecture Notes in Computer Science Ghawi R Cullot N Database to Ontology Mapping Generation for Semantic Interoperability Third International Workshop on Database Interoperability InterDB 2007 2007 Man Li Xiaoyong Du Shan Wang A Semi automatic Ontology Acquisition Method for the Semantic Web WAIM Springer 2005 T 3739 S 209 220 Lecture Notes in Computer Science doi 10 1007 11563952 19 Aldo Gangemi Valentina Presutti Diego Reforgiato Recupero Andrea Giovanni Nuzzolese Francesco Draicchio Misael Mongiovi Semantic Web Machine Reading with FRED Semantic Web Journal 2016 doi 10 3233 SW 160240 Philipp Cimiano Johanna Volker Text2Onto A Framework for Ontology Learning and Data Driven Change Discovery Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems 2005 T 3513 S 227 238 Hamish Cunningham Information Extraction Automatic Encyclopedia of Language and Linguistics 2005 S 665 677 Stephen Dill Nadav Eiron David Gibson Daniel Gruhl R Guha Anant Jhingran Tapas Kanungo Sridhar Rajagopalan Andrew Tomkins John A Tomlin Jason Y Zien SemTag and Seeker Bootstraping the Semantic Web via Automated Semantic Annotation Proceedings of the 12th international conference on World Wide Web 2003 S 178 186 Erdmann M Maedche A Schnurr H P Staab S From Manual to Semi automatic Semantic Annotation About Ontology based Text Annotation Tools Proceedings of the COLING 2000 Blaz Fortuna Marko Grobelnik Dunja Mladenic OntoGen Semi automatic Ontology Editor Proceedings of the 2007 conference on Human interface Part 2 2007 S 309 318 Alexander Maedche Raphael Volz The Ontology Extraction amp Maintenance Framework Text To Onto Proceedings of the IEEE International Conference on Data Mining 2001 Luke K McDowell Michael Cafarella Ontology driven Information Extraction with OntoSyphon Proceedings of the 5th international conference on The Semantic Web 2006 S 428 444 Pablo N Mendes Max Jakob Andres Garcia Silva Christian Bizer DBpedia Spotlight Shedding Light on the Web of Documents Proceedings of the 7th International Conference on Semantic Systems 2011 S 1 8 Arhivnaya kopiya ot 5 aprelya 2012 na Wayback Machine Michele Missikoff Roberto Navigli Paola Velardi Integrated Approach to Web Ontology Learning and Engineering Computer 2002 T 35 vyp 11 S 60 63 Delip Rao Paul McNamee Mark Dredze Entity Linking Finding Extracted Entities in a Knowledge Base Multi source Multi lingual Information Extraction and Summarization 2011 nedostupnaya ssylka Victoria Uren Philipp Cimiano Jose Iria Siegfried Handschuh Maria Vargas Vera Enrico Motta Fabio Ciravegna Semantic annotation for knowledge management Requirements and a survey of the state of the art Web Semantics Science Services and Agents on the World Wide Web 2006 T 4 vyp 1 S 14 28 nedostupnaya ssylka Daya C Wimalasuriya Dejing Dou Ontology based information extraction An introduction and a survey of current approaches Journal of Information Science 2010 T 36 vyp 3 S 306 323 Burcu Yildiz Silvia Miksch ontoX A Method for Ontology Driven Information Extraction Proceedings of the 2007 international conference on Computational science and its applications 2007 T 3 S 660 673 U etoj stati est neskolko problem pomogite ih ispravit Neobhodimo proverit kachestvo perevoda c neukazannogo yazyka ispravit soderzhatelnye i stilisticheskie oshibki Vy mozhete pomoch uluchshit etu statyu sm takzhe rekomendacii po perevodu Original ne ukazan Pozhalujsta ukazhite ego 24 dekabrya 2018 Stil etoj stati neenciklopedichen ili narushaet normy literaturnogo russkogo yazyka Statyu sleduet ispravit soglasno stilisticheskim pravilam Vikipedii 24 dekabrya 2018 Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom
