Википедия

Интеграция данных

Интеграция данных включает объединение данных, находящихся в различных источниках, и предоставление данных пользователям в унифицированном виде. Этот процесс становится существенным как в коммерческих задачах (когда двум похожим компаниям необходимо объединить их базы данных), так и в научных (комбинирование результатов исследования из различных биоинформационных репозиториев, для примера). Роль интеграции данных возрастает, когда увеличивается объём и необходимость совместного использования данных. Это стало фокусом обширной теоретической работы, а многочисленные проблемы остаются нерешёнными[прояснить].

Уровни интеграции данных

Системы интеграции данных могут обеспечивать интеграцию данных на физическом, логическом и семантическом уровне. Интеграция данных на физическом уровне с теоретической точки зрения является наиболее простой задачей и сводится к конверсии данных из различных источников в требуемый единый формат их физического представления. Интеграция данных на логическом уровне предусматривает возможность доступа к данным, содержащимся в различных источниках, в терминах единой глобальной схемы, которая описывает их совместное представление с учетом структурных и, возможно, поведенческих (при использовании объектных моделей) свойств данных. Семантические свойства данных при этом не учитываются. Поддержку единого представления данных с учетом их семантических свойств в контексте единой онтологии предметной области обеспечивает интеграция данных на семантическом уровне.

Процессу интеграции препятствует неоднородность источников данных, в соответствии с уровнем интеграции. Так, при интеграции на физическом уровне в источниках данных могут использоваться различные форматы файлов. На логическом уровне интеграции может иметь место неоднородность используемых моделей данных для различных источников или различаются схемы данных, хотя используется одна и та же модель данных. Одни источники могут быть веб-сайтами, а другие — объектными базами данных и т. д. При интеграции на семантическом уровне различным источникам данных могут соответствовать различные онтологии. Например, возможен случай, когда каждый из источников представляет информационные ресурсы, моделирующие некоторый фрагмент предметной области, которому соответствует своя понятийная система, и эти фрагменты пересекаются.

Возникающие задачи

При создании системы интеграции возникает ряд задач, состав которых зависит от требований к ней и используемого подхода. К ним, в частности, относятся:

  • Разработка архитектуры системы интеграции данных;
  • Создание интегрирующей модели данных, являющейся основой единого пользовательского интерфейса в системе интеграции;
  • Разработка методов отображения моделей данных и построение отображений в интегрирующую модель для конкретных моделей, поддерживаемых отдельными источниками данных;
  • Интеграция метаданных, используемых в системе источников данных;
  • Преодоление неоднородности источников данных;
  • Разработка механизмов семантической интеграции источников данных.

Архитектуры систем интеграции

Консолидация

В случае консолидации данные извлекаются из источников, и помещаются в Хранилище данных. Процесс заполнения Хранилища состоит из трех фаз — извлечение, преобразование, загрузка (Extract, Transformation, Loading — ETL). Во многих случаях именно ETL понимают под термином «интеграция данных». Еще одна распространенная технология консолидации данных — управление содержанием корпорации (enterprise content management, сокр. ECM). Большинство решений ECM направлены на консолидацию и управление неструктурированными данными, такими как документы, отчеты и web-страницы.

Консолидация — однонаправленный процесс, то есть данные из нескольких источников сливаются в Хранилище, но не распространяются из него обратно в распределенную систему. Часто консолидированные данные служат основой для приложений бизнес-аналитики (Business Intelligence, BI), OLAP-приложений.

При использовании этого метода обычно существует некоторая задержка между моментом обновления информации в первичных системах и временем, когда данные изменения появляются в конечном месте хранения. Конечные места хранения данных, содержащие данные с большими временами отставания (например, более одного дня), создаются с помощью пакетных приложений интеграции данных, которые извлекают данные из первичных систем с определенными, заранее заданными интервалами. Конечные места хранения данных с небольшим отставанием обновляются с помощью оперативных приложений интеграции данных, которые постоянно отслеживают и передают изменения данных из первичных систем в конечные места хранения.

Федерализация

В физического перемещения данных не происходит: данные остаются у владельцев, доступ к ним осуществляется при необходимости (при выполнении запроса). Изначально федеративные БД предполагали создание в каждом из n узлов n-1 фрагментов кода, позволяющего обращаться к любому другому узлу. При этом федеративные БД отделяли от медиаторов.

При использовании медиатора создается общее представление (модель) данных. Медиатор — посредник, поддерживающий единый пользовательский интерфейс на основе глобального представления данных, содержащихся в источниках, а также поддержку отображения между глобальным и локальным представлениями данных. Пользовательский запрос, сформулированный в терминах единого интерфейса, декомпозируется на множество подзапросов, адресованных к нужным локальным источникам данных. На основе результатов их обработки синтезируется полный ответ на запрос. Используются две разновидности архитектуры с посредником — Global as View и Local as View.

Отображение данных из источника в общую модель выполняется при каждом запросе специальной оболочкой (wrapper). Для этого необходима интерпретация запроса к отдельным источникам и последующее отображение полученных данных в единую модель. Сейчас этот способ также относят к федеративным БД.

Интеграция корпоративной информации (Enterprise information integration, сокр. ) — это пример технологии, которая поддерживает федеративный подход к интеграции данных.

Изучение и профилирование первичных данных, необходимые для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации.

Распространение данных

Приложения распространения данных осуществляют копирование данных из одного места в другое. Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, то есть зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Синхронная передача требует, чтобы обновления в обеих системах происходили во время одной и той же физической транзакции. Независимо от используемого типа синхронизации, метод распространения гарантирует доставку данных в систему назначения. Такая гарантия — это ключевой отличительный признак распространения данных. Большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами. Примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. ) и тиражирование корпоративных данных (Еnterprise data replication, сокр. ). От федеративных БД этот способ отличает двустороннее распространение данных.

Сервисный подход

Сервисно-ориентированная архитектура SOA (Service Oriented Architecture), успешно применяемая при интеграции приложений, применима и при интеграции данных. Данные также остаются у владельцев и даже местонахождение данных неизвестно. При запросе происходит обращение к определённым сервисам, которые связаны с источниками, где находится информация и её конкретный адрес.

Интеграция данных объединяет информацию из нескольких источников таким образом, чтобы её можно было показать клиенту в виде сервиса. Сервис — это не запрос в традиционном смысле обращения к данным, скорее, это извлечение некоторой бизнес-сущности (или сущностей), которое может быть выполнено сервисом интеграции через серию запросов и других сервисов. Подход SOA концентрируется, в первую очередь, на определении и совместном использовании в форме сервисов относительно ограниченного количества самых важных бизнес-функций в корпорации. Следовательно, сервис-ориентированные интерфейсы в довольно большой степени строятся на ограниченном количестве запросов на необходимую информацию, которую нужно представить потребителю.

Имея соответствующие учетные данные системы безопасности, потребитель может осуществить выборку любых данных из источника через почти неограниченное количество различных запросов SQL. Но для этого потребитель должен иметь представление о модели источника данных и способе создания результата с использованием этой базовой модели. Чем сложнее модель источника данных, тем более сложной может оказаться эта задача.

Кроме того

В описан пример гибридного подхода.

Другая классификация методов приведена в .

Проблемы интеграции информации

Вне зависимости от выбранных технологии и метода интеграции данных, остаются вопросы, связанные с их смысловой интерпретацией и различиями в представлении одних и тех же вещей. Именно, приходится разрешать несоответствие схем данных и несоответствие самих данных.

Типы несоответствия схем данных

  • Конфликты неоднородности (используются различные модели данных для различных источников);
  • Конфликты именования (в различных схемах используется различная терминология, что приводит к омонимии и синонимии в именовании);
  • Семантические конфликты (выбраны различные уровни абстракции для моделирования подобных сущностей реального мира);
  • Структурные конфликты (одни и те же сущности представляются в разных источниках разными структурами данных).

Структурные и семантические конфликты выливаются в следующие проблемы:

  1. Различие в типах данных. Некоторый домен в одном источнике может представляться числом, в другом — строкой фиксированной длины, в третьем — строкой переменной длины.
  2. Различие в единицах измерения. В одной БД указана величина в сантиметрах, в другой — в дюймах. В этом случае существует отображение 1:1.
  3. Различие в множестве допустимых значений. Один и тот же признак может определяться разными наборами констант. Например, выполнение задания одним источником может оцениваться по четырехбальной шкале(неудовлетворительно, удовлетворительно, хорошо, отлично), другим — по трехбальной (-,±,+), третьим — по стобальной. Отображение не является 1:1, оно может быть многозначным, может не иметь обратного, может зависеть от сторонних данных (например, 30 по математике соответствовать «удовлетворительно», а по русскому языку — «неудовлетворительно»).
  4. Различие «домен-отношение». Домен в одной БД (напр строковое значение) соответствует таблице в другой БД (записи из таблицы-справочника).
  5. Различие «домен — группа доменов». В одном источнике адрес записывается одной строкой, в другом — отдельные поля для улицы, дома, строения, квартиры.
  6. Различие «данные-схема». Данные одной БД соответствуют схеме (метаданным) другой. В одной БД «инженер» — значение атрибута «должность» отношения «работник», в другой «инженеры» — отношение, содержащее некоторых работников, в то время как «бухгалтеры» содержит других.
  7. Отсутствующие значения. В каком-то из источников может отсутствовать информация, имеющаяся в большинстве других.

Разрешение этих несоответствий часто выполняется вручную. Обзор автоматических методов разрешения несоответствия схем можно найти в .

Типы несоответствия собственно данных

  1. Различие формата данных. «ул. Бахрушина, 18-1» или «Бахрушина, д.18, стр.1»; «8(910)234-45-32» или «8-910-234-45-32».
  2. Различие в представлении значений. Например, некая организация может быть записана в отдельных источниках как «Новолипецкий металлургический комбинат», «НЛМК», «ОАО НЛМК».
  3. Потеря актуальности данных одним из источников. Например, смена фамилии при замужестве: в одной БД записана новая фамилия, в другой старая, и они не совпадают.
  4. Наличие ошибок операторского ввода (или ошибок распознавания бланков) в отдельных источниках данных. Сюда относятся механические опечатки, ошибки восприятия на слух сложнопроизносимых имен/названий, отсутствие единых стандартов транскрипции с иностранных языков.
  5. Намеренное внесение искажений с целью затруднить идентификацию сущностей.

Перечисленные различия приводят к дублированию записей при интеграции данных в одну БД. Разрешение перечисленных проблем и устранение дублирования записей вручную практически невозможно. Имеется множество методов для её автоматического и полуавтоматического решения. По-русски задача не имеет устоявшегося термина (применяются «сопоставление записей», «вероятностное соединение», «нестрогое соединение», «нестрогое соответствие»). В зарубежных работах эта задача носит название Identity resolution, или Record linkage (есть и другие синонимы). Обзор методов можно найти в .

Источники

  1. Когаловский М.Р. Методы интеграции данных в информационных системах. Архивировано из оригинала 22 июля 2012 года.
  2. Гарсиа-Молина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс = Database Systems: The Complete Book. — , 2003. — 1088 с. — ISBN 5-8459-0384-X.
  3. Интеграция данных и Хранилища. Дата обращения: 25 августа 2011. Архивировано 30 марта 2014 года.
  4. Гюнтер Зауфер, Мэй Сельваж, Эойн Лейн, Билл Мэтьюс. Шаблоны для информационного сервиса (3 августа 2007). Архивировано 22 июля 2012 года.
  5. Леонид Черняк. Интеграция данных: синтаксис и семантика. «Открытые системы» , № 10, 2009. Дата обращения: 25 августа 2011. Архивировано 8 октября 2012 года.
  6. William Kent. Solving Domain Mismatch and Schema Mismatch Problems with an Object-Oriented Database Programming Language. Proceedings of the International Conference on Very Large Data Bases (1991). Архивировано 22 июля 2012 года.
  7. Erhard Rahm, Philip A. Bernstein. A Survey of Approaches to Automatic Schema Matching. VLDB JOURNAL (2001). Архивировано 22 июля 2012 года.
  8. Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 19, NO. 1, JANUARY 2007. Архивировано 22 июля 2012 года.

См. также

  • Data integration (англ.)
  • ETL
  • ETL (англ.)
  • Master data management (англ.)
  • Мэшап (веб сервис)
  • Кореферентность имен в компьютерной обработке информации
  • ISO 15926

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Интеграция данных, Что такое Интеграция данных? Что означает Интеграция данных?

Integraciya dannyh vklyuchaet obedinenie dannyh nahodyashihsya v razlichnyh istochnikah i predostavlenie dannyh polzovatelyam v unificirovannom vide Etot process stanovitsya sushestvennym kak v kommercheskih zadachah kogda dvum pohozhim kompaniyam neobhodimo obedinit ih bazy dannyh tak i v nauchnyh kombinirovanie rezultatov issledovaniya iz razlichnyh bioinformacionnyh repozitoriev dlya primera Rol integracii dannyh vozrastaet kogda uvelichivaetsya obyom i neobhodimost sovmestnogo ispolzovaniya dannyh Eto stalo fokusom obshirnoj teoreticheskoj raboty a mnogochislennye problemy ostayutsya nereshyonnymi proyasnit Urovni integracii dannyhSistemy integracii dannyh mogut obespechivat integraciyu dannyh na fizicheskom logicheskom i semanticheskom urovne Integraciya dannyh na fizicheskom urovne s teoreticheskoj tochki zreniya yavlyaetsya naibolee prostoj zadachej i svoditsya k konversii dannyh iz razlichnyh istochnikov v trebuemyj edinyj format ih fizicheskogo predstavleniya Integraciya dannyh na logicheskom urovne predusmatrivaet vozmozhnost dostupa k dannym soderzhashimsya v razlichnyh istochnikah v terminah edinoj globalnoj shemy kotoraya opisyvaet ih sovmestnoe predstavlenie s uchetom strukturnyh i vozmozhno povedencheskih pri ispolzovanii obektnyh modelej svojstv dannyh Semanticheskie svojstva dannyh pri etom ne uchityvayutsya Podderzhku edinogo predstavleniya dannyh s uchetom ih semanticheskih svojstv v kontekste edinoj ontologii predmetnoj oblasti obespechivaet integraciya dannyh na semanticheskom urovne Processu integracii prepyatstvuet neodnorodnost istochnikov dannyh v sootvetstvii s urovnem integracii Tak pri integracii na fizicheskom urovne v istochnikah dannyh mogut ispolzovatsya razlichnye formaty fajlov Na logicheskom urovne integracii mozhet imet mesto neodnorodnost ispolzuemyh modelej dannyh dlya razlichnyh istochnikov ili razlichayutsya shemy dannyh hotya ispolzuetsya odna i ta zhe model dannyh Odni istochniki mogut byt veb sajtami a drugie obektnymi bazami dannyh i t d Pri integracii na semanticheskom urovne razlichnym istochnikam dannyh mogut sootvetstvovat razlichnye ontologii Naprimer vozmozhen sluchaj kogda kazhdyj iz istochnikov predstavlyaet informacionnye resursy modeliruyushie nekotoryj fragment predmetnoj oblasti kotoromu sootvetstvuet svoya ponyatijnaya sistema i eti fragmenty peresekayutsya Voznikayushie zadachiPri sozdanii sistemy integracii voznikaet ryad zadach sostav kotoryh zavisit ot trebovanij k nej i ispolzuemogo podhoda K nim v chastnosti otnosyatsya Razrabotka arhitektury sistemy integracii dannyh Sozdanie integriruyushej modeli dannyh yavlyayushejsya osnovoj edinogo polzovatelskogo interfejsa v sisteme integracii Razrabotka metodov otobrazheniya modelej dannyh i postroenie otobrazhenij v integriruyushuyu model dlya konkretnyh modelej podderzhivaemyh otdelnymi istochnikami dannyh Integraciya metadannyh ispolzuemyh v sisteme istochnikov dannyh Preodolenie neodnorodnosti istochnikov dannyh Razrabotka mehanizmov semanticheskoj integracii istochnikov dannyh Arhitektury sistem integraciiKonsolidaciya V sluchae konsolidacii dannye izvlekayutsya iz istochnikov i pomeshayutsya v Hranilishe dannyh Process zapolneniya Hranilisha sostoit iz treh faz izvlechenie preobrazovanie zagruzka Extract Transformation Loading ETL Vo mnogih sluchayah imenno ETL ponimayut pod terminom integraciya dannyh Eshe odna rasprostranennaya tehnologiya konsolidacii dannyh upravlenie soderzhaniem korporacii enterprise content management sokr ECM Bolshinstvo reshenij ECM napravleny na konsolidaciyu i upravlenie nestrukturirovannymi dannymi takimi kak dokumenty otchety i web stranicy Konsolidaciya odnonapravlennyj process to est dannye iz neskolkih istochnikov slivayutsya v Hranilishe no ne rasprostranyayutsya iz nego obratno v raspredelennuyu sistemu Chasto konsolidirovannye dannye sluzhat osnovoj dlya prilozhenij biznes analitiki Business Intelligence BI OLAP prilozhenij Pri ispolzovanii etogo metoda obychno sushestvuet nekotoraya zaderzhka mezhdu momentom obnovleniya informacii v pervichnyh sistemah i vremenem kogda dannye izmeneniya poyavlyayutsya v konechnom meste hraneniya Konechnye mesta hraneniya dannyh soderzhashie dannye s bolshimi vremenami otstavaniya naprimer bolee odnogo dnya sozdayutsya s pomoshyu paketnyh prilozhenij integracii dannyh kotorye izvlekayut dannye iz pervichnyh sistem s opredelennymi zaranee zadannymi intervalami Konechnye mesta hraneniya dannyh s nebolshim otstavaniem obnovlyayutsya s pomoshyu operativnyh prilozhenij integracii dannyh kotorye postoyanno otslezhivayut i peredayut izmeneniya dannyh iz pervichnyh sistem v konechnye mesta hraneniya Federalizaciya V fizicheskogo peremesheniya dannyh ne proishodit dannye ostayutsya u vladelcev dostup k nim osushestvlyaetsya pri neobhodimosti pri vypolnenii zaprosa Iznachalno federativnye BD predpolagali sozdanie v kazhdom iz n uzlov n 1 fragmentov koda pozvolyayushego obrashatsya k lyubomu drugomu uzlu Pri etom federativnye BD otdelyali ot mediatorov Pri ispolzovanii mediatora sozdaetsya obshee predstavlenie model dannyh Mediator posrednik podderzhivayushij edinyj polzovatelskij interfejs na osnove globalnogo predstavleniya dannyh soderzhashihsya v istochnikah a takzhe podderzhku otobrazheniya mezhdu globalnym i lokalnym predstavleniyami dannyh Polzovatelskij zapros sformulirovannyj v terminah edinogo interfejsa dekompoziruetsya na mnozhestvo podzaprosov adresovannyh k nuzhnym lokalnym istochnikam dannyh Na osnove rezultatov ih obrabotki sinteziruetsya polnyj otvet na zapros Ispolzuyutsya dve raznovidnosti arhitektury s posrednikom Global as View i Local as View Otobrazhenie dannyh iz istochnika v obshuyu model vypolnyaetsya pri kazhdom zaprose specialnoj obolochkoj wrapper Dlya etogo neobhodima interpretaciya zaprosa k otdelnym istochnikam i posleduyushee otobrazhenie poluchennyh dannyh v edinuyu model Sejchas etot sposob takzhe otnosyat k federativnym BD Integraciya korporativnoj informacii Enterprise information integration sokr eto primer tehnologii kotoraya podderzhivaet federativnyj podhod k integracii dannyh Izuchenie i profilirovanie pervichnyh dannyh neobhodimye dlya federalizacii nesilno otlichayutsya ot analogichnyh procedur trebuemyh dlya konsolidacii Rasprostranenie dannyh Prilozheniya rasprostraneniya dannyh osushestvlyayut kopirovanie dannyh iz odnogo mesta v drugoe Eti prilozheniya obychno rabotayut v operativnom rezhime i proizvodyat peremeshenie dannyh k mestam naznacheniya to est zavisyat ot opredelennyh sobytij Obnovleniya v pervichnoj sisteme mogut peredavatsya v konechnuyu sistemu sinhronno ili asinhronno Sinhronnaya peredacha trebuet chtoby obnovleniya v obeih sistemah proishodili vo vremya odnoj i toj zhe fizicheskoj tranzakcii Nezavisimo ot ispolzuemogo tipa sinhronizacii metod rasprostraneniya garantiruet dostavku dannyh v sistemu naznacheniya Takaya garantiya eto klyuchevoj otlichitelnyj priznak rasprostraneniya dannyh Bolshinstvo tehnologij sinhronnogo rasprostraneniya dannyh podderzhivayut dvustoronnij obmen dannymi mezhdu pervichnymi i konechnymi sistemami Primerami tehnologij podderzhivayushih rasprostranenie dannyh yavlyayutsya integraciya korporativnyh prilozhenij Enterprise application integration sokr i tirazhirovanie korporativnyh dannyh Enterprise data replication sokr Ot federativnyh BD etot sposob otlichaet dvustoronnee rasprostranenie dannyh Servisnyj podhod Servisno orientirovannaya arhitektura SOA Service Oriented Architecture uspeshno primenyaemaya pri integracii prilozhenij primenima i pri integracii dannyh Dannye takzhe ostayutsya u vladelcev i dazhe mestonahozhdenie dannyh neizvestno Pri zaprose proishodit obrashenie k opredelyonnym servisam kotorye svyazany s istochnikami gde nahoditsya informaciya i eyo konkretnyj adres Integraciya dannyh obedinyaet informaciyu iz neskolkih istochnikov takim obrazom chtoby eyo mozhno bylo pokazat klientu v vide servisa Servis eto ne zapros v tradicionnom smysle obrasheniya k dannym skoree eto izvlechenie nekotoroj biznes sushnosti ili sushnostej kotoroe mozhet byt vypolneno servisom integracii cherez seriyu zaprosov i drugih servisov Podhod SOA koncentriruetsya v pervuyu ochered na opredelenii i sovmestnom ispolzovanii v forme servisov otnositelno ogranichennogo kolichestva samyh vazhnyh biznes funkcij v korporacii Sledovatelno servis orientirovannye interfejsy v dovolno bolshoj stepeni stroyatsya na ogranichennom kolichestve zaprosov na neobhodimuyu informaciyu kotoruyu nuzhno predstavit potrebitelyu Imeya sootvetstvuyushie uchetnye dannye sistemy bezopasnosti potrebitel mozhet osushestvit vyborku lyubyh dannyh iz istochnika cherez pochti neogranichennoe kolichestvo razlichnyh zaprosov SQL No dlya etogo potrebitel dolzhen imet predstavlenie o modeli istochnika dannyh i sposobe sozdaniya rezultata s ispolzovaniem etoj bazovoj modeli Chem slozhnee model istochnika dannyh tem bolee slozhnoj mozhet okazatsya eta zadacha Krome togo V opisan primer gibridnogo podhoda Drugaya klassifikaciya metodov privedena v Problemy integracii informaciiVne zavisimosti ot vybrannyh tehnologii i metoda integracii dannyh ostayutsya voprosy svyazannye s ih smyslovoj interpretaciej i razlichiyami v predstavlenii odnih i teh zhe veshej Imenno prihoditsya razreshat nesootvetstvie shem dannyh i nesootvetstvie samih dannyh Tipy nesootvetstviya shem dannyh Konflikty neodnorodnosti ispolzuyutsya razlichnye modeli dannyh dlya razlichnyh istochnikov Konflikty imenovaniya v razlichnyh shemah ispolzuetsya razlichnaya terminologiya chto privodit k omonimii i sinonimii v imenovanii Semanticheskie konflikty vybrany razlichnye urovni abstrakcii dlya modelirovaniya podobnyh sushnostej realnogo mira Strukturnye konflikty odni i te zhe sushnosti predstavlyayutsya v raznyh istochnikah raznymi strukturami dannyh Strukturnye i semanticheskie konflikty vylivayutsya v sleduyushie problemy Razlichie v tipah dannyh Nekotoryj domen v odnom istochnike mozhet predstavlyatsya chislom v drugom strokoj fiksirovannoj dliny v tretem strokoj peremennoj dliny Razlichie v edinicah izmereniya V odnoj BD ukazana velichina v santimetrah v drugoj v dyujmah V etom sluchae sushestvuet otobrazhenie 1 1 Razlichie v mnozhestve dopustimyh znachenij Odin i tot zhe priznak mozhet opredelyatsya raznymi naborami konstant Naprimer vypolnenie zadaniya odnim istochnikom mozhet ocenivatsya po chetyrehbalnoj shkale neudovletvoritelno udovletvoritelno horosho otlichno drugim po trehbalnoj tretim po stobalnoj Otobrazhenie ne yavlyaetsya 1 1 ono mozhet byt mnogoznachnym mozhet ne imet obratnogo mozhet zaviset ot storonnih dannyh naprimer 30 po matematike sootvetstvovat udovletvoritelno a po russkomu yazyku neudovletvoritelno Razlichie domen otnoshenie Domen v odnoj BD napr strokovoe znachenie sootvetstvuet tablice v drugoj BD zapisi iz tablicy spravochnika Razlichie domen gruppa domenov V odnom istochnike adres zapisyvaetsya odnoj strokoj v drugom otdelnye polya dlya ulicy doma stroeniya kvartiry Razlichie dannye shema Dannye odnoj BD sootvetstvuyut sheme metadannym drugoj V odnoj BD inzhener znachenie atributa dolzhnost otnosheniya rabotnik v drugoj inzhenery otnoshenie soderzhashee nekotoryh rabotnikov v to vremya kak buhgaltery soderzhit drugih Otsutstvuyushie znacheniya V kakom to iz istochnikov mozhet otsutstvovat informaciya imeyushayasya v bolshinstve drugih Razreshenie etih nesootvetstvij chasto vypolnyaetsya vruchnuyu Obzor avtomaticheskih metodov razresheniya nesootvetstviya shem mozhno najti v Tipy nesootvetstviya sobstvenno dannyh Razlichie formata dannyh ul Bahrushina 18 1 ili Bahrushina d 18 str 1 8 910 234 45 32 ili 8 910 234 45 32 Razlichie v predstavlenii znachenij Naprimer nekaya organizaciya mozhet byt zapisana v otdelnyh istochnikah kak Novolipeckij metallurgicheskij kombinat NLMK OAO NLMK Poterya aktualnosti dannyh odnim iz istochnikov Naprimer smena familii pri zamuzhestve v odnoj BD zapisana novaya familiya v drugoj staraya i oni ne sovpadayut Nalichie oshibok operatorskogo vvoda ili oshibok raspoznavaniya blankov v otdelnyh istochnikah dannyh Syuda otnosyatsya mehanicheskie opechatki oshibki vospriyatiya na sluh slozhnoproiznosimyh imen nazvanij otsutstvie edinyh standartov transkripcii s inostrannyh yazykov Namerennoe vnesenie iskazhenij s celyu zatrudnit identifikaciyu sushnostej Perechislennye razlichiya privodyat k dublirovaniyu zapisej pri integracii dannyh v odnu BD Razreshenie perechislennyh problem i ustranenie dublirovaniya zapisej vruchnuyu prakticheski nevozmozhno Imeetsya mnozhestvo metodov dlya eyo avtomaticheskogo i poluavtomaticheskogo resheniya Po russki zadacha ne imeet ustoyavshegosya termina primenyayutsya sopostavlenie zapisej veroyatnostnoe soedinenie nestrogoe soedinenie nestrogoe sootvetstvie V zarubezhnyh rabotah eta zadacha nosit nazvanie Identity resolution ili Record linkage est i drugie sinonimy Obzor metodov mozhno najti v IstochnikiKogalovskij M R Metody integracii dannyh v informacionnyh sistemah neopr Arhivirovano iz originala 22 iyulya 2012 goda Garsia Molina G Ulman Dzh Uidom Dzh Sistemy baz dannyh Polnyj kurs Database Systems The Complete Book 2003 1088 s ISBN 5 8459 0384 X Integraciya dannyh i Hranilisha neopr Data obrasheniya 25 avgusta 2011 Arhivirovano 30 marta 2014 goda Gyunter Zaufer Mej Selvazh Eojn Lejn Bill Metyus Shablony dlya informacionnogo servisa neopr 3 avgusta 2007 Arhivirovano 22 iyulya 2012 goda Leonid Chernyak Integraciya dannyh sintaksis i semantika neopr Otkrytye sistemy 10 2009 Data obrasheniya 25 avgusta 2011 Arhivirovano 8 oktyabrya 2012 goda William Kent Solving Domain Mismatch and Schema Mismatch Problems with an Object Oriented Database Programming Language neopr Proceedings of the International Conference on Very Large Data Bases 1991 Arhivirovano 22 iyulya 2012 goda Erhard Rahm Philip A Bernstein A Survey of Approaches to Automatic Schema Matching neopr VLDB JOURNAL 2001 Arhivirovano 22 iyulya 2012 goda Ahmed K Elmagarmid Panagiotis G Ipeirotis Vassilios S Verykios Duplicate Record Detection A Survey neopr IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING VOL 19 NO 1 JANUARY 2007 Arhivirovano 22 iyulya 2012 goda Sm takzheData integration angl ETL ETL angl Master data management angl Meshap veb servis Koreferentnost imen v kompyuternoj obrabotke informacii ISO 15926

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто