Хранилище данных
Храни́лище да́нных (англ. data warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения.

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность. Есть два варианта обновления данных в хранилище:
- полное обновление данных в хранилище. Сначала старые данные удаляются, потом происходит загрузка новых данных. Процесс происходит с определённой периодичностью, при этом актуальность данных может несколько отставать от OLTP-системы;
- инкрементальное обновление — обновляются только те данные, которые изменились в OLTP-системе.
Принципы организации хранилища
- Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
- Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
- Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
- Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.
Дизайн хранилищ данных
Существуют два основных архитектурных направления — нормализованные хранилища данных и хранилища с измерениями.
В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ — большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы. При громадных объемах данных могут использовать несколько уровней «витрин»/«хранилищ».
Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.
При достаточно большом объеме данных схемы «звезда» и «снежинка» также дают снижение производительности при соединениях с измерениями.
Процессы работы с данными
Источниками данных могут быть:
- Традиционные системы регистрации операций
- Отдельные документы
- Наборы данных
Операции с данными:
- Извлечение — перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
- Преобразование — подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
- Загрузка — помещение данных в хранилище, производится атомарно, путём добавления новых фактов или корректировкой существующих.
- Анализ — OLAP, Data mining, сводные отчёты.
- Представление результатов анализа.
Вся эта информация используется в словаре метаданных. В автоматически включаются словари источников данных. Здесь же описаны форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени. Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных. Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации. Специальные компоненты словарей должны обеспечивать своевременное извлечение данных из них и обеспечить преобразование данных к единому формату на основе словаря метаданных.
Логическая структура данных хранилища данных существенно отличается от структуры данных источников данных. Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений. Данные для пользователя удобно представлять в многоразмерных БД, где в качестве измерений могут выступать время, цена или географический регион.
Кроме извлечения данных из БД, для принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя. С точки зрения пользователя в процессе извлечения знаний из БД должны решаться следующие преобразования: данные → информация → знания → полученные решения.
См. также
- Business Intelligence
- Реляционная база данных
- Витрина данных
- OLAP
- ETL
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Хранилище данных, Что такое Хранилище данных? Что означает Хранилище данных?
Hrani lishe da nnyh angl data warehouse predmetno orientirovannaya informacionnaya baza dannyh specialno razrabotannaya i prednaznachennaya dlya podgotovki otchyotov i biznes analiza s celyu podderzhki prinyatiya reshenij v organizacii Stroitsya na baze sistem upravleniya bazami dannyh i sistem podderzhki prinyatiya reshenij Dannye postupayushie v hranilishe dannyh kak pravilo dostupny tolko dlya chteniya Obzor hranilisha dannyh i vitriny dannyh Dannye iz OLTP sistemy kopiruyutsya v hranilishe dannyh takim obrazom chtoby pri postroenii otchyotov i OLAP analize ne ispolzovalis resursy tranzakcionnoj sistemy i ne narushalas eyo stabilnost Est dva varianta obnovleniya dannyh v hranilishe polnoe obnovlenie dannyh v hranilishe Snachala starye dannye udalyayutsya potom proishodit zagruzka novyh dannyh Process proishodit s opredelyonnoj periodichnostyu pri etom aktualnost dannyh mozhet neskolko otstavat ot OLTP sistemy inkrementalnoe obnovlenie obnovlyayutsya tolko te dannye kotorye izmenilis v OLTP sisteme Principy organizacii hranilishaProblemno predmetnaya orientaciya Dannye obedinyayutsya v kategorii i hranyatsya v sootvetstvii s oblastyami kotorye oni opisyvayut a ne s prilozheniyami kotorye oni ispolzuyut Integrirovannost Dannye obedineny tak chtoby oni udovletvoryali vsem trebovaniyam predpriyatiya v celom a ne edinstvennoj funkcii biznesa Nekorrektiruemost Dannye v hranilishe dannyh ne sozdayutsya to est postupayut iz vneshnih istochnikov ne korrektiruyutsya i ne udalyayutsya Zavisimost ot vremeni Dannye v hranilishe tochny i korrektny tolko v tom sluchae kogda oni privyazany k nekotoromu promezhutku ili momentu vremeni Dizajn hranilish dannyhSushestvuyut dva osnovnyh arhitekturnyh napravleniya normalizovannye hranilisha dannyh i hranilisha s izmereniyami V normalizovannyh hranilishah dannye nahodyatsya v predmetno orientirovannyh tablicah tretej normalnoj formy Normalizovannye hranilisha harakterizuyutsya kak prostye v sozdanii i upravlenii nedostatki normalizovannyh hranilish bolshoe kolichestvo tablic kak sledstvie normalizacii iz za chego dlya polucheniya kakoj libo informacii nuzhno delat vyborku iz mnogih tablic odnovremenno chto privodit k uhudsheniyu proizvoditelnosti sistemy Dlya resheniya etoj problemy ispolzuyutsya denormalizovannye tablicy vitriny dannyh na osnove kotoryh uzhe vyvodyatsya otchetnye formy Pri gromadnyh obemah dannyh mogut ispolzovat neskolko urovnej vitrin hranilish Hranilisha s izmereniyami ispolzuyut shemu zvezda ili shemu snezhinka Pri etom v centre zvezdy nahodyatsya dannye tablica faktov a izmereniya obrazuyut luchi zvezdy Razlichnye tablicy faktov sovmestno ispolzuyut tablicy izmerenij chto znachitelno oblegchaet operacii obedineniya dannyh iz neskolkih predmetnyh tablic faktov primer fakty prodazh i postavok tovara Tablicy dannyh i sootvetstvuyushie izmereniya obrazuyut arhitekturu shina Izmereniya chasto sozdayutsya v tretej normalnoj forme v tom chisle dlya protokolirovaniya izmeneniya v izmereniyah Osnovnym dostoinstvom hranilish s izmereniyami yavlyaetsya prostota i ponyatnost dlya razrabotchikov i polzovatelej takzhe blagodarya bolee effektivnomu hraneniyu dannyh i formalizovannym izmereniyam oblegchaetsya i uskoryaetsya dostup k dannym osobenno pri slozhnyh analizah Osnovnym nedostatkom yavlyaetsya bolee slozhnye procedury podgotovki i zagruzki dannyh a takzhe upravlenie i izmenenie izmerenij dannyh Pri dostatochno bolshom obeme dannyh shemy zvezda i snezhinka takzhe dayut snizhenie proizvoditelnosti pri soedineniyah s izmereniyami Processy raboty s dannymiIstochnikami dannyh mogut byt Tradicionnye sistemy registracii operacij Otdelnye dokumenty Nabory dannyh Operacii s dannymi Izvlechenie peremeshenie informacii ot istochnikov dannyh v otdelnuyu BD privedenie ih k edinomu formatu Preobrazovanie podgotovka informacii k hraneniyu v optimalnoj forme dlya realizacii zaprosa neobhodimogo dlya prinyatiya reshenij Zagruzka pomeshenie dannyh v hranilishe proizvoditsya atomarno putyom dobavleniya novyh faktov ili korrektirovkoj sushestvuyushih Analiz OLAP Data mining svodnye otchyoty Predstavlenie rezultatov analiza Vsya eta informaciya ispolzuetsya v slovare metadannyh V avtomaticheski vklyuchayutsya slovari istochnikov dannyh Zdes zhe opisany formaty dannyh dlya ih posleduyushego soglasovaniya periodichnost popolneniya dannyh soglasovannost vo vremeni Zadacha slovarya metadannyh sostoit v tom chtoby osvobodit razrabotchika ot neobhodimosti standartizirovat istochniki dannyh Sozdanie hranilish dannyh ne dolzhno protivorechit dejstvuyushim sistemam sbora i obrabotki informacii Specialnye komponenty slovarej dolzhny obespechivat svoevremennoe izvlechenie dannyh iz nih i obespechit preobrazovanie dannyh k edinomu formatu na osnove slovarya metadannyh Logicheskaya struktura dannyh hranilisha dannyh sushestvenno otlichaetsya ot struktury dannyh istochnikov dannyh Dlya razrabotki effektivnogo processa preobrazovaniya neobhodima horosho prorabotannaya model korporativnyh dannyh i model tehnologii prinyatiya reshenij Dannye dlya polzovatelya udobno predstavlyat v mnogorazmernyh BD gde v kachestve izmerenij mogut vystupat vremya cena ili geograficheskij region Krome izvlecheniya dannyh iz BD dlya prinyatiya reshenij vazhen process izvlecheniya znanij v sootvetstvii s informacionnymi potrebnostyami polzovatelya S tochki zreniya polzovatelya v processe izvlecheniya znanij iz BD dolzhny reshatsya sleduyushie preobrazovaniya dannye informaciya znaniya poluchennye resheniya Sm takzheBusiness Intelligence Relyacionnaya baza dannyh Vitrina dannyh OLAP ETL
