Неструктурированные данные
Неструктури́рованные да́нные — данные, которые не соответствуют заранее определённой модели данных, и, как правило, представлены в форме текста с датами, цифрами, фактами, расположенными в нём в произвольной форме. Такие данные трудно анализировать, особенно при помощи традиционных программ, предназначенных для работы со (аннотированными или хранящимися в базах).

По оценкам Merrill Lynch 1998 года около 80—90 % от всей потенциально полезной деловой информации было представлено в неструктурированной форме[1], однако это соотношение не было основано на статистике или количественных исследованиях, а являлось предположением[2]. Computerworld оценивает объём неструктурированных данных в организациях в 70—80 % от всех данных[3].
История
Самые ранние исследования в области бизнес-аналитики были сосредоточены не на числовых данных, а на неструктурированных текстовых данных. Уже в 1958 году такие исследователи в области информационных технологий, как Х. П. Лун, изучали способы извлечения и классификации данных в неструктурированном тексте. Тем не менее, только с начала 2000-х годов имеющиеся технологии догнали исследовательский интерес. В 2004 году SAS Institute разработал SAS Text Miner, который использует сингулярное разложение, чтобы факторизовать текстовое пространство высокой размерности на подпространства меньшей размерности для значительного упрощения машинного анализа[неавторитетный источник]. Достижения в области математики и технологий машинной обработки текстов стимулировали проведения исследований коммерческими организациями в таких областях, как анализ тональности текста (сентимент-анализ), сбор и анализ мнений потребителей, автоматизация центров обработки вызовов[неавторитетный источник]. Появление технологий больших данных в конце 2000-х годов стимулировало повышенный интерес к программам для анализа неструктурированных данных в современных областях, таких как прогнозирование и причинно-следственный анализ (root cause analysis).
Трудности терминологии
Термин «неструктурированные данные» может считаться неточным по нескольким причинам:
- структура, даже если она не определена формально, может подразумеваться;
- данные, обладающие структурой некоторой формы, могут по-прежнему характеризоваться как неструктурированные, если их структура не предназначена для машинной обработки;
- неструктурированная информация может иметь некоторую структуру (такая информация называется полуструктурированной) или даже быть хорошо структурированной, но теми способами, которые являются неочевидными без предварительного согласования.
Работа с неструктурированными данными
Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста, предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.
Методы структурирования текста обычно включают ручное тегирование (метаданные) или разметку по частям речи для дальнейшего структурирования текста. (UIMA) обеспечивает общую основу для обработки этой информации для извлечения значений и создания структурированных данных на основе неструктурированной информации[4]. Программное обеспечение, которое создает машинно-обрабатываемую структуру данных, использует лингвистические, звуковые и визуальные структуры, которые существуют во всех формах человеческого общения[5]. Например, специальные алгоритмы могут вывести структуру из текста путем анализа морфологии, синтаксиса предложений, и так далее. Затем неструктурированную информацию можно разметить для снятия неоднозначности, а для улучшения поиска используются методы оценки релевантности.
Примером «неструктурированных данных» могут служить книги, журналы, документы, метаданные, медицинские записи, аудио, видео, аналоговые данные, изображения, а также файлы, имеющие основой неструктурированный текст: сообщения электронной почты, веб-страницы, документы, созданные с помощью текстовых процессоров. Неструктурированная информация может храниться в форме структурированных объектов (например, в форме файлов или документов), которые сами по себе имеют структуру. При этом сочетание структурированных и неструктурированных данных в совокупности также называется «неструктурированные данные»[6]. Например, в веб-страницах на языке HTML уже есть разметка, однако она пригодна лишь для отображения. В ней не содержится информация о значениях или функциях тех или иных размеченных элементов в виде, пригодном для автоматической обработки. Разметку средствами XHTML проще обрабатывать автоматически, но, обычно, в ней не содержится семантических значений выражений.
Так как неструктурированные данные обычно хранятся в форме электронных документов, программы для анализа содержания или управления документами предпочитают классифицировать скорее целые документы, чем производить манипуляции внутри документов. Таким образом, программы для обработки такого типа данных обычно представляют средства для создания коллекций документов с неструктурированной информацией. Однако сегодня существуют также решения, работающие с атомарными элементами меньшими, чем целый документ.
Поисковые системы стали одним из популярных инструментов для индексации и поиска в неструктурированных данных.
Примечания
- Unstructured data Архивная копия от 21 сентября 2020 на Wayback Machine // geeksforgeeks.org
- [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Архивная копия от 20 октября 2017 на Wayback Machine Unstructured data] Архивная копия от 20 октября 2017 на Wayback Machine // PC Magazine Encyclopedia
- Grimes, Seth. A Brief History of Text Analytics. B Eye Network. Дата обращения: 24 июня 2016. Архивировано 8 декабря 2017 года.
- Albright, Russ. Taming Text with the SVD. SAS. Дата обращения: 24 июня 2016. Архивировано 21 сентября 2017 года.
- Desai, Manish. Applications of Text Analytics. My Business Analytics @ Blogspot. Дата обращения: 24 июня 2016. Архивировано 13 октября 2016 года.
- Chakraborty, Goutam. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining. SAS. Дата обращения: 24 июня 2016. Архивировано 13 января 2017 года.
- Datagrav: A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media | Sergey Kochuguev — Academia.edu. Дата обращения: 21 сентября 2016. Архивировано 15 декабря 2019 года.
Ссылки
- Артак Оганесян. Неструктурированные данные 2.0 Архивная копия от 11 декабря 2016 на Wayback Machine // Открытые системы. СУБД, 2012, № 04
- Леонид Черняк. Аналитика неструктурированных данных Архивная копия от 16 января 2017 на Wayback Machine // Открытые системы. СУБД, 2012, № 06
- Антон Иванов. Комплексный анализ неструктурированных данных Архивная копия от 15 ноября 2016 на Wayback Machine // Открытые системы. СУБД, 2013, № 06
- Артем Гришковский. Интегрированная обработка неструктурированных данных Архивная копия от 11 декабря 2016 на Wayback Machine // Открытые системы. СУБД, 2013, № 06
- Structure, Models and Meaning: Is «unstructured» data merely unmodeled? Архивная копия от 11 февраля 2009 на Wayback Machine, , March 1, 2005.
- Structuring Unstructured Data Архивная копия от 30 ноября 2016 на Wayback Machine, Forbes, April 5, 2007.
- Christopher C. Shilakes and Julie Tylman, «Enterprise Information Portals», Merrill Lynch, 16 November 1998.
- Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field // Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data (англ.) / Holzinger, Andreas; Pasi, Gabriella. — Springer, 2013. — P. 13—24. — (Lecture Notes in Computer Science). — ISBN 978-3-642-39146-0. — doi:10.1007/978-3-642-39146-0_2.
- Unstructured Data and the 80 Percent Rule Архивная копия от 12 сентября 2014 на Wayback Machine, Seth Grimes, Bridgepoints, 2008 Q3.
- Today’s Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn’t An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010
- New Digital Universe Study Reveals Big Data Gap: Less Than 1 % of World’s Data is Analyzed; Less Than 20 % is Protected Архивная копия от 18 апреля 2016 на Wayback Machine, EMC Press Release, December 2012.
- Semi- and unstructured data processing / preparation in IRI CoSort Архивная копия от 16 октября 2016 на Wayback Machine, May 2014.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Неструктурированные данные, Что такое Неструктурированные данные? Что означает Неструктурированные данные?
Nestrukturi rovannye da nnye dannye kotorye ne sootvetstvuyut zaranee opredelyonnoj modeli dannyh i kak pravilo predstavleny v forme teksta s datami ciframi faktami raspolozhennymi v nyom v proizvolnoj forme Takie dannye trudno analizirovat osobenno pri pomoshi tradicionnyh programm prednaznachennyh dlya raboty so annotirovannymi ili hranyashimisya v bazah Photograph of Departmental Records Branch Military Records Center in Alexandria Virginia NARA 23855327 Po ocenkam Merrill Lynch 1998 goda okolo 80 90 ot vsej potencialno poleznoj delovoj informacii bylo predstavleno v nestrukturirovannoj forme 1 odnako eto sootnoshenie ne bylo osnovano na statistike ili kolichestvennyh issledovaniyah a yavlyalos predpolozheniem 2 Computerworld ocenivaet obyom nestrukturirovannyh dannyh v organizaciyah v 70 80 ot vseh dannyh 3 IstoriyaSamye rannie issledovaniya v oblasti biznes analitiki byli sosredotocheny ne na chislovyh dannyh a na nestrukturirovannyh tekstovyh dannyh Uzhe v 1958 godu takie issledovateli v oblasti informacionnyh tehnologij kak H P Lun izuchali sposoby izvlecheniya i klassifikacii dannyh v nestrukturirovannom tekste Tem ne menee tolko s nachala 2000 h godov imeyushiesya tehnologii dognali issledovatelskij interes V 2004 godu SAS Institute razrabotal SAS Text Miner kotoryj ispolzuet singulyarnoe razlozhenie chtoby faktorizovat tekstovoe prostranstvo vysokoj razmernosti na podprostranstva menshej razmernosti dlya znachitelnogo uprosheniya mashinnogo analiza neavtoritetnyj istochnik Dostizheniya v oblasti matematiki i tehnologij mashinnoj obrabotki tekstov stimulirovali provedeniya issledovanij kommercheskimi organizaciyami v takih oblastyah kak analiz tonalnosti teksta sentiment analiz sbor i analiz mnenij potrebitelej avtomatizaciya centrov obrabotki vyzovov neavtoritetnyj istochnik Poyavlenie tehnologij bolshih dannyh v konce 2000 h godov stimulirovalo povyshennyj interes k programmam dlya analiza nestrukturirovannyh dannyh v sovremennyh oblastyah takih kak prognozirovanie i prichinno sledstvennyj analiz root cause analysis Trudnosti terminologiiTermin nestrukturirovannye dannye mozhet schitatsya netochnym po neskolkim prichinam struktura dazhe esli ona ne opredelena formalno mozhet podrazumevatsya dannye obladayushie strukturoj nekotoroj formy mogut po prezhnemu harakterizovatsya kak nestrukturirovannye esli ih struktura ne prednaznachena dlya mashinnoj obrabotki nestrukturirovannaya informaciya mozhet imet nekotoruyu strukturu takaya informaciya nazyvaetsya polustrukturirovannoj ili dazhe byt horosho strukturirovannoj no temi sposobami kotorye yavlyayutsya neochevidnymi bez predvaritelnogo soglasovaniya Rabota s nestrukturirovannymi dannymiTakie tehniki kak intellektualnyj analiz dannyh data mining obrabotka estestvennogo yazyka Natural Language Processing i intellektualnyj analiz teksta predostavlyayut metody poiska zakonomernostej s celyu tak ili inache interpretirovat nestrukturirovannuyu informaciyu Metody strukturirovaniya teksta obychno vklyuchayut ruchnoe tegirovanie metadannye ili razmetku po chastyam rechi dlya dalnejshego strukturirovaniya teksta UIMA obespechivaet obshuyu osnovu dlya obrabotki etoj informacii dlya izvlecheniya znachenij i sozdaniya strukturirovannyh dannyh na osnove nestrukturirovannoj informacii 4 Programmnoe obespechenie kotoroe sozdaet mashinno obrabatyvaemuyu strukturu dannyh ispolzuet lingvisticheskie zvukovye i vizualnye struktury kotorye sushestvuyut vo vseh formah chelovecheskogo obsheniya 5 Naprimer specialnye algoritmy mogut vyvesti strukturu iz teksta putem analiza morfologii sintaksisa predlozhenij i tak dalee Zatem nestrukturirovannuyu informaciyu mozhno razmetit dlya snyatiya neodnoznachnosti a dlya uluchsheniya poiska ispolzuyutsya metody ocenki relevantnosti Primerom nestrukturirovannyh dannyh mogut sluzhit knigi zhurnaly dokumenty metadannye medicinskie zapisi audio video analogovye dannye izobrazheniya a takzhe fajly imeyushie osnovoj nestrukturirovannyj tekst soobsheniya elektronnoj pochty veb stranicy dokumenty sozdannye s pomoshyu tekstovyh processorov Nestrukturirovannaya informaciya mozhet hranitsya v forme strukturirovannyh obektov naprimer v forme fajlov ili dokumentov kotorye sami po sebe imeyut strukturu Pri etom sochetanie strukturirovannyh i nestrukturirovannyh dannyh v sovokupnosti takzhe nazyvaetsya nestrukturirovannye dannye 6 Naprimer v veb stranicah na yazyke HTML uzhe est razmetka odnako ona prigodna lish dlya otobrazheniya V nej ne soderzhitsya informaciya o znacheniyah ili funkciyah teh ili inyh razmechennyh elementov v vide prigodnom dlya avtomaticheskoj obrabotki Razmetku sredstvami XHTML proshe obrabatyvat avtomaticheski no obychno v nej ne soderzhitsya semanticheskih znachenij vyrazhenij Tak kak nestrukturirovannye dannye obychno hranyatsya v forme elektronnyh dokumentov programmy dlya analiza soderzhaniya ili upravleniya dokumentami predpochitayut klassificirovat skoree celye dokumenty chem proizvodit manipulyacii vnutri dokumentov Takim obrazom programmy dlya obrabotki takogo tipa dannyh obychno predstavlyayut sredstva dlya sozdaniya kollekcij dokumentov s nestrukturirovannoj informaciej Odnako segodnya sushestvuyut takzhe resheniya rabotayushie s atomarnymi elementami menshimi chem celyj dokument Poiskovye sistemy stali odnim iz populyarnyh instrumentov dlya indeksacii i poiska v nestrukturirovannyh dannyh PrimechaniyaUnstructured data Arhivnaya kopiya ot 21 sentyabrya 2020 na Wayback Machine geeksforgeeks org https web archive org web 20171020135110 https www pcmag com encyclopedia term unstructured data Arhivnaya kopiya ot 20 oktyabrya 2017 na Wayback Machine Unstructured data Arhivnaya kopiya ot 20 oktyabrya 2017 na Wayback Machine PC Magazine Encyclopedia Grimes Seth A Brief History of Text Analytics neopr B Eye Network Data obrasheniya 24 iyunya 2016 Arhivirovano 8 dekabrya 2017 goda Albright Russ Taming Text with the SVD neopr SAS Data obrasheniya 24 iyunya 2016 Arhivirovano 21 sentyabrya 2017 goda Desai Manish Applications of Text Analytics neopr My Business Analytics Blogspot Data obrasheniya 24 iyunya 2016 Arhivirovano 13 oktyabrya 2016 goda Chakraborty Goutam Analysis of Unstructured Data Applications of Text Analytics and Sentiment Mining neopr SAS Data obrasheniya 24 iyunya 2016 Arhivirovano 13 yanvarya 2017 goda Datagrav A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media Sergey Kochuguev Academia edu neopr Data obrasheniya 21 sentyabrya 2016 Arhivirovano 15 dekabrya 2019 goda SsylkiArtak Oganesyan Nestrukturirovannye dannye 2 0 Arhivnaya kopiya ot 11 dekabrya 2016 na Wayback Machine Otkrytye sistemy SUBD 2012 04 Leonid Chernyak Analitika nestrukturirovannyh dannyh Arhivnaya kopiya ot 16 yanvarya 2017 na Wayback Machine Otkrytye sistemy SUBD 2012 06 Anton Ivanov Kompleksnyj analiz nestrukturirovannyh dannyh Arhivnaya kopiya ot 15 noyabrya 2016 na Wayback Machine Otkrytye sistemy SUBD 2013 06 Artem Grishkovskij Integrirovannaya obrabotka nestrukturirovannyh dannyh Arhivnaya kopiya ot 11 dekabrya 2016 na Wayback Machine Otkrytye sistemy SUBD 2013 06 Structure Models and Meaning Is unstructured data merely unmodeled Arhivnaya kopiya ot 11 fevralya 2009 na Wayback Machine March 1 2005 Structuring Unstructured Data Arhivnaya kopiya ot 30 noyabrya 2016 na Wayback Machine Forbes April 5 2007 Christopher C Shilakes and Julie Tylman Enterprise Information Portals Merrill Lynch 16 November 1998 Holzinger Andreas Stocker Christof Ofner Bernhard Prohaska Gottfried Brabenetz Alberto Hofmann Wellenhof Rainer Combining HCI Natural Language Processing and Knowledge Discovery Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field Human Computer Interaction and Knowledge Discovery in Complex Unstructured Big Data angl Holzinger Andreas Pasi Gabriella Springer 2013 P 13 24 Lecture Notes in Computer Science ISBN 978 3 642 39146 0 doi 10 1007 978 3 642 39146 0 2 Unstructured Data and the 80 Percent Rule Arhivnaya kopiya ot 12 sentyabrya 2014 na Wayback Machine Seth Grimes Bridgepoints 2008 Q3 Today s Challenge in Government What to do with Unstructured Information and Why Doing Nothing Isn t An Option Noel Yuhanna Principal Analyst Forrester Research Nov 2010 New Digital Universe Study Reveals Big Data Gap Less Than 1 of World s Data is Analyzed Less Than 20 is Protected Arhivnaya kopiya ot 18 aprelya 2016 na Wayback Machine EMC Press Release December 2012 Semi and unstructured data processing preparation in IRI CoSort Arhivnaya kopiya ot 16 oktyabrya 2016 na Wayback Machine May 2014
