Википедия

Большие данные

Больши́е да́нные (англ. big data, [ˈbɪɡ ˈdeɪtə]) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных); в дальнейшем возникли различные вариации и интерпретации этого признака.

С точки зрения информационных технологий, в совокупность подходов и инструментов изначально включались средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, системами управления базами данных категории NoSQL, алгоритмами MapReduce и реализующими их программными каркасами и библиотеками проекта Hadoop. В дальнейшем к серии технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.

image
Мировой технологический потенциал для хранения, передачи и обработки данных (динамика роста и изменение цифровой доли информации в мире):
— 2002 год явился переломным в изменении соотношения мирового объёма аналоговых и цифровых данных в пользу последних, объём которых увеличивался в геометрической прогрессии (лавинообразно);
— к 2007 году объём цифровых данных превысил объём аналоговых почти в 15 раз, составив 280 эксабайт цифровых данных к 19 аналоговых.

История

Широкое введение термина «большие данные» связывают с , редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».

Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений[обтекаемое выражение], относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях использует понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.

В 2011 году Gartner отметил большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов.

С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных и вычислительным наукам и инженерии.

В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, фигурировавшие в выделенном цикле зрелости, по большей части перешли в специальные циклы по и науке о данных, по BI и анализу данных, корпоративному управлению информацией, , информационной инфраструктуре.

VVV

Набор признаков VVV (volume, velocity, variety) изначально выработан Meta Group в 2001 году вне контекста представлений о больших данных как об определённой серии информационно-технологических методов и инструментов, в нём, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначимость проблематик управления данными по всем трём аспектам. В дальнейшем появились интерпретации с «четырьмя V» (добавлялась veracity — достоверность, использовалась в рекламных материалах IBM), «пятью V» (в этом варианте прибавляли viability — жизнеспособность, и value — ценность), и даже «семью V» (кроме всего, добавляли также variability — переменчивость, и visualization). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Во всех случаях в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но другие категории, существенные для представления о сложности задачи обработки и анализа данных.

Источники

Классическими источниками больших данных признаются интернет вещей и социальные медиа, считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики, из астрономических наблюдений.

В качестве примеров источников возникновения больших данных приводятся непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey:

  • методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
  • краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
  • смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
  • машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
  • искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
  • статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
  • визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Наиболее часто указывают в качестве базового принципа обработки больших данных горизонтальную масштабируемость, обеспечивающую обработку данных, распределённых на сотни и тысячи вычислительных узлов, без деградации производительности; в частности, этот принцип включён в определение больших данных от NIST. При этом McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL.

NoSQL

MapReduce

Hadoop

R

Аппаратные решения

Существует ряд аппаратно-программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных: (корпорации Teradata), , (корпорации EMC, на основе решений поглощённой компании Greenplum). Эти комплексы поставляются как готовые к установке в центры обработки данных телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.

Аппаратные решения для , прежде всего, для баз данных в оперативной памяти и аналитики в оперативной памяти, в частности, предлагаемой аппаратно-программными комплексами Hana (предконфигурированное аппаратно-программное решение компании SAP) и Exalytics (комплекс компании Oracle на основе реляционной системы [англ.] и Essbase), также иногда относят к решениям из области больших данных, несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.

Кроме того иногда к решениям для больших данных относят и аппаратно-программные комплексы на основе традиционных реляционных систем управления базами данных — Netezza, Teradata, Exadata, как способные эффективно обрабатывать терабайты и эксабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний [англ.], впервые выпущенные в 1983 году, и Teradata (начали выпускаться в 1984 году, притом в 1990 году Teradata поглотила Britton Lee).

Аппаратные решения DAS — систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям больших данных. Именно с появлением концепции больших данных связывают всплеск интереса к DAS-решениям в начале 2010-х годов, после вытеснения их в 2000-е годы сетевыми решениями классов NAS и SAN.

Примечания

  1. Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
  2. PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.
  3. McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
  4. Майер-Шенбергер, 2014.
  5. Gartner, 2011.
  6. Канаракус, Крис. Машина Больших Данных. , № 04, 2011. Открытые системы (1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)». Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  7. PwC, 2010, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными, с. 42.
  8. The World’s Technological Capacity to Store, Communicate, and Compute Information. MartinHilbert.net. Дата обращения: 13 апреля 2016. Архивировано 14 апреля 2016 года.
  9. Черняк, 2011, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.
  10. Повесть «Большая руда»,
  11. Дубова, Наталья. Большая конференция о Больших Данных. Открытые системы (3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных». Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  12. Henschen, Doug. Oracle Releases NoSQL Database, Advances Big Data Plans (англ.). InformationWeek (24 октября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  13. Finley, Klint. Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup (англ.). (17 июля 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  14. Шах, Агам. HP меняет персональные компьютеры на Большие Данные. Открытые системы (19 августа 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  15. EMC Tries To Unify Big Data Analytics (англ.). InformationWeek (21 сентября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  16. Woo, Benjamin et al. IDC's Worldwide Big Data Taxonomy (англ.). International Data Corporation (1 октября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  17. Evelson, Boris and Hopkins, Brian. How Forrester Clients Are Using Big Data (англ.). Forrester Research (20 сентября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  18. McKinsey, 2011.
  19. Thibodeau, Patrick. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data (англ.). Computerworld (18 октября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  20. Черняк, 2011, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.
  21. MSc in Data Science (англ.). School of Computing. Dundee University (1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013. Архивировано 22 января 2013 года.
  22. Master of Science degree. Harvard's first degree program in Computational Science and Engineering is an intensive year of coursework leading to the Master of Science (англ.). Institute for Applied Computational Science. Harvard University (1 января 2013). — «“…Many of the defining questions of this era in science and technology will be centered on ‘big data’ and machine learning. This master’s program will prepare students to answer those questions…”». Дата обращения: 18 января 2013. Архивировано 22 января 2013 года.
  23. Simon Sharwood. Forget Big Data hype, says Gartner as it cans its hype cycle (англ.). The Register (21 августа 2015). Дата обращения: 19 февраля 2017. Архивировано 20 февраля 2017 года.
  24. Doug Laney. 3D Data Management: Controlling Data Volume, Velocity, and Variety (англ.). Meta Group (6 февраля 2001). Дата обращения: 19 февраля 2017. Архивировано 23 июля 2013 года.
  25. The Four V´s of Big Data (англ.). IBM (2011). Дата обращения: 19 февраля 2017. Архивировано 16 июня 2016 года.
  26. Neil Biehn. The Missing V’s in Big Data: Viability and Value (англ.). Wired (1 мая 2013). Дата обращения: 19 февраля 2017. Архивировано 20 февраля 2017 года.
  27. Eileen McNulty. Understanding Big Data: The Seven V’s (англ.). Dataconomy (22 мая 2014). Дата обращения: 19 февраля 2017. Архивировано 20 февраля 2017 года.
  28. Чэнь и др., 2014, “big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling the high-velocity capture, discovery, and/or analysis”, p. 4.
  29. Чэнь и др., 2014, p. 19—23.
  30. McKinsey, 2011, pp. 7—8.
  31. Черняк, 2011.
  32. McKinsey, 2011, pp. 27—31.
  33. Чэнь и др., 2014, “Big data shall mean the data of which the data volume, acquisition speed, or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies”, p. 4.
  34. McKinsey, 2011, pp. 31—33.
  35. Черняк, 2011, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.
  36. Darrow, Barb. Oracle launches Exalytics, an appliance for big data (англ.). (2 октября 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.
  37. Черняк, 2011, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных.
  38. Леонид Черняк. Большие данные возрождают DAS. «Computerworld Россия» , № 14, 2011. Открытые системы (5 мая 2011). Дата обращения: 12 ноября 2011. Архивировано 3 сентября 2012 года.

Литература

  • Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung. Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 p. — ISBN 978-3-319-06244-0. — doi:10.1007/978-3-319-06245-7.
  • Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014. — 240 с. — ISBN 987-5-91657-936-9.
  • Preimesberger, Chris. Hadoop, Yahoo, 'Big Data' Brighten BI Future (англ.). EWeek (15 августа 2011). Дата обращения: 12 ноября 2011. Архивировано 17 мая 2012 года.
  • Леонид Черняк. Большие Данные — новая теория и практика // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028-7493.
  • Алан Моррисон и др. Большие Данные: как извлечь из них информацию. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения: 12 ноября 2011. Архивировано 11 марта 2012 года.
  • Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data (англ.). Gartner (27 июня 2011). Дата обращения: 12 ноября 2011. Архивировано 17 мая 2012 года.
  • James Manyika et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 августа 2011). Дата обращения: 12 ноября 2011. Архивировано 11 декабря 2012 года.

Ссылки

  • Серьёзно о технологиях для Больших Данных | Открытые системы. СУБД | Издательство «Открытые системы» osp.ru
  • Свежий взгляд на Большие Данные | Открытые системы. СУБД | Издательство «Открытые системы» osp.ru

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Большие данные, Что такое Большие данные? Что означает Большие данные?

Bolshi e da nnye angl big data ˈbɪɡ ˈdeɪte oboznachenie strukturirovannyh i nestrukturirovannyh dannyh ogromnyh obyomov i znachitelnogo mnogoobraziya effektivno obrabatyvaemyh gorizontalno masshtabiruemymi programmnymi instrumentami poyavivshimisya v konce 2000 h godov i alternativnyh tradicionnym sistemam upravleniya bazami dannyh i resheniyam klassa Business Intelligence V shirokom smysle o bolshih dannyh govoryat kak o socialno ekonomicheskom fenomene svyazannom s poyavleniem tehnologicheskih vozmozhnostej analizirovat ogromnye massivy dannyh v nekotoryh problemnyh oblastyah ves mirovoj obyom dannyh i vytekayushih iz etogo transformacionnyh posledstvij V kachestve opredelyayushih harakteristik dlya bolshih dannyh tradicionno vydelyayut tri V obyom angl volume v smysle velichiny fizicheskogo obyoma skorost velocity v smyslah kak skorosti prirosta tak i neobhodimosti vysokoskorostnoj obrabotki i polucheniya rezultatov mnogoobrazie variety v smysle vozmozhnosti odnovremennoj obrabotki razlichnyh tipov strukturirovannyh i polustrukturirovannyh dannyh v dalnejshem voznikli razlichnye variacii i interpretacii etogo priznaka S tochki zreniya informacionnyh tehnologij v sovokupnost podhodov i instrumentov iznachalno vklyuchalis sredstva massovo parallelnoj obrabotki neopredelyonno strukturirovannyh dannyh prezhde vsego sistemami upravleniya bazami dannyh kategorii NoSQL algoritmami MapReduce i realizuyushimi ih programmnymi karkasami i bibliotekami proekta Hadoop V dalnejshem k serii tehnologij bolshih dannyh stali otnosit raznoobraznye informacionno tehnologicheskie resheniya v toj ili inoj stepeni obespechivayushie shodnye po harakteristikam vozmozhnosti po obrabotke sverhbolshih massivov dannyh Mirovoj tehnologicheskij potencial dlya hraneniya peredachi i obrabotki dannyh dinamika rosta i izmenenie cifrovoj doli informacii v mire 2002 god yavilsya perelomnym v izmenenii sootnosheniya mirovogo obyoma analogovyh i cifrovyh dannyh v polzu poslednih obyom kotoryh uvelichivalsya v geometricheskoj progressii lavinoobrazno k 2007 godu obyom cifrovyh dannyh prevysil obyom analogovyh pochti v 15 raz sostaviv 280 eksabajt cifrovyh dannyh k 19 analogovyh IstoriyaShirokoe vvedenie termina bolshie dannye svyazyvayut s redaktorom zhurnala Nature podgotovivshim k 3 sentyabrya 2008 goda specialnyj vypusk s temoj Kak mogut povliyat na budushee nauki tehnologii otkryvayushie vozmozhnosti raboty s bolshimi obyomami dannyh v kotorom byli sobrany materialy o fenomene vzryvnogo rosta obyomov i mnogoobraziya obrabatyvaemyh dannyh i tehnologicheskih perspektivah v paradigme veroyatnogo skachka ot kolichestva k kachestvu termin byl predlozhen po analogii s rashozhimi v delovoj angloyazychnoj srede metaforami bolshaya neft bolshaya ruda Nesmotrya na to chto termin vvodilsya v akademicheskoj srede i prezhde vsego razbiralas problema rosta i mnogoobraziya nauchnyh dannyh nachinaya s 2009 goda termin shiroko rasprostranilsya v delovoj presse a k 2010 godu otnosyat poyavlenie pervyh produktov i reshenij obtekaemoe vyrazhenie otnosyashihsya isklyuchitelno i neposredstvenno k probleme obrabotki bolshih dannyh K 2011 godu bolshinstvo krupnejshih postavshikov informacionnyh tehnologij dlya organizacij v svoih delovyh strategiyah ispolzuet ponyatie o bolshih dannyh v tom chisle IBM Oracle Microsoft Hewlett Packard EMC a osnovnye analitiki rynka informacionnyh tehnologij posvyashayut koncepcii vydelennye issledovaniya V 2011 godu Gartner otmetil bolshie dannye kak trend nomer dva v informacionno tehnologicheskoj infrastrukture posle virtualizacii i kak bolee sushestvennyj chem energosberezhenie i monitoring V eto zhe vremya prognozirovalos chto vnedrenie tehnologij bolshih dannyh naibolshee vliyanie okazhet na informacionnye tehnologii v proizvodstve zdravoohranenii torgovle gosudarstvennom upravlenii a takzhe v sferah i otraslyah gde registriruyutsya individualnye peremesheniya resursov S 2013 goda bolshie dannye kak akademicheskij predmet izuchayutsya v poyavivshihsya vuzovskih programmah po nauke o dannyh i vychislitelnym naukam i inzhenerii V 2015 godu Gartner isklyuchil bolshie dannye iz cikla zrelosti novyh tehnologij i prekratil vypuskat vyhodivshij v 2011 2014 gody otdelnyj cikl zrelosti tehnologij bolshih dannyh motivirovav eto perehodom ot etapa shumihi k prakticheskomu primeneniyu Tehnologii figurirovavshie v vydelennom cikle zrelosti po bolshej chasti pereshli v specialnye cikly po i nauke o dannyh po BI i analizu dannyh korporativnomu upravleniyu informaciej informacionnoj infrastrukture VVVNabor priznakov VVV volume velocity variety iznachalno vyrabotan Meta Group v 2001 godu vne konteksta predstavlenij o bolshih dannyh kak ob opredelyonnoj serii informacionno tehnologicheskih metodov i instrumentov v nyom v svyazi s rostom populyarnosti koncepcii centralnogo hranilisha dannyh dlya organizacij otmechalas ravnoznachimost problematik upravleniya dannymi po vsem tryom aspektam V dalnejshem poyavilis interpretacii s chetyrmya V dobavlyalas veracity dostovernost ispolzovalas v reklamnyh materialah IBM pyatyu V v etom variante pribavlyali viability zhiznesposobnost i value cennost i dazhe semyu V krome vsego dobavlyali takzhe variability peremenchivost i visualization IDC interpretiruet chetvyortoe V kak value c tochki zreniya vazhnosti ekonomicheskoj celesoobraznosti obrabotki sootvetstvuyushih obyomov v sootvetstvuyushih usloviyah chto otrazheno takzhe i v opredelenii bolshih dannyh ot IDC Vo vseh sluchayah v etih priznakah podchyorkivaetsya chto opredelyayushej harakteristikoj dlya bolshih dannyh yavlyaetsya ne tolko ih fizicheskij obyom no drugie kategorii sushestvennye dlya predstavleniya o slozhnosti zadachi obrabotki i analiza dannyh IstochnikiKlassicheskimi istochnikami bolshih dannyh priznayutsya internet veshej i socialnye media schitaetsya takzhe chto bolshie dannye mogut proishodit iz vnutrennej informacii predpriyatij i organizacij generiruemoj v informacionnyh sredah no ranee ne sohranyavshejsya i ne analizirovavshejsya iz sfer mediciny i bioinformatiki iz astronomicheskih nablyudenij V kachestve primerov istochnikov vozniknoveniya bolshih dannyh privodyatsya nepreryvno postupayushie dannye s izmeritelnyh ustrojstv sobytiya ot radiochastotnyh identifikatorov potoki soobshenij iz socialnyh setej meteorologicheskie dannye dannye distancionnogo zondirovaniya Zemli potoki dannyh o mestonahozhdenii abonentov setej sotovoj svyazi ustrojstv audio i videoregistracii Ozhidaetsya chto razvitie i nachalo shirokogo ispolzovaniya etih istochnikov iniciiruet proniknovenie tehnologij bolshih dannyh kak v nauchno issledovatelskuyu deyatelnost tak i v kommercheskij sektor i sferu gosudarstvennogo upravleniya Metody analizaMetody i tehniki analiza primenimye k bolshim dannym vydelennye v otchyote McKinsey metody klassa Data Mining obuchenie associativnym pravilam angl association rule learning klassifikaciya metody kategorizacii novyh dannyh na osnove principov ranee primenyonnyh k uzhe nalichestvuyushim dannym klasternyj analiz regressionnyj analiz kraudsorsing kategorizaciya i obogashenie dannyh silami shirokogo neopredelyonnogo kruga lic privlechyonnyh na osnovanii publichnoj oferty bez vstupleniya v trudovye otnosheniya smeshenie i integraciya dannyh angl data fusion and integration nabor tehnik pozvolyayushih integrirovat raznorodnye dannye iz raznoobraznyh istochnikov dlya vozmozhnosti glubinnogo analiza v kachestve primerov takih tehnik sostavlyayushih etot klass metodov privodyatsya cifrovaya obrabotka signalov i obrabotka estestvennogo yazyka vklyuchaya tonalnyj analiz mashinnoe obuchenie vklyuchaya obuchenie s uchitelem i bez uchitelya a takzhe Ensemble learning ispolzovanie modelej postroennyh na baze statisticheskogo analiza ili mashinnogo obucheniya dlya polucheniya kompleksnyh prognozov na osnove bazovyh modelej angl constituent models sr so statisticheskim ansamblem v statisticheskoj mehanike iskusstvennye nejronnye seti setevoj analiz optimizaciya v tom chisle geneticheskie algoritmy raspoznavanie obrazov prognoznaya analitika imitacionnoe modelirovanie angl Spatial analysis klass metodov ispolzuyushih topologicheskuyu geometricheskuyu i geograficheskuyu informaciyu v dannyh statisticheskij analiz v kachestve primerov metodov privodyatsya A B testirovanie i analiz vremennyh ryadov vizualizaciya analiticheskih dannyh predstavlenie informacii v vide risunkov diagramm s ispolzovaniem interaktivnyh vozmozhnostej i animacii kak dlya polucheniya rezultatov tak i dlya ispolzovaniya v kachestve ishodnyh dannyh dlya dalnejshego analiza TehnologiiNaibolee chasto ukazyvayut v kachestve bazovogo principa obrabotki bolshih dannyh gorizontalnuyu masshtabiruemost obespechivayushuyu obrabotku dannyh raspredelyonnyh na sotni i tysyachi vychislitelnyh uzlov bez degradacii proizvoditelnosti v chastnosti etot princip vklyuchyon v opredelenie bolshih dannyh ot NIST Pri etom McKinsey krome rassmatrivaemyh bolshinstvom analitikov tehnologij NoSQL MapReduce Hadoop R vklyuchaet v kontekst primenimosti dlya obrabotki bolshih dannyh takzhe tehnologii Business Intelligence i relyacionnye sistemy upravleniya bazami dannyh s podderzhkoj yazyka SQL NoSQL Osnovnaya statya NoSQL MapReduce Osnovnaya statya MapReduce Hadoop Osnovnaya statya Hadoop R Osnovnaya statya R yazyk programmirovaniya Apparatnye resheniya Sushestvuet ryad apparatno programmnyh kompleksov predostavlyayushih predkonfigurirovannye resheniya dlya obrabotki bolshih dannyh korporacii Teradata korporacii EMC na osnove reshenij pogloshyonnoj kompanii Greenplum Eti kompleksy postavlyayutsya kak gotovye k ustanovke v centry obrabotki dannyh telekommunikacionnye shkafy soderzhashie klaster serverov i upravlyayushee programmnoe obespechenie dlya massovo parallelnoj obrabotki Apparatnye resheniya dlya prezhde vsego dlya baz dannyh v operativnoj pamyati i analitiki v operativnoj pamyati v chastnosti predlagaemoj apparatno programmnymi kompleksami Hana predkonfigurirovannoe apparatno programmnoe reshenie kompanii SAP i Exalytics kompleks kompanii Oracle na osnove relyacionnoj sistemy angl i Essbase takzhe inogda otnosyat k resheniyam iz oblasti bolshih dannyh nesmotrya na to chto takaya obrabotka iznachalno ne yavlyaetsya massovo parallelnoj a obyomy operativnoj pamyati odnogo uzla ogranichivayutsya neskolkimi terabajtami Krome togo inogda k resheniyam dlya bolshih dannyh otnosyat i apparatno programmnye kompleksy na osnove tradicionnyh relyacionnyh sistem upravleniya bazami dannyh Netezza Teradata Exadata kak sposobnye effektivno obrabatyvat terabajty i eksabajty strukturirovannoj informacii reshaya zadachi bystroj poiskovoj i analiticheskoj obrabotki ogromnyh obyomov strukturirovannyh dannyh Otmechaetsya chto pervymi massovo parallelnymi apparatno programmnymi resheniyami dlya obrabotki sverhbolshih obyomov dannyh byli mashiny kompanij angl vpervye vypushennye v 1983 godu i Teradata nachali vypuskatsya v 1984 godu pritom v 1990 godu Teradata poglotila Britton Lee Apparatnye resheniya DAS sistem hraneniya dannyh napryamuyu prisoedinyonnyh k uzlam v usloviyah nezavisimosti uzlov obrabotki v SN arhitekture takzhe inogda otnosyat k tehnologiyam bolshih dannyh Imenno s poyavleniem koncepcii bolshih dannyh svyazyvayut vsplesk interesa k DAS resheniyam v nachale 2010 h godov posle vytesneniya ih v 2000 e gody setevymi resheniyami klassov NAS i SAN PrimechaniyaPrajmesberger 2011 Big data refers to the volume variety and velocity of structured and unstructured data pouring through networks into processors and storage devices along with the conversion of such data into business advice for enterprises PwC 2010 Termin bolshie dannye harakterizuet sovokupnosti dannyh c vozmozhnym eksponencialnym rostom kotorye slishkom veliki slishkom neformatirovany ili slishkom nestrukturirovany dlya analiza tradicionnymi metodami s 42 McKinsey 2011 Big data refers to datasets whose size is beyond the ability of typical database software tools to capture store manage and analyze p 1 Majer Shenberger 2014 Gartner 2011 Kanarakus Kris Mashina Bolshih Dannyh rus 04 2011 Otkrytye sistemy 1 noyabrya 2011 bolshie dannye kak tri V volume obem petabajty hranimyh dannyh velocity skorost poluchenie dannyh preobrazovanie zagruzka analiz i opros v realnom vremeni i variety raznoobrazie obrabotka strukturirovannyh i polustrukturirovannyh dannyh razlichnyh tipov Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda PwC 2010 K nachalu 2010 goda Hadoop MapReduce i associirovannye s nimi tehnologii s otkrytym kodom stali dvizhushej siloj celogo novogo yavleniya kotoroe O Reilly Media The Economist i drugie izdaniya okrestili bolshimi dannymi s 42 The World s Technological Capacity to Store Communicate and Compute Information neopr MartinHilbert net Data obrasheniya 13 aprelya 2016 Arhivirovano 14 aprelya 2016 goda Chernyak 2011 Big Data otnositsya k chislu nemnogih nazvanij imeyushih vpolne dostovernuyu datu svoego rozhdeniya 3 sentyabrya 2008 goda kogda vyshel specialnyj nomer starejshego britanskogo nauchnogo zhurnala Nature posvyashennyj poisku otveta na vopros Kak mogut povliyat na budushee nauki tehnologii otkryvayushie vozmozhnosti raboty s bolshimi obemami dannyh osoznavaya masshtab gryadushih izmenenij redaktor nomera Nature Klifford Linch predlozhil dlya novoj paradigmy specialnoe nazvanie Bolshie Dannye vybrannoe im po analogii s takimi metaforami kak Bolshaya Neft Bolshaya Ruda i t p otrazhayushimi ne stolko kolichestvo chego to skolko perehod kolichestva v kachestvo Povest Bolshaya ruda Dubova Natalya Bolshaya konferenciya o Bolshih Dannyh rus Otkrytye sistemy 3 noyabrya 2011 Na forume IBM Information on Demand sobravshem bolee 10 tys uchastnikov centralnoj temoj stala analitika Bolshih Dannyh Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Henschen Doug Oracle Releases NoSQL Database Advances Big Data Plans angl InformationWeek 24 oktyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Finley Klint Steve Ballmer on Microsoft s Big Data Future and More in This Week s Business Intelligence Roundup angl 17 iyulya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Shah Agam HP menyaet personalnye kompyutery na Bolshie Dannye neopr Otkrytye sistemy 19 avgusta 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda EMC Tries To Unify Big Data Analytics angl InformationWeek 21 sentyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Woo Benjamin et al IDC s Worldwide Big Data Taxonomy angl International Data Corporation 1 oktyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Evelson Boris and Hopkins Brian How Forrester Clients Are Using Big Data angl Forrester Research 20 sentyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda McKinsey 2011 Thibodeau Patrick Gartner s Top 10 IT challenges include exiting baby boomers Big Data angl Computerworld 18 oktyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Chernyak 2011 Po ocenkam ekspertov naprimer McKinsey Institute pod vliyaniem Bolshih Dannyh naibolshej transformacii podvergnetsya sfera proizvodstva zdravoohraneniya torgovli administrativnogo upravleniya i nablyudeniya za individualnymi peremesheniyami MSc in Data Science angl School of Computing Dundee University 1 yanvarya 2013 A data scientist is a person who excels at manipulating and analysing data particularly large data sets that don t fit easily into tabular structures so called Big Data Data obrasheniya 18 yanvarya 2013 Arhivirovano 22 yanvarya 2013 goda Master of Science degree Harvard s first degree program in Computational Science and Engineering is an intensive year of coursework leading to the Master of Science angl Institute for Applied Computational Science Harvard University 1 yanvarya 2013 Many of the defining questions of this era in science and technology will be centered on big data and machine learning This master s program will prepare students to answer those questions Data obrasheniya 18 yanvarya 2013 Arhivirovano 22 yanvarya 2013 goda Simon Sharwood Forget Big Data hype says Gartner as it cans its hype cycle angl The Register 21 avgusta 2015 Data obrasheniya 19 fevralya 2017 Arhivirovano 20 fevralya 2017 goda Doug Laney 3D Data Management Controlling Data Volume Velocity and Variety angl Meta Group 6 fevralya 2001 Data obrasheniya 19 fevralya 2017 Arhivirovano 23 iyulya 2013 goda The Four V s of Big Data angl IBM 2011 Data obrasheniya 19 fevralya 2017 Arhivirovano 16 iyunya 2016 goda Neil Biehn The Missing V s in Big Data Viability and Value angl Wired 1 maya 2013 Data obrasheniya 19 fevralya 2017 Arhivirovano 20 fevralya 2017 goda Eileen McNulty Understanding Big Data The Seven V s angl Dataconomy 22 maya 2014 Data obrasheniya 19 fevralya 2017 Arhivirovano 20 fevralya 2017 goda Chen i dr 2014 big data technologies describe a new generation of technologies and architectures designed to economically extract value from very large volumes of a wide variety of data by enabling the high velocity capture discovery and or analysis p 4 Chen i dr 2014 p 19 23 McKinsey 2011 pp 7 8 Chernyak 2011 McKinsey 2011 pp 27 31 Chen i dr 2014 Big data shall mean the data of which the data volume acquisition speed or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies p 4 McKinsey 2011 pp 31 33 Chernyak 2011 Sleduyushim shagom mozhet stat tehnologiya SAP HANA High Performance Analytic Appliance sut kotoroj v razmeshenii dannyh dlya analiza v operativnoj pamyati Darrow Barb Oracle launches Exalytics an appliance for big data angl 2 oktyabrya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda Chernyak 2011 pervoj sozdat mashinu baz dannyh udalos kompanii Britton Lee v 1983 godu na baze multiprocessornoj konfiguracii processorov semejstva Zilog Z80 V posleduyushem Britton Lee byla kuplena Teradata s 1984 goda vypuskavshaya kompyutery MPP arhitektury dlya sistem podderzhki prinyatiya reshenij i hranilish dannyh Leonid Chernyak Bolshie dannye vozrozhdayut DAS rus Computerworld Rossiya 14 2011 Otkrytye sistemy 5 maya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 3 sentyabrya 2012 goda LiteraturaMin Chen Shiwen Mao Yin Zhang Victor C M Leung Big Data Related Technologies Challenges and Future Prospects Spinger 2014 100 p ISBN 978 3 319 06244 0 doi 10 1007 978 3 319 06245 7 Viktor Majer Shenberger Kennet Kuker Bolshie dannye Revolyuciya kotoraya izmenit to kak my zhivyom rabotaem i myslim Big Data A Revolution That Will Transform How We Live Work and Think per s angl Inny Gajdyuk M Mann Ivanov Ferber 2014 240 s ISBN 987 5 91657 936 9 Preimesberger Chris Hadoop Yahoo Big Data Brighten BI Future angl EWeek 15 avgusta 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 17 maya 2012 goda Leonid Chernyak Bolshie Dannye novaya teoriya i praktika rus Otkrytye sistemy SUBD 2011 10 ISSN 1028 7493 Alan Morrison i dr Bolshie Dannye kak izvlech iz nih informaciyu rus Tehnologicheskij prognoz Ezhekvartalnyj zhurnal rossijskoe izdanie 2010 vypusk 3 PricewaterhouseCoopers 17 dekabrya 2010 Data obrasheniya 12 noyabrya 2011 Arhivirovano 11 marta 2012 goda Gartner Says Solving Big Data Challenge Involves More Than Just Managing Volumes of Data angl Gartner 27 iyunya 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 17 maya 2012 goda James Manyika et al Big data The next frontier for innovation competition and productivity angl PDF McKinsey Global Institute June 2011 McKinsey 9 avgusta 2011 Data obrasheniya 12 noyabrya 2011 Arhivirovano 11 dekabrya 2012 goda SsylkiSeryozno o tehnologiyah dlya Bolshih Dannyh Otkrytye sistemy SUBD Izdatelstvo Otkrytye sistemy osp ru Svezhij vzglyad na Bolshie Dannye Otkrytye sistemy SUBD Izdatelstvo Otkrytye sistemy osp ru

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто