Добыча данных
Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён [англ.] в 1989 году.
Английское словосочетание «data mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации, добыча данных, извлечение данных, а также интеллектуальный анализ данных. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).
Основу методов data mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам data mining нередко относят статистические методы (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями data mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).
Одно из важнейших назначений методов data mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий data mining людьми, не имеющими специальной математической подготовки.
Применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Введение
Методы data mining (или, что то же самое, knowledge discovery in data, сокращённо KDD) лежат на стыке статистики и искусственного интеллекта.
Исторический экскурс
Область data mining началась с семинара, проведённого Григорием Пятецким-Шапиро в 1989 году.
Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — data mining («добыча данных») и knowledge discovery in data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по data mining.
Постановка задачи
Первоначально задача ставится следующим образом:
- имеется достаточно крупная база данных;
- предполагается, что в базе данных находятся некие «скрытые знания».
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. В текущих условиях глобальной конкуренции именно найденные закономерности (знания) могут быть источником дополнительного конкурентного преимущества.
Что означает «скрытые знания»? Это должны быть обязательно знания:
- ранее неизвестные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
- нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
- практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
- доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Эти требования во многом определяют суть методов data mining и то, в каком виде и в каком соотношении в технологии data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.
Data mining и базы данных
Методы data mining могут быть применены как для работы с большими данными, так и для обработки сравнительно малых объемов данных (полученных, например, по результатам отдельных экспериментов, либо при анализе данных о деятельности компании)[источник не указан 3420 дней]. В качестве критерия достаточного количества данных рассматривается как область исследования, так и применяемый алгоритм анализа[источник не указан 3420 дней].
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Data mining и искусственный интеллект
Знания, добываемые методами data mining, принято представлять в виде закономерностей (паттернов). В качестве таких выступают:
- ассоциативные правила;
- деревья решений;
- кластеры;
- математические функции.
Алгоритмы поиска таких закономерностей находятся на пересечении областей: Искусственный интеллект, Математическая статистика, Математическое программирование, Визуализация, OLAP.
Data mining и бизнес
По мнению компании IBM, обработка «больших данных» — это «способность по-новому использовать информацию для выработки полезных идей или создания товаров и услуг, имеющих высокую ценность» Это определение трактует большие данные как разновидность аналитики, так как работа с ними направлена на извлечение полезных сведений, способных обеспечить конкурентное преимущество.
Задачи
В разделе не хватает ссылок на источники (см. рекомендации по поиску). |
Задачи, решаемые методами data mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).
В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
- поиск ассоциативных правил или паттернов (образцов);
- группировка объектов, кластерный анализ;
- построение регрессионной модели.
К предсказательным задачам относятся:
- классификация объектов (для заранее заданных классов);
- регрессионный анализ, анализ временны́х рядов.
Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.
Этапы обучения
Ряд этапов решения задач методами data mining:
- Постановка задачи анализа;
- Сбор данных;
- Подготовка данных (фильтрация, дополнение, кодирование);
- Выбор модели (алгоритма анализа данных);
- Подбор параметров модели и алгоритма обучения;
- Обучение модели (автоматический поиск остальных параметров модели);
- Анализ качества обучения, если анализ неудовлетворительный — переход на п. 5 или п. 4;
- Анализ выявленных закономерностей, если анализ неудовлетворительный — переход на п. 1, 4 или 5.
Подготовка данных
Перед использованием алгоритмов data mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.
Далее данные фильтруются. Фильтрация удаляет выборки с шумами и пропущенными данными.
Отфильтрованные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путём обнаружения в изображении глаз и рта. В итоге происходит уменьшение объёма данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объём анализируемых данных, а значит и время анализа.
Ряд алгоритмов умеют обрабатывать пропущенные данные, имеющие прогностическую силу (например, отсутствие у клиента покупок определенного вида). Скажем, при использовании метода ассоциативных правил обрабатываются не векторы признаков, а наборы переменной размерности.
Выбор целевой функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.
Наблюдения делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма data mining, а тестовый набор — для проверки найденных закономерностей.
См. также
- Web mining
Примечания
- См. его интервью Архивная копия от 16 декабря 2010 на Wayback Machine, данное им журналу «Компьютерра» в 2007 году.
- В. А. Дюк, А. В. Флегонтов, И. К. Фомина, Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях.
- О. С. Коваленко, Обзор проблем и перспектив анализа данных (недоступная ссылка).
- А. А. Ежов, С. А. Шумский, Лекция: Извлечение знаний с помощью нейронных сетей Архивная копия от 7 апреля 2011 на Wayback Machine.
- Microsoft SQL Server 2008 R2: новый подход к управлению информацией Архивировано 15 июля 2014 года.
- Data Mining от Oracle: настоящее и будущее Архивная копия от 8 марта 2012 на Wayback Machine.
- Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных Архивная копия от 11 июня 2017 на Wayback Machine.
- Григорий Пятецкий-Шапиро, Data Mining и перегрузка информацией // Вступительная статья к книге: Анализ данных и процессов / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. З-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с. С. 13.
- Обсуждаем термин: data mining / Школа технического перевода Архивная копия от 2 февраля 2014 на Wayback Machine.
- Миллнер, Хан, 2022, Переход к Big Data, с. 77-78.
Литература
- Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD). — СПб.: Изд. Питер, 2009. — 624 с.
- Дюк В., Самойленко А. Data Mining: учебный курс (+CD). — СПб.: Изд. Питер, 2001. — 368 с.
- Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Практические применения. — М.: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0108-8.
- Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
- Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7.
- Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. — К.: КНЕУ, 2007. — 376 с.
- Ian H. Witten, Eibe Frank and Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. — 3rd Edition. — Morgan Kaufmann, 2011. — P. 664. — ISBN 9780123748560.
- Дэйв Миллнер, Надим Хан. HR-аналитика. Практическое руководство по работе с персоналом на основе больших данных = Introduction to People Analytics: A practical guide to data-driven HR. — М.: Альпина Паблишер , 2022. — 384 с. — ISBN 978-5-9614-7831-0.
- Орлов А.И. Искусственный интеллект: статистические методы анализа данных : учебник. — М.: Ай Пи Ар Медиа, 2022. — 843 c. — ISBN 978-5-4497-1470-1 [1]
- Орлов А.И., Луценко Е.В. Анализ данных, информации и знаний в системной нечеткой интервальной математике: научная монография. – Краснодар: КубГАУ, 2022. – 405 с. [2]
- А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — Методы и модели анализа данных: OLAP и Data Mining. — СПб.: БХВ-Петербург, 2004. — 336 с.
- А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е изд., — СПб.: БХВ-Петербург, 2007. — 384 с.
- А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. — Анализ данных и процессов: учеб. пособие. 3-е изд., — СПб.: БХВ-Петербург, 2009. — 512 с.
Ссылки
Для улучшения этой статьи желательно: |
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Добыча данных, Что такое Добыча данных? Что означает Добыча данных?
Ne sleduet putat s Izvlechenie informacii Ne sleduet putat s Izvlechenie znanij Data mining rus dobycha dannyh intellektualnyj analiz dannyh glubinnyj analiz dannyh sobiratelnoe nazvanie ispolzuemoe dlya oboznacheniya sovokupnosti metodov obnaruzheniya v dannyh ranee neizvestnyh netrivialnyh prakticheski poleznyh i dostupnyh interpretacii znanij neobhodimyh dlya prinyatiya reshenij v razlichnyh sferah chelovecheskoj deyatelnosti Termin vvedyon angl v 1989 godu Anglijskoe slovosochetanie data mining poka ne imeet ustoyavshegosya perevoda na russkij yazyk Pri peredache na russkom yazyke ispolzuyutsya sleduyushie slovosochetaniya prosev informacii dobycha dannyh izvlechenie dannyh a takzhe intellektualnyj analiz dannyh Bolee polnym i tochnym yavlyaetsya slovosochetanie obnaruzhenie znanij v bazah dannyh angl knowledge discovery in databases KDD Osnovu metodov data mining sostavlyayut vsevozmozhnye metody klassifikacii modelirovaniya i prognozirovaniya osnovannye na primenenii derevev reshenij iskusstvennyh nejronnyh setej geneticheskih algoritmov evolyucionnogo programmirovaniya associativnoj pamyati nechyotkoj logiki K metodam data mining neredko otnosyat statisticheskie metody korrelyacionnyj i regressionnyj analiz faktornyj analiz dispersionnyj analiz komponentnyj analiz diskriminantnyj analiz analiz vremennyh ryadov analiz vyzhivaemosti analiz svyazej Takie metody odnako predpolagayut nekotorye apriornye predstavleniya ob analiziruemyh dannyh chto neskolko rashoditsya s celyami data mining obnaruzhenie ranee neizvestnyh netrivialnyh i prakticheski poleznyh znanij Odno iz vazhnejshih naznachenij metodov data mining sostoit v naglyadnom predstavlenii rezultatov vychislenij vizualizaciya chto pozvolyaet ispolzovat instrumentarij data mining lyudmi ne imeyushimi specialnoj matematicheskoj podgotovki Primenenie statisticheskih metodov analiza dannyh trebuet horoshego vladeniya teoriej veroyatnostej i matematicheskoj statistikoj VvedenieMetody data mining ili chto to zhe samoe knowledge discovery in data sokrashyonno KDD lezhat na styke statistiki i iskusstvennogo intellekta Istoricheskij ekskurs Oblast data mining nachalas s seminara provedyonnogo Grigoriem Pyateckim Shapiro v 1989 godu Ranee rabotaya v kompanii GTE Labs Grigorij Pyateckij Shapiro zainteresovalsya voprosom mozhno li avtomaticheski nahodit opredelyonnye pravila chtoby uskorit nekotorye zaprosy k krupnym bazam dannyh Togda zhe bylo predlozheno dva termina data mining dobycha dannyh i knowledge discovery in data kotoryj sleduet perevodit kak otkrytie znanij v bazah dannyh V 1993 godu vyshla pervaya rassylka Knowledge Discovery Nuggets a v 1994 godu byl sozdan odin iz pervyh sajtov po data mining Postanovka zadachi Pervonachalno zadacha stavitsya sleduyushim obrazom imeetsya dostatochno krupnaya baza dannyh predpolagaetsya chto v baze dannyh nahodyatsya nekie skrytye znaniya Neobhodimo razrabotat metody obnaruzheniya znanij skrytyh v bolshih obyomah ishodnyh syryh dannyh V tekushih usloviyah globalnoj konkurencii imenno najdennye zakonomernosti znaniya mogut byt istochnikom dopolnitelnogo konkurentnogo preimushestva Chto oznachaet skrytye znaniya Eto dolzhny byt obyazatelno znaniya ranee neizvestnye to est takie znaniya kotorye dolzhny byt novymi a ne podtverzhdayushimi kakie to ranee poluchennye svedeniya netrivialnye to est takie kotorye nelzya prosto tak uvidet pri neposredstvennom vizualnom analize dannyh ili pri vychislenii prostyh statisticheskih harakteristik prakticheski poleznye to est takie znaniya kotorye predstavlyayut cennost dlya issledovatelya ili potrebitelya dostupnye dlya interpretacii to est takie znaniya kotorye legko predstavit v naglyadnoj dlya polzovatelya forme i legko obyasnit v terminah predmetnoj oblasti Eti trebovaniya vo mnogom opredelyayut sut metodov data mining i to v kakom vide i v kakom sootnoshenii v tehnologii data mining ispolzuyutsya sistemy upravleniya bazami dannyh statisticheskie metody analiza i metody iskusstvennogo intellekta Data mining i bazy dannyh Metody data mining mogut byt primeneny kak dlya raboty s bolshimi dannymi tak i dlya obrabotki sravnitelno malyh obemov dannyh poluchennyh naprimer po rezultatam otdelnyh eksperimentov libo pri analize dannyh o deyatelnosti kompanii istochnik ne ukazan 3420 dnej V kachestve kriteriya dostatochnogo kolichestva dannyh rassmatrivaetsya kak oblast issledovaniya tak i primenyaemyj algoritm analiza istochnik ne ukazan 3420 dnej Razvitie tehnologij baz dannyh snachala privelo k sozdaniyu specializirovannogo yazyka yazyka zaprosov k bazam dannyh Dlya relyacionnyh baz dannyh eto yazyk SQL kotoryj predostavil shirokie vozmozhnosti dlya sozdaniya izmeneniya i izvlecheniya hranimyh dannyh Zatem voznikla neobhodimost v poluchenii analiticheskoj informacii naprimer informacii o deyatelnosti predpriyatiya za opredelyonnyj period i tut okazalos chto tradicionnye relyacionnye bazy dannyh horosho prisposoblennye naprimer dlya vedeniya operativnogo uchyota na predpriyatii ploho prisposobleny dlya provedeniya analiza Eto privelo v svoyu ochered k sozdaniyu t n hranilish dannyh sama struktura kotoryh nailuchshim sposobom sootvetstvuet provedeniyu vsestoronnego matematicheskogo analiza Data mining i iskusstvennyj intellekt Znaniya dobyvaemye metodami data mining prinyato predstavlyat v vide zakonomernostej patternov V kachestve takih vystupayut associativnye pravila derevya reshenij klastery matematicheskie funkcii Algoritmy poiska takih zakonomernostej nahodyatsya na peresechenii oblastej Iskusstvennyj intellekt Matematicheskaya statistika Matematicheskoe programmirovanie Vizualizaciya OLAP Data mining i biznes Po mneniyu kompanii IBM obrabotka bolshih dannyh eto sposobnost po novomu ispolzovat informaciyu dlya vyrabotki poleznyh idej ili sozdaniya tovarov i uslug imeyushih vysokuyu cennost Eto opredelenie traktuet bolshie dannye kak raznovidnost analitiki tak kak rabota s nimi napravlena na izvlechenie poleznyh svedenij sposobnyh obespechit konkurentnoe preimushestvo ZadachiV razdele ne hvataet ssylok na istochniki sm rekomendacii po poisku Informaciya dolzhna byt proveryaema inache ona mozhet byt udalena Vy mozhete otredaktirovat statyu dobaviv ssylki na avtoritetnye istochniki v vide snosok 20 oktyabrya 2014 Zadachi reshaemye metodami data mining prinyato razdelyat na opisatelnye angl descriptive i predskazatelnye angl predictive V opisatelnyh zadachah samoe glavnoe eto dat naglyadnoe opisanie imeyushihsya skrytyh zakonomernostej v to vremya kak v predskazatelnyh zadachah na pervom plane stoit vopros o predskazanii dlya teh sluchaev dlya kotoryh dannyh eshyo net K opisatelnym zadacham otnosyatsya poisk associativnyh pravil ili patternov obrazcov gruppirovka obektov klasternyj analiz postroenie regressionnoj modeli K predskazatelnym zadacham otnosyatsya klassifikaciya obektov dlya zaranee zadannyh klassov regressionnyj analiz analiz vremenny h ryadov Algoritmy obucheniyaDlya zadach klassifikacii harakterno obuchenie s uchitelem pri kotorom postroenie obuchenie modeli proizvoditsya po vyborke soderzhashej vhodnye i vyhodnye vektory Dlya zadach klasterizacii i associacii primenyaetsya obuchenie bez uchitelya pri kotorom postroenie modeli proizvoditsya po vyborke v kotoroj net vyhodnogo parametra Znachenie vyhodnogo parametra otnositsya k klasteru pohozh na vektor podbiraetsya avtomaticheski v processe obucheniya Dlya zadach sokrasheniya opisaniya harakterno otsutstvie razdeleniya na vhodnye i vyhodnye vektory Nachinaya s klassicheskih rabot K Pirsona po metodu glavnyh komponent osnovnoe vnimanie udelyaetsya approksimacii dannyh Etapy obucheniyaRyad etapov resheniya zadach metodami data mining Postanovka zadachi analiza Sbor dannyh Podgotovka dannyh filtraciya dopolnenie kodirovanie Vybor modeli algoritma analiza dannyh Podbor parametrov modeli i algoritma obucheniya Obuchenie modeli avtomaticheskij poisk ostalnyh parametrov modeli Analiz kachestva obucheniya esli analiz neudovletvoritelnyj perehod na p 5 ili p 4 Analiz vyyavlennyh zakonomernostej esli analiz neudovletvoritelnyj perehod na p 1 4 ili 5 Podgotovka dannyhPered ispolzovaniem algoritmov data mining neobhodimo proizvesti podgotovku nabora analiziruemyh dannyh Tak kak IAD mozhet obnaruzhit tolko prisutstvuyushie v dannyh zakonomernosti ishodnye dannye s odnoj storony dolzhny imet dostatochnyj obyom chtoby eti zakonomernosti v nih prisutstvovali a s drugoj byt dostatochno kompaktnymi chtoby analiz zanyal priemlemoe vremya Chashe vsego v kachestve ishodnyh dannyh vystupayut hranilisha ili vitriny dannyh Podgotovka neobhodima dlya analiza mnogomernyh dannyh do klasterizacii ili intellektualnogo analiza dannyh Dalee dannye filtruyutsya Filtraciya udalyaet vyborki s shumami i propushennymi dannymi Otfiltrovannye dannye svodyatsya k naboram priznakov ili vektoram esli algoritm mozhet rabotat tolko s vektorami fiksirovannoj razmernosti odin nabor priznakov na nablyudenie Nabor priznakov formiruetsya v sootvetstvii s gipotezami o tom kakie priznaki syryh dannyh imeyut vysokuyu prognoznuyu silu v raschete na trebuemuyu vychislitelnuyu moshnost dlya obrabotki Naprimer cherno beloe izobrazhenie lica razmerom 100 100 pikselej soderzhit 10 tys bit syryh dannyh Oni mogut byt preobrazovany v vektor priznakov putyom obnaruzheniya v izobrazhenii glaz i rta V itoge proishodit umenshenie obyoma dannyh s 10 tys bit do spiska kodov polozheniya znachitelno umenshaya obyom analiziruemyh dannyh a znachit i vremya analiza Ryad algoritmov umeyut obrabatyvat propushennye dannye imeyushie prognosticheskuyu silu naprimer otsutstvie u klienta pokupok opredelennogo vida Skazhem pri ispolzovanii metoda associativnyh pravil obrabatyvayutsya ne vektory priznakov a nabory peremennoj razmernosti Vybor celevoj funkcii budet zaviset ot togo chto yavlyaetsya celyu analiza vybor pravilnoj funkcii imeet osnovopolagayushee znachenie dlya uspeshnogo intellektualnogo analiza dannyh Nablyudeniya delyatsya na dve kategorii obuchayushij nabor i testovyj nabor Obuchayushij nabor ispolzuetsya dlya obucheniya algoritma data mining a testovyj nabor dlya proverki najdennyh zakonomernostej Sm takzheWeb miningPrimechaniyaSm ego intervyu Arhivnaya kopiya ot 16 dekabrya 2010 na Wayback Machine dannoe im zhurnalu Kompyuterra v 2007 godu V A Dyuk A V Flegontov I K Fomina Primenenie tehnologij intellektualnogo analiza dannyh v estestvennonauchnyh tehnicheskih i gumanitarnyh oblastyah O S Kovalenko Obzor problem i perspektiv analiza dannyh nedostupnaya ssylka A A Ezhov S A Shumskij Lekciya Izvlechenie znanij s pomoshyu nejronnyh setej Arhivnaya kopiya ot 7 aprelya 2011 na Wayback Machine Microsoft SQL Server 2008 R2 novyj podhod k upravleniyu informaciej Arhivirovano 15 iyulya 2014 goda Data Mining ot Oracle nastoyashee i budushee Arhivnaya kopiya ot 8 marta 2012 na Wayback Machine Stepanov R G Tehnologiya Data Mining Intellektualnyj Analiz Dannyh Arhivnaya kopiya ot 11 iyunya 2017 na Wayback Machine Grigorij Pyateckij Shapiro Data Mining i peregruzka informaciej Vstupitelnaya statya k knige Analiz dannyh i processov A A Barsegyan M S Kupriyanov I I Holod M D Tess S I Elizarov Z e izd pererab i dop SPb BHV Peterburg 2009 512 s S 13 Obsuzhdaem termin data mining Shkola tehnicheskogo perevoda Arhivnaya kopiya ot 2 fevralya 2014 na Wayback Machine Millner Han 2022 Perehod k Big Data s 77 78 LiteraturaPaklin N B Oreshkov V I Biznes analitika ot dannyh k znaniyam SD SPb Izd Piter 2009 624 s Dyuk V Samojlenko A Data Mining uchebnyj kurs CD SPb Izd Piter 2001 368 s Zhuravlyov Yu I Ryazanov V V Senko O V RASPOZNAVANIE Matematicheskie metody Programmnaya sistema Prakticheskie primeneniya M Izd Fazis 2006 176 s ISBN 5 7036 0108 8 Zinovev A Yu Vizualizaciya mnogomernyh dannyh Krasnoyarsk Izd Krasnoyarskogo gosudarstvennogo tehnicheskogo universiteta 2000 180 s Chubukova I A Data Mining uchebnoe posobie M Internet universitet informacionnyh tehnologij BINOM Laboratoriya znanij 2006 382 s ISBN 5 9556 0064 7 Sitnik V F Krasnyuk M T Intelektualnij analiz danih dejtamajning Navch posibnik K KNEU 2007 376 s Ian H Witten Eibe Frank and Mark A Hall Data Mining Practical Machine Learning Tools and Techniques 3rd Edition Morgan Kaufmann 2011 P 664 ISBN 9780123748560 Dejv Millner Nadim Han HR analitika Prakticheskoe rukovodstvo po rabote s personalom na osnove bolshih dannyh Introduction to People Analytics A practical guide to data driven HR M Alpina Pablisher 2022 384 s ISBN 978 5 9614 7831 0 Orlov A I Iskusstvennyj intellekt statisticheskie metody analiza dannyh uchebnik M Aj Pi Ar Media 2022 843 c ISBN 978 5 4497 1470 1 1 Orlov A I Lucenko E V Analiz dannyh informacii i znanij v sistemnoj nechetkoj intervalnoj matematike nauchnaya monografiya Krasnodar KubGAU 2022 405 s 2 A A Barsegyan M S Kupriyanov V V Stepanenko I I Holod Metody i modeli analiza dannyh OLAP i Data Mining SPb BHV Peterburg 2004 336 s A A Barsegyan M S Kupriyanov V V Stepanenko I I Holod Tehnologii analiza dannyh Data Mining Visual Mining Text Mining OLAP 2 e izd SPb BHV Peterburg 2007 384 s A A Barsegyan M S Kupriyanov I I Holod M D Tess S I Elizarov Analiz dannyh i processov ucheb posobie 3 e izd SPb BHV Peterburg 2009 512 s SsylkiDlya uluchsheniya etoj stati zhelatelno Pererabotat oformlenie v sootvetstvii s pravilami napisaniya statej Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom
