Поисковый индекс
Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование, совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.
Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках. Мультимедийные документы, такие как видео и аудио и графика, также могут участвовать в поиске.
Метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса. Большие сервисы, как правило, выполняют индексацию в заданном временно́м интервале из-за необходимого времени и затрат на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.
Индексация
Цель использования индекса — повышение скорости поиска релевантных документов по поисковому запросу. Без индекса поисковая машина должна была бы сканировать каждый документ в корпусе, что потребовало бы большого количества времени и вычислительной мощности. Например, в то время, как индекс 10 000 документов может быть опрошен в пределах миллисекунд, последовательный просмотр каждого слова в 10 000 больших документов мог бы занять часы. Дополнительная память, выделяемая для хранения индекса, и увеличение времени, требуемое для обновления индекса, компенсируется уменьшением времени на поиск информации.
Факторы, влияющие на проектирование поисковых систем
При разработке поисковой системы необходимо учитывать следующие факторы:
- Факторы слияния
- Как данные входят в индекс? Как слова и подчиненные функции добавляются в индекс во время текстового корпусного обхода? И могут ли несколько поисковых роботов работать асинхронно? Поисковый робот должен сначала проверить, обновляет он старое содержание или добавляет новое. Слияние индекса поисковой системы подобно SQL Merge и другим алгоритмам слияния.
- Методы хранения
- Как хранить индексируемые данные? То есть определяют вид хранимой информации: сжатый или отфильтрованный.
- Размер индекса
- Сколько памяти компьютера необходимо, чтобы поддерживать индекс.
- Скорость поиска
- Как быстро можно найти слово в инвертированном индексе. Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса.
- Хранение
- Как хранится индекс в течение длительного времени.
- Отказоустойчивость
- Для поисковой службы важно быть надежной. Вопросы отказоустойчивости включают проблему повреждения индекса, определяя, можно ли отдельно рассматривать некорректные данные, связанные с плохими аппаратными средствами, секционированием и схемами на основе хеш-функций и композитного секционирования, а также репликации.
Индексные структуры данных
Архитектура поисковой системы различается по способам индексирования и по методам хранения индексов, удовлетворяя факторы. Индексы бывают следующих типов:
- Суффиксное дерево
- Образно структурировано как дерево, поддерживает линейное время поиска. Построено на хранении суффиксов слов. Деревья поддерживают расширенное хеширование, которое важно для индексации поисковой системы. Используется для поиска по шаблону в последовательностях ДНК и кластеризации. Основным недостатком является то, что хранение слова в дереве может потребовать пространство за пределами необходимого для хранения самого слова. Альтернативное представление — суффиксный массив. Считается, что он требует меньше виртуальной памяти и поддерживает блочно-сортирующее сжатие данных.
- Инвертированный индекс
- Хранилище списка вхождений каждого критерия поиска, обычно в форме хеш-таблиц или бинарного дерева.
- Индекс цитирования
- Хранилище цитат или гиперссылок между документами для поддержки анализа цитирования, предмет библиометрии.
- N-грамма
- Хранилище последовательностей длин данных для поддержки других типов поиска или анализа текста.
- Матрица термов документа
- Используется в латентно-семантическом анализе (ЛСА), хранит вхождения слов в документах в двумерной разреженной матрице.
Проблемы параллельного индексирования
Одной из основных задач при проектировании поисковых систем является управление последовательными вычислительными процессами. Существует ситуации, в которых возможно создание состояния гонки и когерентных отказов. Например, новый документ добавлен к корпусу, и индекс должен быть обновлен, но в то же время индекс должен продолжать отвечать на поисковые запросы. Это коллизия между двумя конкурирующими задачами. Считается, что авторы являются производителями информации, а поисковый робот — потребителем этой информации, захватывая текст и сохраняя его в кэше (или корпусе). Прямой индекс является потребителем информации, произведенной корпусом, а инвертированный индекс — потребителем информации, произведенной прямым индексом. Это обычно упоминается как модель производителя-потребителя. Индексатор является производителем доступной для поиска информации, а пользователи, которые её ищут, — потребителями. Проблема усиливается при распределенном хранении и распределенной обработке. Чтобы масштабировать большие объемы индексированной информации, поисковая система может основываться на архитектуре распределенных вычислений, при этом поисковая система состоит из нескольких машин, работающих согласованно. Это увеличивает вероятность нелогичности и делает сложнее поддержку полностью синхронизируемой, распределенной, параллельной архитектуры.
Прямой индекс
Прямой индекс хранит список слов для каждого документа. Ниже приведена упрощенная форма прямого индекса:
| Документ | Слова |
|---|---|
| Документ 1 | наша, Таня, громко, плачет |
| Документ 2 | уронила, в, речку, мячик |
| Документ 3 | тише, Танечка, не, плачь, |
| Документ 4 | не, утонет, в, речке, мяч |
Необходимость разработки прямого индекса объясняется тем, что лучше сразу сохранять слова за документами, поскольку их в дальнейшем анализируют для создания поискового индекса. Формирование прямого индекса включает асинхронную системную обработку, которая частично обходит узкое место обновления инвертированного индекса. Прямой индекс сортируют, чтобы преобразовать в инвертированный. Прямой индекс по сути представляет собой список пар, состоящих из документов и слов, отсортированный по документам. Преобразование прямого индекса к инвертированному является только вопросом сортировки пар по словам. В этом отношении инвертированный индекс — отсортированный по словам прямой индекс.
Инвертированный индекс
Многие поисковые системы используют инвертированный индекс при оценке поискового запроса, чтобы быстро определить местоположение документов, содержащих слова из запроса, а затем ранжировать эти документы по релевантности. Поскольку инвертированный индекс хранит список документов, содержащих каждое слово, поисковая система может использовать прямой доступ, чтобы найти документы, связанные с каждым словом в запросе, и быстро получить их. Ниже приведено упрощенное представление инвертированного индекса:
| Слово | Документы |
|---|---|
| в | Документ 2, Документ 4 |
| громко | Документ 1 |
| мяч | Документ 2, Документ 4 |
| наша | Документ 1 |
| не | Документ 3, Документ 4 |
| плакать | Документ 1, Документ 3 |
| речка | Документ 2, Документ 4 |
| Таня | Документ 1, Документ 3 |
| тише | Документ 3 |
| уронить | Документ 2 |
| утонуть | Документ 4 |
Инвертированный индекс может только определить, существует ли слово в пределах конкретного документа, так как не хранит никакой информации относительно частоты и позиции слова, и поэтому его считают логическим индексом. Инвертированный индекс определяет, какие документы соответствуют запросу, но не оценивает соответствующие документы. В некоторых случаях индекс включает дополнительную информацию, такую как частота каждого слова в каждом документе или позиция слова в документе. Информация о позиции слова позволяет поисковому алгоритму идентифицировать близость слова, чтобы поддерживать поиск фраз. Частота может использоваться, чтобы помочь в ранжировании документов по запросу. Такие темы в центре внимания исследований информационного поиска.
Инвертированный индекс представлен разреженной матрицей, так как не все слова присутствуют в каждом документе. Индекс подобен матрице термов документа, используемом в ЛСА. Инвертированный индекс можно считать формой хеш-таблицы. В некоторых случаях индекс представлен в форме двоичного дерева, которая требует дополнительной памяти, но может уменьшить время поиска. В больших индексах архитектура, как правило, представлена распределенной хеш-таблицей.
Слияние индекса
Инвертированный индекс заполняется путём слияния или восстановления. Архитектура может быть спроектирована так, чтобы поддерживать инкрементную индексацию, где слияние определяет документ или документы, которые будут добавлены или обновлены, а затем анализирует каждый документ в слова. Для технической точности, слияние объединяет недавно индексированные документы, обычно находящиеся в виртуальной памяти, с индексным кэшем, который находится на одном или нескольких жестких дисках компьютера.
После синтаксического анализа индексатор добавляет указанный документ в список документов для соответствующих слов. В более крупной поисковой системе процесс нахождения каждого слова для инвертированного индекса может быть слишком трудоемким, поэтому его, как правило, разделяют на две части:
- разработка прямого индекса,
- сортировка прямого индекса в инвертированный индекс.
Инвертированный индекс называется так из-за того, что он является инверсией прямого индекса.
Сжатие
Создание и поддержка крупномасштабного поискового индекса требует значительной памяти и выполнения задач обработки. Многие поисковые системы используют ту или иную форму сжатия, чтобы уменьшить размер индексов на диске. Рассмотрим следующий сценарий для полнотекстового механизма поиска в Интернете:
- Требуется 8 битов (1 байт) для хранения одного символа. Некоторые кодировки используют 2 байта на символ.
- Среднее число символов в любом слове на странице примем за 5.
Учитывая этот сценарий, несжатый индекс для 2 миллиардов веб-страниц должен был бы хранить 500 миллиардов записей слов. 1 байт за символ или 5 байт за слово — потребовалось бы 2500 гигабайт одного только пространства памяти. Это больше, чем среднее свободное пространство на диске 2 персональных компьютеров. Для отказоустойчивой распределенной архитектуры требуется еще больше памяти. В зависимости от выбранного метода сжатия индекс может быть уменьшен до части такого размера. Компромисс времени и вычислительной мощности, требуемой для выполнения сжатия и распаковки.
Примечательно, что крупномасштабные проекты поисковых систем включают затраты на хранение, а также на электроэнергию для осуществления хранения.
Синтаксический анализ документа
Синтаксический анализ (или парсинг) документа предполагает разбор документа на компоненты (слова) для вставки в прямой и инвертированный индексы. Найденные слова называют токенами (англ. token), и в контексте индексации поисковых систем и обработки естественного языка парсинг часто называют токенизацией (то есть разбиением на токены). Синтаксический анализ иногда называют частеречной разметкой, морфологическим анализом, контент-анализом, текстовым анализом, анализом текста, генерацией согласования, сегментацией речи, лексическим анализом. Термины «индексация», «парсинг» и «токенизация» взаимозаменяемы в корпоративном сленге.
Обработка естественного языка постоянно исследуется и улучшается. Токенизация имеет проблемы с извлечением необходимой информации из документов для индексации, чтобы поддерживать качественный поиск. Токенизация для индексации включает в себя несколько технологий, реализация которых может быть коммерческой тайной.
Проблемы при обработке естественного языка
- Неоднозначность границ слова
- На первый взгляд может показаться, что токенизация является простой задачей, но это не так, особенно при разработке многоязычного индексатора. В цифровой форме тексты некоторых языков, таких, как китайский или японский, представляют сложную задачу, так как слова четко не разделены пробелом. Цель токенизации в том, чтобы распознать слова, которые будут искать пользователи. Специфичная для каждого языка логика используется, чтобы правильно распознать границы слов, что необходимо для разработки синтаксического анализатора для каждого поддерживаемого языка (или для групп языков с похожими границами и синтаксисом).
- Неоднозначность языка
- Для более точного ранжирования документов поисковые системы могут учитывать дополнительную информацию о слове, например, к какому языку или части речи оно относится. Эти методы зависят от языка, поскольку синтаксис между языками различается. При токенизации некоторые поисковые системы пытаются автоматически определить язык документа.
- Различные форматы файлов
- Для того, чтобы правильно определить, какие байты представляют символы документа, формат файла должен быть правильно обработан. Поисковые системы, которые поддерживают различные форматы файлов, должны правильно открывать документ, получать доступ к документу и токенизировать его символы.
- Ошибки памяти
- Качество данных естественного языка не всегда может быть совершенным. Уязвимость существует из-за неизвестного количества документов, в частности, в Интернете, которые не подчиняются соответствующему протоколу файла. Двоичные символы могут быть ошибочно закодированы в различных частях документа. Без распознавания этих символов и соответствующей обработки может ухудшиться качество индекса или индексирования.
Токенизация
В отличие от большинства людей, компьютеры не понимают структуру документа естественного языка и не могут автоматически распознавать слова и предложения. Для компьютера документ — это только последовательность байтов. Компьютер не «знает», что символ пробела является разделителем слов в документе. Человек должен запрограммировать компьютер так, чтобы определить, что является отдельным словом, называемым токеном. Такую программу обычно называют токенизатором или синтаксическим анализатором (парсером), а также лексическим анализатором. Некоторые поисковые системы и другое ПО для обработки естественного языка поддерживают специализированные программы, удобные для осуществления синтаксического анализа, например, YACC или Лекс.
Во время токенизации синтаксический анализатор определяет последовательность символов, которые представляют слова и другие элементы, например, пунктуация, представленная числовыми кодами, некоторые из которых являются непечатаемыми управляющими символами. Синтаксический анализатор может распознать некоторые объекты, например, адреса электронной почты, телефонные номера и URL. При распознавании каждого токена могут быть сохранены некоторые характеристики, например, язык или кодировка, часть речи, позиция, число предложения, позиция в предложении, длина и номер строки.
Распознавание языка
Если поисковая система поддерживает несколько языков, то первым шагом во время токенизации будет определение языка каждого документа, поскольку многие последующие шаги зависят от этого (например, стемминг и определение части речи). Распознавание языка — это процесс, при котором компьютерная программа пытается автоматически определить или классифицировать язык документа. Автоматическое распознавание языка является предметом исследований в обработке естественного языка.
Анализ формата документа
Если поисковая система поддерживает множество форматов документов, то документы должны быть подготовлены для токенизации. Проблема состоит в том, что некоторые форматы документов содержат информацию о форматировании в дополнение к текстовому содержанию. Например, документы HTML содержат HTML-теги. Если бы поисковая система игнорировала различие между содержанием и разметкой текста, то посторонняя информация включалась бы в индекс, что привело бы к плохим результатам поиска. Анализ формата — выявление и обработка языка разметки, встроенного в документ. Анализ формата также упоминается как структурный анализ, разделение тегов, текстовая нормализация.
Задача анализа формата осложняется тонкостями различных форматов файлов. Некоторые форматы файлов защищаются правом интеллектуальной собственности, о них мало информации, а другие — наоборот, хорошо документированы. Распространенные, хорошо задокументированные форматы файлов, которые поддерживают поисковые системы:
- HTML
- ASCII текстовые файлы (текстовые документы без удобночитаемого для компьютера форматирования)
- Adobe-формат электронных документов (PDF)
- PostScript (PS)
- LaTeX
- Usenet формат новостных интернет-серверов
- XML и производные, например, RSS
- SGML
- Форматы мультимедийных метаданных, как ID3
- Microsoft Word
- Microsoft Excel
- Microsoft PowerPoint
- IBM Lotus Notes
Некоторые поисковики поддерживают файлы, которые хранятся в сжатом или зашифрованном формате. При работе со сжатым форматом индексатор сначала распаковывает документ. Этот шаг может привести к получению одного или нескольких файлов, каждый из которых должен быть индексирован отдельно. Бывают следующие поддерживаемые форматы сжатого файла:
- ZIP — формат сжатия данных и архивации файлов
- RAR — формат сжатия данных и условно-бесплатная программа-архиватор
- CAB — Microsoft Windows Cabinet File
- Gzip — формат сжатого файла gzip
- BZIP — формат сжатого файла bzip
- Tape ARchive (TAR), сжатый файл Unix
- TAR.Z, TAR.GZ or TAR.BZ2 — Unix-архив файлов сжатых в Compress, GZIP или BZIP2
Анализ формата может включать методы повышения качества, чтобы избежать включения ненужной информации в индекс. Контент может управлять информацией о форматировании, чтобы включать дополнительные сведения. Примеры злоупотребления форматированием документа в случае веб-спама:
- Включение сотен или тысяч слов в раздел, который скрыт от представления на мониторе, но является видимым индексатору, при помощи тегов форматирования (например, в скрытый тег div в HTML можно включить использование CSS или JavaScript).
- Установка цвета шрифта слов таким же, как цвет фона, что делает невидимыми слова для человека при просмотре документа, но слова остаются видимыми для индексатора.
Распознавание раздела
Некоторые поисковые системы включают распознавание раздела, определяют основные части документа до токенизации. Не все документы в корпусе читаются как правильно написанная книга, разделенная на главы и страницы. Некоторые документы в Интернете, такие как новостные рассылки и корпоративные отчеты, содержат ошибочное содержание и боковые блоки, в которых нет основного материала. Например, эта статья отображает в левом меню ссылки на другие веб-страницы. Некоторые форматы файлов, как HTML или PDF, допускают содержание, которое будет отображаться в колонках. Хотя содержимое документа представлено на экране в различных областях, исходный текст хранит эту информацию последовательно. Слова, которые появляются последовательно в исходном тексте, индексируются последовательно, несмотря на то, что предложения и абзацы отображаются в различных частях монитора. Если поисковые системы индексируют весь контент, как будто это основное содержание документа, то качество индекса и поиска может ухудшиться. Отмечают две основные проблемы:
- Содержание в различных разделах рассматривают как связанное с индексом, хотя в действительности это не так.
- Дополнительное содержание «боковой панели» включено в индекс, но оно не способствует реальной значимости документа, поэтому индекс заполнен плохим представлением о документе.
Для анализа раздела может потребоваться, чтобы поисковая система реализовала логику визуализации каждого документа, то есть абстрактное представление самого документа, и затем проиндексировала представление вместо документа. Например, иногда для вывода контента на страницу в Интернете используют JavaScript. Если поисковая система «не видит» JavaScript, то индексация страниц происходит некорректно, поскольку часть контента не индексируется. Учитывая, что некоторые поисковые системы не беспокоятся о проблемах с визуализацией, веб-разработчики стараются не представлять контент через JavaScript или используют тег NoScript, чтобы убедиться, что веб-страница индексируется должным образом. В то же время этот факт можно использовать, чтобы «заставить» индексатор поисковой системы «видеть» различное скрытое содержание.
Индексация метатегов
Определенные документы часто содержат встроенные метаданные, такие как автор, ключевые слова, описание и язык. В HTML-страницах метатеги содержат ключевые слова, которые также включены в индекс. В более ранних технологиях поиска в Интернете индексировались ключевые слова в метатегах для прямого индекса, а полный текст документа не анализировался. В то время еще не было полнотекстовой индексации, и аппаратное обеспечение компьютера было не в состоянии поддерживать такую технологию. Язык разметки HTML первоначально включал поддержку метатегов для того, чтобы правильно и легко индексировать, без использования токенизации.
В процессе развития Интернета в 1990-х, многие корпорации создали корпоративные веб-сайты. Ключевые слова, используемые для описания веб-страниц стали больше ориентироваться на маркетинг и разрабатывались, чтобы управлять продажами, помещая веб-страницу в начало страницы результатов поиска для определенных поисковых запросов. Факт, что эти ключевые слова были определены субъективно, приводил к спаму, что вынудило поисковые системы принять полнотекстовую индексацию. Разработчики поисковой системы могли поместить много «маркетинговых ключевых слов» в содержание веб-страницы до того, как наполнят её интересной и полезной информацией. Однако целью проектирования веб-сайтов являлось привлечение клиентов, поэтому разработчики были заинтересованы в том, чтобы включить больше полезного контента на сайт, чтобы сохранить . В этом смысле полнотекстовая индексация была более объективной и увеличила качество результатов поисковой системы, что содействовало исследованиям технологий полнотекстовой индексации.
В локальном поиске решения могут включать метатеги, чтобы обеспечить поиск по авторам, так как поисковая система индексирует контент из различных файлов, содержание которых не очевидно. Локальный поиск больше находится под контролем пользователя, в то время как механизмы интернет-поиска должны больше фокусироваться на полнотекстовом индексе.
См. также
- Вертикальный поиск
- Извлечение информации
- Индекс (базы данных)
- Семантическая паутина
- Поиск по сайту
Примечания
- Clarke,Cormack, 1995.
- Rice,Bailey.
- Jacobs,Finkelstein,Salesin, 2006.
- Lee.
- Brown, 1996.
- Cutting,Pedersen, 1990.
- mysql.
- trie.
- Gusfield, 1997.
- inverted index.
- Foster, 1965.
- Landauer, 1963.
- 5-gram.
- Dean,Ghemawat, 2004.
- Brin,Page, 2006.
- Grossman,Frieder,Goharian, 2002.
- Tang,Sandhya, 2004.
- Tomasic, 1994.
- Luk,Lam, 2007.
- unicode.
- Tokenization Guidelines, 2011.
- Lex&Yacc, 1992.
- Automated language recognition, 2009.
- html, 2011.
- formats files.
- Типы файлов Google/Yandex.
- Программы индексации и поиска файлов.
- Индексирование архивов.
- Служба индексирования windows.
- JS indexing.
- Lee Hypertext, 1995.
Литература
- Charles L. A. Clarke , Gordon V. Cormack. Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System (англ.) // MultiText Pro ject Technical Report MT-95-01. — University of Waterloo, Waterloo, Ontario N2L 3G1, Canada, 1995.
- Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying (англ.) // Department of Computer Science and Engineering. — University of Washington, Seattle, Washington 98195, 2006.
- Cutting, D., Pedersen, J. Optimizations for dynamic inverted index maintenance (англ.) / Jean-Luc Vidick. — NY, USA: ACM New York, 1990. — P. 405-411. — ISBN 0-89791-408-2.
- Eric W. Brown. Execution Performance Issues in Full-Text Information Retrieval. — University of Massachusetts Amherst: Computer Science Department, 1996. — 179 с. — (Technical Report 95-81).
- Dan Gusfield. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. — USA: Cambridge University Press, 1997. — 326 с. — ISBN 0-521-58519-8.
- Caxton Croxford Foster. Information retrieval: information storage and retrieval using AVL trees (англ.) // ACM '65 Proceedings of the 1965 20th national conference. — NY, USA, 1965. — P. 192-205. — doi:10.1145/800197.806043.
- Landauer, W. I. The balanced tree and its utilization in information retrieval (англ.) // IEEE Trans. on Electronic Computers. — USA, 1963. — No. 6. — P. 12.
- Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters (англ.). — Google, Inc, 2004.
- Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine (англ.). — Stanford University, Stanford: Computer Science Department, 2006.
- Grossman, Frieder, Goharian. IR Basics of Inverted Index (англ.). — 2002.
- Tang Hunqiang, Sandhya Dwarkadas. Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval (англ.). — University of Rochester: Computer Science Department, 2004.
- Anthony Tomasic. Incremental Updates of Inverted Lists for Text Document Retrieval (англ.) : Conference Proceeding. — Stanford University, 1994.
- Robert W.P. Luk, Wai Lam. Efficient in-memory extensible inverted file (англ.) // Information Systems. — 2007. — No. 32 (5). — P. 733-754. — doi:10.1016/j.is.2006.06.001.
- Radim Řehůřek, Milan Kolkus. Language Identification on the Web: Extending the Dictionary Method (англ.) // Lecture Notes in Computer Science Volume. — Mexico, 2009. — No. 5449. — P. 357-368. — ISBN 978-3-642-00382-0. (недоступная ссылка)
- Scoping SIG, Tokenization Taskforce PCI Security Standards Council. Info Supplement:PCI DSS Tokenization Guidelines. — 2011. — С. 23.
- Б. Лоусон, Р. Шарп. Изучаем HTML5 = Introducing HTML5. — Питер, 2011. — 272 с. — (Библиотека специалиста). — 2000 экз. — ISBN 978-5-459-00269-0, 978-0321687296.
- T. Berners-Lee. Hypertext Markup Language - 2.0 (англ.). — Network Working Group, 1995.
- Levine JR, Mason T, Brown D. Lex & Yacc. — Sebastopol: O'Reilly & Associates, 1992. — P. 387. — ISBN 1565920007.
Ссылки
- James Lee. Software Learns to Tag Photos (англ.). MIT Technology Review 1-2 (9 ноября 2006). Дата обращения: декабрь 2013. Архивировано из оригинала 20 октября 2013 года.
- Stephen V. Rice, Stephen M. Bailey. Searching for Sounds Comparisonics Searching for Sounds (англ.). © 2013 Comparisonics Corporation (май 2004).
- С. Брин, Л. Пейдж. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Дата обращения: декабрь 2013. Архивировано 30 марта 2012 года.
- MySQL 5.1 Reference Manual. 18.2.3.1 LINEAR HASH Partitioning (англ.). mysql.com. © Oracle and/or its affiliates 1997, 2013. Дата обращения: 24 октября 2013.
- Vreda Pieterse and Paul E. Black. "trie" in Dictionary of Algorithms and Data Structures (англ.). http://www.nist.gov (22 февраля 2011).
- Vreda Pieterse and Paul E. Black. "inverted index" in Dictionary of Algorithms and Data Structures (англ.). http://www.nist.gov U.S. National Institute of Standards and Technology (14 августа 2008).
- Thorsten Brants, Alex Franz. Web 1T 5-gram Version 1 (англ.). http://catalog.ldc.upenn.edu/ (19 сентября 2006).
- The Unicode Standard - Frequently Asked Questions (англ.) (декабрь 2006).
- Файлы каких форматов индексирует Google? http://www.seowords.ru. © 2008-2013 Немного о seo (22 февраля 2010). Дата обращения: 24 ноября 2013.
- rznasa. Какие типы файлов может индексировать Google и Yandex. http://excalibur.com.ua. © 2009-2010 Портал о создании и продвижении сайтов :: EXCALIBUR. (21 сентября 2010). Дата обращения: 24 ноября 2013. Архивировано из оригинала 4 декабря 2013 года.
- ghosty. Программы индексации и поиска файлов / Desktop Search (25 марта 2003). Дата обращения: декабрь 2013.
- Максим Захаров. Индексирование архивов (11 мая 2010). Дата обращения: декабрь 2013.
- Служба индексирования windows (20 августа 2013). Дата обращения: декабрь 2013.
- Поддерживает ли Google Site Search индексирование контента JavaScript на моих страницах? ©2013 Google. Дата обращения: декабрь 2013. Архивировано из оригинала 10 декабря 2013 года.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Поисковый индекс, Что такое Поисковый индекс? Что означает Поисковый индекс?
Poisko vyj i ndeks struktura dannyh kotoraya soderzhit informaciyu o dokumentah i ispolzuetsya v poiskovyh sistemah Indeksi rovanie sovershaemoe poiskovoj mashinoj process sbora sortirovki i hraneniya dannyh s celyu obespechit bystryj i tochnyj poisk informacii Sozdanie indeksa vklyuchaet mezhdisciplinarnye ponyatiya iz lingvistiki kognitivnoj psihologii matematiki informatiki i fiziki Veb indeksirovaniem nazyvayut process indeksirovaniya v kontekste poiskovyh mashin razrabotannyh chtoby iskat veb stranicy v Internete Populyarnye poiskovye mashiny sosredotachivayutsya na polnotekstovoj indeksacii dokumentov napisannyh na estestvennyh yazykah Multimedijnye dokumenty takie kak video i audio i grafika takzhe mogut uchastvovat v poiske Metapoiskovye mashiny ispolzuyut indeksy drugih poiskovyh servisov i ne hranyat lokalnyj indeks v to vremya kak poiskovye mashiny osnovannye na keshirovannyh stranicah dolgo hranyat kak indeks tak i tekstovye korpusy V otlichie ot polnotekstovyh indeksov chastichno tekstovye servisy ogranichivayut glubinu indeksacii chtoby umenshit razmer indeksa Bolshie servisy kak pravilo vypolnyayut indeksaciyu v zadannom vremenno m intervale iz za neobhodimogo vremeni i zatrat na obrabotku v to vremya kak poiskovye mashiny osnovannye na agentah stroyat indeks v masshtabe realnogo vremeni IndeksaciyaCel ispolzovaniya indeksa povyshenie skorosti poiska relevantnyh dokumentov po poiskovomu zaprosu Bez indeksa poiskovaya mashina dolzhna byla by skanirovat kazhdyj dokument v korpuse chto potrebovalo by bolshogo kolichestva vremeni i vychislitelnoj moshnosti Naprimer v to vremya kak indeks 10 000 dokumentov mozhet byt oproshen v predelah millisekund posledovatelnyj prosmotr kazhdogo slova v 10 000 bolshih dokumentov mog by zanyat chasy Dopolnitelnaya pamyat vydelyaemaya dlya hraneniya indeksa i uvelichenie vremeni trebuemoe dlya obnovleniya indeksa kompensiruetsya umensheniem vremeni na poisk informacii Faktory vliyayushie na proektirovanie poiskovyh sistem Pri razrabotke poiskovoj sistemy neobhodimo uchityvat sleduyushie faktory Faktory sliyaniya Kak dannye vhodyat v indeks Kak slova i podchinennye funkcii dobavlyayutsya v indeks vo vremya tekstovogo korpusnogo obhoda I mogut li neskolko poiskovyh robotov rabotat asinhronno Poiskovyj robot dolzhen snachala proverit obnovlyaet on staroe soderzhanie ili dobavlyaet novoe Sliyanie indeksa poiskovoj sistemy podobno SQL Merge i drugim algoritmam sliyaniya Metody hraneniya Kak hranit indeksiruemye dannye To est opredelyayut vid hranimoj informacii szhatyj ili otfiltrovannyj Razmer indeksa Skolko pamyati kompyutera neobhodimo chtoby podderzhivat indeks Skorost poiska Kak bystro mozhno najti slovo v invertirovannom indekse Vazhnym dlya informatiki yavlyaetsya sravnenie skorosti nahozhdeniya zapisi v strukture dannyh i skorosti obnovleniya udaleniya indeksa Hranenie Kak hranitsya indeks v techenie dlitelnogo vremeni Otkazoustojchivost Dlya poiskovoj sluzhby vazhno byt nadezhnoj Voprosy otkazoustojchivosti vklyuchayut problemu povrezhdeniya indeksa opredelyaya mozhno li otdelno rassmatrivat nekorrektnye dannye svyazannye s plohimi apparatnymi sredstvami sekcionirovaniem i shemami na osnove hesh funkcij i kompozitnogo sekcionirovaniya a takzhe replikacii Indeksnye struktury dannyh Arhitektura poiskovoj sistemy razlichaetsya po sposobam indeksirovaniya i po metodam hraneniya indeksov udovletvoryaya faktory Indeksy byvayut sleduyushih tipov Suffiksnoe derevo Obrazno strukturirovano kak derevo podderzhivaet linejnoe vremya poiska Postroeno na hranenii suffiksov slov Derevya podderzhivayut rasshirennoe heshirovanie kotoroe vazhno dlya indeksacii poiskovoj sistemy Ispolzuetsya dlya poiska po shablonu v posledovatelnostyah DNK i klasterizacii Osnovnym nedostatkom yavlyaetsya to chto hranenie slova v dereve mozhet potrebovat prostranstvo za predelami neobhodimogo dlya hraneniya samogo slova Alternativnoe predstavlenie suffiksnyj massiv Schitaetsya chto on trebuet menshe virtualnoj pamyati i podderzhivaet blochno sortiruyushee szhatie dannyh Invertirovannyj indeks Hranilishe spiska vhozhdenij kazhdogo kriteriya poiska obychno v forme hesh tablic ili binarnogo dereva Indeks citirovaniya Hranilishe citat ili giperssylok mezhdu dokumentami dlya podderzhki analiza citirovaniya predmet bibliometrii N gramma Hranilishe posledovatelnostej dlin dannyh dlya podderzhki drugih tipov poiska ili analiza teksta Matrica termov dokumenta Ispolzuetsya v latentno semanticheskom analize LSA hranit vhozhdeniya slov v dokumentah v dvumernoj razrezhennoj matrice Problemy parallelnogo indeksirovaniya Odnoj iz osnovnyh zadach pri proektirovanii poiskovyh sistem yavlyaetsya upravlenie posledovatelnymi vychislitelnymi processami Sushestvuet situacii v kotoryh vozmozhno sozdanie sostoyaniya gonki i kogerentnyh otkazov Naprimer novyj dokument dobavlen k korpusu i indeks dolzhen byt obnovlen no v to zhe vremya indeks dolzhen prodolzhat otvechat na poiskovye zaprosy Eto kolliziya mezhdu dvumya konkuriruyushimi zadachami Schitaetsya chto avtory yavlyayutsya proizvoditelyami informacii a poiskovyj robot potrebitelem etoj informacii zahvatyvaya tekst i sohranyaya ego v keshe ili korpuse Pryamoj indeks yavlyaetsya potrebitelem informacii proizvedennoj korpusom a invertirovannyj indeks potrebitelem informacii proizvedennoj pryamym indeksom Eto obychno upominaetsya kak model proizvoditelya potrebitelya Indeksator yavlyaetsya proizvoditelem dostupnoj dlya poiska informacii a polzovateli kotorye eyo ishut potrebitelyami Problema usilivaetsya pri raspredelennom hranenii i raspredelennoj obrabotke Chtoby masshtabirovat bolshie obemy indeksirovannoj informacii poiskovaya sistema mozhet osnovyvatsya na arhitekture raspredelennyh vychislenij pri etom poiskovaya sistema sostoit iz neskolkih mashin rabotayushih soglasovanno Eto uvelichivaet veroyatnost nelogichnosti i delaet slozhnee podderzhku polnostyu sinhroniziruemoj raspredelennoj parallelnoj arhitektury Pryamoj indeks Pryamoj indeks hranit spisok slov dlya kazhdogo dokumenta Nizhe privedena uproshennaya forma pryamogo indeksa Pryamoj indeks Dokument SlovaDokument 1 nasha Tanya gromko plachetDokument 2 uronila v rechku myachikDokument 3 tishe Tanechka ne plach Dokument 4 ne utonet v rechke myach Neobhodimost razrabotki pryamogo indeksa obyasnyaetsya tem chto luchshe srazu sohranyat slova za dokumentami poskolku ih v dalnejshem analiziruyut dlya sozdaniya poiskovogo indeksa Formirovanie pryamogo indeksa vklyuchaet asinhronnuyu sistemnuyu obrabotku kotoraya chastichno obhodit uzkoe mesto obnovleniya invertirovannogo indeksa Pryamoj indeks sortiruyut chtoby preobrazovat v invertirovannyj Pryamoj indeks po suti predstavlyaet soboj spisok par sostoyashih iz dokumentov i slov otsortirovannyj po dokumentam Preobrazovanie pryamogo indeksa k invertirovannomu yavlyaetsya tolko voprosom sortirovki par po slovam V etom otnoshenii invertirovannyj indeks otsortirovannyj po slovam pryamoj indeks Invertirovannyj indeks Osnovnaya statya Invertirovannyj indeks Mnogie poiskovye sistemy ispolzuyut invertirovannyj indeks pri ocenke poiskovogo zaprosa chtoby bystro opredelit mestopolozhenie dokumentov soderzhashih slova iz zaprosa a zatem ranzhirovat eti dokumenty po relevantnosti Poskolku invertirovannyj indeks hranit spisok dokumentov soderzhashih kazhdoe slovo poiskovaya sistema mozhet ispolzovat pryamoj dostup chtoby najti dokumenty svyazannye s kazhdym slovom v zaprose i bystro poluchit ih Nizhe privedeno uproshennoe predstavlenie invertirovannogo indeksa Invertirovannyj indeks Slovo Dokumentyv Dokument 2 Dokument 4gromko Dokument 1myach Dokument 2 Dokument 4nasha Dokument 1ne Dokument 3 Dokument 4plakat Dokument 1 Dokument 3rechka Dokument 2 Dokument 4Tanya Dokument 1 Dokument 3tishe Dokument 3uronit Dokument 2utonut Dokument 4 Invertirovannyj indeks mozhet tolko opredelit sushestvuet li slovo v predelah konkretnogo dokumenta tak kak ne hranit nikakoj informacii otnositelno chastoty i pozicii slova i poetomu ego schitayut logicheskim indeksom Invertirovannyj indeks opredelyaet kakie dokumenty sootvetstvuyut zaprosu no ne ocenivaet sootvetstvuyushie dokumenty V nekotoryh sluchayah indeks vklyuchaet dopolnitelnuyu informaciyu takuyu kak chastota kazhdogo slova v kazhdom dokumente ili poziciya slova v dokumente Informaciya o pozicii slova pozvolyaet poiskovomu algoritmu identificirovat blizost slova chtoby podderzhivat poisk fraz Chastota mozhet ispolzovatsya chtoby pomoch v ranzhirovanii dokumentov po zaprosu Takie temy v centre vnimaniya issledovanij informacionnogo poiska Invertirovannyj indeks predstavlen razrezhennoj matricej tak kak ne vse slova prisutstvuyut v kazhdom dokumente Indeks podoben matrice termov dokumenta ispolzuemom v LSA Invertirovannyj indeks mozhno schitat formoj hesh tablicy V nekotoryh sluchayah indeks predstavlen v forme dvoichnogo dereva kotoraya trebuet dopolnitelnoj pamyati no mozhet umenshit vremya poiska V bolshih indeksah arhitektura kak pravilo predstavlena raspredelennoj hesh tablicej Sliyanie indeksa Invertirovannyj indeks zapolnyaetsya putyom sliyaniya ili vosstanovleniya Arhitektura mozhet byt sproektirovana tak chtoby podderzhivat inkrementnuyu indeksaciyu gde sliyanie opredelyaet dokument ili dokumenty kotorye budut dobavleny ili obnovleny a zatem analiziruet kazhdyj dokument v slova Dlya tehnicheskoj tochnosti sliyanie obedinyaet nedavno indeksirovannye dokumenty obychno nahodyashiesya v virtualnoj pamyati s indeksnym keshem kotoryj nahoditsya na odnom ili neskolkih zhestkih diskah kompyutera Posle sintaksicheskogo analiza indeksator dobavlyaet ukazannyj dokument v spisok dokumentov dlya sootvetstvuyushih slov V bolee krupnoj poiskovoj sisteme process nahozhdeniya kazhdogo slova dlya invertirovannogo indeksa mozhet byt slishkom trudoemkim poetomu ego kak pravilo razdelyayut na dve chasti razrabotka pryamogo indeksa sortirovka pryamogo indeksa v invertirovannyj indeks Invertirovannyj indeks nazyvaetsya tak iz za togo chto on yavlyaetsya inversiej pryamogo indeksa Szhatie Sozdanie i podderzhka krupnomasshtabnogo poiskovogo indeksa trebuet znachitelnoj pamyati i vypolneniya zadach obrabotki Mnogie poiskovye sistemy ispolzuyut tu ili inuyu formu szhatiya chtoby umenshit razmer indeksov na diske Rassmotrim sleduyushij scenarij dlya polnotekstovogo mehanizma poiska v Internete Trebuetsya 8 bitov 1 bajt dlya hraneniya odnogo simvola Nekotorye kodirovki ispolzuyut 2 bajta na simvol Srednee chislo simvolov v lyubom slove na stranice primem za 5 Uchityvaya etot scenarij neszhatyj indeks dlya 2 milliardov veb stranic dolzhen byl by hranit 500 milliardov zapisej slov 1 bajt za simvol ili 5 bajt za slovo potrebovalos by 2500 gigabajt odnogo tolko prostranstva pamyati Eto bolshe chem srednee svobodnoe prostranstvo na diske 2 personalnyh kompyuterov Dlya otkazoustojchivoj raspredelennoj arhitektury trebuetsya eshe bolshe pamyati V zavisimosti ot vybrannogo metoda szhatiya indeks mozhet byt umenshen do chasti takogo razmera Kompromiss vremeni i vychislitelnoj moshnosti trebuemoj dlya vypolneniya szhatiya i raspakovki Primechatelno chto krupnomasshtabnye proekty poiskovyh sistem vklyuchayut zatraty na hranenie a takzhe na elektroenergiyu dlya osushestvleniya hraneniya Sintaksicheskij analiz dokumentaSintaksicheskij analiz ili parsing dokumenta predpolagaet razbor dokumenta na komponenty slova dlya vstavki v pryamoj i invertirovannyj indeksy Najdennye slova nazyvayut tokenami angl token i v kontekste indeksacii poiskovyh sistem i obrabotki estestvennogo yazyka parsing chasto nazyvayut tokenizaciej to est razbieniem na tokeny Sintaksicheskij analiz inogda nazyvayut chasterechnoj razmetkoj morfologicheskim analizom kontent analizom tekstovym analizom analizom teksta generaciej soglasovaniya segmentaciej rechi leksicheskim analizom Terminy indeksaciya parsing i tokenizaciya vzaimozamenyaemy v korporativnom slenge Obrabotka estestvennogo yazyka postoyanno issleduetsya i uluchshaetsya Tokenizaciya imeet problemy s izvlecheniem neobhodimoj informacii iz dokumentov dlya indeksacii chtoby podderzhivat kachestvennyj poisk Tokenizaciya dlya indeksacii vklyuchaet v sebya neskolko tehnologij realizaciya kotoryh mozhet byt kommercheskoj tajnoj Problemy pri obrabotke estestvennogo yazyka Neodnoznachnost granic slova Na pervyj vzglyad mozhet pokazatsya chto tokenizaciya yavlyaetsya prostoj zadachej no eto ne tak osobenno pri razrabotke mnogoyazychnogo indeksatora V cifrovoj forme teksty nekotoryh yazykov takih kak kitajskij ili yaponskij predstavlyayut slozhnuyu zadachu tak kak slova chetko ne razdeleny probelom Cel tokenizacii v tom chtoby raspoznat slova kotorye budut iskat polzovateli Specifichnaya dlya kazhdogo yazyka logika ispolzuetsya chtoby pravilno raspoznat granicy slov chto neobhodimo dlya razrabotki sintaksicheskogo analizatora dlya kazhdogo podderzhivaemogo yazyka ili dlya grupp yazykov s pohozhimi granicami i sintaksisom Neodnoznachnost yazyka Dlya bolee tochnogo ranzhirovaniya dokumentov poiskovye sistemy mogut uchityvat dopolnitelnuyu informaciyu o slove naprimer k kakomu yazyku ili chasti rechi ono otnositsya Eti metody zavisyat ot yazyka poskolku sintaksis mezhdu yazykami razlichaetsya Pri tokenizacii nekotorye poiskovye sistemy pytayutsya avtomaticheski opredelit yazyk dokumenta Razlichnye formaty fajlov Dlya togo chtoby pravilno opredelit kakie bajty predstavlyayut simvoly dokumenta format fajla dolzhen byt pravilno obrabotan Poiskovye sistemy kotorye podderzhivayut razlichnye formaty fajlov dolzhny pravilno otkryvat dokument poluchat dostup k dokumentu i tokenizirovat ego simvoly Oshibki pamyati Kachestvo dannyh estestvennogo yazyka ne vsegda mozhet byt sovershennym Uyazvimost sushestvuet iz za neizvestnogo kolichestva dokumentov v chastnosti v Internete kotorye ne podchinyayutsya sootvetstvuyushemu protokolu fajla Dvoichnye simvoly mogut byt oshibochno zakodirovany v razlichnyh chastyah dokumenta Bez raspoznavaniya etih simvolov i sootvetstvuyushej obrabotki mozhet uhudshitsya kachestvo indeksa ili indeksirovaniya Tokenizaciya V otlichie ot bolshinstva lyudej kompyutery ne ponimayut strukturu dokumenta estestvennogo yazyka i ne mogut avtomaticheski raspoznavat slova i predlozheniya Dlya kompyutera dokument eto tolko posledovatelnost bajtov Kompyuter ne znaet chto simvol probela yavlyaetsya razdelitelem slov v dokumente Chelovek dolzhen zaprogrammirovat kompyuter tak chtoby opredelit chto yavlyaetsya otdelnym slovom nazyvaemym tokenom Takuyu programmu obychno nazyvayut tokenizatorom ili sintaksicheskim analizatorom parserom a takzhe leksicheskim analizatorom Nekotorye poiskovye sistemy i drugoe PO dlya obrabotki estestvennogo yazyka podderzhivayut specializirovannye programmy udobnye dlya osushestvleniya sintaksicheskogo analiza naprimer YACC ili Leks Vo vremya tokenizacii sintaksicheskij analizator opredelyaet posledovatelnost simvolov kotorye predstavlyayut slova i drugie elementy naprimer punktuaciya predstavlennaya chislovymi kodami nekotorye iz kotoryh yavlyayutsya nepechataemymi upravlyayushimi simvolami Sintaksicheskij analizator mozhet raspoznat nekotorye obekty naprimer adresa elektronnoj pochty telefonnye nomera i URL Pri raspoznavanii kazhdogo tokena mogut byt sohraneny nekotorye harakteristiki naprimer yazyk ili kodirovka chast rechi poziciya chislo predlozheniya poziciya v predlozhenii dlina i nomer stroki Raspoznavanie yazyka Esli poiskovaya sistema podderzhivaet neskolko yazykov to pervym shagom vo vremya tokenizacii budet opredelenie yazyka kazhdogo dokumenta poskolku mnogie posleduyushie shagi zavisyat ot etogo naprimer stemming i opredelenie chasti rechi Raspoznavanie yazyka eto process pri kotorom kompyuternaya programma pytaetsya avtomaticheski opredelit ili klassificirovat yazyk dokumenta Avtomaticheskoe raspoznavanie yazyka yavlyaetsya predmetom issledovanij v obrabotke estestvennogo yazyka Analiz formata dokumenta Esli poiskovaya sistema podderzhivaet mnozhestvo formatov dokumentov to dokumenty dolzhny byt podgotovleny dlya tokenizacii Problema sostoit v tom chto nekotorye formaty dokumentov soderzhat informaciyu o formatirovanii v dopolnenie k tekstovomu soderzhaniyu Naprimer dokumenty HTML soderzhat HTML tegi Esli by poiskovaya sistema ignorirovala razlichie mezhdu soderzhaniem i razmetkoj teksta to postoronnyaya informaciya vklyuchalas by v indeks chto privelo by k plohim rezultatam poiska Analiz formata vyyavlenie i obrabotka yazyka razmetki vstroennogo v dokument Analiz formata takzhe upominaetsya kak strukturnyj analiz razdelenie tegov tekstovaya normalizaciya Zadacha analiza formata oslozhnyaetsya tonkostyami razlichnyh formatov fajlov Nekotorye formaty fajlov zashishayutsya pravom intellektualnoj sobstvennosti o nih malo informacii a drugie naoborot horosho dokumentirovany Rasprostranennye horosho zadokumentirovannye formaty fajlov kotorye podderzhivayut poiskovye sistemy HTML ASCII tekstovye fajly tekstovye dokumenty bez udobnochitaemogo dlya kompyutera formatirovaniya Adobe format elektronnyh dokumentov PDF PostScript PS LaTeX Usenet format novostnyh internet serverov XML i proizvodnye naprimer RSS SGML Formaty multimedijnyh metadannyh kak ID3 Microsoft Word Microsoft Excel Microsoft PowerPoint IBM Lotus Notes Nekotorye poiskoviki podderzhivayut fajly kotorye hranyatsya v szhatom ili zashifrovannom formate Pri rabote so szhatym formatom indeksator snachala raspakovyvaet dokument Etot shag mozhet privesti k polucheniyu odnogo ili neskolkih fajlov kazhdyj iz kotoryh dolzhen byt indeksirovan otdelno Byvayut sleduyushie podderzhivaemye formaty szhatogo fajla ZIP format szhatiya dannyh i arhivacii fajlov RAR format szhatiya dannyh i uslovno besplatnaya programma arhivator CAB Microsoft Windows Cabinet File Gzip format szhatogo fajla gzip BZIP format szhatogo fajla bzip Tape ARchive TAR szhatyj fajl Unix TAR Z TAR GZ or TAR BZ2 Unix arhiv fajlov szhatyh v Compress GZIP ili BZIP2 Analiz formata mozhet vklyuchat metody povysheniya kachestva chtoby izbezhat vklyucheniya nenuzhnoj informacii v indeks Kontent mozhet upravlyat informaciej o formatirovanii chtoby vklyuchat dopolnitelnye svedeniya Primery zloupotrebleniya formatirovaniem dokumenta v sluchae veb spama Vklyuchenie soten ili tysyach slov v razdel kotoryj skryt ot predstavleniya na monitore no yavlyaetsya vidimym indeksatoru pri pomoshi tegov formatirovaniya naprimer v skrytyj teg div v HTML mozhno vklyuchit ispolzovanie CSS ili JavaScript Ustanovka cveta shrifta slov takim zhe kak cvet fona chto delaet nevidimymi slova dlya cheloveka pri prosmotre dokumenta no slova ostayutsya vidimymi dlya indeksatora Raspoznavanie razdela Nekotorye poiskovye sistemy vklyuchayut raspoznavanie razdela opredelyayut osnovnye chasti dokumenta do tokenizacii Ne vse dokumenty v korpuse chitayutsya kak pravilno napisannaya kniga razdelennaya na glavy i stranicy Nekotorye dokumenty v Internete takie kak novostnye rassylki i korporativnye otchety soderzhat oshibochnoe soderzhanie i bokovye bloki v kotoryh net osnovnogo materiala Naprimer eta statya otobrazhaet v levom menyu ssylki na drugie veb stranicy Nekotorye formaty fajlov kak HTML ili PDF dopuskayut soderzhanie kotoroe budet otobrazhatsya v kolonkah Hotya soderzhimoe dokumenta predstavleno na ekrane v razlichnyh oblastyah ishodnyj tekst hranit etu informaciyu posledovatelno Slova kotorye poyavlyayutsya posledovatelno v ishodnom tekste indeksiruyutsya posledovatelno nesmotrya na to chto predlozheniya i abzacy otobrazhayutsya v razlichnyh chastyah monitora Esli poiskovye sistemy indeksiruyut ves kontent kak budto eto osnovnoe soderzhanie dokumenta to kachestvo indeksa i poiska mozhet uhudshitsya Otmechayut dve osnovnye problemy Soderzhanie v razlichnyh razdelah rassmatrivayut kak svyazannoe s indeksom hotya v dejstvitelnosti eto ne tak Dopolnitelnoe soderzhanie bokovoj paneli vklyucheno v indeks no ono ne sposobstvuet realnoj znachimosti dokumenta poetomu indeks zapolnen plohim predstavleniem o dokumente Dlya analiza razdela mozhet potrebovatsya chtoby poiskovaya sistema realizovala logiku vizualizacii kazhdogo dokumenta to est abstraktnoe predstavlenie samogo dokumenta i zatem proindeksirovala predstavlenie vmesto dokumenta Naprimer inogda dlya vyvoda kontenta na stranicu v Internete ispolzuyut JavaScript Esli poiskovaya sistema ne vidit JavaScript to indeksaciya stranic proishodit nekorrektno poskolku chast kontenta ne indeksiruetsya Uchityvaya chto nekotorye poiskovye sistemy ne bespokoyatsya o problemah s vizualizaciej veb razrabotchiki starayutsya ne predstavlyat kontent cherez JavaScript ili ispolzuyut teg NoScript chtoby ubeditsya chto veb stranica indeksiruetsya dolzhnym obrazom V to zhe vremya etot fakt mozhno ispolzovat chtoby zastavit indeksator poiskovoj sistemy videt razlichnoe skrytoe soderzhanie Indeksaciya metategov Opredelennye dokumenty chasto soderzhat vstroennye metadannye takie kak avtor klyuchevye slova opisanie i yazyk V HTML stranicah metategi soderzhat klyuchevye slova kotorye takzhe vklyucheny v indeks V bolee rannih tehnologiyah poiska v Internete indeksirovalis klyuchevye slova v metategah dlya pryamogo indeksa a polnyj tekst dokumenta ne analizirovalsya V to vremya eshe ne bylo polnotekstovoj indeksacii i apparatnoe obespechenie kompyutera bylo ne v sostoyanii podderzhivat takuyu tehnologiyu Yazyk razmetki HTML pervonachalno vklyuchal podderzhku metategov dlya togo chtoby pravilno i legko indeksirovat bez ispolzovaniya tokenizacii V processe razvitiya Interneta v 1990 h mnogie korporacii sozdali korporativnye veb sajty Klyuchevye slova ispolzuemye dlya opisaniya veb stranic stali bolshe orientirovatsya na marketing i razrabatyvalis chtoby upravlyat prodazhami pomeshaya veb stranicu v nachalo stranicy rezultatov poiska dlya opredelennyh poiskovyh zaprosov Fakt chto eti klyuchevye slova byli opredeleny subektivno privodil k spamu chto vynudilo poiskovye sistemy prinyat polnotekstovuyu indeksaciyu Razrabotchiki poiskovoj sistemy mogli pomestit mnogo marketingovyh klyuchevyh slov v soderzhanie veb stranicy do togo kak napolnyat eyo interesnoj i poleznoj informaciej Odnako celyu proektirovaniya veb sajtov yavlyalos privlechenie klientov poetomu razrabotchiki byli zainteresovany v tom chtoby vklyuchit bolshe poleznogo kontenta na sajt chtoby sohranit V etom smysle polnotekstovaya indeksaciya byla bolee obektivnoj i uvelichila kachestvo rezultatov poiskovoj sistemy chto sodejstvovalo issledovaniyam tehnologij polnotekstovoj indeksacii V lokalnom poiske resheniya mogut vklyuchat metategi chtoby obespechit poisk po avtoram tak kak poiskovaya sistema indeksiruet kontent iz razlichnyh fajlov soderzhanie kotoryh ne ochevidno Lokalnyj poisk bolshe nahoditsya pod kontrolem polzovatelya v to vremya kak mehanizmy internet poiska dolzhny bolshe fokusirovatsya na polnotekstovom indekse Sm takzheVertikalnyj poisk Izvlechenie informacii Indeks bazy dannyh Semanticheskaya pautina Poisk po sajtuPrimechaniyaClarke Cormack 1995 Rice Bailey Jacobs Finkelstein Salesin 2006 Lee Brown 1996 Cutting Pedersen 1990 mysql trie Gusfield 1997 inverted index Foster 1965 Landauer 1963 5 gram Dean Ghemawat 2004 Brin Page 2006 Grossman Frieder Goharian 2002 Tang Sandhya 2004 Tomasic 1994 Luk Lam 2007 unicode Tokenization Guidelines 2011 Lex amp Yacc 1992 Automated language recognition 2009 html 2011 formats files Tipy fajlov Google Yandex Programmy indeksacii i poiska fajlov Indeksirovanie arhivov Sluzhba indeksirovaniya windows JS indexing Lee Hypertext 1995 LiteraturaCharles L A Clarke Gordon V Cormack Dynamic Inverted Indexes for a Distributed Full Text Retrieval System angl MultiText Pro ject Technical Report MT 95 01 University of Waterloo Waterloo Ontario N2L 3G1 Canada 1995 Charles E Jacobs Adam Finkelstein David H Salesin Fast Multiresolution Image Querying angl Department of Computer Science and Engineering University of Washington Seattle Washington 98195 2006 Cutting D Pedersen J Optimizations for dynamic inverted index maintenance angl Jean Luc Vidick NY USA ACM New York 1990 P 405 411 ISBN 0 89791 408 2 Eric W Brown Execution Performance Issues in Full Text Information Retrieval University of Massachusetts Amherst Computer Science Department 1996 179 s Technical Report 95 81 Dan Gusfield Algorithms on Strings Trees and Sequences Computer Science and Computational Biology USA Cambridge University Press 1997 326 s ISBN 0 521 58519 8 Caxton Croxford Foster Information retrieval information storage and retrieval using AVL trees angl ACM 65 Proceedings of the 1965 20th national conference NY USA 1965 P 192 205 doi 10 1145 800197 806043 Landauer W I The balanced tree and its utilization in information retrieval angl IEEE Trans on Electronic Computers USA 1963 No 6 P 12 Jeffrey Dean Sanjay Ghemawat MapReduce Simplified Data Processing on Large Clusters angl Google Inc 2004 Sergey Brin Lawrence Page The Anatomy of a Large Scale Hypertextual Web Search Engine angl Stanford University Stanford Computer Science Department 2006 Grossman Frieder Goharian IR Basics of Inverted Index angl 2002 Tang Hunqiang Sandhya Dwarkadas Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval angl University of Rochester Computer Science Department 2004 Anthony Tomasic Incremental Updates of Inverted Lists for Text Document Retrieval angl Conference Proceeding Stanford University 1994 Robert W P Luk Wai Lam Efficient in memory extensible inverted file angl Information Systems 2007 No 32 5 P 733 754 doi 10 1016 j is 2006 06 001 Radim Rehurek Milan Kolkus Language Identification on the Web Extending the Dictionary Method angl Lecture Notes in Computer Science Volume Mexico 2009 No 5449 P 357 368 ISBN 978 3 642 00382 0 nedostupnaya ssylka Scoping SIG Tokenization Taskforce PCI Security Standards Council Info Supplement PCI DSS Tokenization Guidelines 2011 S 23 B Louson R Sharp Izuchaem HTML5 Introducing HTML5 Piter 2011 272 s Biblioteka specialista 2000 ekz ISBN 978 5 459 00269 0 978 0321687296 T Berners Lee Hypertext Markup Language 2 0 angl Network Working Group 1995 Levine JR Mason T Brown D Lex amp Yacc Sebastopol O Reilly amp Associates 1992 P 387 ISBN 1565920007 SsylkiJames Lee Software Learns to Tag Photos angl MIT Technology Review 1 2 9 noyabrya 2006 Data obrasheniya dekabr 2013 Arhivirovano iz originala 20 oktyabrya 2013 goda Stephen V Rice Stephen M Bailey Searching for Sounds Comparisonics Searching for Sounds angl c 2013 Comparisonics Corporation maj 2004 S Brin L Pejdzh The Anatomy of a Large Scale Hypertextual Web Search Engine neopr Data obrasheniya dekabr 2013 Arhivirovano 30 marta 2012 goda MySQL 5 1 Reference Manual 18 2 3 1 LINEAR HASH Partitioning angl mysql com c Oracle and or its affiliates 1997 2013 Data obrasheniya 24 oktyabrya 2013 Vreda Pieterse and Paul E Black trie in Dictionary of Algorithms and Data Structures angl http www nist gov 22 fevralya 2011 Vreda Pieterse and Paul E Black inverted index in Dictionary of Algorithms and Data Structures angl http www nist gov U S National Institute of Standards and Technology 14 avgusta 2008 Thorsten Brants Alex Franz Web 1T 5 gram Version 1 angl http catalog ldc upenn edu 19 sentyabrya 2006 The Unicode Standard Frequently Asked Questions angl dekabr 2006 Fajly kakih formatov indeksiruet Google neopr http www seowords ru c 2008 2013 Nemnogo o seo 22 fevralya 2010 Data obrasheniya 24 noyabrya 2013 rznasa Kakie tipy fajlov mozhet indeksirovat Google i Yandex neopr http excalibur com ua c 2009 2010 Portal o sozdanii i prodvizhenii sajtov EXCALIBUR 21 sentyabrya 2010 Data obrasheniya 24 noyabrya 2013 Arhivirovano iz originala 4 dekabrya 2013 goda ghosty Programmy indeksacii i poiska fajlov Desktop Search neopr 25 marta 2003 Data obrasheniya dekabr 2013 Maksim Zaharov Indeksirovanie arhivov neopr 11 maya 2010 Data obrasheniya dekabr 2013 Sluzhba indeksirovaniya windows neopr 20 avgusta 2013 Data obrasheniya dekabr 2013 Podderzhivaet li Google Site Search indeksirovanie kontenta JavaScript na moih stranicah neopr c 2013 Google Data obrasheniya dekabr 2013 Arhivirovano iz originala 10 dekabrya 2013 goda
