Инвертированный индекс
Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все документы в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.
Есть два варианта инвертированного индекса:
- индекс, содержащий только список документов для каждого слова,
- индекс, дополнительно включающий позицию слова в каждом документе.
Применение
Опишем, как решается задача нахождения документов, в которых встречаются все слова из поискового запроса. При обработке однословного поискового запроса ответ уже есть в инвертированном индексе — достаточно взять список, соответствующий слову из запроса. При обработке многословного запроса берётся пересечение списков, соответствующих каждому из слов запроса.
Обычно в поисковых системах после построения с помощью инвертированного индекса списка документов, содержащих слова из запроса, идет ранжирование документов из списка. Инвертированный индекс — это самая популярная структура данных, которая используется в информационном поиске.
Пример
Пусть у нас есть корпус из трёх текстов "it is what it is", "what is it" и "it is a banana", тогда инвертированный индекс будет выглядеть следующим образом:
"a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1} Здесь цифры обозначают номера текстов, в которых встретилось соответствующее слово. Тогда отработка поискового "what is it" запроса даст следующий результат .
Особенности применения в реальных поисковых системах
В списке вхождений слова в документы, помимо id документов, обычно также указываются факторы (TF-IDF, бинарный фактор: «попало слово в заголовок или не попало», другие факторы), которые используются при ранжировании. Индекс может строиться не по всем словоформам, а по леммам (по каноническим формам слов). Стоп-слова можно исключить и не строить для них индекс, считая, что каждое из них встречается почти во всех документах корпуса. Для ускорения вычисления пересечений используют эвристику -ов. При обработке запросов, содержащих много слов, используют функцию кворума, которая пропускает на следующую стадию ранжирования часть документов, в которых встретились не все слова из запроса.
См. также
Примечания
Литература
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern information retrieval. — : Addison-Wesley Longman, 1999. — 192 с. — ISBN 0-201-39829-X.
- Justin Zobel, Alistair Moffat, Kotagiri Ramamohanarao. Inverted files versus signature files for text indexing (англ.) // ACM Transactions on Database Systems (TODS) : Journal. — 1998. — No. 23. — P. 453 - 490. — doi:10.1145/296854.277632.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Инвертированный индекс, Что такое Инвертированный индекс? Что означает Инвертированный индекс?
Invertirovannyj indeks angl inverted index struktura dannyh v kotoroj dlya kazhdogo slova kollekcii dokumentov v sootvetstvuyushem spiske perechisleny vse dokumenty v kollekcii v kotoryh ono vstretilos Invertirovannyj indeks ispolzuetsya dlya poiska po tekstam Est dva varianta invertirovannogo indeksa indeks soderzhashij tolko spisok dokumentov dlya kazhdogo slova indeks dopolnitelno vklyuchayushij poziciyu slova v kazhdom dokumente PrimenenieOpishem kak reshaetsya zadacha nahozhdeniya dokumentov v kotoryh vstrechayutsya vse slova iz poiskovogo zaprosa Pri obrabotke odnoslovnogo poiskovogo zaprosa otvet uzhe est v invertirovannom indekse dostatochno vzyat spisok sootvetstvuyushij slovu iz zaprosa Pri obrabotke mnogoslovnogo zaprosa beryotsya peresechenie spiskov sootvetstvuyushih kazhdomu iz slov zaprosa Obychno v poiskovyh sistemah posle postroeniya s pomoshyu invertirovannogo indeksa spiska dokumentov soderzhashih slova iz zaprosa idet ranzhirovanie dokumentov iz spiska Invertirovannyj indeks eto samaya populyarnaya struktura dannyh kotoraya ispolzuetsya v informacionnom poiske PrimerPust u nas est korpus iz tryoh tekstov T0 displaystyle T 0 it is what it is T1 displaystyle T 1 what is it i T2 displaystyle T 2 it is a banana togda invertirovannyj indeks budet vyglyadet sleduyushim obrazom a 2 banana 2 is 0 1 2 it 0 1 2 what 0 1 Zdes cifry oboznachayut nomera tekstov v kotoryh vstretilos sootvetstvuyushee slovo Togda otrabotka poiskovogo what is it zaprosa dast sleduyushij rezultat 0 1 0 1 2 0 1 2 0 1 displaystyle 0 1 cap 0 1 2 cap 0 1 2 0 1 Osobennosti primeneniya v realnyh poiskovyh sistemahV spiske vhozhdenij slova v dokumenty pomimo id dokumentov obychno takzhe ukazyvayutsya faktory TF IDF binarnyj faktor popalo slovo v zagolovok ili ne popalo drugie faktory kotorye ispolzuyutsya pri ranzhirovanii Indeks mozhet stroitsya ne po vsem slovoformam a po lemmam po kanonicheskim formam slov Stop slova mozhno isklyuchit i ne stroit dlya nih indeks schitaya chto kazhdoe iz nih vstrechaetsya pochti vo vseh dokumentah korpusa Dlya uskoreniya vychisleniya peresechenij ispolzuyut evristiku ov Pri obrabotke zaprosov soderzhashih mnogo slov ispolzuyut funkciyu kvoruma kotoraya propuskaet na sleduyushuyu stadiyu ranzhirovaniya chast dokumentov v kotoryh vstretilis ne vse slova iz zaprosa Sm takzhePoiskovyj indeksPrimechaniyaBaeza Yates 1999 Zobel Moffat Ramamohanarao 1998 LiteraturaRicardo Baeza Yates Berthier Ribeiro Neto Modern information retrieval Addison Wesley Longman 1999 192 s ISBN 0 201 39829 X Justin Zobel Alistair Moffat Kotagiri Ramamohanarao Inverted files versus signature files for text indexing angl ACM Transactions on Database Systems TODS Journal 1998 No 23 P 453 490 doi 10 1145 296854 277632
