Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),
сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частотности.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях (англ. ipm, instances per million words). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион), слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат, (англ. Likelihood-ratio test) и т. п.

См. также

Корпусная лингвистика
Most common words in English
Список Сводеша
Частотность
Национальный корпус русского языка
Коэффициент Жуайна

Литература

Adam Kilgarriff. Putting Frequencies in the Dictionary // International Journal of Lexicography. — 1997. — № 10(2). — P. 135—155.
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009. — 1087 с. — ISBN 978-5-91172-024-7.
Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М.: Русский язык, 1977.
Частотный словарь языка М. Ю. Лермонтова // Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». — М.: Сов. Энцикл., 1981. — С. 717—774.
Шаров С. А. Частотный словарь.
Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — М., 1963.

Ссылки

Частотные словари «Ветхого и Нового Завета» (Поиск «Богослова» в текстах «Ветхого и Нового Завета»).

Частотный словарь

Построение частотных списков

Сравнение корпусов

См. также

Литература

Ссылки

NiNa.Az

Император Конин

Император Кобун

Император Коан

Император Когэн

Император Итоку