Википедия

Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частотности.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях (англ. ipm, instances per million words). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион), слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат, (англ. Likelihood-ratio test) и т. п.

См. также

Литература

  • Adam Kilgarriff. Putting Frequencies in the Dictionary // International Journal of Lexicography. — 1997. — № 10(2). — P. 135—155.
  • Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009. — 1087 с. — ISBN 978-5-91172-024-7.
  • Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
  • Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М.: Русский язык, 1977.
  • Частотный словарь языка М. Ю. Лермонтова // Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». — М.: Сов. Энцикл., 1981. — С. 717—774.
  • Шаров С. А. Частотный словарь.
  • Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — М., 1963.

Ссылки

  • Частотные словари «Ветхого и Нового Завета» (Поиск «Богослова» в текстах «Ветхого и Нового Завета»).

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Частотный словарь, Что такое Частотный словарь? Что означает Частотный словарь?

Chasto tnyj slova r ili chastotnyj spisok nabor slov dannogo yazyka ili podyazyka vmeste s informaciej ob ih chastotnosti Slovar mozhet byt otsortirovan po chastotnosti po alfavitu togda dlya kazhdogo slova budet ukazana ego chastotnost po gruppam slov naprimer pervaya tysyacha naibolee chastotnyh slov za nej vtoraya i t p po tipichnosti slova chastotnye dlya bolshinstva tekstov i t d Chastotnye spiski ispolzuyutsya dlya prepodavaniya yazyka sozdaniya novyh slovarej prilozhenij kompyuternoj lingvistiki issledovanij v oblasti lingvisticheskoj tipologii i t d Postroenie chastotnyh spiskovObychno chastotnye slovari stroyatsya na osnove korpusov tekstov beretsya nabor tekstov predstavitelnyj dlya yazyka v celom dlya nekotoroj predmetnoj oblasti ili dannogo avtora i iz nego izvlekayutsya slovoformy lemmy i chasti rechi poslednie izvlekayutsya v sluchae esli korpus imeet morfologicheskuyu razmetku Problemy pri sozdanii chastotnyh spiskov zaklyuchayutsya v vosproizvodimosti budut li rezultaty identichny na drugom analogichnom korpuse vspleskah chastotnosti otdelnyh slov chastotnost slova v odnom tekste mozhet povliyat na ego poziciyu v chastotnom spiske slozhnosti opredeleniya pozicii menee chastotnyh slov chto ne daet vozmozhnosti ranzhirovat ih racionalno naprimer slovo beliberda vhodit v 20 000 naibolee chastotnyh slov v to vremya kak slovo hryuknut nahoditsya za predelami spiska pervyh 40 tysyach Vse eti problemy svyazany s tem chto so statisticheskoj tochki zreniya yazyk predstavlyaet soboj bolshoe kolichestvo redkih sobytij Zakon Cipfa v rezultate chego nebolshoe kolichestvo slov vstrechaetsya ochen chasto a podavlyayushee bolshinstvo slov imeyut ochen nevysokuyu chastotnost Chastotnost slova i samogo chastotnogo slova russkogo yazyka primerno v 10 raz vyshe chastotnosti slova o kotoroe v svoyu ochered vstrechaetsya v 100 raz chashe takih obydennyh slov kak puteshestvie starost ili moda Dlya opisaniya vspleskov chastotnosti mozhno ispolzovat metaforu hobbita Adam Kilgarriff iznachalno ispolzoval otnositelno redkoe anglijskoe slovo whelk vid morskogo mollyuska angl whelk esli neskolko tekstov v korpuse o hobbitah to eto slovo budet upotreblyatsya pochti v kazhdom predlozhenii V rezultate ego chastotnost v etih tekstah budet sravnima s chastotnostyu sluzhebnyh slov no i v chastotnom spiske bolshogo korpusa v kotoryj vhodyat takie teksty eto slovo budet imet nepravdopodobno vysokij rang Takie vspleski chastotnosti mozhno ocenivat s pomoshyu koefficienta variacii otnosheniya standartnogo otkloneniya k srednej chastotnosti Sravnenie korpusovChastotnye slovari obespechivayut vozmozhnost sravnit dva korpusa chtoby opredelit slova naibolee harakternye dlya kazhdogo iz nih Inogda v slovaryah ukazyvaetsya absolyutnaya chastotnost to est kolichestvo poyavlenij slova v korpuse V svyazi s tem chto razmery korpusov mogut byt razlichny obychno ukazyvaetsya otnositelnaya chastotnost obychno nazyvaemaya prosto chastotnost to est otnoshenie chisla poyavlenij slova v korpuse k obshemu chislu slov v korpuse Inogda ukazyvayutsya obe velichiny Otnositelnaya chastotnost inogda ukazyvaetsya v procentah v promille libo v millionnyh dolyah angl ipm instances per million words Naprimer slovo i imeet chastotnost 0 03 3 ili 30 ili okolo 30 000 slov na million slovo starost 0 00003 0 003 ili 0 03 ili okolo 30 slov na million Dlya opredeleniya nabora klyuchevyh slov otlichayushih odin korpus ot drugogo mozhno ispolzovat raznye statisticheskie mery hi kvadrat angl Likelihood ratio test i t p Sm takzheKorpusnaya lingvistika Most common words in English Spisok Svodesha Chastotnost Nacionalnyj korpus russkogo yazyka Koefficient ZhuajnaLiteraturaAdam Kilgarriff Putting Frequencies in the Dictionary International Journal of Lexicography 1997 10 2 P 135 155 Lyashevskaya O N Sharov S A Chastotnyj slovar sovremennogo russkogo yazyka na materialah Nacionalnogo korpusa russkogo yazyka M Azbukovnik 2009 1087 s ISBN 978 5 91172 024 7 Chastotnyj slovar Bolshaya sovetskaya enciklopediya v 30 t gl red A M Prohorov 3 e izd M Sovetskaya enciklopediya 1969 1978 Chastotnyj slovar russkogo yazyka Pod red L N Zasorinoj M Russkij yazyk 1977 Chastotnyj slovar yazyka M Yu Lermontova Lermontovskaya enciklopediya AN SSSR In t rus lit Pushkin Dom Nauch red sovet izd va Sov Encikl M Sov Encikl 1981 S 717 774 Sharov S A Chastotnyj slovar Shtejnfeldt E A Chastotnyj slovar sovremennogo russkogo literaturnogo yazyka M 1963 SsylkiChastotnye slovari Vethogo i Novogo Zaveta Poisk Bogoslova v tekstah Vethogo i Novogo Zaveta

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто