Википедия

Электронный словарь

Электронный словарьпрограммное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со .

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

Создание машиночитаемых словарей

В проекте Leipzig Corpora Collection (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения.

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán, собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря.

Использование машиночитаемых словарей

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы.

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий.

Трудности извлечения информации из словарей:

image
Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало.
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать.
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям.
  • Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей.

Формат машиночитаемых словарей

image
Фрагмент страницы в русско-ненецком словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей. Примером является формат, выработанный сообществом TEI.

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных.

В работах, посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

Популярные электронные словари

Словари

  • Free On-line Dictionary of Computing
  • Slovoed
  • WordNet
  • Lingvanex Dictionary
  • Wooordhunt

Программы

  • GoldenDict
  • StarDict

Программы, сайты и др.

  • ABBYY Lingvo
  • DICT — сетевой протокол
  • Мультитран
  •  — русско-английские, немецкие, французские, испанские, итальянские, португальские и многоязычные словари. Включают толковые словари и тематические словарные базы для перевода специализированной лексики.

См. также

  • Онлайн-словарь

Примечания

  1. Leipzig Corpora Collection. Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
  2. Goldhahn et al., 2012, с. 760.
  3. Goldhahn et al., 2012, с. 762.
  4. An Crúbadán — Corpus Building for Minority Languages. Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
  5. Scannell, 2007.
  6. Scannell, 2007, с. 9.
  7. Ide, Véronis, 1994, с. 137—138.
  8. Ide, Véronis, 1994, с. 138.
  9. Kiselev et al., 2015.
  10. Ide, Véronis, 1994, с. 139.
  11. Ide, Véronis, 1994, с. 141.
  12. Ide, Véronis, 1994, с. 140.
  13. Ide, Véronis, 1994, с. 143.
  14. Ide, Véronis, 1994, с. 144.
  15. Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
  16. Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература

  • Goldhahn D., Eckart T., Quasthoff U. Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages (англ.) // LREC : Istanbul, Turkey. — 2012. — Vol. 29. — P. 759—765.
  • Ide, N., & Véronis, J. Machine Readable Dictionaries: What have we learned, where do we go (англ.) // Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. — P. 137—146.
  • Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Russian lexicographic landscape: a tale of 12 dictionaries (англ.) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. — Iss. 14 (21). — P. 254—271.
  • Scannell K. P. The Crúbadán Project: Corpus building for under-resourced languages (англ.) // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. — Vol. 4. — P. 5—15.


Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Электронный словарь, Что такое Электронный словарь? Что означает Электронный словарь?

Elektronnyj slovar programmnoe obespechenie kotoroe pozvolyaet bystro najti nuzhnoe slovo chasto s uchyotom morfologii i vozmozhnostyu poiska slovosochetanij primerov upotrebleniya a takzhe s vozmozhnostyu izmeneniya napravleniya perevoda naprimer anglo russkij ili russko anglijskij Vnutrenne ustroen kak baza dannyh so Mashinochitaemye slovari Machine readable dictionary kratko MRD ispolzuyutsya kompyuternymi programmami dlya resheniya razlichnyh zadach naprimer dlya obrabotki tekstov na estestvennom yazyke Mashinochitaemye slovari yavlyayutsya raznovidnostyu elektronnyh slovarej Mashinochitaemye slovariSozdanie mashinochitaemyh slovarej V proekte Leipzig Corpora Collection LCC korpusa i odnoyazychnye slovari stroyatsya na osnove tekstov izvlekaemyh iz seti Internet LCC vklyuchaet okolo 400 slovarej V kachestve zatravki dlya poiska tekstov v Internete v proekte LCC ispolzovali tekst Vseobshej deklaracii prav cheloveka poskolku Deklaraciya soderzhit okolo 2000 obsheupotrebimyh slov i perevedena na 370 yazykov i dialektov Iz 200 Vikipedij byli otobrany teksty dlya kompilyacii vsego 70 slovarej Teksty ne vseh Vikipedij byli vklyucheny v korpus LCC poskolku mnogie viki proekty nachinayutsya s sozdaniya statej zagotovok soderzhashih pochti odinakovye predlozheniya Takoj podhod trudno realizuem dlya maloresursnyh yazykov no proekt Crubadan sobrav dannye dlya bolee chem 2200 yazykov pokazyvaet chto avtomaticheskij poisk dlya yazykov predstavlennyh v seti Internet malym ili edinichnym chislom tekstov takzhe vozmozhen V dalnejshem eti teksty ispolzuyutsya dlya sozdaniya slovarej naprimer v proekte Crubadan bylo sobrano bolee 100 mln vallijskih slov i polovina vallijskih tekstov s etimi slovami byli peredany Uelskomu universitetu dlya sozdaniya vallijskogo slovarya Ispolzovanie mashinochitaemyh slovarej V rabotah 1980 h godov predpolagali chto na osnove mashinochitaemyh slovarej mozhno postroit bolshie bazy znanij No v dalnejshem priznali chto dlya etogo nuzhno ispolzovat mnozhestvo resursov v pervuyu ochered korpusy Maksimum togo chto poluchilos dobitsya pri izvlechenii znanij iz slovarej eto avtomaticheski postroit neskolko nesovershennyh taksonomij Trudnosti izvlecheniya informacii iz slovarej Chislo unikalnyh russkih slov v akademicheskih slovaryah vertikalnaya polosa i chislo unikalnyh slov po vsem 12 slovaryam krugovaya diagramma 2015Preobrazovanie iz ishodnogo formata trebuet bolshih usilij i eta zadacha dostojna otdelnogo issledovaniya odnako uchyonye predpochitayut zanimatsya bolee nauchnymi zadachami Trudnost v tom chto neodnoznachnosti i protivorechiya v pravilah organizacii ishodnogo slovarya isklyuchayut vozmozhnost postroeniya polnostyu avtomaticheskogo parsera slovarya Postroenie takih parserov zadacha vremyazatratnaya i neblagodarnaya poetomu slovarej dostupnyh dlya kompyuternoj obrabotki krajne malo Protivorechiya i nesoglasovannost v slovaryah privodyat k postroeniyu ochen raznyh semanticheskih setej po raznym slovaryam Proverka fragmentov pyati glavnyh anglijskih slovarej pokazala chto v 50 70 sluchaev informaciya v tolkovaniyah slovarej iskazhena ili otsutstvuet Ta zhe plachevnaya kartina poluchena pri analize tryoh glavnyh francuzskih slovarej Iz etogo sleduet chto te metody WSD kotorye osnovany na analize tekstov tolkovanij v etih mnogochislennyh sluchayah ne budut rabotat Neobhodima chastichnaya ruchnaya proverka dlya postroeniya kachestvennyh baz znanij po slovaryam Neobhodima integraciya mnozhestva istochnikov dannyh V kombinirovanii informacii iz neskolkih slovarej est smysl poskolku nepolnota odnogo slovarya kompensiruetsya drugim imeyushim drugie lakuny i propuski informacii V nebolshom eksperimente v postroenii ierarhii po pyati anglijskim slovaryam procent oshibok byl snizhen s 55 70 do 5 Kachestvo izvlekaemoj informacii pri obedinenii slovarej povysilos no ruchnaya proverka nuzhna S drugoj storony analiz 12 russkih slovarej pokazal chto sushestvuyut bolshie razmery peresechenij slovnikov slovarej Na risunke predstavlena dolya unikalnoj leksiki v kazhdom iz rassmotrennyh russkih slovarej Format mashinochitaemyh slovarej Fragment stranicy v russko neneckom slovare Slovarnye stati kratkie no vklyuchayut bolshoj obyom raznorodnyh dannyh tolkovanie perevod slovoobrazovanie udarenie grammaticheskie i dialektnye pomety Dlya ispolzovaniya mashinochitaemyh slovarej ih neobhodimo preobrazovat v udobnyj dlya raboty format Format dolzhen byt dostatochno obshim dlya sovmestimosti mezhdu raznymi slovaryami dlya sozdaniya edinogo PO i povtornogo ispolzovaniya slovarej Primerom yavlyaetsya format vyrabotannyj soobshestvom TEI S vyborom formata slovarya tesno svyazana zadacha vybora podhodyashej modeli dlya predstavleniya dannyh mashinochitaemogo slovarya Esli posmotret lyubuyu slovarnuyu statyu to mozhno uvidet chto organizaciya leksikograficheskih dannyh namnogo slozhnee chem dannye v zadache tovary postavshik ili organizaciya bazy dannyh sotrudnikov Klassicheskie relyacionnye bazy dannyh ne yavlyayutsya idealnym resheniem dlya leksicheskih baz dannyh V rabotah posvyashyonnyh issledovaniyam v oblasti proektirovaniya baz dannyh predlozhena alternativnaya model dlya leksicheskoj bazy dannyh na osnove svojstv Osobennosti etoj modeli 1 podderzhka vlozheniya znachenij 2 est mehanizm nasledovaniya dlya isklyucheniya izbytochnoj informacii Populyarnye elektronnye slovariSlovari Free On line Dictionary of Computing Slovoed WordNet Lingvanex Dictionary WooordhuntProgrammy GoldenDict StarDictProgrammy sajty i dr ABBYY Lingvo DICT setevoj protokol Multitran russko anglijskie nemeckie francuzskie ispanskie italyanskie portugalskie i mnogoyazychnye slovari Vklyuchayut tolkovye slovari i tematicheskie slovarnye bazy dlya perevoda specializirovannoj leksiki Sm takzheOnlajn slovarPrimechaniyaLeipzig Corpora Collection neopr Data obrasheniya 5 maya 2019 Arhivirovano 30 maya 2016 goda Goldhahn et al 2012 s 760 Goldhahn et al 2012 s 762 An Crubadan Corpus Building for Minority Languages neopr Data obrasheniya 5 maya 2019 Arhivirovano 23 aprelya 2019 goda Scannell 2007 Scannell 2007 s 9 Ide Veronis 1994 s 137 138 Ide Veronis 1994 s 138 Kiselev et al 2015 Ide Veronis 1994 s 139 Ide Veronis 1994 s 141 Ide Veronis 1994 s 140 Ide Veronis 1994 s 143 Ide Veronis 1994 s 144 Ide N Le Maitre J amp Veronis J 1994 Outline of a model for lexical databases Arhivnaya kopiya ot 9 avgusta 2017 na Wayback Machine In Current Issues in Computational Linguistics In Honour of Don Walker pp 283 320 Springer Dordrecht Veronis J amp Ide N 1992 August A feature based model for lexical databases Arhivnaya kopiya ot 14 iyulya 2019 na Wayback Machine In Proceedings of the 14th conference on Computational linguistics Volume 2 pp 588 594 Association for Computational Linguistics LiteraturaGoldhahn D Eckart T Quasthoff U Building Large Monolingual Dictionaries at the Leipzig Corpora Collection From 100 to 200 Languages angl LREC Istanbul Turkey 2012 Vol 29 P 759 765 Ide N amp Veronis J Machine Readable Dictionaries What have we learned where do we go angl Proceedings of the International Workshop on the Future of Lexical Research Beijing China 1994 P 137 146 Kiselev Y Krizhanovsky A Braslavski P Menshikov I Mukhin M Krizhanovskaya N Russian lexicographic landscape a tale of 12 dictionaries angl Computational Linguistics and Intellectual Technologies Dialogue Moscow RGGU 2015 Iss 14 21 P 254 271 Scannell K P The Crubadan Project Corpus building for under resourced languages angl Building and Exploring Web Corpora Proceedings of the 3rd Web as Corpus Workshop 2007 Vol 4 P 5 15 V state ne hvataet ssylok na istochniki sm rekomendacii po poisku Informaciya dolzhna byt proveryaema inache ona mozhet byt udalena Vy mozhete otredaktirovat statyu dobaviv ssylki na avtoritetnye istochniki v vide snosok 25 maya 2021

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто