Корпус текстов
В лингвистике ко́рпус (множественное число — ко́рпусы) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.
Основные свойства корпуса
Среди множества определений корпуса можно выделить его главные свойства:
- электронный — в современном понимании корпус должен быть в электронном виде
- репрезентативный — должен хорошо «представлять» объект, который моделирует
- размеченный — главное отличие корпуса от коллекции текстов
- прагматически ориентированный — должен быть создан под определённую задачу
Классификация корпусов

Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:
- параллельные — множество текстов и их переводов на один или несколько языков.
- сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.
Разметка корпусов
Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.
Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:
- возможность одновременной разметки одного документа несколькими людьми
- не требуют установки дополнительных программных средств, кроме браузера
- гибкое разграничение прав доступа
- отображение текущего прогресса процесса разметки
- возможность модификации размечаемого корпуса
Интернет как корпус
Внешние видеофайлы | |
|---|---|
![]() | Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016 |
Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:
Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, морфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов.
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
Применение
Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.
Корпусы текстов русского языка
См. также
Примечания
- ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова. gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.
- Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
- Ванюшкин, Гращенко, 2017.
- ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие". textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.
- Глазкова, А. (2018), Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке, Труды Института системного программирования РАН, 30(6): 221–236, doi:10.15514/ISPRAS-2018-30(6)-12
- Рубцова, Ю. (2015), Построение корпуса текстов для настройки тонового классификатора, Программные продукты и системы, 1(109): 72–78, doi:10.15827/0236-235x.109.072-078, Архивировано 7 августа 2020, Дата обращения: 24 августа 2020 Источник. Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.
Литература
- Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20. — ISSN 2227-0973.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: URSS, 2016. — 320 с.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Корпус текстов, Что такое Корпус текстов? Что означает Корпус текстов?
V lingvistike ko rpus mnozhestvennoe chislo ko rpusy podobrannaya i obrabotannaya po opredelyonnym pravilam sovokupnost tekstov ispolzuemyh v kachestve bazy dlya issledovaniya yazyka Oni ispolzuyutsya dlya statisticheskogo analiza i proverki statisticheskih gipotez podtverzhdeniya lingvisticheskih pravil v dannom yazyke Korpus tekstov yavlyaetsya predmetom issledovaniya korpusnoj lingvistiki Osnovnye svojstva korpusaSredi mnozhestva opredelenij korpusa mozhno vydelit ego glavnye svojstva elektronnyj v sovremennom ponimanii korpus dolzhen byt v elektronnom vide reprezentativnyj dolzhen horosho predstavlyat obekt kotoryj modeliruet razmechennyj glavnoe otlichie korpusa ot kollekcii tekstov pragmaticheski orientirovannyj dolzhen byt sozdan pod opredelyonnuyu zadachuKlassifikaciya korpusovOdna iz vozmozhnyh klassifikacij korpusov Klassificirovat korpusy mozhno po razlichnym priznakam cel sozdaniya korpusa tip yazykovyh dannyh literaturnost zhanr dinamichnost tip razmetki obyom tekstov i tak dalee Po kriteriyu parallelnosti naprimer korpusy mozhno razdelit na odnoyazychnye dvuyazychnye i mnogoyazychnye Mnogoyazychnye i dvuyazychnye delyatsya na dva tipa parallelnye mnozhestvo tekstov i ih perevodov na odin ili neskolko yazykov sopostavimye psevdoparallelnye originalnye teksty na dvuh ili neskolkih yazykah Razmetka korpusovRazmetka zaklyuchaetsya v pripisyvanii tekstam i ih komponentam specialnyh tegov lingvisticheskih i vneshnih ekstralingvisticheskih Vydelyayut sleduyushie lingvisticheskie tipy razmetki morfologicheskaya semanticheskaya sintaksicheskaya anaforicheskaya prosodicheskaya diskursnaya i t d K nekotorym korpusam primenyayutsya dalnejshie strukturnye urovni analiza V chastnosti nekotorye nebolshie korpusy mogut byt polnostyu sintaksicheski razmecheny Takie korpusy obychno nazyvayut gluboko annotirovannymi ili sintaksicheskimi a sama sintaksicheskaya struktura pri etom yavlyaetsya derevom zavisimostej Ruchnaya razmetka annotirovanie tekstov dorogostoyashaya i trudoemkaya zadacha Na dannyj moment v otkrytom dostupe predstavleny razlichnye programmnye sredstva dlya razmetki korpusov Uslovno ih mozhno razdelit na obosoblennye stand alone i veb orientirovannye web based Pri etom akcent razrabotchikov v poslednie gody smestilsya v storonu veb prilozhenij Dannye sistemy obladayut ryadom preimushestv vozmozhnost odnovremennoj razmetki odnogo dokumenta neskolkimi lyudmi ne trebuyut ustanovki dopolnitelnyh programmnyh sredstv krome brauzera gibkoe razgranichenie prav dostupa otobrazhenie tekushego progressa processa razmetki vozmozhnost modifikacii razmechaemogo korpusaInternet kak korpusVneshnie videofajlyOrehov B V Internet kollekcii tekstov na malyh yazykah Rossii metodika sbora ochistki i analiza Seminar Kompyuternaya lingvistika 2016 Sovremennye tehnologii pozvolyayut sozdavat veb korpusy to est korpusy poluchennye putyom obrabotki internet istochnikov Veb korpus predstavlyaet soboj osobyj vid lingvisticheskogo korpusa kotoryj sozdan putem postepennoj zagruzki tekstov iz interneta pri pomoshi avtomatizirovannyh procedur kotorye na letu opredelyayut yazyk i kodirovku otdelnyh veb stranic udalyayut shablony elementy navigacii ssylki i reklamu t n boilerplate osushestvlyayut transformaciyu na tekst filtraciyu normalizaciyu i deduplikaciyu poluchennyh dokumentov kotorye zatem mozhno obrabotat tradicionnymi instrumentami korpusnoj lingvistiki tokenizaciya morfosintaksicheskaya i sintaksicheskaya annotaciya i vnedrit v poiskovuyu korpusnuyu sistemu Sozdanie veb korpusa ne tolko namnogo deshevle no prezhde vsego ego razmer mozhet byt dazhe na poryadok bolshe tradicionnyh korpusov Vladimѝr Benko ARANEA SEMEJSTVO MILLIARDNYH VEB KORPUSOVPrimenenieKorpus osnovnoe ponyatie i baza dannyh korpusnoj lingvistiki Analiz i obrabotka raznyh tipov korpusov yavlyayutsya predmetom bolshinstva rabot v oblasti kompyuternoj lingvistiki naprimer izvlechenie klyuchevyh slov raspoznavaniya rechi i mashinnogo perevoda v kotoryh korpusy chasto primenyayutsya pri sozdanii skrytyh markovskih modelej dlya markirovaniya chastej rechi i drugih zadach Korpusy i chastotnye slovari mogut byt polezny v obuchenii inostrannym yazykam Korpusy tekstov russkogo yazykaNacionalnyj korpus russkogo yazyka Generalnyj internet korpus russkogo yazyka Russkoyazychnyj korpus proekta Aranea Korpus biograficheskih tekstov 5 RuTweetCorp 6 Sm takzheKompyuternaya lingvistika Klyuchevoe slovoPrimechaniyaGRAMOTA RU spravochno informacionnyj internet portal Russkij yazyk Slovari Proverka slova neopr gramota ru Data obrasheniya 26 dekabrya 2019 Arhivirovano 17 sentyabrya 2019 goda Diagramma sozdana po materialam knigi Zaharov V P Bogdanova S Yu Korpusnaya lingvistika uchebnik 3 e izd pererab SPb Izd vo S Peterb un ta 2020 234 s Vanyushkin Grashenko 2017 ARANEA SEMEJSTVO MILLIARDNYH VEB KORPUSOV Soobshestvo Pismennoe nasledie neopr textualheritage org Data obrasheniya 26 dekabrya 2019 Arhivirovano 9 avgusta 2020 goda Glazkova A 2018 Avtomaticheskij poisk fragmentov soderzhashih biograficheskuyu informaciyu v tekste na estestvennom yazyke Trudy Instituta sistemnogo programmirovaniya RAN 30 6 221 236 doi 10 15514 ISPRAS 2018 30 6 12 Rubcova Yu 2015 Postroenie korpusa tekstov dlya nastrojki tonovogo klassifikatora Programmnye produkty i sistemy 1 109 72 78 doi 10 15827 0236 235x 109 072 078 Arhivirovano 7 avgusta 2020 Data obrasheniya 24 avgusta 2020 Istochnik neopr Data obrasheniya 24 avgusta 2020 Arhivirovano 7 avgusta 2020 goda LiteraturaVanyushkin A S Grashenko L A Ocenka algoritmov izvlecheniya klyuchevyh slov instrumentarij i resursy Novye informacionnye tehnologii v avtomatizirovannyh sistemah 2017 Vyp 20 ISSN 2227 0973 Nikolaev I S Mitrenina O V Lando T M Prikladnaya i kompyuternaya lingvistika M URSS 2016 320 s

