Википедия

Корпусная лингвистика

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

Лингвистический, или языковой, корпус текстов — это большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Основными чертами современного корпуса являются машиночитаемый формат, репрезентативность, наличие металингвистической информации. Репрезентативность достигается с помощью специальной процедуры отбора текстов.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой[источник не указан 4227 дней]. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  • представлением лингвистических данных в реальном контексте;
  • достаточно большой представительностью данных (при большом объёме корпуса);
  • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.

История

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка , построенный на основе корпуса текстов объёмом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request — ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объёмами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпусы большего размера. В Великобритании такими проектами были (Bank of English) в Бирмингемском университете и Британский национальный корпус (British National Corpus, BNC). В СССР таким проектом был Машинный фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпусы существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 500 млн словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто The Wall Street Journal и The New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Максима Мошкова или Проект «Гутенберг»).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объёма текстов в соответствующем языке (или ). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  • (разбиение на орфографические слова)
  • лемматизация (приведение словоформ к словарной форме)

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус

Использование поисковых машин

В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. Такая методология получила название англ. Googleology. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того, дело осложняется малой распространённостью семантической вёрстки.

На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.

Использование веб-страниц

Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета.

Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов.

Проект Татоэба

В 2006 году появился сайт Татоэба (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000. Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые корпусы.

Открытый корпус русского языка

image
Интерфейс системы разметки Открытого корпуса русского языка

Интерес представляет проект открытого корпуса русского языка, который не только использует опубликованные под свободными лицензиями тексты, но и позволяет любому желающему принять участие в лингвистической разметке корпуса. Такая форма краудсорсинга стала возможной благодаря разбиению задачи разметки на небольшие задания, с большинством из которых может справиться человек без специальной лингвистической подготовки. Корпус постоянно пополняется, все тексты и программное обеспечение, связанные с ним, доступны под лицензиями GNU GPL v2 и CC-BY-SA.

См. также

  • Компьютерная лингвистика
  • Национальный корпус русского языка
  • Татоэба
  • Мангеймский корпус немецкого языка
  • Корпус современного американского английского языка
  • Британский национальный корпус

Примечания

  1. Встречаются ударения как на первом, так и на предпоследнем слоге. «…прилагательное должно произноситься с ударением на первом слоге — „ко́рпусный“ (Большой толковый словарь русского язы-ка, СПб., 1998). В то же время анализ узуса специалистов пока свидетельствует в пользу форм „корпуса́“, „корпусно́й“, „корпусна́я“, которые используются часто, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым. Правила, регламентирующего употребление той или иной формы применительно к корпусной лингвистике, пока нет, хотя, как представляется, победить должен вариант „корпусы“, поскольку он отличает терминологическое значение слова от его общеупотребительного значения. В учебнике авторы будут использовать именно этот вариант». Захаров В. П., Богданова С. Ю. Корпусная лингвистика Архивная копия от 3 июля 2019 на Wayback Machine. СПб, 2013
  2. Захаров, Богданова, 2013, с. 5.
  3. Довнар П.Ю., Воронцов А.В. Лингвистический процессор китайского языка. Особенности разработки // Международный конгресс по информатике: информационные системы и технологии: материалы международного научного конгресса 31 окт. – 3 нояб. 2011 г.. — Минск: БГУ: БГУ, 2011. Архивировано 24 октября 2018 года.
  4. Статистика. Национальный корпус русского языка. www.ruscorpora.ru. Дата обращения: 27 декабря 2019. Архивировано 29 декабря 2019 года.
  5. Kilgarriff A. Googleology is bad science. Архивная копия от 8 сентября 2008 на Wayback Machine Computational Linguistics,, 33(1), 2007.
  6. Baroni M. and Bernardini S. (editors). WaCky! Working papers on the Web as Corpus. Архивная копия от 31 марта 2022 на Wayback Machine Gedit, Bologna, 2006.
  7. См. работы: Wikipedia in academic studies
  8. Список предложений по языкам. Дата обращения: 16 декабря 2010. Архивировано 11 марта 2011 года.
  9. Бочаров В.В., Грановский Д.В. Программное обеспечение для коллективной работы над морфологической разметкой корпуса // Труды международной конференции «Корпусная лингвистика – 2011». — Санкт-Петербург: СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011. Архивировано 13 февраля 2017 года.

Литература

  • Захаров В. П., Богданова С. Ю. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». — 2-е изд, перераб. и дополн. — СПб.: СПбГУ. РИО. Филологический факультет., 2013. — 148 с.

Ссылки

  • Учебник по корпусной лингвистике [1]
  • Национальный корпус русского языка
  • Открытый корпус русского языка
  • Сайт семинара по корпусной и компьютерной лингвистике, проводящегося в Институте лингвистических исследований РАН
  • Коллекция корпусов на corpus.leeds.ac.uk (англ.)
  • Коллекции корпусов на сайте Дэвида Ли (англ.)
  • Уппсальский корпус
  • Корпус ХАНКО: форма поиска
  • Special Interest Group on Web as Corpus (англ.)
  • Архив рассылки Corpora-List (англ.)
  • Сайт проекта Татоэба
  • Размеченные коллекции для задачи извлечения информации (на сайте Исследовательского центра искусственного интеллекта)

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Корпусная лингвистика, Что такое Корпусная лингвистика? Что означает Корпусная лингвистика?

Ko rpusnaya lingvi stika razdel yazykoznaniya zanimayushijsya razrabotkoj sozdaniem i ispolzovaniem tekstovyh korpusov Termin vvedyon v upotreblenie v 1960 e gody v svyazi s razvitiem praktiki sozdaniya korpusov kotoromu nachinaya s 1980 h sposobstvovalo razvitie vychislitelnoj tehniki Lingvisticheskij ili yazykovoj korpus tekstov eto bolshoj predstavlennyj v mashinochitaemom formate unificirovannyj strukturirovannyj razmechennyj filologicheski kompetentnyj massiv yazykovyh dannyh prednaznachennyj dlya resheniya konkretnyh lingvisticheskih zadach Osnovnymi chertami sovremennogo korpusa yavlyayutsya mashinochitaemyj format reprezentativnost nalichie metalingvisticheskoj informacii Reprezentativnost dostigaetsya s pomoshyu specialnoj procedury otbora tekstov Lingvisticheskim korpusom nazyvayut sovokupnost tekstov sobrannyh v sootvetstvii s opredelyonnymi principami razmechennyh po opredelyonnomu standartu i obespechennyh specializirovannoj poiskovoj sistemoj istochnik ne ukazan 4227 dnej Inogda korpusom korpus pervogo poryadka nazyvayut prosto lyuboe sobranie tekstov obedinyonnyh kakim to obshim priznakom yazykom zhanrom avtorom periodom sozdaniya tekstov Celesoobraznost sozdaniya tekstovyh korpusov obyasnyaetsya predstavleniem lingvisticheskih dannyh v realnom kontekste dostatochno bolshoj predstavitelnostyu dannyh pri bolshom obyome korpusa vozmozhnostyu mnogokratnogo ispolzovaniya edinozhdy sozdannogo korpusa dlya resheniya razlichnyh lingvisticheskih zadach takih kak naprimer realizaciya grafematicheskogo i leksiko grammaticheskogo analiza teksta i dr IstoriyaPervym bolshim kompyuternym korpusom schitaetsya Braunovskij korpus BK angl Brown Corpus BC kotoryj byl sozdan v 1960 e gody v Universitete Brauna i soderzhal 500 fragmentov tekstov po 2 tysyachi slov v kazhdom kotorye byli opublikovany na anglijskom yazyke v SShA v 1961 godu V rezultate on zadal standart v 1 mln dlya sozdaniya predstavitelnyh korpusov na drugih yazykah Po modeli blizkoj k BK v 1970 e gody byl sozdan chastotnyj slovar russkogo yazyka postroennyj na osnove korpusa tekstov obyomom takzhe v 1 million slov i vklyuchavshij primerno v ravnoj proporcii obshestvenno politicheskie teksty hudozhestvennuyu literaturu nauchnye i nauchno populyarnye teksty iz raznyh oblastej i dramaturgiyu Po analogichnoj modeli byl postroen i russkij korpus sozdannyj v 1980 e gody v Universitete Uppsaly Shveciya Razmer v odin million slov dostatochen dlya leksikograficheskogo opisaniya tolko samyh chastotnyh slov poskolku slova i grammaticheskie konstrukcii srednej chastoty vstrechayutsya po neskolko raz na million slov so statisticheskoj tochki zreniya yazyk yavlyaetsya bolshim naborom redkih sobytij Tak kazhdoe iz takih obydennyh slov kak angl polite vezhlivyj ili angl sunshine solnechnyj svet vstrechaetsya v BK vsego 7 raz vyrazhenie angl polite letter lish odin raz a takie ustojchivye vyrazheniya kak angl polite conversation smile request ni razu Po etim prichinam a takzhe v svyazi s rostom kompyuternyh moshnostej sposobnyh rabotat s bolshimi obyomami tekstov v 1980 e gody v mire bylo predprinyato neskolko popytok sozdat korpusy bolshego razmera V Velikobritanii takimi proektami byli Bank of English v Birmingemskom universitete i Britanskij nacionalnyj korpus British National Corpus BNC V SSSR takim proektom byl Mashinnyj fond russkogo yazyka sozdavavshijsya po iniciative A P Ershova Sovremennoe sostoyanieNalichie bolshogo kolichestva tekstov v elektronnoj forme sushestvenno oblegchilo zadachu sozdaniya bolshih predstavitelnyh korpusov razmerom v desyatki i sotni millionov slov no ne likvidirovalo problem sbor tysyach tekstov snyatie problem s avtorskimi pravami privedenie vseh tekstov v edinuyu formu balansirovka korpusa po temam i zhanram otnimayut mnogo vremeni Predstavitelnye korpusy sushestvuyut ili razrabatyvayutsya dlya nemeckogo polskogo cheshskogo slovenskogo finskogo novogrecheskogo armyanskogo kitajskogo yaponskogo bolgarskogo i drugih yazykov Nacionalnyj korpus russkogo yazyka sozdavaemyj pri RAN soderzhit na segodnyashnij den bolee 500 mln slovoupotreblenij Naryadu s predstavitelnymi korpusami kotorye ohvatyvayut bolshoj nabor zhanrov i funkcionalnyh stilej v lingvisticheskih issledovaniyah chasto ispolzuyutsya i opportunisticheskie kollekcii tekstov naprimer gazety chasto The Wall Street Journal i The New York Times novostnye lenty Rejter kollekcii hudozhestvennoj literatury Biblioteka Maksima Moshkova ili Proekt Gutenberg ProblemyProblema predstavitelnosti Korpus sostoit iz konechnogo chisla tekstov no on prizvan adekvatno otrazhat leksikogrammaticheskie fenomeny tipichnye dlya vsego obyoma tekstov v sootvetstvuyushem yazyke ili Dlya predstavitelnosti vazhen kak razmer tak i struktura korpusa Predstavitelnyj razmer zavisit ot zadachi poskolku on opredelyaetsya tem kak mnogo primerov mozhet byt najdeno dlya issleduemyh fenomenov V svyazi s tem chto so statisticheskoj tochki zreniya yazyk soderzhit bolshoe chislo otnositelno redkih slov Zakon Cipfa dlya issledovaniya pervyh pyati tysyach naibolee chastotnyh slov naprimer ubytok izvinyatsya trebuetsya korpus razmerom okolo 10 20 millionov slovoupotreblenij v to vremya kak dlya opisaniya pervyh dvadcati tysyach slov nezatejlivyj serdcebienie roitsya uzhe trebuetsya korpus svyshe sta millionov slovoupotreblenij Problema razmetki K pervichnoj razmetke tekstov otnosyatsya etapy obyazatelnye dlya kazhdogo korpusa razbienie na orfograficheskie slova lemmatizaciya privedenie slovoform k slovarnoj forme Problema predstavleniya rezultatov V bolshih korpusah voznikaet problema kotoraya ranee byla neaktualnoj poisk po zaprosu mozhet vydavat sotni i dazhe tysyachi rezultatov kontekstov upotrebleniya kotorye prosto fizicheski nevozmozhno prosmotret v ogranichennoe vremya Dlya resheniya etoj problemy razrabatyvayutsya sistemy pozvolyayushie gruppirovat rezultaty poiska i avtomaticheski razbivat ih na podmnozhestva libo vydayushie naibolee ustojchivye slovosochetaniya kollokacii so statisticheskoj ocenkoj ih znachimosti Veb kak korpusIspolzovanie poiskovyh mashin V kachestve korpusa mozhet ispolzovatsya mnozhestvo tekstov dostupnyh v internete to est milliardy slovoupotreblenij dlya osnovnyh mirovyh yazykov Dlya lingvistov samym rasprostranennym sposobom raboty s Internetom ostayotsya sostavlenie zaprosov k poiskovoj mashine i interpretaciya rezultatov libo po chislu najdennyh stranic libo po pervym vozvrashennym ssylkam Takaya metodologiya poluchila nazvanie angl Googleology Neobhodimo otmetit chto takoj podhod goditsya dlya resheniya ogranichennogo klassa zadach tak kak sredstva razmetki tekstov ispolzuemye v vebe ne opisyvayut ryad lingvisticheskih osobennostej teksta ukazanie udarenij grammaticheskih klassov granic slovosochetanij i t d Krome togo delo oslozhnyaetsya maloj rasprostranyonnostyu semanticheskoj vyorstki Na praktike ogranichennost takogo podhoda privodit k tomu chto proverit naprimer sochetaemost dvuh slov proshe vsego cherez zapros vida slovo1 slovo2 Po poluchennym rezultatam mozhno sudit naskolko rasprostraneno takoe sochetanie i v kakih tekstah ono chashe vstrechaetsya Sm takzhe statistika zaprosov Ispolzovanie veb stranic Vtoroj sposob zaklyuchaetsya v avtomaticheskom izvlechenii bolshogo kolichestva stranic iz Interneta i ih dalnejshem ispolzovanii v kachestve obychnogo korpusa chto daet vozmozhnost provesti ego razmetku i ispolzovat lingvisticheskie parametry v zaprosah Etot sposob pozvolyaet bystro sozdat predstavitelnyj korpus dlya lyubogo yazyka v dostatochnoj stepeni predstavlennogo v Internete no ego zhanrovoe i tematicheskoe raznoobrazie budet otrazhat interesy polzovatelej Interneta Vsyo bolshuyu populyarnost v nauchnoj srede poluchaet ispolzovanie Vikipedii kak korpusa tekstov Proekt Tatoeba V 2006 godu poyavilsya sajt Tatoeba Tatoeba pozvolyayushij na svobodnoj osnove dobavlyat novye i izmenyat sushestvuyushie predlozheniya na razlichnyh yazykah svyazannye mezhdu soboj po smyslu V ego osnovu lyog lish anglo yaponskij korpus a uzhe sejchas chislo yazykov prevyshaet 80 a chislo predlozhenij 600000 Lyuboj zhelayushij mozhet dobavlyat novye predlozheniya i ih perevody a pri neobhodimosti besplatno skachat celikom ili chastichno vse yazykovye korpusy Otkrytyj korpus russkogo yazyka Interfejs sistemy razmetki Otkrytogo korpusa russkogo yazyka Interes predstavlyaet proekt otkrytogo korpusa russkogo yazyka kotoryj ne tolko ispolzuet opublikovannye pod svobodnymi licenziyami teksty no i pozvolyaet lyubomu zhelayushemu prinyat uchastie v lingvisticheskoj razmetke korpusa Takaya forma kraudsorsinga stala vozmozhnoj blagodarya razbieniyu zadachi razmetki na nebolshie zadaniya s bolshinstvom iz kotoryh mozhet spravitsya chelovek bez specialnoj lingvisticheskoj podgotovki Korpus postoyanno popolnyaetsya vse teksty i programmnoe obespechenie svyazannye s nim dostupny pod licenziyami GNU GPL v2 i CC BY SA Sm takzheKompyuternaya lingvistika Nacionalnyj korpus russkogo yazyka Tatoeba Mangejmskij korpus nemeckogo yazyka Korpus sovremennogo amerikanskogo anglijskogo yazyka Britanskij nacionalnyj korpusPrimechaniyaVstrechayutsya udareniya kak na pervom tak i na predposlednem sloge prilagatelnoe dolzhno proiznositsya s udareniem na pervom sloge ko rpusnyj Bolshoj tolkovyj slovar russkogo yazy ka SPb 1998 V to zhe vremya analiz uzusa specialistov poka svidetelstvuet v polzu form korpusa korpusno j korpusna ya kotorye ispolzuyutsya chasto tak chto mozhno vidimo s ostorozhnostyu skazat chto v nastoyashee vremya etot vopros ostaetsya otkrytym Pravila reglamentiruyushego upotreblenie toj ili inoj formy primenitelno k korpusnoj lingvistike poka net hotya kak predstavlyaetsya pobedit dolzhen variant korpusy poskolku on otlichaet terminologicheskoe znachenie slova ot ego obsheupotrebitelnogo znacheniya V uchebnike avtory budut ispolzovat imenno etot variant Zaharov V P Bogdanova S Yu Korpusnaya lingvistika Arhivnaya kopiya ot 3 iyulya 2019 na Wayback Machine SPb 2013 Zaharov Bogdanova 2013 s 5 Dovnar P Yu Voroncov A V Lingvisticheskij processor kitajskogo yazyka Osobennosti razrabotki rus Mezhdunarodnyj kongress po informatike informacionnye sistemy i tehnologii materialy mezhdunarodnogo nauchnogo kongressa 31 okt 3 noyab 2011 g Minsk BGU BGU 2011 Arhivirovano 24 oktyabrya 2018 goda Statistika Nacionalnyj korpus russkogo yazyka neopr www ruscorpora ru Data obrasheniya 27 dekabrya 2019 Arhivirovano 29 dekabrya 2019 goda Kilgarriff A Googleology is bad science Arhivnaya kopiya ot 8 sentyabrya 2008 na Wayback Machine Computational Linguistics 33 1 2007 Baroni M and Bernardini S editors WaCky Working papers on the Web as Corpus Arhivnaya kopiya ot 31 marta 2022 na Wayback Machine Gedit Bologna 2006 Sm raboty Wikipedia in academic studies Spisok predlozhenij po yazykam neopr Data obrasheniya 16 dekabrya 2010 Arhivirovano 11 marta 2011 goda Bocharov V V Granovskij D V Programmnoe obespechenie dlya kollektivnoj raboty nad morfologicheskoj razmetkoj korpusa rus Trudy mezhdunarodnoj konferencii Korpusnaya lingvistika 2011 Sankt Peterburg SPb S Peterburgskij gos universitet Filologicheskij fakultet 2011 Arhivirovano 13 fevralya 2017 goda LiteraturaZaharov V P Bogdanova S Yu Korpusnaya lingvistika Uchebnik dlya studentov napravleniya Lingvistika 2 e izd pererab i dopoln SPb SPbGU RIO Filologicheskij fakultet 2013 148 s SsylkiUchebnik po korpusnoj lingvistike 1 Nacionalnyj korpus russkogo yazyka Otkrytyj korpus russkogo yazyka Sajt seminara po korpusnoj i kompyuternoj lingvistike provodyashegosya v Institute lingvisticheskih issledovanij RAN Kollekciya korpusov na corpus leeds ac uk angl Kollekcii korpusov na sajte Devida Li angl Uppsalskij korpus Korpus HANKO forma poiska Special Interest Group on Web as Corpus angl Arhiv rassylki Corpora List angl Sajt proekta Tatoeba Razmechennye kollekcii dlya zadachi izvlecheniya informacii na sajte Issledovatelskogo centra iskusstvennogo intellekta

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто