Частотный словарь Национального корпуса русского языка: концепция и технология создания.

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля (См. Стиль), либо для одного автора. В зависимости от типа лексические единицы различаются Ч. с. словоформ, слов (лексем), основ слов (используются в информатике), слов в определённых значениях (семантический Ч. с.), словосочетаний. Различаются абсолютные и относительные характеристики употребительности лексической единицы (x ).Абсолютной характеристикой является частота (f ) данной лексической единицы (х ), равная числу употреблений х в обследованной совокупности текстов f (x ). В Ч. с. приводится либо f (x ), либо нормированная частота

где N - число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Ч. с. имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Ч. с. приводятся и абсолютные, и относительные характеристики. Ч. с. используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).

Лит.: Ермоленко Г. В., Лингвистическая статистика. Краткий очерк и библиографический указатель, Алма-Ата, 1970; Штейнфельдт Э. А., Частотный словарь современного русского литературного языка, М., 1973; Частотный словарь русского языка, под ред. Л. Н. Засориной, М., 1977; Kučera Н., Francis W., Computational analysis of present-day American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier Н., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1- 4, P.- Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., An annotated bibliography of statistical stylistics, Ann Arbor, 1968.

Материал из Википедии - свободной энциклопедии

Часто́тный слова́рь (или частотный список) - набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о , которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода .

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска , англ. whelk ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации : отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, англ. ipm, instances per million words ). Слово и имеет частоту около 30 000 чмс, слово старость - около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат , отношение правдоподобия (англ. Likelihood-ratio test ) и т. п.

См. также

Напишите отзыв о статье "Частотный словарь"

Литература

  • Adam Kilgarriff // International Journal of Lexicography. - 1997. - № 10(2) . - P. 135-155.
  • Ляшевская О. Н., Шаров С. А. . - М .: Азбуковник, 2009. - 1087 с. - ISBN 978-5-91172-024-7 .
  • Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров . - 3-е изд. - М . : Советская энциклопедия, 1969-1978.
  • Частотный словарь русского языка / Под ред. Л. Н. Засориной. - М .: Русский язык, 1977.
  • // Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». - М .: Сов. Энцикл., 1981. - С. 717-774.
  • Шаров С. А. .
  • Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. - М ., 1973.

Ссылки

Отрывок, характеризующий Частотный словарь

Остановленные пехотные солдаты, толпясь в растоптанной у моста грязи, с тем особенным недоброжелательным чувством отчужденности и насмешки, с каким встречаются обыкновенно различные роды войск, смотрели на чистых, щеголеватых гусар, стройно проходивших мимо их.
– Нарядные ребята! Только бы на Подновинское!
– Что от них проку! Только напоказ и водят! – говорил другой.
– Пехота, не пыли! – шутил гусар, под которым лошадь, заиграв, брызнула грязью в пехотинца.
– Прогонял бы тебя с ранцем перехода два, шнурки то бы повытерлись, – обтирая рукавом грязь с лица, говорил пехотинец; – а то не человек, а птица сидит!
– То то бы тебя, Зикин, на коня посадить, ловок бы ты был, – шутил ефрейтор над худым, скрюченным от тяжести ранца солдатиком.
– Дубинку промеж ног возьми, вот тебе и конь буде, – отозвался гусар.

Остальная пехота поспешно проходила по мосту, спираясь воронкой у входа. Наконец повозки все прошли, давка стала меньше, и последний батальон вступил на мост. Одни гусары эскадрона Денисова оставались по ту сторону моста против неприятеля. Неприятель, вдалеке видный с противоположной горы, снизу, от моста, не был еще виден, так как из лощины, по которой текла река, горизонт оканчивался противоположным возвышением не дальше полуверсты. Впереди была пустыня, по которой кое где шевелились кучки наших разъездных казаков. Вдруг на противоположном возвышении дороги показались войска в синих капотах и артиллерия. Это были французы. Разъезд казаков рысью отошел под гору. Все офицеры и люди эскадрона Денисова, хотя и старались говорить о постороннем и смотреть по сторонам, не переставали думать только о том, что было там, на горе, и беспрестанно всё вглядывались в выходившие на горизонт пятна, которые они признавали за неприятельские войска. Погода после полудня опять прояснилась, солнце ярко спускалось над Дунаем и окружающими его темными горами. Было тихо, и с той горы изредка долетали звуки рожков и криков неприятеля. Между эскадроном и неприятелями уже никого не было, кроме мелких разъездов. Пустое пространство, саженей в триста, отделяло их от него. Неприятель перестал стрелять, и тем яснее чувствовалась та строгая, грозная, неприступная и неуловимая черта, которая разделяет два неприятельские войска.
«Один шаг за эту черту, напоминающую черту, отделяющую живых от мертвых, и – неизвестность страдания и смерть. И что там? кто там? там, за этим полем, и деревом, и крышей, освещенной солнцем? Никто не знает, и хочется знать; и страшно перейти эту черту, и хочется перейти ее; и знаешь, что рано или поздно придется перейти ее и узнать, что там, по той стороне черты, как и неизбежно узнать, что там, по ту сторону смерти. А сам силен, здоров, весел и раздражен и окружен такими здоровыми и раздраженно оживленными людьми». Так ежели и не думает, то чувствует всякий человек, находящийся в виду неприятеля, и чувство это придает особенный блеск и радостную резкость впечатлений всему происходящему в эти минуты.
На бугре у неприятеля показался дымок выстрела, и ядро, свистя, пролетело над головами гусарского эскадрона. Офицеры, стоявшие вместе, разъехались по местам. Гусары старательно стали выравнивать лошадей. В эскадроне всё замолкло. Все поглядывали вперед на неприятеля и на эскадронного командира, ожидая команды. Пролетело другое, третье ядро. Очевидно, что стреляли по гусарам; но ядро, равномерно быстро свистя, пролетало над головами гусар и ударялось где то сзади. Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон с своими однообразно разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался. Солдаты, не поворачивая головы, косились друг на друга, с любопытством высматривая впечатление товарища. На каждом лице, от Денисова до горниста, показалась около губ и подбородка одна общая черта борьбы, раздраженности и волнения. Вахмистр хмурился, оглядывая солдат, как будто угрожая наказанием. Юнкер Миронов нагибался при каждом пролете ядра. Ростов, стоя на левом фланге на своем тронутом ногами, но видном Грачике, имел счастливый вид ученика, вызванного перед большою публикой к экзамену, в котором он уверен, что отличится. Он ясно и светло оглядывался на всех, как бы прося обратить внимание на то, как он спокойно стоит под ядрами. Но и в его лице та же черта чего то нового и строгого, против его воли, показывалась около рта.
– Кто там кланяется? Юнкег" Миг"онов! Hexoг"oшo, на меня смотг"ите! – закричал Денисов, которому не стоялось на месте и который вертелся на лошади перед эскадроном.
Курносое и черноволосатое лицо Васьки Денисова и вся его маленькая сбитая фигурка с его жилистою (с короткими пальцами, покрытыми волосами) кистью руки, в которой он держал ефес вынутой наголо сабли, было точно такое же, как и всегда, особенно к вечеру, после выпитых двух бутылок. Он был только более обыкновенного красен и, задрав свою мохнатую голову кверху, как птицы, когда они пьют, безжалостно вдавив своими маленькими ногами шпоры в бока доброго Бедуина, он, будто падая назад, поскакал к другому флангу эскадрона и хриплым голосом закричал, чтоб осмотрели пистолеты. Он подъехал к Кирстену. Штаб ротмистр, на широкой и степенной кобыле, шагом ехал навстречу Денисову. Штаб ротмистр, с своими длинными усами, был серьезен, как и всегда, только глаза его блестели больше обыкновенного.

Частотные словари - это словари, в которых содержатся числовые характеристики употребительности слов; слова в них располагаются в зависимости от частоты употребления слов в текстах определённой длины. Этот сравнительно новый тип лексикографических изданий в последние годы стал особенно активно развиваться в связи с внедрением в лексикографию новых технологий.

Частотные словари дают большой материал для решения ряда общетеоретических и прикладных лингвистических проблем, они необходимы при составлении учебных словарей, при разработке учебников, лингвометодической адаптации текстов.

Первым в отечественном языкознании частотным словарём был «Частотный словарь современного русского литературного языка» Э.А. Штейнфельдт, составленный по материалам современной литературы, прессы, радиопередач (50-60-е гг. XX в.) и адресованный в первую очередь преподавателям русского языка как неродного. В нём представлены данные о частотности слов, полученные на основе обработки текстов объёмом в 400 000 слов. В словаре содержатся слова, покрывающие до 80% различных текстов. Кроме обычных указаний на количество употреблений, приводится количество текстов, в которых данное слово отмечено. Даются статистические характеристики некоторых морфологических категорий. Словарь Э.А. Штейнфельдт послужил основой для составления многих учебных толковых словарей и словарей-минимумов.

«Частотный словарь русского языка» под редакцией Л.Н. Засо- риной представляет собой свод статистических данных о лексическом составе современного русского языка. Словарь был составлен на основе обработки средствами вычислительной техники 1 млн словоупотреблений; он охватывает не только язык художественной литературы, но также публицистическую и деловую речь, бытовавшую в сфере массовой коммуникации. Хронологические рамки словаря, как отмечают составители, «обнимают эпоху от произведений Ленина и Горького до 60-х годов», поэтому исследователи получают ценный материал для изучения лексики советской эпохи. Алфавитно-частотный словник включает все лексемы, встретившиеся в текстах, каждая лексическая единица снабжена количественными характеристиками. Частотный словник содержит слова с частотой 10 и выше, всего 9044 единицы, расположенные в порядке убывания частот. Разнообразные статистические характеристики единиц словаря создают основу для изучения статистической структуры словарного состава русского языка, для определения границ основной лексики. В приложении приводится имеющий большое практическое значение перечень омографов и грамматических омонимов.

Современные базы данных дали мощный импульс развитию частотных словарей. «Частотный словарь современного русского языка» О. Н. Ляшевской и С. А. Шарова основан на коллекции текстов Национального корпуса русского языка, представляющих современный русский язык периода 1950-2007 гг. Объём выборки, на которой построено большинство разделов словаря, составляет 92 млн словоупотреблений. В словаре содержится разнообразная статистическая информация о 50 000 нарицательных и 3000 собственных имён и аббревиатур. Приводятся частотные списки лексики, характерной для публицистики, устной речи и других функциональных стилей, а также списки наиболее употребительных существительных, прилагательных, глаголов и слов других частей речи. Электронная версия словаря опубликована на сайте Института русского языка им. В. В. Виноградова Российской академии наук (http://dict.ruslang.ru).

Проект «Частотного словаря словоформ русского языка» А. В. Вен- цова и Е. В. Грудевой представляет собой первую в истории составления частотных словарей русского языка попытку организовать по частоте встречаемости не лексемы, а акцентно размеченные словоформы. Словарь составлен на основе одномиллионного Корпуса русского литературного языка (www.narusco.ru). В проекте представлено полное описание словаря и его основные разделы в виде ограниченных выборок.

В «Частотном тематическом словаре „Городской общественный транспорт 44 » Г.А. Мартиновича представлены результаты дистрибутивно-статистического анализа одной понятийной области - 74 521 000 словоупотреблений, извлечённых из корпуса российских газет отдела машинного фонда русского языка Института русского языка им. В. В. Виноградова, и 29 500 примеров из текстов 9 российских газет за 1997 г.

Многие частотные словари носят прикладной характер и адресованы в первую очередь составителям программ, словарей-минимумов, учебных пособий по русскому языку. Одни из них фиксируют общеупотребительную лексику, другие связаны со специальной или жанрово и стилистически закреплённой частью словарного состава.

«Частотный словарь современного русского языка» П.И. Хара- коза состоит из двух частей, представляющих собой два различных частотных словаря, выполненных на различном речевом материале: один на текстах учебников начальных классов, другой - на материале детской разговорной речи. В первой части представлено 5025 слов, составляющих 91,6% всех словоупотреблений в 15 учебниках. Слова представлены в частотных и алфавитных списках. Во второй части представлено 2830 слов бытовой детской разговорной речи, расположенных по частоте и по алфавиту.

Словник «2830 слов, наиболее употребительных в русской разговорной речи» отражает ядро наиболее употребительных слов современной разговорной речи; он составлен на основе анализа живой разговорной речи, записанной на магнитную плёнку (в 1964-1966 гг.). Общий объём собранного материала 400 000 словоупотреблений. Список представлен в двух вариантах - по алфавиту и по распространённости.

«Список наиболее употребительных слов русского языка» под редакцией З.П. Даунене включает слова первой тысячи 13 частотных словарей и списков русского языка, составленных на основе разнообразных материалов. Список насчитывает 3917 слов, включает как знаменательные, так и служебные слова. Рядом с каждым словом указываются источники, в которых оно зафиксировано, и количество этих источников, что даёт возможность выделить наиболее употребительную лексику.

В «Частотный словарь языка газеты» Г.П. Поляковой и Г.Я. Солга- ника оказались включёнными 1997 слов, имеющих частоту не менее 12 в газетных те кетах длиной 200 000 словоупотреблений. В словаре представлен общий список слов по убывающей частоте, покрывающий в среднем 80-83% газетного текста.

«Комплексный частотный словарь русской научной и технической лексики» П.Н. Денисова и др. содержит списки 3047 наиболее употребительных слов русской научной и технической литературы (частотный, алфавитный, инверсионный, с группировкой по частям речи), а также таблицы, позволяющие судить о распространённости тех или иных грамматических явлений в языке научно-технической литературы.

«Частотный словарь общенаучной лексики» включает 2074 слова. В основу словаря положен текст в 400 000 слов (словоформ). Источниками послужили учебники для вузов шести отраслей знания: математики, физики, химии, биологии, медицины, геологии с географией. Из каждого источника брался один отрывок объёмом в 2000 словоформ. Было обследовано 200 таких выборок. Слова представлены в частотных и алфавитных списках.

Изданием сводного, обобщающего типа является книга «Лексические минимумы русского языка», созданная под редакцией В. В. Морковкина. Открывается словарь списком «Основные структурные лексические единицы русского языка», который объединяет неполнозначные слова и словосочетания, обеспечивающие функционирование полнозначных слов и формирующие модальную структуру текста (например, бывать, в виде, ввиду, как раз, как только, кроме того, собственно, таким образом, хотя, целый и т.п.). Далее следуют перечни слов нарастающего объёма, охватывающие лексическое ядро современного русского языка: 1) 500 самых употребительных русских слов, 2) 1000 самых употребительных русских слов, 3) 1500 слов, 4) 2000 слов, 5) 2500 слов, 6) 3000 слов, 7) 3500 слов. Третья часть книги представляет собой тематический словарь-минимум современного русского языка, цель которого - целесообразно организовать и представить совокупности важнейших русских слов, необходимых для обеспечения продуктивных видов речевой деятельности - говорения и письма. Важную часть книги составляет раздел, представляющий сравнительную и обобщённую ценность наиболее употребительных слов русского языка по данным 8 частотных словарей. Таким образом, словарь является ценным пособием для методистов и преподавателей русского языка, занимающихся составлением учебных пособий, книг для чтения, готовящих практические материалы для учебной работы.

Особое место среди частотных словарей занимают словари, которые могут быть использованы в автоматических информационнопоисковых системах. Так, «Частотный словарь индексирования» (под редакцией Л. В. Сахарного) составлен для решения информационнопоисковых задач. Материалом для словаря послужили 1660 рефератов по электроизмерительным приборам (всего около 105 тыс. словоупотреблений). Принципы составления словаря приложимы к любой отрасли знаний. В основу словаря положена новая для лексикографии единица - гиперлексема (некоторое множество однокоренных лексем одной или разных частей речи, связанных между собой отношениями трансформации, производности: инерция, инерционный, инерционность ; зуб, зубец, зубчатый, зубцовый). В словаре гиперлексемы расположены по степени частотности.

«Частотный словарь семантических множителей русского языка» Ю.Н. Караулова составлен по материалам определений в толковых словарях современного русского литературного языка. Единицами счёта в нём являются семантические множители, выступающие в виде сегментов полнозначных слов, являющихся компонентами дефиниций. Отражая статистическую и семантическую структуру правой части толковых словарей, частотный словарь может использоваться для исследований в области лексической семантики, а также в практике лексикографии и информационного поиска. Во вступительной статье показаны возможности применения словаря для нахождения смысловой связи слов при автоматическом построении русского тезауруса.

«Частотный словарь языка массовой коммуникации» Б. В. Кривенко является первым опытом частотного словаря, построенного на материале не только письменных текстов (газета «Комсомольская правда», районные газеты), но и звучащей речи (радио, телевидение, кинохроника). Словарь даёт синхронный срез лексического уровня языка газеты, информационных передач радио и телевидения за 1965-1985 гг. Общая длина текстовой выборки 71 164 словоупотребления. В словаре представлены списки слов по убыванию частотности, списки слов по алфавиту. Первые места в списке наиболее частотных слов (за исключением служебных слов и местоимений) занимают слова год, работа, страна, день, колхоз, дело, время, партия, новый, совет, рабочий, советский, народ, район, сегодня, город, организация, человек, председатель, секретарь, большой, область, имя, мир, республика, план. Частотность слов в языке средств массовой информации прекрасно отражает особенности советского политического дискурса, набор идеологем советского времени. «Статистический словарь русской газеты» А.Я. Шайкевича и др. даёт представление о частотности лексики в газетах 90-х гг. XX в. Эти же цели преследует словарь О. В. Голованя.

Исследование частотности лексических единиц позволяет сделать важные выводы об особенностях языка и стиля писателя. Неслучайно в последние годы издано большое количество частотных словарей языка художественных произведений русских писателей и поэтов (см. раздел «Авторские словари»).

Венцов Л.В., Грудева Е.В. Частотный словарь словоформ русского языка: проект. Череповец: Череповец, гос. ун-т, 2008. 204 с.

Голованъ О. В. Частотный словарь современного языка средств массовой информации: учебное пособие . Барнаул: Изд- во Алт. гос. техн. ун-та им. И.И. Ползунова, 2006. 622 с.

Граудина Л.К., Ицкович В.А., Катлинская Л.П. Грамматические варианты: опыт частотного словаря / Рос. акад. наук, Ин-т лингв, ис- след. М.: Наука, 1971. 102 с.

Денисов П.Н., Морковкин В.В., Сафьян Ю.А. Комплексный частотный словарь русской научной и технической лексики . М.: Русский язык, 1978. 406 с.

Караулов Ю.Н. Частотный словарь семантических множителей русского языка / отв. ред. С.Г. Бархударов. М.: Наука, 1980. 207 с.

Комплексный учебный словарь. Лексическая основа русского языка: / В. В. Морковкин, Н.О. Бёме, И.А. Дорогонова, Т.Ф. Иванова, И.Д. Успенская; под ред. В.В. Морковкина. М. : ACT, 2004. 880 с. .

Кривенко Б. В. Частотный словарь языка массовой коммуникации. Воронеж: Изд-во Воронеж, ун-та, 1992. 218 с.

Кудашева М.А., Левина Р.И. Частотный словарь наиболее употребительных причастий по геологии, минералогии, кристаллографии, геодезии: учебное пособие. Л. : Ленингр. горный ин-т им. Г. В. Плеханова, 1974. 29 с.

Лексические минимумы современного русского языка / В. В. Морковкин, Ю.А. Сафьян, Е.М. Степанова, И.В. Дорофеева; под ред. В. В. Морковкина; Ин-т рус. яз. им. А.С. Пушкина. М. : Русский язык, 1985. 608 с.

Лексический минимум по русскому языку как иностранному: базовый уровень: общее владение / сост. Н.П. Андрюшина, Т.В. Козлова.

4-е изд., испр. и доп. СПб.: Златоуст, 2004. 111 с. (Тест по русскому языку как иностранному). [То же в 2001 г.].

Лексический минимум по русскому языку как иностранному: второй сертификационный уровень: общее владение / сост. Н.П. Андрюшина (отв. ред.) [и др.]. 3-е изд. СПб. : Златоуст, 2011. 162 с. (Российская государственная система тестирования граждан зарубежных стран по русскому языку). [То же в 2009 г.].

Лексический минимум по русскому языку как иностранному: первый сертификационный уровень: общее владение / сост. Н.П. Андрюшина (отв. ред.) [и др.]. 5-е изд., испр. и доп. СПб.: Златоуст,

2011. 195 с. (Российская государственная система тестирования граждан зарубежных стран по русскому языку). [То же в 2002, 2005 гг.].

Лексический минимум по русскому языку как иностранному: элементарный уровень: общее владение / сост. Н.П. Андрюшина, Т.В. Козлова. 4-е изд., испр. СПб. : Златоуст, 2012. 79 с. (Тест по русскому языку как иностранному). [То же в 2000, 2004 гг.].

Ляшевская О.Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) [статистическая информация о 50 000 нарицательных и 3000 собственных имён и аббревиатур] / Рос. акад. наук, Ин-т рус. яз. им. В. В. Виноградова. М.: Азбуковник, 2009. 1087 с.

Мартинович Г.А. Частотный тематический словарь «Городской общественный транспорт». СПб. : Филол. фак. С.-Петерб. гос. ун-та,

Полякова Г.П., Солганик Г.Я. Частотный словарь языка газеты . М.: Изд-во Моек. гос. ун-та, 1971. 281 с.

Сафьян Ю.А. Частотный словарь русской технической лексики. Ереван: Барцрагуйн дпроц, 1971. 128 с.

Система лексических минимумов современного русского языка: 10 лексических списков: от 500 до 5000 самых важных русских слов / Гос. ин-т рус. яз. им. А.С. Пушкина; сост. Т.Ф. Богачёва, Н.М. Луцкая, В. В. Морковкин, З.П. Попова; под ред. В. В. Морковкина. М.: Астрель: ACT, 2003. 768 с.

Список наиболее употребительных слов русского языка / сост. Л.Г. Вишнякова, З.П. Даунене, Т.П. Ишанова, Р.М. Нефёдова; под общ. ред. З.П. Даунене. М. : Акад. пед. наук СССР, НИИ препод. рус. яз. в нац. школе, 1974. 160 с.

Тер-Мисакянц 3. Т. Частотный словарь математической лексики / под ред. В.М. Григоряна, Р.С. Манучаряна. Ереван: Ереван, гос. ун- т, 1973. 67 с.

Харакоз П.И. Частотный словарь современного русского языка . Фрунзе: Мектеп, 1971. 180 с.

Частотный словарь геологической лексики: учебное пособие / сост. В.И. Рубкалёва, М.А. Кудашева, Е.М. Вал [и др.]; науч. ред. В.И. Рубкалёва. Л. : Ленингр. горный ин-т им. Г. В. Плеханова, 1973. 64 с.

Частотный словарь индексирования / под общ. ред. Л. В. Сахарного.

Пермь: Изд-во Перм. ун-та, 1974. 828 с.

Частотный словарь общенаучной лексики / сост. М.И. Зыкина, В.И. Крупчанова, М.М. Нахабина [идр.]; под ред. Е.М. Степановой. М.: Изд-во Моек. гос. ун-та, 1970. 87 с. Частотный словарь русского языка [около 40 000 слов] / под ред. Л.Н. Засориной; сост. В.А. Аграев, В.В. Бородин, Л.Н. Засорина, В.М. Муратова, Э.В. Тисенко; спец. науч. ред. М.И. Привалова. М.: Русский язык, 1977. 934 с.

Шайкевич Л.Я., Андрющенко В.И., Ребецкая Н.А. Статистический словарь русской газеты: (1990-е годы) / Рос. акад. наук, Ин-т рус. яз. им. В.В. Виноградова. М.: Языки славянской культуры: издатель А. Кошелев, 2008. Т. 1. 578 с. (Studia philologica).

Шилова Г.Е., Стернин И.А. Частотный словарь иноязычных слов: (по материалам публицистики) / Воронеж, гос. ун-т, Межрегион, центр коммуникатив. исслед. Воронеж: Истоки, 2005. 126 с. Штейнфельдт Э.А. Частотный словарь современного русского литературного языка: справочник для преподавателей русского языка / под ред. В.А. Ицковича. М. : Прогресс, 1973. 228 с. .

Шурпаева М.И. Дифференцированный словарь-минимум русского языка по видам речевой деятельности для начальных классов дагестанской национальной школы. Махачкала: Дагучпедгиз, 1982. 153 с.

ЧАСТОТНЫЙ СЛОВАРЬ
НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: КОНЦЕПЦИЯ И ТЕХНОЛОГИЯ СОЗДАНИЯ

FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY

Ляшевская О.Н. ([email protected] ) , Институт русского языка им. В.В.Виноградова, Москва
Шаров С.А.
([email protected] ), Университет Лидса, Великобритания

Словарь содержит представительный базовый словник современного русского языка (2-я половина XX – начало XXI вв.), снабженный информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреблении.

1. Введение

Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.

Новый частотный словарь – универсальный. Несмотря на то, что последний его прямой предшественник был выпущен 15 лет назад (Леннгрен 1993), очевидно, что за это время изменилось многое – как сам язык, так и технология подготовки частотных словарей. Наш словарь призван представить статистическую картину современного словоупотребления (1950-2005 г.), заполнив, в частности, лакуну последних двух десятилетий, а также показать изменения, произошедшие в языке с 1950 года.

Словарь базируется на 100-миллионном корпусе, в то время как предыдущие словари опирались на материал объемом от 400 тыс. до 1 млн. словоупотреблений. Национальный корпус (www.ruscorpora.ru , НКРЯ 2005) более представителен по охвату материала, так как содержит сбалансированную коллекцию текстов разных типов, жанров и стилей, в том числе и тексты русского зарубежья. Распределение текстов в подкорпусе современного русского языка (с 1950 года) по функциональным стилям показано в таблице 1. Тексты нехудожественной литературы относятся к более чем 50 предметным областям (экономика и финансы, право, путешествия и др.), а их типология варьируется от законов и научных статей до интервью, инструкций и объявлений (всего более 100 типов). Художественные тексты включают романы, повести, рассказы, очерки, пьесы, сказки, эссе, литературные письма и др.

Художественная литература

Публицистика

Прочая нехудожественная литература

Устная литература

Табл. 1. Функциональные стили подкорпуса современного русского языка

Большой размер и стилистическая сбалансированность корпуса являются предпосылкой того, что он будет давать надежные статистические результаты для наиболее частотных слов: так, состав первых 20 000 элементов не будет существенно меняться, если, сохранив пропорцию, заменить данные тексты другими или сравнить несколько подвыборок корпуса. Это показывает опыт составления частотных словарей других 100-миллионных национальных корпусов, таких как британский , чешский (Leech et al. 2001, Čermák & Křen 2004) , а также корпуса испанского языка (Davies 2005) . Естественно, что частотный словарь НКРЯ во многом, и в технологических вопросах, и содержательно, ориентируется на эти образцы.

2. Размер корпуса и надежность выборки

Существующие частотные словари для русского языка были построены на сравнительно небольших корпусах: ЭВМ первых поколений не могли работать с корпусами большего размера. Интересно, что теоретические рекомендации, выработанные в 1970-е годы (Пиотровский и др. 1972), также доказывали, что для достоверного описания 1600-1700 наиболее частотных слов достаточно использовать корпус размером 400 тыс. словоупотреблений. Эта аргументация строилась на понятии доверительного интервала, который широко используется в статистике и социологии: если мы знаем размер выборки и экспериментальную вероятность события в этой выборке (т.е. частоту слова нашем корпусе), то мы можем вычислить доверительный интервал вероятности этого события на всей популяции (т.е. частоту употребления того же слова во всем пространстве языка).

В таблице 2 приводятся примеры частоты отдельных слов в словарях Леннгрена, Засориной и Штейнфельд в сравнении с частотами НКРЯ и 150-миллионного корпуса русского языка, собранного из Интернета (о последнем см. Sharoff 2006). Несмотря на то, что слова думать, задача, любить безусловно относятся к ядру языка (входят в число 200-500 самых частотных лемм), в небольших корпусах даже их частота различается весьма существенно. Частота сравнительно менее частотных слов (загрязнение, изучение, милый ) варьируется в еще больших пределах. Хотя состав Интернет-корпуса довольно существенно отличается от НКРЯ (большим количеством технических текстов и форумов и меньшим количеством художественной литературы), различия в частоте этих единиц между ними не столь велики.

Лемма

Леннгрен

Засорина

Штейнф.

НКРЯ

Интернет

власть

думать

1094

1058

загрязнение

задача

изучение

любить

милый

Табл. 2: Сравнение частоты отдельных слов (среднее на миллион словоупотреблений).

Как видим, теоретические рекомендации относительно достаточного размера корпуса в данном случае оказываются не слишком достоверными. Причина этого кроется в исходных допущениях на нормальное Гауссово распределение частоты слов, в соответствии с которым каждое слово встречается с одинаковой частотой во всех текстах. Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст .В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении.

Таблица 2 показывает несовершенство частотных словарей, построенных на относительно небольших корпусах, но простое увеличение размера корпуса также не гарантирует стабильности результатов. При интерпретации списков частотного словаря надо помнить, что любой корпус, каким бы большим он ни был, является конечным подмножеством потенциально бесконечного множества текстов на данном языке. Любая другая выборка этого подмножества породит несколько другой список, который будет отличаться в своих менее частотных элементах. Корпус большего размера, отражающий большее количество тем и функциональных стилей (корпус типа BNC или НКРЯ), обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию (см., например, проекты создания Гига-корпусов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002), может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.

Поскольку задачей частотного словаря является не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит , и которые случайно оказались в той или иной позиции частотного списка. Так в Чешском национальном корпусе используется понятие средней уменьшенной частоты (ARF, Average Reduced Frequency), в котором частота слова взвешивается по расстоянию между отдельными словоупотреблениями (Čermak & Křen 2005). Во многих частотных словарях (Леннгрена, Британского национального корпуса, словаря французской лексики в области бизнеса) используется коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах:


где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово.

Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0.Частотный список словаря Леннгрена даже отсортирован по значению произведения этого коэффициента на среднюю частоту слова. В связи с тем, что теоретический статус этого произведения неясен, мы не считали целесообразным сортировать наш словарь по нему. Однако его указание для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных областей. Например, слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.

3. Структура словаря

Концепция словаря предполагает издание «бумажной» версии с сопутствующим ей электронным вариантом, представляющим частотный словарь в более полном объеме. Словарная часть содержит следующие разделы:

I. Общая лексика

алфавитный список лемм

частотный список лемм

распределение лемм по функциональным стилям:

Ø частотный словарь художественной литературы,

словарь значимой лексики художественной литературы

Ø частотный словарь публицистики,

словарь значимой газетно-новостной лексики

Ø частотный словарь другой нехудожественной литературы,

словарь значимой лексики

Ø частотный словарь живой устной речи,

словарь значимой лексики живой устной речи

алфавитный список словоформ

II. Части речи

частотный список имен существительных

частотный список глаголов

частотный список имен прилагательных

частотный список наречий и предикативов

частотный список местоимений (местоимения-существительные, прилагательные, наречия, предикативы)

частотный список лемм служебных частей речи

III . Вспомогательные таблицы

данные о частотности частеречных классов и другая статистическая информация

IV . Имена собственные и аббревиатуры

алфавитный список лемм

В алфавитном списке лемм приводится имя леммы, часть речи, общая частота леммы, число документов, в которых она встретилась и коэффициент вариации D. Общая частота характеризует число употреблений на миллион слов корпуса, или ipm (instances per million words). Это делается для того, чтобы упростить сравнение частоты слова в разных корпусах, которые могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40598 раз в 100-миллионном корпусе современного русского языка и 55673 раза в большом 135-миллио¬нном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно. Алфавитный список электронного издания включает 60 000 наиболее частотных лемм.

В списке лемм, упорядоченном по частотности, указываются имя леммы, часть речи, общая частота леммы, число документов, коэффициент D и распределение частотности по десятилетиям. Частотный список включает 20 000 самых частотных лемм.

Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи. В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы:

Подкорпус

Другие тексты

Весь корпус

Частота

а+ b

Размер


На основе этой матрицы значение отношения правдоподобия G2 можно вычислить по следующей формуле (Rayson & Garside 2000):

Словари значимой лексики для разных функциональных стилей включают по 500 лемм.

Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0.1 ipm (всего около 15 тыс.); приводится общая частота словоформы. Омонимичные словоформы помечаются знаком *.

В разделе «Части речи» частотный список лемм разбит на шесть подсписков: имена существительные, глаголы, имена прилагательные, наречия и предикативы, местоимения и служебные части речи. Для каждой леммы указана ее общая частота и ранг (порядковый номер) в общем списке. Каждый список содержит по 1 тысяче наиболее частотных лемм.

Вспомогательные таблицы включают в себя данные о частотности частеречных классов, других грамматических категорий, а также информацию о покрытии текста лексемами, средней длине слова, словоформы и предложения.

Завершает словарь алфавитный список имен собственных и аббревиатур. Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и их хронотопа. В Леннгрен 1993 высказано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию.

Для получения списка имен собственных и аббревиатур из конкорданса корпуса были выделены имена существительные и сокращения, написание которых в текстах с большой буквы превышало 95-процентный порог, ср. Россия, Смирнов, ГРЭС, МИД, КЗоТ . В словарь включена ядерная часть этого списка, насчитывающая 3 000 наиболее частотных единиц.

По традиции, сложившейся для изданий такого рода, на страницах словаря представлена рубрика «Интересные факты»: публикуются списки самых популярных слов различных лексических групп (дни недели, погодные явления, цвета, глаголы движения и т.д.), а также самые длинные словоформы и частотный список знаков пунктуации.

6429

костюм

2288

плащ

4890

сапог

2179

юбка

3696

пальто

1904

шинель

3696

рубашка

1894

наряд*

3410

куртка

1822

туфля

3396

шапка

1668

рубаха

3126

ботинок

1633

джинсы

3041

платок

1585

перчатка

2962

пиджак

1522

шуба

2955

брюки

1356

мундир

2840

штаны

1251

фуражка

2686

шляпа

1235

свитер

2617

берет

1134

валенок

Табл. 3: Частотный список обозначений одежды и обуви.

В качестве примера в таблице 3 мы приводим частоты имен существительных, обозначающих одежду и обувь. Как можно ожидать, список отражает, с одной стороны, «типичность» элементов гардероба (валенки занимают только 26 место в списке), а с другой стороны, их «значимость» при описании внешности человека в текстах (костюм – более перцептивно выделенная вещь, чем ботинки ).

4. Подготовка словарного материала

Базовые списки частотного словаря были получены в автоматическом режиме, при этом использовалась метатекстовая и лексико-грамматическая разметка корпуса. На основе метатекстовой информации были построены и сравнивались между собой частотные списки на отдельных выборках корпуса (по функциональным стилям, по времени создания текста). Другой вид разметки, лексико-грамматическая, позволяет установить исходную форму слова (лемму), ее часть речи и такие грамматические характеристики, как падеж, число, время и т. д. Это дало возможность собрать данные о частотности не только отдельных словоформ, но и лексем, а также об употребительности тех или иных грамматических категорий. При создании настоящего словаря был использован вариант лексико-грамматической разметки корпуса с автоматическим разрешением морфологической омонимии.

Русский язык как язык с богатым словоизменением создает дополнительные трудности для составителей частотного словаря, так как многие словоформы в текстах омонимичны (ср. словоформу стали как форму глагола стать и существительного сталь , словоформу банка , представляющую леммы банк и банка , слова типа вера и Вера ). Тем не менее, в частотном словаре исходная форма слова, или лемма, должна быть приписана любой словоформе однозначно.

В словарях предшествующего поколения (Засорина 1977, Леннгрен 1993) омонимия разрешалась вручную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для 100-миллионного корпуса такое решение не подходит. При составлении настоящего словаря был учтен опыт чешских коллег, которым пришлось дорабатывать морфологический анализатор, пополнять словарь и проводить ручную редактуру. Первоначально корпус НКРЯ был размечен морфологическим анализатором Mystem (Сегалович, Маслов 1998). Неоднозначность в лексико-грамматической разметке была разрешена с помощью программы А.В. Сокирко, использующей модель триграмм и тренировочный подкорпус со снятой вручную омонимией (Сокирко, Толдова 2005).

Существенную проблему для лемматизации представляют также несловарные слова (Ляшевская и др. 2007). Если слово отсутствует в грамматической словаре морфологического парсера, то ему приписываются одна или несколько гипотез об исходной форме слова и его грамматических характеристиках. В результате в частотный словарь попадают такие «леммы», как благодарностий (ср. словоформу благодарностию ), Янсный (ср. Янсен ), Барклаивать (ср. Барклай ). Между тем, доля несловарных словоформ в НКРЯ составляет 3% всех словоупотреблений и 45% списка словоформ корпуса. Для частотных несловарных словоформ использовались программы пост-обработки морфологической разметки НКРЯ, составленные Б.П. Кобрицовым и Г.К. Бронниковым, а также результаты валидации работы этих программ, полученные О.Н. Ляшевской и Д.К. Бронниковой (Ляшевская 2007, Бронникова 2007). Наиболее эффективными оказались два подхода к лемматизации несловарных слов: кластеризация гипотез о лемме и типе парадигмы (наиболее вероятным для словоформы считается тот разбор, который встречается и у других несловарных словоформ, таким образом, словоформы «ищут» себе соседей по словоизменительной парадигме) и выделение наиболее продуктивных приставок.

Поскольку автоматическое разрешение омонимии и интерпретация несловарных форм допускают определенную, хотя и незначительную, погрешность, омонимы, входящие в первые 20 тысяч частотных слов, подверглись дополнительной ручной проверке.

***

Авторы выражают благодарность В.А. Плунгяну, А.Я. Шайкевичу, а также Е.А. Гришиной, Б.П. Кобрицову, Е.В. Рахилиной, Д.В. Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Мы благодарим О. Урюпину, Д. и Г. Бронниковых, Б. Кобрицова, сотрудников ООО «Яндекс» А. Аброскина, Н. Григорьева, А. Сокирко за помощь в сборе и обработке материала.

О.Г. (сост.). Словарь поэтического языка Марины Цветаевой. В 4-х томах. М: Дом-музей Марины Цветаевой , 1996.

Виноградов В.В. (отв. ред.). Словарь языка Пушкина. Т. I – IV . М ., 1956-1961.

Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М. , 197 7 ; 4-е изд.: М.: Русские словари, 2003.

Засорина Л.Н. (ред.). Частотный словарь русского языка. Москва: Русский язык , 1977 .

Лённгрен Л. (ред.). Частотный словарь современного русского языка [ L ö nngren , Lennart . The Frequency Dictionary of Modern Russian. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Uppsala, 1993.

Ляшевская О.Н.. К проблеме лемматизации несловарных слов // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». М , 2007.

Ляшевская О.Н., Кобрицов Б.П., Сичинава Д.В. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика 2007. Екатеринбург , 2007.

НКРЯ: Национальный корпус русского языка 2003-2005: Результаты и перспективы. М.: Индрик , 2005.

Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.. Математическая лингвистика. М.: Высшая школа , 1972.

Поляков А.Е.. Электронный словарь языка писателя (на примере языка А.С. Грибоедова) // Труды Международного семинара Диалог-99 по компьютерной лигвистике и ее приложениям. Таруса, 1999. М. , 1999 . Т. 2. С. 230-236.

Сегалович И., Маслов М.. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов // Труды международной семинара Диалог"98 по компьютерной лингвистике и ее приложениям. Казань, 1998. Т.2. С. 547–552.

Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка // Международная конференция «Корпусная лингвистика 2004». С.-Пб . , 2004.

Степанова Е.М. Частотный словарь общенаучной лексики. М. , 1976 .

Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь языка Достоевского. М.: Языки славянской культуры , 2003.

Штейнфельд Э.А. Частотный словарь современного русского литературного языка. Таллин , 1963 .

Čermák F. , Křen M. (eds.). Frekvenční slovník češtiny (Frequency dictionary of Czech). Praha: NLN , 2004 .

Čermák F., Křen M. New generation corpus-based frequency dictionaries: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467.

Church K.W. Empirical estimates of adaptation: the chance of two Noriegas is closer to p/2 than p 2 // Proceedings of the 18th С onference on Computational Linguistics (COLING). Saarbrücken, Germany, 2000. Vol. 1. P. 180-186.

Cieri Ch., Liberman M. Language resources creation and distribution at the Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333.

Davies M . A Frequency Dictionary of Spanish: Core Vocabulary for Learners. London – N.Y.: Routledge , 2005.

Josselson H.H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953.

Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague - Paris: Mouton, 1970.

Kilgarriff A. Putting frequencies in the dictionary // International Journal of Lexicography, 10 (2), 1997. P. 135-155.

Leech G., Rayson P. , Wilson A. Word Frequencies in Written and Spoken English: based on the British National Corpus. London: Longman , 2001.

Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.

Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds.), WaCky! Working papers on the Web as Corpus. Bologna: Gedit, 2006.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Труды международной конференции «Диалог 2008» ЧАСТОТНЫЙ СЛОВАРЬ НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: КОНЦЕПЦИЯ И ТЕХНОЛОГИЯ СОЗДАНИЯ FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY Ляшевская О.Н. ([email protected]), Институт русского языка им. В.В. Виноградова РАН Шаров С.А. ([email protected]), Университет Лидса, Великобритания Словарь содержит представительный базовый словник современного русского языка (2- я половина XX – начало XXI вв.), снабженный информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреб- лении. 1. Введение Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служеб- ными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, сло- варь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя. Новый частотный словарь – универсальный. Несмотря на то, что последний его прямой предшественник был выпущен 15 лет назад (Леннгрен 1993), очевидно, что за это время изменилось многое – как сам язык, так и технология подготовки частотных словарей. Наш словарь призван представить статистическую картину совре- менного словоупотребления (1950-2005 г.), заполнив, в частности, лакуну последних двух десятилетий, а также показать изменения, произошедшие в языке с 1950 года. Словарь базируется на 100-миллионном корпусе, в то время как предыдущие словари опирались на мате- риал объемом от 400 тыс. до 1 млн. словоупотреблений. Национальный корпус (www.ruscorpora.ru, НКРЯ 2005) более представителен по охвату материала, так как содержит сбалансированную коллекцию текстов разных типов, жанров и стилей, в том числе и тексты русского зарубежья. Распределение текстов в подкорпусе совре- менного русского языка (с 1950 года) по функциональным стилям показано в таблице 1. Тексты нехудожествен- ной литературы относятся к более чем 50 предметным областям (экономика и финансы, право, путешествия и др.), а их типология варьируется от законов и научных статей до интервью, инструкций и объявлений (всего более 100 типов). Художественные тексты включают романы, повести, рассказы, очерки, пьесы, сказки, эссе, литературные письма и др. Художественная литература 36% Публицистика 42% Прочая нехудожественная литература 17% Устная литература 5% Таблица 1. Функциональные стили подкорпуса современного русского языка Большой размер и стилистическая сбалансированность корпуса являются предпосылкой того, что он будет давать надежные статистические результаты для наиболее частотных слов: так, состав первых 20 000 элементов не будет существенно меняться, если, сохранив пропорцию, заменить данные тексты другими или сравнить несколько подвыборок корпуса. Это показывает опыт составления частотных словарей других 100-миллионных 345 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 346 Ляшевская О.Н., Шаров С.А. национальных корпусов, таких как британский, чешский (Leech et al. 2001, Čermák & Křen 2004), а также корпу- са испанского языка (Davies 2005). Естественно, что частотный словарь НКРЯ во многом, и в технологических вопросах, и содержательно, ориентируется на эти образцы. 2. Размер корпуса и надежность выборки Существующие частотные словари для русского языка были построены на сравнительно небольших кор- пусах: ЭВМ первых поколений не могли работать с корпусами большего размера. Интересно, что теоретические рекомендации, выработанные в 1970-е годы (Пиотровский и др. 1972), также доказывали, что для достоверного описания 1600-1700 наиболее частотных слов достаточно использовать корпус размером 400 тыс. словоупотреб- лений. Эта аргументация строилась на понятии доверительного интервала, который широко используется в ста- тистике и социологии: если мы знаем размер выборки и экспериментальную вероятность события в этой выбор- ке (т.е. частоту слова нашем корпусе), то мы можем вычислить доверительный интервал вероятности этого собы- тия на всей популяции (т.е. частоту употребления того же слова во всем пространстве языка). В таблице 2 приводятся примеры частоты отдельных слов в словарях Леннгрена, Засориной и Штейнфельд в сравнении с частотами НКРЯ и 150-миллионного корпуса русского языка, собранного из Интернета (о последнем см. Sharoff 2006). Несмотря на то, что слова думать, задача, любить безусловно отно- сятся к ядру языка (входят в число 200-500 самых частотных лемм), в небольших корпусах даже их частота раз- личается весьма существенно. Частота сравнительно менее частотных слов (загрязнение, изучение, милый) варьи- руется в еще больших пределах. Хотя состав Интернет-корпуса довольно существенно отличается от НКРЯ (большим количеством технических текстов и форумов и меньшим количеством художественной литературы), различия в частоте этих единиц между ними не столь велики. Лемма Леннгрен Засорина Штейнф. НКРЯ Интернет власть 202 364 138 422 428 думать 609 1094 1058 865 818 загрязнение 69 1 0 9 11 задача 499 421 250 228 292 изучение 193 110 0 63 78 любить 415 632 595 549 650 милый 58 242 135 129 110 Таблица 2. Сравнение частоты отдельных слов (среднее на миллион словоупотреблений). Как видим, теоретические рекомендации относительно достаточного размера корпуса в данном случае оказываются не слишком достоверными. Причина этого кроется в исходных допущениях на нормальное Гауссово распределение частоты слов, в соответствии с которым каждое слово встречается с одинаковой часто- той во всех текстах. Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоб- битов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст1. В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении. Таблица 2 показывает несовершенство частотных словарей, построенных на относительно небольших корпусах, но простое увеличение размера корпуса также не гарантирует стабильности результатов. При интер- претации списков частотного словаря надо помнить, что любой корпус, каким бы большим он ни был, является конечным подмножеством потенциально бесконечного множества текстов на данном языке. Любая другая выборка этого подмножества породит несколько другой список, который будет отличаться в своих менее частот- ных элементах. Корпус большего размера, отражающий большее количество тем и функциональных стилей (кор- 1 Кеннет Черч называл эту ситуацию проблемой Норьеги (Church 2000), Адам Килгаррифф - whelk problem, от сравнительно редкого английского слова, обозначающего вид моллюска (Kilgarriff 1997). 346 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 347 Частотный словарь Национального корпуса русского языка пус типа BNC или НКРЯ), обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию (см., например, проекты создания Гига-корпу- сов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002), может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики. Поскольку задачей частотного словаря является не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка. Так в Чешском национальном корпусе используется понятие средней уменьшенной частоты (ARF, Average Reduced Frequency), в котором частота слова взвешивается по расстоянию между отдельными словоупотреблениями (Čermak & Křen 2005). Во многих частотных словарях (Леннгрена, Британского национального корпуса, словаря французской лексики в области бизнеса) используется коэффици- ент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах: где µ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово. Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречаю- щихся лишь в небольшом числе документов, близко к 0. Частотный список словаря Леннгрена даже отсортиро- ван по значению произведения этого коэффициента на среднюю частоту слова. В связи с тем, что теоретический статус этого произведения неясен, мы не считали целесообразным сортировать наш словарь по нему. Однако его указание для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных областей. Например, слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре. 3. Структура словаря Концепция словаря предполагает издание «бумажной» версии с сопутствующим ей электронным вариан- том, представляющим частотный словарь в более полном объеме. Словарная часть содержит следующие разде- лы: I. Общая лексика ● алфавитный список лемм ● частотный список лемм ● распределение лемм по функциональным стилям: частотный словарь художественной литературы, словарь значимой лексики художественной литературы частотный словарь публицистики, словарь значимой газетно-новостной лексики частотный словарь другой нехудожественной литературы, словарь значимой лексики частотный словарь живой устной речи, словарь значимой лексики живой устной речи ● алфавитный список словоформ II. Части речи ● частотный список имен существительных ● частотный список глаголов ● частотный список имен прилагательных ● частотный список наречий и предикативов ● частотный список местоимений (местоимения-существительные, прилагательные, наречия, предикати- вы) ● частотный список лемм служебных частей речи III. Вспомогательные таблицы 347 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 348 Ляшевская О.Н., Шаров С.А. ● данные о частотности частеречных классов и другая статистическая информация IV. Имена собственные и аббревиатуры ● алфавитный список лемм В алфавитном списке лемм приводится имя леммы, часть речи, общая частота леммы, число документов, в которых она встретилась и коэффициент вариации D. Общая частота характеризует число употреблений на миллион слов корпуса, или ipm (instances per million words). Это делается для того, чтобы упростить сравнение частоты слова в разных корпусах, которые могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером 400 тыс. слов, 364 раза в миллионном корпусе и 40598 раз в 100-миллионном корпусе современного русского языка и 55673 раза в большом 135-миллионном корпусе НКРЯ, то его частота в ipm составит 137.5, 364.0, 372.06 и 412.39, соответственно. Алфавитный список электро- нного издания включает 60 000 наиболее частотных лемм. В списке лемм, упорядоченном по частотности, указываются имя леммы, часть речи, общая частота леммы, число документов, коэффициент D и распределение частотности по десятилетиям. Частотный список включает 20 000 самых частотных лемм. Частотные словари функциональных стилей составлены на основе подкорпусов художественной литера- туры, публицистики, другой нехудожественной литературы и устной речи. В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы: Подкорпус Другие тексты Весь корпус Частота а b а+b Размер с d c+d На основе этой матрицы значение отношения правдоподобия G2 можно вычислить по следующей форму- ле (Rayson & Garside 2000): Словари значимой лексики для разных функциональных стилей включают по 500 лемм. Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0.1 ipm (всего около 15 тыс.); приводится общая частота словоформы. Омонимичные словоформы помечаются знаком *. В разделе «Части речи» частотный список лемм разбит на шесть подсписков: имена существительные, гла- голы, имена прилагательные, наречия и предикативы, местоимения и служебные части речи. Для каждой леммы указана ее общая частота и ранг (порядковый номер) в общем списке. Каждый список содержит по 1 тысяче наи- более частотных лемм. Вспомогательные таблицы включают в себя данные о частотности частеречных классов, других грамма- тических категорий, а также информацию о покрытии текста лексемами, средней длине слова, словоформы и предложения. Завершает словарь алфавитный список имен собственных и аббревиатур. Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и их хронотопа. В Леннгрен 1993 выска- зано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию. Для получения списка имен собственных и аббревиатур из конкорданса корпуса были выделены имена существительные и сокращения, написание которых в текстах с большой буквы превышало 95-процентный порог, ср. Россия, Смирнов, ГРЭС, МИД, КЗоТ.2 В словарь включена ядерная часть этого списка, насчитывающая 3 000 наиболее частотных единиц. По традиции, сложившейся для изданий такого рода, на страницах словаря представлена рубрика «Интересные факты»: публикуются списки самых популярных слов различных лексических групп (дни недели, погодные явления, цвета, глаголы движения и т.д.), а также самые длинные словоформы и частотный список зна- ков пунктуации. 2 Особо отметим, что прилагательные типа Христов, Петин, Костромской/костромской относятся к общей лексике. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 349 Частотный словарь Национального корпуса русского языка 6429 костюм 2288 плащ 4890 сапог 2179 юбка 3696 пальто 1904 шинель 3696 рубашка 1894 наряд* 3410 куртка 1822 туфля 3396 шапка 1668 рубаха 3126 ботинок 1633 джинсы 3041 платок 1585 перчатка 2962 пиджак 1522 шуба 2955 брюки 1356 мундир 2840 штаны 1251 фуражка 2686 шляпа 1235 свитер 2617 берет 1134 валенок Таблица 3. Частотный список обозначений одежды и обуви. В качестве примера в таблице 3 мы приводим частоты имен существительных, обозначающих одежду и обувь. Как можно ожидать, список отражает, с одной стороны, «типичность» элементов гардероба (валенки зани- мают только 26 место в списке), а с другой стороны, их «значимость» при описании внешности человека в тек- стах (костюм – более перцептивно выделенная вещь, чем ботинки). 4. Подготовка словарного материала Базовые списки частотного словаря были получены в автоматическом режиме, при этом использовалась метатекстовая и лексико-грамматическая разметка корпуса. На основе метатекстовой информации были построе- ны и сравнивались между собой частотные списки на отдельных выборках корпуса (по функциональным стилям, по времени создания текста). Другой вид разметки, лексико-грамматическая, позволяет установить исходную форму слова (лемму), ее часть речи и такие грамматические характеристики, как падеж, число, время и т. д.3 Это дало возможность собрать данные о частотности не только отдельных словоформ, но и лексем, а также об упо- требительности тех или иных грамматических категорий. При создании настоящего словаря был использован вариант лексико-грамматической разметки корпуса с автоматическим разрешением морфологической омонимии. Русский язык как язык с богатым словоизменением создает дополнительные трудности для составителей частотного словаря, так как многие словоформы в текстах омонимичны (ср. словоформу стали как форму глаго- ла стать и существительного сталь, словоформу банка, представляющую леммы банк и банка, слова типа вера и Вера). Тем не менее, в частотном словаре исходная форма слова, или лемма, должна быть приписана любой словоформе однозначно. В словарях предшествующего поколения (Засорина 1977, Леннгрен 1993) омонимия разрешалась вруч- ную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для 100-миллионного корпуса такое решение не подходит. При составлении настоящего словаря был учтен опыт чешских коллег, которым при- шлось дорабатывать морфологический анализатор, пополнять словарь и проводить ручную редактуру. Первоначально корпус НКРЯ был размечен морфологическим анализатором Mystem (Сегалович, Маслов 1998). Неоднозначность в лексико-грамматической разметке была разрешена с помощью программы А.В. Сокирко, использующей модель триграмм и тренировочный подкорпус со снятой вручную омонимией (Сокирко, Толдова 2005). Существенную проблему для лемматизации представляют также несловарные слова (Ляшевская и др. 2007). Если слово отсутствует в грамматической словаре морфологического парсера, то ему приписываются одна или несколько гипотез об исходной форме слова и его грамматических характеристиках. В результате в частот- 3 Принципы лемматизации и состав частей речи определяются морфологическим стандартом корпуса (НКРЯ 2005), который в общем и целом соответствует принципам Грамматического словаря русского языка (Зализняк 1977). Некоторые особенно- сти лемматизации связаны с тем, что сбор данных происходит по преимуществу в автоматическом режиме. Отметим, что учи- тывается только пословная разметка: устойчивые обороты, составные предлоги и другие неоднословные лексические едини- цы (ср. Новый год, в течение, тем не менее, друг друга) не включаются в словарь. 349 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 350 Ляшевская О.Н., Шаров С.А. ный словарь попадают такие «леммы», как благодарностий (ср. словоформу благодарностию), Янсный (ср. Янсен), Барклаивать (ср. Барклай). Между тем, доля несловарных словоформ в НКРЯ составляет 3% всех сло- воупотреблений и 45% списка словоформ корпуса. Для частотных несловарных словоформ использовались про- граммы пост-обработки морфологической разметки НКРЯ, составленные Б.П. Кобрицовым и Г.К. Бронниковым, а также результаты валидации работы этих программ, полученные О.Н. Ляшевской и Д.К. Бронниковой (Ляшевская 2007, Бронникова 2007). Наиболее эффективными оказались два подхода к лемматизации несловар- ных слов: кластеризация гипотез о лемме и типе парадигмы (наиболее вероятным для словоформы считается тот разбор, который встречается и у других несловарных словоформ, таким образом, словоформы «ищут» себе сосе- дей по словоизменительной парадигме) и выделение наиболее продуктивных приставок. Поскольку автоматическое разрешение омонимии и интерпретация несловарных форм допускают опреде- ленную, хотя и незначительную, погрешность, омонимы, входящие в первые 20 тысяч частотных слов, подверг- лись дополнительной ручной проверке. *** Авторы выражают благодарность В.А. Плунгяну, А.Я. Шайкевичу, а также Е.А. Гришиной, Б.П. Кобрицову, Е.В. Рахилиной, Д.В. Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Мы благодарим О. Урюпину, Д. и Г. Бронниковых, Б. Кобрицова, сотрудников ООО «Яндекс» А. Аброскина, Н. Григорьева, А. Сокирко за помощь в сборе и обработке материала. Список литературы 1. Бронникова Д.К. Сравнение алгоритмов лемматизации на материале Национального корпуса русского языка. Дипломная работа. М.: РГГУ, 2007. 2. Белякова И.Ю., Оловянникова И.П., Ревзина О.Г. (сост.). Словарь поэтического языка Марины Цветаевой. В 4-х томах. М: Дом-музей Марины Цветаевой, 1996. 3. Виноградов В.В. (отв. ред.). Словарь языка Пушкина. Т. I – IV. М., 1956-1961. 4. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М., 1977; 4-е изд.: М.: Русские словари, 2003. 5. Засорина Л.Н. (ред.). Частотный словарь русского языка. Москва: Русский язык, 1977. 6. Лённгрен Л. (ред.). Частотный словарь современного русского языка . Uppsala, 1993. 7. Ляшевская О.Н.. К проблеме лемматизации несловарных слов // Компьютерная лингвистика и интеллекту- альные технологии: Труды международной конференции «Диалог 2007». М, 2007. 8. Ляшевская О.Н., Кобрицов Б.П., Сичинава Д.В. Автоматизация построения словаря на материале массива несловарных словоформ // Интернет-математика 2007. Екатеринбург, 2007. 9. НКРЯ: Национальный корпус русского языка 2003-2005: Результаты и перспективы. М.: Индрик, 2005. 10. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.. Математическая лингвистика. М.: Высшая школа, 1972. 11. Поляков А.Е.. Электронный словарь языка писателя (на примере языка А.С. Грибоедова) // Труды Международного семинара Диалог-99 по компьютерной лигвистике и ее приложениям. Таруса, 1999. М., 1999. Т. 2. С. 230-236. 12. Сегалович И., Маслов М.. Русский морфологический анализ и синтез с генерацией моделей словоизмене- ния для не описанных в словаре слов // Труды международной семинара Диалог’98 по компьютерной лингви- стике и ее приложениям. Казань, 1998. Т.2. С. 547–552. 13. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологи- ческой неоднозначности для русского языка // Международная конференция «Корпусная лингвистика 2004». С.- Пб., 2004. 14. Степанова Е.М. Частотный словарь общенаучной лексики. М., 1976. 15. Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Статистический словарь языка Достоевского. М.: Языки славянской культуры, 2003. 16. Штейнфельд Э.А. Частотный словарь современного русского литературного языка. Таллин, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (Frequency dictionary of Czech). Praha: NLN, 2004. 18. Čermák F., Křen M. New generation corpus-based frequency dictionaries: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Church K.W. Empirical estimates of adaptation: the chance of two Noriegas is closer to p/2 than p2 // Proceedings of the 18th Сonference on Computational Linguistics (COLING). Saarbrücken, Germany, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Language resources creation and distribution at the Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333. 350 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 351 Частотный словарь Национального корпуса русского языка 21. Davies M. A Frequency Dictionary of Spanish: Core Vocabulary for Learners. London – N.Y.: Routledge, 2005. 22. Josselson H.H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Putting frequencies in the dictionary // International Journal of Lexicography, 10 (2), 1997. P. 135- 155. 25. Leech G., Rayson P., Wilson A. Word Frequencies in Written and Spoken English: based on the British National Corpus. London: Longman, 2001. 26. Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds.), WaCky! Working papers on the Web as Corpus. Bologna: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351