Совмещенный словарь

Хаген Майкл

Совмещённый словарь

Совмещённый словарь состоит из связанных между собой толкового, морфологического, орфоэпического, частотного словарей и словаря словосочетаний.

Совмещённый словарь создан на основе толкового словаря Ожегова — Шведовой, полученного из широко распространенного в Интернете текстового файла, в данном случае взятого с сайта «Cловари русского языка для скачивания» под именем «Толковый словарь под ред. C. И. Ожегова и Н. Ю. Шведовой, М., Азъ, 1992 г.». Текст файла был подвергнут корректуре с целью исправления ошибок сканирования и распознавания, преобразован в гипертекст (формат HTML), снабжен внутренними и внешними ссылками, предисловием к печатному 20-ому изданию словаря Ожегова под редакцией Шведовой (взятому с сайта «Сетевая лингвистическая библиотека»), словником и примечаниями. К толковому словарю подключены ссылками морфологический и частотный словари, тексты которых находятся на этом же сайте (использованы только те леммы, толкования которых наличествуют в толковом словаре). Кроме того, вынесены в отдельный список устойчивые словосочетания и фразеологизмы, выделенные в толковом словаре. Главная особенность данного словаря — режим оффлайн и перекрёстные ссылки между его частями: толковым, морфологическим, фразеологическим и частотным словарями.

Навигация в словаре

Ввиду значительного объёма данных некоторые части словаря разбиты на страницы приемлемой величины. Для перехода по страницам служит панель навигации в верхней части страницы, с помощью которой можно перейти на предыдущую или следующую страницы, перейти на страницу по её номеру вперёд или назад (в пределах десятка) или перейти на верхний уровень словаря. Например, для толкового словаря верхний уровень — словник, а для словника — таблица поиска лемм в словнике. Элементы навигации выделены цветом и, как правило, имеют подсказку.

Толковый словарь

Толковый словарь как можно точнее передаёт печатное издание, однако есть некоторые особенности, связанные с преобразованием текстового файла в гипертекст и хранением толкований в базе данных. Основные из них: устранены надстрочные индексы для омонимов (гипертекст в них не нуждается); ударения восстановлены только для лемм (ударения для словоформ приводятся в морфологическом словаре); надстрочный знак ударения (акцентуация) заменён апострофом после акцентируемой буквы.

Поиск в словаре осуществляется по таблице поиска лемм в словнике, в которой приводятся две начальные буквы леммы, а также с помощью панели навигации.

В словнике не различаются буквы е и ё, т. к. в современных текстах они не различаются также. В словник вынесены как все заголовочные леммы статей, так и леммы их гнёзд (расположенные за разделителем « || »). В некоторых случаях в словник вынесены также леммы, имеющие «скрытое», неявное толкование: например, в статье ВЕНЕСУЭ'ЛЬСКИЙ приведён пример «В. боливар (денежная единица)», что дало основание поместить слово «боливар» в словник как лемму. Также вынесены в словник леммы в составе примеров, снабженные пометами «сущ.», «нареч.», «в знач. сказ.», «в знач. предлога».

Таким образом, количество лемм, имеющих толкования, составляет 65 500 (66 092, включая приставки и начальные части слов), а количество статей — всего 41 082, при этом часть их — ссылочные, без толкований, например «Я'ЧИЙ, см. як».

Внутренние гипертекстовые ссылки реализованы для печатных ссылок «см.», «то же, что» (синонимы), «противоп.», «в отличие от» (антонимы). Также во многих случаях даны ссылки из толкования сложного (составного) слова на имеющиеся в нём леммы с корнями сложного слова и ссылки из толкования производного слова на производящее — задел для возможных морфемного и словообразовательного словарей. Ссылки, в основном, организованы с точностью до статьи, т. е. ссылки на различные толкования, например, «в знач. 1, 2, и 5» и им подобные, пока не реализованы. Невыделенные синонимические ссылки (как например в статье ГОЛОДРА'НЕЦ, ‑нца, м. (прост. презр.). Оборванец, бедняк.) не реализованы.

Леммы и словосочетания в статьях выделены. Практически каждая лемма (и некоторые словосочетания, использующиеся в значении предлогов, союзов и т. д.) имеет ссылку на соответствующую лемму морфологического словаря. В морфологическом словаре отсутствуют леммы, не найденные в Национальном корпусе русского языка (в дальнейшем НКРЯ) (например, песочность, кирпичность, куклуксклановка), окказионализмы, а также неизменяемые леммы из толкового словаря, существующие только в словосочетаниях — например, несмотря; в таких случаях приводится словосочетание целиком.

Для выделенных цветом слов в толкованиях и примерах имеются примечания.

Более подробное описание структуры словаря, его использования, список сокращений и т. д. см. в великолепном предисловии к 4-му изданию толкового словаря С. И. Ожегова.

Примечания к толковому словарю

Примечания к толковому словарю вызваны тем, что в некоторых статьях толкования существенно отличаются (выделено цветом) от толкований в других словарях и энциклопедиях, не менее авторитетных, чем словарь Ожегова-Шведовой. Также выделены примеры к толкованиям (речения), не соответствующие толкованиям, логике русского языка или вызывающие сомнения в смысле «наиболее употребительные сочетания слов». В примечаниях приведён список этих статей (сокращённых). Отличия снабжены, где это возможно, ссылками на источники и предлагаются другие варианты толкований и примеров.

Устойчивые словосочетания и фразеологизмы

Устойчивые словосочетания и фразеологизмы как отдельные смыслообразующие единицы вынесены из толкового словаря в отдельный список в алфавитном порядке (без учёта буквы ё). В список включены только те сочетания, которые в толковом словаре даны после разделителя « ♦ » или сразу после заголовочного слова статьи (для лемм, не употребляющихся вне словосочетания) — их количество 5 478. Для каждого сочетания имеется ссылка на ту статью толкового словаря, в которой дано его толкование — только на одну, хотя некоторые из словосочетаний толкуются (одинаково) более чем в одной статье. К сожалению, в список не включены приводимые в примерах к толкованиям поговорки, пословицы и афоризмы, а также «скрытые» (не выделенные разделителем « ♦ ») толкования сочетаний, например «Как в аптеке (совершенно точно; разг. шутл.)» к статье АПТЕ'КА, что даёт возможность дальнейшего развития фразеологического словаря.

Морфологический и орфоэпический словарь

Словарь составлен на основе файла «Полная парадигма. Морфология» с сайта «Cловари русского языка для скачивания», дополненного леммами из толкового словаря, особенностями произношения (орфоэпией) и частотностью (для лемм), содержит 2 201 793 словоформ для 66 117 лемм.

Словарь оформлен в виде таблиц (без заголовков), где в каждой таблице первая строка — лемма, в следующих строках приведены её словоформы. Таблицы разделяются пустой строкой. Леммы даны в алфавитном порядке (без учёта буквы ё), каждая лемма обязательно имеет ссылку на соответствующую лемму в одной из статей толкового словаря. Поиск и навигация в словаре производится по таблице поиска лемм, состоящей из двух первых букв лемм, и по панели навигации.

Каждая таблица имеет 4 колонки: в первой — лемма или порождённая ею словоформа (словоформы спряжения и склонения сдвинуты вправо на один символ); некоторые словоформы, снабжённые в толковом словаре пометой «не употр.» выделены цветом.

Во второй колонке — слово с его особенностями произношения, отмеченными в толковом словаре, ударением (ударениями) и различением букв «е» и «ё», то есть орфоэпия. Здесь, в отличие от толкового словаря, ударение указывается обязательно, даже если в слове ударная буква «ё» или только одна гласная. Основное и вариативное ударения обозначены символом « ' » после соответствующей гласной, дополнительное — символом « ` ». Подробные сведения о произношении приведены в предисловии к толковому словарю Ожегова-Шведовой.

В третьей колонке приведены сокращённые морфологические характеристики слова в стиле их указания в толковом словаре. Сокращённые в следующем смысле: для возвратных глаголов опускается их переходность (только непереходные), обозначение изъявительного наклонения опущено, для кратких страдательных причастий опускается залог (страдательный) и т. д. Принятые сокращения:

сущ. — существительное;
одуш. — одушевлённое;
неод. — неодушевлённое;
ед. — единственное число;
мн. — множественное число;
жен. — женский род;
муж. — мужской род;
сред. — средний род;
нескл. — несклоняемое (существительное);
общ. — общий род (мужской и/или женский);
им. — именительный падеж;
род. — родительный падеж;
парт. — партитивный падеж (количественный, второй родительный);
счет. — счётный падеж (третий родительный);
дат. — дательнай падеж;
тв. — творительный падеж;
пр. — предложный падеж;
местн. — местный падеж (второй предложный);
гл. — глагол;
безл. — безличный (глагол);
воз. — возвратный (глагол);
перех. — переходный (глагол);
непер. — непереходный (глагол);
(не)перех. — переходный и непереходный (глагол);
сов. — совершенный вид;
несов. — несовершенный вид;
(не)сов. — двухвидовый (совершенный и несовершенный вид глагола);
инф. — инфинитив (неопределённая форма глагола);
прош. — прошедшее время;
наст. — настоящее время;
буд. — будущее время;
пов. — повелительное наклонение;
1 л. — первое лицо;
2 л. — второе лицо;
3 л. — третье лицо;
прич. — причастие;
страд. — страдательный залог;
деепр. — деепричастие;
прл. — прилагательное;
неизм. — неизменяемое (прилагательное):
прев. — превосходная степень;
сравн. — сравнительная степень (прилагательного или наречия);
крат. — краткая форма (прилагательного или причастия);
нареч. — наречие;
межд. — междометие;
част. — частица;
предл. — предлог;
предик. — предикатив;
ввод. — вводное слово.

В четвёртой колонке (только для лемм) — частотность (лемма и её словоформы на 1 000 000 словоупотреблений) с точностью до трёх значащих цифр, если она определена. Частотность определялась либо по результатам поиска леммы в основном корпусе объёмом в 229 968 798 слов НКРЯ, либо по данным из частотного словаря. Частотность указана не для всех лемм, что вызвано сложностью разрешения грамматической омонимии: например, не определена частотность для леммы аванзал потому, что словоформа этой леммы «аванзала» (ед. род.) имеет омоним «аванзала» (ед. ж. им.). Некоторые значения частотности имеют ссылки на соответствующие леммы в частотном словаре, если лемма в нём наличествует.

Частотный словарь

Текст частотного словаря расположен на вышеупомянутом сайте «Cловари русского языка для скачивания», данные для него взяты в сентябре 2009 из опубликованного НКРЯ файла lemma_num.zip. Словарь содержит таблицу из 32 617 лемм, расположенных в порядке убывания их частотности. В первой колонке — порядковый номер леммы в словаре, во второй — собственно лемма. Если лемма имеется в морфологическом словаре, то имеет соответствующую ссылку на него. Не все леммы имеют ссылки, т. к. морфологический словарь содержит леммы только из толкового словаря.

Третья колонка — частеречная характеристика леммы (взята из исходного файла), где обозначения имеют следующий смысл:

adj — прилагательное;
adjpron — местоимение-прилагательное;
adv — наречие;
card — числительное;
misc — частица;
noun — существительное;
ord — числительное порядковое;
prep — предлог;
pron — местоимение-существительное;
verb — глагол.

Четвёртая колонка — сокращённая морфологическая характеристика леммы.

Пятая колонка — собственно частотность: сколько раз встретилась лемма или её словоформы в текстах НКРЯ в расчёте на 1 000 000 слов.

Шестая колонка — процент покрытия текстов НКРЯ группой лемм от начала частотного словаря по текущую лемму. Например, значение 50.02 для леммы № 249 «советский» означает, что 50.02% текстов НКРЯ составляют 249 лемм и их словоформы от № 1 (союз «и») по № 249 («советский»).

Имеющиеся расхождения в значениях частотности в частотном словаре и в морфологическом словаре обусловлены как различными размерами и составом использованных корпусов (вышеуказанный файл частотного словаря составлен на корпусе размером в 16 336 972 слов примерно в июле 2002 года — по дате файла), так и различными подходами к лемматизации (снятием грамматической омонимии) текстов. Гораздо более строгий по методологии и точный частотный словарь доступен онлайн на сайте «Словари, созданные на основе Национального корпуса русского языка».

Перспективы развития совмещённого словаря

Словари как таковые являются продуктом анализа текстов — как звучащей речи, так и письменных, в том числе электронных, — и сами по себе мало кому нужны. Познавательную ценность имеют только тексты, описывающие объекты мира, их связи и свойства, существование их во времени и пространстве. Несмотря на то что словари — это тоже специфические тексты, будем рассматривать их как элементы системы, производящей обработку текстов — их распознавание и порождение. С этой точки зрения совмещённый словарь представляет собой только два элемента этой системы: морфологический словарь даёт начальное описаний связей слов в высказываниях текста, а толковый, как набор коротких текстов, описывает некоторые объекты мира, их свойства, связи и существование в пространстве и времени. Частотный словарь даёт сведения о наиболее частых (важных) объектах, их свойствах и связях, то есть устанавливает очерёдность исследования слов по степени их важности.

С точки зрения анализа письменных текстов орфоэпическая часть морфологического словаря совершенно не важна. Гораздо важнее подключение к морфологическому словарю морфемного разложения слов, что в значительной степени снижает остроту проблемы неполноты, принципиально присущую любому словарю из-за постоянного развития речи. На основе морфемного разложения становится возможным построение словаря морфем и словообразовательного словаря, открывающих возможность делать правдоподобные предположения в случае наличия в тексте неизвестных системе слов — новых или ошибочных. Предпосылки создания морфемного разбиения есть в толковом словаре — гнездовой способ его организации и толкования типа «АБАЗИ'НСКИЙ, ‑ая, ‑ое. 1. см. абазины».

Подключение вспомогательного этимологического словаря к толковому словарю и словарю морфем (для корней слов) способствует осуществлению морфемного разбиения и распознаванию неизвестных системе слов, особенно иностранного происхождения.

Элементами высказываний являются словосочетания, построение которых (из слов) регулируется грамматическими и синтаксическими отношениями (правилами). Эти правила также должны быть оформлены в виде словаря грамматической сочетаемости словоформ как со словоформами, так и со служебными частями речи, построенного на основе морфологических характеристик словоформ, дополненного указаниями на глагольное и предложное управление из толкового словаря. И опять же, словарь грамматической сочетаемости помогает распознавать неизвестные системе слова (в тексте) по предположениям на основе морфемного анализа слов и сочетаемости словоформ. Предпосылки создания в толковом словаре есть — список устойчивых словосочетаний и фразеологизмов, а также примеры типичных словоупотреблений.

Следующая ступень распознавания текста — синтаксический анализ высказывания — требует создания словаря синтаксических отношений (подобному тому, который использует НКРЯ) на основе словаря грамматических связей и подключенных к толковому словарю формализованных структурирующих связей между лексемами. Структурирование в толковом словаре для отдельных частей речи может быть, например, таким:

для существительных как обозначений объектов — разбиение их на классы (материальные объекты, свойства, состояния, процессы и т. д.), указание родовидовых соотношений (гиперонимы — гипонимы), соотношений часть — целое (холонимы — меронимы), определение атрибутов объектов и их наследование по родовидовой цепочке.
для прилагательных как указателей свойств объектов — объединение их в классы (например, классы цвета, твёрдости, интенсивности и т. д.), принадлежность классов свойств классам объектов.
для глаголов как указателей связей между объектами и существования объектов во времени и пространстве — разбиение их на классы связей (например, существования, перемещения, изменения и т. д.), указания глагольного управления (родовыми объектами) и валентностей глаголов.
для наречий — объединение их в классы признаков и отнесение классов признаков классам свойств, связей, пространственных и временных признаков.
для предлогов как указателей связей между объектами и существования их в пространстве и времени — объединение их в классы связей и предложное управление родовыми объектами.

Таким образом, идеографический словарь должен быть включен в толковый словарь как структура формализованных связей между лексемами.

Предпосылки создания таких связей присутствуют в толковом словаре в различном виде. Однако создание такой структуры потребует дополнения толкового словаря новыми лексемами и толкованиями для обозначения объектов, отсутствующих или не имеющих надлежащих толкований в существующем словаре, дополнения и изменения некоторых толкований. Так, например, гиперонимом для слов «озеро», «горный массив», «остров», «населённый пункт», «страна» является «географический объект», то есть «материальный объект, неподвижно расположенный на поверхности Земли или другого небесного тела, имеющий определённое местоположение и размеры», а такого словосочетания в словаре нет. Родовое слово «отверстие» толкуется через свои гипонимы: «ОТВЕРСТИЕ, ‑я, ср. Дыра, скважина, проход куда-н.», что создаёт порочный круг определений.

Определение синтаксических связей в предложениях позволит выделить тему — рему (субъект — предикат) высказываний, их модальность, связь между высказываниями и их коммутативную направленность.

Поэтому первоочередной задачей расширения словаря следует признать дополнение морфологического словаря морфемным разложением словоформ и подключение словообразовательного словаря (движение «вниз» от слова по иерархии элементов текста), подключение словарей грамматических связей и синтаксических отношений (связь между морфологическим и толковым словарями через словосочетания), создание идеографической структуры в толковом словаре, что, в конечном счёте, откроет возможность семантического анализа текста и выявление его смысла. При этом очерёдность обработки лемм и лексем определяется частотным словарём.

Кроме того, при анализе текстов крайне желательно подключение словаря имён собственных — собственно имён во всех их разновидностях, топонимов и распространённых названий с минимальным морфемным анализом (выделение основы) и определением их гиперонимов (имя, фамилия, город, море и т. д.), что также способствует решению проблемы неполноты словарей (например, отсутствующие в словаре «астраханец», «прикаспийский», «Западно-сибирская» в контексте вполне поддаются анализу и определению).

Следующий этап развития совмещённого словаря — подключение опять же структурированного на основании анализа статей энциклопедического словаря — минимальной базы знаний.

Несмотря на неоднократную корректуру исходного текста (исправлено порядка 10 тыс. ошибок), автор сознаёт, что ошибок осталось ещё много и с благодарностью примет все замечания, предложения, исправления и помощь, особенно по разметке словаря и его оформлению, а также готов поделиться некоторыми другими своими наработками. Адрес для связи: hagen_m@mail.ru

Свежие редакции словаря см. на сайте автора www.semantex.ru.

Благодарности

Автор выражает глубокую благодарность Светлане Ф. и Светлане Ч. за помощь в процессе создания словаря, а также студии Владислава Тимофеева за его оформление.