Компьютерная лингвистика – это современное научное направление, занимающееся компьютерным моделированием интеллектуальных процессов, связанных с речемыслительной деятельностью человека. Актуальными проблемами компьютерной лингвистики являются создание лингвистических баз данных, автоматическая обработка естественных языков, распознавание и синтез речи, анализ текстовых документов, когнитивное моделирование языка, машинный перевод. Важнейшим компонентом электронного корпуса любого языка является грамматическая разметка (система тегов), позволяющая морфологическому анализатору автоматически обрабатывать лингвистические объекты в формализованном виде. С точки зрения типологии языков тюркские языки относятся к агглютинативным языкам. В длинной цепочке каждый аффикс имеет свое определенное место, отличается определенной закономерностью Һприклеиванияһ и функциональносемантической нагруженностью. Такая особенность тюркских языков дает большое преимущество в описании их морфологии в автоматическом режиме. В ближайшей перспективе в сравнительносопоставительных исследованиях тюркских языков будет применен метод автоматического лингвистического анализа, что требует унификации систем грамматической разметки в корпусах тюркских языков. Поэтому при глоссировании грамматических категорий языка саха мы оперируем условными символами, используемыми в корпусах других тюркских языков. В компаративистике пристальное внимание уделяется плану выражения и плану содержания, иными словами, компаративистами учитывается и структурная (формальная) близость, и функциональносемантическое соответствие тех или иных грамматических категорий. Следовательно, аннотирование словоформ – это очень трудоемкая работа, требующая глубоких знаний в области теоретической и прикладной лингвистики. В данной статье, основываясь на работах якутоведов и тюркологов, рассматривается проблема лингвистического аннотирования системы наклонений глагола якутского языка, представленной 10 модальными формами.
Computational linguistics is a modern scientific field that deals with computer modeling of intellectual process associated with human verbal and cogitative activity. Topical problems of computational linguistics are creation of linguistic databases, automatic processing of natural languages, speech recognition and synthesis, analysis of text documents, cognitive language modeling, machine translation. The most important component of an electronic corpus of any language is a grammatical markup (tag system) which allows morphological analyzer to automatically process linguistic objects in a formalized manner. From the point of view of language typology Turkic languages belong to agglutinative languages. In a long chain each affix has its own certain place, it is distinguished by a certain pattern of "bonding" and functional semantic loading. This feature of the Turkic languages gives a great advantage in description of their morphology in automatic mode. In the immediate future a method of automatic linguistic analysis will be applied in the comparative studies of the Turkic languages which requires unification of grammatical markup systems in corpuses of the Turkic languages. Therefore, in the process of an interlinear gloss of the Sakha language grammatical categories, we handle with conventional signs used in corpuses of other Turkic languages. In comparative linguistics close attention is paid to an expression plane and content plane, in other words, comparativists take into account a structural (formal) proximity and functional semantic matching of certain grammatical categories. Consequently, annotating of word forms is a very labour-intensive work that requires deep knowledge in the fields of theoretical and applied linguistics. This article which is based on the works of turkologists and Yakut language scholars deals with the problem of linguistic annotation of Sakha language grammatical mood system, represented by 10 modal forms.