НАЦИОНАЛЬНЫЙ КОРПУС КАЗАХСКОГО ЯЗЫКА

Қазақша English
  • Главная страница
  • Қазақ ұлттық корпусының базасынан іздеу формасыПоиск
    • Поиск в основном корпусе
    • Субкорпус научного стиля
    • Субкорпус официально-делового стиля
    • Субкорпус художественного стиля
  • Условные обозначения и сокращения

Общая информация

В настоящее время объем «Национального корпуса казахского языка» составляет 30 миллионов словоупотреблений, включая текстовый материал объемом 14 миллионов словоупотреблений, снабженный метаразметкой по 16 – 21 параметру (автор текста, возраст автора, заголовок текста, стиль, жанр, тип текста, источник и др.).

Размещенные в корпусе тексты представляют 5 стилей современного казахского языка (художественный стиль, научный стиль, публицистический стиль, деловой стиль, разговорный стиль). В соответствии с этим Национальный корпус казахского языка объединяет в себе несколько подкорпусов.

Так, отдельный подкорпус составляют художественные тексты разных жанров, созданные казахскими поэтами и писателями.

Подкорпус публицистических текстов включает в свой состав статьи, опубликованные в газетах и журналах.

В научный подкорпус включены главным образом тексты гуманитарного направления, а также учебные тексты.

Самостоятельный подкорпус официально-делового стиля казахского языка составляют деловые документы.

Тексты разговорного стиля отобраны из газет и журналов, а также дополнены интервью, размещенными на интернет-сайтах.

В Национальный корпус казахского языка внедрена метатекстовая и лингвистическая разметка. При наведении курсора на имя автора в верхней части предложения появляется метатекстовая информация, а при наведении курсора на то или иное слово – информация о его характеристиках.

В корпусе используются следующие компьютерные программы:

  • Выведение ряда предложений, в которых встречается искомое слово (конкорданс);
  • Автоматическое деление любой словоформы в конкордансе на корень и аффиксы (лемматизация);
  • Программа внедрения разных типов лингвистической разметки:
    • морфологическая разметка;
    • словообразовательная разметка;
    • лексическая разметка (значение);
    • фонетической разметки (описание звуков и автоматическое деление слов на слоги);
    • морфо-семантическая разметка;
  • Система поиска по параметрам метатекстовой и лингвистической разметки.

Сайт работает в открытом доступе.

Институт языкознания имени Ахмета Байтурсынова
qazcorpus.kz © 2020.Все права защищены