В настоящее время объем «Национального корпуса казахского языка» составляет 30 миллионов словоупотреблений, включая текстовый материал объемом 14 миллионов словоупотреблений, снабженный метаразметкой по 16 – 21 параметру (автор текста, возраст автора, заголовок текста, стиль, жанр, тип текста, источник и др.).
Размещенные в корпусе тексты представляют 5 стилей современного казахского языка (художественный стиль, научный стиль, публицистический стиль, деловой стиль, разговорный стиль). В соответствии с этим Национальный корпус казахского языка объединяет в себе несколько подкорпусов.
Так, отдельный подкорпус составляют художественные тексты разных жанров, созданные казахскими поэтами и писателями.
Подкорпус публицистических текстов включает в свой состав статьи, опубликованные в газетах и журналах.
В научный подкорпус включены главным образом тексты гуманитарного направления, а также учебные тексты.
Самостоятельный подкорпус официально-делового стиля казахского языка составляют деловые документы.
Тексты разговорного стиля отобраны из газет и журналов, а также дополнены интервью, размещенными на интернет-сайтах.
В Национальный корпус казахского языка внедрена метатекстовая и лингвистическая разметка. При наведении курсора на имя автора в верхней части предложения появляется метатекстовая информация, а при наведении курсора на то или иное слово – информация о его характеристиках.
В корпусе используются следующие компьютерные программы:
Сайт работает в открытом доступе.