«Қазақ тілінің ұлттық корпусы» мәтіндік базасының көлемі – 30 миллион сөзқолданыс. Оның ішінде көлемі 14 миллион сөзқолданыстан тұратын мәтінге 16-21 параметрлік метабелгіленім (мәтіннің авторы, автордың жасы, мәтін тақырыбы, жазылған стилі, жанры, мәтін типі, дереккөзі т.б.) енгізілген. Жинақталған мәтіндер қазақ тілінің 5 стилінен (көркем стиль, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынды.
Көркем әдебиет стилінде жазылған мәтіндер қазақ ақын-жазушыларының шығармаларын қамтиды. Олар проза және поэзия жанрларына ажыратылып, жеке субкорпус құрайды.
Публицистикалық мәтіндер газет-журналдарда жарық көрген мақалалардан тұрады. Олар қазақ газет мәтіндерінің субкорпусы базасына жинақталды.
Ғылыми стильдегі мәтіндер негізінен ғылыми-гуманитарлық еңбектерден, ісқағаз стиліндегі мәтіндер іскери құжаттар мәтіндерінен алынып, дербес субкорпус базасына салынды.
Сөйлеу стилі мәтіндеріне газет-журналдардағы, сайттардағы сұхбаттар алынды. Сонымен қатар корпусқа оқулық мәтіндері де жинақталды.
Ұлттық корпусқа салынған мәтіндерге метамәтіндік белгіленімдер енгізілген. Метамәтіндік ақпараттар қажетті сөзді іздеу кезінде меңзерді сөйлемдердің жоғарғы жағындағы авторға нұсқап, тінтуірдің сол жақ батырмасын басқан кезде терезеде ашылып көрінеді.
Корпустан қажет сөзді іздеу барысында төмендегідей компьютерлік бағдарламалар жұмыс істейді:
Бұл ақпараттар да қажетті сөзді іздеу кезінде меңзерді сөзге нұсқап, тінтуірдің сол жақ батырмасын басқан кезде терезеде ашылып көрінеді.
Сонымен, ұлттық корпуста компьютерлік бағдарлама бойынша қандай да бір сөзді іздегенде, экранға ең алдымен сол сөз кездесетін (метабелгіленімі берілген) мәтіндер, яғни мысалдар тізімі шығады. Сонымен қатар экранның екінші бетіне әртүрлі ұяшықта сол сөз туралы лингвистикалық ақпараттар беріледі.
Бұл сайт кез келген пайдаланушыға қолжетімді.