«Корпустық лингвистика» Н.Хомскийдің көзқарасына қарама-қарсы бағытта пайда болды деуге болады. Себебі, оның оппозициялық «құзырет/түсінігі» («компетенция/представление») бойынша тіл жайындағы деректер тіл иесінің құзыретін құрайды да, сондықтан да әртүрлі аса көлемді тілдік нысанды зерттеудің орнына сөйлеушінің тілдік интуициясына (ішкі түйсігіне) сүйенгенін жеткілікті деп санайды.
Корпустық лингвистика мен оған қатысты мәселелер теориялық және эмпирикалық білім аяларының ең ұтымды арақатынастарын іздестіру жолын бейнелейді. Осы кезге дейін тіл-тілдерде жинақталған мәтіндер корпусын әзірлеу тәжірибесінің ішінен төмендегідей іргелі мәтіндер корпустарын атауға болады.
Лингвистер компьютерленген мәтіндерді алғашқы корпусқа 1960 жылы жинаған болатын. Корпустық лингвистика У.Фрэнсистің жетекшілігімен 1963 ж. АҚШ-та өмірге келген Браун корпусынан (The Brown Standard Corpus of American English) бастама алады. Браун университетінде қазіргі ағылшын тілінің американдық нұсқасының Браун корпусының компьютерлік нұсқасы да, микроафишалары да бар. Бастапқыда бұл корпустың көлемі 1 млн. сөзқолданыстан тұрып, оның құрамында әрбіреуі 2 мың сөзқолданысқа тең 500 мәтін қамтылған және ол морфологиялық белгіленіммен жабдықталған. Корпусқа алғаш 1961 жылы шыққан және ағылшын тілінің әдеби нұсқасына жататын мәтіндер енгізілген. 1980 жылы Браун корпусының индекстелген (аннотацияланған) нұсқасы шықты, онда сөзформалар лемматизацияланып, олардың үстіртін синтаксистік қызметтері белгіленеді және т.б. Бұл корпустың авторлары У. Френсис (W. Francis) және Г. Кучера (H. Kucera) корпусты көптеген алғаш рет статистикалық өңдеуден өткен материалдармен (жиілікті, әліпбилі-жиілікті сөздіктермен және әртүрлі статистикалық үлестірімдермен) толықтырады.
Браундық корпусты құрастырудың мақсаты – жазба ағылшын тілінің жеке жанрларын жүйелі түрде зерттеу және оларды салыстыра зерттеуді қамтамасыз ету болды. Браундық корпустың өмірге келуі жалпы көпшіліктің қызығушылығымен бірге қызу айтыс, пікірталас та тудырды. Ең бірінші ретте, олар мәтінді іріктеу принциптеріне және мұндай корпуста шешілетін мәселелерге қатысты болды. Бір жағынан ол статистикалық әдістердің негізінде құрылса, екіншіден, статистикалық әдістің қолданылуы корпус авторының кәсіби интуициясына да негізделді. Мұндай күрделі процестің барынша объективтілігіне жету үшін максималды формалданған, тексеру мен бақылауға барынша мүмкін болатын айқындылық, нақтылықты қамтамасыз ету қажет болды [1]. Сонымен, Браундық корпус осыған ұқсас корпустар құрастыруға қатысты зерттеулердің кеңінен тараған нысаны мен стандартына айналды. Ғалымдар арасында көптеген лингвистикалық зерттеулерді сапалы жүргізу тек ауқымды тілдік материалдар негізінде ғана жүзеге асатындығын ұғыну байқала бастады. Осы айтылғандардың барлығы мәтіндерді корпус түрінде ұйымдастыру ережелері мен оларға талдау жүргізу әдіснамасын зерттейтін бағыттың пайда болуына себепші болып, ғалымдарды одан әрі ынталандыра түсті. Кейінірек еуропалық зерттеушілер 1961 жылы Ұлыбританияда алғаш рет мәтіндер корпусын жасады. Бұл корпус та Браундық корпус тәріздес 15 жанрды қамтитын 500 мәтіннен 2000 сөзқолданыстан алынып, 1 млн. сөзқолданыстан тұратын ағылшын тілінің британдық жобасын ұсынды. Оны Ланкастер-Осло-Берген (The Lancaster-Oslo-Bergen Corpus, британдық және екі норвеждік университеттер, немесе қысқаша LOB) корпусы деп атайды. Браундық корпус сияқты теңгерімделген (балансталған) корпустар зерттеушілер үшін тілдік талдау мен зерттеулер жасау үшін аса маңызды саналады. Lancaster/Oslo-Bergen Corpus-тың құрамында синтаксистік белгіленіммен жабдықталған екі кішігірім корпус бар. Сонымен, екі алғашқы үлкен көлемді корпус – ол жазба тілінің американдық және британдық нұсқаларының ағылшын тіліне арналған корпусы. Бұл екі корпус та осы күнге дейін маңызды саналады, себебі ағылшын тіліндегі көптеген сапалы зерттеулер осы екі корпусқа негізделген.
Германиядағы корпустық лингвистика. Браун корпусының пайда болуы неміс-ағылшын машиналық аударма жүйесі жобасының аясында жасалған LIMAS-корпусының жобасын әзірлеуге түрткі болды (LIMAS – 1965 жыл мен 1976 жыл аралығында Бонн университетінің Коммуникация және фонетика проблемаларын зерттеу институында жұмыс істеген Linguistische und MAschinelle Sprachübersetzung зерттеу тобының қысқарған атауы).
Неміс сөйлеу тілі мәтіндерінің корпустары. Сөйлеу тілі мәтіндерінің корпусын жасау Германияда ертерек басталды. Сөйлеу тілі корпусын сақтаудың негізгі формасы магниттік таспаға жазып алу болды. Алайда кейінірек акустикалық форма фонетикалық транскрипцияға ауыстырылды. Фонетикалық транскрипцияның толық нұсқасы транскрипциялаудың және пайдаланушының қабылдауының қиындығынан сәтті болмай шықты. Сөйлеу тілін графикалық түрге енгізу бойынша жасалған бірнеше тәжірибенің нәтижесінде фонетикалық транскрипцияны айтудың кейбір ерекшеліктерін сақтаған және сөйлеу актілерінің ізбе-іздігін, яғни бір уақытта жүруін бейнелейтін жартылай нұсқасы жасап шығарылды. Фонетикалық транскрипцияның қысқартылған нұсқасында интонацияны, айтылымның аймақтық ерекшеліктерін, сөйлеудің айқындылық дәрежесін және т.б. бейнелейтін құралдар қолданылды.
Неміс тілі жазбаша мәтіндерінің корпустары. Қазіргі уақытта лингвистердің қолында машина оқитын формадағы мәтіндердің мол қоры бар. Алайда неміс тілінде корпустағы проблемалық аумақты бейнелеу принциптері ашық талқыланбайды. Неміс мәтіндерінің корпусы туралы айтқанда DeReKо (das Deutsche Referenz Korpus) корпусы жайлы айту қажет, ал оған интернет желісі бойынша кіруді http://www.ids-mannheim.de/kl/ projekte/korpora/ адресі бойынша жүзеге асыруға болады. Мангеймдегі (Германия) неміс тілі Институтының ғылыми жобасы бойынша құрастырылған электронды жиын беллетристика, ғылыми және публицистикалық мәтіндерді қамтитын көлемі 4 млрд-тан астам сөзқолданыстан тұрады (16. 08. 2010 ж. бойынша). Бұл әлем бойынша ең үлкен көлемді корпус болып саналады. Бірақ ол неміс тілінің жеке шағын корпустары (подкорпустары) түрінде жасалған. Корпус TEI ұсыныстарына сәйкес зерттеліп, SGML-ге негізделген морфосинтаксистік белгіленімді пайдаланған. COSMAS II корпустық менеджермен қамтамасыз етілген неміс корпусы лексикалық бірліктер мен созформалардың морфологиялық белгілері арқылы қажетті деген іздестірулерді жүзеге асыра алады.
Франциядағы корпустық лингвистика. Тіл тарихында аса қомақты француздық жобалардың бірі 90 млн. сөзқолданыстан тұратын мәтіндер корпусын қамтыған «Француз тілінің қазынасы» атты еңбек болды. Жобаны әзірлеу 1963 жылы басталды. Негізгі материалды енгізу 1968 жылы аяқталды. XIX-XX ғасырлардағы мәтіндер енгізілген. Корпус XIX-XX ғасырлардағы француз тілінің 80 мың лексикалық бірліктен тұратын 15 томдық «Tresor de la langue francaise» сөздігін дайындауда пайдаланылған. Осы корпустарды құрастырғаннан кейінгі өткен бірнеше онжылдықтардан соң компьютерлер арзандап, әлеуеттілігі де бұрынғыдан артып, сол сияқты бағасы арзан, әрі сенімді сканерлер мәтіндерді компьютерде теруді қажет етпейтіндей етті. Сөйтіп, жаңа техника көмегімен корпустарды құрастыру үдерісі де жеңілдеді. Соның арқасында қазіргі корпустар миллиардтаған сөзқолданысты қамтиды. 1990 жылдары әлемде 600-ге жуық компьютерлік корпус жасалды.
Қазіргі американдық ағылшындық корпус (The Corpus of Contemporary American English – COCA) ағылшын тілінің ең көлемді корпусы болып саналады. Аталған корпус баланстандырылған және өзіне теңдесі жоқ ағылшын тілінің американдық нұсқасы. Оған мына http://corpus.byu.edu/coca/ адреспен еркін кіріп, пайдалануыңызға болады. Корпус 2008 жылы ғалым М.Дэвистің жетекшілігімен құрастырылған (Brigham Young University, США) және 1990 жылдан осы кезге дейінгі мәтіндерді бірге есептегенде 410 млн. сөзқолданыстан тұрады. Бұл корпуста ауызша тіл, көркем әдебиет, көпшілікке арналған журналдар, газеттер және ғылыми әдебиет мәтіндері біркелкілік сипатта орын алған. Корпус базасы жылына екі рет жаңартылып тұрады және тілде болып жатқан өзгерістерді бақылап тұруға аса ыңғайлы. Қазіргі кездегі ағылшын тіліндегі корпустар ішінен ең танымалы: Британдық ұлттық корпус (British National Corpus – BNC), Халықаралық ағылшын тілінің корпусы (International Corpus of English – ICE), лингвистикалық ағылшын тілінің Банкі (Bank of English), Қазіргі американдық ағылшын корпусы (Corpus of Contemporary American English – COCA) және т.б. Қазіргі кезде әлемнің көптеген тілдерінің корпустары жасалған. Корпустық лингвистиканың ағылшын тіл білімінде кең етек алуын ғалымдар АҚШ-та компьютерлік техника мен ХХ ғасырдың 60-80 жылдары британ лингвистикасындағы интеллектілік ахуалдың белсенді дамуымен түсіндіреді. Осы кездерде тілдік зерттеулердің ең көп бөлігі компьютерленген мәтіндік корпустарға лингвистикалық талдау жүргізуге бағытталғандығы мәлім. Мұндай зерттеулердің нәтижесі 2001 жылы Бирменгем университетінде корпустық лингвистика кафедрасын ашуға және International Journal of Corpus Linguistics журналын баспадан шығарып тұруға мүмкіндік туғызды. Бірнеше тілдің материалдары бойынша құрастырылған, түрі мен қызметі жағынан ерекшеленетін корпустар және солардың негізінде неше түрлі сөздіктер түзіліп, грамматикалар жазылды.
Британдық ұлттық корпус (BNC) ең бір үлкен эталондық корпустар қатарына жатады және онда 100 млн.-нан арта ағылшын тілінің сөйлеу тілі мен жазба тілінің мәтіндеріндегі сөзқолданыстар қамтылған. Британдық ұлттық корпус Оксфорд университетінде және Ланкастер университеті мен Британдық кітапхана қызметкерлерінің қатысуымен құрастырылған болатын. Бұл корпусты құрастыруға байланысты іс-шаралар 1991 жылдан бастап 1994 жылға дейін жалғасты. Оның 90% жазба материалдардан, ал 10% сөйлеу тілі материалдарынан тұрады. Ағылшынның жазба тілін бейнелейтін шағын корпус (немесе орыс. подкорпус) мынадай жанрлардан тұрады: газеттер, мерзімдік ғылыми шығармалар және әр жастағы адамдарға арналған журналдар, көпшілікке арналған ғылыми фантастика, баспадан шыққан және шықпаған хаттар, мектеп және жоғары оқу орындары оқулықтары және т.б. Ауызша тілдің шағын корпусына (подкорпусы) өз еркімен жобаға қатысқысы келген әр жастағы, Ұлыбританияның әр бөлігінде тұратын және әртүрлі әлеуметтік топқа қатысты адамдардың сөйлеу тілі мәтіндері енгізілген болатын. Сөйлеу тілі неше түрлі контекстік қоршауда кездеседі: іскер адамдардың сөзі немесе үкімет адамдарының сөздерінен бастап, радиошоулар мен телефон арқылы сөйлеген сөздер т.б.
Корпустағы мәтіндер морфологиялық деңгейдегі белгіленімнен өткен. Британдық ұлттық корпустағы барлық мәтіндер сөйлемдерге сегменттелген. Сөйлем ішіндегі сөздерге, олардың грамматикалық класқа немесе сөз табына қатыстылығына қарай, алдын ала келісілген шартты белгілер (маркелер) сәйкестендіріледі. Мәтіндегі тыныс белгілеріне де сәйкес келетін маркерлер ұсынылады. Ланкастер университетінде зерттеліп, құрастырылған CLAWS компьютерлік программа бойынша сегменттеу мен сөздерге автоматты түрде тэгтерді (маркерлерді) қою жүзеге асырылған. Тэгтерді автоматты түрде белгіленім қою әрекетінде қате жіберу шамамен 1,7% құрайды. Егер белгіленімді автоматтандыру кезінде бірізділік болмай, бір сөзге екі маркер (немесе одан көп) сәйкес келіп жатса, оларды сөз соңына дефис арқылы қою келісілген (мысалы, VVD-VVN – бірінші – өткен шақ етістік, ал екіншісі – өткен шақ есімше). Мұндай «синонимдік» маркерлер барлық корпустың 4,7% алады.
Корпусты құрастырушылар SGML атты белгіленім негізінде өздерінің SARA (SGML Aware Retrieval Application) атты программаларын жазып шыққан. Ең басында SARA программасы клиент/сервер қызметін атқаратын жүйе ретінде жасалған болатын, яғни бір немесе бірнеше компьютер желі бойынша орталық сервер жүйесімен қатынас жасау қызметін атқарады. Ал қазіргі кезде XAIRA (XML Aware Indexing and Retrieval Architecture) атты корпустық менеджердің жаңа түрі жасалды. Келесі ең танымал жалпы типті корпустардың бірі – Чехтың ұлттық корпусы (Český národní korpus) (әрі арай ЧҰК). Чех тілінің 100 миллиондай сөзқолданыстан тұратын мәтiндер корпусын айтарлықтай көлемді деуге болады. Бұл қазіргі кездегі чех тілін бейнелейтін синхрондық типтегі морфологиялық деңгейде белгіленген корпус. Аталған корпус проф. М.Чермактың ғылыми жетекшілігімен Чехтың Ұлттық корпусы (ЧҰК) институтын өмірге әкелген болатын. Корпуста жинақталған чех тіліндегі мәтіндер массиві синхрондық және диахрондық бөліктер болып ажыратылады. Синхрондық бөлік, өз ретінде, мынадай бөліктерден тұрады: жазба мәтіндер (100 млн. аса сөзқолданыс), сөйлеу тілі (750 мың сөзқолданыс) және диалекті тілі. Диахрондық бөліктің көлемі – 1750 мың сөзқолданыс. Одан басқа жеке қор ретінде сөйлеу тілінің Прагалық корпусы жасалуда. ЧҰК-ын қалыптастырғанда корпустың репрезентативтілігі мәселесіне көп назар аударылды. Корпустың негізгі бөлігін 1990-2000 жылдар аралығындағы мәтіндер қамтылуы керек болған және 1950 жылға дейінгі чех әдебиетіне қатысты шығармаларды бейнелейтін қосымша ретроспективтік бөлікті де қоса есептеу қажет деп шешім шығарылған.
Чех тілі мәтіндерінің синхрондық корпусы пайдаланушыларға екі түрде бейнеленеді: SYN2000 толық корпус (100 млн. сөзқолданыс) және SYN2000-тің ішкі жиыны ретінде ондағы барлық жанрдың пайыздық қатынасын сол қалпында сақтайтын PUBLIC корпус түрінде (20 млн. сөзқолданыс). PUBLIC корпус Интернет желісінде еркін қолжетімді және ол функционалдық қызметі жағынан мынадай шектеулерге ие:
Лингвистикалық бағдарламалық қамтамсыз ету құралы мәтін конкордансын құрастыратын бағдарлама арқылы сөзформалардың қолданысын бейнелейтін контекстерімен бірге сол сөзформаның корпуста кездесу жиілігін де қоса тауып беру мүмкіндігі бар. Сонымен бірге, морфологиялық талдау жасайтын бағдарлама мәтіндегі грамматикалық омонимия мәселесінің шешімін табу үшін, өзінің тікелей міндетімен бірге, контекстік талдауды да іске асыра алады.
Орыс тілінің алғашқы корпустары. Алғашқыда орыс тілінде репрезентативті (тұлғалы) корпус болмады. Орыс тілінің бірінші корпусы Упсальский машинный фонд русского языка (Upsal’skij korpus russkix tekstov) деп аталып, Швецияның Упсаль университетінде құрастырылған болатын. Ол корпуспен Интернеттен мына адрес бойынша http://www.slaviska.uu.se/ korpus.htm танысуға болады. Корпус 600 мәтіннен тұрады және оның көлемі 1 млн. сөзқолданыс. Ондағы мәтіндер арнаулы және көркем әдебиеттер нұсқалары арасында тең түрде бөлінген. Құрастырушылардың мақсаты бойынша қазіргі (современный) орыс тілінің корпусын жасау көзделген. Корпусты қалыптастыру мақсаты – ең алдымен, әдеби тілді корпуста бейнелеу болатын, сол себепті онда сөйлеу тілінің мәтіндері орын алмаған. Бұл корпусқа 1985–1989 жылдар аралығындағы арнайы мәтіндер (мәтіндердің фрагменттері емес, толық мәтіндер алынған), 1960–1988 жылдар аралығындағы көркем әдебиет мәтіндері таңдалып алынады. Көркем әдебиет мәтіндеріндегі өзгерістер қысқа мерзімде байқала қоймайтындықтан, олар корпуста ұзақ кезеңдік аралықты қамтып жатыр. Корпустың аннотациясында, корпусты құрастырушылардың көзқарасы бойынша, арнайы мәтіндердің ішінде тақырыптарға айырықша мән берілген (which felt to be more important), ал көркем әдебиет мәтіндері ішінен көпшілікке белгілі авторлардың шығар маларына артықшылық берілген. Соған орай, осы тарауға қатысты корпустағы мәтіндердің көлемі айтарлықтай дәрежеде басқа тараулардан артық [2, 129 б.].
Арнайы әдебиеттерді саралау (классификациялау) тақырып бойынша іске асқан (барлығы 25 тақырыптық ая: биология, химия, физика және т.б.), ал көркем әдебиеттер – авторлар бойынша (барлығы 40 автор). Егер шығармалар авторы тақырып бойынша әртүрлі болса, онда таңдамаға барлық маңызды деген тақырыптық аялар алынған. Корпустағы әрбір мәтінге формалды сипаттаулар сәйкестікке келтірілген, яғни онда мәтіннің типі жайында ақпарат (арнайы vs. көрем әдебиет), дерекнама туралы, тақырып, автор жайында ақпараттар берілген [2]. Бастапқы мәтіндердің кирилица әліпбиі латын қарпі арқылы беріледі, ал басқа таңбалар пунктуацияны белгілеуге пайдаланылады (3-кесте).
Упсаль корпусы «Орыс мәтіндерінің Тюбинген корпусы» деп аталатын корпусқа жатады. Ол корпус 1990-жылдары Тюбинген университетінің арнайы SFB 441 ғылыми-зерттеу секторы жұмыстарының аясында онлайн-іздеу (http://www.sfb441.uni-tuebingen. de/b1/rus/korpora.html#uppsalakorpus) мүмкіндігін пайдалану үшін құрастырылды. Аталған корпустар морфологиялық аннотация тэгтерімен белгіленген. Белгіленім статистикалық тэгтер (TnT) көмегімен жүзеге асқан. Іздеу процесі сөзформалар бойынша да және морфологиялық тэгтер бойынша да жүргізіледі. Мәтіндерді олардың белгіленімімен бірге шығаруға (қағаз және экран беттеріне) болады.
Корпуста екі түрлі іздеуді қолдануға мүмкіндік бар: қарапайым мәтіндік іздеу және күрделі іздеу. Күрделі іздеу мәтіндердің қосымша корпустарын қолдануға және аса күрделі іздеу сөйлемшелерін пайдалануға мүмкіндік жасайды. Қарапайым іздеуде Упсаль корпусы және сұхбат мәтіндерінің корпусы қолжетімді, ал күрделі іздеуде – Упсаль корпусы, сұхбат мәтіндерінің корпусы және басқа да көптеген мәтіндер қолжетімді, олар: қазіргі кездегі мәтіндер (көбінде публицистикалық), ХХ және ХІХ ғасырлардағы әдебиеттер.
Күрделі іздеу CQP программасы көмегімен жүзеге асады. CQP программасы Штутгарт университетінің Тілді мәшинелік өңдеу институында жасалып, көлемді корпустарды басқаруға арналған жүйе ретінде қолданылады.
ХХ-ғасырдың соңындағы орыс газет мәтіндерінің компьютерлік корпусы 2000–2002 жылдары МГУ-дің Филология факультетінің Жалпы және компьютерлік лексикология мен лексикография зертханасында құрастырылған болатын. Корпус үшін аса көп газет материалдарын таңдау (жалпы көлемі 11 млн. сөзқолданыстан тұратын 23110 мәтін) ісі орыс тіліндегі 13 Ресей газетінің (Правда, Завтра, Новая газета, Литературная газета) 1994–1997 жылдардағы толық нөмірлерін қамту негізінде жүзеге асты. Мәтіндердің әртүрлі типтерін (мысалы, әртүрлі жанрлар және жанрлар типтері), олардың бірліктерін және өзара қатынастарын таңдаудың бұл принциптері біршама объективті және сенімді нәтижелерге қол жеткізуге мүмкіндік жасайды. Құрастырылған корпусқа талдау жүргізу мен оны басқару Диктум-1 жүйесінің негізінде жүзеге асады. Бұл жүйе МГУ-дің Жалпы және компьютерлік лексикология мен лексикография зертханасында зерттеліп іске қосылған болатын. Жүйенің көмегімен корпустың мәтіндері мен бірліктері автоматты және жартылай автоматты түрде әртүрлі маркерлермен маркіленеді: мәтіндер (оның әрбір сөзқолданыстары) – газет-дереккөз, мәтін көлемі, оның жанры, жарияланым датасы және т.б. маркерлерімен; сөзқолданыстар – грамматикалық, лексикалық, морфемдік және басқа категориялардың маркерлерімен белгіленеді.
Сонымен, 1990 жылдардың бірінші жартысында корпустық лингвистика тіл ғылымының дербес бағыты ретінде толығымен қалыптасты деуге болады.
Орыс тілінің қазіргі корпустары. Көп уақыт бойы Интернет желісінде тілшілер пайдаланатын әрі көпшілікке қолжетімді, көлемді және белгіленім жүргізілген орыс тілінің корпусы қолданысқа енгізілмеді. Мұндай корпусты құрастыру жұмысына тікелей кірісу тек 2000 жылдан басталды деуге болады.
Алайда корпус құрастыру ісіне байланысты кейбір іс-шаралар 1980-жылдардан-ақ бастама алған болатын [1]. Орыс тілінің Ұлттық корпусы – электронды түрдегі орыс тілінің мәтіндер жиынтығына негізделген ақпараттық-анықтамалық жүйе. Алғаш рет бұл корпус 2004 жылдың сәуір айында http://ruscorpora.ru/ атпен Интернет сайтына салынған болатын. Корпус орыс тіліне қатысты көптеген сауалдарға қызығушылық танытатын көпшілік қауымға бағытталып жасалған, атап айтқанда: кәсіби тілшілерге, орыс тілінен сабақ беретін мұғалімдерге, оқушылар мен студенттерге, орыс тілін үйреніп жүрген шетелдік азаматтарға т.б. Орыс тілінің Ұлттық корпусы теңгерімділік, көлемділік (репрезентативтік) критерийіне және қазіргі корпустарға қойылатын тағы да басқа талаптарға толық жауап береді. Оған мына сипаттамалар дәлел бола алады:
Орыс тілінің Ұлттық корпусы қазіргі кезде келесі шағын корпустардан (субкорпустардан) тұрады:
Орыс тілінің Ұлттық корпусы басқа да тілдердің Ұлттық корпустары сияқты мынадай маңызды екі ерекшелікке ие:
Орыс тілі Ұлттық корпусының даму барысы ХІХ ғ. Басынан ХХІ ғ. бастапқы кезеңін қамтиды деуге болады. Корпустық қорға көркем әдебиеттің (проза мен драматургия, поэзия) мәдени маңызы зор және тілдік тұрғыда тілші-ғалымдардың қызығушылығын тудыратын түпнұсқа шығармалары енгізілген. Бірақ Ұлттық корпус тек көркем әдебиетке қатысты мәтіндерден ғана тұрмайды, ол сонымен бірге мәтін үлгілерінің басқа да жазба нұсқаларын (мемуарлар, эсселер, көсемсөз стильдері, ғылыми-көпшілікке арналған және ғылыми әдебиеттер, жұрт алдында сөйлеген сөздер, жеке адамдар арасындағы хат алысу, күнделіктер, құжаттар және т.б.) қамтиды.
«Орыс тілінің Ұлттық корпусын» құрастыруға Ресей Ғылым академиясының В.В. Виноградов атындағы Орыс тілі институты ғалымдары ғана емес, оған Ресейдегі аса ірі ғылыми топтардың, атап айтсақ, Мәскеу, Санкт-Петербург, Казань, Воронеж, Саратов және басқа да ғылыми орталықтардың көптеген ғалымдары қатысқан.
Сонымен, аталған міндеттерді орындайтын ғалымдар тобының саны мен әр топтағы ғалымдар саны да өне бойы өсіп отыратынын байқауға болады. Сондай-ақ орыс тілінің Ұлттық корпустарын құрастыру ісіне көптеген ғылыми-лингвистикалық, техникалық орталықтар, баспасөз, баспа, жоғары оқу орындары т.б. атсалысып, бірігіп атқарып отырған.
Қазақстанда ХХІ ғасырдың басында қолға алына бастаған корпус құрастыру ісі негізінен осы орыс тілінің ұлттық корпусын жасау тәжірибесін негізге алады. Қазіргі уақытта елімізде Л.Н.Гумилев атындағы Еуразия ұлттық университетінде Жасанды интеллект орталығында, әл-Фараби атындағы Қазақ ұлттық университетінің «Жалпы тіл білімі және еуропа тілдері» кафедрасында, сондай-ақ А.Байтұрсынұлы атындағы Тіл білімі институтында негізі қаланды.
А.Байтұрсынұлы атындағы Тіл білімі институтында жасалған корпус тарихы осы сайттың келесі парақшаларында баяндалады.
Әдебиеттер: