Accessibility links

Кайнар хәбәр

"Иске имладан — кириллицага": яңа транслитерацияләү програмы ясалды


Илһам Гомәров

Яңа програм иске имладагы басма татар текстларын 75 процентка дөрес башкара. Киләчәктә кулъязмалар белән дә эшләргә җыеналар.

Галимҗан Ибраһимов исемендәге тел, әдәбият һәм сәнгать институтының (ТӘСИ) язма һәм музыкаль мирас үзәге иске татар текстларын тану һәм транслитерацияләү системын булдырды. Бу програм иске имладагы басма татар текстларны бүгенге кириллицага күчерергә ярдәм итә. Әлеге систем текстологларның эшен бермә-бер җиңеләйтәчәк, ди ТӘСИнең язма һәм музыкаль мирас үзәге мөдире Илһам Гомәров.

Програм әлегә сынау рәвешендә эшли. Ул браузерда махсус сәхифә буларак ачыла. Ләкин сәхифәнең сылтамасын програм тулысынча эшли башлагач кына җәмәгатьчелеккә хәбәр итәчәкләр. Галим Илһам Гомәров Азатлыкка әлеге програмның ничек эшләвен күрсәтте. Ул 1910 елда чыккан “Аш-су остасы” китабыннан “Сарык ите шурпасы” рецептын яңа систем аша берничә минут эчендә кириллицага күчерде. Моның өчен сканерланган текстны програмга йөклисе. Аннан экранда өч тәрәзә ачыла. Сул якта текстның оригинал варианты, уртада электрон форматка күчкән гарәп графикасы тексты барлыкка килә. Шуннан соң өченче тәрәзәдә кириллицага нигезләнгән татар тексты пәйда була.

Гарәп имласындагы татар текстларын кирилл хәрефләренә күчерү програмы ясалды
please wait

No media source currently available

0:00 0:03:42 0:00

Бу програм өчен күпме акча тотылган? Башка төрки халыкларда мондый транслитерацияләү системы бармы? Ни өчен ул кулъязмаларны укый алмый? Яңа програм эшли башлагач текстологлар санын киметү көтмиме? Һәм бүген өйрәнелүен көтеп яткан иске имладагы татар хезмәтләре күпме? Илһам Гомәров яңа систем хакында Азатлыкка сөйләде.

— ТӘСИ барлыкка килгән беренче көннән үк Октябрь инкыйлабына кадәр булган текстлар белән даими эшләп килә. Габдулла Тукай, Мәҗит Гафури һәм башка классик язучыларның иҗатын өйрәнгәндә текстологлар иске имладагы текстларны бүгенге графикага күчерү белән шөгыльләнәләр. Бу авыр хезмәт. Аларның эшен җиңеләйтү өчен транслитерация програмы эшләү планга алынды. Ул Татарстанның телләрне саклау програмы кысаларында башкарылды.

— Ничә ел эшләнде? Татарстан галимнәре, IT белгечләре эшләдеме аны?

— Ике ел эчендә алар шушы програмны эшләп чыктылар. Бу системны барлыкка китерүдә институтның тел галимнәре, борынгы текстлар белән шөгыльләнүче текстологлар да катнашты. Чөнки IT белгечләр үзләре генә тел нечкәлекләрен, иске имладагы язылыш үзенчәлекләрен, гасыр башындагы шрифтларны белеп бетермиләр. Әлеге сүзләрнең язылышын һәм укылышын дөрес итеп урнаштыру өчен галимнәр аерым бер алгоритмнар барлыкка китерде. IT белгечләр шул алгоритмга нигезләнеп, иске имладан басма текстларны башта электрон форматта гарәп графикасына, соңыннан кириллицага күчерә торган систем эшләде. Бу програмны башлыча дүрт кеше башкарды. IT белгечләре Ринат Алимҗанов, Айнур Зарипов, институтның фәнни хезмәткәре, филология фәннәре кандидаты Ринат Мирхаев һәм мин дә берникадәр бу эштә катнаштым.

— Бу ни кадәр катлаулы эш булды? Иске татар телендә авазлар, хәрефләр төрлечә язылган. Бүгенге гарәп графикасына алар тәңгәл килми.

— XIX гасыр азагы — ХХ гасыр башында татар телендә сүзләрнең язылышы тулысынча унификацияләнеп, бер төрле кагыйдәләр рәвешендә формалашмаган. Игътибар итсәк, гасыр башында чыккан журналларда, китапларда бер үк сүзнең төрле язылышы очрый. Хәтта бер мәкалә эчендә дә икешәр, өчәр төрле итеп язылган сүзләр бар. Бу нәрсә хакында сөйли? Әгәр дә сүз төрлечә язылса, берничә елдан шул ук сүз бер төрле итеп языла башлаган. Бу бер-ике ел эчендә генә барлыкка килмәгән. Шуңа да бу чорда язылган текстларда төрлелек шактый күп күзәтелә. Бу програмны ясаганда нәкъ шушы мәсьәлә иң читене булды. Телнең морфологик, орфографик, орфоэпик үзенчәлекләреннән чыгып, аларны аерым бер канунчалыкка салырга туры килде.

— Бүген әлеге програм текстларны ничә процентка дөрес укый?

— Якынча 70-75 процент. Аның нәтиҗәсе яхшырырга мөмкин. Ул сүзлек запасын арттыру белән бәйле. Кайбер кимчелекле яклары бар. Әйтик, “ә” хәрефен алдагы позициядә төрлечә укый. Җитешсезлекләрне бетерергә тырышабыз.

— Тагын кайсы хәрефләр, авазларны алгоритмга кертү авыр булды?

— Сүз башында сузыкларга башланган сүзләрдә авыр. Мәсәлән, “у”га башланган “ут” сүзе. Ул “ут”, “үт”, “өт” дип укылырга мөмкин. Бигрәк тә сузык авазларның әйтелешендә төрлелек күзәтелә.

— Аңлашыла ки, бу беренче чиратта галимнәр, текстологлар өчен эшләнгән програм. Ә тарих белән кызыксынган башка даирәләр, мәсәлән, имамнар, тарихчылар куллана алачакмы?

Бу програмның кулланылыш даирәсе берникадәр киңәергә дә мөмкин

— Әлеге систем текстология белән шөгыльләнүче галимнәрнең хезмәтен берникадәр җиңеләйтү өчен эшләнде. Без шуны күздә тоттык. Соңгы вакытта галимнәрдән тыш, татар тарихы, мәдәнияте белән кызыксынучы киң катлам укучылар да кызыксыналар. Шуңа бәйле рәвештә бу програмның кулланылыш даирәсе берникадәр киңәергә дә мөмкин. Програм камилләшкәч, ачык системга куярга ниятлибез. Теләгән кеше монда кереп эшли алачак.

— Социаль челтәрләрдә бу системны тәнкыйтьләүчеләр дә булды. Мондый эшне FineReader програмы да башкара диләр. Шулай ук кулъязмаларны укый алмау җитешсезлеген дә атадылар.

— Берәүләр безгә мондый програм кирәк түгел, гарәп графикасында матур шрифтлар кирәк диючеләр булды. FineReader гарәп графикасын таный бит инде диделәр. Әмма хикмәт нәрсәдә? Менә кирпеч өеме, аның янында цемент капчыклары, агачлар, төзелеш материаллары ята. Йорт салуның технологиясе дә бар, ләкин йорты гына юк. Монда да шулай. Технологиясе, системы эшләнгән, ләкин тиешле нәтиҗә белән башкара торган аерым програм юк. Менә бу буш урынны тутыру максатында булдырылган хезмәт. Бу эшне башлаганда аерым програмнарны тикшереп карадык. FineReader, OCR системнарын өйрәндек. Әмма алар татар телендәге текстларны гарәп графикасына күчерсә дә, бу програмнар кириллицага нигезләнгән текстлар белән эшли. Сүзләр, сүзтезмәләр, җөмләләр рәвешендә татар текстларын дөрес итеп билгеләүдә нәтиҗә бирмиләр. Безнең програм нигезендә OCR системы ята. Әмма ул берникадәр үзгәртелгән.

— Ә програм кулъязмаларны укый аламы? Чөнки мирасның зур бер өлеше кулъязмалардан тора бит.

— Шактый кызык сорау. Кулъязмаларны уку әлеге програмның нигезенә салынган. Әмма кулъязмаларның басма текстлардан аермалы үз үзенчәлекләре бар. Ул язу төрләре, авторның язу үзенчәлеге белән бәйле. Бу эшне катлауландыра. Онлайн транскрипцияләү, ягъни сканерланган документтан графикага күчергәндә авырлыклар барлыкка киләчәк. Әмма аларны тәртипкә китереп, хәл итәргә була, минемчә.

— Програмны ясар өчен күпме акча тотылды?

— Әлегә бу хакта әйтә алмыйм. Зур програмнарга тотылган акчалар белән чагыштырганда зур бюджет дип әйтеп булмый.

— Алга таба нинди бурычлар тора. Бу програм белән күпме хезмәт эшкәртелер дип көтелә? Гомумән, бүген күпме иске имладагы текстны кириллицага күчерергә кирәк?

— Бу сорауга җавап бирергә кыенсынам. Чөнки мондый чыганаклар бихисап. Тарих барышы шулай булган ки, татар халкы берничә графиканы алыштырган. Тарихи үсештә бу уңай үзгәрешләргә китермәгән. Шактый зур мирасның өлеше өзелеп калган. Чөнки киләсе буын өчен бу таныш түгел, файдаланып булмаган хезмәткә әверелгән. Шуңа күрә бу мирасны ниндидер сан белән әйтеп бетереп булмый.

Әлеге систем 80 процентка таныса да, җиңеллек тудырачак

ТӘСИнең язма һәм музыкаль мирас үзәгендә бүген 50 меңнән артык саклану берәмлеге исәпләнә. Алар арасында искетатар, гарәп, фарсы, иске госманлы телендәге кулъязмалар бар. XIX гасыр азагы – ХХ гасыр башында чыккан, бүген инде библиографик сирәк хезмәтләр исемлегендә саналган китапларның саны өч меңгә җитә. Татар тарихы белән бәйле төрле документлар бар. Һәм фондның иң зур өлешен классик язучыларыбыз, галимнәребез, руханиларыбызның шәхси фондлары алып тора. Габдулла Тукай, Фатих Әмирхан, Мәҗит Гафури кебек классик әдипләребезнең шәхси архивлары безнең фондта саклана.
Бу програмны куллануга чыгаргач, текстологларның эшен җиңеләйтсә дә, техника кеше хезмәтен 100 процент алыштыра алмый. Редакцияләү, текстны урнаштыру, текстларны формалаштыруда бары текстологлар эшли. Тәҗрибә шуны күрсәтә, 100 процент таный ала торган програмны шәхсән үзем белмим. Әлеге систем 80 процентка таныса да, җиңеллек тудырачак.

— Бу очракта институтта текстологларны кыскарту күзалдында тотылмыймы? Мисал өчен, ун кеше урынына өч кеше калдыру.

— Безнең бүген хәлебез нинди икәнен беләсезме? 100 текстолог берьюлы эшләп утырса да, мирасыбызны 50 ел эчендә эшләп бетерә алырбызмы икән? Бу мәсьәлә артык борчырга тиеш түгел.

— Мондый програм башка төрки халыкларда бармы?

Мондый програм башка төрки халыклар өчен дә кызыклы корал була ала

— Европада гарәп текстларын, хәтта кулъязма текстларны таный торган системнар бар. Мәсәлән, Transkribus системы шундыйлардан. Ләкин аларның барысы да түләүле рәвештә эшли. Алар өчен һәрвакыт аерым чыгымнар таләп ителәчәк. Һәм алар иске татар текстларын укый алмый. Без аларны да өйрәнеп карадык. Безгә ул тиешле нәтиҗә бирмәде.
Бу програмның киләчәге нинди дигән сорауга болай дип җавап бирергә мөмкин. Беренчедән, кулланылышка кереп китсә, эшне бермә-бер җиңеләйтәчәк. Икенчедән, әлеге програмны кулъязмаларны тануда да камилләштерергә мөмкин. Бу билгеле бер кыенлыклар, финанс мәсьәләр белән бәйле булачак.

Мондый програм башка төрки халыклар өчен дә кызыклы корал була ала. Аның сүзлек базасын аерым бер телләргә юнәлтергә мөмкин. Безгә Кырымнан мөрәҗәгать иттеләр. Гарәп графикасында язылган кырымтатар текстларын кириллицага күчерү мөмкинлеген сорадылар. Үзбәк хезмәттәшләребез дә кызыксыналар. Төрки халыкларга да уртак програм булдырырга мөмкин.

фикерләр (10)

бу форум ябык
XS
SM
MD
LG