კულტურა ლიტერატურა სიახლეები

„მცდარ-ბეჭდილ-მძებნი“ და ქართულ ენაზე მზრუნველთა ვირტუალური კომუნა

მარტი 11, 2021

თანამედროვე ტექნოლოგიების განვითარება ენობრივი კვლევებისა და ენის პრაქტიკული გამოყენების სრულიად ახალ პერსპექტივებს აჩენს.  დიდი მოცულობის ტექსტებზე, ტექსტურ კორპუსებზე ხელმისაწვდომობა შესაძლებლობას იძლევა, დიდ მონაცემებზე დაყრდნობით გადაიხედოს და შემოწმდეს პარადიგმა, დაზუსტდეს წესი, განისაზღვროს ენის ცვლილების პროცესი. 

მონაცემთა მეცნიერისა და პროგრამისტის, ვახტანგ ელერდაშვილის გეგმა ქართული, ე.წ. ღია ტიპის ბოტისა და ბოტის ასალაპარაკებელი ძრავის შექმნას ითვალისწინებდა და სწორედ ამ მიზნისთვის, დიდი ხნის განმავლობაში ის აციფრებდა ტექსტებს და ქმნიდა ქართული ენის ტექსტურ კორპუსს. 


ტექსტების შეგროვება „ნიუსებით“ დაიწყო, თანდათან მოგროვდა სხვადასხვა ტიპის ტექსტი, ახალი ამბები და სტატიები, ფეისბუქისა და სხვადასხვა ფორუმების ტექსტები, მთლიანობაში, მილიარდ ორმოცდაშვიდი მილიონი სიტყვა. სწორედ ამ ბაზაზე დაიწყო ქართული ენის მოდელის გაკეთება, თანდათანობით გაკეთდა და შეივსო ზმნური და არაზმნური ფორმების პარადიგმები, რომელთა საშუალებითაც, შესაძლებელი გახდა ტექსტის აღწერა.

ქართული „სპელჩეკერის“, ანუ შეცდომების დამძებნი ინსტრუმენტის არსებობა თავად დასჭირდა ტექსტების გაციფრულების პროცესში, აღმოაჩინა, რომ ეს ინსტრუმენტი სხვებსაც სჭირდებოდათ, ამიტომ მეგობრისა და კოლეგის, თამარ ფეიქრიშვილის დახმარებით   „მცდარ-ბეჭდილ-მძებნი“ - ტექსტში არსებული შეცდომების მორფოლოგიური შემმოწმებელი საიტი შექმნა. სახელის ისტორიაც საინტერესოა, სიტყვა „მცდარბეჭდილი“ შეცდომის, ე.წ. „ტაიპოს“ აღმნიშვნელად ლექსიკონში ნახა და შემდეგ პლატფორმის სახელადაც გამოიყენა. ამ ეტაპზე მოდელი შეიცავს 92.400 არაზმნური და 7.500 სიტყვის ზმნურ ფორმას და ამ პარადიგმების მიერ ნაწარმოები ფორმების საერთო რაოდენობა კი რამდენიმე ასეულ მილიონს აღწევს.


მოდელს ჯერ-ჯერობით მხოლოდ მორფოლოგიური ანალიზატორი აქვს, თუმცა სამომავლო გეგმები სინტაქსური და სემანტიკური ანალიზატორის შექმნასაც ითვალისწინებს, რის შედეგადაც, ქართულ ენაზე იდეალური, სრულყოფილი სპელჩეკერი იარსებებს.

შეცდომების აღმომჩენი პროგრამა დიდი პროექტის მხოლოდ ნაწილია, ქართული ენის კომპიუტერული დამუშავების ინსტრუმენტების სრულყოფა მრავალ საინტერესო პერსპექტივას წარმოაჩენს. პროცესი მრავალფეროვანი და საკმაოდ რთულია, ქართული ენის სპეციფიკიდან გამომდინარე, წესები და გამოცდილება, რომელიც სხვა ენების დამუშავებასთან დაკავშირებით არსებობს, აქ შეიძლება არ მუშაობდეს. პარადიგმის სრულყოფისათვის უნდა დადგინდეს სისწორე, გადამოწმდეს სხვადასხვა ლექსიკონში, დაზუსტდეს მოდელები, ამავე დროს, ისევ აქტუალურია ტექსტური კორპუსის შევსება, რადგან დიდი რაოდენობის ტექსტებში კანონზომიერება უკეთ ჩანს, თუმცა, ქართული ენის თავისებურებიდან გამომდინარე, მხოლოდ ბევრი ტექსტი არ არის პრობლემის მოგვარების საშუალება.

რთული და საინტერესოა ქართული ზმნის მოდელებზე მუშაობა, ქართული ზმნის მრავალფუნქციურობა და ზმნური კატეგორიების სიმრავლე განსაკუთრებით დიდ მუშაობას მოითხოვს, მითუმეტეს, რომ საენათმეცნიერო ლიტერატურაში აღწერილი მოდელები სხვადასხვა მიდგომითაა აღწერილი და ხშირად ერთმანეთისგან განსხვავდება.


პროექტზე მუშაობის პროცესში ბევრი ხარვეზი და ხვრელი გამოჩნდა, სისტემა და სისტემიდან ამოვარდნები, სწორი ფორმებისა და უფრო პოპულარული და ხშირი არასწორი ფორმების არსებობა, განმარტებებისა და წესების არაერთგვაროვნება, ხელოვნური ფორმების არსებობა, ნორმისა და გამოყენების განსხვავება და ზოგჯერ, ურთიერთგამომრიცხავი ვერსიები და სხვა. 

თანდათანობით პროექტი სულ ახალ განზომილებას იძენს, ვიკიპედიის პრინციპმა, რომელიც ინტერაქტიულ მუშაობას გულისხმობს, პლატფორმის გარშემო ენობრივი საკითხებით დაინტერესებული კომუნა, ფილოლოგები, მწერლები, ენათმეცნიერები გააერთიანა. საიტს აქვს ფუნქცია, რომლის საშუალებითაც, არასრული პარადიგმის შევსება თავად მომხმარებელს შეუძლია, სიტყვების დამატება, შენიშვნების გაზიარება, ეს ყოველდღიური პროცესია, რისი საშუალებითაც, ბოლოს და ბოლოს, სულ უფრო სრულყოფილ ვერსიას მივიღებთ.


ენათმეცნიერების ინსტიტუტის ტერმინოლოგიის განყოფილებასთან თანამშრომლობით, სულ მალე პლატფორმას ბარბარიზმების, ნასესხები სიტყვებისა და ტერმინოლოგიის კორპუსი დაემატება, რომლის საშუალებითაც, არამხოლოდ მორფოლოგიურად არასწორი ფორმის, არამედ არასწორად გამოყენებული სიტყვის ჩანაცვლებაც იქნება შესაძლებელი, იგეგმება დიალექტიზმების დამატებაც.


რაც ყველაზე მთავარია, სემანტიკური და სინტაქსური ანალიზატორის დამატება კონტექსტუალური ანალიზის საშუალებით მომხმარებელს შინაარსობრივად არასწორი წინადადებებისა და ფორმების ამოცნობაში დაეხმარება.

მაშ, ასე, ნებისმიერ ადამიანს, ვისაც საკუთარი ნაწერის გადამოწმება სურს, შეუძლია შევიდეს ვებგვერდზე spellchecker.ge, გაწითლებული უცხო სიტყვების ნაცვლად სხვა, სწორი ფორმები ამოირჩიოს, ხოლო თუ ასეთი ფორმა ჯერ-ჯერობით არ არის, ინსტრუმენტის ავტორებს მისი დამატება შესთავაზოს, ხოლო თუ დამატებითი რეკომენდაცია აქვს ან აზრის გაზიარება სურს, „მცდარ-ბეჭდილ-მძებნთა“ კომუნასაც შეუერთდეს.



ავტორი: დიანა ანფიმიადი