UniDive – неколико речи о новој акцији програма COST и о првом састанку Управног одбора

У Бриселу је 23. септембра 2022. године одржан први састанак учесника COST акције UniDive – CA21167, чији је пун назив Universality, diversity and idiosyncrasy in language technology. Реч је о акцији коју је предложила проф. др Агата Сејвери (Agata Savary, https://perso.limsi.fr/savary/), професор рачунарских наука на Универзитету Paris-Saclay.

Мотивација за покретање акције Унидајв јесте увиђање да нас убрзано развијање у области обраде природних језика (Natural language Processing, NLP) и технолошки напредак стављају пред изазов да објаснимо језичке рaзличитости и да их подстичемо. Акција Унидајв надовезује се на искуство стечено у ранијим европским пројектима и мрежама (Universal Dependencies, PARSEME,UniMorph), које су пружиле доказ за постојање концепата моделовања и обраде језика применљивих на разне језике, али уз очување њихове различитости. Основна корист од акције UniDive биће, с теоријске стране, боље разумевање језичких универзалија, а с практичне, језички ресурси и алати који ће покривати већу разноликост језичких појава у великом броју језика, укључујући и оне угрожене и оне с недовољно развијеним или неразвијеним језичким ресурсима и технологијама.   

У основи акције UniDive лежи идеја да је језичка различитост баштина која се мора сачувати, а њено очување јавља се као изазов у доба убрзаног развоја области NLP-а. Важна су оба аспекта очувања језичке различитости – онај који се тиче разлика међу језицима, али и онај који се тиче разлика у оквирима истог језика. На важност првог аспекта утиче неколико чињеница: доминација енглеског језика у обради природних језика, али и убрзан развој ове области у другим језицима; недовољан број података за језике с недовољно развијеним језичким технологијама, као и за угрожене језике. На важност другог аспекта указују следеће чињенице: већина језичких појава има тзв. Зипфову дистрибуцију – мали је број речи које се појављују веома често, док велики број језичких појава има малу учесталост појављивања. Због тога велики број нефреквентних и идиосинкратичних појава остаје непрепознат и прикривен – обрада природних језика погодна je за мањи број учесталих појава, док није прилагођена за многе ретке језичке појаве. Управо су те ретке појаве веома интересантне (нпр. неограничене зависности (енгл. unbounded dependencies); идиосинкразија код фразеологизама и вишечланих лексичких јединица (енгл. multiword expressions, MWE).

Изоловано, стручњаци могу да размишљају само на основу онога што знају о језицима којима владају или које познају  у некој мери, што доводи до разнородних теорија, терминологија и метода. Корист од акција које укључују стручњаке из целог света је немерљива: мрежа истраживача, стручних за многе језике, омогућила би заједничко разумевање језичких универзалија (у више од 70 језика); квантификовање међујезичке и унутрајезичких различитости; усклађивање уједначених језичких ресурса (добијених у претходним акцијама); бољу покривеност међујезичке и унутрајезичких различитости у обради природних језика; подизање свести о важности очувања различитости у овој области.

Oсим тога, гради се и мрежа стручњака (из области морфологије, синтаксе, семантике); промовишу се млади стручњаци, укључују се и земље које нису учествовале у акцијама, прави се мапа заједничких циљева стручњака у области NLP. Што се тиче NLP-а , важни су такви језички описи који би били уједначени и применљиви на различите језике. Циљ акције UniDive јесте да се језичка различитост помири са убрзаним напретком у језичким технологијама. Инсистирање на универзалијама може деловати као супротно различитости, али уједначавање заправо чини праве посебности видљивијим. 

Акција се спроводи кроз рад у радним групама:

Прва радна група задужена је за анотацију корпуса: истраживања и дискусија о морфологији, синтакси, семантици, с посебним освртом на идиосинкразију; унификација и побољшање смерница за морфосинтксичку анотацију и анотацију MWE; утврђивање начина за анотирање конструкција; усклађивање развоја и одржавања централизованог софтвера за изградњу корпуса заснованог на универзалијама; изградња анотираног корпуса.

Друга радна група задужена је за интеракцију лексикона и корпуса; електронски лексикони комплементарни су с корпусима јер имају за циљ холистичко моделовање језика, уз опис што више појединости. Ова радна група има задатак да ради на усклађивању лексичких особина: дефиниција појма синтаксичка реч; утврђивање правила за лематизацију једночланих и вишечланих лексичких јединица; утврђивање скупа лексичких обележја; листе затворених категорија (помоћни глаголи, заменице и детерминатори).

Трећа радна група задужена је за вишејезичне и међујезичне језичке технологије. Циљ је направити синтаксичке парсере који ће боље покрити ретке појаве; направити прототип за семантичке парсере који би решавали идиосинкразије; алате за проналажење MWE; прототипе за идентификаторе идиосинкратичних конструкција.

Четврта радна група задужена је за квантификовање и промовисање различитости. Идеја је да се направи мрежа стручњака посвећених универзалијама у NLP; повезивање и обука стручњака за нове језике и језичку типологију. За квантификацију је потребно утвридити мере међујезичких и унутарјезичких различитости; квантификовала би се различитост у корпусима UD и PARSEME. Промовисање различитости: на различитостима би била заснована подела корпуса, избор података које треба анотирати и др.

Секундарни предлагач за Србију била је проф. др Цветана Крстев, професор Филолошког факултета Универзитета у Београду у пензији, члан Управног одбора (Management Committee) за Србију;  други представник за Србију је др Александра Марковић, научни сарадник Института за српски језик САНУ. За учешће су се пријавили бројни сарадници више институција: Филолошког факултета Универзитета у Београду (осим проф. др Цветане Крстев, др Милош Утвић, доцент, проф. др Јасмина Московљевић Поповић, ред. професор,  др Милица Динић Маринковић, доцент, Милена Опарница, асистент, Милица Иконић Нешић, асистент); затим Рударско-геолошког факултета (проф. др Ранка Станковић, ред. професор, др Биљана Рујевић, Михаило Шкорић, асистент); Института за српски језик САНУ (осим др Александре Марковић, др Наташа Вуловић Емонтс, виши научни сарадник, др Ненад Ивановић, виши научни сарадник, др Бојана Томић, научни сарадник, мср Александра Милосављевић, истраживач сарадник).

Састанак одржан у Бриселу био је почетни, на њему су обављене многе важне формалности: званично је изабран руководилац Акције (то је уједно и њен предлагач, проф. др Агата Сејвери) и руководиоци радних група; донет је план за буџет и радни план. Званичан датум почетка акције је 1. новембар 2022. године, а следећи састанак УО, који ће бити одржан на Универзитету Paris-Saclay, биће највероватније у марту.