Un adolescènte guida la preservatione de lo Aromèno

Un corpus de 79'000 frases et un sistèma de traductione automàtica marcan una pètra miliare en la salvaguardia de lo aromèno, lengua romance en perículo de extinctione. Lo projècto, guidato en parte per un jóvene romèno de 17 annos, demonstra lo potere de la IA ad lo servitio de la diversitate linguística.

INTELLIGÈNTIA ARTIFICIALELENGUATECNOLOGÍAMONDO LATINO

Dionisie

5/23/20252 min read

En un importante passo en avante por la preservatione de las lenguas minoritarias, una echipa de recercatores ha desveloppato lo plus grande corpus parallèllo entre lo aromèno et lo romèno usque hòjje, compòsto de 79'000 pares de frases. Cueste corpus ha havuto un ròllo determinante en la creatione de modèllos de traductione automàtica optimizzatos por lo aromèno, una lengua romance ad risco de extinctione.

Lo aromèno, etiam cognoscîuto como macedoromèno aut valaco, èst una lengua romance orientale parlata per communitates dispèrsas en lo Balcane, includèndo Grècia, Albania, Macedònia de Nòrde, Bulgaria et Romenía. Si bène se estima que hi habbia entre 200'000 et 500'000 parlantes, lo suo uso ha deminuito dràsticamente ad càusa de la assimilatione culturale et de lo manco de recognoscimènto officiale de la lengua.

Alexandru Jerpelea, un studiante de 17 annos de Bucuresce, ha essuto una figura clave en cueste projècto. Ensèmole con lo professore Sergiu Nisioi de la Universitate de Bucuresce et altros collaboratores, Jerpelea ha desveloppato lo primo sistèma de traductione automàtica neurale por la lengua aromèna. Cueste sistèma permette traductiones entre lo aromèno, lo romèno et lo anglese, facilitando lo accèsso et comprehensione de cuesta lengua minoritaria.

Lo corpus utilizzato por entrenare cuestos modèllos include tèxtos de divèrsos gèneres, entre los quales còntos populares, litteratura religiosa, poesía et tèxtos de cantîones. De plus, han essuto implementatos instrumèntos auxiliares, como un modèllo de incorporatione de frases independènte de la lengua et un sistèma de conversione diacrítica por accommodare divèrsos stàndardes ortogràficos. Totos los recursos desveloppatos, incluso conjuntos de datos, modèllos entrenatos et los instrumèntos associatos, han essuto rendutas públicas attravèrso plataformas como Hugging Face et lo sito interrete AroTranslate. Cuestos instrumèntos son pretiosos non solamente por recercatores et linguistas, mais altrosí por los mèmbros de la communitate aromèna que desíderan apprèndere aut revitalizzare la lora lengua ancestrale.

Cueste projècto, como altros, represènta un passo en avante significativo en la preservatione de la lengua aromèna, fornindo recursos digitales anterioremente non disponíbiles. Bène que hi reste ancora molto de fàcere, initiativas como cuesta demonstran como, per la tecnología, la dedicatione de qualques indivíduos pòte fàcere la differèntia por protegere et revitalizzare lenguas en perículo de disparitione.

Por plus informatione, et accèsso ad los recursos presentatos cui, potetes visitare lo ferramènto AroTranslate aut lo repositòrio en Hugging Face.

Jóvenes Aromènos durante una celebratione en Bulgaria.

La repartitione de las lenguas romances orientales en lo Balcane.