Um projeto de inteligência artificial desenvolvido pelo Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) pode reviver linguagens humanas mortas há muito tempo sem a necessidade de usar linguagens contemporâneas equivalentes para comparação.
Segundo especialistas, a chamada língua morta, ou perdida, é traduzida por um método comparativo, os pesquisadores da linguagem usam algoritmos automáticos para vincular línguas antigas a certas variantes contemporâneas a fim de encontrar semelhanças entre as duas.
Os envolvidos ainda informaram que a ideia da iniciativa é atribuir o desenvolvimento de idiomas atuais a linguagens antigas, e que o procedimento é uma espécie de engenharia reversa adaptada para a forma como os seres humanos falam entre si.
Línguas perdidas não possuem exemplos existentes
O problema do estudo de tais línguas perdidas é que as mesmas fazem jus ao adjetivo imposto, ou seja, não possuem exemplares de seu uso, são desconhecidos ou tão reduzidos que fica impossível determinar um padrão de comparação. No entanto, o projeto CSAIL usa princípios de linguagem baseados em um processo diferente.
Por exemplo, se fonemas forem adicionados ou excluídos de um idioma específico, algumas substituições podem ocorrer em idiomas contemporâneos. Uma palavra com som “p” na língua nativa pode alterar o som em seu idioma descendente para “b”, mas é menos provável que mude o mesmo som para “k”.
Novo algoritmo é aposta do MIT
A inteligência artificial do MIT aposta nesse tipo de mudança. O projeto foi coescrito por Regina Barzilay, professora da faculdade e especialista em processamento de linguagem natural. O pesquisador Luoming Luo utilizou um novo algoritmo que analisou as inúmeras possibilidades de conversão e inserção de fonemas da linguagem.
Isso significa que o sistema do software criado é capaz de capturar padrões de mudanças linguísticas para os expressar eles como valores computacionais. O resultado disso é a segmentação de palavras referentes a uma língua remota, bem como o rastro de possíveis contrapartes atuais.
Testes revelaram diferenciação de idiomas
Ao testar as novas tecnologias, os especialistas aplicaram o algoritmo às línguas ibéricas, bascas, românicas, germânicas, turcas e urálicas. Isso mostrou que, embora o basco esteja mais próximo do ibérico, as diferenças entre elas ainda são grandes demais para serem relacionadas.
No futuro, o MIT informou que pretende usar a linguagem, que já é conhecida, para reconhecer o significado semântico de certas palavras, mesmo que o sistema desenvolvido não saiba lê-las. Este processo é denominado desencriptação baseada no mesmo tipo.