-
17:15
-
16:30
-
15:44
-
15:00
-
14:15
-
13:39
-
13:00
-
12:15
-
11:30
-
11:07
-
10:43
-
10:00
-
09:15
-
08:57
-
08:29
-
08:08
-
07:45
Siga-nos no Facebook
GemMaroc: A Revolução Marroquina Integrando o Darija na Inteligência Artificial
Marrocos acaba de dar um grande passo em frente no mundo da tecnologia da linguagem com o lançamento do GemMaroc, um estudo pioneiro intitulado "Libertar a Proficiência em Darija em LLMs com Dados Mínimos", que explora a capacidade dos modelos de linguagem para compreender e gerar o Darija, o dialeto marroquino.
Esta iniciativa, liderada por um grupo de investigadores marroquinos especializados em inteligência artificial e linguística, marca uma verdadeira revolução na integração das línguas locais nos sistemas digitais. Muito mais do que um projeto científico, o GemMaroc destaca-se como um ato de emancipação tecnológica face à dominação linguística global no campo da IA.
Os resultados deste estudo são impressionantes: em apenas dois dias de formação, os investigadores conseguiram desenvolver um modelo capaz de compreender e produzir Darija com uma precisão notável, utilizando recursos de dados limitados.
Utilizando um pequeno corpus de frases cuidadosamente traduzidas e selecionadas, a equipa observou um aumento da taxa de acertos de 33% para mais de 47%, sem comprometer o desempenho do modelo em inglês. O modelo mais avançado, GemMaroc-27B, superou mesmo vários modelos internacionais em testes de compreensão de Darija.
O estudo enfatiza um ponto crucial: o sucesso do modelo não depende do volume de dados, mas sim da sua qualidade e diversidade. Os investigadores privilegiaram cenários da vida real e diálogos quotidianos que refletissem a vida marroquina — instruções orais, expressões populares e questões culturais — para permitir que o modelo integrasse as subtilezas do contexto local.
Outra grande inovação foi a criação de uma língua "Darija estruturada", com o objectivo de reduzir o "ruído linguístico" provocado pela variedade de dialectos regionais. Esta abordagem permitiu que a inteligência artificial respondesse de forma mais consistente e precisa, abrindo caminho para o desenvolvimento de ferramentas educativas, administrativas e digitais em Darija.
O estudo destaca ainda um desafio fundamental: a falta de um padrão de escrita para o Darija, devido à sua natureza essencialmente oral. Para lidar com isto, a equipa adotou um método híbrido que combina a escrita nos alfabetos árabe e latino para refletir a realidade linguística marroquina na internet e nas redes sociais.
Por fim, para manter o equilíbrio de competências do modelo, 20% dos textos de formação permaneceram em inglês, garantindo a preservação das competências gerais do sistema em matemática, raciocínio e compreensão contextual.
Com o GemMaroc, Marrocos consolida-se como pioneiro na inclusão linguística da inteligência artificial, comprovando que a tecnologia de ponta pode adaptar-se a uma língua local e transformá-la numa ferramenta de inovação cultural e social. Este projecto inaugura uma nova era em que o Darija entra finalmente na linguagem das máquinas, em pé de igualdade com as principais línguas do mundo.