É difícil conceber muitas das tecnologias ou inovações mais recentes sem o recurso a Modelos de Linguagem (ML) ou Processamento da Linguagem Natural (PLN). A sua presença e incorporação em diversas esferas da sociedade – algumas com muita relevância, como é o caso da esfera legal ou médica – tem levantado questões (e preocupações) que acabam muitas vezes a bater na mesma parede de interrogação: estarão as tecnologias baseadas em ML a abranger todas as comunidades? Recentemente, dois artigos científicos com assinatura INESC TEC – ambos aceites no AAAI, uma conferência A* – procuraram resolver alguns dos desafios que se vislumbram nesta nova era e que impactam diretamente a língua portuguesa.
Em “Tradutor: Building a Variety Specific Translation Model”, Hugo Sousa, Ricardo Campos e Alípio Jorge, investigadores do INESC TEC, debruçam-se sobre a problemática das variedades linguísticas que tendem a ser menosprezadas no treino que pressupõe a criação de um ML, mas também na fase de avaliação e implementação que se segue. O português é um exemplo claro, com a população brasileira a representar 70% dos falantes. Ao considerarem apenas esta realidade, muitos das ferramentas e sistemas excluem a diversidade e as nuances culturais de territórios como Portugal, mas também Moçambique, Angola, entre outros. Com a inclusão de ML em contextos relevantes, muitas vezes associados a tomadas de decisão, incorrer em erros por falhas gramaticais ou de léxico pode representar um risco demasiado elevado.
Uma das soluções possíveis passaria pela criação de um ML específico para determinada variedade linguística. No entanto, os múltiplos desafios associados a este processo – por exemplo, o grande corpus exigido – colocam-no em desvantagem. Outra alternativa seria a criação de modelos de tradução automática também dedicados exclusivamente a uma variedade linguística. Através desta via, a criação de um modelo robusto poderia, no caso das variedades linguísticas com poucos recursos, ser o primeiro passo rumo à inclusão, mas também ser usado para a tradução de recursos de treino e avaliação – a maioria disponível predominantemente em inglês.
A proposta apresentada pelos investigadores do INESC TEC recai, no entanto, sobre uma terceira opção que tem por base uma nova metodologia que visa o desenvolvimento de um modelo de tradução automática neuronal. O ponto de partida? A compilação de vários textos de variedades linguísticas associadas a comunidades com poucos recursos, os quais foram traduzidos para a variedade mais próxima e com mais recursos associados. Este corpus paralelo, pode ler-se no artigo também assinado por Satya Almasian (Universidade de Heidelberga), foi posteriormente utilizado para afinar um modelo linguístico pré-treinado, obtendo assim o Tradutor. O PTradutor, por sua vez, consiste na maior base de dados de tradução Inglês – Português Europeu, composta por 1.719.002 documentos, alguma vez desenvolvida, podendo agora ser consultada por qualquer utilizador.
Os resultados, garantem, “aproximam os sistemas open-source dos sistemas de tradução de nível industrial, com recursos mínimos e computação limitada”.
Já “Enhancing Portuguese Variety Identification with Cross-Domain Approaches”, o segundo artigo aceite na conferência AAAI Conference on Artificial Intelligence, foca nos avanços recentes no que respeita ao processamento de linguagem natural. Apesar de significativos, estes podem criar expectativas irrealistas ao nível da produção de texto coerente, por parte dos modelos, nas diferentes variedades linguísticas. Para colmatar as lacunas de uma aplicação pouco abrangente e – no caso da língua portuguesa – promover a criação de recursos em Português Europeu, investigadores do INESC TEC desenvolveram um identificador de variedades linguísticas de domínio cruzado capaz de distinguir entre o Português Europeu e o Português de outras regiões.
A distinção entre duas variedades linguísticas é um processo importante no PLN, sobretudo com o surgimento de modelos de linguagem com inúmeras variações. Independentemente da fase em que ocorre – pré-treino, aperfeiçoamento ou avaliação – um sistema capaz de fazer a distinção entre duas variedades permitirá uma menor supervisão humana. No entanto, também o desenvolvimento destes sistemas tem desafios associados: por exemplo, a identificação de características linguísticas relevantes – sem qualquer viés – que mais tarde seja transposto para a sua aplicação. Tal como nos ML, textos com imprecisões causam constrangimentos aquando da sua aplicação, o que vem sublinhar a importância de sistemas identificadores de variações linguísticas eficazes.
Ao longo do artigo, Hugo Sousa, Rúben Almeida (financiado pelo seed Project PT-PUMP-UP), Ricardo Campos e Alípio Jorge, investigadores do INESC TEC, descrevem a criação de um identificador multi-domínio – com os resultados da revisão de literatura a serem compilados no corpus PtVId, uma base de dados também multi-domínio –, assim como o estudo da eficácia de classificadores LVI baseados em transformadores para cenários multi-domínio. O artigo contou ainda com a participação de Purificação Silvano e Inês Cantante do Centro de Linguística da Universidade do Porto.
Os investigadores do INESC TEC mencionados na notícia têm ligação ao INESC TEC, à Faculdade de Ciências da Universidade do Porto, à UBI e ao Ci2 – Smart Cities Research Center.