INESC TEC desenvolve recursos de processamento de linguagem natural para a língua portuguesa

Expandir e construir novos recursos de processamento de linguagem natural (em inglês, Natural Language Processing – NLP) para a língua portuguesa foi o grande objetivo do projeto PTicola. Os resultados deste projeto, que incluem, por exemplo, um tradutor de inglês-português europeu e um identificador de variantes PT-BR/PT-PT, permitem responder à lacuna nos recursos de NLP disponíveis para o PT-PT, comparativamente ao PT-BR.

Com acesso a produtos da Google Cloud Platform, o projeto PTicola – Increasing Computationally Language Resources for Portuguese – criou duas ferramentas, consideradas essenciais, para a comunidade que usa português europeu: um identificador de variante capaz de distinguir o PT-PT do PT-BR e um modelo de tradução do inglês para a língua portuguesa europeia – ambas desenvolvidas em open-source.

“Estes dois resultados levaram à aceitação de duas publicações na Annual AAAI Conference on Artificial Intelligence (AAAI), uma conferência na área de inteligência artificial de alto nível (core A*), que este ano decorre em Filadélfia, no final de fevereiro”, conta Alípio Jorge. Além disso, explica o investigador do INESC TEC, “as ferramentas que desenvolvemos dão resposta a uma lacuna significativa nos recursos de NLP para o português de Portugal, que fica atrás do português do Brasil em relação às tecnologias linguísticas disponíveis”.

Os resultados do PTicola foram apresentados num workshop que teve lugar no INESC TEC

O PTicola contribuiu ainda com novos conjuntos de dados de tarefas de NLP para português – como por exemplo, extração de informação temporal, marcação de funções semânticas e extração de relacionamento – e desenvolveu ferramentas específicas de domínio, incluindo um sistema de recuperação e classificação de casos clínicos e um tradutor biomédico inglês-português. O sistema de recuperação e classificação foi igualmente aceite, na modalidade de demonstração, numa conferência. No caso, na European Conference on Information Retrieval (ECIR), que vai decorrer em abril, na cidade de Lucca, Itália.

Assim, o projeto melhorou o atual estado da arte da língua portuguesa em diferentes tarefas de NLP, através do desenvolvimento de novos recursos em tarefas, cuja eficácia é significativamente inferior quando comparada com as mesmas tarefas na língua inglesa. “O trabalho que desenvolvemos neste projeto expande, não só, o ecossistema de recursos para a língua portuguesa, como fornece uma base para futuras investigações em domínios especializados”, acrescenta Alípio Jorge.

Os resultados do PTicola, financiado pela Fundação para a Ciência e a Tecnologia (FCT), foram apresentados num workshop que teve lugar no INESC TEC, no dia 13 de fevereiro e que reuniu cerca de 40 participantes.

O investigador mencionado na notícia tem vínculo ao INESC TEC.

INESC TEC desenvolve recursos de processamento de linguagem natural para a língua portuguesa

Categorias

NEWSLETTER