Trabalho enquadrado no International Workshop on Semantic Evaluation 2025 incluiu um exaustivo processo de anotações e culminou na criação de um dataset multilingue, fornecendo as bases para o treino de modelos capazes de identificar narrativas em português europeu.
A imensidão de canais de comunicação que a internet inaugurou deu também início a novas dimensões de desinformação e manipulação do discurso. Descortinar mensagens e explicar narrativas, sobretudo em contextos de elevada polarização, é um passo essencial para combater fenómenos com impacto negativo na literacia mediática e, consequentemente, na formação da opinião pública. Com este propósito, investigadores do INESC TEC criaram um dataset que permitirá identificar, compreender e explicar narrativas, servindo de apoio para jornalistas, verificadores de factos e cidadãos.
O trabalho, correspondente à tarefa 10 do International Workshop on Semantic Evaluation (SemEval) 2025, centrou-se em notícias sobre a guerra na Ucrânia e as alterações climáticas, “por representarem dois domínios internacionais distintos, mas igualmente centrais no debate público”, explicaram Nuno Guimarães e Purificação Silvano, investigadores do INESC TEC e membros da equipa que desenvolveu a tarefa. A iniciativa foi liderada por Ricardo Campos e Alípio Jorge, no quadro de um consórcio internacional que integrou investigadores de várias universidades de todo o mundo, bem como da Joint Research Centre (JRC) da Comissão Europeia. Os dois tópicos — no caso da guerra no leste da Europa, por se tratar de um evento geopolítico de grande atualidade e, no caso das alterações climáticas, por ser um “tema ‘evergreen’ marcado por controvérsias persistentes sobre ciência, políticas e interesses económicos” — permitiram a análise de narrativas em contextos imediatos e de longo prazo, oferecendo um cenário abrangente para estudar estratégias de manipulação discursiva.
No caso das notícias em português, foi feita uma seleção “cuidadosa”, de forma a garantir “diversidade política e relevância”: na lista de fontes de notícias constavam, por exemplo, jornais nacionais e artigos de opinião de sites partidários. Por se ter observado que o ecossistema mediático português é ainda pouco polarizado — sobretudo quando comparado com contextos como o dos Estados Unidos da América —, o corpus foi complementado com notícias de fontes brasileiras (que foram posteriormente traduzidas manualmente para português europeu). Desta forma, sublinha o investigador Nuno Guimarães, “assegurou-se uma cobertura equilibrada e representativa”, refletindo “diferentes linhas ideológicas presentes no espaço lusófono”.
A fase seguinte do processo consistiu nas anotações, tendo sido identificadas três informações essenciais. O primeiro grupo diz respeito a entidades, sejam elas pessoas, organizações, países, entre outros, que assumem um papel relevante nas narrativas veiculadas pelas notícias. Feita esta identificação, foi-lhes atribuída uma classificação com base numa taxonomia hierárquica que incluía as classes principais protagonista, antagonista, vítima, cada uma subdividida em subclasses. O segundo grupo contempla uma classificação das narrativas e subnarrativas relevantes em cada parágrafo e na globalidade da notícia. No caso do tópico da guerra na Ucrânia [Ukraine-Russia War], a taxonomia inclui narrativas, como por exemplo, Discrediting Ukraine com as subnarrativas Ukraine is a puppet of the West e Ukraine is a hub for criminal activities, entre outras. No tema relativo às alterações climáticas [Climate Change], uma das classes das narrativas foi Climate change is beneficial com subnarrativas como Temperature increase is beneficial. A terceira e última fase consistiu na formulação de uma explicação textual curta que justificasse a seleção da narrativa principal da notícia feita na fase anterior, partindo de evidência dada no texto.
Descrita por Purificação Silvano como “exigente e laboriosa”, a tarefa de anotação prolongou-se por “cerca de sete meses” e contou com o envolvimento, no caso dos dados em português europeu, de quatro anotadores e um curador, com formação linguística relevante “de modo a garantir a compreensão das estratégias de argumentação presentes nos textos e a identificação dos objetivos comunicativos, tanto a nível de cada parágrafo como da organização global do texto”. As equipas responsáveis pelas anotações, apesar de experientes, passaram por uma “fase preliminar de familiarização com o manual de anotação, de treino e de esclarecimento de dúvidas que permitiu uma uniformização dos critérios de anotação e consolidação”, esclarece a investigadora.
Já no que respeita à taxonomia, a análise de dados em português permitiu identificar não só os atributos da categoria das entidades, mas também da categoria das narrativas e das subnarrativas, inicialmente não contemplados.
O processo exaustivo de estruturar e analisar as narrativas culminou na criação de um dataset, uma ferramenta crucial para investigar de que forma os discursos dominantes moldam perceções públicas e reforçam vieses. Desta forma, o objetivo não passou unicamente pelo mapeamento das narrativas, mas também pelo apoio no desenvolvimento de métodos capazes de promover uma interpretação mais crítica e informada do ecossistema noticioso. Segundo Nuno Guimarães, este dataset fornece uma “base para treinar modelos que não só identificam narrativas em português europeu, mas também explicam por que motivo é que um texto foi classificado dessa forma”.
Ao disporem de uma ferramenta com esta dimensão explicativa, profissionais de comunicação beneficiam de um instrumento que não se limita a assinalar, por exemplo, que uma notícia amplifica medos climáticos ou desacredita instituições. É, também, possível mostrar “quais os argumentos, entidades e enquadramentos discursivos que sustentam essa classificação”. Abre-se, assim, caminho para “ferramentas de monitorização automatizada que permitem às redações e plataformas de fact-checking detetar em tempo real não só as narrativas dominantes, mas também compreender como essas narrativas são construídas e reforçadas”, explica Nuno Guimarães.
Os investigadores do INESC TEC mencionados na notícia têm ligação ao INESC TEC, à Faculdade de Ciências da Universidade do Porto, à UBI e à Faculdade de Letras da Universidade do Porto.