Pode, afinal, a Inteligência Artificial ser aliada da democracia?

Europeias 2024. Dia 9 de junho, por toda a União Europeia, milhões de pessoas acorreram às urnas para escolher os representantes nacionais no Parlamento. Durante várias semanas, os meios de comunicação social fizeram uma cobertura abrangente das diferentes campanhas, com destaque para os debates e comícios. Foram feitas entrevistas e análises aos programas eleitorais, apresentadas trajetórias políticas e discutidos os futuros possíveis para o país.

Para construir a narrativa eleitoral foi necessário recuar alguns anos, entender a evolução de candidatos e partidos no contexto político português e europeu. Como é que os jornalistas, que trouxeram a informação até nós, conseguiram procurar e selecionar a informação mais relevante? Como é que foram capazes de organizar os eventos numa linha temporal com sentido? Como tornaram mais fácil o processo de contar esta história?

Além das entrevistas, das reportagens, da cobertura noticiosa (com recurso ou não a diferentes fontes), os jornalistas têm, na maior parte das vezes, de recorrer à pesquisa de informação, seja em documentos públicos, nas redes sociais ou noutros meios de comunicação social. Mas o ser humano não tem a capacidade de olhar para todos os textos e analisá-los ao detalhe, servindo-se de palavras-chave como pistas para a compreensão de um todo. Imaginem, agora, se esse trabalho demorado de pesquisa, pudesse ser facilitado com a utilização de ferramentas de apoio à decisão, capazes de extrair e organizar informações relevantes. Juntem-lhe a inteligência artificial e temos um novo mundo de possibilidades. Vamos descobrir?

 

Há um software português, disponível gratuitamente, capaz de extrair keywords de textos

Se há coisa que aprendemos com a literatura e com Hollywood, foi que a matemática pode mesmo ajudar-nos a resolver problemas. Veja-se o caso de Murph, em “Interstellar”, que usa equações para salvar a humanidade. Já a cientista de “Contacto”, Eleanor Arroway, descodifica uma mensagem extraterrestre através de sequências de números primos e outros conceitos matemáticos avançados., No livro (e depois filme) “O Código Da Vinci”, Robert Langdon consegue resolver uma série de quebra-cabeças (e um assassinato!) recorrendo à matemática e até à sequência de Fibonacci.

Viagens no tempo, contacto com espécies extraterrestres, extração de palavras-chave: matemática é reposta para tudo!

Do grande ecrã para o mundo real, o YAKE! (Yet Another Keyword Extractor) serve-se da estatística para extrair palavras-chave de um texto.  Ricardo Campos e Alípio Jorge, investigadores do INESC TEC, juntaram-se a uma equipa de especialistas das ciências da computação e da matemática, nomeadamente da estatística, das Universidades da Beira Interior e de Innsbruck, para desenvolver um software capaz de olhar de forma transversal para um texto e, com base num conjunto de formulações matemáticas, determinar, com elevado valor de exatidão, palavras relevantes. Mas, afinal, o que são palavras-relevantes (ou keywords ou palavras-chave). Ricardo Campos clarifica: “A noção do que é uma palavra relevante é algo subjetivo, sob o ponto de vista teórico, mas também objetivo, sob o ponto de vista prático, uma vez que se baseia em critérios mensuráveis, como a frequência de ocorrência, o contexto, entre outros. As palavras relevantes não são o tema, mas sim aquilo que caracteriza a ideia geral do texto. Por exemplo, o tema pode ser desporto, mas as palavras relevantes serem o nome do jogador, do clube ou expressões como vitória impressionante”.

Claro que a inteligência artificial (IA) desempenha um papel essencial na análise de grandes volumes de dados, automatizando a extração de informação útil.  O YAKE! vai um pouco mais longe e, ao contrário de modelos de redes neuronais, usa um sistema que não necessita de ser treinado e que, por isso, é facilmente adaptado a outras línguas.  “Nos dias que correm, dada a complexidade destes modelos de redes neuronais, é ainda difícil saber as razões pelas quais um determinado modelo chega a uma dada conclusão. Já o YAKE! tem por base um conjunto de estatísticas e, por isso, é facilmente interpretável. Até pode ter uma efetividade ligeiramente inferior aos modelos de ponta – nomeadamente large language models (LLMs) [1] -, mas continua a ser um software muito intuitivo, que extrai palavras-chave com rapidez e facilidade, suportado num conjunto de heurísticas matemáticas. Um dos principais problemas da inteligência artificial, que hoje se discutem, é precisamente a questão da interpretabilidade e understandability dos modelos, que não fundamentam, até ver, as respostas e decisões. Isso pode resultar num cenário em que uma pessoa é julgada em tribunal e, em última instância, condenada por uma decisão de uma máquina, pouco ou nada interpretável. Naturalmente, não podemos correr este tipo de riscos”, justifica Ricardo Campos.

E afinal, como podemos usar o YAKE!? Vamos voltar atrás, ao trabalho jornalístico desenvolvido durante as europeias. O software poderia ter sido usado, por exemplo, para inferir, em tempo real, as palavras mais relevantes no decurso de um debate político ou gerar uma word cloud com as palavras mais relevantes dos programas dos partidos políticos ou até de todas as notícias sobre uma campanha específica. Ou seja, a pesquisa de informação incidiria sobre o que é efetivamente relevante e não sobre tudo o que está escrito. Já vos conquistamos, jornalistas por esse mundo fora?

O YAKE! voou das mãos dos seus criadores e é, atualmente, do mundo. Como? “Enquanto investigadores, mantemos sempre a perspetiva científica e não tanto empresarial em relação à nossa investigação e queremos retribuir à comunidade científica aquilo que ela também nos tem vindo dar. Portanto, tornámos este software open source, sendo atualmente utilizado em mais de 1000 outros projetos open-source, como é o caso do General Index ou do Schemawriter.ai”, revela o “pai” da tecnologia.

 

Uma janela para o passado que nos ajuda a compreender o presente

Ricardo Campos, confesso apaixonado pelo passado, não quis parar por aqui. Utilizando uma versão adaptada do YAKE! e ancorado no Arquivo.pt – uma infraestrutura  portuguesa de preservação de conteúdos web -, o Conta-me Histórias funciona quase como um motor de busca para o passado. Regressamos à política e à cobertura das europeias: seria possível procurar o nome de um político associado a uma temática específica (ambiente, impostos, saúde, etc.)  e rapidamente contruir uma narrativa com as notícias mais relevantes dos últimos 10 anos. Foi um exercício semelhante que Ricardo Campos fez (com um ator político do passado): “Nessa altura, com base no conjunto de notícias devolvidas. Procurei detetar possíveis incongruências no discurso político de Pedro Passos Coelho em relação ao tema “impostos”. Como é que fazemos isto? Utilizamos o YAKE! para analisar o enorme volume de dados que existe no Arquivo.pt, não para extrair palavras-chave, mas para selecionar, entre milhares de notícias, aquelas que são mais relevantes”.

Uma ferramenta útil para os jornalistas pela capacidade de recuperar notícias do passado que já não existem na web convencional e podem dar informações essenciais para contar uma história.

Dos jornalistas para o utilizador comum, como é que o Conta-me Histórias pode ser útil?

“Atualmente, a maior parte das pessoas consome notícias a partir das feeds (sistemas de distribuição de conteúdo) que aprendem o que nós gostamos e começam a favorecer esse tipo de conteúdos. Este efeito é conhecido na comunidade por filter bubles, e implica a sugestão de notícias que vão de encontro às nossas preferências enquanto utilizadores de plataforma digitais. Isso é um problema que nos leva, em última instância, aos extremos e à polarização”, refere Ricardo Campos.

Navegar pela informação e encontrar respostas relevantes nunca foi tão fácil

7 de outubro de 2023. Sirenes de alerta de rockets soaram em várias cidades israelitas. Os relatos de um ataque começam a ser partilhados. A notícia espalhou-se rapidamente: um ataque coordenado do Hamas contra Israel, junto à Faixa de Gaza.  Desde então, foram feitas centenas de manchete pelo mundo inteiro sobre o tema. Jornalistas, comentadores, historiadores, políticos, académicos e organizações foram ouvidos. Investigou-se, fez-se trabalho de campo, estudou-se um conflito que, afinal de contas, se arrasta há décadas. Onde começou? Quem tem razão? Quais as fontes? Numa pesquisa através de um motor de busca os resultados são baseados naquilo que é mais recente. Mas o que é mais recente nem sempre não nos dá uma leitura abrangente no tempo e espaço sobre um determinado tema. E é aqui que o Conta-me Histórias poderá realmente fazer a diferença.

 

Analisar os dados para combater a desinformação

Evelin Freire Amorim, investigadora do INESC TEC, envolvida em projetos similares, considera que captação rápida de informação relevante é essencial para auxiliar as pessoas na tomada de decisões. O Text2Story e o StorySense, dois projetos também liderados por Ricardo Campos e Alípio Jorge, ajudam a resumir informações e visualizá-las num diagrama, destacando personagens e ações e as relações entre eles.

“Quando navegamos num mundo de tantas informações, é útil ter uma ferramenta que nos ajuda a compreender a informação, os eventos e as relações entre eles, de uma forma quase automática. Portanto, já não estamos só a extrair palavras-chave nem a agregar informação sobre um tema. Estamos à procura de respostas para questões mais complexas, e que exigem um maior entendimento”, adianta a investigadora.

Sabemos, claro, que para os jornalistas esta é uma ferramenta muito útil, ao permitir um overview geral sobre as notícias que já foram feitas e como foram feitas, ao longo do tempo sobre um determinado tema. Mas a aplicação destas ferramentas, segundo Evelin, não fica por aqui: “O Text2Story pode ser usado na saúde com a compilação de registos médicos de um determinado doente, em relação a um determinado diagnóstico. É muito útil para os profissionais perceberem, de forma rápida, por exemplo, como é a evolução de um paciente com um cancro no pulmão, ao longo do tempo. Também pode ser aplicado na área judicial, compilando e resumindo informações de uma sentença, e relacioná-la com outras informações relevantes”.

O StorySense vai um pouco além, fazendo a ligação a bases de conhecimento e dando sentido à informação. “Eu sou do Brasil, por isso, quando falam em Partido Social Democrata não é claro, para mim, onde é que este partido se posiciona no espectro político. Ter uma base de conhecimento poderia ajudar-me a compreender essa informação, veiculada numa compilação de informação acerca desse tema.  O StorySense fornece-me o conhecimento de fundo que permite mitigar a desinformação e até ajudar os modelos a extrair informação de forma mais eficiente”, exemplifica a investigadora.

De regresso às eleições europeias, seria possível, com estas ferramentas, identificar diferentes arcos narrativos, ou seja, a linha narrativa mais usual de um partido ou candidato, sendo mais fácil estabelecer até ligações causa-efeito (Estará realmente a extrema-direita a propagar o racismo? Deixamos esta para a IA responder).

Cada uma destas ferramentas pode ajudar a identificar notícias falsas e descontextualizadas, mas há ainda muito trabalho a ser feito, a muitos algoritmos de distância. “Eu gosto de ideias que tenham impacto na sociedade. A desinformação estimula a falta de equilíbrio democrático e, por isso, gostava de trabalhar num projeto que usasse a extração de narrativas para ajudar as pessoas nesse sentido. Porque o programa político não diz tudo sobre um partido e pode, até, veicular ideias que não são nunca aplicadas”, refere Evelin, a propósito da sua principal motivação enquanto investigadora.

Não seria perfeito termos uma espécie de polígrafo em grande escala, capaz de trazer a público, de forma rápida e automática, a verdade de narrativas ou acontecimentos? “Recentemente esta equipa integrou um projeto que envolve, entre outros, uma equipa da Joint Research Center (Comissão Europeia), com o objetivo de proceder à identificação de técnicas de persuasão. Neste contexto, fomos desafiados a participar neste projeto, procedendo à anotação e à identificação destas técnicas em textos portugueses, contanto para isso com a ajuda da equipa de linguistas, liderada pela Purificação Silvano, que colabora connosco. Selecionamos 104 artigos em português, anotados sob o ponto de vista de vinte e três classes de técnicas de persuasão resultando em 1727 anotações no total. Os nossos textos, e acima de tudo as suas anotações, vão agora ser usados por equipas de inteligência artificial para que possam desenvolver algoritmos de identificação automática de técnicas de persuasão, uma vez que esta tarefa não é passível de ser feita de forma manual, quando na presença de um grande volume de dados”, adianta Ricardo Campos.

Não seria perfeito termos  disponível um polígrafo capaz de analisar grandes quantidades de informação de forma rápida e automática?

 

A IA e pensamento crítico? É possível!

Estamos a dar um passo efetivo no desenvolvimento de modelos que possam etiquetar de forma automática as várias dimensões dos textos. O trabalho de anotação feito pelos linguistas é, como já vimos, essencial para alavancar o surgimento de outros modelos, especialmente quando falamos de português europeu, pois os LLMs aprendem, maioritariamente, com base em textos em inglês. Quanto mais dados (anotações) tivermos, mais fácil será para a comunidade científica criar modelos e ontologias[2].

Portugal está a ganhar terreno no cenário de IA europeu e mundial e a grande preocupação é assegurar que as questões éticas e de privacidade são salvaguardadas ao utilizar dados para a criação de modelos. Esta é, de resto, uma discussão que a Comissão Europeia tem liderado.

Outra questão que se coloca, quando o tema é a IA é se estaremos a perder a autenticidade. Evelin Amorim acredita que ferramentas como as que resultaram do Text2Story e do StorySense caminham no sentido contrário, pois apenas compilam informação deixando o pensamento crítico do lado do ser humano. Já as ferramentas como ChatGPT geram respostas uniformizadas sem qualquer espaço para a criatividade.  A investigadora do INESC TEC alerta ainda para a questão do viés racial e de género, inerentes a estes modelos. “Se uma pessoa depender só da informação gerada pelos modelos, sem discutir com pares ou colegas, vai receber respostas muito deturpadas e os vieses vão ser aumentados. Se pedirmos a um modelo para completar a frase “O João trabalha na enfermaria, por isso é….” a resposta será médico e não enfermeiro Porquê? Porque o modelo se baseia na ideia mais básica, naquilo que está inconscientemente na mente da nossa sociedade patriarcal”, acrescenta.

De volta às eleições europeias, deixamos algumas questões aos nossos leitores. Leu todos os programas dos partidos políticos? Quais as palavras mais relevantes de cada um? Conhece o percurso político e as propostas de cada um dos candidatos? Sabe se o seu posicionamento em relação a um mesmo tema se manteve ao longo do tempo? Se respondeu não a tudo, não se preocupe. Afinal, ao contrário de Barack Obama, não estamos munidos de uma equipa de cientistas de dados e jornalistas para nos ajudar no processo de tomada de decisão. A boa notícia é que daqui a cinco anos, nas próximas eleições europeias, já sabe onde procurar as respostas!

 

[1] Modelos de inteligência artificial generativa treinados em grandes quantidades de texto para entender e gerar linguagem natural, como é o caso do ChatGPT.
[2] Na ciência da computação, uma ontologia é uma representação formal de um conjunto de conceitos dentro de um domínio e a relação entre esses conceitos.

 

Os investigadores mencionados nesta edição da rubrica Spotlight têm vínculo ao INESC TEC, à UBI e à UP-FCUP.  As imagens utilizadas foram criadas com recurso a IA. 
PHP Code Snippets Powered By : XYZScripts.com
EnglishPortugal