Tecnologia INESC TEC usada na criação de base de dados de keywords obtidas a partir de mais de 100 milhões de artigos científicos

O YAKE!, software de extração de palavras-chave, desenvolvido por investigadores do INESC TEC, foi utilizado no processo de criação do General Index, um projeto que catalogou 107 milhões de artigos científicos, reunindo um catálogo de frases e palavras, com o objetivo de facilitar a pesquisa de informação. Lançada em outubro, a nova base de dados encontra-se disponível no Internet Archive, o maior arquivo digital de preservação de conteúdos do mundo, contando com um índice de mais de 19 mil milhões de keywords extraídas com recurso ao YAKE!.

Para Ricardo Campos e Alípio Jorge, cocriadores da tecnologia, “a adaptabilidade do YAKE! a diferentes cenários, a sua natureza plug-and-play, e a sua efetividade, quando comparado com diferentes soluções”, assim como “a sua rapidez de execução” são características que terão pesado na escolha desta tecnologia para a criação do General Index. “O facto de terem usado o YAKE! num processo destes é um exemplo claro da sua aplicabilidade em contextos de big data”, reforçam os investigadores.

Com capacidade para se adaptar a diferentes domínios de atividade, idiomas e tamanhos de documento, sem necessidade de recorrer a fontes de dados externas, a um elevado volume de dados ou a processos de treino exigentes sob o ponto de vista computacional, o software é um sistema baseado num conjunto de medidas estatísticas, um conjunto de heurísticas, que resultam numa fórmula matemática capaz de determinar a relevância de uma palavra.

“O algoritmo e as razões que levam à determinação do que é ou não uma palavra relevante é facilmente operacionalizado no caso YAKE! por oposição a sistemas baseados em redes neuronais tipicamente mais pesados por necessitarem de uma grande quantidade de dados para treinar. Tal permite que o YAKE! seja diretamente aplicável a um grande conjunto de idiomas com pouco trabalho de engenharia de software. Por outro lado, o algoritmo é facilmente entendível o que potencia a explicabilidade dos resultados”, referem Ricardo Campos e Alípio Jorge, acrescentando que esta tecnologia veio contribuir para a automatização do processo de extração de keywords, com especial relevância “numa altura em que o volume de dados cresce a uma velocidade vertiginosa.”

Sistema open-source e transversal a diferentes domínios

Recentemente integrado no portfólio de soluções open-source da John Snow Labs, a biblioteca de processamento de linguagem natural e text mining atualmente mais usada na área de negócio, o YAKE! é também utilizado pela Biblioteca Nacional da Finlândia, pelo Chartbeat Labs – textacy e no âmbito do projeto do INESC TEC Conta-me Histórias, incluído no Arquivo web português, arquivo.pt.

Além de uma demo online, a partir da qual os utilizadores podem extrair keywords através da introdução de um texto ou de um URL, está igualmente disponível um pacote de software open-source, que pode ser incorporado em projetos com necessidades distintas. “Esta é uma solução transversal a diferentes domínios de aplicação. Pode ser utilizado por exemplo por jornalistas, no processo de anotação de artigos noticiosos, ou integrado em pipelines diversas. São vários os exemplos de artigos científicos que referem e usam o YAKE! em diferentes casos de estudo, desde processos de sumarização a processos de text mining”, exemplificam os investigadores.

Desenvolvido por Ricardo Campos (investigador INESC TEC e docente do Instituto Politécnico de Tomar), Vítor Mangaravite (Universidade Federal de Minas Gerais), Arian Pasquali (investigador INESC TEC), Alípio Jorge (investigador INESC TEC e docente da UP-FCUP), Célia Nunes (Universidade da Beira Interior) e Adam Jatowt (Universidade de Innsbruck), o software é citado ou usado atualmente em mais de 270 artigos, tem mais de 860 estrelas no github e 141 forks, contabilizando mais de 1000 instalações em sistema Android. Em 2018, foi premiado com o Best Short Paper na mais importante conferência europeia de recuperação de informação, o ECIR.

Os investigadores mencionados na notícia têm vínculo ao INESC TEC, ao IPT e à UP-FCUP.

Tecnologia INESC TEC usada na criação de base de dados de keywords obtidas a partir de mais de 100 milhões de artigos científicos

Categorias

NEWSLETTER