Há novas ferramentas de IA para gerar dados sintéticos no diagnóstico do cancro do pulmão e o INESC TEC está a desenvolvê-las

São quatro as tecnologias que os investigadores do INESC TEC envolvidos no projeto europeu Phase IV AI desenvolveram, abrindo caminho para melhores sistemas de diagnóstico, sem comprometer a privacidade dos doentes. As ferramentas baseadas em Inteligência Artificial (IA) são capazes de gerar imagens médicas sintéticas de alta qualidade.

Treinar algoritmos de inteligência artificial para detetar cancro do pulmão é um desafio que vai além da tecnologia: exige grandes volumes de dados médicos anotados, cuja obtenção é difícil, cara e levanta sérias questões de privacidade. É precisamente este problema que a equipa do INESC TEC envolvida no Phase IV AI está a resolver, através do desenvolvimento de ferramentas que geram imagens sintéticas de tomografia computorizada (TC) pulmonar, tão realistas quanto as reais, mas sem qualquer dado pessoal associado.

As quatro tecnologias em questão foram validadas em diferentes contextos e cobrem diferentes etapas do processo de geração e enriquecimento de dados para sistemas de diagnóstico assistido por computador (DAC). Apesar de o Phase IV ter vários casos de uso, o INESC TEC está a participar especificamente no do pulmão.

Da geração 3D à síntese por camadas – quatro abordagens complementares

A primeira tecnologia consiste numa ferramenta que consegue “inventar” tomografias computorizadas (TC’s) de pulmão que, apesar de não existirem parecem reais. Para tal, a máquina gera imagens médicas a partir do zero, sem precisar de um doente real. Ora, para treinar algoritmos de IA que detetam cancro de pulmão são precisas milhares de TC’s anotadas e, como referido anteriormente, isso é algo difícil de obter porque os dados dos doentes são protegidos, as anotações de imagens médicas exigem radiologistas, o que é caro e demorado, e há ainda a questão de algumas condições clínicas serem raras e, por isso, existirem poucos exemplos. Esta tecnologia responde a todas essas questões.

Tecnicamente, divide-se em dois passos: 1) através de um diffusion model é gerada uma versão “esboço” da TC em baixa resolução, como se fosse uma espécie de rascunho onde a estrutura global do pulmão já lá está, mas os detalhes não; 2) GAN (super resolução) – a partir desse rascunho, amplia-o 4 vezes, adicionando detalhes finos que seja realista. Resultado? Tem 512x512x60, uma resolução clínica standard. Antes de se avançar com a exploração desta tecnologia, é preciso ainda a validação clínica da ferramenta por parte de radiologistas.

Já a segunda ferramenta gera TC’s a pedido, com base num mapa que é fornecido pelos investigadores. Exemplo de prompt dado pelo investigador “quero uma TC onde o pulmão se encontra neste local com um nódulo neste sítio”. Aqui, tenta solucionar-se a falta de dados específicos e anotados para treinar o algoritmo a identificar nódulos. Ou seja, aqui, os modelos de difusão são guiados por máscaras de segmentação anatómica – como a localização do pulmão ou de nódulos – permitindo gerar imagens que respeitam restrições estruturais específicas. Esta capacidade é especialmente útil quando os dados disponíveis para treino são escassos ou desequilibrados. Esta tecnologia dirige-se, essencialmente, a empresas que desenvolvem software de diagnóstico. Em relação à primeira ferramenta, esta dá um maior nível de controlo e é mais útil para quem precisa de dados muito específicos, enquanto a outra serve melhor para aumentar volume de dados de um modo geral.

O HUYDRA – a terceira tecnologia – representa uma abordagem inovadora: em vez de gerar a imagem TC completa de uma vez, decompõe-na por intervalos de Unidades de Hounsfield (HU) – a escala que caracteriza diferentes tipos de tecido – e gera cada intervalo separadamente, reconstituindo depois a imagem completa. A arquitetura multi-head VQVAE escolhida supera os modelos de base em cerca de 6,2% na métrica FID, com menor complexidade computacional. O benefício principal desta ferramenta está na eficiência com melhor qualidade. Esta é a única das quatro tecnologias que está a ser já testada por clínicos – e não só por métricas matemáticas -, mostrando já, por si só, um sinal de maior maturidade para uso real.

Por último, a quarta tecnologia não gera TC’s, ao contrário das restantes, mas sim os mapas que descrevem o que está numa TC. Ou seja, em vez de gerar a imagem médica, gera a “planta” anatómica que diz onde está o pulmão e onde estão os nódulos. Esta planta pode ser depois usada como input para as tecnologias anteriores, especialmente a segunda – a que gera TC’s a pedido. É que para usar a segunda tecnologia são precisas máscaras de segmentação para guiar a geração, só que essas máscaras são escassas e têm dados de doentes associados. Ora, esta última tecnologia resolve isso: gera máscaras sintéticas realistas do zero, sem precisar de nenhum doente real como ponto de partida. Os resultados atingidos com esta tecnologia estão disponíveis num repositório público: https://doi.org/10.5281/zenodo.17304869

As aplicações práticas destas ferramentas são diversas: desde o aumento de conjuntos de dados para treino de modelos de IA, à partilha de dados sintéticos entre instituições sem riscos legais, passando pela formação em radiologia. A equipa de investigação do projeto prevê ainda escalar as soluções para supercomputadores e explorar a geração condicional a partir de condições clínicas específicas.

Os resultados já foram submetidos ou publicados em fóruns científicos de referência, incluindo o IEEE CBMS 2026, o IEEE EMBC 2025 e a revista IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).

Recorde-se que o Phase IV AI é um projeto europeu que aplica inteligência artificial a casos de uso clínicos concretos, com especial foco no cancro do pulmão. No INESC TEC, o trabalho é liderado por Hélder Oliveira e Tânia Pereira, com a participação dos investigadores Daniela Ferreira Santos, Pedro Sousa, António Cardoso, Vitória Cruz, Diogo Azevedo, Diogo Martins, entre outros. A conferência final do projeto realizar-se-á em Turku, na Finlândia, em junho de 2025.

Tags: cancro do pulmão Inteligência Artifical

Há novas ferramentas de IA para gerar dados sintéticos no diagnóstico do cancro do pulmão e o INESC TEC está a desenvolvê-las

Categorias

NEWSLETTER