Redes Generativas Adversariais (GANs), dados sintéticos, avaliação de qualidade, privacidade, modelos clássicos de geração de dados. Os conceitos são, individualmente, abstratos, mas num artigo publicado recentemente, o investigador do INESC TEC, Álvaro Figueira, que partilha a autoria do artigo com Bruno Vaz, estabelece uma relação entre eles. “Survey on Synthetic Data Generation, Evaluation Methods and GANs” é o nome do artigo e o seu caracter inovador valeu-lhes o Mathematics Best Paper Award, um prémio internacional concedido anualmente a publicações de alta qualidade, importância científica e de ampla influência.
Mas vamos por partes. Dados são extremamente valiosos, sobretudo se tiverem alta qualidade e garantirem a privacidade. A verdade é que conjugar estes dois fatores tem vindo a tornar-se um desafio e as empresas e os investigadores recorrem, cada vez mais, à utilização de dados sintéticos, gerados artificialmente. A sua utilização pode, por exemplo, melhorar o desempenho de modelos de aprendizagem automática. GANs são modelos generativos profundos de última geração que podem gerar novas amostras sintéticas que seguem a distribuição de dados subjacente do conjunto de dados original.
Álvaro Figueira explica que, até recentemente, a área de geração de dados sintéticos incluiu estudos e revisões sobre métodos clássicos e sobre GANs, mas de forma independente e separada. “A inovação deste artigo é precisamente a combinação explícita de ambas as áreas num único estudo abrangente, abordando desde os métodos clássicos de geração de dados sintéticos até as redes generativas adversariais (GANs), com foco especial em GANs para a criação de dados tabulares. Além disso, o artigo oferece uma revisão dos principais métodos de avaliação da qualidade dos dados gerados, algo que outros estudos não cobrem, pelo menos, de forma tão abrangente”.
Atualmente, vários setores já recorrem à utilização de dados sintéticos, desde a saúde, às finanças, tecnologia ou mobilidade. No setor da saúde, adianta o investigador, “isso tem permitido a criação de dados para a realização de estudos sem violar a privacidade dos pacientes. Nas finanças, os dados sintéticos podem auxiliar no que concerne a simulação de cenários de risco. No setor de tecnologia, os dados sintéticos são essenciais para o treino de algoritmos de IA quando os dados reais são escassos, ou quando existe um problema de desequilíbrio de classes”.
Em comum têm o facto de que, todos estes cenários “permitem melhorar a eficiência, inovação e segurança dos processos, possibilitando o desenvolvimento e teste de soluções sem restrições de dados sensíveis ou insuficientes”.
Assim sendo, esta investigação e o artigo, em particular, “pode servir como uma referência essencial para novos investigadores, fornecendo uma base sólida sobre os métodos de geração de dados sintéticos e as principais técnicas de avaliação”, refere Álvaro Figueira, ressalvando que “ao destacar as lacunas existentes, como a necessidade de maior foco em dados tabulares, pode igualmente impulsionar futuras investigações e permitir avanços nesta área específica. Naturalmente conduzindo a uma melhoria de algoritmos e práticas para a criação e desenvolvimento de aplicações em setores críticos”.
Trata-se de um ponto de partida para estudos nesta área, garantindo uma visão abrangente e estruturada da literatura sobre métodos de geração de dados sintéticos e GANs. “Este artigo, além de compilar e analisar os métodos mais significativos, traz uma proposta futura de investigação que inclui a avaliação da qualidade dos dados gerados por diferentes arquiteturas de GANs para dados tabulares. Isso é especialmente relevante para aplicações que lidam com dados desequilibrados e pode trazer melhorias no desempenho de modelos de machine learning em classes minoritárias”, conclui o investigador.
Publicado recentemente na revista Mathematics e reconhecido como um dos melhores trabalhos nesta área, o artigo “. “Survey on Synthetic Data Generation, Evaluation Methods and GANs” está disponível em open access, aqui.
O investigador referido na notícia tem vínculo ao INESC TEC e à UP-FCUP.