“Qual seria o som desta imagem?” Tecnologia do INESC TEC traduz emoção visual em música

A capacidade de gerar automaticamente bandas sonoras originais pode ter impacto significativo na produção de conteúdos digitais, publicidade e multimédia. Solução avançada por investigador do INESC TEC supera outros modelos de última geração.

Todos os dias, a biblioteca de vídeos mais popular de todo o mundo, o Youtube, ganha 20 milhões de entradas: horas incontáveis de imagens, a maioria acompanhada por música. Só que encontrar a banda sonora certa nem sempre é tarefa fácil: seja por consumir tempo – obriga à escuta de inúmeras bases de dados gratuitas –, ou porque é dispendiosa e tecnicamente exigente. Este problema podia ser resolvido com uma ferramenta capaz de gerar música royalty free a partir das imagens de vídeo.

E é essa resposta que o INESC TEC está a trabalhar: o investigador Serkan Sulun está a desenvolver um sistema de Inteligência Artificial capaz de gerar automaticamente música original que se adapta não apenas à emoção do vídeo, mas também ao ritmo e estrutura visual.

O trabalho publicado na revista IEEE Transactions on Multimedia apresenta o EMSYNC, um modelo que compõe música em formato simbólico (MIDI) a partir de qualquer vídeo e garante dois elementos essenciais numa banda sonora: coerência emocional e sincronização temporal com cortes de cena ou mudanças no plano.

Ao contrário de muitos sistemas que geram diretamente áudio final, o EMSYNC, ao gerar música em formato MIDI – um conjunto de instruções digitais com informações de tom, velocidade ou tempo –, permite que as composições sejam posteriormente editadas e ajustadas. Ou seja: o criador ganha mais controlo criativo e flexibilidade.

O modelo de Serkan vem a ser maturado há mais de cinco anos e foi explorado no doutoramento a partir da proposta “Video-Based Music Generation” [em português, Geração de música baseada em vídeo]. “Sempre fui apaixonado por música, mas sentia que tinha talento para tocá-la. No mestrado, foquei-me em IA e vídeos, e esta ideia parecia ser a única maneira de contribuir para alguma forma de criação musical”, explica o investigador.

“Academicamente, os métodos atuais lidam com a geração de música através de vídeo usando uma abordagem baseada em segmentos: a correspondência de frames de vídeo com secções musicais curtas é um exemplo dessa abordagem. Mas considero-a, bem como os resultados, irrealistas e quis adotar uma abordagem mais holística, semelhante à forma como os músicos compõem: considerando a totalidade do vídeo e da música, interpretando as emoções e combinando os seus ritmos para criar sincronia”, acrescenta.

O modelo segue uma abordagem em duas fases. Em primeiro lugar, analisa as emoções do vídeo, através de um classificador que combina imagem, áudio, texto e expressões faciais. Depois, é capaz de converter emoções para um modelo dimensional com dois eixos fundamentais: valência (positiva ou negativa) e excitação (nível de energia).

É a partir desta triagem e categorização que começa a geração musical. O resultado é uma composição que reforça o estado emocional transmitido pelas imagens e apta para musicar, com menos custos e sem problemas de direitos de autor, conteúdos digitais, publicidade e multimédia.

O casamento perfeito

E o EMSYNC mostra ainda que a música não é apenas coerente por si só – mas acaba mesmo a reforçar o conteúdo visual. Isto porque o alinhamento emocional sozinho não desagua necessariamente numa banda sonora convincente: é preciso que música também acompanhe o ritmo do vídeo.

E é aqui que entra o conceito de boundary offsets, que permite ao modelo antecipar cortes de cena (mudança de plano), alinhar acordes musicais com esses momentos de transição e calcular a distância temporal até ao próximo corte Segundo o artigo, esta abordagem focada nos pontos-chave da narrativa visual permite manter estabilidade rítmica e produzir uma sincronização mais percetível, “casando” imagem e vídeo de uma forma natural.

Segundo Serkan, as investigações em curso sobre geração musical concentram-se em métodos exclusivamente áudio. “Métodos híbridos, que utilizam primeiro MIDI e depois áudio, aproximar-se-iam mais à forma como os seres humanos produzem música: primeiro compõem, depois executam. Além disso, os métodos atuais tratam o MIDI como uma sequência uniforme, embora os músicos componham usando secções distintas, como introdução, verso e refrão. Isso requer conjuntos de dados MIDI com rótulos dessas secções, e aqui podemos novamente usar IA para rotular automaticamente os conjuntos de dados MIDI existentes”, expande o investigador.

O sistema foi comparado com modelos de referência na área da geração automática de música para vídeo, através de avaliações objetivas e subjetivas. A estrutura avançada pela investigação “supera os modelos de última geração em todas as métricas subjetivas e na maioria das métricas objetivas para todos os conjuntos de dados”, lê-se no artigo.

No futuro, o plano passa por disponibilizar o modelo para uso generalizado. Certo é que, para já, numa avaliação com 153 participantes, o EMSYNC foi consistentemente classificado como superior em critérios como qualidade musical, riqueza, correspondência emocional, sincronização rítmica e adequação global ao vídeo.

“Qual seria o som desta imagem?” Tecnologia do INESC TEC traduz emoção visual em música

Categorias

NEWSLETTER