Visão Computacional

INESC TEC Science Bits – Episódio 11

PODCAST INESC TEC Science Bits

 

Oradores convidados:

Paula Viana, Centro de Telecomunicações e Multimédia (CTM)

Pedro Carvalho, Centro de Telecomunicações e Multimédia (CTM)

 

Palavras-chave: visão computacional | inteligência artificial | computador | visão | (deep) machine learning

Paula Viana e Pedro Carvalho

Quando é preciso ensinar a ver

Ensinar uma máquina a ver da mesma forma que os seres humanos é uma tarefa muito difícil. Isto porque o computador tem de aprender a reproduzir o processamento, aparentemente trivial, que o cérebro faz da visão humana simplesmente através de um cálculo matemático, e esse processo é complexo e nos dias de hoje ainda um pouco desconhecido.

Num sentido lato, visão computacional é a tecnologia que ensina os computadores a ver e a interpretar o mundo através de imagens. Os seres humanos aprendem continuamente desde que nascem, mas os computadores têm de ser ensinados a fazer os mesmos tipos de identificação. Como ensinar um computador a distinguir o que é um cão ou o que é uma cadeira, já que ambos têm 4 pernas? Não é possível esperar que o computador identifique as características próprias de um cão (como a cauda, as orelhas ou o focinho), como acontece com as pessoas. A forma de o ensinar consiste em carregá-lo com milhões de imagens de cães ou cadeiras para que a máquina recolha as ligações entre elas e aprenda por si mesma as diferentes características de um cão ou de uma cadeira.

Muitas competências ainda por explorar

A visão computacional, que incorpora também a inteligência artificial, está cada vez mais presente no nosso dia a dia. Sem darmos por isso, utilizamos soluções que nasceram com base nestas tecnologias sem perceber a complexidade dos processos que se escondem em ações tão imediatas como editar uma foto no computador, colocar um filtro numa publicação do Instagram ou identificar um amigo numa foto no Facebook.

Mas a aplicabilidade destas tecnologias não se fica por aqui. Há uma imensidade de áreas em que a sua utilização pode ser muito útil, desde a medicina ao desporto, desde a segurança à energia, desde a mobilidade à saúde, desde a multimédia à agricultura, tudo pode beneficiar com o desempenho de novas e inteligentes máquinas com capacidades de funcionamento e de processamento de dados, em alguns casos já superior à dos seres humanos.

Algumas inovações de alto potencial

O INESC TEC tem vindo a desenvolver muito trabalho na área de sistemas e comunicação multimédia, fazendo parte ou até liderando projetos inovadores que têm por base tecnologias de visão computacional e que desenvolvem soluções que de alguma forma acabam por enriquecer a relação do público comum com as tecnologias.

Transformar uma simples fotografia num clip de vídeo é algo que pode ser muito interessante e até vantajoso em algumas áreas de trabalho. É isso a que se propõe o projeto FotoinMotion, que consiste numa ferramenta que introduz uma forma inovadora de transformar uma única fotografia num vídeo de alta qualidade, com efeitos dinâmicos de storytelling e branding. Recorrendo a técnicas de visão por computador e de inteligência artificial, a ferramenta desenvolvida permite aos profissionais do audiovisual e ao público criativo em geral, partindo de conteúdo estático (fotografia), produzir de forma automática um clip de vídeo capaz de contar uma história adequada ao conteúdo e contexto em que a imagem foi capturada.

O FotoInMotion tem como alvo principal três indústrias criativas: Fotojornalismo, Moda e Organização de Eventos, embora possa ser adaptada a qualquer outra área em que existam conteúdos fotográficos.

Noutro âmbito, no projeto CHIC (Cooperative Holistic View on Internet and Content), a ideia passa por desenvolver um ecossistema baseado em tecnologias que auxiliem os intervenientes na promoção e criação de conteúdos.

A contribuição do INESC TEC para esse consórcio consiste em desenvolver soluções no âmbito de gestão e operação de arquivos audiovisuais, que permitem a identificação de personalidades em peças de vídeo, e o acesso direto ao momento (timecode) em que estas aparecem, contribuindo assim para uma melhoria da capacidade de pesquisa nos arquivos. Esta tecnologia garante uma reutilização eficiente dos conteúdos em arquivo e a consequente redução de custos para os operadores. Além disso, esta solução torna mais eficiente a pesquisa efetuada pelos utilizadores comuns nas plataformas online de um determinado canal de televisão.

Finalmente, também no desporto tem vindo a aumentar a aplicação de visão computacional, em particular com o desenvolvimento de ferramentas que auxiliem na análise de movimentos ou nas indicações de melhoramento de desempenho. É esse o objetivo do projeto Ténis Video Sports AI, que fez uso destas tecnologias numa aplicação comercializável (Tennis Tracking – AI Training), já disponível na App Store, e que se tem vindo a apresentar como uma poderosa solução na obtenção de resultados.

O futuro já chegou

Não existe praticamente área nenhuma em que estas transformações digitais ainda não tenham entrado, embora não se encontrem todas no mesmo estado de maturidade. O desafio agora prende-se com regulamentação e ética, havendo, no entanto, ainda muito caminho por explorar. Cada passo em frente abre caminho a mais possibilidades. Haverá limites para estas tecnologias?

 

PHP Code Snippets Powered By : XYZScripts.com
EnglishPortugal