
Imagem: reprodução/redes sociais
A Google apresentou, através da DeepMind, seu braço focado em inteligência artificial (IA), uma nova ferramenta com a capacidade de criar áudios para vídeos. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar diálogos ou mesmo trilhas sonoras.
A ferramenta de “vídeo para áudio” (V2A, em inglês) aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico. De acordo com o Google, o recurso pode entregar uma gama de possibilidades, incluindo cenas de conversas, filmes e sons ambientes.
A IA em questão não precisa que o usuário dê muitos detalhes na descrição do texto. O resultado é um som de alta qualidade. No momento, a DeepMind trabalha para melhorar a sincronização de lábios com diálogos criados pelo recurso.
Ainda não há previsão de lançamento definitivo da novidade.
