
Foto: Brookings
A OpenAI, criadora do robô ChatGPT, revelou nesta quinta-feira (15) um modelo de inteligência artificial que cria vídeos realistas a partir de texto curtos. Batizado de Sora, ele foi liberado para análises de especialistas e ainda não está disponível ao público.
"O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes", explica a OpenAI.
"O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico."
Demonstrações de criações do Sora incluem tanto animações quanto imagens com estilo realista (veja exemplos). Nenhum vídeo foi gravado por humanos, e sim gerado pela inteligência artificial a partir de pequenos textos, segundo a OpenAI.
Por exemplo, o vídeo que mostra um grupo de mamutes caminhando no gelo foi criado com a seguinte descrição:
"Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve ao longe, luz do meio da tarde com nuvens finas e um sol alto a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo."
Para diminuir riscos de uso indevido, a OpenAI promete adotar medidas de segurança antes de disponibilizar o Sora em seus produtos. Isso inclui o trabalho com especialistas em áreas como desinformação e conteúdo de ódio e preconceito.
Além disso, um grupo de artistas visuais, formado por profissionais como designers e cineastas, recebeu acesso à ferramenta para dar suas contribuições sobre o que pode ser feito para torná-la útil para suas criações.
"O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]", afirma a OpenAI.
O Sora usa uma técnica chamada "difusão", que cria imagens a partir de pontos aleatórios. No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.
A técnica é parecida com a de robôs que conseguem criar fotos a partir de descrições dos usuários. Um deles é o DALL-E, que também foi criado pela OpenAI e serviu de base para o desenvolvimento do Sora.
"[O Sora] usa a técnica de recaptação do (robô) DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado", diz a OpenAI.
A empresa afirma que, além de criar vídeos do zero, seu novo modelo de inteligência artificial é capaz de criar continuações de vídeos existentes e gerar vídeos a partir de imagens estáticas. E admite que ele também tem "fraquezas".
Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. "Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida", explica.
"O modelo também pode confundir detalhes espaciais de um 'prompt', por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera."
