Dona do ChatGPT lança inteligência artificial que cria vídeos realistas

Por:

/ Publicado em 15/02/2024

Foto: Brookings

A OpenAI, criadora do robô ChatGPT, revelou nesta quinta-feira (15) um modelo de inteligência artificial que cria vídeos realistas a partir de texto curtos. Batizado de Sora, ele foi liberado para análises de especialistas e ainda não está disponível ao público.

"O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes", explica a OpenAI.

"O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico."

Demonstrações de criações do Sora incluem tanto animações quanto imagens com estilo realista (veja exemplos). Nenhum vídeo foi gravado por humanos, e sim gerado pela inteligência artificial a partir de pequenos textos, segundo a OpenAI.

Por exemplo, o vídeo que mostra um grupo de mamutes caminhando no gelo foi criado com a seguinte descrição:

"Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve ao longe, luz do meio da tarde com nuvens finas e um sol alto a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo."

Para diminuir riscos de uso indevido, a OpenAI promete adotar medidas de segurança antes de disponibilizar o Sora em seus produtos. Isso inclui o trabalho com especialistas em áreas como desinformação e conteúdo de ódio e preconceito.

Além disso, um grupo de artistas visuais, formado por profissionais como designers e cineastas, recebeu acesso à ferramenta para dar suas contribuições sobre o que pode ser feito para torná-la útil para suas criações.

"O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]", afirma a OpenAI.

O Sora usa uma técnica chamada "difusão", que cria imagens a partir de pontos aleatórios. No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.

A técnica é parecida com a de robôs que conseguem criar fotos a partir de descrições dos usuários. Um deles é o DALL-E, que também foi criado pela OpenAI e serviu de base para o desenvolvimento do Sora.

"[O Sora] usa a técnica de recaptação do (robô) DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado", diz a OpenAI.

A empresa afirma que, além de criar vídeos do zero, seu novo modelo de inteligência artificial é capaz de criar continuações de vídeos existentes e gerar vídeos a partir de imagens estáticas. E admite que ele também tem "fraquezas".

Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. "Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida", explica.

"O modelo também pode confundir detalhes espaciais de um 'prompt', por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera."

Deixe um comentário Cancelar resposta

Contato

Rua José e Maria Passos, nº 25
Centro - Palmeira dos Índios - AL.
(82) 99641-3231

TELEFONE FIXO - ESTUDIO:
(82)-3421-4842

SETOR FINANCEIRO: (82) 3421-2289 / 99636-5351
(Flávia Angélica)

COMERCIAL:
(82) 99344-9999
(Dalmo Gonzaga)

Dona do ChatGPT lança inteligência artificial que cria vídeos realistas

Deixe um comentário Cancelar resposta

Menu

Contato

Rede Sociais