Após ChatGPT e Dall-E, inteligência artificial generativa rompe nova fronteira: criar vídeos

Startup Runway anuncia novo sistema, o Gen 2, que gera videoclipes de segundos a partir de uma descrição em texto. E já trabalha para fazer versões com áudio.

Inteligência Artificial fez um progresso notável com imagens estáticas. Por meses, serviços como o Dall-E e o Stable Diffusion criaram fotografias lindas, impressionantes e algumas vezes assustadoras. O Chat-GPT, de textos, já se popularizou de forma significativa. Agora, a startup Runway AI Inc. está partindo para a próxima etapa: criar vídeos artificialmente.

Nesta segunda-feira, a Runway anunciou o seu novo sistema, Gen 2, que é capaz de gerar pequenos trechos de vídeo a partir de algumas palavras escritas pelo usuário. Internautas conseguem digitar uma descrição do que querem ver, como, por exemplo, “um gato andando na chuva”, e o sistema vai gerar um clipe de três segundos mostrando exatamente isso, ou algo próximo. Também é possível anexar uma imagem como ponto de referência.

A Runway anunciou que o Gen 2 vai funcionar através de uma lista de espera: as pessoas podem se inscrever para acessá-lo em um canal privado do Discord ao qual a empresa planeja adicionar mais usuários a cada semana.

O lançamento é o maior destaque da geração de texto para vídeo fora de um laboratório. Tanto o Google quanto a Meta Platforms Inc. mostraram seus próprios esforços de conversão de texto em vídeo no ano passado — com videoclipes curtos apresentando, por exemplo, um ursinho de pelúcia lavando pratos ou um veleiro em um lago. Mas nenhuma das empresas anunciou planos para lançar o sistema além da fase de pesquisa.

A Runway vem trabalhando em ferramentas de inteligência artificial desde 2018 e arrecadou US$ 50 milhões no ano passado. A startup ajudou a criar a versão original da Stable, um modelo de inteligência artificial texto-para-imagem que desde então foi popularizado e desenvolvido pela empresa Stability AI.

Em uma demonstração ao vivo na semana passada com o cofundador e Diretor Executivo da Runway, Cris Valenzuela, o Gen 2 foi colocado à prova com o pedido por uma “filmagem de drone de uma paisagem desértica”.

Em questão de minutos, o Gen 2 criou um vídeo de apenas poucos segundos e levemente distorcido, que inegavelmente parecia ser uma filmagem de drone sobre uma paisagem desértica. Aparecia um céu azul com nuvens no horizonte e o sol no canto direito do vídeo, com seus raios destacando as dunas marrons abaixo.

Vários outros vídeos que o Runway gerou mostram alguns pontos fortes e fracos do sistema: uma imagem em close de um globo ocular parece nítida e bastante humana, enquanto um clipe de um caminhante na selva mostra que ainda há problemas para gerar pernas de aparência realista e movimentos de caminhada. O modelo ainda não descobriu como retratar com precisão objetos em movimento, disse Valenzuela.

“Você pode gerar uma perseguição de carro, mas às vezes os carros podem voar”, disse ele.

Embora comandos mais longos possam levar a uma imagem mais detalhada em um modelo de texto para imagem, como o DALL-E ou Stable Diffusion, Valenzuela disse que comandos mais simples funcionam melhor com o Gen 2.

A ferramenta se baseia em um modelo já existente, chamado Gen 1, que a Runway começou a testar no Discord em fevereiro. Valenzuela disse que hoje o grupo conta com milhares de usuários. Esse modelo de IA exige que os internautas carreguem uma imagem como fonte de entrada, que será usado, junto com o comando em texto, para gerar um vídeo silencioso de 3 segundos. Você pode enviar uma foto de um gato perseguindo um brinquedo, por exemplo, junto com o texto “estilo fofo de crochê”, e o Gen 1 criaria um vídeo de um gato de crochê perseguindo um brinquedo.

Vídeos criados com o Gen 1 também são silenciosos, mas Valenzuela disse que a empresa está fazendo pesquisas quanto à geração de áudio, esperando, eventualmente, criar um sistema capaz de gerar vídeos e sons.

O lançamento do Gen 2 mostra a velocidade e a ferocidade com que essas startups estão tocando as chamadas ferramentas de inteligência artificial generativa, sistemas que recebem comandos do usuário e geram novos conteúdos, como texto ou imagens.

Muitos desses sistemas — tais como Stable Diffusion, juntamente com o Dall-E, gerador de imagens da OpenAI Inc., e o chatbot ChatGPT — foram disponibilizados ao público e se tornaram massivamente populares em meses recentes. Ao mesmo tempo, essa difusão levou a preocupações éticas e legais.

Hany Farid, especialista em forense digital e professor da Universidade da Califórnia, Berkeley, deu uma olhada em alguns vídeos do Gen 2 e os considerou “super legais”, mas acrescentou que é apenas uma questão de tempo até que os vídeos criados com esse tipo de tecnologia sejam mal utilizados.

“As pessoas vão tentar fazer coisas ruins com isso”, disse Farid.

A Runway está usando uma combinação de IA e moderação humana para impedir que os usuários gerem vídeos com Gen 2 que incluam pornografia, conteúdo violento ou que violem direitos autorais, embora esses métodos não sejam infalíveis.

Como no resto da indústria de IA, a tecnologia está progredindo rapidamente. Embora a qualidade da imagem do Gen 2 seja um pouco embaçada e instável, deixando fácil perceber que há algo diferente em um vídeo criado, Valenzuela espera que melhore rapidamente.

“É cedo”, disse ele. “O modelo vai melhorar com o tempo.

FONTE: https://oglobo.globo.com/economia/noticia/2023/03/apos-chatgpt-e-dall-e-a-proxima-fronteira-da-inteligencia-artificial-generativa-e-criar-videos.ghtml