Inteligência artificial desenha rostos a partir de descrições em texto

Um programador chamado Animesh Karnewar criou um sistema de inteligência artificial capaz de fazer algo semelhante a um “retrato falado”. A proposta inicial era fazer com que o computador fosse capaz de criar uma imagem a partir da descrição em texto, possibilitando que ele desse rosto a personagens ficcionais de livros. Com isso, ele criou o T2F (sigla que vem de texto para rosto, em tradução em inglês).

Karnewar usa de uma técnica chamada de generative adversarial network (GAN). Aqui, são usadas duas redes neurais que se monitorarem a respeito de uma produção. O exemplo dado por ele é o seguinte: imagine que a rede 1 precisa tentar enganar a rede 2 a acreditar que uma imagem renderizada é uma fotografia real. Ao mesmo tempo, a rede 2, precisa provar para a rede 1 que aquela imagem é real e não apenas uma construção digital.

A proposta é usar este sistema para testar imagens de forma que fique tão perfeita que não consiga mais enganar a rede 2. Este é apenas um exemplo de várias funções que estas duas redes exercem juntas.

Como um sistema de inteligência artificial geralmente precisa de um banco de dados para aprendizado, Karnewale utilizou já um estudo da Universidade de Copenhagen que levantou quais termos são geralmente usados por usuários para descrever imagens de rostos humanos. A proposta deste trabalho era exatamente fornecer uma biblioteca de expressões para serem ensinados a uma IA. Ao todo, foram usadas descrições de 400 imagens aleatórias.

Assim, atualmente o T2F consegue fornecer algumas imagens que, embora ainda não sejam essencialmente verossímeis, são uma representação cartunesca em algo que se assemelha a pixel art de um texto.

Resultados da produção e suas respectivas descrições (Foto: Divulgação)

De acordo com Karnewar, ele optou por fazer imagens com resolução menor, pois quanto maior o número de pontos, mais é preciso alimentar o sistema. Dessa forma, as 400 imagens e suas descrições não são suficientes para avançar em termos de resolução.

O trabalho dele ajudou a testar o sistema chamado de GAN chamado de crescimento progressivo. Isto é, o sistema sozinho é capaz de aprimorar suas análises e criações do zero. Assim, o T2F não usa uma uma imagem como base, mas vai adicionando ponto a ponto por este sistema de conferência neural duplo, de forma que os detalhes vão crescendo em relação ao tempo e quantidade de informações para análise.

O resultado, embora ainda muito longe de realista, oferece uma impressão muito fiel da descrição apresentada. Mais voltado a uma representação artística da descrição, lembra muito a desenhos e personagens usados em jogos de videogame.

Esta técnica, contudo, ainda tem um outro problema relacionado ao bancos de dados. Atualmente, só funciona com descrições muito bem codificadas em inglês. Contudo, o próximo passo da pesquisa é utilizar outros repositórios e até mesmo fotos com descrição para cegos com o objetivo de aprimorar o sistema.

O objetivo final é poder utilizar tal ferramenta não só para a criação de imagem de personagens fictícios, mas utilizar realmente este sistema como método de retrato falado para a polícia e outros projetos.

Caso haja interesse, todo o desenvolvimento do T2F está descrito na página de Karnewar no GitHub.

FONTE: CANAL TECH