IA é capaz de rotular comportamentos identificados em textos e vídeos

Pesquisadores do MIT, nos EUA, desenvolveram um novo sistema de inteligência artificial (IA) capaz de aprender conceitos compartilhados em vídeo, texto e áudio. Esse modelo de aprendizagem de máquina consegue identificar ações em uma sequência de imagens e rotulá-las, sem a ajuda de seres humanos.

Segundo os cientistas, essa rede neural artificial sabe que a imagem de um bebê chorando em um videoclipe está diretamente relacionada à palavra “chorando” e seus derivados em um arquivo de áudio, possibilitando uma identificação mais precisa e que ocorre em tempo real.

“O principal desafio é entender como uma máquina pode alinhar essas diferentes modalidades. Como seres humanos, isso é fácil. Vemos um carro, ouvimos o barulho dele passando e sabemos que são a mesma coisa. Mas para o sistema de aprendizagem de máquina isso não é tão simples assim”, explica o pós-doutorando em ciência da computação Alexander Liu, autor principal do estudo.

Imagem e som

O modelo de aprendizagem de máquina desenvolvido pelos pesquisadores do MIT consegue identificar onde uma determinada ação está ocorrendo em uma sequência de vídeo e relacioná-la ao seu som correspondente. Por exemplo, se um porco aparece correndo no clipe, o sistema entende que aquela imagem representa o áudio de alguém dizendo a palavra porco.

IA relaciona imagem do bebê com a palavra “chorando” (Imagem: Reprodução/MIT)

Para os cientistas envolvidos no estudo, essa técnica de identificação usando redes neurais artificiais pode ser utilizada no desenvolvimento de robôs inteligentes, capazes de entender conceitos do mundo real por meio da percepção de múltiplos fatores, com uma espécie de aprendizagem por experiências parecida com a dos seres humanos.

“Nosso modelo pega dados brutos — como vídeos e suas legendas de texto — e os codifica extraindo observações sobre objetos e ações. Em seguida, ele mapeia as informações em uma grade, conhecida como espaço de incorporação, para agrupar os pontos semelhantes em vetores representados por uma única palavra”, acrescenta Liu.

Limitando palavras

Para tornar o sistema mais preciso, os pesquisadores restringiram o modelo, fazendo com que ele pudesse usar apenas mil palavras para identificar as imagens correspondentes. Com isso, o algoritmo pode decidir quais ações ou conceitos deseja codificar dentro desse espectro, escolhendo as palavras que se encaixam melhor para representar elementos no vídeo.

Sistema utiliza um espectro de mil palavras para relacionar imagens, textos e sons (Imagem: Reprodução/MIT)

Em vez de codificar dados de diferentes modalidades em grades separadas, a IA emprega um espaço de incorporação compartilhado, com duas diretrizes codificadas em conjunto. Isso permite que o modelo aprenda a relação entre essas representações, então, se o vídeo mostra uma pessoa fazendo malabarismo, o algoritmo identifica em qual parte do áudio a palavra “malabarismo” é pronunciada.

“Assim como uma pesquisa no Google — em que você digita um texto e a máquina tenta adivinhar as coisas mais relevantes que você está procurando — nós apenas transferimos isso para o espaço vetorial. Nosso modelo ainda tem algumas limitações, como identificar objetos simples e ações diretas, mas esse é um passo importante para aplicações no mundo real”, encerra Alexander Liu.

FONTE: https://canaltech.com.br/inteligencia-artificial/ia-e-capaz-de-rotular-comportamentos-identificados-em-textos-e-videos-215716/