IA treina virtualmente ‘por 100 anos’ para aprender a manusear objetos

MÃO ROBÓTICA QUE USA SISTEMA DE IA DACTYL PARA APRENDER A MANUSEAR OBJETOS (FOTO: DIVULGAÇÃO/OPENAI)

Treinamento impressionou cientistas pelo nível de destreza manual atingido pela máquina

Uma mão robótica praticou manusear um cubo por uma centena de anos para adquirir destreza. O mais surpreendente é que esses anos de treinamento foram simulados em um ambiente virtual e consumiram apenas 50 horas no mundo real. A técnica foi testada com sucesso por cientistas da OpenIA, uma organização de pesquisas com inteligência artificial sem fins lucrativos.

O feito chama a atenção por dois lados. O primeiro é que a mão robótica atingiu um nível de destreza avançado. É claro que ela ainda não é capaz de movimentar o cubo com a mesma habilidade que um humano. Mesmo assim, os vídeos mostram um grau avançado de destreza manual adquirida.

Mas, talvez, o mais importante seja o teste bem-sucedido do treinamento virtual. “Nossos resultados mostram que é possível treinar agentes em simulações e fazer com que eles resolvam tarefas no mundo real sem um modelo com a acuidade física do nosso mundo”, escrevem os pesquisadores.

Todo o aprendizado, é importante dizer, foi realizado de forma autônoma pela inteligência artificial. A equipe destaca que, após décadas de desenvolvimento, robôs ainda não são capazes de realizar movimentos com agilidade e precisão. A pesquisa, portanto, traria novas possibilidades de avanço nessa área.

Nos testes, os pesquisadores desafiavam o robô a reorientar o objeto em sua mão—usavam principalmente blocos de madeira ou um prisma. O sistema robótico desenvolvido se chama Dactyl e foi criado por pesquisadores da OpenAI, que tem sede no Vale do Silício. A tecnologia combina uma mão robótica desenvolvida no Reino Unido, uma câmera tradicional e o algoritmo. O segredo todo está nesse último ingrediente.

A ordem dada ao robô era de que o objeto deveria ser colocado em uma nova posição que fosse diferente da original. Por meio de tentativa e erro, em simulações virtuais, Dactyl pode entender o que funcionaria e o que não funcionaria para atingir aquele objetivo.

A técnica aplicada pela OpenAI foi de aprendizado por reforço (reinforcement learning). Ela toma como inspiração o aprendizado de animais por feedback positivo. É a mesma técnica que a AlphaGo usou para desenvolver o robô capaz de vencer jogadores humanos no jogo Go.

Abaixo você pode assistir a um vídeo sobre o projeto, em inglês:

FONTE: ÉPOCA