Treinamento impressionou cientistas pelo nível de destreza manual atingido pela máquina
Uma mão robótica praticou manusear um cubo por uma centena de anos para adquirir destreza. O mais surpreendente é que esses anos de treinamento foram simulados em um ambiente virtual e consumiram apenas 50 horas no mundo real. A técnica foi testada com sucesso por cientistas da OpenIA, uma organização de pesquisas com inteligência artificial sem fins lucrativos.
O feito chama a atenção por dois lados. O primeiro é que a mão robótica atingiu um nível de destreza avançado. É claro que ela ainda não é capaz de movimentar o cubo com a mesma habilidade que um humano. Mesmo assim, os vídeos mostram um grau avançado de destreza manual adquirida.
Mas, talvez, o mais importante seja o teste bem-sucedido do treinamento virtual. “Nossos resultados mostram que é possível treinar agentes em simulações e fazer com que eles resolvam tarefas no mundo real sem um modelo com a acuidade física do nosso mundo”, escrevem os pesquisadores.
Todo o aprendizado, é importante dizer, foi realizado de forma autônoma pela inteligência artificial. A equipe destaca que, após décadas de desenvolvimento, robôs ainda não são capazes de realizar movimentos com agilidade e precisão. A pesquisa, portanto, traria novas possibilidades de avanço nessa área.
Nos testes, os pesquisadores desafiavam o robô a reorientar o objeto em sua mão—usavam principalmente blocos de madeira ou um prisma. O sistema robótico desenvolvido se chama Dactyl e foi criado por pesquisadores da OpenAI, que tem sede no Vale do Silício. A tecnologia combina uma mão robótica desenvolvida no Reino Unido, uma câmera tradicional e o algoritmo. O segredo todo está nesse último ingrediente.
A ordem dada ao robô era de que o objeto deveria ser colocado em uma nova posição que fosse diferente da original. Por meio de tentativa e erro, em simulações virtuais, Dactyl pode entender o que funcionaria e o que não funcionaria para atingir aquele objetivo.
A técnica aplicada pela OpenAI foi de aprendizado por reforço (reinforcement learning). Ela toma como inspiração o aprendizado de animais por feedback positivo. É a mesma técnica que a AlphaGo usou para desenvolver o robô capaz de vencer jogadores humanos no jogo Go.
Abaixo você pode assistir a um vídeo sobre o projeto, em inglês: