A DeepMind, subsidiária da Alphabet e “irmã” da Google, apresentou em um estudo a sua nova iniciativa no âmbito das inteligências artificias. Trata-se de um sistema capaz de ensinar robôs a aprenderem coisas por conta própria, sem qualquer interferência humana no processo.

Conforme explica em uma postagem no seu blog oficial, o sistema chamado de Scheduled Auxiliary Control (SAC-X) visa superar limitações impostas pela complexidade do processo de aprendizagem. Ele parte do princípio básico de que, para aprender a fazer algo, é preciso ter noção de uma base de habilidades prévias, “tal qual uma criança deve desenvolver coordenação e equilíbrio antes de engatinhar ou andar”, informa.

Apresentado como “um novo paradigma de aprendizagem”, o SAC-X segue o princípio básico de aprendizagem por demonstração. Para isso, ele combina sensores de pressão, toque e visuais sobre um sistema binário de recompensas (um é quando o objetivo é atingido, zero é quando o objetivo não é atingido). O mais curioso aqui é que o robô em questão é quem decide qual o seu objetivo, ou seja, o que ele deve fazer logo após concluir uma tarefa.

SAC-XVersão de software do SAC-X ativa sensores, identifica os objetos, aprende a empilhá-los e, por fim, guarda tudo.

Aprendizagem por repetição

A empresa explica ainda que o agente é capaz de aprender a partir dos sinais de recompensa que desenvolve, levando essa informação em conta na hora de realizar outras tarefas. Ele faz isso usando uma técnica de aprendizagem baseada em repetição de forma de forma ostensiva.

“Por exemplo, quando pega ou move um objeto, o agente pode empilhá-lo de forma acidental, levando a uma observação de recompensa pelo ‘empilhamento’”, explica a DeepMind. “Como a sequência de tarefas simples pode levar a observação de uma recompensa externa rara, a habilidade de programar intenções é crucial. Isso pode criar um currículo personalizado baseado em aprendizagem em todos os conhecimentos tangenciais que ele coleciona”, completa.

Aprendizagem de aprendizagem

O SAC-X é dotado de um algoritmo de meta-aprendizado (aprendizagem de aprendizagem), ou seja, uma sequência de diretrizes capaz de aprimorar o processo de realizações de tarefas. Isso permitiu a ele encontrar meios de realizar uma ação simples durante a fase de testes — organizar uma mesa com dois blocos — tendo como parâmetro apenas o objetivo final — guardar tudo.

SAC-XVersão real do SAC-X consegue organizar a mesa mesmo sem nunca ter sido treinado para isso.

Até então, esse tipo de experimento usava um conjunto pré-treinado de software que era replicado ao robô. Agora, ele apenas sabia o que precisava ser feito e encontrou um meio de fazê-lo levando em conta todos os aspectos percebidos por seus sensores e por sua “experiência”.