Inteligência artificial já venceu os melhores jogadores de pôquer

Depois de vencer o homem no xadrez, a inteligência artificial dominou no pôquer, e nós explicamos, neste artigo, como isso foi possível

Eduardo Yukio Harada

schedule25/11/2019, às 12:07

Fonte:

Imagem de Inteligência artificial já venceu os melhores jogadores de pôquer no tecmundo

A inteligência artificial é uma ciência que começou a ser explorada há pouco tempo. Apesar disso, já conseguimos testemunhar avanços extraordinários nessa área, mostrando o potencial que os estudos sobre o assunto podem trazer para a humanidade.

Um dos feitos mais impressionantes da IA, através da máquina Deep Blue, foi ter conseguido rivalizar (e quase superar) com o maior jogador de xadrez do mundo. Garry Kasparov passou por uma situação bastante delicada em 1997, quando enfrentou a máquina da IBM, momento que muitos assumem que a inteligência artificial finalmente superou o ser humano.

Mas e em outras modalidades esportivas, como o pôquer, será que a IA seria capaz de confrontar o homem? O time de conteúdo do site de jogos de cassino online Betway, fez um levantamento e chegou às informações a seguir.

Por que no pôquer seria diferente?

Embora pareça ser fácil acreditar que a inteligência artificial poderia apresentar um bom desempenho no pôquer, da mesma forma que no xadrez, isso não é totalmente verdade. O jogo de cartas é um esporte bem diferente do jogo de tabuleiro.

No xadrez, todas as informações estão disponíveis no tabuleiro. Para a IA, fica fácil calcular e explorar as milhares de jogadas disponíveis após cada movimento, e é com base nisso que a máquina começa a se tornar boa nessa modalidade. Porém, no pôquer, como em muitos jogos de cartas, a imprevisibilidade é um fator determinante para a derrota e para a vitória.

Durante a partida, as únicas informações disponíveis para o jogador são a composição da própria mão (com duas cartas) e as cinco cartas que são abertas na mesa. A fluidez com que o jogo pode evoluir é outra constante que precisa ser levada em conta.

É possível começar um jogo com uma “mão ruim”, mas descobrir que ela é excelente com base nas cartas que vão sendo viradas. Um bom jogador de pôquer precisa saber trabalhar com essa imprevisibilidade e tomar as decisões certas com base nisso. Esse também é o desafio da inteligência artificial.

Os desafios da IA para vencer no pôquer

A complexidade do pôquer foi o motivo pelo qual demorou tanto para que surgisse uma máquina capaz de rivalizar com o homem na modalidade mais famosa do jogo, o Texas Hold’em. Nesse estilo, cada jogador recebe duas cartas; na sequência, outras cinco são abertas na mesa: primeiro três juntas (flop), depois duas (turn e river), uma de cada vez.

Entre cada etapa pode haver apostas dos jogadores, e o objetivo é montar o melhor jogo possível juntando cinco cartas (da mão e da mesa). Nessa modalidade, há algumas variações: é possível, por exemplo, ter apostas com ou sem limite e ter uma mesa com vários jogadores, o que é o cenário visto na maioria dos campeonatos. Porém, a variável heads up (também conhecida como mano a mano) é praticamente um jogo diferenciado. Nela, dois jogadores se enfrentam até que um perca.

Vinicius Marques, mestre internacional em xadrez e jogador profissional de pôquer, explica a complexidade das variações: “O jogo sem limites é mais técnico porque você desenvolve outras habilidades e tem mais recursos. Quanto menor é o número de jogadores na mesa, há mais habilidade [envolvida], porque a probabilidade de alguém ter jogos altos é baixa. Quanto mais jogadores houver na mesa, mais seletivo você tem que ser com as mãos, porque a chance de alguém ter recebido um jogo muito bom é maior. O heads up é um jogo à parte, e o mais importante é se adaptar ao estilo do seu adversário, mas sempre com uma conduta agressiva”.

A primeira máquina a vencer no pôquer

Considerando as variações de Texas Hold’em, o mano a mano com limites é o modo mais simples. Nesse estilo, uma máquina enfrenta um jogador, e as opções de aposta são restritas. Foi com base nisso que a Universidade de Alberta, no Canadá, conseguiu desenvolver o Cepheus, o primeiro sistema capaz de enfrentar qualquer um em uma partida longa dessa modalidade e terminar com mais dinheiro.

O grupo de pesquisa dedicado a esse sistema desenvolve programas desde 1997 e chegou ao resultado que deu origem ao Cepheus em 2015. O robô passou 2 meses jogando bilhões de mãos e construindo uma base dados com as cartas recebidas, as decisões de apostas e os resultados.

Ao fim do extensivo treinamento, a IA tinha um registro de todas as mãos possíveis e de quais decisões geraram benefícios e quais geraram prejuízos, mas os pesquisadores ainda não estavam contentes com o resultado, especialmente considerando que havia outras variantes do pôquer a serem superadas. Algo parecia estar faltando, e quem conseguiu sintetizar o problema foi Marlos Machado. O brasileiro, que fez doutorado em IA em Alberta, onde teve contato com o grupo que criou o Cepheus, disse o seguinte: “O que acontece é que a larga maioria dos programas de pôquer, desde 2007, sempre tentou chegar ao Equilíbrio de Nash”.

O equilíbrio não é a vitória

John Nash recebeu o prêmio Nobel de Ciências Econômicas por suas contribuições à Teoria dos Jogos, o ramo da matemática que estuda a tomada de decisão e as estratégias adotadas por jogadores para melhorar os seus retornos. A pesquisa de Nash encontrou o ponto de equilíbrio.

Equilíbrio? Machado explica que essa é a situação na qual “nenhum dos jogadores tem incentivo para sair desse equilíbrio. Se fizerem qualquer coisa fora da ação que estão criando, vão sofrer mais”. Existe uma história que ilustra muito bem essa situação.

Imagine que dois suspeitos são presos pela polícia por terem cometido um crime. As autoridades não têm provas suficientes para condená-los e por isso os coloca em salas separadas para tentar um acordo. Se apenas um confessar e trair o outro, sai livre e o colega pega 10 anos de prisão; se ambos confessarem, cada um é sentenciado a 5 anos de prisão; se os dois ficarem quietos, pegam 1 ano de prisão cada. Sem que haja comunicação entre os presos, eles precisam tomar a decisão: confessar ou ficar em silêncio?

A melhor estratégia, nesse caso, é confessar, independentemente do que o outro fará. Machado explica como o princípio de Nash se aplica nessa situação: “Se você estiver atuando conforme o Equilíbrio de Nash, tem a garantia de que não vai sofrer, não importa o que o outro estiver fazendo”. Mas o que tudo isso tem a ver com o pôquer?

Durante uma partida de pôquer, “há garantias teóricas de que [os jogadores] chegarão ao Equilíbrio de Nash, se tiverem tempo. Em termos técnicos, a taxa de convergência para esse equilíbrio foi mais rápida. Em 2015, havia muito mais computação disponível. No final, o Cepheus gastou aproximadamente 1 mil anos de computação para chegar ao Equilíbrio de Nash”; tudo isso dentro da modalidade com limite do mano a mano. Mas e na modalidade sem limite?

Nessa variação, o número de possibilidades aumenta exponencialmente. “Se eu puder apostar qualquer quantidade e você puder apostar todas as quantidades, há possibilidades demais, então a estratégia tem que ser um pouco diferente porque não dá para usar as mesmas abordagens do passado”, explica Machado. “No pôquer heads up sem limite, o número de possibilidades de combinação é maior que o número de átomos no universo. Se você quisesse usar um átomo para armazenar cada possibilidade, não haveria átomos (suficientes) no universo”. Ou seja, o tamanho do problema para a inteligência artificial é gigantesco.

As máquinas que venceram os melhores jogadores de pôquer

Embora a complexidade pareça ser grande para as máquinas de inteligência artificial, elas já conseguem superar os seres humanos na variação mano a mano sem limites. Em 2017, dois programas conseguiram esse feito quase ao mesmo tempo.

O DeepStack, da Universidade de Alberta, derrotou 11 adversários em 44 mil mãos de pôquer. A Universidade Carnegie Mellon, de Pittsburgh, anunciou que o seu programa, chamado Libratus, venceu uma maratona de 20 dias contra 4 dos melhores jogadores profissionais do mundo.

Tudo isso parece muito impressionante, mas será que uma IA poderia vencer um jogo de pôquer Texas Hold’em sem limites em uma mesa com múltiplos jogadores? Neste ano, os desenvolvedores do Libratus conseguiram dar esse passo além e finalmente criaram uma máquina capaz desse feito incrível.

O Pluribus foi testado contra 13 profissionais, 5 por vez contra a máquina, que ganhou aproximadamente 5 big blinds (a maior das duas apostas obrigatórias em cada mão, frequentemente usada como métrica) a cada 100 mãos de pôquer.

Mas como essa inteligência artificial foi capaz de sair de uma situação tão adversa e com possibilidades quase infinitas? Os criadores da máquina fizeram o Pluribus atuar contra si mesmo. No início, jogadas completamente aleatórias foram proporcionando estratégias cada vez melhores até que o programa finalmente entendeu quais ações geravam mais lucros.

Para eliminar o “componente humano das emoções”, a inteligência artificial foi programada para variar táticas. Se adotasse sempre a mesma ou nunca blefasse, seria facilmente lido pelos adversários. Mesmo que tenha incorporado essa característica do ser humano (a imprevisibilidade), o Pluribus não tem emoções, como medo, o que garantiu que a máquina conseguisse realizar apostas maiores do que as habituais, maximizando seus ganhos quando tinha boas mãos.

“O pôquer é um jogo de pessoas antes de cartas e é guiado por três pilares: caótico (o homem), aleatório (o baralho) e ciência (a estratégia). É um jogo de lógica difusa, e essa modelagem matemática se complica pelo fator caótico, não a bagunça, mas uma pequena mudança que altera o resultado. Ou seja, o computador ajuda muito a resolver dois dos pilares (aleatório e caótico), e o homem ainda é preponderante na questão caótica”, comenta Marques. Para ler mais sobre o assunto, confira outros artigos no Betway Insider.

info

Conteúdo patrocinado produzido pelo TecMundo.