Durante décadas, ensinar máquinas a jogar foi uma verdadeira vitrine da inteligência artificial. Em 1997, o mundo assistiu perplexo quando o Deep Blue, da IBM, venceu o campeão mundial de xadrez Garry Kasparov. Mais tarde, em 2016, o AlphaGo conquistou o mestre Lee Sedol no Go, um jogo considerado ainda mais complexo que o xadrez. Essas vitórias marcaram momentos históricos, mas tinham algo em comum: eram jogos de informação completa.
No xadrez e no Go, ambos os jogadores veem todas as peças no tabuleiro. Não há cartas escondidas, não há segredos. A complexidade está na quantidade astronômica de possibilidades, mas toda a informação necessária está ali, visível. A máquina pode calcular, analisar e escolher a melhor jogada baseada em dados completamente disponíveis.
O pôquer, por outro lado, é completamente diferente. É um jogo de informação incompleta, em que você não sabe quais cartas seu oponente possui. Mais do que isso: para vencer no pôquer, você precisa mentir. Precisa fazer seu oponente acreditar que você tem uma mão melhor (ou pior) do que realmente tem. Precisa blefar. E aí surge a pergunta: é possível ensinar uma máquina a mentir estrategicamente?
A ciência por trás do blefe
Para entender como as máquinas aprenderam a blefar, precisamos mergulhar na teoria dos jogos — uma área da matemática que estuda decisões estratégicas em situações em que o resultado depende não apenas das suas ações, mas também das ações dos outros. Foi desenvolvida por John von Neumann e Oskar Morgenstern na década de 1940 e revolucionou nossa compreensão sobre estratégia e competição.
O conceito central aqui é o equilíbrio de Nash, batizado em homenagem ao matemático John Nash (sim, o mesmo do filme “Uma Mente Brilhante”). O equilíbrio de Nash é uma situação na qual nenhum jogador tem incentivo para mudar sua estratégia unilateralmente. Em outras palavras, é quando todos estão jogando da melhor forma possível, considerando as estratégias dos outros.
No contexto do pôquer, isso significa encontrar a estratégia que, se seguida perfeitamente, torna você “invencível” no longo prazo. Essa abordagem é conhecida como GTO (Game Theory Optimal) — uma estratégia balanceada que inclui blefes na frequência matematicamente correta.
Aqui está o ponto crucial: no equilíbrio de Nash do pôquer, o blefe não é uma opção — é uma necessidade matemática. Se você nunca blefar, seus oponentes sempre saberão que você só aposta quando tem uma mão forte, e vão parar de pagar suas apostas. Se você blefar demais, eles sempre pagarão e você perderá dinheiro com mãos fracas. A estratégia ótima encontra o ponto exato entre esses extremos.
A revolução dos solvers
A aplicação prática dessa teoria só se tornou possível com o desenvolvimento dos solvers — programas de computador capazes de simular milhões de mãos de pôquer e encontrar estratégias próximas ao equilíbrio de Nash. Esses sistemas funcionam construindo uma gigantesca árvore de decisões que representa todas as possíveis sequências de ações em uma mão de pôquer.
Imagine uma árvore onde cada galho representa uma decisão: apostar, passar, pagar ou desistir. A cada galho, novos galhos surgem representando as possíveis respostas dos oponentes. O que começou como uma única situação rapidamente se transforma em bilhões de cenários diferentes. Para cada situação, o solver calcula não apenas a melhor ação, mas também a frequência ideal para cada decisão.
Os solvers trabalham com o conceito de ranges — em vez de pensar em cartas específicas, eles consideram todas as possíveis combinações de cartas que um jogador pode ter em determinada situação. Por exemplo, quando um jogador faz uma aposta grande, seu “range” pode incluir 60% de mãos fortes e 40% de blefes. O solver determina exatamente quais mãos devem ser usadas como blefe e com que frequência.
O algoritmo mais utilizado é o CFR (Counterfactual Regret Minimization), que funciona de forma similar ao aprendizado por tentativa e erro. O programa joga contra si mesmo milhões de vezes, sempre ajustando sua estratégia para minimizar o “arrependimento” — a diferença entre o que ganhou e o que poderia ter ganhado se tivesse tomado decisões diferentes.
Em 2017, o Libratus, desenvolvido pela Universidade Carnegie Mellon, fez história ao vencer os melhores jogadores profissionais do mundo em um match que durou 20 dias. O programa não apenas venceu — dominou, ganhando mais de 1,7 milhão de dólares em fichas. Dois anos depois, o Pluribus foi ainda mais longe, vencendo simultaneamente múltiplos profissionais em mesas de seis jogadores.
O mais impressionante é que essas máquinas descobriram quando e como blefar sem nunca terem sido explicitamente programadas para isso. Elas chegaram a essa conclusão puramente através da matemática, provando que o blefe não é apenas um truque psicológico, mas uma necessidade estratégica fundamental.
Muito além do pôquer
A capacidade de lidar com informação incompleta e tomar decisões estratégicas em ambientes incertos não se limita às mesas de pôquer. Os mesmos princípios matemáticos estão sendo aplicados em áreas surpreendentemente diversas.
No mundo das finanças, algoritmos baseados em teoria dos jogos otimizam estratégias de trading, considerando não apenas os dados do mercado, mas também as possíveis ações de outros investidores. Eles aprenderam que, assim como no pôquer, às vezes vale a pena “blefar” — fazer movimentos que não refletem completamente suas informações privadas para confundir a concorrência.
Na segurança cibernética, esses sistemas ajudam a defender redes de computadores contra ataques. Eles precisam decidir onde alocar recursos de defesa sem saber exatamente onde e quando um ataque pode ocorrer. A estratégia ótima envolve uma mistura de medidas defensivas reais e “blefes” — sinais falsos que confundem potenciais atacantes quanto aos verdadeiros pontos fracos do sistema.
Em negociações comerciais, algoritmos auxiliam empresas a determinar estratégias ótimas de barganha. Eles calculam quando revelar informações verdadeiras, quando omitir dados e quando recorrer a táticas de desinformação estratégica — tudo baseado nos mesmos princípios matemáticos que governam o blefe no pôquer.
A medicina personalizada também se beneficia dessa abordagem. Quando os médicos precisam escolher tratamentos sem ter informações completas sobre como um paciente responderá, algoritmos baseados em teoria dos jogos ajudam a encontrar estratégias que são robustas mesmo diante da incerteza.
O futuro da inteligência estratégica
A conquista do pôquer pelas máquinas representa muito mais do que uma vitória em um jogo. Ela demonstra que a inteligência artificial pode dominar habilidades que tradicionalmente considerávamos exclusivamente humanas: a capacidade de lidar com incerteza, de tomar decisões com informações incompletas e, sim, de mentir estrategicamente.
Jogos como o pôquer ensinam as IAs a navegar em um mundo onde nem tudo é conhecido, em que outros agentes inteligentes estão constantemente tentando enganá-las, e onde a melhor estratégia muitas vezes envolve algum grau de desinformação. Essas são habilidades fundamentais para operar no mundo real, em que a informação perfeita é a exceção, não a regra.
O que torna essa conquista ainda mais fascinante é que ela emergiu naturalmente da matemática pura. Nenhum programador ensinou essas máquinas a blefar — elas descobriram sozinhas que essa era a estratégia ótima. Isso sugere que o engano estratégico não é uma falha moral humana, mas sim uma característica fundamental de sistemas inteligentes operando em ambientes competitivos. No final das contas, a jornada das máquinas desde o xadrez até o pôquer não é apenas sobre vitórias em jogos — é sobre compreender que a inteligência não está em conhecer tudo, mas em saber agir quando não se conhece nada.

