Uran @ 26.4.2015
Похоже со вчерашнего дня боту включили мягкий эксплойт RNR (Restricted Nash Response, "безопасный" эксплоит: расчет равновесия взвешивается моделью оппонента до степени достоверности в каждом контексте. Полученное решение, которое эксплоитит "верняк" и не дает себя обыграть во всех остальных случаях). Прямых данных на это пока нет, но множество косвенных. А это уже совсем другой покер.
TeelXp @ 27.4.2015
Почему ты так решил? Рук там не особо много что бы говорить о подстройки, да и ребята из Карнеги-Меллон вроде никогда не использовали RNR. В общем случае алгоритм у них скорее всего следующий: до ривера играть по равновесию, заранее рассчитанному в бакетах, на ривере используя информацию о поставленных сайзингах построить вменяемое по размерам дерево и посчитать его с флопа без бакетов.
Uran @ 27.4.2015
Равновесие ищется путем одновременного проходам по всем доскам, всем веткам с полным вектором состояний карт игроков, потом после такой глобальной итерации по всем состояниям системы происходит пересчет стратегии и новая итерация. Это как если бы мы посветили светом в калейдоскоп и посмотрели бы на полученное отражение, потом одновременно поменяли бы положение всех зеркал по определенному алгоритму и снова бы посмотрели как свет отразился во всех плоскостях, пока не нашли бы нужную нам картину.
Uran @ 27.4.2015
У тебя есть дерево. в каждом ноде, отображающем игровое действие с неким сайзингом, у тебя находятся стратегии для всевозможных состояний рук-доска с запоминанием порядка прихода карт. стратегия получается из такого параметра как сожаление. Чем выше сожаление тем реже данное действие будет применено для данной руки. за каждый проход вектора рук по всевозможным доскам и веткам игры редактируется стратегия сожаления и так итеративно с помощью его минимизации, находится равновесие.
Vinni121 @ 27.4.2015
1) Оппонент играет по нашей стратегии из предыдущей итерации?
2) Вроде возможно так, что данный алгоритм найдёт локально оптимальную стратегию, но не глобально. Если так, то все результаты пустышка.
Uran @ 27.4.2015
Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто.
Uran @ 27.4.2015
Может не RNR а Safe opponent exploitation не суть важно. Если играть до ривера предпросчитанный бакетинг, а ривер считать равновесие с флопа с контекстными сайзингами, то эксплойтабилити там будет адова и чтобы порвать эту хрень достаточно будет рега нл25, Райдер там явно нужен не будет.
Uran @ 27.4.2015
Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто. Это точная математика. Если из игры утекают деньги или наоборот притекают лишние то для таких ситуаций современная математика не позволяет найти гто. А вообще возможных гто стратегий для данной игры - бесконечное количество. Все они будут играть против друг друга в ноль и будут являться оптимальными.
Uran @ 28.4.2015
Да, если ввести рэйк в игру, то существующих математических методов уже будет не достаточно чтобы найти равновесие. Точно так же как если ввести в игру дополнительные деньги например в матче Утг вс бтн, при условии что блайнды сделают фолд.
Vinni121 @ 28.4.2015
это очень-очень-очень странно звучит. Не меняется вообще ничего, кроме выплат. Все алгоритмы должны остаться рабочими. Будет крайне интересно послушать предположения (ну или факты :) ) почему может быть не так.
Uran @ 28.4.2015
Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии
Uran @ 28.4.2015
Что происзойдет если мы запустим алгоритм в среде с "обычным" рэйком. В сумме стратегия получается минусовой и система будет стремиться к минимизации минуса. Это будет приводить к более тайтовой защите, на постфлопе реже будет ставиться кбет, часть рук из бета перейдут в чек, соответственно реже будет коллироваться ставка. Как это можно заэкслпойтить? Начать ставить больше. Эта стратегия тоже будет минусовая, но чуть менее минусовая чем расчетная.
Uran @ 28.4.2015
Получается что если мы делаем расчет равновесия в рэйковой среде и расчет равновесия без рэйка и далее сравниваем их в рэйковой среде, то равновесие расчитанное без рэйка проиграет меньше.
У тебя есть дерево. в каждом ноде, отображающем игровое действие с неким сайзингом, у тебя находятся стратегии для всевозможных состояний рук-доска с запоминанием порядка прихода карт. стратегия получается из такого параметра как сожаление. Чем выше сожаление тем реже данное действие будет применено для данной руки. за каждый проход вектора рук по всевозможным доскам и веткам игры редактируется стратегия сожаления и так итеративно с помощью его минимизации, находится равновесие.