c00l0ne, А можешь четко сформулировать задачу. Тебе нужен алгоритм для поиска минимально эксплуатируемой стратегии в чистых стратегиях?
SnowBeaver, Так все верно ты написал. ГТО стратегия это равновесие Нэша, которое существует в смешанных стратегиях в играх с нулевой суммой для 2х игроков. Для в чистых стратегиях нет равновесия, как можно убедиться из игры камень-ножницы-бумага. Или классический пример из покера: у тебя борд 22333. У первого игрока диапазон QQ и AA, у второго KK, банк 1 и стеки 1. Тогда равновесная стратегия первого игрока ставить 50% QQ и все АА, у второго 50% колл KK.
vasyavoron, я сначала написал тоже про камень-ножницы-бумагу, но потом затёр :)
под кофеек цейтнотов не стало приходиться лудокатать:
винрейт 99%
асу ждаю такие игры где есть выплаты джекпотов и много баинов...
можно всю жизнь играть и не выиграть ... того что вам положено...
SnowBeaver @ 05.06.26AI для написания данного поста не использовался :)
ну ты блин даешь )
SnowBeaver @ 05.06.26общем случае не решаема
чего? все решаемо
SnowBeaver @ 05.06.26можно подобрать такую игру и такие 6 рук для каждого из двух игроков
да не нужно ничего подбирать , для любых произвольных спотов
SnowBeaver @ 05.06.26Типа вот для одного игрока зафиксировал какой-то вектор, считаешь эксплуатирующую стратегию для второго игрока, округляешь её чтобы она была без весов
это ты про cfr , посчитать cfr и дать округление , смотри это не сработает
допустим у нас ставят ВЕЛЬЮ + блефы , велью ставят 90% а блефы 10% при округлении получим ВЕЛЬЮ =100% блефы =0
блефы 0 пропали, у нас эксплуатация такой стратегии сразу взрывается , в нас ставят велью и 0 блефов = эксплойтим фолдим все, чтобы добавить блеф со 100% тебе надо изменить полностью стратегию ) а полностью менять стратегию можно либо полным перебором прям перебирать каждую комбу менять ход , подбирать диапазоны, подбирать ответ оппонента, считать эксплуатацию находить минимум запоминать...
это классическая задача maxmin
SnowBeaver @ 05.06.26Я могу ошибаться конечно же. Сужу исключительно из своего понимания "как это работает". Ну и я когда-то пробовал такой эксперимент сам. Когда-то он был практическим. Но принципиальный вопрос не "как решить задачу" здесь, а ответить на вопрос - "имеет ли задача решение хоть при каких-то входных условиях". Технически подобрать игру в которой будет малое количество рук в диапазонах игроков и упрощённая игра, которая никогда не сойдётся с округлёнными до 0/1 весами думаю не сложно.
воды пролил)
пс вот и получается игроки в холдем не могут построить сильную стратегию 6 комб на 6 комб ) на ривере) без рандомайзеров)
vasyavoron @ 05.06.26c00l0ne, А можешь четко сформулировать задачу. Тебе нужен алгоритм для поиска минимально эксплуатируемой стратегии в чистых стратегиях?
+ (не обязательно в чистых, ну взять веса {0; 0.5; 1} эта таже задача дискретного представления , взять веса { 0 ; 0.25 ; 0.5; 0.75; 1} тоже самое ... фиксированное число весов ...
ждем mythos'a посмотрим справится ли ИИшка )
тут нужно создать новую математику, нужно связать комбинаторику с какими-то граничными условиями , по которым мы протоптаем дорожку к оптимальным стратегиям... чтобы полностью не перебирать все ветки...
второй путь я вижу через нейросети опять же , обучить на солвере mip нейросеть , которая +- что-то ограничивает и относительно этих ограничений уже пробовать искать решение ...
вот тогда решится холдем и омашка) в дискретном виде, в котором она и нужна в принципе...
SnowBeaver, как codex закончит доказывать (думаю еще неделя) по этой теме утверждения и матчасть я накидаю пост ... по дискретным представлениям игры ... уже есть что написать но хочется конечно доделать много чего еще ...
SnowBeaver @ 05.06.26vasyavoron, я сначала написал тоже про камень-ножницы-бумагу, но потом затёр :)
вот вы прицепились к камням и ножницам и бумагаам )))
ну возьмите (0;0.5;1) веса вот решите задачу как оптимально находить стратегию в камни ножницы бумаги
важен то алгоритм а не задача)
вот с чего начинать
камню ставим 0.5 вес ножницам 0.5 вес ? а почему , по каким условиям , почему мы делаем такую стартовую точку?
а точно эта стартовая точка сведется к оптимальному решению? или мы просто перебираем решения ? или просто рандомно выбираем стратегию?
а может стартовая точка лучше 1 камень и 0 ножницы и быстрее сведется к оптимальному решению ?
как дальше будем изменять стратегию? точно наши изменения приведут к решению ?
одни вопросы ... ответов нету
очевидно есть набор весов который минимально нужен , это 0.33;0.33;0.33 в данном случае
вот еще одна задача найти минимальный набор весов чтобы сходилось к решению
c00l0ne @ 06.06.26да не нужно ничего подбирать , для любых произвольных спотов
если можно подобрать спот, в котором не решается, значит задача в общем виде не решаемая.
пс вот и получается игроки в холдем не могут построить сильную стратегию 6 комб на 6 комб ) на ривере) без рандомайзеров)
GTO сыграть не могут. "Сильно" могут. Т.к. это качественная характеристика, а не количественная. Стратегии в 0/1 бывают в GTO в какой-то точке как частный случай.
+ (не обязательно в чистых, ну взять веса {0; 0.5; 1} эта таже задача дискретного представления , взять веса { 0 ; 0.25 ; 0.5; 0.75; 1} тоже самое ... фиксированное число весов ...
дробление на другой дискретный диапазон не меняет суть задачи. Делает только сложнее проверку и поиск контрпримера.
ждем mythos'a посмотрим справится ли ИИшка )
выдаст слоп. Т.к. решения нет.
SnowBeaver, как codex закончит доказывать (думаю еще неделя) по этой теме утверждения и матчасть я накидаю пост ... по дискретным представлениям игры ... уже есть что написать но хочется конечно доделать много чего еще ...
если бы AI мог думать как математик (хотябы студент), то первое о чём бы он подумал это имеет ли задача решение в принципе. А так как оно думать не умеет, то в итоге на выходе таких вводных всегда только слоп возможен. Нельзя из букв О,П,Ж,А собрать слово счастье :)
SnowBeaver, ты зря напрягаешься, я же писал оптимальную стратегию с минимальным эксплойтом...
Эксплойт может быть огромным но минимальным в данных условиях...
Ножницы бумага камень имеют три решения чистых
Камень 1
Или ножницы 1
Или бумага 1
Но у них у всех высокая эксплуатируемость
Поэтому почему ты пишешь что не решается я не понимаю
Если же взять { 0;0.5;1} веса
То решений будет три так же, но эксплуатируемость уже будет ниже
Камень 0.5 ножницы 0.5
Камень 0.5 бумага 0.5
Ножницы 0.5 бумага 0.5
А при { 0; 0.25; 0.5; 0.75; 1}
Ещё меньше будет эксплуатация
Камень 0.25 бумага, 0.25 и ножницы 0.5
В 0.333 попадет в точное решение
c00l0ne, мне не в тягость :) я не напрягаюсь. Смотри на примере камень ножницы бумага - тебе надо найти пару стратегий для обоих игроков, которая будет устойчивой, и о которой мы сможем сказать что она достигла эквилибриума.
если игрок А выбирает камень, то эта стратегия эксплуатируема игроком Б, и он выбирает 100% бумагу, но соответственно игрок А теперь тоже может эксплуатировать Б, и так вечно. на каждой итерации алгоритма будет меняться решение. Мы не можем зафиксировать произовольную точку и сказать - вот решение. Т.к. для GTO тебе надо для обоих игроков дать решение, где они минимально эксплуатируемы (дать 2 диапазона). А тут это очевидно невозможно. Тот же эффект произойдёт в покере. У тебя какие-то карты стабилизируются, а какие-то будут каждый раз "моргать"
SnowBeaver, ну чтобы устранить "моргание" как ты его назвал подмешивают "соль"))))
Точнее шум добавляют и каждый ход становится уникальный и стратегия стабилизируется, чтобы не было переключения бесконечного ...
Хватит настаивать)) взял и сдался просто , руки вверх... Есть решение и чистое решение и у него есть определенная cap эксплуатации из-за того что мы отказались от весов
SnowBeaver @ 06.06.26тебя какие-то карты стабилизируются, а какие-то будут каждый раз "моргать"
В ГТО так же в cfr моргают карты Индифферентные
Ты останавливаешь солвер и он сошёлся в том моменте где ты остановил, покрути дальше Индифферентные карты постоянно будут ползать, веса туда сюда ходить, их мало но они есть
например у нас в диапазоне блеф есть
32о и 34о
на доске допустим АААА5
но мы не можем блефовать и то и то это будет переблеф
поэтому эти карты индифферентные и мы блефуем либо то либо то
поэтому солвер ставит 32о 80% блеф 34о 20%
либо он может поставить 100% 32о и 0% 34о
либо он может поставить 50 на 50
либо 0 на 100 ну ты понял
и так CFR будет крутиться вокруг этих индифферентных карт (бл ска слово то какое страшное )
но эти карты безразличны к стратегии важна просто их сумма учавствующая
так вот чтобы они туда сюда не бегали , мы подмешиваем шум небольшой чуть чуть добавляем что 32о допустим лучше 34о
и теперь солвер вкидывает весь вес на 32о и стратегия стабилизируется , добавляем там 0.001 ев а 34о добавляем -0.001
c00l0ne, я всегда радуюсь когда ты что-то реальное в миксе слопа выдаёшь :) Приходится правда всегда проделывать черри-пикинг.
Да, солвер и правда себя так ведёт на некоторых картах. Всё как ты описал. Особенно это заметно в омахе где такое выделывают целые группы рук. Но! это не проблема GTO и не говорит о том, что все комбинации этих мерцаний отражают равновесие Нэша. Это в данном случае проблема CFR. Ну, вернее погрешность метода. Теоретически точное решение существует, но для него нужно увеличивать количество абстракций и тратить всё больше и больше памяти. И ещё есть погрешность арифметики в вычислительных машинах ниже которой не отсчитать. Грубо говоря, машина не может хранить в памяти число 1/3, она будет хранить бесконечную дробь с отсечкой по определённому знаку. Но число 1/3 всё равно при этом существует. И сущестувует решение с правильным миксом 32o и 34o. Просто у нашего "микроскопа" недостаточная разрешающая способность. Если бы у нас был идеальный солвер с бесконечными ресурсами, то мы получили бы точное решение без мерцаний.
А в твоём случае у тебя просто расходящийся метод который не сойдётся даже если у тебя все ресурсы вселенной использованы. Т.к. расходится метод, а не конкретная его реализация имеет проблемы.
резюмирую
1. CFR != GTO.
2. GTO в чистых стратегиях (0/1) не существует (в общем случае. иногда частные решения случаются)
если хочешь, можешь попробовать всю дискуссию прогнать в каком-то AI. увидишь, что я тебе по делу отвечаю используя логику. Ты сейчас хочешь положить какие-то ресурсы на поиск несуществующего решения. Имхо это зря. Лучше искать существующие. Ну либо научиться отделять реальное от нереального с помощью AI (если это возможно).
У меня нет цели тебя как-то переспорить или зацепить. Просто ну вот так вот оно работает, такая у этих объектов математика. Я могу сдаться в попытках объяснить это конкретно тебе. Это не будет означать, что я признал неправильную точку зрения.
P.S. принципы по которым идёт поиск частных решений, для которых существует GTO в чистых стратегиях в теории игр хорошо описаны. Но я не владею материалом на таком уровне, а копипастом того чего не понимаю стараюсь заниматься пореже. Короче, всё уже было...
SnowBeaver @ 06.06.26Короче, всё уже было
все было но ничего нет )
короче это бесконечно воду можно лить ... пиши ток по делу, по алгоритмам ... плиз
и только матетиматически доказанные утверждения ... сейчас codex доказывает за 5 минут все ...
SnowBeaver @ 06.06.26А в твоём случае у тебя просто расходящийся метод который не сойдётся даже если у тебя все ресурсы вселенной использованы. Т.к. расходится метод, а не конкретная его реализация имеет проблемы.
о каком методе ты речь ведешь, полный перебор , mip решение?
или о том что веса фиксированные ?
о чем ты ?
ты считаешь mip солвер не может решить дискретную задачу ? бугагага серьезно ?
или о том что там будет высокая эксплуатируемость 5-10bb/100 типо , так это понятно или о чем ты ...
я просто не понимаю фразы "метод расходиться " куда он расходиться , полный перебор расходиться, mip солвер расходиться ?
давай прогоню так и быть через аишку твои утверждения :
ну вот я полностью согласен:
я наверное не верно выражаюсь , надо найти "лучшую дискретную аппроксимацию" а не GTO
c00l0ne, я намерено стараюсь быть как можно понятнее, пытаюсь объяснять как можно понятнее и разобраться почему до тебя не доходит, и как помочь. Я так понял затык в том, что ты наблюдал внимательно за тем как работает солвер, увидел там определённое поведение по ряду рук. Потом по своей задаче решил что поведение такое же. А явления принципиально разные.
У тебя есть мерцание. Ну или индиффирентность рук (но мне нравится больше мерцание. термин понятнее для карт)
Так вот, если ты попробуешь с фиксированными весами решить задачу (0/1), то твоё мерцание будет иметь другую природу чем то, что тебе удалось увидеть при работе CFR. В CFR это погрешность метода, а у тебя условие нерешаемой в принципе задачи. Это нормально, что при определённых условиях какие-то математические задачи не решаются. Более того нерешающихся задач в бесконечное количество раз больше чем решающихся. Было бы круто если модный AI бы давал возможность отделить одно от другого.
SnowBeaver, бугагага :
докатитились:
ты победил , ну я наверное да путаницу внес с GTO , надо было писать "лучшую дискретную апроксимацию"
пс я афк пойду дальше "пинать" codex)
c00l0ne, смотри, вот это осознать в принципе можно. хоть и сложно
Если принять, что мы считаем не GTO (т.к. неэксплуатируемая стратегия невозможна), а строим полную сетку и ищем там наименее эксплуатируемую стратегию... Но тогда будет необходимо пересмотреть как мы в принципе задаём стратегии. В покере по классике это диапазон, т.е. вектор (значения от 0 до 1 некоторое количество). А в такой игре у тебя будет часть значений вектор, а часть "мерцающие". При этом такое мерцание будет не произвольное, а тоже заданное правилами в зависимости от текущей ситуации, истории раздачи и т.д. Например в какой-то точке 4 из 6 карт имеют фиксированое действие, а 2 могут быть любыми, но например только одинаковыми. Или например только разными, или ещё какая-то более сложная зависимость. И типа ты можешь все состояния игры описать конечным автоматом. Наверное можно придумать солвер под такую модель игры. И наверное это даже проще, чем представить себе собственно игру по этим правилам. Т.к. это что-то очень вымороченное будет. Рум будет всегда помнить как ты сыграл и в такой же ситуации играть за тебя в следующий раз (чтобы соблюсти правило чистой стратегии). Короче, будет дичь при таких условиях.
хотя может и норм :) просто любые значения из возможных как значение в стратегии. я чё-то уже загнался
SnowBeaver, я же выше писал , добавляют шум... По всему диапазону добавляют маленький шум ,все ходы становятся уникальными и карты перестают переключаться...
Ты глобально картину не представляешь, какую то техническую мелочь обсуждаешь
Дискретная стратегия перебором выбирается так , чтобы иметь минимальную эксплуатацию и минимальное отклонение от ГТО, в такой стратегии дыры которые образуютчя из-за отсутствия весов минимизируются, если например ГТО где-то тонко играет, то дискретная стратегия может начать играть очень агрессивно в этих местах и т.д., это оч интересная задача:
Решение Холдема и Омахи в чистых стратегиях
c00l0ne, да я после этого брейншторминга задачи кажется понял что ты хочешь. Просто не понял зачем :) У меня какая-то всегда лютая блокировка на академические задачи в покере. Но так да, посчитать такое наверное можно. Поиск минимально эксплуатируемой точки в игре, где нельзя дойти до неэксплуатирумости это очень неумозрительная задача для покера.
gpt-5.5 pro простаивает, если есть у кого-то вопросы к ии или темку надо разработать ...
кидайте , я кину ответ сюда же ...
оч сложно угнаться за ИИшкой на самом деле ...
человек столько информации не переваривает за месяц сколько делает codex...
покекать:
шутки хорошие но бывает конечно они становятся явью)
но в целом если действовать по циклу :
1. сформулировал (gpt-5.5 pro)
2. доказал негативный или позитивный результат (codex gpt 5.5 xhigh)
3. переиспользовал с тестами (human -> codex)
4. зацикливаемся и переходим на п.1
тогда франкенштейн оживает
c00l0ne, касательно твой задачи найти баланс для всех рук без весов, то она в общем случае не решаема. Т.е. можно подобрать такую игру и такие 6 рук для каждого из двух игроков, что как ты не старайся у тебя не будет точки где стратегии стабилизировались. Типа вот для одного игрока зафиксировал какой-то вектор, считаешь эксплуатирующую стратегию для второго игрока, округляешь её чтобы она была без весов. Потом переходишь к первому игроку, считаешь новую эксплуатирующую стратегию относительно второго с констрейнтом что у тебя только 0/1, и так по кругу вечно. В принципе такой эксперимент можно проделать хоть в пио и убедиться, что он не сходится даже если не фиксировать малое количество рук. Но на малом количестве рук будет наиболее заметно. В широком смысле можно переформулировать вопрос "можно ли посчитать GTO в покере без весов рук?"
Ответ - нет, нельзя. В какой-то момент отдельные руки будут то 0, то 1 и так будет вечно.
Я могу ошибаться конечно же. Сужу исключительно из своего понимания "как это работает". Ну и я когда-то пробовал такой эксперимент сам. Когда-то он был практическим. Но принципиальный вопрос не "как решить задачу" здесь, а ответить на вопрос - "имеет ли задача решение хоть при каких-то входных условиях". Технически подобрать игру в которой будет малое количество рук в диапазонах игроков и упрощённая игра, которая никогда не сойдётся с округлёнными до 0/1 весами думаю не сложно.
AI для написания данного поста не использовался :)