Khishtaki @ 5.3.2015
Можете переходить к аругментам.
Для начала, чтобы было понятней, вернемся к моему изначальному определению оптимальной стратегии. Оптимальная стратегия - это стратегия, которая является лучшей против совокупности всех возможных стратегий, которые может предпринять оппонент.
Если она является лучшей, то должны быть четкие критерии, по которым мы можем сравнивать разные стратегии и определить какая из них является лучшей.
Я вижу два очевидных критерия:
1) Ожидание.
2) Дисперсия.
Ожидание.
Чтобы построить крепкую стратегию в данном примере, мы должны для начала сбалансировать диапазон нашей ставки.
У нас 20% воздуха в спектре, исходя из размера ставки мы можем посчитать оптимальное отношение блефов к вельюбетам, чтобы определить, какое количество вельюбетов мы должны добавить чтобы отжать у оппонента банк вне зависимости от того, что он выбирает. А (альфа) = BET / (BET+POT) = 33.3%. Значит, мы должны 20% наших блефов, сбалансировать 40% вельюбетов, чтобы их отношение друг к другу было равно альфе.
Таким образом мы автоматически получаем ожидание размером, как минимум, в банк, вне зависимости от того как играет оппонент.
Далее у нас образуется набор стратегий, которые имеют одинаковое ожидание против любых возможных стратегий оппонента:
20% - ставка в воздухом.
40% - ставка с натсами.
[0%;40%] - чек с воздухом.
[0%;40%] - чек с натсами.
Вне зависимости от того, куда мы распределим оставшиеся натсы, ожидание от стратегии будет одинаковым против любой возможной стратегии оппонента (надеюсь это доказывать не нужно и все с этим согласятся).
2) Дисперсия
Если с ожиданием всё понятно, и моя стратегия и предложенная Рави и Витей имеют одинаковое ожидание, то с дисперсией всё не так однозначно.
Для начала рассмотрим отвлеченный пример. Если мы играем в игру "забрать 100$ или 10.000$ с вероятностью 1%", то при одинаковом EV обоих дейстивый и отсутствии дополнений вроде того которое я привел в предыдущем посте, первый вариант с минимальной дисперсией будет являться лучшим (или оптимальным). Все мы покеристы и мы, как никто другие знаем, что если два действия имеют одинаковое EV, то нужно выбирать то, которое имеет наименьшую дисперсию. Мне тяжело представить, чтобы какой-нибудь рациональный человек (например феруель), сказал, нет, в этой игре оптимально будет выбрать 10.000$ с вероятностью в 1%. Нет, феруель так никогда не скажет. Человек склонный к лудомании может так ответить. Человек со специфичной жизненной ситуацией, которому жизненно необходимы 10.000$ может ответить, что выберет вероятность в один процент и для него это будет оптимально. Но, без дополнительных уточнений к задаче, я склонен утверждать, что, при одинаковом EV двух действий, действие с минимальной дисперсией будет являться оптимальным.
Теперь перейдем к нашему примеру.
У оппонента в матрице решений есть возможность совершить две ошибки (поставить в чек и заколлировать ставку).
После того, как мы сбалансировали диапазон ставки у нас осталось еще 40% натсов, которые мы можем распределить в две линии. Любая стратегия с распределением натсов от [0%;40%] в спектр чека и ставкой 20% блефов 40% натсов и всех оставшихся натсов, которые не вошли в спектр чека будет иметь одинаковое ожидание. Вопрос стоит в том, какая из них будет иметь наименьшую дисперсию?
Давайте разберемся. Оппонент может совершить две возможные ошибки. По условиям задачи, мы считаем, что:
а) Он может их совершать
б) Мы считаем их равновероятными, так как у нас нет никакой информации об оппоненте.
Если мы переносим все эти нераспределенные натсы в спектр бета, то мы не зарабатываем дополнительных денег, если оппонент совершает 1-ую ошибку (ставить в наш чек), но дополнительно зарабатываем 40% банка, когда он совершает вторую ошибку (коллировать ставку).
Если мы переносим эти натсы в спектр чека, то мы не зарабатываем никаких дополнительных денег, если оппонент совершает 2-ую ошибку, при этом зарабатываем те же 40% банка, когда он совершает 1-ую ошибку (ставить в наш чек).
Если мы разнесем одинаково эти натсы между чеком и бетом, то мы будем зарабатывать дополнительно 20% банка, когда оппнент сделает первую ошибку и еще 20% банка, когда сделает вторую ошибку. То есть при каждой ошибке, будем зарабатывать 20% банка.
Другими словами теперь игру можно представить следующим образом:
Оппонент может совершить два типа ошибки, совершает их с одинаковой частотой.
Мы можем выбрать заработать N$, когда он совершит любую из возможных ошибок, или 2*N$ каждый раз когда совершит одну конкретную из них.
Дополнение (насчет вывода моей стратегии):
Для того, чтобы вывести стратегию, которая в равной степени эксплуатирует обе ошибки, мы должны сделать наше ожидание от одной ошибки равным ожиданию от другой ошибки. Допустим X% - частота с которой мы играем чеком с данным нам 40%-ым диапазоном, который мы должны распределить. Тогда (100%-X%) - частота с которой мы играем бетом.
X%*(EVBLUFFMISTAKE) = (100%-X%)*(EVCALLMISTAKE)
В данном случае, при одинаковом сайзинге ставки, ожидание от кола оппонента будет равно ожиданию от ставки в наш чек, поэтому в половине случаев наш нераспределенный 40%-ый спектр натсов мы отправляем в чек, в половине случаев в бет.
*при различных сайзингах ставки, ожидание было бы разным и соответственно распределение рук была бы иным.
Итого наша стратегия, уравнивающая стоимость каждой ошибки для оппонента, выглядит так:
20% - чек с натсами
60% - бет с натсами
20% - блеф с воздухом
Если мы сравним в отношении дисперсии сравним данную стратегию, с предложенной Рави и Витей.
Мы найдем аналогию со следующим примером:
В случае ошибки оппонента, мы можем получить либо 20%*POT (когда он совершит любую из двух ошибок), либо 40%*POT но в два раза
реже (когда он совершит только одну конкретную ошибку - заколлирует ставку). Какая из двух стратегий будет оптимальной? (вопрос риторический).
В условиях пари было уточнение, что я должен доказать, что не только стратегия Рави и Вити уступает моей, но и остальные, которые от неё отличаются. Это можно сделать по аналогии.
Исключение составляет, лишь стратегия со случайным выбором из тех, которые имеют максимальное ожидание:
20% - ставка в воздухом,
40% - ставка с натсами.
[0%;40%] - чек с воздухом.
[0%;40%] - чек с натсами.
Но она отличается от моей лишь формулировкой и по сути является моей стратегией.
Подводя итог поста, я считаю, что при обсуждении оптимальной стратегии, мы не можем игнорировать вопросы дисперсии и при одинаковом эквити двух стратегий, оптимальной будет являться та, которая имеет меньшую дисперсию.
Если у господина Муна или у участников спора есть какие-то вопросы по аргументации, задавайте, я на них отвечу.