The Times They Are a-Changin’ (55-я страница)

По дате По рейтингу

Только автор

← 1 54 55 56 57 93 →

Автор

Блог Профиль

Uran

Автор

27.04.2015 07:55

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Vinni121 @ 27.4.2015
Новая стратегия считается как подстройка под старую стратегию (или может частичный сдвиг в сторону этой подстройки) или каким иным способом?

Или методом дребезжания стратегии? К примеру есть в нашей известной стратегии множество параметров (к примеру для какой-то комбинации уменьшаем вероятность трибета с ней и учащаем розыгрыш колд коллом)?

У тебя есть дерево. в каждом ноде, отображающем игровое действие с неким сайзингом, у тебя находятся стратегии для всевозможных состояний рук-доска с запоминанием порядка прихода карт. стратегия получается из такого параметра как сожаление. Чем выше сожаление тем реже данное действие будет применено для данной руки. за каждый проход вектора рук по всевозможным доскам и веткам игры редактируется стратегия сожаления и так итеративно с помощью его минимизации, находится равновесие.

Ответить Цитировать

265/512

Ссылка скопирована

27.04.2015 07:55

+ 0 –
Профиль Личное сообщение

TeelXp

27.04.2015 10:16

580 94
14 лет на сайте

Uran @ 26.4.2015
Похоже со вчерашнего дня боту включили мягкий эксплойт RNR (Restricted Nash Response, "безопасный" эксплоит: расчет равновесия взвешивается моделью оппонента до степени достоверности в каждом контексте. Полученное решение, которое эксплоитит "верняк" и не дает себя обыграть во всех остальных случаях). Прямых данных на это пока нет, но множество косвенных. А это уже совсем другой покер.

Почему ты так решил? Рук там не особо много что бы говорить о подстройки, да и ребята из Карнеги-Меллон вроде никогда не использовали RNR. В общем случае алгоритм у них скорее всего следующий: до ривера играть по равновесию, заранее рассчитанному в бакетах, на ривере используя информацию о поставленных сайзингах построить вменяемое по размерам дерево и посчитать его с флопа без бакетов.

Ответить Цитировать

2/3

Ссылка скопирована

27.04.2015 10:16

+ 0 –
Автор

Блог Профиль

Uran

Автор

27.04.2015 10:32

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

TeelXp @ 27.4.2015
Почему ты так решил? Рук там не особо много что бы говорить о подстройки, да и ребята из Карнеги-Меллон вроде никогда не использовали RNR. В общем случае алгоритм у них скорее всего следующий: до ривера играть по равновесию, заранее рассчитанному в бакетах, на ривере используя информацию о поставленных сайзингах построить вменяемое по размерам дерево и посчитать его с флопа без бакетов.

Может не RNR а Safe opponent exploitation не суть важно. Если играть до ривера предпросчитанный бакетинг, а ривер считать равновесие с флопа с контекстными сайзингами, то эксплойтабилити там будет адова и чтобы порвать эту хрень достаточно будет рега нл25, Райдер там явно нужен не будет.

Ответить Цитировать

266/512

Ссылка скопирована

27.04.2015 10:32

+ 1 –
Блог Профиль Личное сообщение

Soul

27.04.2015 11:14

Модератор

GIPSYTEAM

16,597
17 лет на сайте

Uran @ 27.4.2015
Равновесие ищется путем одновременного проходам по всем доскам, всем веткам с полным вектором состояний карт игроков, потом после такой глобальной итерации по всем состояниям системы происходит пересчет стратегии и новая итерация. Это как если бы мы посветили светом в калейдоскоп и посмотрели бы на полученное отражение, потом одновременно поменяли бы положение всех зеркал по определенному алгоритму и снова бы посмотрели как свет отразился во всех плоскостях, пока не нашли бы нужную нам картину.

А есть какое-то понимание, почему это в итоге приведет к "лучшей" стратегии. Мне это неочевидно и даже кажется неверным. Или я чего-то не понимаю ( что гораздо более вероятно ).

Ответить Цитировать

2/5

Ссылка скопирована

27.04.2015 11:14

+ 1 –
Профиль Личное сообщение

iHaveOnly26Teeth

27.04.2015 14:11

ЗАБЛОКИРОВАН

-1,746 274
12 лет на сайте

Soul,
попробуй подумать об упрощенном виде покера, можно даже с одной префлоп улицой торговли и одной хоул картой.
Найди опытным путем гто, пощупай стратегии, посмотри чем лучше, чем хуже.
После это понимание можно спроицировать на сложные разновидности покера типа холдем.

Ответить Цитировать

26/26

Ссылка скопирована

27.04.2015 14:11

+ 0 –
Блог Профиль Личное сообщение

Vinni121

27.04.2015 15:41

5,561 4,965
15 лет на сайте

Uran @ 27.4.2015
У тебя есть дерево. в каждом ноде, отображающем игровое действие с неким сайзингом, у тебя находятся стратегии для всевозможных состояний рук-доска с запоминанием порядка прихода карт. стратегия получается из такого параметра как сожаление. Чем выше сожаление тем реже данное действие будет применено для данной руки. за каждый проход вектора рук по всевозможным доскам и веткам игры редактируется стратегия сожаления и так итеративно с помощью его минимизации, находится равновесие.

1) Оппонент играет по нашей стратегии из предыдущей итерации?
2) Вроде возможно так, что данный алгоритм найдёт локально оптимальную стратегию, но не глобально. Если так, то все результаты пустышка.

Ответить Цитировать

9/32

Ссылка скопирована

27.04.2015 15:41

+ 0 –
Блог Профиль Личное сообщение

PykaNoga

27.04.2015 16:48

491 127
13 лет на сайте

Интересно на сколько от своего уровня играет райдер? Уверен, играть свою лучшую игру и стримить для него жирный минус EV. А значит он заинтересован сильно искажать свои действия и где-то совершать не те действия, которые приносят ему наибольший профит. Второй вопрос, на сколько ему нужно выкладываться для победы над ботом. Возможно для него бот по уровню как средний рег и он играет с ним в поддавки.

Любой результат матча без ответов на эти вопросы не даст оснований сделать верные выводы

Ответить Цитировать

4/4

Ссылка скопирована

27.04.2015 16:48

+ 2 –
Автор

Блог Профиль

Uran

Автор

27.04.2015 16:56

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Игра против бота вообще очень сильно отличается от игры с обычными людьми и там свои специфические подстройки. ситуации в которых человек обычно будет капнут тут как правило не возникают и бакетной модели свои капнутости и тд. так что Райдер может играть в полную силу против проги и это практически никак не ухудшит его ожидание против живого оппонента.

Ответить Цитировать

267/512

Ссылка скопирована

27.04.2015 16:56

+ 2 –
Автор

Блог Профиль

Uran

Автор

27.04.2015 17:14

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Vinni121 @ 27.4.2015
1) Оппонент играет по нашей стратегии из предыдущей итерации?
2) Вроде возможно так, что данный алгоритм найдёт локально оптимальную стратегию, но не глобально. Если так, то все результаты пустышка.

Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто. Это точная математика. Если из игры утекают деньги или наоборот притекают лишние то для таких ситуаций современная математика не позволяет найти гто. А вообще возможных гто стратегий для данной игры - бесконечное количество. Все они будут играть против друг друга в ноль и будут являться оптимальными.

Ответить Цитировать

268/512

Ссылка скопирована

27.04.2015 17:14

+ 0 –
Блог Профиль Личное сообщение

Soul

27.04.2015 20:20

Модератор

GIPSYTEAM

16,597
17 лет на сайте

Uran @ 27.4.2015
Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто.

А есть какие-то рассуждения, почему подобная итерация найдет именно ГТО в покере, а не локальный экстремум?

Ответить Цитировать

3/5

Ссылка скопирована

27.04.2015 20:20

+ 5 –
Профиль Личное сообщение

iwannafly

27.04.2015 21:35

53 191
16 лет на сайте

я практически ничего не понимаю, но так интересно ..

Ответить Цитировать

4/4

Ссылка скопирована

27.04.2015 21:35

+ 29 –
Профиль Личное сообщение

TeelXp

27.04.2015 22:54

580 94
14 лет на сайте

Uran @ 27.4.2015
Может не RNR а Safe opponent exploitation не суть важно. Если играть до ривера предпросчитанный бакетинг, а ривер считать равновесие с флопа с контекстными сайзингами, то эксплойтабилити там будет адова и чтобы порвать эту хрень достаточно будет рега нл25, Райдер там явно нужен не будет.

Тем не менее по скорости принятия решений до ривера можно достаточно уверено предположить, что бот использует посчитанные заранее стратегии. То что они посчитаны в абстракциях тоже сомневаться не приходиться. На ривере да, скорее всего никто с флопа ничего не считает, судя по их статьям это время они используют что бы преобразовать диапазоны с их абстракций в нормальный вид и уже без всяких сокращений посчитать ривер с большим количеством сайзингов.

Ответить Цитировать

3/3

Ссылка скопирована

27.04.2015 22:54

+ 0 –
Блог Профиль Личное сообщение

sandr1x

пингвин бубей

28.04.2015 04:27

59,288 15,789
14 лет на сайте

Uran @ 27.4.2015
Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто. Это точная математика. Если из игры утекают деньги или наоборот притекают лишние то для таких ситуаций современная математика не позволяет найти гто. А вообще возможных гто стратегий для данной игры - бесконечное количество. Все они будут играть против друг друга в ноль и будут являться оптимальными.

А как же рейк?

Ну в смысле да, в эксперименте его нет, но по факту даже если бот обыграет человека, то за реальными столами такая стратегия уже не будет оптимальной? Или о каком "утекании" денег речь идёт?

Ответить Цитировать

5/13

Ссылка скопирована

28.04.2015 04:27

+ 0 –
Автор

Блог Профиль

Uran

Автор

28.04.2015 04:33

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Да, если ввести рэйк в игру, то существующих математических методов уже будет не достаточно чтобы найти равновесие. Точно так же как если ввести в игру дополнительные деньги например в матче Утг вс бтн, при условии что блайнды сделают фолд.

Ответить Цитировать

269/512

Ссылка скопирована

28.04.2015 04:33

+ 0 –
Блог Профиль Личное сообщение

Vinni121

28.04.2015 05:11

5,561 4,965
15 лет на сайте

Uran @ 28.4.2015
Да, если ввести рэйк в игру, то существующих математических методов уже будет не достаточно чтобы найти равновесие. Точно так же как если ввести в игру дополнительные деньги например в матче Утг вс бтн, при условии что блайнды сделают фолд.

это очень-очень-очень странно звучит. Не меняется вообще ничего, кроме выплат. Все алгоритмы должны остаться рабочими. Будет крайне интересно послушать предположения (ну или факты :) ) почему может быть не так.

Ответить Цитировать

10/32

Ссылка скопирована

28.04.2015 05:11

+ 11 –
Автор

Блог Профиль

Uran

Автор

28.04.2015 23:01

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Vinni121 @ 28.4.2015
это очень-очень-очень странно звучит. Не меняется вообще ничего, кроме выплат. Все алгоритмы должны остаться рабочими. Будет крайне интересно послушать предположения (ну или факты :) ) почему может быть не так.

Потому что сумма игры не нулевая. Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии, это был бы полный имбаланс. В некоторых ситуациях мы все же можем сделать перенормировку и запихнуть всю имбу на ранние этапы торгов и в данных условиях получить равновесие

Ответить Цитировать

270/512

Ссылка скопирована

28.04.2015 23:01

+ 1 –
Блог Профиль Личное сообщение

Vinni121

29.04.2015 00:05

5,561 4,965
15 лет на сайте

Uran @ 28.4.2015
Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии

Закон сохранения энергии здесь вообще ни при чём.

Есть игра, в ней есть дерево возможных развитий событий. В итоге каждый сценарий приводит к плюс Аі денег у одного игрока и минус Аі денег у второго игрока. Мы вводим понятие сожаления (как я пониманию это и есть МО выигрыша данной ветки дерева) и в зависимости от него начинаем понемножку менять свою стратегию игры так, чтобы чаще выбирать более плюсовую ветку. Изменения происходят постепенно, ибо при изменении нашей стратегии даже на чуть-чуть МО каждой ветки меняется, происходит описанный тобой ранее "эффект калейдоскопа". То бишь оторвав листик с южной стороны огромного баобаба это в какой-то зачастую маленькой степени аукнется и на северной стороне. Вероятно в совсем малой степени. Таким образом стратегия изменяется до тех пор, пока не найдётся локальный экстремум, в котором мелкие сдвиги не позволяют улучшить МО всей стратегии больше, чем на какой-то очень маленький эпсилон.

Изменим итоговые выплаты с (Аі, -Аі) на (f(Аі), f(-Аі)), где f(x) - функция рейка. Внимание, вопрос. Почему в таком случае может не сработать работавший ранее алгоритм нахождения локального экстремума? В математических выкладках есть какие-то теоремы о существовании равновесия в играх с нулевой суммой и нет доказательства его существования в играх с ненулевой суммой (если где ошибка исправьте, а то самому глаза режет). Но даже если в общем случае существование равновесия не доказано, то в данной конкретной игре существование локального равновесия по аналогии с предыдущим вариантом очень вероятно. Очень схоже на то, что описанный выше алгоритм должен сработать если он работает для игры "покер без рейка".

Вопрос номер два, звучавший уже и от меня и от Соула. Почему этот локальный экстремум принимается за глобальный? Вполне может оказаться что с разных стартов мы приходим к разным равновесиям и тогда нам нужно сравнить их между собой - одна из стратегий может наживать с другой. Почему не обследуется всё пространство стратегий для нахождения хотя бы большинства локальных экстремумов и сравнения их игры друг против друга?

Ответить Цитировать

11/32

Ссылка скопирована

29.04.2015 00:05

+ 6 –
Автор

Блог Профиль

Uran

Автор

29.04.2015 00:53

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Представь ситуацию со 100% рэйком. Как будет выглядеть в таком случае равновесная игра?
Что происзойдет если мы запустим алгоритм в среде с "обычным" рэйком. В сумме стратегия получается минусовой и система будет стремиться к минимизации минуса. Это будет приводить к более тайтовой защите, на постфлопе реже будет ставиться кбет, часть рук из бета перейдут в чек, соответственно реже будет коллироваться ставка. Как это можно заэкслпойтить? Начать ставить больше. Эта стратегия тоже будет минусовая, но чуть менее минусовая чем расчетная.

Ответить Цитировать

271/512

Ссылка скопирована

29.04.2015 00:53

+ 2 –
Автор

Блог Профиль

Uran

Автор

29.04.2015 00:55

ЗАБЛОКИРОВАН

-1,007 1,141
15 лет на сайте

Получается что если мы делаем расчет равновесия в рэйковой среде и расчет равновесия без рэйка и далее сравниваем их в рэйковой среде, то равновесие расчитанное без рэйка проиграет меньше. Собственно поэтому обычно все и считают без рэйка, так как это дает лучшие результаты, но в целом это тоже не панацея. К тому же если мы считаем без рэйка и при этом играем низкие лимиты, то это будет давать не очень хорошую защиту блайндов. Особенно актуально для лимитов нл100-, хотя и на нл200 и даже нл400 это будет иметь значение.

Ответить Цитировать

272/512

Ссылка скопирована

29.04.2015 00:55

+ 1 –
Блог Профиль Личное сообщение

Vinni121

29.04.2015 01:28

5,561 4,965
15 лет на сайте

Uran @ 28.4.2015
Что происзойдет если мы запустим алгоритм в среде с "обычным" рэйком. В сумме стратегия получается минусовой и система будет стремиться к минимизации минуса. Это будет приводить к более тайтовой защите, на постфлопе реже будет ставиться кбет, часть рук из бета перейдут в чек, соответственно реже будет коллироваться ставка. Как это можно заэкслпойтить? Начать ставить больше. Эта стратегия тоже будет минусовая, но чуть менее минусовая чем расчетная.

Рассмотрим частный случай. Ситуация: ривер, на столе ААААК, банк 2 бб. В безрейковой игре равновесие будет "похуй рейзить, колить или чекать, только не фолдим" для обоих игроков. В рейковой игре (если рейк достаточно большой) тот, у кого первое слово всегда пушит, второй всегда фолдит. И для рейковой игры ЭТО правильная стратегия, а не та, которую одолжили из безрейковых расчётов.

Ты пишешь, что при введении рейка стратегия игры меняется. Ну так она и должна меняться. Под неё появляется менее минусовая подстройка. Да, логично. Но вот какого хрена остановился на двух итерациях? Продолжаем пока не найдём равновесие.

Uran @ 28.4.2015
Получается что если мы делаем расчет равновесия в рэйковой среде и расчет равновесия без рэйка и далее сравниваем их в рэйковой среде, то равновесие расчитанное без рэйка проиграет меньше.

Это вызывает конкретные сомнения в используемом алгоритме по нахождению равновесия. Опять возвращаемся к вопросу с локальным экстремумом, который выдают за глобальный. Это легко может привести к описанному тобою явлению. И тогда твой сегодняшний алгоритм не работает и его нужно улучшать либо же разрабатывать новый.

А если используемый алгоритм таки можно забраковать до решения проблемы, то мы переливаем из пустого в порожнее.

Ответить Цитировать

12/32

Ссылка скопирована

29.04.2015 01:28

+ 1 –

← 1 54 55 56 57 93 →

1841 пост

Подписаться на обновления темы по почте

1 человек читает эту тему (1 гость):

Форум GipsyTeam Вокруг покера Обсуждение околопокерных тем

Войти или зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.