Ну что же, начинаю писать обещанный длинный пост. Получится даже серия длинных постов на несколько связанных тем. И начну с темы "
Предказание действией оппа и прекоммит".
Рассмотрим
задачу про пиратов (условие на русском легко гуглится). Якобы рациональный ответ выглядит так: первый пират предлагает делёжку 98-0-1-0-1. Он предсказывает следующий ход мыслей третьего и пятого пиратов: "Если мы проголосуем против, то второй пират предложит делёжку 99-0-1-0, просчитав, что четвёртый пират на это согласится, потому что в свою очередь просчитает, что третий пират ничего ему не даст, и т.д."
Иными словами, предполагается фантастическая способность пиратов предсказывать будущие решения друг друга при разных сценариях. Первый пират настолько уверен в своих предсказаниях, что готов поставить свою жизнь на то, что он не ошибся в ходе мыслей и действиях 3-его и 5-ого пиратов, которые в свою очередь основаны на абсолютной уверенности в том, что они "читают" 2-ого и 4-ого.
Представим теперь, что в мире пиратов, как в HPMOR, есть нерушимый обет, только вместо сложного заклинания достаточно сказать "зуб даю". И услышав предложение, второй пират заявляет "Зуб даю, что если мы выкинем этого жадного ублюдка, то я предложу равную делёжку. Это называется
precommit и полностью меняет исход игры.
Ответом на это предполагается, что нерушимых обетов не бывает, и второй пират может обещать что угодно, всё равно у остальных нет никаких причин ему верить. Поэтому 3й и 5й согласятся получить по одной монете. Но напомню - этот ответ требует, чтобы пираты могли точно предсказывать поведение друг друга! Что же будет, если 2-й пират действительно "твёрдо решит", что он поделит поровну? Остальные пираты предскажут это его поведение, и 1й пират отправится за борт.
И что же теперь делать второму пирату? Рационально ли выполнять своё обещание, нельзя ли предложить 99-0-1-0? Ответ очень простой - он
уже сделал свой выбор на предыдущем шаге. Если он сейчас предложит 99-0-1-0, то это означает, что 3й и 5й пираты не поверили бы ему, и приняли бы предложение первого. Мы же помним, что пираты способны предсказывать поведение друг друга. Иными словами, действия 2ого пирата рассматриваются не как набор отдельных решений, а как заранее выбранный и публично объявленный алгоритм, от которого он не может уклониться.
Так чем же в итоге закончится такая игра с учётом обязательств? Ответа на это нет. Понятно, что 1й пират не будет делать жадных предложений. Понятно, что все остальные пираты тоже могут брать на себя прекоммиты, прекоммиты, зависящие от других прекоммитов, и т.п. Вместо пошаговой игры у нас будут сложные многосторонние переговоры, и тут, наверное, надо изучать теорию коалиционных игр и теорию контрактов. По большому счёту практически любой раздел монет может быть равновесием Нэша при определённом наборе обязательств.
Рассмотрим теперь повторяющуюся дилемму заключённого с фиксированным N в условиях взаимного "ясновидения". Проблема последней итерации при этом отпадает сама собой. Я не могу предавать на последней итерации, потому что тогда другой игрок предвидит это и не будет сотрудничать на предыдущем ходу, и т.д. Поэтому оптимальным решением будет именно стратегия "око за око". При этом оппонент тоже не будет предавать меня на последней улице, поскольку знает, что я смогу это предсказать.
Аналогично, в игре "Ультиматум" становится рационально отказываться от явно невыгодных предложений, поскольку предсказав такой отказ, первый игрок будет вынужден предложить больше. В игре с портфелем становится оптимально начинать с высокой вероятности передачи портфеля и постепенно понижать её до нуля к концу игры.
Итого если к"rationality is common knowledge" мы добавляем возможность игроков предсказывать действия друг друга, то это полностью меняет взгляд на проблему и во многом решает проблему сотрудничества. И основным принципом поведения становится "поступай так, как если бы другие люди могли предсказать твоё действие заранее". Можно назвать эту модель "взаимодействием рациональных агентов с открытым исходным кодом".
В следующем посте я разберу, какое отношение имеет эта модель к действиям людей в реальном мире. Пока же отмечу, что в задаче про пиратов 2ому пирату необязательно, чтобы ему поверили на 100%. 3ему и 5ому пиратам достаточно оценить вероятность выполнения обещания всего в 10%, чтобы выбросить за борт 1ого. А 1ому пирату достаточно самой минимальной опасности такого сговора, чтобы предложить более справедливую делёжку.
А что вообще тогда имеет отношение к справедливости, если это внутренняя индивидуальная мера оценки человека своих поступков и поступков окружающих?
Ну да это оффтоп о терминах, замени это слово любым по желанию.