fergus_crowley, вырвано из контекста , абзац принцип работы альфы
дерево монте карло для поиска только используется, а развивается сеть методом эволюции:
Цитата
Параметр θ получен с помощью самообучения, его начальное значение было выбрано случайно. Выбора ходов для каждого игрока происходил с помощью поиска в дереве Монте-Карло. В конце каждой игры конечная позиция sT оценивалась в соответствии с правилами исхода игры: -1 для проигрыша, 0 для ничьей и +1 для победы. Параметр θ обновлялся, чтобы минимизировать ошибку между предсказанным исходом vt и реальным исходом z, также параметр θ обновлялся для максимизации сходства вектора pt к полученным в результате поиска вероятностям πt. В частности, параметр θ отрегулирован градиентным спуском функции l, которая состоит из суммы квадрата отклонения ошибки и потери энтропии.
где c - параметр контролирующий уровень регуляризации весов L2. Обновленные параметры затем используются в последующих играх.
Алгоритм в AlphaZero здесь описан по-другому, чем оригинальный алгоритм в AlphaGo Zero. Отличие заключается в том, что AlphaZero вычисляет и оптимизирует ожидаемый исход, используя количество ничьих или другие потенциальные исходы.
Правила гo действуют одинаково, если рассматривать любой поворот игрового поля. Этот факт был задействован в AlphaGo и AlphaGo Zero разными путями. Во-первых, тренировочные данные были получены генерацией 8 симметрий для каждой позиции. Во-вторых, во время выполнения поиска Монте-Карло позиции на досках трансформируются с использованием случайного выбранного поворота или отзеркаливания перед передачей в нейронную сеть. Правила шахмат и сеги ассиметричны, и вообще здесь симметрии не могут быть приняты. AlphaZero не вычисляет тренировочные данные и не трансформирует доску во время поиска Монтер-Карло.
В AlphaGo Zero новые игры во время обучения получены от лучших игроков на всех предыдущих итерациях. После каждой тренировочной итерации эффективность нового игрока сравнивается с лучшим игроком. В случае 55% побед нового игрока он заменит лучшего, и все новые игры теперь будут созданы на его основе.AlphaZero поддерживает одну нейронную сеть, которая постоянно обновляется вместо ожидания завершения конца каждой итерации.
пс споры поубавим... все таки дневник по китайскому покеру...
Я не оч большой спец в деталях темы ИИ, но в плане шахмат, мне сказали, что эта хреновина обучается шахматам банальнейшим методом Монте-Карло, известным уже сто лет и используемым движками и лично мной при анализе. Отсюда как шахматист делаю вывод об отсутствии чего-то принципиально нового - только голимые убийственные мощностЯ