storo08,
Нашёл квалифицированное мнение о матче:
1) Стокфишу поотрубали плавники, вырвали зубы и поставили играть в заведомо неравных условиях.
В каком плане? Ну во-первых, противник играл на 4 TPU, оценки разные, сколько это в ядрах, но от 400 до 8000 они. Стокфишу же выдали 64 ядра и 1 ГБ хэша, что просто криминал, т.к. надо минимум 16 под такое количество ядер и такой временной контроль. Т.е. просто на железе разница уже как минимум эло 100 составляет. Во-вторых, АльфаЗеро играл дебюты, которые были выбраны как "лучшие" для него и на них потом он тренировался, они выбирались огромной нейронной сетью, в то время как стокфиш играл с нуля, т.е. без дебютной книги. Понятно, что тут опять сильно разные алгоритмы и сравнение апельсинов с яблоками немного, но для стокфиша есть книга Cerebellum, которая сделана как раз на основе игр самим с собой, где выводятся вперёд варианты, где он лучше всего может себя показать. Она добавляет ещё 50 эло. Но если играть без дебютной книги, то надо ставить сеты нестандартных позиций (аля финалы TCEC), т.к. альфазеро тренировался на "хороших" позициях, а стокфиш тренируется на 2-ходовой книге, в которую входит и всякая дрянь, в первую очередь для того, чтобы адекватно оценивать и неправильные дебюты тоже. В-третьих, временной контроль был выбран как "минута за ход" жёсткий, что дефолт для нейронки, но совсем не дефолт для шахмат в принципе, любая шахматная программа использует время неравномерно и в общем пользование времени такое тоже приносит эло, которое тут украли. Это ещё 20 эло или около того. Итого стокфиш подрезали где-то на 170 эло, а обыграли на 100 со стартовой позиции и на 70 с позиций 4-ходовых. Более того, использовалась версия годичной давности, которая на 40-45 эло слабее текущей (на 8-ходовой книге и разница больше на 0 и 4 ходовых книгах, разумеется). В общем 200 эло (скорее всего, конечно, несколько меньше, т.к. на таком уровне уже просто пойдёт компрессия эло, но всё же) или около того укралось просто потому что вот так вот;
2) Если посмотреть статью саму, то становится видно, что АльфаЗеро становится тем относительно слабее, чем меньше времени на ход. Соответственно, если делать игры на более слабом железе, то ему нужно будет больше времени. В итоге мы имеем монструозное железо с минутой на ход, где оно "явно сильнее", но вот на условных 8 ядрах уже понадобится час, два, день, век на ход (непонятно сколько), чтобы он не играл на условные 200 эло слабее, чем стокфиш. Т.е. даже если разработчики и займутся портом его со своего супер-железа на обычное, толку будет весьма мало, разве что для адванса, и то не факт;
3) Кстати, по поводу 4 часов самообучения. Звучит прекрасно, но не нужно забывать, что это гугл. Мы тут прикидывали, конечно, это опять сравнение яблок с апельсинами, но час самообучения по порядку примерно столько же, сколько стокфиш тратит в год своей разработки мощностей счёта. Т.е. они за 4 часа сделали столько же, сколько стокфиш за само существование фиштеста! Дайте стокфишу такое железо - он тоже будет очень и очень быстро прогрессировать. Хоть, конечно, и не так быстро;
4) Практическое применение данного подхода в шахматах для создания движков весьма сомнительно. Слишком нужно много железа для такой нейронной сети и результат не настолько радикально отличается, как в сёги, где разница между прогой и альфазеро 300 эло, у нас же как бы 70, которые вроде бы и не 70;
5) Сама идея создания шахматных суперкомпов на данный момент никому особо не интересна и бесполезна. Т.к. никто не будет закупать эти TPU, которые стоят миллионы долларов, чтобы что-то с ними анализировать, а на меньшем железе нейронки просто неспособны работать нормально. По крайней мере любой шахматный любитель будет гонять анализы на домашнем компе, особенно экспресс анализы, а на таком железе и времени классические шахматные проги >>> альфазеро. Более того, если вести разработку стокфиша для суперкомпов конкретно, я уверен, что его можно сделать существенно сильнее, т.к. в дип блю в своё время, например, было 8000 параметров оценочной функции, в стокфише же их около сотни, т.к. каждый параметр замедляет его работу, но вот если вынести их счёт в отдельные устройства - будет всё далеко не так ужасно и можно будет усложнить оценочкую функцию по самое не хочу, что даст некоторое количество эло. Более того, не стоит забывать, что стокфиш весит всего-то 400 килобайт, а альфазеро нужны вот эти вот TPU монстры;
6) Шахматы это, тоже, разумеется, не убьёт. Хотя бы потому, что человеку толком всё равно, 3300 у него советчик, 3400 или 3500. Да, на большей нейронной сети натренированный альфазеро, наверное, сможет быть на 100-150 эло честно быть сильнее стокфиша (или нет), может быть, он даже всегда будет выдавать абсолютно идеальный ход, но в реальной игре уже давно шахматисты ходят не в первые линии, а в те, где противнику труднее правильные ходы найти за доской.
В общем если всё просуммировать - эксперимент весьма любопытный, доказывающий, что пошаговые игры нейронки решают хорошо, но в контексте шахмат от него мало толку - движок использовать у обычного человека вряд ли выйдет, разработка движков таким методом будет нерентабельна, а разница в их силе игры с классическими брутфорс прогами не настолько критична, как в го или сёги.
Вообщем кароче надо коорденально максемезировать своё вылью в эту игру.
(Вы тоже улыбаетесь когда люди пытаясь сумничать пишут вместо "кардинально", "координально" ?
А ещё многие пишут "в общем", слитно и получается "вообщем",
хотя это не грамотно, я сам так когда-то писал,
пока один чуткий форумчанин не написал в ЛС на этот счёт =) )
Посмотрите-ка лучше интересный выпуск вдудя, с Шевчуком.