Вход | Регистрация

  1  2  3
Информационные технологии ::

Метки: 

Революция в шахматном мире: AlphaZero от Google обыграл StockFish

Я
   Lama12
 
08.12.17 - 12:28
http://www.newsru.com/sport/08dec2017/deep.html
AlphaZero обыграла Stackfish
Программа которую делали люди и рассчитывающую 70 000 000 позиций в секунду проиграла матч из 100 партий самообучающемуся искусственному интеллекту который оценивал всего 80 000 позиций в секунду. В сухую!
На обучение игре в шахматы AlphaZero потратило 4 часа.
Тут предварительный доклад программистов https://arxiv.org/pdf/1712.01815.pdf

Я в шоке.
 
 
   NSSerg
 
201 - 14.12.17 - 10:49
(200) Я тебя понял. Ни в одной сильной программе до сих пор ОФ не использовалась ни явно ни неявно в сортировке ходов.
Может быть можно притянуть за уши на история, киллеры и лучшие ходы - как-то повлияла ОФ, но я их использовать в простейшей программе на MCTS не предлагал.
А mvv/lva и see - вообще статические методы. К Которым ну совсем никак нельзя притянуть ОФ.

Далее - UCT и RAVE - это часть именно MCTS, переборных алгоритмов, основа MCTS. Поэтому к ОФ их тоже притянуть за уши не выйдет.

В альфа-бете программе ОФ - это процедура вызываемая в листьях дерева. В ней нет ни SEE, ни других методов сортировки ходов. И ОФ не используется для сортировки ходов (и если бы даже использовалась, то я не предлагал её использовать в программе на MCTS без ОФ)

в MCTS ОФ это добавка к рассчитанной статистике для выбора хода. Обычно это такая-же ОФ как в альфа-бете, но иногда для быстроты счета её делают инкрементальной (она не умеет считать полную ОФ, а умеет считать только разницу в ОФ до хода и после него).

То есть все умные слова написанные выше -
MVV/LVA, SEE, вытягивание шахов наверх, UCT, RAVE - ну никак невозможно притянуть к ОФ, они не имеют к ней никакого отношения.


И еще немного. Кое у кого проскакивает мысль что Альфа вообще научилась играть в шахматы при помощи нейронной сети - конечно же нет. У неё естественно есть полноценный генератор ходов, и без всякой нейронной сети она знает какие легальные ходы (по правилам шахмат) есть в позиции.
   ERWINS
 
202 - 14.12.17 - 12:31
(201) В ГО в какой то из версий системе вообще не давали какие ходы легальны, а какие нет. Просто код возврата в случае плохого хода был поражение.

Не исключаю что и тут могли такое реализовать. В случае некорректного кода возврат - поражение.

(201) я говорю о неявном использовании ОФ. Например взятия в самом примитивном варианте повышают ОФ - значит повышаем их вес.
   NSSerg
 
203 - 14.12.17 - 14:08
(202) >>Не исключаю что и тут могли такое реализовать.

Зря не исключаешь. Не могли. Ибо цели совсем другие. Научить НС правилам - это задачка уровня курсовой, серьезным людям такими извращениями заниматься не пристало, тем более что цель Альфы совершенно иная, и "немного" глобальней.

То есть задача написать сильнейшую в мире шахматную программу "немного" глобальней чем задача написать извратный генератор ходов на нейронных сетях, поэтому такого в Альфе точно нет.

Никаких проблем у классических генераторов ходов нет, они абсолютно точно генерируют ходы (или легальные ходы в легальном генераторе) - без единой ошибки, и с огромной скоростью, тысячекратно превышающей достаточную для Альфы-Зеро. Поэтому нет смысла заниматься глупостями.

>> я говорю о неявном использовании ОФ. Например взятия в самом примитивном варианте повышают ОФ - значит повышаем их вес.

Жесть. Ты еще запрети взятия в программе которая не использует ОФ. Или сильные ходы, потому что они повышают ОФ.
Еще раз повторюсь - сортировки ходов не имеют ни малейшего отношения к ОФ. А если натягивать сову на глобус - так можно вообще программе в принципе запретить делать ходы. Так как любой ход изменяет значение ОФ. И есть общепринятая терминология, которой вообще желательно придерживаться, иначе понять друг друга будет невозможно.
   NSSerg
 
204 - 15.12.17 - 00:54
На каких ресурсах Альфа обучилась за четыре часа, это кстати не 4 TPU
AlphaZero defeated Stockfish after just 4 hours of self-play, using 5,000 first generation TPUs to generate the games and 64 second generation TPUs to train the neural networks
https://en.wikipedia.org/wiki/AlphaZero
И мнение автора Стокфиш о матче:
https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author
Тем временем Chess.com также получил длинный комментарий от одного из авторов оригинальной книги Stockfish Tord Romstad, который мы дадим в полном объеме:

Результаты матчей сами по себе не имеют особого значения из-за довольно странного выбора параметров времени и настроек параметра Stockfish: игры были сыграны в фиксированное время 1 минута / ход, что означает, что Stockfish не использует эвристику управления временем ( много усилий было предпринято для того, чтобы компания Stockfish определила критические моменты в игре и решила, когда потратить дополнительное время на ходу, в фиксированное время за ход сила будет значительно страдать).Используемая версия Stockfish - один год, играла с гораздо большим количеством поисковых потоков, чем когда-либо получала значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков.Я считаю, что процент ничьих был бы намного выше в матче с более нормальными условиями.

С другой стороны, нет никаких сомнений в том, что AlphaZero мог бы сыграть лучше, если бы в проект было включено больше работы (хотя «4 часа обучения», упомянутые в документе, очень вводят в заблуждение, когда вы принимаете во внимание огромные аппаратные ресурсы, используемые в течение этих 4 часов).Но в любом случае, Stockfish против AlphaZero - это очень сравнение яблок с орангутанами.Одна из них - обычная шахматная программа, работающая на обычных компьютерах, другая использует принципиально разные методы и работает на специально разработанных аппаратных средствах, которые недоступны для покупки (и это будет выход из бюджета обычных пользователей, если это так).
   ERWINS
 
205 - 15.12.17 - 16:03
(204) плата с 4 тенсорными процами стоит 700 долларов. Но она под экспортными ограничениями, так что ее не купишь.

в остальном согласен.
   Волшебник
 
Модератор
206 - 15.12.17 - 16:07
(170) Это фейк
   ДемонМаксвелла
 
207 - 15.12.17 - 17:41
(206) с чего это? там видео есть, его подделать сложнее, чем сделать робота. И вообще, нафига одному из ведущих производителей промышленных роботов (https://en.wikipedia.org/wiki/KUKA) делать фейки?
   ДемонМаксвелла
 
208 - 15.12.17 - 17:43
(206) они максимум могут приврать насчет силы игры робота из маркетинговых соображений. Но робот то вообще играть умеет.
   ДемонМаксвелла
 
209 - 15.12.17 - 17:50
там в статье о двух таких роботах рассказано. и видео игры обоих есть.
   NSSerg
 
210 - 15.12.17 - 18:13
(205) это развод, TPU не продается.
 
 Рекламное место пустует
   КомПрог
 
211 - 18.12.17 - 17:24
Кто-то тут еоворил что-то про покер... получите:
https://hitech.newsru.com/article/18dec2017/libratus
Искусственный интеллект превзошел сильнейших игроков в покер

  1  2  3

Список тем форума
Рекламное место пустует Рекламное место пустует
ВНИМАНИЕ! Если вы потеряли окно ввода сообщения, нажмите Ctrl-F5 или Ctrl-R или кнопку "Обновить" в браузере.
Тема не обновлялась длительное время, и была помечена как архивная. Добавление сообщений невозможно.
Но вы можете создать новую ветку и вам обязательно ответят!
Каждый час на Волшебном форуме бывает более 2000 человек.
Рекламное место пустует