Брайан «PrimordialAA» Пеллегрино был одним из лучших игроков в хедз-ап SNG до «Черной пятницы».

31963-1617394517.png

В 2015-м он ушел из покера и переключился на программирование и изучение искусственного интеллекта. Один из его проектов – софт, анализирующий бейсбольные матчи, купили команды из MLB. На следующие несколько лет Брайан погрузился в мир криптовалют. Но в 2020-м напомнил о себе в покерном мире. Летом он стал соавтором Ноама Брауна [автор покерных ботов «Клодико» и «Либратус» – прим. ред.], они опубликовали статью на тему, как при помощи искусственного интеллекта и GTO создать идеального покерного бота, а также использовать эти наработки для решения проблем в обычной жизни.

Также Пеллегрино входил в команду Дугласа Полка во время подготовки к дуэли с Негреану. В интервью Card Player Брайан рассказал, как именно помогал Полку, почему его софт лучше других публичных солверов, и объяснил, как эту технологию можно использовать за пределами покера.

– Расскажи, как Даг вышел на тебя? Вы общались, когда играли профессионально?

– Мы оба играли хедз-ап, но он кэш, а я – SNG. В какой-то момент я тоже решил перейти в кэш и даже взял несколько тренировок у Дэна Кейтса, но глубоко в этот формат так и не окунулся. Потом я вернулся к покеру уже при работе с AI. Совместно с группой Facebook AI мы опубликовали статью, анализ в которой основан на методе минимизации гипотетических потерь.

Даг обратился ко мне, когда начал готовиться к Вызову. Он невероятно трудолюбивый. Я играл в покер 15 лет и не видел никого, кто уделял бы работе над игрой столько же времени. С Ноамом Брауном он тоже хорошо знаком. Я рассказал ему о нашей совместной работе и феноменальных результатах. Даг заинтересовался, можно ли использовать их для подготовки к матчу.

– Что такое метод минимизации гипотетических потерь? Как его применяют в покере?

– Раньше игроки основывали свои решения на том, чтобы получить максимальную прибыль. Но выяснилось, что правильный подход – минимизировать потери. В этом и заключается суть равновесия Нэша и GTO. Объясню на примере «Камень, ножницы, бумага». Если у меня камень, то против ножниц мои потери составят минус 1, то есть я ничего не потеряю. Против другого камня – потери нулевые. А против бумаги будет плюс 1. Я могу использовать эти данные, чтобы менять свою стратегию. Естественно, я не буду всегда выбирать камень, исходя из полученных данных о моих потерях. Если провести симуляцию триллион раз, мы и получим GTO-стратегию для «Камень, ножницы, бумага».

В покере все аналогично. Только у нас не три простых варианта, а огромное дерево решений с бесконечным набором сайзингов. И наша цель с помощью этого дерева минимизировать потери. Если нам это удастся, мы получим GTO-стратегию, а соперник никак не сможет нас эксплойтить.

31967-1617395497.png

– Объясни простым языком, о чем ваша статья?

– Она называется Unlocking the Potential of Deep Counterfactual Value Networks. Нам удалось создать бота, скорость работы которого оказалась в 5,000 раз выше, чем у топовых аналогов, например, у DeepStack.

Каждый год проводится чемпионат по покеру среди ботов – ACPC [Annual Computer Poker Competition]. В прошлом году в нем победил Slumbot, а мы его обыграли с винрейтом 20bb/100.

Колледж я так и не закончил, поэтому тот факт, что я выпустил статьи совместно с командой Facebook AI, доказывает, что мы действительно добились чего-то важного. Наша работа произвела сильное впечатление на научное сообщество. А опубликована она была как раз в тот период, когда Даг и Даниэль обсуждали свой вызов.

– Как ему удалось убедить тебя стать частью команды?

– Я не хочу придираться к академическому сообществу, но с известными разработчиками AI очень сложно соревноваться. Мы обращались практически ко всем, но никто не захотел играть с нашим ботом. Одна из причин в том, что затраты на работу некоторых ботов могут составлять несколько миллионов в день.

Поэтому после публикации у нас не осталось целей. Мы не планировали продолжать исследования в этом направлении, а переключились на множество других – как нашу технологию применять на практике. А когда ко мне обратился Даг, мне стало интересно, как человек, который будет использовать мои разработки для обучения, сможет применить их в игре. В прошлом мы уже обращались к Филу Гальфонду, но его это не заинтересовало. А сейчас появилась возможность помочь Дагу и привлечь внимание к нашим исследованиям.

31966-1617395373.jpg

– Ты говоришь, что технология может быть использована за пределами покера. Где именно?

– Мы исследовали проблемы маршрутизации автопилотов в автомобилях, изучали автоматизацию процесса в теплицах, а сейчас работаем над разработкой новых лекарств.

Мы сами под большим впечатлением от нашей работы и от того, чего еще можем добиться.

– Что общего у метода минимизации потерь и автопилота автомобиля?

– В больших городах с постоянными пробками боту можно поставить задачу найти путь с наименьшими потерями. Одним из видов потери может быть время, когда задача – просто быстрее доехать. Но есть и другие параметры – качество дорог, сборы и так далее.

– Ты помогал Дагу с префлоп-диапазонами. Расскажи об этом подробнее.

– По сути мы создали солвер, который работает очень быстро и качественно. Все современные солверы строят префлоп диапазоны на больших допущениях. На префлопе можно построить небольшое дерево. Но на флопах и тернах оно разрастется до огромных величин и будет занимать сотни терабайт памяти. С таким не справится никакой современный компьютер. Поэтому деревья упрощают. Например, получают результат для 10 флопов или 56. Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину.

А у нас вообще нет такой проблемы. Все это делает нейронная сеть. Поэтому мы можем создать дерево любой сложности. Расчет, который у другого солвера потребует 500 терабайт памяти, мы проводим за 30 секунд. То есть по просьбе Дага мы можем определить оптимальный сайзинг для любых размеров стека.

На практике мы проводили огромное количество симуляций. Для определенных сайзингов, которыми открывался Даниэль, для лимпов и 3-бетов. Подбирали оптимальный размер своих 3-бетов и так далее.

Даг со своими тренерами анализировал все результаты и делал выводы. Но 57 разных сайзингов запомнить невозможно, поэтому хватает того, что используется на практике. Достаточно выбрать один или два сайзинга, и основываясь на них, определить, насколько сложная стратегия нам нужна и оправдана ли она с точки зрения EV.

Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет. Так мы и работали. Он проводил свой анализ и просил нас изменить какие-то параметры, чтобы получить новые результаты. Он действительно не вылезал из лаборатории.

– У вас было какое-то расписание? Он приходил с новыми вопросами после каждой сессии?

– Такую работу он проводил со своими тренерами. Специфику стратегии и то, как она работает на практике, он обсуждал с ними. А нам давал параметры деревьев для новых расчетов. Мы должны были предоставить ему как можно больше данных для работы.

Негреану открыто говорил об изменениях в своей игре. Вы это учитывали? И как ты оцениваешь его прогресс?

– Мы замечали определенные тенденции. Иногда он делал такие вещи, которые вообще никак невозможно было объяснить. Например, играл флэт-коллом с дамами и королями без позиции. Некоторые его ходы не оправдать никаким балансом. Так просто нельзя играть.

В какой-то момент он стал миксовать сайзинги, но в некоторых спотах вообще их не менял. Иногда мы думали, что он будет 3-бетить определенным сайзингом, а он использовал совсем другой. Работа шла постоянно, и на протяжении всего вызова мы перестраивали диапазоны. Даг не прекращал работу и постоянно стремился узнать что-то новое.

– Не боишься, что обычные игроки не захотят играть хедз-ап, когда узнают, какого погружения в теорию это требует?

– Да, выглядит устрашающе, но иначе не стать лучшим в мире. Мы смотрим на сильнейших игроков NBA и верим, что они всего добились благодаря природному таланту. Им достаточно выйти на площадку, а дальше все произойдет само собой. Но в действительности у каждого спортсмена есть целый отряд помощников – диетологи, тренеры по трехочковым и вообще по всем аспектам игры.

Любой успешный игрок понимает, что нужно очень много работать. Когда я начинал играть в 2002-м, покер был игрой умных ребят, которые пытаются перехитрить друг друга. О солверах никто не слышал, теорию обсуждали с друзьями. Уверен, в 70-е баскетбол тоже был примерно таким. Но все изменилось. Уровень сильнейших игроков сейчас гораздо выше, чем 10 лет назад. Точно так же и Стеф Карри, и Леброн Джеймс намного сильнее баскетболистов предыдущего поколения.