Хэдз-ап против бота: люди пока сильнее

Каков результат матча? Оказывается, тут возможны варианты...

Представители человечества – Дуглас Полк, Донг Ким, Бьорн Ли и Джейсон Лес – играя на лимите 50-100 со стеками 200 бб, суммарно выиграли у компьютера 732,713 фишек, показав винрейт 9.16 бб/100. По меркам игроков в покер, результат близок к разгромному, учитывая количество сыгранных рук (80,000) и «зеркальность» матчей, игравшихся по дубликатному покеру – то есть каждой из команд сдавали одинаковые карманные и общие карты. Именно поэтому не стоит так уж сильно акцентировать внимание на том, кто из участников команды людей выступил лучше, а кто – хуже, ведь итоги отдельных матчей с Клодико как раз можно объяснить везением и невезением. Но стоит отметить, что больше половины выигрыша принёс людям Бьорн Ли – 529,033. Дуглас Полк выиграл 213,671, Донг Ким – 70,491. В минусе остался Джейсон Лес, проигравший 80,482. Каждый из игроков получил одинаковую оплату своего труда – $25,000. Спонсорами выступили Microsoft Research и Rivers Casino.

Однако учёные настаивали на 95%-ном доверительном интервале для окончательного определения победителя. Как выяснилось, чтобы соблюсти это условие, профессионалы должны были выиграть с винрейтом 10.35 бб/100. И хотя их фактический результат соответствует 92%-ному доверительному интервалу, это позволило руководителю проекта профессору Туомасу Сандхольму провозгласить «статистическую ничью».

По заверению другого участника проекта, Ноама Брауна, профессионалы согласились с этой формулировкой. «Мы обсудили её с игроками, прежде чем сделать заявление для прессы, и они были удовлетворены. В заголовке сообщалось, что профессионалы завершили состязание с преимуществом по фишкам, а в подзаголовке уточнялось, что этот результат нельзя считать статистически значимым».

Другой программист, Сэм Ганцфрид, активнее других следивший за дискуссиями на форуме 2+2 (http://forumserver.twoplustwo.com/29/news-views-gossip/wcgrider-dong-kim-jason-les-bjorn-li-play-against-new-hu-bot-1526750/), придерживается особого мнения: «Хочу уточнить, что я не имею отношения к применяемому другими сотрудниками университета Карнеги – Меллон термину статистическая ничья. Я считаю, что команда людей одержала очевидную победу, которая является статистически значимой при доверительном интервале 90%, а не 95%».

Ему возразил Браун: «95% – это не случайно выбранное число, а широко применяемый в научных исследованиях стандарт. Лично я избегал бы термина статистическая ничья, предпочитая говорить о недостаточной достоверности результата с точки зрения статистики, но не я писал этот пресс-релиз.

Ещё до начала поединка мы понимали, что попасть в доверительный интервал будет непросто, однако вполне возможно. Эксперименты показали, что необходимый для этого винрейт будет находиться в районе 8.5 бб/100. Однако точное значение мог установить только матч, ведь оно зависит от того, как именно будут играть профессионалы. Они, как и бот, играли очень агрессивно и очень по-разному, и это, вероятно, заметно увеличило дисперсию.

Если бы мы отказались от дележа банка по эквити в олл-инах, необходимый для статистической победы винрейт повысился бы до 10.72 бб/100, а винрейт команды профессионалов, что интересно, упал бы до 7.0 бб/100.

Думаю, мы сделали всё возможное, чтобы добиться значимого результата: пригласили четырёх игроков, дали им играть в дубликатный покер, делили банки по эквити в олл-инах, наиграли максимально приемлемую для людей дистанцию. Возможно, в следующий раз можно пригласить больше игроков, дать возможность мультитейблинга, испробовать другие идеи, направленные на снижение дисперсии.

Мы выбрали для соревнования стек в 200 бб, потому что с таким стеком боту играть сложнее, чем с более коротким, из-за более разветвлённого дерева решений. Этим же объясняется приглашение игроков мирового класса. Мы не хотели лёгкой жизни для Клодико.

Также скажу, что преимущество людей, на мой взгляд, было более существенным, чем показывает статистика. Они выявили очевидные недостатки бота, которые нельзя исправить, добавив ему память или увеличив мощность процессора. Для меня как исследователя это отличная новость, потому что от нас требуются новые идеи по работе над трудностями безлимитного холдема. Нам ждёт очень напряжённая пара лет!»

Для иллюстрации дисперсии Браун предоставил результаты отдельных сессий:

«Я бы не решился продолжать ставить на людей в таких матчах, – сказал профессор компьютерных технологий университета Альберты Майкл Боулинг, ведущий разработчик сильнейшего бота по лимитному холдему. – На мой взгляд, для победы над лучшими игроками мира компьютеру понадобится от одного до трёх лет. До сих пор мы просто не сознавали, насколько сильно успели к ним приблизиться».

Дуглас Полк о матче

Я выбрался из рабства и могу, наконец, ответить на вопросы.

Для начала отвечу на самый популярный – о статистической ничьей. Я много беседовал со специалистами университета, мне нравится их команда. Как я понимаю, в научной работе они обязаны быть предельно точными. 95%-ный доверительный интервал использовался в других матчах. Они не имеют права утверждать, что поражение бота было статистически значимым, ведь это была бы ложь.

Однако кое-какие вопросы у меня остались. Может быть, требование к статистической значимости итогового результата было напечатано мелким шрифтом, но по ходу матча я считал, что мы просто должны играть в свою игру, а результат определит плюс или минус. Если мы выиграем – отлично, если проиграем – снимем шляпы перед командой CMU. О том, что для настоящей победы мы должны показать определённый винрейт, я узнал всего за пару дней до окончания поединка, когда уже был на грани помешательства из-за объема игры.

Я согласен с тем, что наша победа не может быть признана значимой при доверительном интервале 95%, но меня не покидает ощущение, что при другом исходе о «статистической ничьей» никто бы не вспомнил. Например, в твиттере факультета информатики CMU написали: «Дуглас Полк на пресс-конференции сказал, что его впечатлил винрейт Клодико». (Лол, винрейт!) Конечно, я предпочитаю хорошо отзываться об оппоненте, и мне понравились многие элементы игры бота. Но в его стратегии были и серьёзные проблемы. Твит удалили по моей просьбе.

Добавлю, что на заключительном отрезке огромную роль сыграла усталость. У меня практически не было времени анализировать игру, и были дни, когда я начинал адски тильтовать из-за того, как рутинно и скучно шёл игровой процесс. Члены команды Клодико делали вид, что не замечают этого... Ещё один момент: хотя в конце игрового дня нам предоставляли историю раздач, но сама игра шла без статистики, и я в первый раз за пять или шесть лет играл без HUD'а, вслепую.

На мой взгляд, правильный заголовок был бы таким: «Люди побеждают компьютер с 92%-ной значимостью». Если посмотреть на заголовки большинства СМИ, почти никто не упоминает о ничьей (кроме принадлежащей Microsoft NBC).

В общем, я своё дело сделал и покидаю поле битвы с честью. Команда людей победила, и я не хочу ломать копья из-за частностей.

Меня часто спрашивают, соглашусь ли я повторить эксперимент. Мой ответ – скорее всего, нет. Это оказалось слишком тяжёлым испытанием, не говоря уже о том, как пострадало моё ожидание на других фронтах. Не то чтобы $210 в час это плохая оплата, просто само занятие не выходит в число наиболее эффективных вариантов моего времяпрепровождения, учитывая, как серьёзно я работаю.

Недостатки и особенности Клодико

WCGRider выделил в качестве достоинства бота нечеловеческий уровень агрессии и особенно необычную манеру овербетить даже маленькие банки. Неоднократно Клодико ставил на ривере олл-ин порядка 19,000, чтобы забрать банк 700-800 фишек.

Большой пост написал пользователь 2+2 TimTamBiscuit. По его мнению, не следует считать, что Клодико силён во всех аспектах игры только потому, что он хорошо играл отдельные раздачи. Нужно систематически тестировать бота в различных ситуациях. Многие из раздач матча показали, что Клодико в некоторых ситуациях играет не по GTO (т. е. его игру можно легко эксплойтить). В частности, в одной из раздач (полностью она не приводится) Полк запушил 9-9, и машина ошибочно выкинула А4о, несмотря на то, что имела достаточные шансы банка для автоматического колла. По мнению читателя, знаменитые 11-кратные овербеты Сlaudico также являются следствием какой-то программной ошибки, связанной с недостаточной вариативностью сайзингов. Бот плохо боролся с мини-донками на флопах, и люди использовали этот лик на протяжении всего матча. Клодико постоянно попадал в ловушки Дага и Бьорна, ставя плохие олл-ины на ривере...

Объяснил TimTam и результаты игроков команды людей. Дуглас Полк, по его мнению, полностью утратил мотивацию играть серьёзно примерно на середине дистанции. Только Бьорн провёл весь матч в полную силу. Джейсон Лес закончил в маленьком минусе, но на второй половине дистанции показал винрейт 21 бб/100, что, возможно, говорит о запоздалом понимании типичных слабостей соперника.

Ещё один программный лик Клодико обнаружил пользователь 2+2, удивившийся тому, что машина заколлировала небольшую ставку на ривере с 5-хай. Сэм Ганцфрид подтвердил, что бот интерпретировал ставки ниже определённого процента банка как чек и не имел в этом случае опции фолда. Проблему оперативно устранили по ходу матча.

Речь WCGRider'а на закрытии матча

Некоторые выдержки:

Мы часто говорим о балансе. На мой взгляд, силу Клодико можно определить именно этим словом: «баланс». Играя в покер, нужно сбалансировать влияние многих факторов. То, чем мы на самом деле занимаемся во время игры – решаем проблемы. Каждый раз, когда у нас рука средней силы и противник применяет агрессивную линию, у нас проблемы. В этом матче таких проблем было множество. Мы должны были решать эти проблемы с помощью творческой и умной игры. Но мы – люди, и наши возможности ограничены. Мы можем размышлять о стратегии, думать, с какими категориями рук мы применяем ту или иную стратегию, какие руки добавляем для баланса. Но в своем балансе мы не можем быть совершенны. В отличие от Клодико.
Программисты также хорошо делали свою работу. Поправки, которые они вносили в программу по ходу матча, привели к тому, что борьба во второй половине матча шла гораздо более упорная, чем в первой.
Наконец, хочу сказать об искючительной агрессивности Клодико. Бот постоянно заставлял нас принимать трудные решения. Люди так не играют – мы слишком привязаны к деньгам. Мы не любим рисковать 19,250 долларами, чтобы выиграть 700 долларов. Это чисто компьютерный приём. Я всегда старался обогащать свой арсенал приёмами, которые не использует большинство игроков, но Клодико поднялся на новый уровень.

Если говорить о недостатках Клодико, я уверен, многие из них были исправлены по ходу матча или будут исправлены в ближайшее время. В частности, во многих больших банках мы, можно сказать, получали от бота подарки. Программисты сказали мне, что если такие ситуации повторятся, на столь щедрую оплату наших олл-инов мы можем не рассчитывать. Второй вопрос касается card removal. Как нам кажется, влияние card removal на решения бота можно было запрограммировать точнее. Но не буду углубляться в терминологию...

Винрейт нашей команды против Клодико составил 9 бб/100. Я считаю, что люди имели преимущество над машиной, но в целом матч получился достаточно упорным. Для сравнения, винрейты большинства регуляров на моих лимитах выше. Играя с Клодико, мы все чувствовали, что это очень сильный соперник...

Матч в полном объеме и с открытыми картами транслировался на соответствующих каналах Twitch.TV:

Клодико – Дуглас Полк http://www.twitch.tv/claudico_vs_dougpolk/profile/past_broadcasts
Клодико – Донг Ким http://www.twitch.tv/claudico_vs_dongkim/profile/past_broadcasts
Клодико – Бьорн Ли http://www.twitch.tv/claudico_vs_bjornli/profile/past_broadcasts
Клодико – Джейсон Лес http://www.twitch.tv/claudico_vs_jasonles/profile/past_broadcasts