Искусственный интеллект впервые победил сразу пять чемпионов по покеру

Предыдущей версии искусственного интеллекта удалось победить ведущих игроков в "техасский холдем", самый популярный вид покера, заработав на турнире почти два миллиона долларов.
Подписывайтесь на Sputnik в Дзен

СУХУМ, 12 июл – Sputnik. Система искусственного интеллекта Pluribus смогла победить сразу пять лучших игроков в покер, сообщает журнал Science.

"В течение десятилетий покер служил проблемой для искусственного интеллекта (ИИ) и теории игр. Фактически, в основополагающих статьях по теории игр для иллюстрации своих концепций использовался покер. Причина такого выбора проста: ни одна другая популярная развлекательная игра не справляется с проблемами скрытой информации столь же эффективно и элегантно, как покер", - говорится в публикации.

"Игра сразу с пятью соперниками потребовала фундаментальных изменений в том, как ИИ вырабатывал свою стратегию. Мы рады тому, что Pluribus удалось справиться с этой задачей и выработать несколько инновационных приемов, которые, скорее всего, поменяют то, как играют профессионалы", - заявил один из создателей Pluribus Ной Браун из университета Карнеги-Меллон в Питтсбурге.

Предшественнику Pluribus  - Libratus (также созданного Ноем Брауном и Туомасом Сандхольм) удалось победить ведущих игроков в "техасский холдем", самый популярный вид покера, заработав на турнире почти два миллиона долларов.

Искусственный интеллект выиграл почти два миллиона долларов в покер

Сандхольм и Браун не остановились на этом и создали новую версию этой машины, Pluribus, способную играть в "полноценный" покер. Дело в том, что Libratus не был приспособлен для игры за столом вместе с пятью-шестью другими игроками, как это обычно происходит в казино.

Ядро стратегии Pluribus было вычислено посредством самостоятельной игры, в которой ИИ играет против своих копий, без каких-либо данных о человеческом или предыдущем ИИ, используемых в качестве входных данных. ИИ начинается с нуля, играя случайным образом, и постепенно улучшается, поскольку он определяет, какие действия и какое распределение вероятности по этим действиям приводят к лучшим результатам по сравнению с более ранними версиями его стратегии.