本報訊人工智能(AI)可以在國際象棋、圍棋、撲克和其他需要多種策略才能獲勝的游戲中擊敗人類玩家。這款名為“游戲學生”(SoG)的AI由谷歌的DeepMind開發。該公司表示,這是朝著能夠以超人的表現執行任何任務的通用AI邁出的一步。相關論文11月15日發表于《科學進展》。
曾在DeepMind從事AI研究的Martin Schmid,現在就職于一家名為“均衡技術”的初創公司。他表示,SoG模型可以追溯到兩個AI模型。其中一個是DeepStack,這是由加拿大阿爾伯塔大學的Schmid等團隊開發的AI,是第一個在撲克比賽中擊敗人類職業選手的AI。另一個是DeepMind的AlphaZero,它在國際象棋和圍棋等游戲中擊敗了最優秀的人類棋手。
這兩種AI模型的不同之處在于,一種專注于不完全的知識游戲——玩家不知道其他玩家的狀態,比如撲克游戲中的牌;另一種則專注于完全的知識游戲,比如國際象棋,雙方玩家在任何時候都能看到所有棋子的位置。這兩者需要不同的方法。DeepMind雇用了整個DeepStack團隊,目的是建立一個可以泛化兩種類型游戲的模型,從而誕生了SoG。
Schmid表示,SoG最初是一份如何學習游戲的“藍圖”,進而通過實踐來提高。然后,這個初學者模型可以在不同的游戲中自由發揮,并學會如何與另一個版本的自己對抗,以掌握新的策略并提高能力。盡管DeepMind之前的AlphaZero可以適應完全的知識游戲,但SoG可以適應完全和不完全的知識游戲,使其更具通用性。
研究人員在國際象棋、圍棋、得州撲克和一款名為“蘇格蘭場”的棋盤游戲中測試了SoG,并在Leduc撲克和一款定制版的“蘇格蘭場”中測試了SoG,結果發現它可以擊敗幾個現有的AI模型和人類玩家。Schmid說,它應該也能學會玩其他游戲。“有很多游戲你可以直接扔給它,它真的非常擅長。”
與DeepMind更專業的算法相比,這種廣泛的能力使SoG在性能上略有犧牲,但仍然可以在其學習的大多數游戲中輕松擊敗最優秀的人類玩家。Schmid說,SoG學會了與自己對抗,以便在游戲中提高水平;同時也是為了從游戲的當前狀態中探索可能出現的情況,即使它正在玩一個不完全的知識游戲。
“當你在玩撲克這樣的游戲時,如果不知道對手持有什么牌,你就不清楚該如何找到游戲中的最佳策略。”Schmid說,“所以有一些來自AlphaZero的思維,還有一些來自DeepStack的思維,它們形成了一個龐大的思維體系,這就是SoG。”
未參與這項研究的英國愛丁堡大學的Michael Rovatsos表示,盡管這一研究成果令人印象深刻,但要想將AI視為通用智能,還有很長的路要走,因為與現實世界不同,游戲是一種所有規則和行為都被明確定義的虛擬環境。
“這里要強調一點,這是一個受控的、獨立的人工環境,在這個環境中,每件事的意義和每一個動作的結果都是非常清楚的。”Rovatsos說,“這個問題是一個玩具問題,盡管它可能非常復雜,但它不是真實的。”(李木子)
相關論文信息:
https://doi.org/10.1126/sciadv.adg3256
《中國科學報》(2023-11-24第2版國際)








