近日,國際期刊《自然》封面文章報道了人工智能機器人以5:0完勝歐洲冠軍的消息。這次與谷歌研究者開發的名為“阿爾法圍棋”人工智能機器人對弈的樊麾是法國國家圍棋隊總教練,已經連續三年贏得歐洲圍棋冠軍稱號。
研究棋類直觀的思路是列舉所有能贏的方案,這些方案會形成一個樹形地圖。人工智能機器人只要根據這個地圖下棋就能永遠勝利。然而,圍棋一盤大約要下150步,每步有250種可選的方法。要是人工智能機器人采用這種方式,需要計算大致10360種情況。
因為列舉所有情況的方法不可行,所以研究者們選擇了模仿人類大師的下棋方式。這就是“深度學習”,這是目前人工智能領域最熱門的學科,能完成筆跡識別、面部識別、駕駛自動汽車、自然語言處理等非常復雜的任務。
“阿爾法圍棋”的核心是兩種不同的深度神經網絡——“策略網絡”和“值網絡”,它們的任務在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍內,本質上和人類棋手的方法一樣。
“值網絡”負責減少搜索的深度——人工智能機器人會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線;而“策略網絡”負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。
研究者們用許多專業棋局訓練人工智能機器人,這種方法稱為監督學習。然后讓人工智能機器人和自己對弈,這種方法稱為強化學習。每次對弈,都能讓人工智能機器人棋力精進。所以“阿爾法圍棋”只要經過了足夠的訓練,就能擊敗所有的人類選手。
讓人欣喜的是,人工智能深度學習和強化學習等技術可以用于更廣泛的領域。比如應用于精準治療,人類可以訓練機器人判斷哪些治療方案對某個特定的人有效。人工智能機器人會進入人類的生活,其意義或許不亞于人類第一次接觸外星生命。








