現如今,經過長期的研究實驗證明,無模型深度強化學習在視頻游戲、模擬機器人操縱和運動等領域具有良好的性能表現。然而,眾所周知,當與環境的交互時間有限的情況下,無模型方法的表現并不佳,就像大多數現實世界中的機器人任務一樣。在本文中,我們研究了如何能夠將使用soft Q-learning訓練的最大熵策略應用于現實世界中的機器人操縱任務。這種方法之所以能夠在現實世界中的應用主要得益于soft Q-learning的兩個重要特征:首先,soft Q-learning可以通過學習具有表達性的基于能量的模型所表示的策略(energy-based models),從而學習多模式探索策略。其次,我們展示了通過soft Q-learning所學習的策略可以組成新策略,并且最終策略的最優性可以根據組合策略之間的分歧來界定。這種組合性為現實世界的操縱任務提供了一個特別有價值的工具,其中,通過對現有的技能進行組合進而構造出新的策略,可以在從零開始的訓練中提供效率上的大幅提高。我們的實驗評估結果表明,相較于以往的無模型深度強化學習方法,soft Q-learning具有更高的樣本效率,并且可以對模擬和現實世界的任務執行組合性。

我們,使用一種稱為soft Q-learning的最大熵強化學習算法,對Sawyer機器人進行訓練使其能夠將樂高積木疊加在一起。從零開始對一個策略進行訓練需要不到兩個小時的時間,并且已學習事物策略干擾(左圖)具有很強的魯棒性。我們還展示了該如何將學到的策略組合起來形成新的復合技能,例如在避開樂高積木塔的情況下進行堆疊操作(右圖)。
具有表達性的通用目的函數近似器(如神經網絡),與可用于獲取復雜行為策略的通用目的無模型強化學習算法的交集,有望實現廣泛的機器人行為的自動化:強化學習提供了用于推理序列決策的形式主義,而大型神經網絡提供了表征,原則上,可以用于使用最少的手工工程來來表示任何行為。然而,經過實踐證明,將具有多層神經網絡表示(即深度強化學習)的無模型強化學習算法應用于現實世界中的機器人控制問題,這一過程是非常困難的:無模型方法的樣本復雜性相當高,并且由于大容量函數近似器的包容性,復雜性還將進一步提高。在以往的研究中,專家們試圖通過在多個機器人上并行化學習來緩解這些問題,比如利用實例演示[,或模擬訓練,并依靠精確的模型實現向現實世界的遷移。所有這些方法都帶有附加的假設和局限性。那么,我們是否可以設計出一種無模型強化學習算法,這種算法能夠在不依賴模擬、演示或多個機器人的情況下,直接對現實世界中的多層神經網絡模型進行高效訓練?
我們假設,基于以下兩點性質,最大熵原理可以為實際的、現實世界的深度強化學習提供一個有效的框架。首先,最大熵策略通過玻爾茲曼分布(Boltzmann distribution)表達了一個隨機策略,提供了一種內在的、明智的探索策略,它,其能量對應于reward-to-go或Q函數。此分布為所有操作分配一個非零概率,但期望回報更高的操作更可能被采樣。因此,該策略將自動把探索引向回報更高的區域。這種特性可以被看作是探索和開發的軟組合,在實際應用中是非常有益的,因為它提供了比貪婪探索(greedy exploration)更多的結構,并且正如我們實驗所展示的那樣,這大大提高了樣本的復雜性。其次,正如我們在文章中所展示的那樣,獨立訓練的最大熵策略可以通過增加Q函數而其組合在一起,從而為合并后的獎勵函數產生一個新的策略,該策略被證明近乎于相應的最優策略。在實際應用中,控制器的可組合性尤為重要,而這在標準強化學習中是不可能的。在這些應用中,重復使用過去的經驗可以極大地提高任務的樣本效率(這些任務可以自然地分解為更簡單的子問題)。例如,拾取和放置的策略可以分解為(1)到達指定的X坐標(2)到達指定的Y坐標(3)規避障礙。因此,這種可分解的策略可以分三個階段學習,每個階段產生一個子策略,而這些此策略隨后可以在需要與環境進行交互的情況下進行離線組合。

對兩個獨立的策略進行訓練,從而相應地推動圓柱到橙色線和藍色線。彩色圓圈顯示了針對相應策略的圓柱到達最終位置的樣本。當策略組合在一起時,生成的策略會學習將圓柱體推到線的下交叉點(綠色圓圈表示最終位置)。沒有來自環境的附加樣本用于對組合策略進行訓練。組合策略學習滿足兩個原始目標,而不是簡單地平均最終圓柱位置。
本文的主要貢獻是在最新提出的soft Q-learning(SQL)算法的基礎上,提出了一種使用具有表達性的神經網絡策略學習機器人操作技能的學習框架。我們證明了,該學習框架為學習各種機器人技能提供了一種有效的機制,并且在實際機器人系統的樣本效率方面優于目前最先進的無模型深度強化學習方法。我們的實驗結果表明,在很大的程度上,SQL的性能要遠遠優于深度確定性策略梯度(DDPG)和歸一化優勢函數(NAF),這些算法過去曾被用于利用神經網絡探索現實世界中的無模型機器人學習。我們還演示了對SQL算法的全新的擴展,即利用它對以前學習過的技能進行組合。我們提出了一個關于組合策略和組合獎勵函數最優策略之間差別的理論界限,它適用于SQL和其他基于軟優化的強化學習方法。在實驗中,我們利用最大熵策略在模擬領域和物理領域的組合性,展示了不同技能的魯棒性學習,并且在樣本效率方面超越了現有的最先進的方法。

當在Sawyer機器人上進行訓練以將其末端執行器移動到特定位置時,DDPG(綠色)、NAF(紅色)和SQL(藍色)的學習曲線。SQL的學習速度比其他方法快得多。我們還通過將期望的位置連接到觀察向量(橙色)以訓練SQL達到隨機采樣的末端執行器位置。SQL學會盡快解決這個任務。SQL曲線顯示10個輪數中的移動平均值。
在本文中,我們探討了如何將soft Q-learning擴展到現實世界中的機器人操作任務中,既可以學習單個操作任務,也可以學習能夠組成新策略的組合任務。我們的實驗表明,本質上來說,soft Q-learning的性能要遠遠優于無模型深度強化學習。在模擬到達任務中,soft Q-learning具有比NAF更好的性能,其中包括多個策略組合以到達新位置的情況。除此之外,在Sawyer機器人進行評估的真實世界任務的執行中,soft Q-learning的性能上勝過DDPG。該方法具有更好的穩定性和收斂性,并且通過soft Q-learning獲得的對Q函數進行組合的能力可以使其在現實世界的機器人場景中特別有用,其中針對每個新獎勵因素組合的新策略進行再訓練是耗時且昂貴的。

在不到兩個小時的時間里,就可以學會一個樂高堆疊策略。學習到的策略對干擾聚于很強的魯棒性:當機器人被推進到一個與典型軌跡完全不同的狀態后,它能夠恢復并成功地將樂高積木堆在一起。
在研究最大熵策略的可組合性時,我們推導出了組合策略與組合獎勵函數的最優策略之間誤差的界限。這一界限表明熵值較高的策略可能更容易進行組合。在未來,一項有意義的研究方向是探尋這一約束對組合性的影響。例如,我們是否可以推導出一個可應用于組合Q函數的修正,以減少偏差?回答這樣的問題,會使得從先前訓練過的構建塊中創建新的機器人技能變得更加實際,這使得機器人更容易獲得通過強化學習所學到的大量行為。








