軍備競賽,只要有一個國家邁出第一步,緊接著就會出現(xiàn)第二個國家,第三個國家 ...... 最終結(jié)成一張緊張又隱晦的霸權關系大網(wǎng)。
裹挾在人類歷史上最大的內(nèi)卷之中,各國軍隊開發(fā)作戰(zhàn)機器人的意圖是什么?站在軍事變革的時代長河中,作戰(zhàn)機器人的技術實際進展到了哪一步?人工智能會不會成為軍備競賽中的重要一環(huán)?我們惴惴不安的是軍備競賽的恐怖,還是前沿領域激發(fā)機器人的意識潛力?
從技術發(fā)展的角度看,許多高科技都是借助軍事契機向前發(fā)展。1968 年,阿帕網(wǎng)(ARPA 網(wǎng))誕生,有一個流傳甚廣的說法是,阿帕網(wǎng)是美國國防部為抵御前蘇聯(lián)的核打擊而建造的通訊網(wǎng)絡,即使部分指揮點被摧毀后,其它點仍能正常通訊工作。
這個最初由美國國防部高級研究計劃局用于軍事研究目的局域網(wǎng),被認為是現(xiàn)今互聯(lián)網(wǎng) ( Internet ) 的前身。從此之后,互聯(lián)科技便開始了從局部互聯(lián)到廣域互聯(lián),從軍用到民用的發(fā)展過程。
但著眼國際上成效顯著的 AI 落地項目,人工智能技術在醫(yī)療健康領域大顯身手,其因不僅是醫(yī)療領域有大量的數(shù)據(jù)可供機器學習,更為重要的是醫(yī)療問題多有明確的邊界,AI 運行極其隱秘且規(guī)整。在這種數(shù)據(jù)密集、知識密集、腦力勞動密集為特征的領域中,機器學習更像是設定好收益以及減益目標,通過無限窮舉,并且依托強大算力的超級電腦,但是距離人們認知的 " 智能 ",還有太大差距。
在現(xiàn)實世界中,少有存在明確邊界的問題。
軍事作戰(zhàn)地形復雜,作戰(zhàn)環(huán)境依附作戰(zhàn)雙方的機動戰(zhàn)術,在這種軟規(guī)則和硬規(guī)則的約束條件下成長起來的機器人,能否依據(jù)軍事作戰(zhàn)的特殊約束條件,提高機器人的自主決策能力,成長為配合士兵作戰(zhàn)的鋼鐵智能?
一、世界軍事強國對機器人部隊的構想
英國正計劃在 2030 年建機器人大軍,部署 12 萬個 " 終結(jié)者 " 機器人用于下一代戰(zhàn)爭。根據(jù)英軍國防參謀長尼克 · 卡特將軍的說法,在未來十年或 2030 年代,約有四分之一的英國軍隊可能是機器人。
與此同時,美國正在研制機器人戰(zhàn)車,用來提升陸軍作戰(zhàn)能力。到 21 世紀 30 年代,這些快速、強力的車輛將在戰(zhàn)場上巡邏,配合陸軍進行作戰(zhàn)。
發(fā)達國家率先將機器人作為軍備一部分,多數(shù)人并不驚訝,機器人可能會補充新兵的缺口,減少對人類士兵的依賴,并可能多元擴充國家的軍事力量。在以美國為首的許多國家已經(jīng)增加了對機器人技術的軍事投資,機器人很可能成為未來任何國家軍事武器庫中的關鍵部分。
從歷史的長河看,社會形態(tài)開始向智能化演變的時候,戰(zhàn)爭形態(tài)必將隨之向智能化演變。從冷兵器時代刀、槍、劍、戟,強調(diào)士兵近戰(zhàn)肉搏,到熱兵器時代槍林彈雨重視戰(zhàn)略戰(zhàn)術,我們是否要馬上迎來信息戰(zhàn)、信號戰(zhàn)、無人作戰(zhàn)時代?
目前,美國陸軍研究實驗室 ( Army Research Lab,ARL ) 正訓練機器人在崎嶇的地形 ( 上、中 ) 測試自主導航技術,目標是能協(xié)同人類隊友。ARL 還在開發(fā)具有操作能力的機器人,這種機器人可與物體交互,替代人類作戰(zhàn)冗余行為。
然而,機器人的底層技術到了望而生畏的地步了嗎,帶著這些問題,IEEE Spectrum 的高級編輯,Even Ackerman(埃文 · 阿克曼),近期前往了馬里蘭州阿德爾菲實驗室中心( Adelphi Laboratory Center),以第一視角寫下了這篇文章。AI 科技評論將其整理,與大家一同探索軍地作戰(zhàn)機器人的真實能力。
二、美國陸軍研究實驗室的陸地作戰(zhàn)機器人
- 在混亂環(huán)境中,機器人表現(xiàn)糟糕
" 我可能不應該站得這么近," 當機器人慢慢靠近我面前地板上的一根大樹枝時,我對自己說。讓我緊張的不是樹枝的大小,而是這個自主操作的機器人。雖然我知道它應該做什么,但我完全不確定它接下來會做什么。
如果一切都像 ARL 的機器人專家預料的那樣,機器人接下來會識別出樹枝的存在,抓住樹枝,并把樹枝拖到道路的一旁。這些機器人很清楚自己正在做什么,但我站在它們面前,還是心生恐懼,所以我往后退了一小步。


今天,羅曼的任務是清理道路。這是一項多步驟的任務,ARL 希望機器人盡可能自主完成。操作員不會指示機器人以什么方式抓住目標物體、或?qū)⒛繕宋镆苿拥侥硞€特定的位置,而是告訴 RoMan 要 " 清理出一條干凈的道路 ",然后由機器人自主決定如何完成這項任務。
" 自主決策的能力 ",本就是機器人之所以可以稱為機器 " 人 " 的原因所在。我們重視機器人,是因為它們能夠感知周圍所發(fā)生的事情,根據(jù)感知的信息做決定,然后在沒有人類干預的情況下采取有效的行動。在過去,機器人的決策是遵循高度結(jié)構化的規(guī)則。在像工廠一樣結(jié)構化的環(huán)境中,機器人能很好地工作,但在混亂、陌生或定義不明確的環(huán)境中,比如戰(zhàn)場,那么,對規(guī)則的依賴則會使機器人 " 笨手笨腳 ",因為機器人無法提前精確預測與作規(guī)劃。
- 深度學習:一塊 " 絆腳石 "
和許多機器人(包括家用吸塵器、無人機和自動駕駛汽車等)一樣,RoMan 是通過人工神經(jīng)網(wǎng)絡來應對在半結(jié)構環(huán)境中遇到的挑戰(zhàn)。大約在十年前,人工神經(jīng)網(wǎng)絡開始應用于各種各樣的半結(jié)構化數(shù)據(jù)。此前,這些半結(jié)構化數(shù)據(jù)一直是基于規(guī)則編程(也就是所謂的 " 符號推理 ")來運行的計算機的難題。
人工神經(jīng)網(wǎng)絡不是識別特定的數(shù)據(jù)結(jié)構,而是識別數(shù)據(jù)模式,找出與網(wǎng)絡先前遇到的數(shù)據(jù)相似但不完全相同的新數(shù)據(jù)。人工神經(jīng)網(wǎng)絡的部分吸引力,就在于它們是通過實例進行訓練,通過讓神經(jīng)網(wǎng)絡學習標記的數(shù)據(jù),形成自己的識別模式。具有多層抽象的神經(jīng)網(wǎng)絡,則稱為 " 深度學習 "。
盡管人類參與了訓練的過程,人工神經(jīng)網(wǎng)絡也受到了人類大腦神經(jīng)網(wǎng)絡的啟發(fā),但從根本上看,深度學習系統(tǒng)的識別模式與人類看待世界的方式是不同的。我們經(jīng)常無法理解深度學習系統(tǒng)的輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的關系,所以深度學習系統(tǒng)也往往被稱為 " 黑盒子 " 模型。
深度學習的這種 " 黑盒子 " 不透明決策特性,給像 RoMan 這樣的機器人和 ARL 實驗室造成了一些問題。這種不透明性也意味著,我們要必須謹慎使用依賴深度學習系統(tǒng)的機器人。
深度學習系統(tǒng)擅長識別模式,但缺乏人類對世界的理解能力,也就無法像人類一樣做出合乎情理的決策。這就是為什么深度學習在一些定義良好且范圍小的應用中能取得最出色的表現(xiàn)。
" 當你同時擁有構造良好的輸入和輸出,并且可以在這些輸入與輸出中完整地表達你的問題,那么深度學習就很有用。" 美國羅徹斯特大學機器人與人工智能實驗室主任 Tom Howard 談道。此前,Tom Howard 為 RoMan 和其他地面機器人開發(fā)了許多自然語言交互算法。" 問題是,在為智能機器人編程時,這些依賴深度學習系統(tǒng)的機器人實際存在的大小是多少 ?"
Howard 解釋說,當你將深度學習應用到更高層次的問題時,輸入的數(shù)據(jù)量可能非常大,處理大規(guī)模數(shù)據(jù)會十分困難。尤其當研究的對象是一個 170 公斤重的雙臂軍用機器人時,它在執(zhí)行任務中可能出現(xiàn)的不可預測或無法解釋的行為就變得無比關鍵。
幾分鐘后,羅曼還沒有動——它仍然坐在那里,對著樹枝沉思,手臂像螳螂一樣擺動。在過去的 10 年里,ARL 的機器人技術合作聯(lián)盟 ( Robotics Collaborative Technology Alliance ,RCTA ) 一直與來自卡內(nèi)基梅隆大學、佛羅里達州立大學、General Dynamics Land Systems 公司、JPL、MIT、QinetiQ North America、中佛羅里達大學、賓夕法尼亞大學和其他頂級研究機構共同開發(fā)用于未來地面作戰(zhàn)的機器人自主能力。RoMan 就在這個大項目中的一個代表。
RoMan 正在思考的 " 清出一條路 " 的任務對機器人來說是很困難的,因為這個任務太抽象了。在這個任務中,羅曼需要識別可能擋住去路的物體,推斷這些物體的物理性質(zhì),弄清楚如何抓住它們,以及采用哪種最佳的操作技巧(推、拉、提等等),然后將這些行為完整地執(zhí)行出來。對于一個本就對世界了解有限的機器人來說,這個任務的步驟實在太多,且充滿未知。
- " 模塊化 " 理解世界
ARL 操縱和移動項目的人工智能首席科學家 Ethan Stump 談道:" 讓機器人逐漸理解世界,正是 ARL 所開發(fā)的機器人與其他依賴于深度學習的機器人所不同的地方。"
" 軍隊也許會在世界上的任何地方執(zhí)行任務,但我們不可能收集應用到機器人的所有地域的詳細數(shù)據(jù)。我們也許會被派去地球另一側(cè)從未涉足的森林,但我們也要表現(xiàn)地就像在自家后院一樣出色。" 他介紹,但大多數(shù)深度學習系統(tǒng)只能在它們受訓的領域和環(huán)境中可靠地運行。此外,如果軍隊作戰(zhàn)機器人的深度學習系統(tǒng)表現(xiàn)不好,他們并不能通過簡單地收集更多的數(shù)據(jù)來解決問題,數(shù)據(jù)量有限。
ARL 的機器人還需要意識到自己在做什么。Stump 解釋:" 在一項任務的標準執(zhí)行順序中,你有目標、約束條件、表達指揮官意圖的話術。" 換句話說,RoMan 可能需要快速地清理一條道路,也可能需要安靜地清理一條道路,這取決于任務的具體要求。即使對目前最先進的機器人來說,這也是一個很高的要求。
在我看著的時候,RoMan 再次搬運樹枝。ARL 的自主方法是模塊化的,其中,深度學習與其他技術結(jié)合,讓 RoMan 幫助 ARL 確定什么任務適合什么技術。
目前,RoMan 正在測試兩種從 3D 傳感器數(shù)據(jù)中識別物體的不同方法:賓夕法尼亞大學的方法是基于深度學習,而卡耐基梅隆大學使用的是一種通過搜索來感知的方法,這種方法依賴于更傳統(tǒng)的 3D 模型數(shù)據(jù)庫。只有事先確定要尋找的對象,搜索感知方法才有效,但這種方法的訓練要快得多,因為每個物體只需要一個模型。而且。即使物體很難被感知,比如物體的一部分被遮擋或被顛倒,搜索感知方法也能準確地識別物體。ARL 同時測試兩種方法,讓兩種方法同時運行、相互競爭,以選出最通用和最有效的方法。
感知是深度學習擅長的事情之一。ARL 的計算機科學家 Maggie Wigness 說:" 得益于深度學習,計算機視覺領域已經(jīng)取得了極大進展,我們已經(jīng)成功地將一些只在一個環(huán)境中訓練的深度學習模型很好地泛化到新的環(huán)境中。"
ARL 的模塊化方法是將幾種技術的優(yōu)勢結(jié)合起來。例如,基于深度學習視覺對地形進行分類的感知系統(tǒng),可與基于逆強化學習方法(inverse reinforcement learning)的自動駕駛系統(tǒng)一起工作。在逆強化學習方法中,模型可以通過人類士兵的觀察迅速創(chuàng)建或優(yōu)化,而傳統(tǒng)的強化學習基于既定的獎勵函數(shù)來優(yōu)化解決方案,通常只有在你不確定什么是最佳行為的時候使用。這和作戰(zhàn)思維不謀而合,這種思維通常認為訓練有素的人在一旁指導機器人才是正確的做事方式。
" 所以我們想要一種技術,讓士兵干預,結(jié)合一些戰(zhàn)場實例。如果我們需要新的行為,就可以更新系統(tǒng)。深度學習技術需要更多的數(shù)據(jù)和時間。"Wigness 說。
- 如何安全運行?
深度學習要面臨的,不僅僅是數(shù)據(jù)稀疏和快速適應的問題,還有魯棒性、可解釋性和安全性等問題。Stump 說:" 這些問題并不是只有在作戰(zhàn)機器人中才會出現(xiàn),但在軍隊作戰(zhàn)時尤其重要,因為它所引起的后果可能是致命的。" 需要明確的是,ARL 目前并不是在研究致命的自主武器系統(tǒng),而是在為美國軍方的自主系統(tǒng)奠定基礎。在未來,作戰(zhàn)機器人可能就如 RoMan 一樣行動。
Stump 還表示,安全永遠是優(yōu)先考慮的問題,但目前還沒有一種明確的方法來確保深度學習系統(tǒng)的安全性。" 在安全的約束下進行深度學習是一項重要的研究工作,但將這些約束條件添加到系統(tǒng)中確實困難重重,因為你不知道系統(tǒng)中已有的約束條件是從哪里來的。所以,當任務變化,或環(huán)境變化時,約束條件就很難處理。
這甚至不是一個數(shù)據(jù)問題,而是一個架構問題。" 無論 ARL 的模塊化架構是使用深度學習的感知模塊,還是使用逆強化學習的自動駕駛模塊,它都可以構成更廣的自動系統(tǒng)的一部分,并滿足軍隊對安全性和適應性的要求。
整合起來的深度學習系統(tǒng)就能作戰(zhàn)?
Nicholas Roy 是 MIT 機器人小組的負責人。他形容自己是一個 " 煽動者 ",因為他覺得深度學習不應該被神化,所以他同意 ARL 機器人專家的觀點,即深度學習方法往往無法應對軍隊所面臨的挑戰(zhàn)。
" 陸軍時時深入新的環(huán)境,而且敵軍總是嘗試不斷改變環(huán)境,所以機器人所經(jīng)歷的訓練過程根本無法與軍隊的需求相匹配。" Roy 說," 因此,很大程度上,深度網(wǎng)絡的需求與陸軍作戰(zhàn)的任務是不匹配的,這是一個問題。"
在 RCTA(Rear Cross Traffic alert,后方橫向來車警示系統(tǒng))任務中,Roy 強調(diào)地面機器人的抽象推理。他認為,當深度學習被用于具有明確函數(shù)關系的問題時,它就是一項有用的技術,但當你開始研究抽象概念時,就不清楚深度學習是否可行。"
Roy 說:" 我對神經(jīng)網(wǎng)絡和深度學習如何以一種支持更高級的推理方式進行組裝非常感興趣,歸根到底,這是如何結(jié)合多個低級神經(jīng)網(wǎng)絡來表達更高層次概念的問題,但目前我們還不知道怎么做到這一點。"
Roy 給出了使用兩個獨立神經(jīng)網(wǎng)絡的例子,一個用來檢測汽車,另一個用來檢測紅色的物體。與使用基于邏輯關系的、帶有結(jié)構化規(guī)則的符號推理系統(tǒng)相比,將這兩個網(wǎng)絡合并成一個更大的網(wǎng)絡來檢測紅色汽車要困難得多。" 很多人都在研究這個問題,但我還沒有看到成功推動這種抽象推理形成的研究。"
在可預見的未來,ARL 將通過讓人類參與高級推理和偶爾的低級建議,來確保自主系統(tǒng)的安全性和魯棒性。人類可能不會一直參與機器人系統(tǒng)的研究,但當人類和機器人作為一個團隊一起工作時,它們的效率會更高。當機器人合作技術聯(lián)盟項目(Robotics Collaborative Technology Alliance)的最新階段在 2009 年開始時,ARL 已經(jīng)在伊拉克和阿富汗呆了很多年,在那里,機器人經(jīng)常被當作工具使用。我們一直在想,我們要怎么做才能讓機器人從工具變成球隊中的隊友。"
當人類指出抓取哪個區(qū)域的樹枝最有效時,RoMan 確實得到了一點幫助。機器人對樹枝并沒有認知,這種世界知識(即人們常說的 " 常識 ")的無知是所有自主決策系統(tǒng)的通病。但如果有一個人能利用我們?nèi)祟惖呢S富經(jīng)驗,稍微點撥一下 RoMan,那么它工作起來就會容易地多。這一次,RoMan 成功地抓住了樹枝,并將樹枝拖走了。
把一個機器人變成一個好隊友很難,因為要賦予機器人何種程度的自主權是十分棘手的。機器人的自主權太少,就需要人投入大量的精力來管理,這適用于處理爆炸物等特殊情況,但在其他情況下則效率低下。但如果給予機器人太多的自主權,則會有信任、安全和可解釋性等方面的隱患。
Stump 解釋:" 我認為我們要找的標準是,機器人的操作水平相當于工作犬。它們清楚地知道在有限的環(huán)境下,我們需要它們做什么;如果它們?nèi)サ叫碌沫h(huán)境,還會有少量的靈活性和創(chuàng)造力,但我們不期望它們用創(chuàng)新的方法解決問題。如果它們需要幫助,它們可以向我們求助。"
- 對自主系統(tǒng)的探索要延續(xù)下去
即使是作為人類團隊的一員,RoMan 也不太可能馬上在野外獨立執(zhí)行任務。RoMan 更像是一個研究平臺,借由這個研究契機,可以探索深度學習的一系列復雜問題。但是,ARL 正在為 RoMan 和其他機器人開一個軟件,名為 " 自適應規(guī)劃參數(shù)學習 " ( Adaptive Planner Parameter Learning,APPL ) ,可能會首先用于自動駕駛,然后是更復雜的機器人系統(tǒng),包括像 RoMan 這樣的移動操控員。
APPL 將不同的機器學習技術(包括逆強化學習和深度學習)分層排列在經(jīng)典的自主導航系統(tǒng)之下,可以將高級的目標和約束應用在低級編程上。人類可以使用遠程操作演示、矯正干預和評估反饋來幫助機器人適應新環(huán)境,同時,機器人可以使用無監(jiān)督強化學習來調(diào)整自己的行為參數(shù)。
結(jié)果就是,一個自主系統(tǒng)可以兼具機器學習的多個優(yōu)勢,同時也提供了軍隊需要的安全性和可解釋性。有了 APPL,像 RoMan 這樣的基于學習的系統(tǒng),即使在不確定的情況下也可以采用可預測的方式運行。如果它處于與訓練環(huán)境十分不同的環(huán)境中,則需要依靠人類調(diào)優(yōu)或人類演示。
商業(yè)和工業(yè)自動駕駛系統(tǒng)(比如自動駕駛汽車)的快速發(fā)展,難免使人們好奇:為什么軍隊會在先進技術的洪流中處于落后地位?Stump 的看法是,自主系統(tǒng)中有很多難題,軍隊的難題與工業(yè)難題不同。比如說,軍隊就沒有配備大量數(shù)據(jù)的結(jié)構化環(huán)境來操作機器人。未來,人類很可能仍然是 ARL 正在開發(fā)的自主框架中的關鍵角色。
三、結(jié)語:不要在發(fā)明棍子之前,困于對暴力的忌憚
從上述分析中可以看出,全球軍事機器人研究并沒有停滯不前而是在積極向前發(fā)展。人們更希望軍事機器人開發(fā)者能夠在戰(zhàn)斗和智能自動化方面找到平衡。
我們的時代軌跡是真正實現(xiàn)人機共融,而從機器人一隅來看,人和機之間的關系,漸次為輔助、協(xié)同、替代、擴展。輔助和協(xié)同已經(jīng)實現(xiàn),人的主體地位就要擺在更顯眼的位置了。








