比如,抽屜有一條可以抽拉的軌道,門有一個垂直的旋轉軸,烤箱有一個水平的旋轉軸。這種由關節連接起來的物品,我們就叫它“鉸接物體 ”。 由于特定關節的存在,鉸接物體的零件會受到關節的運動學約束,讓這些零件只有一個自由度(DoF)。
鉸接物體在我們生活中無處不在,構成了我們日常生活重要的一部分。而作為人類的我們,無論是看到什么樣的鉸接結構的家具,我們都能快速地知道如何去操縱以及開動它。好似我們知道這些物體的每個關節都是如何運動的。
那么機器人能不能也像人類一樣,擁有這種可以預測家具如何開動的能力呢?如果可以的話,那將對居家機器人來說是一種很大的提升。
CMU 研發新算法
近日,來自 CMU(卡內基梅隆大學)機器人學院 David Held 教授的 R-PAD 實驗室的兩名學生 Ben Eisner 和 Harry Zhang 在有效操控復雜鉸接物體(articulated objects)方面取得了重大突破,推出了一種基于3D神經網絡,能有效表達,預測日常家具等鉸接物體的零件運動軌跡的算法 FlowBot 3D。
該算法包含兩個主要子策略,其一是利用3D深度神經網絡(PointNet++)去預測被操縱的物體點云數據(pointcloud)的瞬時運動軌跡 (3D Articulated Flw/3DAF),其二是利用預測出來的運動軌跡去選擇機器人下一步的動作。二者完全在模擬器中學習,并可以直接部署到真實世界中,不需要重新訓練或者微調。在 FlowBot 3D 算法的幫助下,機器人可以像人一樣隨意操縱日常家具等鉸接物體。
![]()
該論文已被機器人頂級會議 Robotics Science and Systems (RSS) 錄取,并將會在7月于紐約展出
以往的日常家具操控要么是已知被操縱物體的幾何特征(比如連接軸的位置及方向),要么通過模仿人類去學習如何操控一個給定的物體。二者都沒有較好的可泛化性并且需要大量人類數據去訓練。
與這些不同,FlowBot 3D 是第一個基于模擬器學習,通過學習每個零件的瞬時運動軌跡,使機器人可以計算出一條最優的物體操縱路徑。這個特性使 FlowBot 3D 可以泛化到訓練沒有見到的物體上,并且可以直接部署到真實世界。
具體來說,FlowBot 3D 完全在模擬器中進行監督學習,從而學習出日常家具等鉸接物體零件的瞬時運動軌跡 (3D Articulated Flow/3DAF)。3DAF 是一種 3D 視覺表達方式,它能夠極大簡化策略的復雜度,從而提高操縱效率。機器人只需要緊密跟隨這條瞬時軌跡,并閉環地重新預測,就能成功操縱一個鉸接物體。

開動冰箱門

開動馬桶蓋

開動抽屜
FlowBot 3D 賦能的 Sawyer 機器人不僅可以迅速識別哪個家具零件可以被操控,還可以準確預測出開動零件的預測軌跡。
![]()
對于這篇工作,審稿人表示:“是對機器人操控學可觀貢獻”
機器人是如何做到的?
手動編碼(hardcoding)的策略可以提高機器人在受控環境中的性能,但是想要機器人真正的理解家用物品的操控方式,唯一的方法是教機器人像人一樣去預測這些物體的運動軌跡以及運動學約束(kinematic constraint)。
想要賦予機器人預測物體運動軌跡能力,研究者通過監督學習在模擬器中訓練機器人的視覺模塊,因為家用物體的運動軌跡在模擬器中可以準確計算出來。
在訓練中,機器人觀測到一個被操縱物體的點云(pointcloud)數據,然后在這個點云數據上,機器人的視覺模塊利用 PointNet++ 來對每一個點(per-point)預測其在受外力下的下一步的位置。此運動軌跡的真實數據可以通過順向運動學(forward kinematics)準確計算出來。將計算出來的下一步坐標減去目前的坐標就能得到被操控物體零件的運動軌跡(3D articulated flow/3DAF)。因此,訓練的時候只需要去最小化預測出的 3DAF 和真實數據的 3DAF 的 L2 loss 。
![]()
這里的紅色向量就代表預測出的門的運動軌跡
FlowBot 3D 通過在模擬器中學習多種鉸接物體在運動學約束下運動的軌跡,來預測新物體的操縱方向。常見的家用絞接物品分為抽動式(prismatic)和旋轉式(revolute)兩種。對于這兩種類別,研究者用物理定律證明了直接跟隨長度最長的 3DAF 方向(比如最遠離門旋轉軸的點)是可以最大化物體的加速度來達到操縱目的最佳策略。
![]()
![]()
![]()
有了理論加成,機器人只需要選擇可抓取的最大 3DAF 預測點就可以有效率地操控這些物體。由于機器人的視覺模塊學習的是在運動學約束下的每點(per-point)運動軌跡,此視覺模塊對機器人對物體可能的遮擋有一定的魯棒性。另外,由于 FlowBot 3D 算法是閉環算法,機器人可以在下一步對自己可能出現的錯誤進行修正。
在真實世界中部署
FlowBot 通過使用兩個子系統(視覺和操縱系統)克服了泛化性的挑戰。在真實世界中,FlowBot 3D 可以準確預測出 3D AF 物體運動軌跡。只要這個軌跡可以準確預測出,那么操縱物體就只需要跟隨這個軌跡這么簡單。在真實世界中,FlowBot 3D 只需要使用模擬器中訓練出來的一個模型就可以操控真實物體。
![]()
FlowBot3D在真實世界中部署的設置
即使真實世界中的物體和模擬器中的外貌上有很大不同,只要兩者的運動學約束相似(抽動式或者旋轉式),那么 FlowBot 3D 就可以準確預測出操控物體的策略。
![]()
在模擬器中,機器人使用部分類別的家用物品進行訓練。訓練的物體包括訂書機,垃圾箱,抽屜,窗戶,冰箱等。研究者在模擬器中利用這些物體去訓練出來一個能準確預測 3DAF 方向和大小的模型。





通過高準確度視覺模塊和比較簡單的操作策略模塊的這種組合,機器人可以快速的預測并且操控沒見過的物體。
相比較而言,先前基于模仿學習或者強化學習的方法訓練的機器人需要幾百萬的訓練數據,有時還需要人工指導才會學習新型物體的操控方式,使得這些機器人在現實世界中,尤其是家用機器人場景中不現實。
實驗表明,支持 FlowBot 3D 部署的機器人成功地在操控較有難度的新型鉸接物體,表現優于基于模仿學習部署的機器人。研究者使用相同的策略執行所有現實世界的部署,而不需要任何模擬校準或現實世界的微調。
實驗結果顯示,FlowBot 3D 在操作多數物體時都能將對“全開”的距離達到10%以下。然而其他基于模仿學習或者強化學習的方法差了很遠。
![]()
FlowBot 3D 是機器人技術一項激動人心的進步,它可以無需微調在現實世界中部署高效且準確性強的家用機器人。這項工作還表明,計算機視覺的進步可以改變機器人領域,增強機器人的能力,同時使這些改進更易于擴展到新的條件。純粹依靠模擬器學習的方法有可能在直接部署到真實世界里,并且有較強的泛化性,這將大大降低未來家用機器人訓練和學習的成本。
關于實驗室及課題組
這篇工作是在卡內基梅隆大學機器人學院的 Robots Doing and Perceiving (R-PAD) 實驗室進行及完成的。R-PAD 實驗室在可變形物體操縱(如學習理解布料)課題上處于世界領先地位。實驗室的負責人是 PhD 畢業于斯坦福大學的 David Held 副教授,師從Silvio Savarese。實驗室的主旨是利用計算機視覺方法(perceiving)幫助機器人去完成復雜的任務(doing)。
David Held 副教授相信,即使端對端學習方式很簡單,但是真正部署到機器人上的時候會遇到許多問題,所以研究者應該將視覺(perception)與策略(policy)分開考慮,但是同時思考二者如何互相增加能力。在 FlowBot 3D 這篇工作中,這個主旨深度體現了出來:3D Articulated Flow 是一個可以極大簡化策略和規劃的視覺表示方式,在正確 3D Articulated Flow 預測的基礎上,策略會被簡化成追蹤 flow 向量。
本文的第一作者是 R-PAD 實驗室二年級學生 Ben Eisner,他對 3D 視覺學習有極大興趣,本科畢業于普林斯頓大學,師從 Sebastian Seung,加入 CMU 之前,Ben Eisner 曾在谷歌和三星北美研究所工作,從事機器人學習(robot learning)的研究。本文的共同第一作者是 R-PAD 實驗室一年級學生 Harry Zhang,他對視覺和控制學都有極大興趣,本科畢業于加州大學伯克利分校,師從 Ken Goldberg,加入 CMU 之前,Harry Zhang 在伯克利的 BAIR 實驗室負責可變形物體動態操縱(learning dynamic deformable objects manipulation)項目。
![]()
課題組合影
下一步,論文作者在嘗試將 flow 這種視覺理解方式應用到鉸接物體以外的物體上面,比如如何用 flow 預測6自由度的物體軌跡。同時,作者在嘗試將 flow 應用到強化學習里,以增加強化學習的學習效率。
強化學習與靈巧機器人
得益于 DeepMind 開發的計算機 AlphaGo 在圍棋領域取得的驚人成就,強化學習這項技術在近幾年備受關注。而隨著設備計算速度的提升,以及深度學習架構的興起,強化學習也得到了快速的成長。
![]()
(圖片來源: MIT Technology Review)
強化學習的優勢在于可以不依賴標注,而是由獎勵函數來主導學習過程,這一點與人類在大多數情況下的學習方式是如出一轍的。
強化學習的出現,不僅改善了自動駕駛汽車的技術,還讓機器人可以在無需明確指導的情況下,掌握對一些物體的簡單操作。就像前文提到的那樣, 機器人也能做到和人一樣,在看到物體后就立刻明白如何將其拿起或打開。
相信在不久的將來,各種能夠模仿人類行為的靈巧機器人 ,將以不同的方式走進千家萬戶。
![]()
(圖片來源:MIT Technology Review)
論文地址:https://arxiv.org/pdf/2205.04382.pdf
項目主頁:https://sites.google.com/view/articulated-flowbot-3d
David Held副教授的主頁:https://davheld.github.io/
Ben Eisner的主頁:https://beisner.me/
Harry Zhang的主頁:https://harryzhangog.github.io/








