谷歌 DeepMind 團隊(9 月 25 日)發布博文,宣布推出 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5 兩款專為物理世界設計的 AI 新模型,旨在打造能夠感知、規劃、思考并行動的物理智能體。

IT之家援引博文介紹,這兩款模型協同工作,致力于讓通用型機器人能夠更高效地解決現實世界中的復雜多步任務,新系統采用了一種創新的“大腦-身體”協作框架。
其中,Gemini Robotics-ER 1.5 模型扮演著“高層大腦”的角色,它精通物理環境中的規劃與決策,擁有業界領先的空間理解能力。
例如,當機器人被要求“根據我所在地的規定,將這些物品分類到正確的垃圾箱”時,ER 1.5 會主動上網搜索本地垃圾分類指南,然后制定詳細的執行計劃。
隨后,“大腦”會將計劃分解為一步步的自然語言指令,傳遞給扮演“身體”角色的 Gemini Robotics 1.5 模型。
這是一個視覺-語言-行動(VLA)模型,它負責接收指令,并將其直接轉化為機器人的具體運動指令。這一流程不僅實現了高效分工,還讓機器人的行動邏輯更加清晰。
Gemini Robotics 1.5 的一項核心突破是具備“先思考后行動”的能力。在執行任務前,它能以自然語言生成一套內部推理與分析序列,從而更好地理解任務的深層語義。
例如,在執行“按顏色對衣物分類”任務時,模型會先思考“白色衣服放入白桶,其他顏色放入黑桶”,然后再規劃“拿起紅色毛衣放入黑桶”的具體步驟。這種能力不僅提升了任務成功率,還讓其決策過程更加透明,機器人甚至能解釋自己的行為邏輯。
Gemini Robotics 1.5 展現了卓越的跨機器人形態學習能力。傳統上,為一個機器人學習的動作很難直接遷移到另一個形態不同的機器人上。
而新模型打破了這一限制,它將在某個機器人(如 ALOHA 2)上學到的技能,成功遷移至外形和自由度完全不同的機器人(如 Apollo 人形機器人和 Franka 雙臂機器人)上,無需針對新型號進行專門訓練,從而極大地加速了新技能的學習和部署。
谷歌強調,在發展 embodied AI(具身人工智能)潛力的同時,公司正積極構建新的安全與對齊方法。Gemini Robotics 1.5 實施了一套整體安全策略,包括行動前思考安全、遵循現有安全政策以及在必要時觸發機器人內置的低級安全子系統。
Gemini Robotics-ER 1.5 目前已通過 Gemini API 向開發者開放,而 Gemini Robotics 1.5 則提供給部分合作伙伴使用。







