“情感交互”正在成為機器邁向AGI的下一個戰場。
近幾年隨著AI技術的迅速演進,機器學習的領域逐漸從文字、圖像、視頻等模態,轉向更為復雜的情感識別。在情感識別技術發展下,“陪伴機器人”已發展為具有潛力的細分賽道。PrecisionReports數據顯示,2023年全球陪伴機器人市場規模預估為920311萬美元,未來5年年復合增長率預計達到25.68%。
成立于2014年,可以科技是36氪長期關注的機器人企業。其首款產品ClicBot(可立寶)為可自由組裝構型的模塊化機器人。ClicBot好比可自由組裝成遙控車、機械臂、機械寵物等形態的機器人樂高,用戶可通過搭積木般的拼接以及功能程序編寫,DIY具有不同功能的機器人。
在生成式AI技術逐漸成熟的當下,可以科技的第二代產品、陪伴機器人Loona則將功能重點從樂高般的DIY,轉移到了人機交互。36氪曾有關Loona的功能做過詳細的介紹。

Loona與狗對視。圖源:可以科技
可以科技創始人兼CEO楊健勃告訴36氪,Loona的“寵物”形態來源于ClicBot中最受用戶歡迎的構型。這一現象側面反映出,用戶對于機器提供類生命體的智能交互具有較高的需求,“我們想通過Loona打造下一代機器人智能決策機(Intelligentdecisionmakingmachine)通過智能決策機,可以讓機器人能夠通過多模態地信息流暢地表達情感,讓機器人真正懂人”。而情感交互可以將機器人人機交互體驗從“理解命令”提升到“懂你”,讓機器人可以自由地表達情感。

Loona被摸頭。圖源:可以科技
想在機器人上實現智能情感交互,需要在感知、決策、執行三個環節構建完整的軟硬件系統。
作為建立人類情感模型的先決條件,高質量的人機情感交互數據一直是稀缺資源。楊健勃告訴36氪,數據采集的難點主要有二:一是需要雙相交互,二是需要脫敏,不侵犯個人隱私。
為此,可以科技通過深度強化學習算法建立了一條從視覺感知、到生成式情感交互AI模型的通路。
在感知層,作為能夠“讀空氣”的寵物,Loona的情感反饋來源于一整套復雜的視覺軟硬件系統。作為“眼睛”,Loona搭載的3D-ToF攝像頭等感知元件和算法可以實現人臉識別、身體檢測、動態靜態手勢識別、人體骨骼識別、3D動作捕捉、物體識別、情感感知、寵物識別、場景識別、標志識別等感知功能。

Loona玩球。圖源:可以科技
在決策層,在基于機器人收集到的脫敏交互數據,可以科技將Loona的基于數據庫索引的交互模型轉換成了基于深度學習的AI模型,繼而則是通過Loona實機進行強化學習。目前,Loona擁有高日活躍率和持續提升的銷量,基于用戶反饋,Loona的強化學習可以建立起數據飛輪。
在執行層,基于以上兩環構建的智能情感決策模型,可以科技正在研究一套實時交互生成系統。楊健勃介紹,以往Loona的情感表達采用的是由設計師提前設計的表情動作和音效來表達。接入情感決策模型后,Loona的表情、動作和音效能根據用戶的交互實時生成,比如Loona的“眼球”能根據用戶的表達轉動,將交互周期從十幾秒縮短到毫秒級。未來,Loona的實時交互系統還將持續升級。

Loona與孩子一起玩耍。圖源:可以科技
“決策模型會顛覆掉Loona以往的交互方式。”楊健勃對36氪表示,“指令和功能的概念會變得不重要,因為Loona能夠實時理解人類的意圖,再自然地做出交互。”
而作為智能決策機,楊健勃認為Loona與寵物陪伴或人類陪伴并非替代關系,而是關系的有機補充,“生物的進化有特殊的性能,目前AI側難以提供真實的感覺。但機器人的優勢在于能夠從更多維度理解人且做出反饋,也更穩定。相信它們將和寵物、人類有機共存。”







