
大模型的加持,引領數字人行業的進一步發展。首次發布的超擬人數字人,不僅在口唇、表情、動作上更為靈活自然,在制作模式上,更是僅需一張照片即可完成形象的定制,進一步降低了數字人的應用門檻。
01
僅需一張照片,持續降低數字人應用門檻
當下,科大訊飛星火大模型正在各行業應用,其中,與數字人的結合是熱門方向。在訊飛旗下一款AIGC內容創作平臺訊飛智作上,我們可以看到有四百多個公版形象,從帶有民族風味的文旅形象到端莊大氣的大會主持,這些數字人被應用于各行各業。但當前定制數字人仍需較為繁瑣的拍攝流程且對定制者本身的面部表情和動作表達有著非常高的要求。如何讓更多的人使用個性化的數字形象,這也是科大訊飛虛擬人業務一直探索的方向。
在活動現場,科大訊飛研究院院長劉聰為大家展示了自己用一張照片生成的超擬人數字人。這種僅需上傳一張照片的操作極大簡化了數字人定制對于預設素材的要求,減少了用戶的操作路徑。這種能力的進步進一步降低數字人的使用門檻與成本,對于數字人應用各行業都具有重要意義。

02
情感貫穿的多模態交互,讓情感表達極大提升
隨著大模型技術賦能數字人飛速發展,當下諸多應用場景對定制數字人提出了更高的要求。
數字人的表情反饋開始被越來越多的人關注,那如何實現實時匹配語音內容和情感?訊飛智作給出答案——情感貫穿的多模態交互。
此前定制數字人需要進行拍攝數據采集,數字人的表情和動作大多依賴預設資源。基于此,訊飛首發超擬人數字人采用了情感貫穿的多模態交互。情感貫穿讓數字人能夠根據上下文實時調整表情。這樣,數字人的表情不僅是口唇同步,還能夠自然反映語境中的情緒波動,實現更貼近真人的情感表達。讓數字人告別單一的面部表現,讓其情感表達急速提升。

03
擺脫預設模板動作,讓動作借助語義自然驅動
在此次1024開發者節上,超擬人數字人在肢體動作驅動方面也帶來了技術創新,其肢體動作能夠根據語音的節奏、語調和內容實時生成。通常情況下,傳統的數字人動作驅動需要依賴預先錄制的模板動作,在與語音匹配時調用此前的模版動作來同步數字人肢體,但這種方式在一定程度上會局限數字人肢體的更多表現。

此次訊飛的首發超擬人數字人基于多模擴散生成大模型,讓生成式肢體動作突破動作預設模版。數字人的動作能夠與語音內容自然匹配,這一突破極大提升了數字人在動態場景中的表現力,增強交互的擬人化程度。
04
中間表征壓縮技術,提升多場景下實時交互能力
視頻生成模型效率一直是業界持續探索的難題,在數字人不斷加速落地多元場景下,數字人視頻生成的實時性也決定了數字人技術能否在交互場景中的有效使用。如在銀行場景中,數字人扮演網點營業員的工作任務要求其需要極高的實時交互能力,這不僅會影響業務處理效率還會對客戶體驗產生直接影響。
而這次的訊飛超擬人數字人采用了動作表征抽取技術,將語音和文本輸入轉化為緊湊的中間表征,將視頻維度進行了有效壓縮,從而大幅減少視頻計算量,讓數字人快速生成表情和動作,保障了數字人與用戶的實時互動。

從營銷到金融,從文旅到電商,數字人承擔著虛擬導游、虛擬客服、虛擬主播等多元角色,賦能到金融、文旅、媒體、政企等場景,而快問快答的實時交互能力對于高互動場景的重要性逐漸凸顯。此次訊飛發布的中間表征壓縮技術能極大提升虛擬人交互能力,讓用戶在與虛擬人交互過程中提升體驗感。
當下,科大訊飛數字人已廣泛應用于金融、政務、文旅、商業、展會等多個領域。訊飛智作作為是科大訊飛為廣大創作者打造的智能內容創作基地,在AI能力的加持下,用戶帶著個性化的創意就可以完成高質量音視頻的輸出,讓服務成本降低,讓用戶體驗更優。
與此同時,科大訊飛虛擬人交互平臺運用最新的AI虛擬人技術,結合星火認知大模型,為用戶提供一站式的虛擬人解決方案。無需代碼一鍵部署,為客戶提升服務效率,創新服務體驗,降低服務綜合成本。從國際賽事巴黎奧運會到文旅地標北京圓明園,從行業活動天津智博會到智慧生活山東高速,科大訊飛虛擬人無處不在,助力融媒體、政企、文旅、教育、電商各行各業。

此次1024開發者節首發超擬人數字人讓數字人能力再升級。更加真實且靈動的數字人,正在逐步降低數字人應用開發門檻,相信未來可以幫助更多個人及企業實現一站式的虛擬人解決方案。

現在,首發超擬人虛擬人的已在訊飛智作小程序上開放內測通道。依托星火大模型的基座能力,實現任意一張照片的快速驅動生成,快去定制一個屬于自己的超擬人數字人吧。







