如何讓機器的聲音媲美人類?這是AIGC領域需求量大、技術門檻高的難題。11月18日,2022科大訊飛全球1024開發者開幕,在平臺新品發布會上,科大訊飛AI研究院副院長高建清表示,科大訊飛在語音合成技術領域取得重大突破,多風格多情感合成系統SMART-TTS,可以讓語音合成從簡單的信息播報,“變身”為具備喜怒哀樂情感的語音助手。

高建清表示,SMART-TTS系統充分利用了文本和語音的‘無監督預訓練’,實現了從文本到聲學特征、再到語音的端到端建模。SMART-TTS系統可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感有20檔強弱度不同的調節能力;也能提供聲音的創造能力,如停頓、重音、語速等,可以根據自己喜好調節,真正實現了合成系統媲美具備個性化特點的真人表達能力。

比如當人們在林蔭路漫步時,機器人可以用字正腔圓的“播音腔”播報新聞;當人們結束一天工作準備入睡時,機器人可以用輕聲細語朗讀散文;當人們驅車上班時,機器人可以用最喜歡的歌手聲音告訴大家走哪條路不堵車;當人們和家人一起觀看紀錄片時,機器人可以為片中不同人物配音。人機交互表達自然、情感飽滿。目前,訊飛有聲APP和訊飛開放平臺都開放了SMART-TTS語音合成系統,開發者可以在訊飛有聲直接下載體驗,或在開放平臺進行調用。同樣隸屬于AIGC范疇,在聲音和虛擬形象生成技術方面,科大訊飛實現了語義可控的聲音、形象生成,語義驅動的情感、動作表達。比如:當人們輸入“一頭長發”時,SMART-TTS系統智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,會生成有一些商務范的男生形象,聲音略帶磁性。此外,訊飛還實現了語音語義驅動的動作合成,通過對語音節奏、韻律體會和語義理解,虛擬人可以隨時、流暢地切換動作,擁有更加自然的肢體語言。“與傳統動作庫相比,這套語義驅動的系統在動作擬人度及契合度方面,有明顯的效果提升。”高建清表示。同時,2022年科大訊飛科大訊飛在交互系統的認知關鍵技術也取得突破性進展。
今年以來,依托科大訊飛建設的認知智能國家重點實驗室相關團隊在認知智能技術突破方面奪得3項國際冠軍——在常識推理挑戰賽CommonsenseQA 2.0中刷新機器常識推理水平世界紀錄,在科學常識推理挑戰賽OpenBookQA中以準確率94.2%的絕對優勢奪冠,在常識推理挑戰賽QASC中以多模型準確率93.48%、單模型準確率92.07%奪冠,后兩項比賽更是超越人類平均水平。隨著核心源頭技術創新和系統性創新的持續突破,AI擁有更加“智慧”的語義理解和對話生成能力。“好的人機交互系統,在開放式的場景下要具備深度理解能力,并能了解交互對象從而發起主動的對話。”高建清說,圍繞認知智能技術,訊飛實現了于語義圖網絡的開放場景語義理解,基于事理圖譜的對話管理,基于知識學習的可控對話生成。







