2020年庚子年開了不太好的一個頭,新冠疫情在全國開始蔓延,對各行各業都產生了很大的影響。“危”和“機”總是并存的,在我們審視這場災難的同時,疫情也將深刻的改變人們的工作和生活方式。面對疫情大家肯定大量聽到“測溫”“消毒”“無接觸”等等需求和對應的產品方案給此次疫情防控帶來的幫助。智能語音先天的無接觸特性,在本次抗疫斗爭中發揮了巨大的作用,作為國家推進的人工智能核心能力的一個重要組成部分,智能語音行業勢必將迎來新的發展機會。
本專題《智能語音》嘗試總結梳理智能語音的相關內容,希望為大家了解智能語音概念,業務流程,能力現狀,產業鏈提供幫助,涉及篇幅較多,會分為幾個章節逐步更新完善。
隨著人工智能各種應用的不斷滲透,人們已經接觸了越來越多的智能語音產品,從形態上可以簡單的分為軟件類產品和硬件類產品。
智能語音軟件或SAAS類產品
微信、個人助理(Siri、小冰、Home、Alexa)、呼叫中心、智能客服等等。
(曾經智能語音外呼由于大量的AI客服通過騷擾電話進行廣告推銷,被大家深惡痛覺,但此次疫情期間智能語音外呼系統,輔助進行重點人群發熱篩查和跟進隨訪,起到了相當明顯的作用,降低的大量的重復工作量。)
微信轉語音功能
智能語音硬件類產品
家居:智能音箱、智能電視、智能機頂盒等等
兒童:兒童機器人、智能故事機、智能學習機等等
隨身:藍牙語音TWS耳機、智能手表、智能翻譯機等等
汽車:車載智能導航、手機智能支架、智能車載機器人等等
商務:智能錄音筆、商務錄音轉寫器、智能辦公本等等
硬件智能語音產品
以上的產品形態,使用了智能語音當中全部或部分能力,以滿足實際的業務場景需求。人們開始更多的認識和了解語音產品和語音技術,也知道了相關的語音技術供應商,比如科大訊飛,知道亞馬遜的Alexa,知道了Google的Dialog Flow。了解語音行業的人,大多都知道了ASR是語音識別、NLP是自然語言處理。
哦,你是XX公司的,你們是做ASR的吧。(而內心的想法是,智能語音除了ASR其實還有很多技術能力;同樣的我們希望把語音產品做好,需要涉及的工作也很多很多。)
智能語音不只是語音識別。
一次語音交互示意
以上是一次智能語音問答的演示,我們同機器(假設是智能音箱,忽略喚醒步驟)語音如下。
用戶:“明天出門要帶傘嗎?”
音箱:“您好,成都明天晴,氣溫5-10℃,不需要帶傘哦。”
人的聽覺形成過程是將聲能轉變為機械能、再轉為生物電信號,在聽覺中樞加工、分析的結果。以上整個交互過程就涉及了機器需要“聽清”“識別”“理解”“行動”“想話術”“播報”整整6個環節,類比“人”聽到了同樣的語音指令所需要進行的步驟。對應的智能語音主要技術領域就包含了“信號處理”“語音識別”“自然語言處理”“語音合成”4個主要方向。在每個方向上針對不同的應用場景,又有更多細分的業務能力。
智能語音是希望實現人與機器以語言為紐帶的通信。我們的長期目標肯定是能夠同機器像人一樣的自由溝通,機器像人一樣智能應答交互。多思考人與人做對話時的特征,再類比到人與機器的交互過程,我們還有很多工作要做。
雞尾酒會效應
“聽清”和“識別”
人類在聽覺上是天賦異稟的,我們的人耳是一個很特殊的器官,可以分辨聲音的方位和距離,感覺聲音的遠近變化,選擇我們感興趣的聲音進行聆聽。在燈紅酒綠的雞尾酒會上,即使周圍有各種各樣的噪音,盡管周圍的人使用的是各自的母語,英文、西語、法語、葡萄牙語等等,此時,如果遠處突然有人用中文叫你的名字時,你還是能夠馬上就注意到他,你甚至可以和他聊天,聽到他說的內容,注意力集中在你和他的談話之中而忽略背景中其他的對話或噪音。
而如果把機器放到同樣的環境中,我們是很難從各種聲音中找到需要機器真正傾聽的聲音,機器“聽清”和“識別”在交互的開頭就出了問題,后續的交互體驗怎么保證了。
這個時候你也許會跳出來說,我試了手機上的語音識別感覺做的還不錯啊,我在酒吧里發個微信還是能很好的識別,轉換為文字。
聲音是一種波,在傳播中會不斷的反射、折射、衍射、吸收,在任何場景中設備接收到的聲音都會包含”需要識別的聲音”、“不需要識別的的聲音”。不需要識別的聲音會是多元的,包含噪音、額外的人聲、回聲、混響疊加在一起,在不同的場景中會有不同的疊加效果,形成一個專有的聲場,傳入機器的耳朵(麥克風)中。
如上,我們稱為機器所處的”聲學場景”。曾經語音產品大多為手機里的APP,都是低噪音加近場,“信號處理” 很少提及。我們一般把聲源和麥克風之間的距離在“半米”以內,稱之為“近場場景”,大于“半米”的,稱之為“遠場場景”。我們需要不同的前端“信號處理”方案去適配不同的“聲學場景”。
聲學場景 = 需要識別的聲音 + 不需要識別的聲音(對應場景下的“信號處理”直接決定了語音入口體驗。)
近場對比遠場
在酒吧里發微信的場景,這是一個明顯的近場應用。雖然其環境噪音很大,但是我們的發聲源距離機器的耳朵(麥克風)很近,聲學場景中“需要識別的聲音”遠大于“不需要識別的聲音”,機器“聽”的難度更低。而遠場場景中,比如在機器人產品,機器人可能位于機場的候機廳、醫院的導診室、展廳的引導臺、人滿為患的餐廳等等。每一種機器與環境空間的相對位置變化都會形成不同的“聲學場景”給機器“聽清”和“識別”增加難度。
一個好的智能語音產品,“信號處理”和“語音識別”能力必然是針對其投放的“聲學場景”深度適配優化后的,如此才能保障后續的語音交互體驗。
語音交互 VUI
這里我們單獨強調一個詞叫做“語音交互 Voice User Interface”。
大家或許都知道User Interface,而沒有聽過VUI。在傳統的人機交互中,我們都是通過圖型的方式,進行強視覺弱邏輯的交互,也被稱為GUI(Graphic User Interface);而VUI則是通過語音的方式進行人機交互,強邏輯而無視覺(或者弱視覺),我們要通過語音傳遞所有足夠的信息,承載我們的認知、邏輯、價值、情緒等等一切元素,這才是真正賦予智能語音靈魂的部分,而前面提到的“聽清”和“識別”只是VUI中的一部分。
語音交互VUI
完整的語音步驟包含以上多個步驟,而多次交互才能形成一次完整的語音交互。
我們先要“聽清楚”對應的過程 “信號處理”,找出我們想要識別的語音信號;然后”識別”對應的就是語音識別,聽懂對應的語音信號說的是啥,把聲音轉換為文字的過程,他說的是“明天出門要帶傘嗎?”;此部分作為語音的入口,識別可以進一步泛化為模式識別,基于“聲學場景”和“語音”導入當前對話的語音對象所處的情景,聲紋特征,性別,年齡,情緒等等更多元素。
知道內容了,然后就要理解要做什么,過程叫做“自然語言理解NLU”,他的意思是問我“明天”的“天氣”,當前所在的城市是否“下雨”;理解了,之后就要去行動,查一查明天的天氣,告訴他一些關鍵信息:成都、明天、晴、溫度5-10度;行動完了之后,就要去想話術,怎么表達更好,不同的表達方式會給人不一樣的交互體驗,”他問的是帶傘,那我肯定要對應的答復“,這個過程叫做自然語言生成,NLG;NLU+行動+NLG 對應的可以統稱為自然語言處理,我們需要賦予機器以個性、邏輯、通識、對語音對象的理解、對上下文情景的理解等等都需要從NLP層面去渲染機器想要表達的思想。
想清楚怎么表達之后,就要播報說出來,采用不同的聲音、林志玲的還是岳云鵬的,是溫柔、知性、親切的還是活波、可愛、俏皮的會帶來不同的語音交互體驗。如此形成單次的語音交互,反復以上完成智能語音交互的完整體驗。
智能語音目前從技術上包含幾大關鍵環節:
VSP信號處理:通過麥克風陣列進行“聲學場景”的信號處理,研究方向上涵蓋。降噪NS,對聲學場景中的非語音噪音信號進行抑制;語音增強SE,從含有噪音的的語音信號中提取純凈語音;去混響DER,弱化混響引起的不同步的語音相互疊加、從而提升語音識別效果;回聲消除AEC,去除語音交互設備自己發出的聲音(播報、音樂等等),而只保留用戶的人聲;語音活性檢測VAD,檢測出一段音頻中真正的語音部分;聲源定位DOA,確定發聲源的距離、角度等等;盲源分離BSS,從多個語音信號中分離出不同語音信號,例如不同的說話人聲。
ASR模式識別:不局限于將語音識別為文字,更廣的針對語音和音頻的模式識別,研究方向上涵蓋。ASR,通過將人類語音轉換為計算機可讀的輸入,由特征提取、聲學模型、語言模型組成,包括近場識別、遠場識別,近年的應用中還涉及切分說話人、全雙工語音等;聲紋識別VPR,通過比對說話人聲紋特征來判斷是否為同一個人;語音喚醒WUW,在連續語流中實時檢測出說話人特定片段,將設備從休眠狀態激活至運行狀態;特定聲音檢測,識別聲音特征,檢測音頻流當中的特殊事件,例如檢測嬰兒啼哭,狗叫等等;情緒識別,識別聲音特征中的性別、年齡、情緒等等元素;謊言識別等等。
NLP自然語言處理:自然語言理解NLU,基于詞法分析、句法分析、意圖提取和填槽獲得語言的含義;對話管理DM,考慮歷史對話信息和上下文的語境等信息進行全面地分析,承載機器的個性和邏輯狀態,決定系統要采取的相應的動作,如追問、澄清和確認等;自然語言生成NLG,將機器輸出的抽象表達轉換為句法合法、語義準確的自然語言句子;內容知識庫CMS,承載機器的通識,對于聊天對象的理解;知識圖譜KG,同知識庫結合,擴展機器的認知能力,獲得更多相關信息等等。
TTS語音合成:把文字智能地轉化為自然語音流,也就是輸入是文本 ,輸出是波形 ;近年個性化TTS、帶有情緒的TTS成為熱點。
以上我們對于智能語音有了概要性的認知,而人類大腦皮層每天處理的信息中,聲音信息占20%,它是溝通最重要的紐帶,所以人機對話將方便人們的工作與生活。因此當很多人問我們是做什么的時候,我們更愿意說我們是做VUI的,而非是做語音識別。
“智能語音交互”承載著更多的希望與寄托,時代的一粒沙,落在每個人頭上就是一座山,讓我們把它鑄成堡壘。








