<legend id="axlin"><track id="axlin"></track></legend>

        <cite id="axlin"><rp id="axlin"><pre id="axlin"></pre></rp></cite>
          精品无码久久久久久久久久,精品国产美女福到在线不卡,亚洲成人www,亚洲AV无码破坏版在线观看,国产精品综合一区二区三区,久久亚洲精品11p,风韵丰满妇啪啪区老老熟女杏吧,国产精品免费久久久免费
          熱搜: 佳士科技  irobot  工業機器人  機器人  ABB  機器人產業聯盟  發那科  機械手  碼垛機器人  庫卡 

          智能語音交互的概念

             日期:2021-10-14     來源:知乎    作者:吉米哥     評論:0    
          標簽:
          2020年庚子年開了不太好的一個頭,新冠疫情在全國開始蔓延,對各行各業都產生了很大的影響。“危”和“機”總是并存的,在我們審視這場災難的同時,疫情也將深刻的改變人們的工作和生活方式。面對疫情大家肯定大量聽到“測溫”“消毒”“無接觸”等等需求和對應的產品方案給此次疫情防控帶來的幫助。智能語音先天的無接觸特性,在本次抗疫斗爭中發揮了巨大的作用,作為國家推進的人工智能核心能力的一個重要組成部分,智能語音行業勢必將迎來新的發展機會。
          本專題《智能語音》嘗試總結梳理智能語音的相關內容,希望為大家了解智能語音概念,業務流程,能力現狀,產業鏈提供幫助,涉及篇幅較多,會分為幾個章節逐步更新完善。

          隨著人工智能各種應用的不斷滲透,人們已經接觸了越來越多的智能語音產品,從形態上可以簡單的分為軟件類產品和硬件類產品。

          智能語音軟件或SAAS類產品
          微信、個人助理(Siri、小冰、Home、Alexa)、呼叫中心、智能客服等等。

          (曾經智能語音外呼由于大量的AI客服通過騷擾電話進行廣告推銷,被大家深惡痛覺,但此次疫情期間智能語音外呼系統,輔助進行重點人群發熱篩查和跟進隨訪,起到了相當明顯的作用,降低的大量的重復工作量。)

          微信轉語音功能

          智能語音硬件類產品

          家居:智能音箱、智能電視、智能機頂盒等等
          兒童:兒童機器人、智能故事機、智能學習機等等
          隨身:藍牙語音TWS耳機、智能手表、智能翻譯機等等
          汽車:車載智能導航、手機智能支架、智能車載機器人等等
          商務:智能錄音筆、商務錄音轉寫器、智能辦公本等等

          硬件智能語音產品


          以上的產品形態,使用了智能語音當中全部或部分能力,以滿足實際的業務場景需求。人們開始更多的認識和了解語音產品和語音技術,也知道了相關的語音技術供應商,比如科大訊飛,知道亞馬遜的Alexa,知道了Google的Dialog Flow。了解語音行業的人,大多都知道了ASR是語音識別、NLP是自然語言處理。

          哦,你是XX公司的,你們是做ASR的吧。(而內心的想法是,智能語音除了ASR其實還有很多技術能力;同樣的我們希望把語音產品做好,需要涉及的工作也很多很多。)

          智能語音不只是語音識別。

          一次語音交互示意

          以上是一次智能語音問答的演示,我們同機器(假設是智能音箱,忽略喚醒步驟)語音如下。

          用戶:“明天出門要帶傘嗎?”

          音箱:“您好,成都明天晴,氣溫5-10℃,不需要帶傘哦。”

          人的聽覺形成過程是將聲能轉變為機械能、再轉為生物電信號,在聽覺中樞加工、分析的結果。以上整個交互過程就涉及了機器需要“聽清”“識別”“理解”“行動”“想話術”“播報”整整6個環節,類比“人”聽到了同樣的語音指令所需要進行的步驟。對應的智能語音主要技術領域就包含了“信號處理”“語音識別”“自然語言處理”“語音合成”4個主要方向。在每個方向上針對不同的應用場景,又有更多細分的業務能力。

          智能語音是希望實現人與機器以語言為紐帶的通信。我們的長期目標肯定是能夠同機器像人一樣的自由溝通,機器像人一樣智能應答交互。多思考人與人做對話時的特征,再類比到人與機器的交互過程,我們還有很多工作要做。


          雞尾酒會效應

          “聽清”和“識別”

          人類在聽覺上是天賦異稟的,我們的人耳是一個很特殊的器官,可以分辨聲音的方位和距離,感覺聲音的遠近變化,選擇我們感興趣的聲音進行聆聽。在燈紅酒綠的雞尾酒會上,即使周圍有各種各樣的噪音,盡管周圍的人使用的是各自的母語,英文、西語、法語、葡萄牙語等等,此時,如果遠處突然有人用中文叫你的名字時,你還是能夠馬上就注意到他,你甚至可以和他聊天,聽到他說的內容,注意力集中在你和他的談話之中而忽略背景中其他的對話或噪音。

          而如果把機器放到同樣的環境中,我們是很難從各種聲音中找到需要機器真正傾聽的聲音,機器“聽清”和“識別”在交互的開頭就出了問題,后續的交互體驗怎么保證了。

          這個時候你也許會跳出來說,我試了手機上的語音識別感覺做的還不錯啊,我在酒吧里發個微信還是能很好的識別,轉換為文字。

          聲音是一種波,在傳播中會不斷的反射、折射、衍射、吸收,在任何場景中設備接收到的聲音都會包含”需要識別的聲音”、“不需要識別的的聲音”。不需要識別的聲音會是多元的,包含噪音、額外的人聲、回聲、混響疊加在一起,在不同的場景中會有不同的疊加效果,形成一個專有的聲場,傳入機器的耳朵(麥克風)中。
          如上,我們稱為機器所處的”聲學場景”。曾經語音產品大多為手機里的APP,都是低噪音加近場,“信號處理” 很少提及。我們一般把聲源和麥克風之間的距離在“半米”以內,稱之為“近場場景”,大于“半米”的,稱之為“遠場場景”。我們需要不同的前端“信號處理”方案去適配不同的“聲學場景”。

          聲學場景 = 需要識別的聲音 + 不需要識別的聲音(對應場景下的“信號處理”直接決定了語音入口體驗。)

          近場對比遠場

          在酒吧里發微信的場景,這是一個明顯的近場應用。雖然其環境噪音很大,但是我們的發聲源距離機器的耳朵(麥克風)很近,聲學場景中“需要識別的聲音”遠大于“不需要識別的聲音”,機器“聽”的難度更低。而遠場場景中,比如在機器人產品,機器人可能位于機場的候機廳、醫院的導診室、展廳的引導臺、人滿為患的餐廳等等。每一種機器與環境空間的相對位置變化都會形成不同的“聲學場景”給機器“聽清”和“識別”增加難度。

          一個好的智能語音產品,“信號處理”和“語音識別”能力必然是針對其投放的“聲學場景”深度適配優化后的,如此才能保障后續的語音交互體驗。

          語音交互 VUI

          這里我們單獨強調一個詞叫做“語音交互 Voice User Interface”。

          大家或許都知道User Interface,而沒有聽過VUI。在傳統的人機交互中,我們都是通過圖型的方式,進行強視覺弱邏輯的交互,也被稱為GUI(Graphic User Interface);而VUI則是通過語音的方式進行人機交互,強邏輯而無視覺(或者弱視覺),我們要通過語音傳遞所有足夠的信息,承載我們的認知、邏輯、價值、情緒等等一切元素,這才是真正賦予智能語音靈魂的部分,而前面提到的“聽清”和“識別”只是VUI中的一部分。

          語音交互VUI

          完整的語音步驟包含以上多個步驟,而多次交互才能形成一次完整的語音交互。

          我們先要“聽清楚”對應的過程 “信號處理”,找出我們想要識別的語音信號;然后”識別”對應的就是語音識別,聽懂對應的語音信號說的是啥,把聲音轉換為文字的過程,他說的是“明天出門要帶傘嗎?”;此部分作為語音的入口,識別可以進一步泛化為模式識別,基于“聲學場景”和“語音”導入當前對話的語音對象所處的情景,聲紋特征,性別,年齡,情緒等等更多元素。

          知道內容了,然后就要理解要做什么,過程叫做“自然語言理解NLU”,他的意思是問我“明天”的“天氣”,當前所在的城市是否“下雨”;理解了,之后就要去行動,查一查明天的天氣,告訴他一些關鍵信息:成都、明天、晴、溫度5-10度;行動完了之后,就要去想話術,怎么表達更好,不同的表達方式會給人不一樣的交互體驗,”他問的是帶傘,那我肯定要對應的答復“,這個過程叫做自然語言生成,NLG;NLU+行動+NLG 對應的可以統稱為自然語言處理,我們需要賦予機器以個性、邏輯、通識、對語音對象的理解、對上下文情景的理解等等都需要從NLP層面去渲染機器想要表達的思想。

          想清楚怎么表達之后,就要播報說出來,采用不同的聲音、林志玲的還是岳云鵬的,是溫柔、知性、親切的還是活波、可愛、俏皮的會帶來不同的語音交互體驗。如此形成單次的語音交互,反復以上完成智能語音交互的完整體驗。

          智能語音目前從技術上包含幾大關鍵環節:

          VSP信號處理:通過麥克風陣列進行“聲學場景”的信號處理,研究方向上涵蓋。降噪NS,對聲學場景中的非語音噪音信號進行抑制;語音增強SE,從含有噪音的的語音信號中提取純凈語音;去混響DER,弱化混響引起的不同步的語音相互疊加、從而提升語音識別效果;回聲消除AEC,去除語音交互設備自己發出的聲音(播報、音樂等等),而只保留用戶的人聲;語音活性檢測VAD,檢測出一段音頻中真正的語音部分;聲源定位DOA,確定發聲源的距離、角度等等;盲源分離BSS,從多個語音信號中分離出不同語音信號,例如不同的說話人聲。

          ASR模式識別:不局限于將語音識別為文字,更廣的針對語音和音頻的模式識別,研究方向上涵蓋。ASR,通過將人類語音轉換為計算機可讀的輸入,由特征提取、聲學模型、語言模型組成,包括近場識別、遠場識別,近年的應用中還涉及切分說話人、全雙工語音等;聲紋識別VPR,通過比對說話人聲紋特征來判斷是否為同一個人;語音喚醒WUW,在連續語流中實時檢測出說話人特定片段,將設備從休眠狀態激活至運行狀態;特定聲音檢測,識別聲音特征,檢測音頻流當中的特殊事件,例如檢測嬰兒啼哭,狗叫等等;情緒識別,識別聲音特征中的性別、年齡、情緒等等元素;謊言識別等等。

          NLP自然語言處理:自然語言理解NLU,基于詞法分析、句法分析、意圖提取和填槽獲得語言的含義;對話管理DM,考慮歷史對話信息和上下文的語境等信息進行全面地分析,承載機器的個性和邏輯狀態,決定系統要采取的相應的動作,如追問、澄清和確認等;自然語言生成NLG,將機器輸出的抽象表達轉換為句法合法、語義準確的自然語言句子;內容知識庫CMS,承載機器的通識,對于聊天對象的理解;知識圖譜KG,同知識庫結合,擴展機器的認知能力,獲得更多相關信息等等。

          TTS語音合成:把文字智能地轉化為自然語音流,也就是輸入是文本 ,輸出是波形 ;近年個性化TTS、帶有情緒的TTS成為熱點。

          以上我們對于智能語音有了概要性的認知,而人類大腦皮層每天處理的信息中,聲音信息占20%,它是溝通最重要的紐帶,所以人機對話將方便人們的工作與生活。因此當很多人問我們是做什么的時候,我們更愿意說我們是做VUI的,而非是做語音識別。

          “智能語音交互”承載著更多的希望與寄托,時代的一粒沙,落在每個人頭上就是一座山,讓我們把它鑄成堡壘。
           
           
          聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與中國機器人網(www.joyeartt.com.cn)聯系,本網站將迅速給您回應并做處理。
          電話:021-39553798-8007
          更多>相關資訊
          0相關評論

          推薦圖文
          推薦資訊
          點擊排行
          ?
          主站蜘蛛池模板: 淮滨县| 蜜臀av日韩精品一区二区| 国产午夜福利视频合集| 午夜成人无码福利免费视频 | 大地资源免费视频观看| 免费的很黄很污的视频| 日韩精品av一区二区三区| 国产精久久一区二区三区| 亚洲综合一区二区三区在线| 中文字幕国产日韩精品| 国精产品一品二品国精在线观看| 亚洲av熟女国产一二三| 99热精品毛片全部国产无缓冲| 亚洲精品日本久久一区二区三区| 亚洲中文字幕日产无码成人片| 精品乱人伦一区二区三区| 日韩深夜免费在线观看| 国产精品久久久久aaaa| 自拍偷区亚洲综合第二区| 无码专区 人妻系列 在线| www亚洲精品| 中文字幕乱码人妻综合二区三区 | 日韩午夜午码高清福利片| 国产精品第一页中文字幕| 欧美老少配性行为| 伊人天天久大香线蕉av色| 久操热在线视频免费观看| 国产一卡2卡三卡4卡免费网站| 久久精品国产久精国产一老狼 | 成人性无码专区免费视频| 久久精品国产亚洲av热一区 | 高潮潮喷奶水飞溅视频无码| 国产成人无码A区在线观看视频| 天堂网在线.www天堂在线资源| 99久久亚洲综合精品成人网| 久久人与动人物a级毛片| 麻豆最新国产AV原创精品| 91福利视频一区二区| 蜜桃臀av一区二区三区| 男女性高爱潮免费网站| 精品无码久久久久国产电影|