近期,metaAI部門宣布將為AR/VR開發(fā)全新的空間音頻工具:AcousticSythesis,以增強(qiáng)虛擬內(nèi)容的視聽體驗(yàn)。據(jù)悉,該空間音頻工具可對(duì)不同的視覺環(huán)境做出相應(yīng)的聲音反饋,從而提升環(huán)境/場景模擬的保真性和沉浸感。

meta表示:我們一直在研究人們與周圍聲音的互動(dòng)感知,發(fā)現(xiàn)人們通常會(huì)根據(jù)聲音的位置去預(yù)判聽到的音效。比如,如果你站在洞穴里,可能會(huì)期待聽到回聲,而遠(yuǎn)處的聲源可能會(huì)聽的不清楚。也就是說,環(huán)境特征會(huì)影響聲音,包括空間的結(jié)構(gòu)、空間中物品的材質(zhì)、麥克風(fēng)和聲源之間的距離。
目前,AI模型已經(jīng)可以理解視頻中的圖像場景,因此metaAI希望在此基礎(chǔ)上,開發(fā)一個(gè)多模態(tài)的AI環(huán)境理解模型,也就是說AI將不止能夠視覺分析場景,還能理解不同場景中的聲音。簡單來講,就是通過視覺提示來匹配目標(biāo)場景坐標(biāo)的聲音,還可以融合虛擬和現(xiàn)實(shí)場景音,去除混響和噪音,強(qiáng)化虛擬音效,從而提升AR/VR觀影、社交體驗(yàn)的沉浸感。








