我們生活在一個(gè)嘈雜的世界里。如果你不喜歡噪音,降噪耳機(jī)可以減少環(huán)境中的雜音,但它們也會(huì)不分青紅皂白地過濾掉所有聲音,所以你很容易錯(cuò)過你真正想聽到的東西。
現(xiàn)在,一個(gè)新的人工智能系統(tǒng)旨在解決降噪耳機(jī)的這一問題。
該系統(tǒng)名為“收聽目標(biāo)語音(TargetSpeechHearing)”,用戶可以選擇一個(gè)人作為目標(biāo),即使所有其他聲音都被消除,他的聲音也依舊能被聽到。
盡管這項(xiàng)技術(shù)目前仍處在概念驗(yàn)證階段,但其開發(fā)者表示,他們正在與廠商討論將其加入流行品牌的降噪耳機(jī)中,并努力嘗試將其用在助聽器上。
參與該項(xiàng)目的美國華盛頓大學(xué)教授什亞姆·戈拉科塔說:“傾聽特定人群的聲音是我們?cè)谑澜缟先绾螠贤?,以及如何與他人互動(dòng)的一個(gè)基本要素。但在特定情況下,即使你沒有任何聽力問題,專注于特定的人也可能變得非常有挑戰(zhàn)性?!?/p>
當(dāng)人工智能模型需要在計(jì)算能力和電池壽命有限的耳機(jī)中實(shí)時(shí)工作時(shí),這種復(fù)雜性就成為了一個(gè)問題。
為了滿足這些限制,神經(jīng)網(wǎng)絡(luò)需要做到體積小、能耗低。
因此,該團(tuán)隊(duì)使用了一種名為“知識(shí)提取”的人工智能壓縮技術(shù)。
他們使用了一個(gè)經(jīng)過數(shù)百萬種聲音訓(xùn)練的大型人工智能模型(“老師”),并讓它訓(xùn)練一個(gè)小得多的模型(“學(xué)生”),以模仿其行為和表現(xiàn)達(dá)到相同的標(biāo)準(zhǔn)。
然后,他們利用降噪耳機(jī)上的麥克風(fēng)捕捉到的環(huán)境噪音,訓(xùn)練學(xué)生模型從中提取特定聲音的發(fā)聲模式(規(guī)律)。
要激活該人工智能系統(tǒng),佩戴者需要面對(duì)目標(biāo)對(duì)象,并按住耳機(jī)上的按鈕幾秒鐘。
在這個(gè)“注冊(cè)”過程中,系統(tǒng)會(huì)通過耳機(jī)上的麥克風(fēng)捕獲音頻樣本,并使用此錄音提取講話者的聲音特征,即使附近有其他人聲和噪音。
這些音頻特征被輸入到第二個(gè)神經(jīng)網(wǎng)絡(luò)中,該網(wǎng)絡(luò)運(yùn)行在一臺(tái)微控制器計(jì)算機(jī)上,兩者通過通用串行總線(USB)連接。
這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)持續(xù)運(yùn)行,將目標(biāo)聲音與其他聲音分開,并將其播放給耳機(jī)佩戴者。
一旦該系統(tǒng)鎖定了一名講話者,即使佩戴者轉(zhuǎn)身離開,它也會(huì)繼續(xù)優(yōu)先區(qū)分這個(gè)人的聲音。
該系統(tǒng)從講話者的聲音中獲得的訓(xùn)練數(shù)據(jù)越多,其區(qū)分聲音的能力就越強(qiáng)。
目前,該系統(tǒng)只能成功注冊(cè)一種聲音,而且該聲音必須是注冊(cè)時(shí)最響亮的那個(gè),但該團(tuán)隊(duì)的目標(biāo)是即使特定方向上最大的聲音不是目標(biāo)人物,該系統(tǒng)仍然可以工作。
微軟研究語音和人工智能的高級(jí)研究員塞菲克·埃姆雷·埃斯基梅茲表示,在嘈雜的環(huán)境中捕捉一個(gè)聲音是非常困難的?!拔抑篮芏喙径枷脒@么做?!彼f,“如果他們能做到這一點(diǎn),就會(huì)解鎖很多應(yīng)用場(chǎng)景,尤其可以用在會(huì)議場(chǎng)景中。”
美國卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所的研究員薩姆勒·康奈爾認(rèn)為,雖然語音分離研究往往是理論性的,而不是實(shí)踐性的,但這項(xiàng)工作在現(xiàn)實(shí)世界中有著明確的應(yīng)用。他表示:“我認(rèn)為這是朝著正確方向邁出的一步,是很新穎的嘗試?!保ňC合整理報(bào)道)(策劃/萊西)
海外星云 2024年7期