黃雅婷 石晶 許家銘 徐波,3
雞尾酒會(huì)問(wèn)題(Cocktail party problem)最早是由英國(guó)認(rèn)知科學(xué)家Cherry于1953年[1]在研究選擇注意(Selective attention)機(jī)制時(shí)提出的一個(gè)著名問(wèn)題,該問(wèn)題嘗試探明在受到其他說(shuō)話(huà)人或者噪音干擾的情況下人類(lèi)理解目標(biāo)說(shuō)話(huà)人言語(yǔ)這一過(guò)程背后的邏輯基礎(chǔ),從而建模出能夠過(guò)濾出目標(biāo)說(shuō)話(huà)人信號(hào)的智能機(jī)器.通俗地描述,雞尾酒會(huì)問(wèn)題關(guān)注人類(lèi)在復(fù)雜聽(tīng)覺(jué)環(huán)境下的一種聽(tīng)覺(jué)選擇能力.在這種情況下,人可以很容易地將注意力集中在某一個(gè)感興趣的聲音刺激上并忽略其他背景聲音,而計(jì)算聽(tīng)覺(jué)模型卻受噪音影響嚴(yán)重.如何設(shè)計(jì)一個(gè)能夠靈活適應(yīng)雞尾酒會(huì)環(huán)境的聽(tīng)覺(jué)模型是計(jì)算聽(tīng)覺(jué)領(lǐng)域的一個(gè)重要問(wèn)題,在語(yǔ)音識(shí)別,語(yǔ)音增強(qiáng),說(shuō)話(huà)人識(shí)別,語(yǔ)音分離等一系列重要任務(wù)上都具有非常重要的研究意義和應(yīng)用價(jià)值.尤其在近些年,隨著智能設(shè)備和便攜式計(jì)算設(shè)備的爆炸式發(fā)展,語(yǔ)音已經(jīng)成為了人類(lèi)接入智能計(jì)算設(shè)備和平臺(tái)的最重要的入口之一.基于此,面對(duì)日常生活中最典型和常見(jiàn)的復(fù)雜聽(tīng)覺(jué)場(chǎng)景,如何有效地處理雞尾酒會(huì)問(wèn)題就顯得意義重大.換句話(huà)說(shuō),針對(duì)雞尾酒會(huì)問(wèn)題的計(jì)算模型,也即針對(duì)復(fù)雜聽(tīng)覺(jué)場(chǎng)景的建模方法的好壞直接影響著輸入信息的解析是否完備,關(guān)鍵信息是否被有效篩選,干擾信息是否被忽略,以致從源頭上影響了后續(xù)任務(wù)能否成功完成,其重要性自然不言而喻.如上所述,智能設(shè)備的廣泛普及為雞尾酒會(huì)問(wèn)題帶來(lái)了前所未有的挑戰(zhàn)和需求,但同時(shí)人工智能方法和學(xué)科的高速發(fā)展也為解決雞尾酒會(huì)問(wèn)題帶來(lái)了更好的機(jī)遇.
事實(shí)上,面對(duì)復(fù)雜環(huán)境的聽(tīng)覺(jué)選擇注意能力是人類(lèi)在進(jìn)化過(guò)程中聽(tīng)覺(jué)系統(tǒng)形成的一項(xiàng)驚人天賦[2].雞尾酒會(huì)效應(yīng)的產(chǎn)生機(jī)制雖然十分復(fù)雜,但對(duì)于人類(lèi)來(lái)說(shuō),在多個(gè)聲源之間轉(zhuǎn)換注意是一件非常輕松的事,以至于我們甚至感受不到這個(gè)過(guò)程的存在.遺憾的是,目前,智能機(jī)器卻難以取得跟人類(lèi)一樣理想的表現(xiàn).不過(guò),經(jīng)過(guò)半個(gè)多世紀(jì)的不斷探索,隱藏在雞尾酒會(huì)問(wèn)題背后的神經(jīng)機(jī)制雖然尚未明朗,但是相關(guān)研究依舊取得了一定的成果.例如,研究人員們對(duì)于人類(lèi)聽(tīng)覺(jué)通路的形成過(guò)程,聽(tīng)覺(jué)信號(hào)在神經(jīng)傳遞過(guò)程中的編碼方式等,已經(jīng)有了比較清晰的認(rèn)識(shí).在另一方面,對(duì)于當(dāng)今的人工智能方法和建模方式而言,尤其對(duì)于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法,借鑒人腦過(guò)程中的相關(guān)機(jī)制來(lái)構(gòu)建類(lèi)腦的,腦啟發(fā)式的模型已經(jīng)成為一種非常有效的手段.比如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)的設(shè)計(jì)過(guò)程正是借鑒了人類(lèi)視覺(jué)通路中感受野和層次化紋理感應(yīng)的相關(guān)機(jī)制,有效地構(gòu)建了類(lèi)似的計(jì)算模型框架,從而在圖像處理領(lǐng)域取得了非常卓越的進(jìn)步.類(lèi)似地,我們認(rèn)為,要真正解決雞尾酒會(huì)問(wèn)題,需要從聽(tīng)覺(jué)研究取得的相關(guān)成果中有所借鑒.因此,本文從人類(lèi)處理雞尾酒會(huì)問(wèn)題的相關(guān)聽(tīng)覺(jué)機(jī)制出發(fā),總結(jié)了聽(tīng)覺(jué)選擇過(guò)程中的一些關(guān)鍵機(jī)制,并在之后詳細(xì)對(duì)比了目前就雞尾酒會(huì)問(wèn)題建模的一些計(jì)算模型.
本文具體章節(jié)安排如下:第1節(jié)介紹與雞尾酒會(huì)問(wèn)題相關(guān)的聽(tīng)覺(jué)機(jī)制;第2節(jié)介紹之前就雞尾酒會(huì)問(wèn)題進(jìn)行建模的多說(shuō)話(huà)人語(yǔ)音分離計(jì)算模型;第3節(jié)介紹基于聽(tīng)覺(jué)注意的多說(shuō)話(huà)人語(yǔ)音分離計(jì)算模型;第4節(jié)介紹近期就雞尾酒會(huì)問(wèn)題進(jìn)行建模的多說(shuō)話(huà)人語(yǔ)音識(shí)別計(jì)算模型;第5節(jié)就目前研究存在的問(wèn)題進(jìn)行總結(jié)并對(duì)未來(lái)的研究方向進(jìn)行展望.
本節(jié)將就至今為止聽(tīng)覺(jué)通路的相關(guān)神經(jīng)學(xué)和心理學(xué)機(jī)制進(jìn)行一個(gè)簡(jiǎn)單的介紹,以期對(duì)雞尾酒會(huì)問(wèn)題相關(guān)的計(jì)算模型的建立提供基礎(chǔ)的生理學(xué)背景知識(shí),并能夠起一定啟發(fā)作用.
人類(lèi)聽(tīng)覺(jué)系統(tǒng)能夠在復(fù)雜的聽(tīng)覺(jué)環(huán)境下,魯棒地對(duì)外界的各種聲音進(jìn)行編碼,加工和處理.盡管對(duì)聽(tīng)覺(jué)通路的研究并沒(méi)有對(duì)視覺(jué)通路的研究那般透徹,到目前為止,相關(guān)的研究對(duì)聽(tīng)覺(jué)通路中的早期皮層下處理過(guò)程已較為清楚,并開(kāi)始對(duì)聽(tīng)覺(jué)通路中的后期初級(jí)聽(tīng)覺(jué)皮層及之后的皮層結(jié)構(gòu)的功能進(jìn)行深入研究[3].聽(tīng)覺(jué)通路從耳蝸開(kāi)始,通過(guò)聽(tīng)神經(jīng)中的神經(jīng)元以短電脈沖即動(dòng)作電位的形式傳遞信息[4?5],經(jīng)過(guò)4~7個(gè)核團(tuán)傳輸?shù)铰?tīng)覺(jué)皮層.相比視覺(jué)通路,聽(tīng)覺(jué)通路經(jīng)過(guò)了數(shù)量更多的神經(jīng)核團(tuán)的處理.雖然聽(tīng)覺(jué)通路中處理復(fù)雜聲音的具體神經(jīng)編碼方式尚未明確,不過(guò)已發(fā)現(xiàn)了以下三種主要的編碼方式:頻率編碼(Rate coding),時(shí)間編碼(Temporal coding)和群體編碼(Population coding).頻率編碼即神經(jīng)元通過(guò)動(dòng)作電位的發(fā)放頻率來(lái)編碼刺激信息.在理論和實(shí)踐層面,無(wú)論在神經(jīng)科學(xué)還是計(jì)算建模方面,神經(jīng)元的發(fā)放頻率都被廣泛使用來(lái)描述神經(jīng)元的活動(dòng).當(dāng)神經(jīng)元發(fā)放動(dòng)作電位的時(shí)間攜帶與刺激有關(guān)的信息時(shí),我們稱(chēng)這種編碼方式為時(shí)間編碼.相比頻率編碼只考慮一段時(shí)間內(nèi)的脈沖發(fā)放頻率,時(shí)間編碼多了時(shí)間這個(gè)維度,比頻率編碼更為有效.而群體編碼則指一個(gè)神經(jīng)元群組共同編碼刺激的編碼方式,例如耳蝸中的毛細(xì)胞對(duì)聲音頻譜的編碼就屬于群體編碼.每個(gè)毛細(xì)胞對(duì)應(yīng)一條具有一個(gè)最佳響應(yīng)頻率的頻率響應(yīng)曲線(xiàn),各個(gè)頻率的毛細(xì)胞在耳蝸中按照一定的空間位置形成一個(gè)拓?fù)浞植?Tonotopy).當(dāng)某個(gè)頻率的刺激出現(xiàn)時(shí),就會(huì)激活最佳頻率與該刺激相近的一組毛細(xì)胞的活動(dòng),因此單個(gè)頻率是由一組神經(jīng)元來(lái)編碼的.
聽(tīng)覺(jué)通路中各部分的連接非常復(fù)雜.類(lèi)比視覺(jué)系統(tǒng)的腹側(cè)通路和背側(cè)通路,一般認(rèn)為聽(tīng)覺(jué)通路中也存在腹側(cè)通路用來(lái)處理聲音的非空間屬性和背側(cè)通路處理聲音的空間屬性.但也有研究表明分布式的自適應(yīng)網(wǎng)絡(luò)可能比上述的兩條并行通路更適合解釋聽(tīng)覺(jué)認(rèn)知,在這種理論下,腦區(qū)之間的反饋連接有助于促進(jìn)聽(tīng)覺(jué)物體選擇[6].除了串行,并行和反饋連接之外,聽(tīng)覺(jué)通路中還存在匯合連接,即某個(gè)區(qū)域整合從另外幾個(gè)區(qū)域得到的信息,例如下丘(Inferior colliculus,IC);發(fā)散連接,即某個(gè)區(qū)域的信息傳遞到其他幾個(gè)區(qū)域進(jìn)行處理,例如內(nèi)側(cè)膝狀體(Medial geniculate body,MGB);短路連接,比如從蝸核(Cochlear nucleus,CN)直接連到內(nèi)側(cè)膝狀體[3].
回顧雞尾酒會(huì)問(wèn)題被提出的場(chǎng)景,當(dāng)時(shí)英國(guó)認(rèn)知科學(xué)家Cherry正是在研究人類(lèi)選擇注意機(jī)制時(shí)闡述了這一著名問(wèn)題.在人類(lèi)進(jìn)化過(guò)程中,由于大腦中央處理部(Central processor)的能力有限,繼而形成了選擇注意機(jī)制來(lái)對(duì)需要更詳細(xì)加工的部分進(jìn)行進(jìn)一步加工[7].事實(shí)上,人類(lèi)對(duì)復(fù)雜聽(tīng)覺(jué)環(huán)境認(rèn)知時(shí),聽(tīng)覺(jué)注意(Auditory attention)往往起到非常重要的作用.有實(shí)驗(yàn)研究發(fā)現(xiàn),人類(lèi)不可能聽(tīng)到或者記住兩個(gè)同時(shí)發(fā)生的語(yǔ)音.相反,人類(lèi)卻可以精準(zhǔn)地從被混合的復(fù)雜語(yǔ)音中選擇出來(lái)其注意到的語(yǔ)音,以及同時(shí)忽略掉其他語(yǔ)音或者噪音等背景音[8].以上種種研究表明,聽(tīng)覺(jué)注意在人類(lèi)處理復(fù)雜聽(tīng)覺(jué)場(chǎng)景中是非常重要且必不可少的一個(gè)機(jī)制.聽(tīng)覺(jué)系統(tǒng)處理外界刺激一般可以分為自下而上(Bottom-up)的刺激驅(qū)動(dòng)的過(guò)程和自上而下(Top-down)的任務(wù)驅(qū)動(dòng)的過(guò)程.自下而上的處理過(guò)程是指從輸入的刺激進(jìn)行處理,繼而完成相應(yīng)的任務(wù).自上而下的處理過(guò)程是指在高層的抽象概念或信息的指引下完成特定的任務(wù),其過(guò)程通常涉及長(zhǎng)期記憶和學(xué)習(xí)機(jī)制.傳統(tǒng)聽(tīng)覺(jué)研究認(rèn)為,在自下而上的過(guò)程中,在處理較為簡(jiǎn)單的刺激時(shí),聽(tīng)覺(jué)系統(tǒng)遵從Old-plus-new原則,即信號(hào)中的突然改變可以認(rèn)為是源自單一聲源的改變,而頻譜中若只有能量增加則可以認(rèn)為原聲源不變而有新聲源出現(xiàn).但是自然界中充滿(mǎn)了各式各樣復(fù)雜的聲音,很難出現(xiàn)像傳統(tǒng)聽(tīng)覺(jué)研究中的單一頻率的純音刺激,因而Old-plus-new原則往往難以解釋復(fù)雜聲音.近年來(lái),時(shí)間相干性(Temporal coherence)的提出較為有效地解釋了復(fù)雜聲音的處理[9].時(shí)間相干性理論主要基于以下基本假設(shè):來(lái)自同一聽(tīng)覺(jué)流(Auditory stream)的各個(gè)特征通道在時(shí)間上的變化是高度相關(guān)的,而來(lái)自不同聽(tīng)覺(jué)流的各個(gè)特征通道在同一時(shí)間同時(shí)變化的可能性很低,從而根據(jù)時(shí)間相干性,我們可以將各個(gè)聽(tīng)覺(jué)流分離開(kāi)來(lái).盡管聽(tīng)覺(jué)注意的參與對(duì)于聽(tīng)覺(jué)流的分離并非必須,但是其參與對(duì)于聽(tīng)覺(jué)流的形成依然有十分深刻的影響.當(dāng)新奇刺激呈現(xiàn)的時(shí)候,比如不熟悉的說(shuō)話(huà)人的語(yǔ)音,由于沒(méi)有先驗(yàn)知識(shí),時(shí)間相干性在驅(qū)使注意綁定屬于同一個(gè)聲源的特征時(shí)起重要作用.時(shí)間相干性在綁定跨模態(tài)特征方面也起到一定作用.
另外,聽(tīng)覺(jué)系統(tǒng)對(duì)新奇的刺激高度敏感.刺激特異性適應(yīng)(Stimulus-specific adaptation,SSA)是指聽(tīng)覺(jué)上行通路中神經(jīng)細(xì)胞對(duì)普遍或者重復(fù)性的聲音的響應(yīng)有所降低,而對(duì)新奇,稀有的聲音維持高度敏感性的一種現(xiàn)象[10].刺激特異性現(xiàn)象跟大腦中用以維持和更新聽(tīng)覺(jué)表示的基于規(guī)律(Regularity)的改變機(jī)制有關(guān),并涉及感知記憶的加工,即涉及自上而下的先驗(yàn)知識(shí).這里聽(tīng)覺(jué)規(guī)律是指聲音序列中的重復(fù)可預(yù)測(cè)的模式.研究表明SSA現(xiàn)象是由以下兩種因素共同決定的:“局部效應(yīng)”和“局部加整體”.局部效應(yīng)是指對(duì)當(dāng)前刺激的響應(yīng)僅由過(guò)去短期的刺激歷史決定.局部加整體附加考慮了每個(gè)刺激的整體出現(xiàn)概率[11].Winkler等認(rèn)為基于規(guī)律的表示具有預(yù)測(cè)性,是感知物體–即感知的基本單元[12].同時(shí),聽(tīng)覺(jué)系統(tǒng)還能在嘈雜的環(huán)境中根據(jù)上下文信息補(bǔ)全被噪音掩蓋的缺失的音素或音節(jié),這種現(xiàn)象稱(chēng)為音素恢復(fù)(Phonemic restoration).最近有研究顯示,聽(tīng)覺(jué)中樞的一個(gè)區(qū)域能夠?qū)崟r(shí)補(bǔ)充和恢復(fù)缺失的音素或音節(jié),而且大腦中更高級(jí)的認(rèn)知區(qū)域的神經(jīng)活動(dòng)能夠在噪聲開(kāi)始之前就預(yù)測(cè)被試(心理學(xué)實(shí)驗(yàn)或心理測(cè)驗(yàn)中接受實(shí)驗(yàn)或測(cè)試的對(duì)象)要報(bào)告的單詞[13].這些研究給預(yù)測(cè)加工(Predictive processing)理論提供了有力支持,表明預(yù)測(cè)加工在感知中起到至關(guān)重要的作用[14?16].預(yù)測(cè)加工是近年來(lái)認(rèn)知神經(jīng)科學(xué)中愈發(fā)受到關(guān)注的前沿理論,認(rèn)為大腦是一個(gè)具有預(yù)測(cè)能力的層次化結(jié)構(gòu),持續(xù)地對(duì)未來(lái)的內(nèi)部狀態(tài)進(jìn)行預(yù)測(cè),目的在于最小化內(nèi)部狀態(tài)和外部感知輸入的預(yù)測(cè)誤差以對(duì)未來(lái)的刺激進(jìn)行近似.當(dāng)刺激以一定的非隨機(jī)的方式呈現(xiàn)出來(lái)的時(shí)候,大腦會(huì)將外在刺激與已存儲(chǔ)的規(guī)律進(jìn)行匹配,并根據(jù)預(yù)測(cè)誤差對(duì)存儲(chǔ)的規(guī)律進(jìn)行一定的調(diào)整;即使對(duì)于隨機(jī)刺激或者新奇刺激,大腦依然采取預(yù)測(cè)加工的策略來(lái)處理[17].而預(yù)測(cè)加工機(jī)制和選擇注意機(jī)制的聯(lián)系,在神經(jīng)科學(xué)中甚至提出了兩種看似會(huì)得到完全相反結(jié)果的理論.Pearce-Hall理論認(rèn)為由于人腦處理資源有限,預(yù)測(cè)加工是誤差驅(qū)動(dòng)的,因而為了最大限度利用有限的計(jì)算資源,應(yīng)該將更多的選擇注意關(guān)注到預(yù)測(cè)誤差較大的刺激[18].而Mackintosh-Kruschke理論則認(rèn)為選擇注意是在特征層次的,應(yīng)該更多關(guān)注到那些能得到更好的預(yù)測(cè)的特征上[19?20].事實(shí)上,這兩種理論關(guān)注的層次并不相同,前者是在刺激層次上來(lái)進(jìn)行討論的,而后者是在特征層次上進(jìn)行討論的,因此可以視為互補(bǔ)[21].
此外,各個(gè)模態(tài)之間的信息處理不是相互獨(dú)立的.多感知整合(Multisensory integration)通過(guò)組織不同模態(tài)的輸入,在多模態(tài)腦區(qū)(Heteromodal brain areas)中進(jìn)行處理,得到噪音更少的,更魯棒的目標(biāo)信號(hào),從而使背景噪音和目標(biāo)之間的分離,連續(xù)時(shí)間之間的分割更加容易[22].研究表明,視覺(jué)輸入對(duì)其他模態(tài)的信息處理具有非常強(qiáng)的影響[23].其中,麥格克效應(yīng)(McGurk effect)顯示嘴唇及其周?chē)鷧^(qū)域的動(dòng)作對(duì)言語(yǔ)處理起到關(guān)鍵作用.將一個(gè)音節(jié)“ga”在配合發(fā)作“ba”的唇部動(dòng)作的視頻呈現(xiàn)給被試看,被試稱(chēng)聽(tīng)到的音節(jié)既不是“ga”也不是“ba”,而是“da”[24].而且嘴唇和下顎的動(dòng)作跟言語(yǔ)的聲學(xué)包絡(luò)相關(guān),通過(guò)觀(guān)看說(shuō)話(huà)人的正在說(shuō)話(huà)的臉,能夠增強(qiáng)聽(tīng)覺(jué)皮層對(duì)言語(yǔ)的跟蹤和對(duì)目標(biāo)說(shuō)話(huà)人的注意選擇[25].關(guān)于多感知整合發(fā)生在哪個(gè)階段目前未有定論,有三種可能:一是早期整合(Early integration),在相當(dāng)早的處理階段就進(jìn)行融合,是一個(gè)前注意(Pre-attentive)加工過(guò)程,即感知驅(qū)動(dòng)注意[26?28],框架圖如圖1(a);二是晚期整合(Late integration),在整合過(guò)程中需要注意的參與[29?30],框架圖如圖1(b);三是并行整合(Parallel integration),即發(fā)生早期整合還是晚期整合取決于手頭上任務(wù)可獲得的資源[31],框架圖如圖1(c).
圖1 多感知整合框架[22]Fig.1 Multisensory integration framework[22]
語(yǔ)音分離是解決雞尾酒會(huì)問(wèn)題的第一步.在過(guò)去的數(shù)十年,研究人員嘗試用各種方法解決多說(shuō)話(huà)人語(yǔ)音分離問(wèn)題,但是機(jī)器在語(yǔ)音分離上的表現(xiàn)與人類(lèi)相比,效果不甚理想.根據(jù)麥克風(fēng)的個(gè)數(shù),語(yǔ)音分離算法可以分為單通道語(yǔ)音分離算法和多通道語(yǔ)音分離算法.多通道語(yǔ)音分離相比單通道語(yǔ)音分離多了空間信息.常見(jiàn)的多通道語(yǔ)音分離算法有基于麥克風(fēng)陣列的波束成形(Beamforming)算法[32?33]和多通道盲信號(hào)分離(Blind signal separation,BSS)算法[34].基于麥克風(fēng)陣列的波束成形算法通過(guò)麥克風(fēng)陣列的恰當(dāng)配置進(jìn)行空間濾波,根據(jù)空間位置來(lái)削弱干擾信號(hào)而增強(qiáng)來(lái)自期望聲源的各通道信號(hào)的加和,通??梢苑譃榭煽夭ㄊ尚渭夹g(shù)和自適應(yīng)波束成形技術(shù).可控波束成形技術(shù)的濾波器參數(shù)的確定依賴(lài)于聲源信號(hào)的頻譜特性的先驗(yàn)知識(shí),主要有延遲–累加(Delay-and-sum)波束成形算法和濾波–累加(Filter-and-sum)波束成形算法.自適應(yīng)波束成形技術(shù)的濾波器參數(shù)的確定則基于期望信號(hào)和干擾信號(hào)的統(tǒng)計(jì)屬性,通過(guò)優(yōu)化一定的準(zhǔn)則來(lái)確定濾波器參數(shù),常用的準(zhǔn)則有最大信噪比(Maximum signal-to-noise ratio,MSNR)準(zhǔn)則,最小均方差(Minimum mean-squared error,MMSE)準(zhǔn)則,最小方差無(wú)失真響應(yīng)(Minimum variance distortionless response,MVDR)準(zhǔn)則和線(xiàn)性約束最小方差(Linear constraint minimum variance,LCMV)準(zhǔn)則.由于波束成形算法利用空間信息來(lái)分離語(yǔ)音,因此當(dāng)目標(biāo)語(yǔ)音和噪聲源位置相近的時(shí)候,算法就會(huì)失效.除此以外,當(dāng)聲學(xué)環(huán)境的混響時(shí)間很大或者麥克風(fēng)數(shù)少于信號(hào)源數(shù)的時(shí)候,表現(xiàn)也會(huì)大大下降.而多通道盲信號(hào)分離算法主要分為線(xiàn)性混合模型和卷積混合模型.通過(guò)多個(gè)麥克風(fēng)獲取多個(gè)信號(hào)源也就是聲源S(t)混合后的信號(hào)X(t),其混合過(guò)程H未知,見(jiàn)式(1).
通過(guò)假設(shè)信號(hào)源之間統(tǒng)計(jì)上相互獨(dú)立,可以克服對(duì)信號(hào)源和混合過(guò)程缺乏先驗(yàn)知識(shí)這個(gè)問(wèn)題.因此可以使用獨(dú)立成分分析(Independent component analysis,ICA)來(lái)對(duì)分離過(guò)程G進(jìn)行建模獲得重建信號(hào),見(jiàn)式(2).當(dāng)麥克風(fēng)數(shù)少于聲源數(shù)時(shí),傳統(tǒng)盲信號(hào)分離就會(huì)變得困難.
一般來(lái)說(shuō),單通道語(yǔ)音分離比多通道語(yǔ)音分離更具挑戰(zhàn)性.在后文中,除非明確指明多通道語(yǔ)音分離算法,約定語(yǔ)音分離指的是單通道語(yǔ)音分離.下面根據(jù)輸入的不同,將語(yǔ)音分離算法分為只利用聽(tīng)覺(jué)信息的語(yǔ)音分離算法和引入視覺(jué)信息的語(yǔ)音分離算法進(jìn)行介紹.
2.1.1 傳統(tǒng)語(yǔ)音分離算法
根據(jù)算法原理的不同形式,傳統(tǒng)的語(yǔ)音分離算法可以分為基于信號(hào)處理的算法,基于分解的算法和基于規(guī)則的算法[35].基于信號(hào)處理的方法從信號(hào)處理的角度估計(jì)噪音的功率譜或者理想維納濾波器,通常用在語(yǔ)音增強(qiáng)中,比如譜減法[36],維納濾波器[37?38].該類(lèi)算法假定語(yǔ)音服從一定的分布,而噪音是平穩(wěn)或慢變的.但是真實(shí)環(huán)境中的語(yǔ)音很難滿(mǎn)足這些假設(shè)條件,此時(shí)這類(lèi)算法就會(huì)失效[39].基于分解的算法的基本假設(shè)是聲音的頻譜具有低秩結(jié)構(gòu),因此可以用一個(gè)數(shù)量比較小的基來(lái)進(jìn)行表示,如式(3)所示,
這里,頻譜X∈RF×T被分解成基矩陣W∈RF×K和激活矩陣H∈RK×T的矩陣乘積,其中K是超參數(shù),通常比F和T小很多.在語(yǔ)音處理中,一種最廣泛的做法是令W和H非負(fù),從而得到非負(fù)矩陣分解(Non-negative matrix factorization,NMF)[40].NMF能夠挖掘到語(yǔ)音或噪音中非負(fù)數(shù)據(jù)的基本譜模式[39].在NMF的基礎(chǔ)上引入其他約束,則可以得到NMF的不同變種.稀疏NMF[41?43]對(duì)NMF加入稀疏約束,來(lái)提高分解的魯棒性.卷積NMF則將頻譜X分解成矩陣卷積的形式來(lái)對(duì)時(shí)間依賴(lài)進(jìn)行建模,此時(shí)基矩陣隨時(shí)間變化,每個(gè)時(shí)刻的基矩陣編碼了該時(shí)刻的頻譜,激活矩陣也對(duì)應(yīng)變化.RNMF(Robust non-negative matrix factorization)則將NMF與RPCA(Robust principle component analysis)結(jié)合起來(lái),將頻譜分解成重建信息與低秩殘差,其中重建信息代表語(yǔ)音,而低秩殘差代表噪音[44?45].但是基于分解的方法屬于淺層模型,假定頻譜可以表示成基的線(xiàn)性組合,而聲音本身卻是高度非線(xiàn)性的,因此這種假設(shè)過(guò)于簡(jiǎn)單,不能對(duì)聲音的長(zhǎng)時(shí)依賴(lài)等建模.為了挖掘語(yǔ)音中豐富的時(shí)空結(jié)構(gòu)和非線(xiàn)性關(guān)系,后續(xù)有工作將NMF拓展成深層結(jié)構(gòu),提出DNMF[46],L-NMF[47]等結(jié)構(gòu),從而獲得了性能的巨大提升.另一方面,從計(jì)算角度來(lái)看,基于分解的方法計(jì)算代價(jià)昂貴,學(xué)習(xí)到的表示所需要的參數(shù)會(huì)隨著數(shù)據(jù)變化的增長(zhǎng)而呈現(xiàn)線(xiàn)性增長(zhǎng),一般采用迭代算法求解,計(jì)算復(fù)雜度高,難以滿(mǎn)足實(shí)時(shí)應(yīng)用要求[35].基于規(guī)則的算法,也指計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational auditory scene analysis,CASA),旨在建立像人類(lèi)一樣處理雞尾酒會(huì)問(wèn)題的智能系統(tǒng)用以分離混合的聲音[48].這類(lèi)系統(tǒng)一般根據(jù)聽(tīng)覺(jué)場(chǎng)景分析研究中發(fā)現(xiàn)的一些規(guī)則或機(jī)制來(lái)對(duì)雞尾酒會(huì)問(wèn)題進(jìn)行建模.
CASA系統(tǒng)一般分為兩個(gè)階段:特征提取和特征綁定的階段,分組之間的競(jìng)爭(zhēng)階段[49].特征提取階段會(huì)經(jīng)過(guò)一個(gè)聽(tīng)覺(jué)外周模型提取出聲音的特征屬性,然后根據(jù)這些特征屬性來(lái)進(jìn)行分組得到不同的聽(tīng)覺(jué)流(Auditory stream).常用來(lái)分組的聲音屬性,也就是分組線(xiàn)索(Grouping cues)有聲音的開(kāi)始和/或結(jié)束時(shí)間,諧波結(jié)構(gòu),基音,音色和位置等[6].根據(jù)建模遵循的規(guī)則不同,CASA模型主要可以分為三種:基于貝葉斯推斷規(guī)則的模型,基于神經(jīng)計(jì)算的模型和基于時(shí)間相干性的模型[49].這幾類(lèi)模型主要在處理分組之間的競(jìng)爭(zhēng)和對(duì)預(yù)測(cè)機(jī)制的建模上有所不同.基于貝葉斯推斷的模型中,預(yù)測(cè)與分組之間的競(jìng)爭(zhēng)密切相關(guān),通過(guò)調(diào)整各分組之間的先驗(yàn)概率來(lái)實(shí)現(xiàn)競(jìng)爭(zhēng)機(jī)制,同時(shí)用先驗(yàn)概率來(lái)得到預(yù)測(cè)結(jié)果;而分組的數(shù)量可固定也可不作限制.Barniv等在其模型中不對(duì)分組的數(shù)量也就是分類(lèi)數(shù)作限制,當(dāng)有輸入的條件似然低于一個(gè)閾值的時(shí)候,定義一個(gè)新類(lèi),此時(shí)原有類(lèi)的先驗(yàn)概率會(huì)降低并和條件似然成比例,但是這個(gè)輸入不一定會(huì)被分到新的類(lèi),只有當(dāng)更多的輸入映射到新的類(lèi)對(duì)應(yīng)的特征區(qū)域后,新類(lèi)的先驗(yàn)概率有所增加,才會(huì)參與分類(lèi)[50].基于神經(jīng)計(jì)算的模型則以神經(jīng)元為單位來(lái)表示聽(tīng)覺(jué)流,聽(tīng)覺(jué)流之間的競(jìng)爭(zhēng)則由神經(jīng)元之間的抑制連接來(lái)實(shí)現(xiàn).這類(lèi)方法主要基于神經(jīng)科學(xué)中發(fā)現(xiàn)的神經(jīng)振蕩(Neural oscillation)[51]機(jī)制,采用振蕩脈沖網(wǎng)絡(luò)來(lái)對(duì)分離過(guò)程進(jìn)行建模.Wang等在其兩層振蕩脈沖神經(jīng)網(wǎng)絡(luò)模型中采用局部興奮(Local excitatory)和全局抑制(Global inhibitory)的動(dòng)態(tài)機(jī)制,根據(jù)振蕩子之間的同步性來(lái)分離不同的聽(tīng)覺(jué)流[52].基于神經(jīng)計(jì)算的模型并不像基于貝葉斯推斷的模型一樣本身就對(duì)預(yù)測(cè)機(jī)制進(jìn)行建模,不過(guò)Mill等在他們的模型中額外加入了預(yù)測(cè)機(jī)制,即對(duì)接下來(lái)的聲音預(yù)測(cè)誤差的表示進(jìn)行修正和通過(guò)相同聲音的聽(tīng)覺(jué)流之間的抑制來(lái)促進(jìn)其競(jìng)爭(zhēng)[53].基于時(shí)間相干性的模型則是根據(jù)上一節(jié)提到的時(shí)間相干性來(lái)對(duì)分離過(guò)程進(jìn)行建模,注意和記憶可加入到模型中,也可以額外加入預(yù)測(cè)機(jī)制[54?56].對(duì)比這三類(lèi)模型,基于貝葉斯的模型本身就具有預(yù)測(cè)機(jī)制,而神經(jīng)計(jì)算模型和基于時(shí)間相干性的模型則不具有這種特性.不過(guò)基于貝葉斯推斷的模型的競(jìng)爭(zhēng)機(jī)制基于對(duì)先驗(yàn)概率之間的調(diào)整,相對(duì)其他模型來(lái)講比較抽象,而神經(jīng)計(jì)算模型則更為直觀(guān),而且更容易拓展.基于貝葉斯推斷的模型和神經(jīng)計(jì)算模型假設(shè),特征提取和特征綁定的過(guò)程和分組之間的競(jìng)爭(zhēng)過(guò)程是相互獨(dú)立的,但實(shí)際上兩者相互影響;相比之下,基于時(shí)間相干性的模型則直接提供了一個(gè)一步解決的方案,用時(shí)間相干性來(lái)建立特征綁定和聽(tīng)覺(jué)流形成.不過(guò)基于時(shí)間相干性的模型并沒(méi)有提供捕捉聲音中的高階規(guī)律的途徑,而已有研究表明高階規(guī)律對(duì)聽(tīng)覺(jué)流的分離有幫助作用.可以注意到這三類(lèi)模型適用于解決聽(tīng)覺(jué)處理的不同問(wèn)題,基于貝葉斯推理的模型提供了使用先驗(yàn)知識(shí)的預(yù)測(cè)框架;神經(jīng)計(jì)算模型里的競(jìng)爭(zhēng)機(jī)制更為直觀(guān);基于時(shí)間相干性的的模型則對(duì)特征綁定和聽(tīng)覺(jué)物體形成問(wèn)題提供了較好的解決方案[49].但是CASA模型也有一些缺陷,由于這些模型基本上是基于聽(tīng)覺(jué)場(chǎng)景分析研究得到的一些規(guī)則來(lái)進(jìn)行建模,而聽(tīng)覺(jué)場(chǎng)景分析的研究一般采用較為簡(jiǎn)單的刺激,得到的規(guī)則在復(fù)雜聽(tīng)覺(jué)環(huán)境下并不一定適用,大多數(shù)CASA模型的任務(wù)目標(biāo)是為了重現(xiàn)聽(tīng)覺(jué)場(chǎng)景分析中的實(shí)驗(yàn)結(jié)果,很少有能應(yīng)用到實(shí)際中的大規(guī)模數(shù)據(jù)集上的模型;而且,大部分CASA模型嚴(yán)重依賴(lài)于分組線(xiàn)索,尤其是基音提取的準(zhǔn)確性,而這在復(fù)雜聽(tīng)覺(jué)環(huán)境下又難以保證,因此語(yǔ)音分離效果并不理想[35].
2.1.2 基于深度學(xué)習(xí)的語(yǔ)音分離算法
近年來(lái),隨著計(jì)算成本的降低與計(jì)算速度的提高,語(yǔ)音分離任務(wù)的表現(xiàn)越來(lái)越得益于數(shù)據(jù)驅(qū)動(dòng)型方法,尤其是深度學(xué)習(xí)方法.CASA模型的一個(gè)主要目標(biāo)是學(xué)習(xí)一個(gè)理想二值掩蔽(Ideal binary mask,IBM),來(lái)決定頻譜中的目標(biāo)信號(hào)在哪些時(shí)頻單元(Time-frequency units)中做主導(dǎo),Wang等將時(shí)頻單元級(jí)別的特征作為深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks,DNN)的輸入,將學(xué)習(xí)到的特征和原始特征拼接在一起作為輸入,利用線(xiàn)性SVM 進(jìn)行二分類(lèi)并得到IBM,在一定程度上緩解了傳統(tǒng)語(yǔ)音分離問(wèn)題難以在大數(shù)據(jù)集上進(jìn)行訓(xùn)練的問(wèn)題[57].一方面,時(shí)頻單元級(jí)別的特征能夠關(guān)注到更加微小的細(xì)節(jié),卻缺乏對(duì)語(yǔ)音的全局性和整體性的描述,無(wú)法獲得語(yǔ)音的時(shí)空結(jié)構(gòu)和時(shí)序相關(guān)性[39];另一方面,IBM的估計(jì)若出錯(cuò),則會(huì)導(dǎo)致信息丟失過(guò)大[58].在后續(xù)工作中,Narayanan等將相鄰子帶的輸出作為最后的分類(lèi)器的輸入,將理想比值掩蔽(Ideal ratio mask,IRM)作為DNN的訓(xùn)練目標(biāo),做語(yǔ)音增強(qiáng)任務(wù)[59].上述兩項(xiàng)工作需要對(duì)每個(gè)濾波器組通道(Filterbank channel)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),當(dāng)濾波器組通道數(shù)太大的時(shí)候,訓(xùn)練如此多的神經(jīng)網(wǎng)絡(luò)非常不實(shí)際,難以達(dá)到拓展性要求.為解決這個(gè)問(wèn)題,Huang等提出用一個(gè)神經(jīng)網(wǎng)絡(luò)直接同時(shí)訓(xùn)練所有特征通道和掩蔽函數(shù)應(yīng)用到兩個(gè)說(shuō)話(huà)人的語(yǔ)音分離任務(wù)上.在每一個(gè)時(shí)刻,將落在以該時(shí)刻為中心的時(shí)間窗口內(nèi)的特征拼接起來(lái)作為深度神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)的輸入,學(xué)習(xí)得到兩個(gè)聲源的頻譜,并在神經(jīng)網(wǎng)絡(luò)之后額外加入一個(gè)掩蔽層將IRM 整合到網(wǎng)絡(luò)中,從而聯(lián)合地訓(xùn)練優(yōu)化整個(gè)網(wǎng)絡(luò),見(jiàn)式(4)和式(5),其中Xt表示在t時(shí)刻混合語(yǔ)音的頻譜,和表示神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè),表示最后經(jīng)過(guò)掩蔽層得到的輸出[60],⊙為逐個(gè)元素依次相乘(Element-wise multiplication),系統(tǒng)框架如圖2.
圖2 Huang等提出的基于深度學(xué)習(xí)的語(yǔ)音分離系統(tǒng)的結(jié)構(gòu)[60]Fig.2 The structure of the proposed deep learning based speech separation system by Huang et al.[60]
文獻(xiàn)[60]還提出一個(gè)區(qū)分性的訓(xùn)練目標(biāo)使得在考慮源信號(hào)與預(yù)測(cè)信號(hào)的相似性的同時(shí),還考慮預(yù)測(cè)信號(hào)與其他源信號(hào)的相似性,見(jiàn)式(6),其中γ是超參數(shù).
在其后續(xù)工作中,文獻(xiàn)[61]進(jìn)一步拓展該框架為一個(gè)應(yīng)用更為廣泛的通用框架,將深度遞歸神經(jīng)網(wǎng)絡(luò)(Deep recurrent neural networks,DRNN)和堆疊遞歸神經(jīng)網(wǎng)絡(luò)(Stacked RNN)應(yīng)用到模型建模中,并通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證了額外的掩蔽層和區(qū)分性訓(xùn)練的有效性.Du等則應(yīng)用深度神經(jīng)網(wǎng)絡(luò)模型作為回歸模型,利用其高度非線(xiàn)性特性對(duì)混合語(yǔ)音與純凈語(yǔ)音之間的映射關(guān)系進(jìn)行建模[62?63],作者將對(duì)數(shù)功率譜作為DNN的輸入,用DNN直接學(xué)習(xí)輸出目標(biāo)說(shuō)話(huà)人或者目標(biāo)說(shuō)話(huà)人和干擾說(shuō)話(huà)人的對(duì)數(shù)功率譜,再對(duì)得到的信號(hào)進(jìn)行重建.在其后續(xù)工作中,作者將這個(gè)模型加以拓展,提出SND-DNN(Signalnoise-dependent DNN)系統(tǒng)利用一個(gè)正信噪比的DNN和一個(gè)負(fù)信噪比的DNN克服單個(gè)DNN難以學(xué)習(xí)不同信噪比下混合語(yǔ)音的變化特性的問(wèn)題,并聯(lián)合說(shuō)話(huà)人識(shí)別和語(yǔ)音分離采取多遍算法獲得了比單個(gè)DNN更好的分離表現(xiàn)[64].Weninger等將信號(hào)估計(jì)(Signal approximation,SA)作為目標(biāo),并將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-short term memory networks,LSTM)應(yīng)用到語(yǔ)音分離問(wèn)題中,其實(shí)驗(yàn)結(jié)果顯示LSTM比DNN在分離性能上更優(yōu)[65].其中,SA通過(guò)訓(xùn)練一個(gè)比值掩蔽估計(jì)器(Ratio mask estimator)來(lái)最小化純凈語(yǔ)音和預(yù)測(cè)語(yǔ)音之間的頻譜幅度之間的差距,見(jiàn)式(7)和式(8),其中X(t,f)和(t,f)分別是混合語(yǔ)音和預(yù)測(cè)的語(yǔ)音的頻譜幅度,SMM(Spectral magnitude mask)是傅里葉變換掩蔽,RM是對(duì)SMM的一個(gè)估計(jì).信號(hào)近似可以看作是比值掩蔽方法和頻譜映射方法的結(jié)合[66].
總的來(lái)說(shuō),早期利用基于深度學(xué)習(xí)的語(yǔ)音分離算法在模型網(wǎng)絡(luò)架構(gòu)上較為簡(jiǎn)單,根據(jù)訓(xùn)練目標(biāo)主要可以分為三類(lèi):基于時(shí)頻掩蔽的算法[57?60],基于頻譜映射的算法[62?64]和基于信號(hào)近似的算法[65].基于時(shí)頻掩蔽的算法相比基于頻譜映射的算法,能夠更好地發(fā)現(xiàn)目標(biāo)和干擾說(shuō)話(huà)人之間的互信息,運(yùn)用在數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)算法中能夠更好地利用訓(xùn)練集中大量的訓(xùn)練數(shù)據(jù).而基于頻譜映射的算法相比于基于時(shí)頻掩蔽的算法,則對(duì)數(shù)據(jù)中的SNR變化更不敏感,在低SNR的時(shí)候表現(xiàn)比基于時(shí)頻掩蔽的算法表現(xiàn)會(huì)更好[67].后續(xù)的工作多數(shù)在這三類(lèi)模型基礎(chǔ)上進(jìn)行擴(kuò)展,對(duì)網(wǎng)絡(luò)架構(gòu)及訓(xùn)練方法等進(jìn)行改進(jìn).
上述基于深度學(xué)習(xí)的模型在利用上下文信息的時(shí)候時(shí)間分辨率固定,而難以發(fā)現(xiàn)尺度較大的時(shí)序依賴(lài)性并進(jìn)行建模,引入不同時(shí)間分辨率的表示或多尺度上下文時(shí)間窗口的模型有助于整合更長(zhǎng)時(shí)間內(nèi)的上下文信息.對(duì)比不同分辨率的表示或基于單一尺度上下文時(shí)間窗口的模型,在語(yǔ)音分離任務(wù)上更勝一籌[67?68].Sprechmann等[68]提出每層產(chǎn)生不同時(shí)間分辨率的特征圖的Wavelet pyramid scattering transform網(wǎng)絡(luò),并將學(xué)習(xí)到的多時(shí)間分辨率特征作為深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)驗(yàn)結(jié)果顯示使用了多時(shí)間分辨率的小波特征作為輸入的模型在語(yǔ)音分離各項(xiàng)指標(biāo)SDR,SIR和SAR[69]上表現(xiàn)遠(yuǎn)超使用單一時(shí)間分辨率的短時(shí)傅里葉變換表示作為輸入的模型[68].Zhang等利用集成學(xué)習(xí)的思想提出Multi-context networks,對(duì)有不同尺度的上下文窗口時(shí)間長(zhǎng)度的DNN的輸出作平均(Multicontext averaging,MCA)或者堆棧(Multi-context stacking,MCS),其中MCS模型的模塊可以是基于時(shí)頻掩蔽的模型,基于頻譜映射的模型和基于信號(hào)近似的模型;實(shí)驗(yàn)結(jié)果顯示Multi-context networks比單一固定上下文窗口時(shí)間長(zhǎng)度的DNN在語(yǔ)音分離任務(wù)上效果更好[67].深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練學(xué)習(xí)對(duì)特定說(shuō)話(huà)人的掩蔽函數(shù)或者頻譜映射常常面臨兩個(gè)困難,即排列問(wèn)題(Permutation problem)和輸出維度不匹配問(wèn)題(Output dimension mismatch problem).前者通常是由于訓(xùn)練樣本的目標(biāo)標(biāo)簽有序,而混合語(yǔ)音中各個(gè)源的順序卻是順序無(wú)關(guān)而導(dǎo)致.后者一般源自大多數(shù)模型都采用的固定源的數(shù)目的設(shè)置,導(dǎo)致一些模型不具備適應(yīng)混合語(yǔ)音中源數(shù)目可變特性的靈活性[70].Hershey等將深度神經(jīng)網(wǎng)絡(luò)模型和譜聚類(lèi)結(jié)合起來(lái),提出深度聚類(lèi)(Deep clustering,DC)算法來(lái)解決這兩個(gè)問(wèn)題[71?72].DC算法提出一個(gè)目標(biāo)函數(shù)使得DNN學(xué)習(xí)到一種單位嵌入表示,使得同一個(gè)源信號(hào)占主導(dǎo)地位的時(shí)頻單元之間距離最小,而不同源信號(hào)占主導(dǎo)地位的時(shí)頻單元之間距離最大,用這樣的嵌入表示得到的目標(biāo)函數(shù)具有低秩的特性,從而在實(shí)現(xiàn)的時(shí)候高效地計(jì)算出矩陣的導(dǎo)數(shù),降低譜聚類(lèi)的計(jì)算復(fù)雜度,同時(shí)獲得良好的聚類(lèi)效果.設(shè)V=fθ(x)∈RN×D是通過(guò)參數(shù)為θ的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的D維嵌入表示且|vi|2=1,則A=V VT可以用來(lái)表示一個(gè)估計(jì)的N×N的親和度矩陣.Y={yi,c}∈RN×C是一個(gè)指示矩陣,將每個(gè)元素i,在語(yǔ)音分離的場(chǎng)合i指時(shí)頻單元的索引,映射到C個(gè)聚類(lèi)之中:即yi,c=1表示元素i屬于聚類(lèi)c,因此(Y YT)i,j=1表示元素i和元素j同屬于一個(gè)聚類(lèi)c,(Y YT)i,j=0表示元素i和元素j屬于不同的聚類(lèi),則A?=Y YT可以表示一個(gè)真實(shí)的N×N的親和度矩陣.因此,DC定義了一個(gè)目標(biāo)函數(shù),來(lái)使得估計(jì)的親和度矩陣盡可能接近真實(shí)的親和度矩陣,目標(biāo)函數(shù)見(jiàn)式(9),其中是Frobenius范數(shù).
DC有較好的泛化能力,直接將只用兩個(gè)說(shuō)話(huà)人混合語(yǔ)音進(jìn)行訓(xùn)練得到的模型應(yīng)用到分離三個(gè)說(shuō)話(huà)人混合語(yǔ)音的任務(wù)上,依舊能夠獲得較好的分離表現(xiàn).但由于DC優(yōu)化的目標(biāo)函數(shù)是映射到嵌入空間的源的親和度矩陣而非信號(hào)本身,后續(xù)需要另外用聚類(lèi)算法來(lái)進(jìn)行聚類(lèi),因而不是一個(gè)端到端的系統(tǒng).Yu等提出幀級(jí)別的具有排列不變性的訓(xùn)練方法(Permutation invariant training,PIT)來(lái)解決排列問(wèn)題[73],具體框架如圖3.PIT方法的關(guān)鍵在于誤差回傳的時(shí)候計(jì)算預(yù)測(cè)輸出序列與標(biāo)注序列各種排列的均方差,并選擇最小均方差用于優(yōu)化參數(shù).在后續(xù)工作中,研究者提出語(yǔ)料級(jí)別的具有排列不變性的訓(xùn)練方法(Utterance-level permutation invariant training,uPIT),解決了PIT方法中的說(shuō)話(huà)人跟蹤問(wèn)題(Speaker tracing problem)[74].Chen等[70]根據(jù)人類(lèi)聽(tīng)覺(jué)認(rèn)知研究中的感知磁效應(yīng)(Perceptual magnet effect)[75]提出深度吸引子網(wǎng)絡(luò)(Deep attractor network,DANet),從而做到端到端訓(xùn)練.和DC類(lèi)似,DANet在訓(xùn)練階段用訓(xùn)練神經(jīng)網(wǎng)絡(luò)將語(yǔ)音頻譜映射到一個(gè)D維嵌入空間,不同的是之后DANet會(huì)在嵌入空間內(nèi)根據(jù)時(shí)頻單元的嵌入表示生成各個(gè)源的吸引子,之后通過(guò)每個(gè)時(shí)頻單元與每個(gè)吸引子的相似性來(lái)估計(jì)每個(gè)源的掩蔽,見(jiàn)式(10),其中A是吸引子矩陣,V代表嵌入空間,M代表掩蔽.
圖3 Yu等提出的基于排列不變性訓(xùn)練方法的雙說(shuō)話(huà)人語(yǔ)音分離系統(tǒng)的結(jié)構(gòu)[73]Fig.3 The structure of the proposed PIT-based two-speaker speech separation system by Yu et al.[73]
在測(cè)試階段,可以用兩種策略來(lái)估計(jì)吸引子,第一種是用K-means算法對(duì)時(shí)頻單元進(jìn)行估計(jì)得到吸引子,第二種是根據(jù)吸引子在嵌入空間的位置相對(duì)穩(wěn)定使用固定的吸引子.DANet對(duì)比DC,通過(guò)生成吸引子有效地將與源相關(guān)的信息整合進(jìn)來(lái);當(dāng)吸引子矩陣變成自由參數(shù)的時(shí)候,掩蔽沒(méi)有有關(guān)源的信息.
前面提到的模型只運(yùn)用了聽(tīng)覺(jué)信息本身作為輸入來(lái)源.然而,只使用聽(tīng)覺(jué)信息的模型在分離相似聲音的時(shí)候,比如相同性別的說(shuō)話(huà)人的聲音時(shí),面臨困難[76].在實(shí)際生活中,人類(lèi)在進(jìn)行聽(tīng)覺(jué)選擇的同時(shí),通常也會(huì)接受其他形式的信息來(lái)源.其中,視覺(jué)信息在處理雞尾酒會(huì)問(wèn)題中也起到了非常明顯的促進(jìn)作用.基于這種認(rèn)識(shí),近年來(lái),研究人員開(kāi)始將視覺(jué)信息作為額外的輸入信息引入到語(yǔ)音分離和雞尾酒會(huì)問(wèn)題的建模當(dāng)中.根據(jù)視覺(jué)信息和聽(tīng)覺(jué)信息之間具有高度相關(guān)性的觀(guān)測(cè),早期的研究一般尋找與聲學(xué)特征高度匹配的視覺(jué)特征集合作為語(yǔ)音分離的輔助信息,比如提取嘴唇及其周?chē)膮^(qū)域與唇部運(yùn)動(dòng)相關(guān)的視覺(jué)信息,來(lái)區(qū)分噪音環(huán)境下的靜音片段和言語(yǔ)片段[77],為音頻的頻譜提供估計(jì)信息[78?79].另一種思路則是通過(guò)一些統(tǒng)計(jì)模型,比如隱馬爾科夫模型或者高斯混合模型對(duì)視聽(tīng)覺(jué)信息的分布進(jìn)行建模,對(duì)視聽(tīng)覺(jué)信息的高度非線(xiàn)性相關(guān)性進(jìn)行建模,通過(guò)最大化分離的語(yǔ)音和視頻信息之間的相關(guān)性[80],或者采用傳統(tǒng)的盲信號(hào)分離算法[81]來(lái)得到最后的分離結(jié)果.Barzelay等提出了一個(gè)匹配準(zhǔn)則,獎(jiǎng)勵(lì)視聽(tīng)覺(jué)信息之間的時(shí)間相干性而懲罰不匹配,尋找各個(gè)模態(tài)的顯著特征之間的對(duì)應(yīng)關(guān)系[82].Casanovas等提出BAVSS(Blind audiovisual source separation)系統(tǒng),其中根據(jù)視頻中檢測(cè)到的源在音頻中存在有且僅有一個(gè)聲源與其對(duì)應(yīng)的假設(shè)和各聲源不太可能每時(shí)每刻都混合的假設(shè),用視覺(jué)信息確定說(shuō)話(huà)人數(shù)目和各自說(shuō)話(huà)的時(shí)間片段[83].但是,上述這些工作一般只能在孤立語(yǔ)音或者小數(shù)據(jù)集上工作.近幾年,深度神經(jīng)網(wǎng)絡(luò)模型的引入使得視聽(tīng)覺(jué)語(yǔ)音分離能夠在更大規(guī)模的數(shù)據(jù)集上工作.Hou等提出AVDCNN(Audio-visual deep CNN)模型,分別利用卷積神經(jīng)網(wǎng)絡(luò)提取混合語(yǔ)音的信息和唇部圖片的信息并將其融合,在多任務(wù)學(xué)習(xí)的學(xué)習(xí)目標(biāo)和編碼器–解碼器框架下,恢復(fù)出增強(qiáng)語(yǔ)音和重建的唇部圖片[84].受啟于機(jī)器唇讀的研究進(jìn)展,Ephrat等用Vid2Speech網(wǎng)絡(luò)[85]將已知說(shuō)話(huà)人無(wú)聲視頻作為輸入生成音頻的頻譜,在分離兩個(gè)說(shuō)話(huà)人的情況下,根據(jù)生成的兩個(gè)說(shuō)話(huà)人的頻譜強(qiáng)弱,生成IBM或者IRM作用于混合語(yǔ)音的頻譜得到分離的語(yǔ)音[76].與Hou的工作類(lèi)似,Gabbay等提出相似的基于編碼器–解碼器的深度學(xué)習(xí)模型來(lái)解決視覺(jué)語(yǔ)音增強(qiáng),不同的是后者沒(méi)有恢復(fù)輸入的唇部圖片,而是在訓(xùn)練集中通過(guò)添加同一個(gè)說(shuō)話(huà)人的聲音作為噪音,促使網(wǎng)絡(luò)利用視覺(jué)信息[86].近期,同時(shí)利用視覺(jué)信息和聽(tīng)覺(jué)信息來(lái)處理雞尾酒會(huì)問(wèn)題的方法得到了廣泛的關(guān)注.其中最主要的一種方法是利用語(yǔ)音和視覺(jué)信息的對(duì)應(yīng)性,完成自監(jiān)督訓(xùn)練的過(guò)程,以達(dá)到利用視覺(jué)信息作為刺激來(lái)完成語(yǔ)音分離的任務(wù).例如,Owens等通過(guò)自監(jiān)督學(xué)習(xí)[87]利用視頻中視覺(jué)信息和聽(tīng)覺(jué)信息本身的對(duì)齊性,用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視覺(jué)和聽(tīng)覺(jué)特征是否在時(shí)間上對(duì)齊,在較早的階段就混合視覺(jué)和聽(tīng)覺(jué)信息而得到不同時(shí)間分辨率的多模態(tài)整合特征,用在On/O ffscreen語(yǔ)音分離任務(wù)上[88].Ephrat等構(gòu)建了大規(guī)模視聽(tīng)覺(jué)數(shù)據(jù)集(Audio-visual dataset),提出基于神經(jīng)網(wǎng)絡(luò)的AVSpeech模型,在語(yǔ)音分離任務(wù)中利用外部視頻分析工具的人臉識(shí)別功能引入人臉信息作為刺激,訓(xùn)練得到了一個(gè)說(shuō)話(huà)人無(wú)關(guān)的模型,并在真實(shí)場(chǎng)景下取得了較好的效果[89].最近還有一些雞尾酒會(huì)問(wèn)題的延伸工作,對(duì)視頻中的發(fā)聲物體的聲音進(jìn)行分離和定位[90?92].
對(duì)第2.1節(jié)和第2.2節(jié)的語(yǔ)音分離算法進(jìn)行一個(gè)簡(jiǎn)單的總結(jié)和對(duì)比,如表1.基于信號(hào)處理的算法,基于分解的算法和基于規(guī)則的算法往往只能在較小規(guī)模的數(shù)據(jù)集上工作,且難以處理開(kāi)放數(shù)據(jù)集的情況.隨著數(shù)據(jù)的不斷積累和計(jì)算設(shè)備性能的大幅進(jìn)步,處理雞尾酒會(huì)問(wèn)題的模型已經(jīng)逐漸從基于信號(hào)處理,分解和規(guī)則的方法轉(zhuǎn)變成為通過(guò)數(shù)據(jù)驅(qū)動(dòng)形式進(jìn)行學(xué)習(xí)的方法.以深度學(xué)習(xí)的一系列方法為代表,當(dāng)前模型可以在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而在給定的條件下得到比較好的效果.然而,當(dāng)前對(duì)雞尾酒會(huì)問(wèn)題建模的深度學(xué)習(xí)方法雖然充分利用了大規(guī)模數(shù)據(jù)集帶來(lái)的優(yōu)勢(shì),卻也一定程度上過(guò)分依賴(lài)模型本身的優(yōu)異性能,從而忽略了從人類(lèi)聽(tīng)覺(jué)回路中進(jìn)行借鑒,造成了可解釋性較差,適用情況較局限等一系列問(wèn)題.值得注意的是,近期出現(xiàn)了一批語(yǔ)音分離的工作,將人類(lèi)在雞尾酒會(huì)環(huán)境中進(jìn)行聽(tīng)覺(jué)選擇的部分機(jī)制,集成到現(xiàn)有的深度學(xué)習(xí)方法當(dāng)中來(lái),從而解決了一些之前工作中存在的問(wèn)題,獲得了更好的可解釋性和比較優(yōu)秀的性能.本文將在第3節(jié)介紹這一類(lèi)新方法的代表工作.
回顧第1節(jié),我們知道聽(tīng)覺(jué)注意在人類(lèi)處理復(fù)雜聽(tīng)覺(jué)場(chǎng)景時(shí)是非常重要且必不可少的一個(gè)機(jī)制,同樣,對(duì)于雞尾酒會(huì)問(wèn)題的語(yǔ)音分離計(jì)算模型而言,聽(tīng)覺(jué)注意也應(yīng)該得到關(guān)注.但從第2節(jié)回顧的模型可以發(fā)現(xiàn),現(xiàn)有模型大多數(shù)只有自下而上的推斷過(guò)程,也就是說(shuō),各類(lèi)模型往往對(duì)復(fù)雜的聽(tīng)覺(jué)信號(hào)進(jìn)行直接處理,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行大量學(xué)習(xí),分離出可能出現(xiàn)的多條語(yǔ)音通道,而忽略了自上而下的聽(tīng)覺(jué)注意過(guò)程.認(rèn)知心理學(xué)研究表明,自上而下的聽(tīng)覺(jué)注意過(guò)程有利于更好地利用先驗(yàn)知識(shí),使人在雞尾酒會(huì)環(huán)境中的表現(xiàn)更加高效而魯棒.具體而言,Bregman[7]和Ciocca[93]等曾指出,除了聲音在環(huán)境當(dāng)中的物理屬性,聽(tīng)者也會(huì)探索他們近期或者長(zhǎng)期經(jīng)驗(yàn)中已經(jīng)學(xué)習(xí)到的知識(shí)來(lái)更好地處理復(fù)雜的聽(tīng)覺(jué)場(chǎng)景.事實(shí)上,這種學(xué)習(xí)到的經(jīng)驗(yàn)或者說(shuō)概念中就包含多種不同來(lái)源.例如,其可能來(lái)自于聽(tīng)者對(duì)于各類(lèi)聲源的統(tǒng)計(jì)特性的熟知,可能源于對(duì)于某個(gè)特定聲源的短期或者長(zhǎng)時(shí)記憶,甚至是能夠幫助聽(tīng)者更好地關(guān)注目標(biāo)聲源從而忽略其余背景干擾的這種注意狀態(tài).從聲源信號(hào)處理的角度來(lái)看,這一類(lèi)自上而下的過(guò)程相當(dāng)于對(duì)于可能的最優(yōu)解施加了一個(gè)限定范圍,從而減少了許多無(wú)謂的重復(fù)處理的過(guò)程,繼而在解決雞尾酒會(huì)問(wèn)題中起到了非常重要的作用[94].
基于以上認(rèn)識(shí),Xu等首次將自上而下的任務(wù)驅(qū)動(dòng)的聽(tīng)覺(jué)注意過(guò)程和自下而上的刺激驅(qū)動(dòng)的推斷過(guò)程整合到一個(gè)統(tǒng)一的框架而提出ASAM(Auditory selection framework with attention and memory)[95],具體框架如圖4.在ASAM 中,模型設(shè)置了一個(gè)長(zhǎng)期記憶單元,并在處理過(guò)程中對(duì)該記憶的各個(gè)元素進(jìn)行更新和提取的操作.該長(zhǎng)期記憶單元類(lèi)似人腦記憶模型中的長(zhǎng)時(shí)記憶(Long-term memory,LTM)模塊,在整個(gè)模型中起到了非常重要的作用.具體來(lái)說(shuō),在模型當(dāng)中,長(zhǎng)期記憶單元由多個(gè)槽組成,每個(gè)槽用以存放并更新學(xué)習(xí)到的有關(guān)說(shuō)話(huà)人的聲紋特征.在自下而上的過(guò)程中,根據(jù)刺激對(duì)長(zhǎng)期記憶進(jìn)行更新,長(zhǎng)期記憶被建模成一個(gè)三元組M,見(jiàn)式(11),其中向量K是記憶鍵值,矩陣V是記憶的值,而向量A記錄長(zhǎng)期記憶槽中存放記憶的年齡.
表1 對(duì)雞尾酒會(huì)問(wèn)題建模的單通道語(yǔ)音分離計(jì)算模型的回顧總結(jié)Table 1 A review for single-channel speech separation models attacking the cocktail party problem
圖4 Xu等提出的ASAM系統(tǒng)的結(jié)構(gòu)[95]Fig.4 The structure of the proposed ASAM system by Xu et al.[95]
如果給定說(shuō)話(huà)人p在長(zhǎng)期記憶中已經(jīng)存在,則將其年齡重設(shè)為0表示最近訪(fǎng)問(wèn),并將原記憶值和現(xiàn)有值取平均并歸一;否則,如果記憶槽未滿(mǎn),則將說(shuō)話(huà)人p寫(xiě)入記憶槽中,如果記憶槽已滿(mǎn),則找年齡最大的記憶槽將其覆蓋.每次記憶更新操作,其他未更新的槽的年齡均加一.在自上而下的過(guò)程中,模型假定已知需要關(guān)注的目標(biāo)說(shuō)話(huà)人p,然后從長(zhǎng)期記憶中提取該說(shuō)話(huà)人的聲紋特征作為先驗(yàn)知識(shí)與由當(dāng)前混合語(yǔ)音經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)得到的隱狀態(tài)整合到一起,得到聽(tīng)覺(jué)注意掩蔽,作用于混合語(yǔ)音得到關(guān)注目標(biāo)說(shuō)話(huà)人的言語(yǔ).總之,ASAM 模型提出的框架利用類(lèi)似人腦長(zhǎng)時(shí)記憶的單元作為關(guān)鍵的信息存儲(chǔ)和交互的模塊,將人類(lèi)聽(tīng)覺(jué)過(guò)程中的自上而下和自下而上的處理方式統(tǒng)一到一個(gè)計(jì)算模型中,突破了之前很多數(shù)據(jù)驅(qū)動(dòng)模型中單一的自下而上的計(jì)算范式,為雞尾酒會(huì)問(wèn)題的建模提供了新的思路.與之前的基于深度學(xué)習(xí)的方法相比,ASAM模型明確引入了說(shuō)話(huà)人的聲紋信息充當(dāng)可被學(xué)習(xí)的先驗(yàn)知識(shí),為處理雞尾酒會(huì)問(wèn)題的一項(xiàng)重要線(xiàn)索.由于先驗(yàn)知識(shí)和概念的存在,自上而下的注意過(guò)程變得容易實(shí)現(xiàn).在復(fù)雜的聽(tīng)覺(jué)環(huán)境下,這種自上而下的過(guò)程可以提升注意的效率,對(duì)于已經(jīng)建立的概念而言避免了在每個(gè)時(shí)刻重復(fù)且不穩(wěn)定地推斷.另外,從ASAM 模型對(duì)于噪音加入之后的性能表現(xiàn)也可以看到,由于說(shuō)話(huà)人聲紋信息的明確性,其抗干擾能力得到了加強(qiáng),避免了在復(fù)雜環(huán)境下一些無(wú)關(guān)緊要的各類(lèi)噪聲或背景人聲對(duì)之前深度學(xué)習(xí)方法的劇烈影響.然而,在ASAM 模型的設(shè)定中,其對(duì)注意目標(biāo)的形成做了簡(jiǎn)單的假定,規(guī)定模型一次只能關(guān)注一個(gè)給定的目標(biāo)說(shuō)話(huà)人,這在真實(shí)場(chǎng)景中并不現(xiàn)實(shí),限制了模型在復(fù)雜聽(tīng)覺(jué)環(huán)境中的適用性.如何從混合語(yǔ)音中自動(dòng)地抽取多個(gè)可能的目標(biāo)說(shuō)話(huà)人,并對(duì)其各自語(yǔ)音通道進(jìn)行分離成為了更為關(guān)鍵的問(wèn)題.針對(duì)這一目標(biāo),Shi等提出TDAA(Top-down auditory attention)模型,使得從混合語(yǔ)音中分離出多個(gè)目標(biāo)說(shuō)話(huà)人成為可能,而且一定程度上解決了之前的語(yǔ)音分離模型難以處理數(shù)目可變說(shuō)話(huà)人的問(wèn)題[96],具體框架如圖5.該模型在設(shè)計(jì)層面上遵循了模塊化的原則,將原始語(yǔ)音數(shù)據(jù)驅(qū)動(dòng)的自下而上的過(guò)程與目標(biāo)說(shuō)話(huà)人引導(dǎo)的自上而下的過(guò)程串聯(lián)起來(lái),更好地模擬了人類(lèi)聽(tīng)覺(jué)通路在雞尾酒會(huì)問(wèn)題處理過(guò)程中的行為.具體來(lái)說(shuō),該模型首先完成自下而上的推理,預(yù)測(cè)出候選說(shuō)話(huà)人.該過(guò)程中,TDAA采用RNN分類(lèi)器一步步地推斷出候選說(shuō)話(huà)人,即每一步從混合語(yǔ)音中推斷出最顯著的說(shuō)話(huà)人,然后從混合語(yǔ)音的頻譜中減去預(yù)測(cè)的說(shuō)話(huà)人的頻譜作為新的混合語(yǔ)音頻譜,迭代地進(jìn)行下一步,預(yù)測(cè)下一個(gè)說(shuō)話(huà)人,直到最后為空或者滿(mǎn)足一定條件為止.在得到候選說(shuō)話(huà)人之后,若干個(gè)候選說(shuō)話(huà)人各自被用于作為高階的概念,引導(dǎo)之后的針對(duì)每一個(gè)候選說(shuō)話(huà)人的自上而下的語(yǔ)音分離.在自上而下的過(guò)程中,遞歸神經(jīng)網(wǎng)絡(luò)將輸入混合語(yǔ)音的頻譜映射到一個(gè)D維嵌入空間V∈RT×F×D,其中T和F表示混合語(yǔ)音頻譜的時(shí)間維度和頻譜維度;說(shuō)話(huà)人的聲紋信息被映射到一個(gè)嵌入矩陣E∈RN×D,其中N代表訓(xùn)練集中已知的說(shuō)話(huà)人數(shù);注意模塊將V和Ei作為輸入通過(guò)注意機(jī)制得到候選的第i個(gè)說(shuō)話(huà)人的IRM,作用于混合語(yǔ)音的頻譜獲得預(yù)測(cè)的第i個(gè)說(shuō)話(huà)人的頻譜.對(duì)整個(gè)TDAA模型而言,其設(shè)計(jì)的自下而上的過(guò)程能夠動(dòng)態(tài)地解析出若干個(gè)候選說(shuō)話(huà)人作為目標(biāo),解決了之前一大批方法由于多個(gè)通道帶來(lái)的排列問(wèn)題.同時(shí),也使得TDAA模型擺脫了說(shuō)話(huà)人數(shù)量上的限定,可以處理說(shuō)話(huà)人數(shù)量可變的情況.從實(shí)驗(yàn)結(jié)果來(lái)看,該方法在開(kāi)放數(shù)據(jù)集上,即測(cè)試集含有未知說(shuō)話(huà)人的數(shù)據(jù)集上,也取得了比之前的工作更好的表現(xiàn).但是跟封閉數(shù)據(jù)集比,TDAA在開(kāi)放數(shù)據(jù)集上的表現(xiàn)要差一些,其表現(xiàn)主要受到自下而上的推斷過(guò)程的結(jié)果影響.
圖5 Shi等提出的TDAA系統(tǒng)的結(jié)構(gòu)[96]Fig.5 The structure of the proposed TDAA system by Shi et al.[96]
由以上幾個(gè)工作可以看出,近期的雞尾酒會(huì)語(yǔ)音分離計(jì)算模型依托于深度學(xué)習(xí)的方法框架,進(jìn)行了進(jìn)一步地升級(jí)和探索.部分工作已經(jīng)從以深度學(xué)習(xí)本身的算法為主要關(guān)注點(diǎn),轉(zhuǎn)變成為結(jié)合類(lèi)腦聽(tīng)覺(jué)機(jī)制來(lái)建模,從而解決之前遇到的一些問(wèn)題.同時(shí)形成了以注意為核心,融合記憶等模塊的更加具有解釋性的新型架構(gòu).總結(jié)而言,此類(lèi)結(jié)合類(lèi)腦機(jī)制的新型架構(gòu)更多地借鑒了人類(lèi)聽(tīng)覺(jué)通路過(guò)程中的各類(lèi)機(jī)制.與之前的基于深度學(xué)習(xí)的方法對(duì)比,該類(lèi)方法在模型的設(shè)計(jì)和流程中,提出了如自上而下的注意過(guò)程,外部長(zhǎng)期記憶等有益的模塊.對(duì)于目前雞尾酒會(huì)問(wèn)題中基于數(shù)據(jù)驅(qū)動(dòng)的,以自下而上的深度學(xué)習(xí)方法,該類(lèi)計(jì)算模型存在受噪聲干擾較大,且通常只能針對(duì)于一種設(shè)定好的環(huán)境(例如說(shuō)話(huà)人數(shù)目固定或者給定)的局限.針對(duì)這些局限,結(jié)合類(lèi)腦機(jī)制的新方法增強(qiáng)了面對(duì)不同情形的魯棒性,對(duì)于現(xiàn)實(shí)環(huán)境中的復(fù)雜聽(tīng)覺(jué)環(huán)境無(wú)疑具有更好的適應(yīng)性.可以預(yù)見(jiàn)的是,這種結(jié)合人類(lèi)聽(tīng)覺(jué)工作機(jī)制,腦啟發(fā)式的模型應(yīng)該會(huì)引起研究人員的關(guān)注,從而進(jìn)一步促進(jìn)如聽(tīng)覺(jué)注意等機(jī)制與雞尾酒會(huì)問(wèn)題計(jì)算模型的更好融合,并探索出更加合適的建模方式,為復(fù)雜聽(tīng)覺(jué)場(chǎng)景的關(guān)鍵問(wèn)題上提供更好的解決方案.
第2節(jié)和第3節(jié)描述的計(jì)算模型專(zhuān)注于解決復(fù)雜聽(tīng)覺(jué)環(huán)境下的多說(shuō)話(huà)人語(yǔ)音分離問(wèn)題,但在雞尾酒會(huì)問(wèn)題中,語(yǔ)音分離之后的進(jìn)一步智能化處理也十分重要.在深度學(xué)習(xí)時(shí)代之前,也有不少工作致力于解決多說(shuō)話(huà)人語(yǔ)音識(shí)別問(wèn)題,其中最有效和著名的一個(gè)是factorial GMM-HMM,在2006年單通道語(yǔ)音分離和識(shí)別競(jìng)賽中表現(xiàn)超越人類(lèi)[97?98].最近出現(xiàn)一批工作致力于用深度學(xué)習(xí)的方法,解決復(fù)雜聽(tīng)覺(jué)環(huán)境下的多說(shuō)話(huà)人語(yǔ)音識(shí)別問(wèn)題.多說(shuō)話(huà)人語(yǔ)音識(shí)別算法目前有兩種思路.第一種思路是構(gòu)建一個(gè)兩階段的模型,即在語(yǔ)音分離模型之后接語(yǔ)音識(shí)別模型對(duì)每個(gè)分離的語(yǔ)音流進(jìn)行識(shí)別[99?100].Isik等在DC語(yǔ)音分離模型之后接入一個(gè)增強(qiáng)網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練來(lái)增強(qiáng)分離的語(yǔ)音流,再用一個(gè)單說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)對(duì)分離的語(yǔ)音進(jìn)行識(shí)別[72].Qian等提出基于PIT的多說(shuō)話(huà)人語(yǔ)音分離–識(shí)別系統(tǒng),即在基于PIT的語(yǔ)音分離系統(tǒng)后接入基于PIT的語(yǔ)音識(shí)別系統(tǒng),對(duì)整個(gè)系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練[98].Settle等在CTC/Attention混合結(jié)構(gòu)(Hybrid connectionist temporal classification/attention architecture)下在改進(jìn)的DC模型后接入一個(gè)端到端的語(yǔ)音識(shí)別系統(tǒng)并采用PIT方法,對(duì)語(yǔ)音分離系統(tǒng)和語(yǔ)音識(shí)別系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練[101].上述模型基本需要分別對(duì)語(yǔ)音分離模型和語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練或者預(yù)訓(xùn)練,難以直接從頭開(kāi)始訓(xùn)練(From scratch).第二種思路則是直接對(duì)混合語(yǔ)音進(jìn)行識(shí)別而沒(méi)有顯式的分離階段.Weng等使用多方式訓(xùn)練(Multi-style training)結(jié)合不同的目標(biāo)函數(shù),針對(duì)多說(shuō)話(huà)人復(fù)雜聽(tīng)覺(jué)環(huán)境中的不同情況生成相應(yīng)的訓(xùn)練數(shù)據(jù)用來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[102].Qian和Yu等對(duì)PIT進(jìn)行拓展直接對(duì)混合語(yǔ)音進(jìn)行識(shí)別,使用交叉熵作為誤差函數(shù),對(duì)所有可能的排列進(jìn)行計(jì)算并選擇最小的排列來(lái)更新模型參數(shù)[98,103],模型結(jié)構(gòu)如圖6,這里模型輸出的標(biāo)簽為多元音素(Senone).基于PIT的多說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)由于其簡(jiǎn)潔性,很容易和其他成熟的技術(shù)結(jié)合起來(lái),從而提高語(yǔ)音識(shí)別的正確率,比如說(shuō)話(huà)人自適應(yīng)技術(shù)(Speaker adaptation)[104],序列判別訓(xùn)練(Sequence discriminative training)[105],知識(shí)蒸餾(Knowledge distillation)[106]和注意機(jī)制(Attention mechanism)[107].但是上述沒(méi)有顯式分離階段的模型,在訓(xùn)練語(yǔ)音識(shí)別模型的時(shí)候需要使用一個(gè)預(yù)訓(xùn)練的單說(shuō)話(huà)人語(yǔ)音識(shí)別模型做多元音素對(duì)齊(Senone alignment)[101],無(wú)法做到真正的端到端訓(xùn)練.因此Seki等提出一個(gè)端到端的多說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)并采用PIT方法,直接對(duì)輸入的混合語(yǔ)音進(jìn)行語(yǔ)音識(shí)別而無(wú)需使用音素級(jí)別的標(biāo)簽[100],具體框圖如圖7.整個(gè)模型是一個(gè)CTC/Attention混合結(jié)構(gòu):在編碼器端共有三個(gè)層次的編碼器,分別為混合語(yǔ)音編碼器,說(shuō)話(huà)人區(qū)分的編碼器和識(shí)別編碼器,而在解碼器端則使用CTC和基于注意的解碼器.編碼器端的混合語(yǔ)音編碼器相當(dāng)于一個(gè)創(chuàng)建了能夠區(qū)分多個(gè)聲源的嵌入向量的語(yǔ)音分離模塊,說(shuō)話(huà)人區(qū)分的編碼器則從上一階段的輸出提取出各個(gè)說(shuō)話(huà)人的說(shuō)話(huà)內(nèi)容以備識(shí)別,識(shí)別編碼器則相當(dāng)于一個(gè)編碼了單個(gè)說(shuō)話(huà)人的言語(yǔ)的聲學(xué)模型用以最后的解碼.解碼器端為減小計(jì)算成本,通過(guò)采用CTC來(lái)確定所有可能的排列中誤差最小的排列,而基于注意的解碼器則采用該排列進(jìn)行解碼.實(shí)驗(yàn)表明該工作和之前端到端有顯式分離和識(shí)別過(guò)程的模型[101]效果相當(dāng),但無(wú)需依賴(lài)預(yù)訓(xùn)練的語(yǔ)音分離系統(tǒng).Chang等則在文獻(xiàn)[100]的基礎(chǔ)上對(duì)其中的基于注意的解碼器進(jìn)行改進(jìn),使得解碼每個(gè)說(shuō)話(huà)人的基于注意的解碼器權(quán)值不共享,以減輕編碼器區(qū)分語(yǔ)音的負(fù)擔(dān)[108].
由上面的工作可見(jiàn),近期一批對(duì)雞尾酒會(huì)問(wèn)題建模的計(jì)算模型進(jìn)一步升級(jí),開(kāi)始同時(shí)考慮語(yǔ)音分離之后的智能化處理.語(yǔ)音分離只是朝向解決雞尾酒會(huì)問(wèn)題的第一步,如何協(xié)同后續(xù)的智能化處理以進(jìn)一步提升模型的性能,將成為今后該領(lǐng)域研究的一個(gè)研究熱點(diǎn).
圖6 Qian和Yu等提出的基于排列不變性訓(xùn)練方法的雙說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)[98,103]Fig.6 The structure of the proposed direct two-speaker speech recognition system with PIT by Qian and Yu et al.[98,103]
圖7 Seki等提出的雙說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)[100]Fig.7 The structure of the proposed end-to-end two-speaker speech recognition system by Seki et al.[100]
近年來(lái),隨著智能設(shè)備廣泛進(jìn)入日常生活的各個(gè)角落,處理復(fù)雜聽(tīng)覺(jué)環(huán)境下的雞尾酒會(huì)問(wèn)題變成了非常受關(guān)注的一個(gè)領(lǐng)域,在某種意義上成為了智能設(shè)備的關(guān)鍵入口和通道.受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,對(duì)雞尾酒會(huì)問(wèn)題建模的語(yǔ)音分離計(jì)算模型已從原來(lái)的基于規(guī)則,基于信號(hào)處理的方法逐漸變?yōu)榱藬?shù)據(jù)驅(qū)動(dòng)型的,基于深度學(xué)習(xí)的方法.近期還出現(xiàn)了一批工作,關(guān)注雞尾酒會(huì)問(wèn)題建模中的聽(tīng)覺(jué)機(jī)制建模和隨后的智能化處理.到目前為止,盡管各類(lèi)研究取得了一定的成果,但是離真正解決雞尾酒會(huì)問(wèn)題還相去甚遠(yuǎn).可以預(yù)見(jiàn),未來(lái)若干年,關(guān)于如何處理雞尾酒會(huì)問(wèn)題勢(shì)必仍然是非常受矚目的一個(gè)方向.本文回顧了聽(tīng)覺(jué)研究的相關(guān)機(jī)制和對(duì)雞尾酒會(huì)問(wèn)題建模的相關(guān)模型.我們認(rèn)為,針對(duì)雞尾酒會(huì)問(wèn)題的神經(jīng)學(xué)機(jī)制以及計(jì)算模型方面,目前還有一些非常值得探索的問(wèn)題和方向,主要包括:
1)聽(tīng)覺(jué)系統(tǒng)是一個(gè)高度非線(xiàn)性的系統(tǒng),神經(jīng)回路中神經(jīng)元之間的連接十分復(fù)雜,神經(jīng)元對(duì)刺激采用多種編碼方式,主要有頻率編碼,時(shí)間編碼和群體編碼這三種方式.聲音中富有豐富的時(shí)空結(jié)構(gòu),而聽(tīng)覺(jué)系統(tǒng)對(duì)這些時(shí)空結(jié)構(gòu)是高度敏感的.而在最近的基于深度學(xué)習(xí)的語(yǔ)音分離算法中,對(duì)語(yǔ)音的編碼方式較為單一,即神經(jīng)元只使用頻率編碼,可能不能充分挖掘利用語(yǔ)音中的時(shí)空結(jié)構(gòu).CASA中基于神經(jīng)網(wǎng)絡(luò)的模型采用的振蕩脈沖神經(jīng)網(wǎng)絡(luò)[52],而脈沖神經(jīng)網(wǎng)絡(luò)在時(shí)間編碼較有優(yōu)勢(shì).但是目前脈沖神經(jīng)網(wǎng)絡(luò)的性能與人工神經(jīng)網(wǎng)絡(luò)相比,存在較大差距.對(duì)語(yǔ)音時(shí)間編碼的研究是一個(gè)值得探討的問(wèn)題.
2)傳統(tǒng)計(jì)算模型對(duì)復(fù)雜聽(tīng)覺(jué)場(chǎng)景的建模能力較為有限,難以遷移到真實(shí)場(chǎng)景中.盡管近年來(lái)通過(guò)擴(kuò)大訓(xùn)練數(shù)據(jù)集覆蓋大多數(shù)聽(tīng)覺(jué)環(huán)境,運(yùn)用深度學(xué)習(xí),模型在真實(shí)場(chǎng)景下的語(yǔ)音分離表現(xiàn)大幅度提升,并且能夠在開(kāi)放數(shù)據(jù)集上取得不錯(cuò)的表現(xiàn),但相比人類(lèi)處理雞尾酒會(huì)問(wèn)題的表現(xiàn),依舊有一定差距.大多數(shù)模型都假定說(shuō)話(huà)人的數(shù)目固定,難以處理有不確定數(shù)目的說(shuō)話(huà)人的情況,比如DC[71?72]需要給定聚類(lèi)的個(gè)數(shù)才能工作.雖然TDAA模型[96]通過(guò)結(jié)合迭代的自下而上推斷過(guò)程和自上而下的注意過(guò)程,令模型能夠處理可變數(shù)目的說(shuō)話(huà)人,但該模型的表現(xiàn)大大受到自下而上推斷過(guò)程得到的候選結(jié)果,而其在開(kāi)放數(shù)據(jù)集上的表現(xiàn)依然遜色于封閉數(shù)據(jù)集.
3)僅僅用聽(tīng)覺(jué)模態(tài)的信息,難以區(qū)分相類(lèi)似的聲音,比如同性別說(shuō)話(huà)人的聲音.近幾年,基于多感知整合的理論,計(jì)算模型開(kāi)始將視覺(jué)信息整合到語(yǔ)音分離當(dāng)中,一定程度上解決處理類(lèi)似聲音的問(wèn)題.利用聽(tīng)覺(jué)信息和視覺(jué)信息時(shí)間上的高度相關(guān)性,可以進(jìn)行自監(jiān)督學(xué)習(xí),從而無(wú)需標(biāo)記數(shù)據(jù)[88].盡管關(guān)于多感知整合發(fā)生在哪個(gè)階段尚未有定論,但是跨模態(tài)注意和多感知整合在大腦的某些處理層次中確實(shí)存在[22].目前已有工作從聽(tīng)覺(jué)注意出發(fā),對(duì)雞尾酒會(huì)問(wèn)題進(jìn)行計(jì)算建模,比如ASAM[95],TDAA[96],但是尚未有工作從視聽(tīng)覺(jué)多通道注意的角度對(duì)雞尾酒會(huì)問(wèn)題進(jìn)行建模.
4)值得注意的是,ASAM還在建模中引入了長(zhǎng)期記憶的機(jī)制,但是目前其長(zhǎng)期記憶的每個(gè)單元可能過(guò)于簡(jiǎn)化.另外,視聽(tīng)覺(jué)注意的觸發(fā)時(shí)機(jī)問(wèn)題,也值得關(guān)注.如何對(duì)視聽(tīng)覺(jué)注意與跨模態(tài)進(jìn)行計(jì)算建模,并將得到的時(shí)序模式根據(jù)一定的規(guī)則轉(zhuǎn)存為長(zhǎng)期記憶作為先驗(yàn)知識(shí)加以利用,使得語(yǔ)音分離更有效率,是未來(lái)值得探索的方向.
5)語(yǔ)音分離之后的智能化處理.近期多說(shuō)話(huà)人語(yǔ)音識(shí)別計(jì)算模型的工作開(kāi)始同時(shí)考慮語(yǔ)音分離之后的智能化處理[98,100?108].語(yǔ)音分離雖然十分關(guān)鍵,但只是朝向解決雞尾酒會(huì)問(wèn)題的第一步,如何協(xié)同后續(xù)的智能化處理,是今后解決雞尾酒會(huì)問(wèn)題一個(gè)值得研究的關(guān)鍵點(diǎn).
6)如何將預(yù)測(cè)加工融入到聽(tīng)覺(jué)計(jì)算模型中.前面在第1節(jié)也提到,大腦是一個(gè)具有預(yù)測(cè)能力的層次化結(jié)構(gòu),在處理復(fù)雜聽(tīng)覺(jué)場(chǎng)景時(shí),總是試圖預(yù)測(cè)接下來(lái)要到來(lái)的聲音,而且預(yù)測(cè)加工機(jī)制的存在使得人大腦的聽(tīng)覺(jué)中樞能夠根據(jù)上下文實(shí)時(shí)補(bǔ)充和恢復(fù)單詞中缺失的音素或音節(jié).但是現(xiàn)在幾乎沒(méi)有計(jì)算模型從這方面入手進(jìn)行建模.如果計(jì)算模型能夠?qū)崟r(shí)補(bǔ)全言語(yǔ)中被噪聲掩蓋的音素或音節(jié)而形成在語(yǔ)義上符合上下文內(nèi)容的單詞,這勢(shì)必是邁向雞尾酒會(huì)問(wèn)題計(jì)算建模解決方案的一大步.
綜上所述,我們認(rèn)為要解決復(fù)雜聽(tīng)覺(jué)場(chǎng)景下的雞尾酒會(huì)問(wèn)題,需要將計(jì)算模型和聽(tīng)覺(jué)研究中的一些相關(guān)機(jī)制深度結(jié)合起來(lái).聽(tīng)覺(jué)系統(tǒng)對(duì)刺激的編碼策略,聽(tīng)覺(jué)感知中的預(yù)測(cè)特性,視聽(tīng)覺(jué)注意的整合和觸發(fā)時(shí)機(jī)等等聽(tīng)覺(jué)和認(rèn)知心理學(xué)研究中得到的一些基本成果,應(yīng)該如何借鑒到計(jì)算模型的建模中,可能會(huì)成為解決雞尾酒會(huì)問(wèn)題的新的突破口.