楊小虎 程 錦 朱蒼璐
(1.安徽醫(yī)學高等??茖W校公共基礎(chǔ)學院;2.安徽三聯(lián)學院計算機工程學院 安徽合肥 230601)
零資源語音處理領(lǐng)域的發(fā)展旨在開發(fā)無監(jiān)督的方法,在轉(zhuǎn)錄、詞匯和語言建模文本不可用的情況下,可以直接從原始語音音頻中學習。這些方法對于在轉(zhuǎn)錄數(shù)據(jù)難以收集的語言中提供語音技術(shù)是至關(guān)重要的,例如,一些不成文或瀕危的語言[1]。此外,這些方法的發(fā)展可能會揭示人類是如何進行語言的學習[2,3]?,F(xiàn)有的幾個零資源學習任務主要包括聲學單元發(fā)現(xiàn)[4-6],無監(jiān)督表示學習[7-9],示例查詢搜索[10,11]和主題建模[12,13]。早期的工作主要集中在無監(jiān)督的術(shù)語發(fā)現(xiàn)上,目標是在一組語音中自動找到重復的單詞或短語模式[14-16]。雖然有用,但發(fā)現(xiàn)的模式通常是分散在數(shù)據(jù)上的孤立片段,留下許多語音作為背景。這促使了一些關(guān)于全覆蓋方法的研究,其中整個語音輸入被分割并聚集成類似單詞的單元[17-21]。兩種典型應用在零資源語音挑戰(zhàn)中賽上的全覆蓋系統(tǒng)提供了一個有用的對比基準:1、貝葉斯嵌入的分段高斯混合模型[22]:一種概率模型,它將潛在的詞段表示為固定維的聲學詞嵌入,然后在這個嵌入空間中構(gòu)建一個全詞聲學模型,同時共同進行分割。2、循環(huán)音節(jié)單元分割器[23]:這是一種認知驅(qū)動的快速啟發(fā)式方法,它應用無監(jiān)督音節(jié)分段和聚類,然后預測作為單詞的循環(huán)音節(jié)序列。這兩個模型代表了零資源系統(tǒng)中常見的兩個方法論極端,即要么使用具有收斂保證的概率貝葉斯模型[6,19],要么在管線方法中使用啟發(fā)式技術(shù)[18]。
針對該問題,本文提出了一個介于這兩個極端之間的高斯混合模型近似,即嵌入式分段K-Means模型,使用硬聚類和分段,而不是完全基于貝葉斯的推理過程。然而,與啟發(fā)式方法不同的是,它有一個明確的目標函數(shù)。與貝葉斯嵌入分段的高斯混合模型相比,由于不需要概率抽樣,因此嵌入式分段K-Means方法超參數(shù)少,優(yōu)化算法簡單,效率更高。從監(jiān)督語音識別發(fā)展以來,就一直使用硬近似法進行概率建模,因此本文也遵循使用這種方法。然而,所有這些研究都將其應用到逐幀建模方法中,而本文的方法是對整個語音片段的嵌入式表示進行操作。人們越來越關(guān)注這種聲學單詞嵌入方法[11],因為它們使得在固定維度空間中容易且有效地比較可變長度的語音片段成為可能。本文分析了相對于原始的貝葉斯嵌入分段高斯混合模型等方法,嵌入式分段KMeans方法的硬近似是如何影響速度和精度的。在英語和聰加語數(shù)據(jù)上,我們表明嵌入式分段K-Means在分詞方面優(yōu)于循環(huán)音節(jié)單位分割器,并給出與貝葉斯嵌入分段高斯混合模型相似的分數(shù),同時速度快5倍。然而,嵌入式分段K-Means的聚類純度落后于其他兩種模型,貝葉斯嵌入分段高斯混合模型的高純度是因為它傾向于產(chǎn)生更小的聚類,這種聚類不同于嵌入式分段K-Means,也可以使用超參數(shù)來改變。
從標準的K-Means方法出發(fā),本節(jié)描述了嵌入式分段K-Means算法的優(yōu)化目標和具體算法實現(xiàn)。
(一)從K-Means到嵌入式分段K-Means目標函數(shù)。給定一個由聲學幀組成的語音y1:m=y1,y2,…,yM(例如MFCC),我們的目標是將序列分解成類似單詞的片段,并將這些片段聚類成假設(shè)的單詞類型。如果已知分段(即在單詞邊界出現(xiàn)的地方),數(shù)據(jù)將由幾個不同持續(xù)時間的段組成,如圖1的底部所示。為了對這些數(shù)據(jù)進行聚類,我們需要一種方法來比較可變長度的向量序列。一種選擇是使用基于對準的距離測量,例如動態(tài)時間扭曲。這里我們采用聲學單詞嵌入方法[11]:嵌入函數(shù)fe用于將可變長度的語音段映射到固定維度空間中的單個嵌入向量x∈RD,即將段yt1:t2映射到一個向量xi=fe(yt1:t2),用水平向量表示。其基于的思想和假設(shè)是,聲學上相似的語音片段應該在RD中緊密地放在一起,允許片段在嵌入空間中直接有效地比較,而無需先進行對齊。目前已經(jīng)存在各種各樣的嵌入方法,從基于圖的方法到無監(jiān)督的遞歸神經(jīng)方法。我們對每個片段進行均勻的下采樣,使其成為相同固定數(shù)量的向量表示,然后對其進行展開,以獲得嵌入的特征向量。嵌入式分段K-Means對嵌入的方法是不可知的,所以后續(xù)可以直接合并對嵌入的改進。
將數(shù)據(jù)集中所有的片段進行嵌入會得到一組向量,可以使用K-Means將其聚類成K個假設(shè)的詞類,如圖1頂部所示。標準的K-Means方法旨在最小化每個聚類均值的平方歐幾里德距離之和。在將向量重新分配給最接近的聚類均值,然后更新均值,并反復交替迭代。
如果分段是已知的,則常規(guī)的K-Means方法是比較合適的,但在零資源設(shè)置中則相反,嵌入X可以根據(jù)當前的分段而變化。對于一個話語的數(shù)據(jù)集S,我們把分段表示為Q={qi}Si=1,其中qi表示話語i的邊界。X(Q)用于表示當前分段下的嵌入。我們的目標是聯(lián)合優(yōu)化聚類分配z和分段Q。
其中Xc∩X(Q)是分段Q下分配給聚類c的嵌入。但這是有問題的,我們不是為每個片段指定一個分數(shù),而是為每個幀指定一個分數(shù)。該分數(shù)由該幀所屬的片段獲得的分數(shù)統(tǒng)一給出,這意味著片段分數(shù)由持續(xù)時間的加權(quán)獲得:
其中l(wèi)en(x)是序列中用于計算嵌入x的幀數(shù)。
整個嵌入式分段K-Means算法隨機初始化單詞的邊界,然后通過在保持聚類分配z和均值{μc}Kc=1固定的同時利用公式1來交替優(yōu)化分段Q (圖1中從上到下所示),然后在保持分段固定的情況下優(yōu)化聚類分配和均值(圖中從下到上)。
圖1 用于語音無監(jiān)督分段和聚類的嵌入式分段K-Means模型
(二)分段。在固定的聚類z的情況下,目標(1)變?yōu)椋?/p>
公式2可以針對每個話語分別進行優(yōu)化。我們希望找到每個話語的分段q,并給出該分段下的嵌入分數(shù)總和的最小值。這正是最短路徑算法(Viterbi)使用動態(tài)規(guī)劃來解決的問題。
假設(shè)qt是在假設(shè)的以幀t結(jié)束的分段(詞)中的幀數(shù):如果qt=j,那么yt-j+1:t是一個詞。我們將前向變量γ[t]定義為直到邊界位置的最優(yōu)得分,其中q:t是直到t的分段決策序列。可以通過如下公式進行遞歸計算:
具體來說,從γ[0]=0開始,我們對1≤t≤M-1分別遞歸計算公式3。我們跟蹤每個γ[t]的最佳選擇,然后通過從最終位置t=M開始并向后移動,重復選擇最佳邊界來給出整體最佳分段。
(三)聚類分配和均值更新。對于固定的分段Q,目標(1)變?yōu)椋?/p>
最后,我們修正分配的聚類中心z并更新其均值:
公式6是分配給聚類c中所有向量的平均值,由持續(xù)時間進行加權(quán),保證公式1的正向優(yōu)化。我們使用近似值,即如果所有分段具有相同的持續(xù)時間,該近似值也是準確的,以再次進行K-Means方法的匹配過程,Nc是當前分配給聚類c的嵌入數(shù)量。
(四)貝葉斯嵌入分段高斯混合模型。貝葉斯高斯混合模型將其混合權(quán)重π和分量均值作為隨機變量,而不是點估計,就像常規(guī)高斯混合模型的做法一樣。我們使用共軛先驗:π上的狄利克雷先驗和μc上的球協(xié)方差高斯先驗。所有分量共享相同的固定協(xié)方差矩陣σ2I。模型定義為:
在這個模型下,組件分配和分段可以使用折疊吉布斯采樣器進行聯(lián)合推斷。然而,對于貝葉斯嵌入分段高斯混合模型,組件分配和分段是遵循的概率抽樣。當方差接近零時,標準的K-Means由高斯混合模型產(chǎn)生。以類似的方式,可以證明貝葉斯嵌入高斯混合模型方法中的分段和分量分配過程分別和(3)和(5)步驟相似,當所有其他超參數(shù)都固定時,σ2趨近0。
本文分別進行兩組實驗。首先,我們在零資源語音挑戰(zhàn)賽2015的數(shù)據(jù)上比較嵌入式分段K-Means與循環(huán)音節(jié)單元分割器以及貝葉斯嵌入分段高斯混合模型。后兩個方法都曾應用于該較小的語料庫,是用于方法比較分析的理想選擇。
(一)實驗設(shè)置和評估。正如在[20,22]中一樣,我們使用幾個指標來進行方法評估。通過將每個發(fā)現(xiàn)的單詞標記映射到與其重疊最多的真實標記,然后將每個聚類映射到其最常見的單詞,可以計算平均聚類純度和無監(jiān)督單詞錯誤率(WER)。相反,通過將每個標記映射到與其重疊最多的真實音素序列,可以計算同一聚類中所有片段之間的歸一化編輯距離(NED);NED越低越好,分數(shù)從0到1。而詞邊界精度、召回率和F-score通過比較提出的和真實的詞邊界來評估切分性能;同樣,單詞標記精度、召回率和F-score衡量提出的單詞標記間隔的準確性。單詞類型精度、召回率和F-score將唯一音素映射的集合與真實詞典中的集合進行比較。在該數(shù)據(jù)集中不考慮聚類(簇)純度和WER指標,因此對于某些方法并沒有報告這些指標。
本文嵌入分段K-Means方法的實現(xiàn)盡可能遵循[22]中的貝葉斯嵌入分段高斯混合模型的實現(xiàn)。兩者都使用均勻下采樣作為嵌入函數(shù)fe:一個段由10個等間距的MFCCs通過適當?shù)牟逯祦肀硎尽煞N模型都使用無監(jiān)督音節(jié)預切分[23]來限制單詞邊界。對于貝葉斯嵌入分段高斯混合模型,我們使用模擬退火,一個全零矢量的和σ2=0.001。
(二)與其他方法的比較和分析。在第一組實驗中,我們使用了兩個數(shù)據(jù)集:一個是來自12個說話者的大約5個小時的英語語料庫,一個是來自24個說話者的2.5個小時的聰加語料庫。我們還使用一套單獨的6小時英語語料庫進行開發(fā)。為了與以前方法的結(jié)果[22,23]進行比較,這里的所有系統(tǒng)都應用于與說話者相關(guān)的設(shè)置,并且結(jié)果在不同說話者之間進行平均。如[22]中所述,對于嵌入式分段KMeans和貝葉斯嵌入式分段高斯混合模型,K被設(shè)置為首過分段音節(jié)數(shù)的20%。候選單詞最多只能跨越6個音節(jié),并且持續(xù)時間必須至少為200毫秒。
表1顯示了三種模型在英語和聰加語料庫上的表現(xiàn)。循環(huán)音節(jié)單元分割器的一些分數(shù)是未知的,因為這些分數(shù)不是該挑戰(zhàn)賽中評估的一部分[23]。與貝葉斯嵌入分段高斯混合模型相比,嵌入分段KMeans的純度、WER以及NED指標更差,但邊界、標記和F-score相似。這帶來了5倍的運行時間提升。同時,其NED指標也比循環(huán)音節(jié)單元分割器差,但單詞邊界、標記和F-score要好得多,然而循環(huán)音節(jié)單元分割器的速度是它的兩倍。
表1 模型在兩個測試語料庫上的表現(xiàn)
因此,在分詞分數(shù)(邊界分數(shù)、標記分數(shù))和詞匯質(zhì)量(類型分數(shù))方面,嵌入分段K-Means是有競爭力的,但在基于純度的度量標準(純度、WER、NED)方面落后。與貝葉斯嵌入分段高斯混合模型的區(qū)別特別有趣,因為σ2被設(shè)置得相當小,而嵌入分段K-Means是在σ2趨于0的限制下從貝葉斯嵌入分段高斯混合模型得到的結(jié)果。為了理解純度上的差異,我們在一個英語說話者身上分析對比了這兩種方法。
圖2顯示了兩種模型的5個最大聚類(簇)。與嵌入分段K-Means相比,貝葉斯嵌入分段高斯混合模型輸出更多更小的具有更高純度的團簇(通常在不同的團簇上分離相同的詞)。通過觀察嵌入分段K-Means分配給同一個聚類的標記,發(fā)現(xiàn)盡管標記與不同的真實標簽重疊,聚類分配在質(zhì)量上是可感知的。例如圖3顯示了分配給圖2中“be”簇標記的光譜圖,也顯示了具有最大重疊的真實單詞標簽。對于“seventy”和“already”標記,這些段只覆蓋了一部分真實單詞(粗體),而“that you”標記實際上在上下文中發(fā)音為[dh uw]。因此,盡管映射到不同的真實標簽,這些片段形成一個合理的聲學組。
圖2 嵌入分段K-Means和貝葉斯嵌入分段高斯混合模型的最大5個簇(聚類)(圓半徑根據(jù)簇的大?。魂幱氨硎炯兌?。還顯示了聚類到真實單詞的映射)
圖3 圖2中映射為“be”的嵌入分段K-Means群的隨機標記的光譜圖。每個真實單詞中被該段覆蓋的部分以粗體顯示
通過將發(fā)現(xiàn)的令牌更均勻地分布在聚類上(圖2),貝葉斯嵌入分段高斯混合模型產(chǎn)生了一個聚類,可以更好地匹配評價指標,雖然嵌入分段K-Means的聚類可能主觀上是更加合理的。貝葉斯嵌入分段高斯混合模型的這種擴展(或稀疏性)可以通過固定的球形協(xié)方差參數(shù)σ2來控制,該參數(shù)影響嵌入到聚類的軟分配和分段。表2顯示了σ2變化時開發(fā)集上的性能。當σ2太大時,大部分標記被大量的大無關(guān)簇吸上來;當σ2較小時,更多的標記被分配給單獨的簇。相比之下,嵌入分段K-Means方法沒有σ2參數(shù),只考慮單個最接近的聚類。
表2 隨著方差的變化,在英語開發(fā)集上的表現(xiàn)(%)
本文提出了一種嵌入式分段K-Means模型,這是一種介于完全貝葉斯嵌入分段高斯混合模型和認知驅(qū)動啟發(fā)式方法之間的方法。其分詞性能與貝葉斯嵌入式分段高斯混合模型不相上下,優(yōu)于循環(huán)音節(jié)單位分割器,但聚類純度比其他兩種方法都差。就效率而言,它比貝葉斯嵌入式分段高斯混合模型快5倍,但只有循環(huán)音節(jié)單位分割器的一半。盡管使用了硬聚類和分段,嵌入式分段K-Means仍然有一個明確的目標函數(shù),保證了到局部最優(yōu)解的收斂。由于其效率的顯著提高,我們還能夠?qū)⑶度胧椒侄蜬-Means應用于更大的語料庫,并展現(xiàn)出更好的性能。