亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語音識別與特征的無監(jiān)督語音模式提取

2014-08-05 04:28:34趙慶衛(wèi)顏永紅

計算機(jī)工程 2014年5期

關(guān)鍵詞：特征檢測系統(tǒng)

張震，趙慶衛(wèi)，顏永紅

(中國科學(xué)院語言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室，北京 100 190)

基于語音識別與特征的無監(jiān)督語音模式提取

張震，趙慶衛(wèi)，顏永紅

(中國科學(xué)院語言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室，北京 100 190)

在語音識別與特征系統(tǒng)中，通過無監(jiān)督的方法搜索未知語音流中出現(xiàn)的語言模式。利用語音識別系統(tǒng)的多候選結(jié)果，通過分段動態(tài)時間彎曲算法進(jìn)行語言模式的搜索，采用有效的聚類算法以及置信度估計算法，提高系統(tǒng)性能，同時建立僅基于特征匹配的相似音頻片段檢測系統(tǒng)，不使用任何知識源，僅從語音中獲取重復(fù)的語音模式，在廣播電視新聞與自然口語對話2個測試集上對比2個系統(tǒng)的性能。實(shí)驗(yàn)結(jié)果表明，基于識別的系統(tǒng)具有較好的檢測效果，而基于特征的系統(tǒng)具備多語種的推廣性。

語音識別；語音模式發(fā)現(xiàn)；分段動態(tài)時間彎曲算法；圖聚類算法；音素回環(huán)后驗(yàn)概率計算

1 概述

隨著多媒體互聯(lián)網(wǎng)的發(fā)展，出現(xiàn)越來越多的多媒體數(shù)據(jù)。之前網(wǎng)絡(luò)傳輸成本、存儲成本都相對高昂，人們更喜歡使用文本形式進(jìn)行信息的存儲，而隨著信息科技的不斷發(fā)展，網(wǎng)絡(luò)傳輸速度的飛速提高，存儲的成本越來越低廉，可以大量存儲多媒體信息，如語音、視頻錄像等。目前如何有效地處理這些數(shù)據(jù)成為了一個研究熱點(diǎn)，許多研究單位和機(jī)構(gòu)致力于有效地進(jìn)行信息利用。因?yàn)槎嗝襟w數(shù)據(jù)的信息存儲于圖像、聲音中，無法直接利用這些信息，需要一些技術(shù)對信息進(jìn)行相關(guān)處理，在圖像上有圖像識別等關(guān)鍵技術(shù)，而語音上則依賴于語音識別的相關(guān)技術(shù)，比如語音轉(zhuǎn)文本技術(shù)[1]、語音識別關(guān)鍵詞技術(shù)[2]。而某些場景需要在兩段音頻中挖掘出一些有效信息，并不像進(jìn)行關(guān)鍵詞搜索一樣，有預(yù)先定義的關(guān)鍵詞列表，在語音中搜索對應(yīng)的關(guān)鍵詞結(jié)果。所以需要一些新的方式進(jìn)行語音流中相似信息的檢出，這種無監(jiān)督的方法對于語音的利用提供了很多方便[3]，比如對海量數(shù)據(jù)進(jìn)行無監(jiān)督聚類，對于刑偵案件上，需要提取出發(fā)音相同或者相近的片段進(jìn)行比對，以作為案件偵破的證據(jù)。

本文工作的出發(fā)點(diǎn)是在未知信息的語音流中，用語音流檢索語音流的方式進(jìn)行語音信息無監(jiān)督的發(fā)掘，找到語音流中重復(fù)的短語語義實(shí)體等[4]。文中構(gòu)建了2套系統(tǒng)，分別為基于語音識別的相似音頻片段檢測系統(tǒng)與基于特征匹配的相似音頻片段檢測系統(tǒng)?；谧R別的系統(tǒng)具有檢出率高、精度高的特點(diǎn)，而基于特征的檢測系統(tǒng)構(gòu)建簡單，并且不需要積累大量的知識源，可以用于多語種音頻模式的檢測。

2 任務(wù)背景以及相關(guān)工作

在過去幾十年中，在自動語音識別領(lǐng)域，研究者在大詞表連續(xù)語音識別領(lǐng)域做出了巨大努力，同時獲得了很好的技術(shù)進(jìn)步[1]。不過對于大多數(shù)應(yīng)用場景，技術(shù)架構(gòu)思路基本相同，那就是將語音送入到語音識別器，將語音轉(zhuǎn)換為文本，然后在文本層面上搜索需要的語義實(shí)體，但是這些都是在預(yù)先定義的一系列詞語框架內(nèi)。然而，人類和機(jī)器的學(xué)習(xí)方式具有本質(zhì)的區(qū)別，機(jī)器學(xué)習(xí)中對語音的處理是將語音從頻譜域映射到狀態(tài)域，然后在狀態(tài)域中結(jié)合了預(yù)先定義的知識源，如發(fā)音詞典、語言模型等，將語音轉(zhuǎn)換為預(yù)先定義的詞典中的單元序列。關(guān)心的是如何在無監(jiān)督的輸入下從語音本身去發(fā)掘一些信息[4]。

2.1 模式發(fā)現(xiàn)

模式發(fā)現(xiàn)在各個領(lǐng)域都有一定的應(yīng)用，從計算生物學(xué)到音樂分析再到多媒體總結(jié)，這些領(lǐng)域存在共通點(diǎn)是需要利用模式發(fā)現(xiàn)的原則對數(shù)據(jù)進(jìn)行梳理，在計算生物學(xué)上[5]，在模式發(fā)現(xiàn)上研究動機(jī)是尋找生物序列中顯著基本圖樣。

2.2 無監(jiān)督語言獲取

這個領(lǐng)域的工作和本文的內(nèi)容比較接近，其研究重點(diǎn)都是關(guān)心如何在發(fā)音層面無監(jiān)督地獲得語言的信息。近來，一些研究者提出了機(jī)器利用多關(guān)聯(lián)輸入進(jìn)行發(fā)音獲取的模型。有些研究者利用回溯神經(jīng)網(wǎng)的長記憶結(jié)構(gòu)將分段的語音轉(zhuǎn)化為音素的后驗(yàn)概率，在后驗(yàn)概率上進(jìn)行匹配，獲得一些發(fā)音結(jié)構(gòu)[6]。文獻(xiàn)[7]提出了基于模型的詞庫感應(yīng)方法。這種方法迭代地更新模型的參數(shù)來最小化輸入語音與模型之間的描述長度。以及基于模型的動態(tài)規(guī)劃算法對語音進(jìn)行分段來獲得詞語實(shí)體獲取。

3 基于識別的相似音頻片段檢測系統(tǒng)

3.1 系統(tǒng)架構(gòu)

首先將語音信號進(jìn)行分段處理，將分段之后的語音送入到語音識別器中進(jìn)行識別，生成中間結(jié)果(多候選結(jié)果)。將識別中間結(jié)果送入到語音片段檢測模塊得到匹配的結(jié)果信息，之后將這些結(jié)果按照一定準(zhǔn)則進(jìn)行聚類[8]，得到聚類的不同類別，這些類的結(jié)果被送入到置信度重估模塊[9]，對置信度得分進(jìn)行重估，得到最終的搜索結(jié)果。系統(tǒng)結(jié)構(gòu)如圖1所示。

圖1 基于語音識別的檢測系統(tǒng)架構(gòu)

3.2 模式發(fā)現(xiàn)算法

基于識別的相似音頻片段檢測系統(tǒng)的核心部分是在識別生成的中間結(jié)果上進(jìn)行相似片段的檢索，尋找序列中的匹配符號串采用動態(tài)時間彎曲算法是比較常見的方法[10]。但是傳統(tǒng)的動態(tài)時間彎曲算法是針對整段的符號序列進(jìn)行對齊，尋找最優(yōu)序列，而對于整段語音流的輸入來尋找最優(yōu)對齊序列的問題，傳統(tǒng)的動態(tài)時間彎曲就有其局限性，因?yàn)殡y以確定在語音流中什么位置才是真正的匹配最優(yōu)序列的起始位置，需要對動態(tài)時間彎曲算法進(jìn)行一定的改進(jìn)以適應(yīng)在整段語音流中檢測出能夠匹配的語音模式的要求，所以采用改進(jìn)的分段動態(tài)時間彎曲算法作為主要手段來搜索語音流。

3.2.1 分段動態(tài)時間彎曲算法

改進(jìn)動態(tài)時間彎曲算法，建立全局的約束條件來限制對齊算法可以進(jìn)行的區(qū)域形狀；通過對同一對進(jìn)行對比的序列設(shè)定多個對齊的起點(diǎn)和終點(diǎn)獲得多個對齊路徑，然后進(jìn)行失配函數(shù)的計算。

如圖2所示，所有的對齊區(qū)域都限定在一定范圍內(nèi)，假定現(xiàn)在有2個符號序列X和Y，分別表示為X={x1, x2,…,xNx}與Y={y1,y2,…,yNy}。設(shè)定一個對齊寬度的方法保證了2個序列在進(jìn)行對比時，其中一個不會在序列長度上超出另外一個序列很多。這里設(shè)定了一個準(zhǔn)則。

圖2 分段動態(tài)時間彎曲算法示意圖

對于一個對齊路徑起始于{i1,j1}經(jīng)過了k步對齊到達(dá)的狀態(tài)pk={ik,jk}必須滿足下列條件：

這就限制了在局部進(jìn)行對齊尋找最優(yōu)路徑的區(qū)域限制在寬度為2R+1的對角線區(qū)域內(nèi)，幾個對齊區(qū)域設(shè)定的R=1，而由于存在對齊區(qū)域的限制，局部對齊的路徑很可能無法達(dá)到{Nx,Ny}，這樣只有每個序列的部分可以匹配。

3.2.2 詞語實(shí)體的搜索匹配

因?yàn)槟壳白R別器性能受語音質(zhì)量、環(huán)境噪音等影響比較大，識別首選的識別率有限，只使用識別的首選結(jié)果，將會對語音的搜索結(jié)果造成一定影響，所以考慮采用語音識別器生成的多候選結(jié)果進(jìn)行詞語實(shí)體的搜索。在語音識別器常用的多候選結(jié)構(gòu)中，詞圖與混淆網(wǎng)絡(luò)是比較常用的，因?yàn)樵~圖是一個嚴(yán)格的有向無環(huán)圖的結(jié)構(gòu)，而分段動態(tài)時間彎曲算法需要輸入的序列是線性結(jié)構(gòu)，這里采用混淆網(wǎng)絡(luò)作為進(jìn)行搜索的多候選結(jié)構(gòu)，一個典型的混淆網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

表1 一個典型的混淆網(wǎng)絡(luò)線性結(jié)構(gòu)

混淆網(wǎng)絡(luò)中的每個元素都同樣可以表示為三元組：xi={phi, p( phi),pos( phi)}。其中，phi是發(fā)音單元在語音識別器的發(fā)音詞典的代表符號；p( phi)為該識別單元的置信度分?jǐn)?shù)；pos( phi)為該識別單元在識別出的句子中的位置，識別單元的置信度采用詞圖置信度進(jìn)行估計。

而混淆網(wǎng)絡(luò)中的每個聚類可以將其考慮為一個結(jié)果向量：X={(w1, c1),(w2, c2),…,(wn, cn)}。其中，wi表示一個聚類中第個詞的詞id；ci表示該詞的置信度。

而對于混淆網(wǎng)絡(luò)的匹配得分計算公式為：

其中，X與Y分別為對比的2個結(jié)果向量；?(X, Y)為規(guī)整因子，計算得到的得分處于同樣的動態(tài)范圍內(nèi)可以比較。

3.3 聚類算法

將語音中的不同片段視為結(jié)點(diǎn)，而語音片段之間的相似關(guān)系作為連接2個結(jié)點(diǎn)的邊，可以將語音中的不同片段映射為鄰接圖，如圖3所示。圖中連接的邊為一個聚類中2個結(jié)點(diǎn)的相似性得分，采用一種自上而下的聚類方法[11]，先將每一個結(jié)點(diǎn)視為獨(dú)自一個分類，然后通過逐漸將連接關(guān)系加回到鄰接圖內(nèi)，使得結(jié)構(gòu)化得分最大，這是一種在社交網(wǎng)絡(luò)中尋找社團(tuán)實(shí)體的聚類算法，和研究的目標(biāo)類似。

圖3 語音片段轉(zhuǎn)換為鄰接圖的示意圖

3.4 進(jìn)一步的置信度估計方法

在尋找到合適的聚類模式之后，為了提高系統(tǒng)的性能，采用基于音素回環(huán)的音素后驗(yàn)概率[12]作為置信度計算，計算公式為：

其中，ps為搜索到的結(jié)果中包含的音素序列，共有Nt個音素；tsi與tei分別為音素的起止時間；P( phti|Ot

t seii

)為音素的聲學(xué)后驗(yàn)概率，通過三音子保持上下文而中間音素進(jìn)行回環(huán)計算得到。

4 基于特征匹配的相似音頻片段檢測系統(tǒng)

基于識別的相似音頻片段檢測系統(tǒng)需要大量的數(shù)據(jù)訓(xùn)練知識源，知識源的積累是一個長期的過程，數(shù)據(jù)需要人工進(jìn)行標(biāo)注，這無形中又是一筆巨大的投入。而且對于語料豐富的語種來說，比如漢語、英語，可以有資源進(jìn)行語料積累，但是對于比較小的語種，語料的積累是很難實(shí)現(xiàn)的，所以希望能利用本身來搜索語音中的信息。

4.1 系統(tǒng)架構(gòu)

基于特征匹配的系統(tǒng)架構(gòu)因?yàn)闆]有使用語音識別器，所以架構(gòu)相對簡單，輸入的語音經(jīng)過分段模塊分成小段的語音，根據(jù)特征提取模塊，直接用3.2節(jié)描述的算法進(jìn)行匹配搜索，然后進(jìn)行結(jié)果聚類。系統(tǒng)架構(gòu)如圖4所示。

圖4 基于特征的相似音頻片段檢測系統(tǒng)架構(gòu)

4.2 相似度計算

在基于特征的相似音頻檢測系統(tǒng)上，相似度的計算，直接通過計算特征域的歐幾里得距離加權(quán)得到。現(xiàn)有X= {x1,x2,…,xNx}為一段語音的特征序列，Y={y1,y2,…, yNy}為與X匹配的語音特征序列，存在著一組映射關(guān)系：

則X與Y的相似度計算公式為：

其中，d(x, y)代表了向量x與向量y的歐幾里得距離。

5 實(shí)驗(yàn)與分析

5.1 實(shí)驗(yàn)設(shè)置

在2個測試集上進(jìn)行了實(shí)驗(yàn)，一個測試集為廣播新聞的測試集，時長為2 h，說話人使用語言均為標(biāo)準(zhǔn)普通話，語速均勻，背景噪音比較小。在廣播新聞的測試集上一共有197個聚類，也就是發(fā)音相同或者相似的詞語實(shí)體，另外一個測試集自然電話口語對話的測試集時長為1.5 h，說話人帶有一定口音和感情色彩，具有一定的背景噪音，在自然口語對話的測試集上一共有136個聚類。

在系統(tǒng)上選用的分段模塊為基于能量檢測的分段模塊，將輸入的語音流按照能量比切分為小段的語音，語音識別器采用的是中科信利基于樹拷貝的單邊解碼器[13]，聲學(xué)模型使用400 h數(shù)據(jù)進(jìn)行訓(xùn)練，采用的特征為39維的PLP特征(13維基維特征做二階差分)，發(fā)音詞典采用了包含44 92 0個中文詞組的中文詞典，語言模型的階數(shù)為三階，語言模型的訓(xùn)練預(yù)料為6 GB的文本。在語音識別器解碼的參數(shù)設(shè)置方面，集束搜索寬度設(shè)置為120，相當(dāng)于1.5倍實(shí)時(xRT)的解碼速度。在進(jìn)行分段動態(tài)時間彎曲匹配搜索時，對角線區(qū)域的限制參數(shù)R=2，表明在進(jìn)行動態(tài)時間彎曲匹配的時候，允許2個音素的匹配錯位。

在使用特征匹配的系統(tǒng)上，設(shè)置了R=10，代表在進(jìn)行分段動態(tài)時間彎曲的時候，允許10幀的匹配錯位。

本文采用的指標(biāo)為純度，其計算為每個聚類精度的均值，計算公式如下：

另外還采用了召回率作為指標(biāo)，表示召回的詞語數(shù)與語音流中的匹配詞語實(shí)體總數(shù)的比值。

5.2 結(jié)果分析

在廣播電視測試集上用基于語音識別的系統(tǒng)進(jìn)行檢測，性能如表2所示。

表2 系統(tǒng)在廣播電視測試集上的性能

從表2中可以看到，在語音質(zhì)量比較好的語音上，純度和召回率的表現(xiàn)都比較令人滿意，使用聲學(xué)置信度進(jìn)行置信度的重估之后，會使純度指標(biāo)大幅上升，但是會對召回率有一定的影響。在自然電話口語對話測試集上的性能如表3所示。

表3 系統(tǒng)在自然口語對話測試集上的性能

從表3中可以看到，由于自然電話口語對話測試語音質(zhì)量相對較差，最后得到的純度和召回率都和在廣播新聞電視測試集上的性能有一定差距，同時聲學(xué)置信度對于性能的影響與廣播新聞電視測試集是一致的。

測試了2個測試集在基于特征的相似音頻片段檢測系統(tǒng)的性能，如表4所示。

表4 系統(tǒng)在2個測試集上的性能表現(xiàn)

由表4可以觀察到，在少了知識源的加入，只依靠特征本身從語音中去尋找語音模式是比較困難的，性能與基于識別的系統(tǒng)存在較大的差距，但是因?yàn)榇讼到y(tǒng)簡單，依賴的資源少，可以進(jìn)行多語種檢測的推廣。

6 結(jié)束語

本文從無監(jiān)督地從語音流中獲得語音信息的角度出發(fā)，從大量的語音中獲取一些重復(fù)的詞語模式。建立2套系統(tǒng)，分別是基于現(xiàn)在流行的語音解碼器的架構(gòu)以及直接基于特征匹配的系統(tǒng)架構(gòu)。在性能上，基于語音識別器的系統(tǒng)性能遠(yuǎn)遠(yuǎn)好于基于特征的系統(tǒng)，但是語音識別器的構(gòu)建過程復(fù)雜，對于語言資源比較匱乏的小語種，則顯得無能為力，這時只依靠特征進(jìn)行匹配的系統(tǒng)仍然能發(fā)揮一定作用。下一步研究將主要集中在基于特征匹配的相似音頻片段檢測系統(tǒng)性能的提升以及將相似音頻檢測技術(shù)推廣到多語種的應(yīng)用場景中。

[1] 劉加, 潘勝昔. 用TMS320C31實(shí)時實(shí)現(xiàn)電話語音識別系統(tǒng)[J]. 清華大學(xué)學(xué)報: 自然科學(xué)版, 1998, 38(z1): 51-54.

[2] 韓疆, 劉曉星, 顏永紅, 等. 一種任務(wù)域無關(guān)的語音關(guān)鍵詞檢測系統(tǒng)[J]. 通信學(xué)報, 2006, 27(2): 137-141.

[3] Park A S. Unsupervised Pattern Discovery in Speech[J]. IEEE Transactions on Audio, Speech, and Langu age Processing, 2008, 16(1): 186-197.

[4] Shen Wade, White C M, Hazen T J. A Comparison of Queryby-Example Methods for Spoken Term Detection[C]//Proc. of Interspeech’09. Brighton, UK: [s. n.], 2009: 421-426.

[5] Rigoutsos I, Floratos A. Combinatorial Pattern Discovery in Biological Seque nces: The T EIRESIAS Algorithm[J]. Bioinformatics, 1998, 14(1): 55-67.

[6] Roy D K. Learning Words from Sights and Sounds: A Computational Model[J]. Cognitive Science, 2002, 26(1): 113-146.

[7] Brent M R. An Efficient, Probabilistically Sound Algorithm for Segmentation and Word Discovery[J]. Machine Learning, 1999, 34(1/3): 71-105.

[8] Ng A Y, Jordan M I. On Spectral Clustering: Analysis and an Algorithm[C]//Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2002: 849-856.

[9] 劉鏡, 劉加. 置信度的原理及其在語音識別中的應(yīng)用[J]. 計算機(jī)研究與發(fā)展, 2000, 37(7): 882-890.

[10] Christiansen R, Rushfort h C. Detecting and Locating Key Words in Continuous Speech Using Linear Predictive Coding[J]. IEEE Transactions o n Aco ustics, Sp eech and Signal Processing, 1977, 25(5): 361-367.

[11] Newman M E J. Finding and Evaluating Community Structure in Networks[J]. Physical Review E, 2004, 69(2).

[12] Sun Yanqing, Z hao Qingwei. Combining Ph oneme L oop Posteriori with Decoding Posteriori as Confidenc e Measure for Speech Recognition in E-service[C]// Proc. of International Conference on e-Education, e-Bu siness, e-Manage ment, and e-Learning. [S. l.]: IEEE Press, 2010: 238-241.

[13] Gao Jie, Zhao Qingwei, Yan Yonghong, et al. Efficient System Combination for Syllable-confusion-network-based Chinese Spoken Term Detection[C]//Proc. of the 6th International Symposium on Chinese Spoken Lan guage Processing. Kunming, China: [s. n.], 2008: 366-369.

編輯顧逸斐

Unsupervised Speech Pattern Extraction Based on Speech Recognition and Feature

ZHANG Zhen, ZHAO Qing-wei, YAN Yong-hong

(Key Laboratory of Speech Acoustics and Content Understanding, Chinese Academy of Sciences, Beijing 100190, China)

This paper proposes the unsupervised method based on both speech recognition system and feature-based system to search for the speech patterns. In speech recognition system, the alternative results of the speech recognition system decoder are us ed to search audio patterns with seg mental dynamic time warping alg orithm. Then gr aph clustering alg orithm is used, as well as confi dence estimati on algorithm, to improve the performance of the system. It also proposes the system based on feature only without any knowledge resource. In the final, the performances of the two systems on both radio and television news and spoken dialogue sets are compared. The speech recognition system achieves better performance, and the feature based system can be used on many languages.

speech recognition; speech pattern discovery; segmental dynamic time warping algo rithm; graph clus tering algorithm; phoneme loop calculation of posterior probability

10.3969/j.issn.1000-3428.2014.05.054

1000-3428(2014)05-0262-04

TN912.34

國家自然科學(xué)基金資助項(xiàng)目(10925419, 90920302, 61072124, 11074275, 11161140319, 91120001, 61271426)；國家“863”計劃基金資助項(xiàng)目(2012AA012503)；中國科學(xué)院重點(diǎn)部署基金資助項(xiàng)目(KGZD-EW-103-2)；中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)基金資助項(xiàng)目“面向感知中國的新一代信息技術(shù)研究”(XDA06030100, XDA06030500)。

張震(1984－)，男，博士研究生，主研方向：語音識別，關(guān)鍵詞檢索；趙慶衛(wèi)、顏永紅，研究員、博士生導(dǎo)師。

2013-05-02

2013-05-27E-mail：zhangzhen@hccl.ioa.ac.cn

文章編號：1000-3428(2014)05-0266-04

A中圖分類號：TP391