亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本無關(guān)的話者識別技術(shù)綜述

        2016-03-22 14:09:37陳建濤陳維娜
        電腦知識與技術(shù) 2016年1期

        陳建濤++陳維娜

        摘要:基于文本無關(guān)的話者識別系統(tǒng)應(yīng)用前景廣闊,單一特征參數(shù)法往往難以完全反映說話人的個人語音特征,因此目前研究的重點在于多種特征相結(jié)合的方法。文本無關(guān)的話者識別技術(shù)的難點在于它對提取參數(shù)要求很高,不能局限于表征個體單方面的特征參量,因此要形成一個有效、可靠的多特征結(jié)合的系統(tǒng)是當(dāng)前研究的難點之一。

        關(guān)鍵詞:話者識別;模式匹配;文本無關(guān);神經(jīng)網(wǎng)絡(luò)

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)01-0189-03

        An Overview about the Text-independent Speaker-identification Technology

        Chen Jian-tao,CHEN Wei-na

        (Peoples Public Security University of China,Beijing 102623, China)

        Abstract: The application prospect of the text-independent speaker-recognition system is wide, and the single feature parameter method is often difficult to completely reflect the speaker's personal voice characteristics, so the focus of the current research lies in the combination of multiple features. The difficulty of the text independent speaker recognition technology is that it requires a high extraction parameters, and can not be confined to the characteristics of individual parameters, so it is difficult to form an effective and reliable system.

        Key words: speaker-identification; pattern matching; text-independent; neural network

        話者識別(speaker identification),在司法鑒定領(lǐng)域也被稱作語音同一認(rèn)定,是指通過比較特定說話人不同時間段發(fā)出的語音,從而判斷這些語音是否來自同一人的一種技術(shù)手段。[1]

        圖1 話者識別的一般流程

        話者識別技術(shù)根據(jù)被檢測語音和樣本語音內(nèi)容之間的關(guān)系可分為文本相關(guān)(Text-dependent)的話者識別技術(shù)和文本無關(guān)(Text-independent)的話者識別技術(shù)兩種。所謂文本相關(guān)是指在被檢測語音和樣本語音內(nèi)容完全一致的前提下進(jìn)行的話者識別;文本無關(guān)與文本相關(guān)相對,是指不考慮被檢測語音與樣本語音內(nèi)容是否一致而進(jìn)行的話者識別方法。文本相關(guān)的話者識別技術(shù)是話者識別技術(shù)的起步階段,雖然簡單而且誤識率低,但是在實際應(yīng)用中,受限制的因素較多,因此基于文本無關(guān)的話者識別技術(shù)就成為了話者識別領(lǐng)域中的研究的重點和應(yīng)用的熱點。話者識別系統(tǒng)一般包含語音信號輸入、預(yù)處理與數(shù)字化、特征提取、模式匹配和輸出結(jié)果等幾個模塊,圖1表示的是話者識別系統(tǒng)一般的流程圖。

        1 語音的特征參數(shù)

        在對人的發(fā)聲系統(tǒng)的發(fā)聲機理、聽覺系統(tǒng)的感知機理和語音信號的數(shù)學(xué)建模的研究基礎(chǔ)之上,文本無關(guān)話者識別技術(shù)研究過程中已使用過的特征參數(shù)主要包括以下三類:

        1.1基于發(fā)聲特性的特征參數(shù)[7]~[8]

        從法庭科學(xué)的角度來講,人的發(fā)音習(xí)慣是運動習(xí)慣的一種,屬于人的局部器官的協(xié)調(diào)運動,這種運動習(xí)慣由聲帶、聲道和鼻、口、咽共振腔的生理結(jié)構(gòu)決定,而基于語音的短時譜提取出來的特征參數(shù)正好能反映不同人之間的這種生理結(jié)構(gòu)差異?;诎l(fā)聲特性的特征參數(shù)包括音強曲線、基音強度、共振峰強度和帶寬等。

        1.2基于聽覺特性的特征參數(shù)

        除了模擬人的發(fā)聲特性,通過模擬人耳聽覺特性也能夠提取出說話人語音的特征參數(shù),常見的主要是一些倒譜參數(shù),例如美尓倒譜系數(shù)(MFCC)和感知線性預(yù)測倒譜系數(shù)(LPCC)等,大量研究表明這類參數(shù)在文本無關(guān)的話者識別系統(tǒng)中能夠取得較好的效果。其中美尓倒譜系數(shù)(MFCC,Mel Frequency Cepstral Coefficients)MFCC參數(shù)是基于人的聽覺特性的臨界帶效應(yīng)[2],由于MFCC的計算要經(jīng)過濾波、取對數(shù)、作DCT變換等幾個過程,它的運算量要比LPCC參數(shù)大,但是MFCC的魯棒性要強[9],對于較強的輔音和夾雜噪音的語音都有較強的識別度。王金明等人[3]通過驗證發(fā)現(xiàn)基于LPCC參數(shù)的誤識率為10.9%,而基于MFCC參數(shù)的誤識率為8.8%,此外一階差分特征參數(shù)與原參數(shù)組合的系統(tǒng)性能優(yōu)于非組合型特征參數(shù)。

        1.3基于聲道參數(shù)模型的特征參數(shù)

        基于聲道參數(shù)模型的特征參數(shù)是指能夠客觀反映說話人聲道特性的一類參數(shù),常用的是線性預(yù)測倒譜系數(shù)及其派生參數(shù)(反射系數(shù)、對數(shù)面積比系數(shù)、自相關(guān)系數(shù)、線譜對參數(shù)等),線性預(yù)測倒譜系數(shù)及其派生參數(shù)能夠有效表現(xiàn)聲道特點,是最有效的語音特征參數(shù)之一[11]。線性預(yù)測倒譜系數(shù)(LPCC,Linear Prediction Cepstrum Coefficient)[4] LPCC是由LPC系數(shù)推算得到的倒譜系數(shù),相對于LPC來說能夠較好地排除說話聲發(fā)音時的過激信息,通常只需要幾十個倒譜系數(shù)就能夠描述說話人語音的共振峰特性,能夠客觀地表現(xiàn)聲道的發(fā)聲特性。LPCC的推算流程如圖2所示。線性預(yù)測方法是建立在語音信號的相鄰采樣點之間具有很好的關(guān)聯(lián)性的基礎(chǔ)上的。研究表明不同人之間的相應(yīng)特征之間的距離要大,而同一人相應(yīng)特征之間的距離要小。

        圖2 LPCC參數(shù)的推算流程示意圖[12]

        寧飛[5]經(jīng)過對LPCC的數(shù)據(jù)進(jìn)行詳細(xì)分析,發(fā)現(xiàn)LPCC倒譜參數(shù)其實并不能完全表現(xiàn)不同說話人聲音之間的特異性,倒譜參數(shù)的前五分之一反映的是說話人的聲道特性,不同人之間差異度較小,不宜用于說話人識別,而倒譜參數(shù)的后五分之一主要反映說話人的聲門特征,個體特異性顯著,這類參數(shù)可以用于說話人識別。

        由于單一特征法通常不能完全反映說話人的個人特征,多種特征參數(shù)融合的方法應(yīng)運而生。多特征法是融合多種語音特征參量進(jìn)行話者識別的方法,多特征融合的方法是在單特征法的基礎(chǔ)之上發(fā)展起來的,算法和框架的設(shè)計都要更為復(fù)雜,但多特征融合的方法對于文本無關(guān)的語音識別準(zhǔn)確率要明顯高于單特征法。例如朱堅民等[6]提出了將MFCC特征和1/3倍頻程特征作為說話人語音的特征參數(shù),設(shè)計并實現(xiàn)了利用貝葉斯網(wǎng)絡(luò)進(jìn)行話者識別的方法,50人的樣本庫正確率可達(dá)100%。流程如圖3所示:

        圖3 基于貝葉斯網(wǎng)絡(luò)的話者識別方法流程圖[6]

        2話者識別的模型

        2.1模板匹配模型

        模板匹配是一種比較傳統(tǒng)的相似度計算與匹配方法,廣泛用于語音、圖片、文字和符號等各種模式識別領(lǐng)域。模板匹配的步驟:首先進(jìn)行特征矢量的歸一——即從樣本語音庫中提取出所需要的特征矢量,然后在測試階段用同樣的處理方法從待測語音中提取特征矢量,并與之前提取的樣本特征矢量進(jìn)行比較,進(jìn)而得出識別結(jié)果。在模板匹配方法中可以使用多種距離測度,常用的是馬氏距離和歐氏距離兩種。[13]~[14]總體來說,模板匹配方法抗噪能力較弱,上述兩種距離測度的變化會改變說話人的特征參數(shù),最終導(dǎo)致識別率下降。

        2.2矢量量化模型

        在圖像壓縮和語音壓縮等領(lǐng)域中矢量量化模型使用得比較多,它是將說話人語音中若干連續(xù)的特征參量取值分成一組,每組包含N個參數(shù),這樣就能夠?qū)崿F(xiàn)用N維向量表示一個說話人的語音特征的目的[15]。同樣,矢量量化模型也分為學(xué)習(xí)和推理兩個階段:矢量量化模型學(xué)習(xí)時使用的是類聚算法,把M個說話人的語音特征參數(shù)類聚成M類,得到M個碼本矢量;推理時先用同樣的方法得到待測說話人語音的特征矢量,然后將這說話人的特征矢量與原有的M個碼本矢量最小距離進(jìn)行累加,將累加和最小的說話人作為識別結(jié)果。圖4是一種基于VQ矢量量化模型的話者識別系統(tǒng)示意圖。使用矢量量化模型的優(yōu)點是數(shù)據(jù)量少、訓(xùn)練時間短,可以通過量化長時語音特征參數(shù)統(tǒng)計信息來達(dá)到識別說話人的目的,同時還可以有效地進(jìn)行數(shù)據(jù)數(shù)據(jù)壓縮從而提高識別效率。

        圖4 基于VQ矢量量化模型的話者識別系統(tǒng)示意圖[16]

        2.3隱馬爾科夫模型(HMM)

        隱馬爾科夫模型(Hidden Markov Model)是使用描述狀態(tài)間轉(zhuǎn)移來描述特征變化過程的一種模型,人們在說話時發(fā)出的語音特征是隨著時間不斷變化的,因此用隱馬爾科夫模型來描述語音的動態(tài)特征是可行的。在做測試時,將待測語音作為觀察值,把樣本語音模型作為隱含狀態(tài),測試待測語音在每個樣本語音模型下的條件概率,取條件概率最大的那個樣本語音模型作為待測語音模型識別結(jié)果。圖5是基于隱馬爾科夫模型的話者識別系統(tǒng)示意圖。

        圖5 基于HMM的話者識別系統(tǒng)示意圖[17]

        2.4高斯混合模型(GMM)

        用高斯定理的來分析說話人語音,每個人的語音特征在所有特征空間里都有一個特定的分布狀態(tài),這也和司法鑒定領(lǐng)域中關(guān)于語音的特異性的描述相一致,因此可以用語音特征的這種獨特的分布來描述說話人的語音模型。高斯混合模型(Gaussian Mixture Model)將說話人語音特征的高斯分布進(jìn)行線性組合,用這種組合的形式來表示不同說話人的語音特征在語音特征空間中的獨特分布狀態(tài),將最能產(chǎn)生測試語音特征的高斯分布模型所對應(yīng)的樣本語音作為識別結(jié)果。在訓(xùn)練過程中,為每個人的語音建立一個模型,對每個人的特征分布狀態(tài)進(jìn)行統(tǒng)計,當(dāng)所有訓(xùn)練結(jié)束后,保存每個說話人語音所對應(yīng)的線性組合參數(shù);在識別過程中,將待測語音與樣本語音的參數(shù)進(jìn)行比對,求出每個樣本語音與待測語音對應(yīng)的似然函數(shù),將最大似然函數(shù)所對應(yīng)的說話人作為識別結(jié)果[18]。基于混合高斯模型的話者識別系統(tǒng)的大體工作流程如圖6所示。

        圖6 基于GMM的話者識別系統(tǒng)示意圖

        2.5人工神經(jīng)網(wǎng)絡(luò)模型

        雖然參數(shù)模型和非參數(shù)模型方法都已經(jīng)在文本無關(guān)的話者識別技術(shù)中有所應(yīng)用,然而目前來說這些方法與人腦識別的效果差距依然是很大的。人工神經(jīng)網(wǎng)絡(luò)模型是指參照人腦神經(jīng)元思考問題的工作模式而建立的一種數(shù)學(xué)模型,使用這種模型能夠在一定程度上模擬人腦進(jìn)行話者識別的過程,因此人工神經(jīng)網(wǎng)絡(luò)模型為話者識別尤其是文本無關(guān)話者識別提供了一個新的、有效的途徑。人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用文本無關(guān)的話者識別技術(shù)領(lǐng)域中通常有兩種形式:一種是前向神經(jīng)網(wǎng)絡(luò),另一種是多層前向神經(jīng)網(wǎng)絡(luò)。前一種結(jié)構(gòu)、分類相對簡單,因此應(yīng)用范圍相對較廣;而后一種網(wǎng)絡(luò)的原理是將單個神經(jīng)網(wǎng)絡(luò)進(jìn)行組合得到一個級聯(lián)神經(jīng)網(wǎng)絡(luò),例如BP型神經(jīng)網(wǎng)絡(luò)和RBF型神經(jīng)網(wǎng)絡(luò),多層前向神經(jīng)網(wǎng)絡(luò)的話者識別系統(tǒng)具有較高的識別率,因此也逐漸應(yīng)用到了文本無關(guān)的話者識別領(lǐng)域[19]?;谌斯ど窠?jīng)網(wǎng)絡(luò)模型的話者識別系統(tǒng)采用相似程度來度量識別結(jié)果,陳全今等[10]引入對數(shù)似然率(LLR,Logarithm Likelihood Ratio)的概念,對檢材和樣本的相似程度進(jìn)行評分,具體方法是定義對數(shù)似然率

        [LLR=lnP(EHP)P(EHd)]

        其中E表示語音檢材語音與樣本語音出自同一人的后驗概率;分別表示將檢材語音與樣本語音出自同一人的先驗概率,陳金全等將LLR的評分分為10個檔次,對應(yīng)10個不同的結(jié)論,如表1所示。

        表1 LLR評分的分檔

        使用LLR的優(yōu)點在于不僅能夠通過分檔量化得到檢材與樣本的相似或者差異程度,同時能驗證LLR是否適用既定的檢材和樣本。

        目前基于人工神經(jīng)網(wǎng)絡(luò)模型的文本無關(guān)話者識別方法所面臨的難題在于,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)會隨著待識別人群數(shù)量的變化而變化,分類器設(shè)計也要隨著反復(fù)的訓(xùn)練過程不斷改變。而且基于人工神經(jīng)網(wǎng)絡(luò)模型的說話人識別系統(tǒng)的訓(xùn)練時間會隨著待測人群數(shù)量的增大而呈指數(shù)增長的趨勢,所以從理論上來說,當(dāng)待測人群數(shù)量增大到一定數(shù)量級時,這樣的系統(tǒng)無法在可接受的時間之內(nèi)完成話者識別任務(wù)的訓(xùn)練過程。解決這一問題的方法在于實現(xiàn)大功能的神經(jīng)網(wǎng)絡(luò)分解成若干個子功能的小神經(jīng)網(wǎng)絡(luò),再將這些小神經(jīng)網(wǎng)絡(luò)組合起來從而實現(xiàn)大網(wǎng)絡(luò)的功能。

        3 結(jié)語和展望

        基于文本無關(guān)的話者識別系統(tǒng)應(yīng)用前景廣闊,單一特征參數(shù)法往往難以完全反映說話人的個人語音特征,因此目前研究的重點在于多種特征相結(jié)合的方法。文本無關(guān)的話者識別技術(shù)的難點在于它對提取參數(shù)要求很高,不能局限于表征個體單方面的特征參量,因此要形成一個有效、可靠的多特征結(jié)合的系統(tǒng)是當(dāng)前研究的難點之一。此外,國內(nèi)外諸多研究表明,語句的長短對文本無關(guān)話者識別性能有較大的影響,無論采用多少個不同類型的參數(shù),只要能從足夠長的語音中提取語音特征參數(shù),總能實現(xiàn)一個較高的識別率。

        參考文獻(xiàn):

        [1] 王英利,聲紋鑒定技術(shù)[M]群眾出版社,2013:174.

        [2] Rabineer L R,Juang B H.Fundamentals of Speech Processing and recognition[M].Prentice-Hall,1993.

        [3] 王金明,張雄偉.話者識別系統(tǒng)中語音特征參數(shù)的研究與仿真[J].系統(tǒng)仿真學(xué)報,2013(9).

        [4] 余良俊、張友純,基于LPCC的話者識別系統(tǒng)[J].科技資訊,2007(31).

        [5] 寧飛.說話人識別的幾種方法[J].電聲技術(shù),2001(12).

        [6] 朱堅民,張雷.基于聲音多特征貝葉斯網(wǎng)絡(luò)融合的話者識別研究[J].儀器儀表學(xué)學(xué)報,2013(9).

        [7] Sambur M R. Selection of Acoustic Features for Speaker Identification[C]. IEEE Trans On ASSP, 1975: 176-182.

        [8] Rabineer L R, Juang B H. Fundamentals of Speech Processing and Recognition[M]. Prentice-Hall, 1993.

        [9] 李霄寒.高階MFCC的話者識別性能及其噪聲魯棒性[J].信號處理,2001(4).

        [10] 陳全今.基于LLR的聲紋識別應(yīng)用研究[J].海峽科學(xué),2014(9).

        [11] 李邵梅. 文本無關(guān)短語音說話人識別技術(shù)研究[D].解放軍信息工程大學(xué),2011.

        [12] 蔣曄. 基于文本無關(guān)的說話人識別技術(shù)研究[D].南京理工大學(xué),2008.

        [13] 鄧浩江,王守覺,邢藏菊,等. 基于聚類統(tǒng)計與文本無關(guān)的說話人識別研究[J]. 電路與系統(tǒng)學(xué)報,2001(3):77-80.

        [14] 岳喜才,葉大田. 文本無關(guān)的說話人識別:綜述[J]. 模式識別與人工智能,2001(2):194-200.

        [15] 劉芮杉. 與文本無關(guān)的語種識別技術(shù)研究[D].電子科技大學(xué),2013.

        [16] 林江云. 文本無關(guān)說話人識別系統(tǒng)研究[D].廈門大學(xué),2008.

        [17] 張慶芳,趙鶴鳴. 基于改進(jìn)VQ算法的文本無關(guān)的說話人識別[J]. 計算機工程與應(yīng)用,2006(10):65-68.

        [18] 張煒,胡起秀,吳文虎. 距離加權(quán)矢量量化文本無關(guān)的說話人識別[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),1997(3):21-24.

        [19] 楊延龍. 與文本無關(guān)的說話人識別的關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2010.

        [20] 包威權(quán),陳坷,遲惠生. 基于HMM/MLFNN 混合結(jié)構(gòu)的說話人辨認(rèn)研究[C].第四屆全國人機語音通訊會議論文集,1995:185-189.

        亚洲黄片av在线免费观看| 国产高清无码在线| 亚洲视频在线看| 成人免费xxxxx在线视频| 少妇被粗大猛进进出出| 亚洲视频在线视频在线视频 | 蜜桃传媒免费观看视频| 国产在线av一区二区| 999久久久免费精品国产牛牛| 一区二区三区国产97| 国产噜噜亚洲av一二三区| 一本色道久久88加勒比综合| 亚洲国产综合久久天堂| 国产欧美日韩一区二区加勒比| 夜夜高潮夜夜爽国产伦精品| 成年免费视频黄网站zxgk| 亚洲∧v久久久无码精品| 日韩中文字幕中文有码| 1234.com麻豆性爰爱影| 日本一区二区在线看看| av免费在线国语对白| 成年性生交大片免费看| 亚洲av无码成人黄网站在线观看| 国产精品第1页在线观看 | 国产成人精品无码播放| 欧美日韩精品一区二区三区高清视频 | 日本乱人伦在线观看| 国产一区二区精品在线观看| 日本嗯啊在线观看| 北岛玲亚洲一区二区三区| 国产高清精品一区二区| 女人被狂躁的高潮免费视频| 欧美另类人妖| 亚洲自偷自拍熟女另类| 亚洲AV无码专区一级婬片毛片| 国产91九色视频在线播放| 国产白浆一区二区三区性色| 欧美丰满熟妇bbb久久久| a级毛片成人网站免费看| 豆国产95在线 | 亚洲| 免费精品美女久久久久久久久久|