亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聲紋識別在開放儀器管理中的應(yīng)用

2015-11-19 09:17:10賴麗旻洪青陽

華僑大學(xué)學(xué)報(自然科學(xué)版) 2015年5期

賴麗旻，洪青陽

（1.廈門大學(xué) 環(huán)境與生態(tài)學(xué)院，福建廈門361005；2.廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院，福建廈門361005）

為了提高科研經(jīng)費的使用效益，貴重儀器一般對外開放，共享使用.由于時間和精力限制，儀器管理員很難對儀器監(jiān)管到位，機時統(tǒng)計不真實，儀器故障率高.為了規(guī)范化管理儀器，降低儀器的故障率，需要在儀器周邊安裝攝像頭進行監(jiān)控.但外加設(shè)備成本較高，且受限于攝像頭的安裝位置，往往難以拍攝到所需的畫面.因此，需要發(fā)展一種能有效識別儀器使用者，并記錄儀器使用機時和使用狀況的管理系統(tǒng).傳統(tǒng)的方式是通過賬號識別儀器使用者，但賬號容易被人借用，存在較大的管理漏洞［1］.為確保身份的唯一性，更有效的方式是采用生物特征識別技術(shù).聲紋識別也稱說話人識別［2－4］，由于每個人的聲帶震動頻率不同，聲道結(jié)構(gòu)不同，再加上發(fā)音習(xí)慣不同，組合形成了各具一色的聲紋特征.不同人說同樣的話，對應(yīng)的語譜圖也會不一樣.因此，可用來比對兩段語音的同一性，即是否來自同一人.聲紋采集方便、硬件成本低、用戶容易接受，因此，得到越來越多的應(yīng)用.本文將聲紋識別技術(shù)應(yīng)用到儀器管理中，并創(chuàng)造性地采用語音動態(tài)口令，達到防錄音冒充的效果.

圖1 系統(tǒng)結(jié)構(gòu)圖Fig.1 System structure diagram

1 基于聲紋識別的儀器管理系統(tǒng)

大部分貴重儀器是通過計算機上的工作站控制，在計算機上加入聲紋識別系統(tǒng)，控制儀器軟件的開啟，以達到只有通過審核的人才能使用儀器的目的.用戶無需任何其他設(shè)備，直接采用電腦麥克風(fēng)錄音，進行聲紋采集.系統(tǒng)結(jié)構(gòu)圖，如圖1所示.

利用聲紋的唯一性確認(rèn)儀器用戶身份，實現(xiàn)無人監(jiān)管.電腦麥克風(fēng)可設(shè)置比較高的采樣率，并可持續(xù)錄音，使送到驗證服務(wù)器的聲紋信息最大限度地不失真，這樣聲紋驗證更可靠.對于部分沒有連接計算機的儀器，可通過增加聲紋識別模塊，控制儀器電源的開關(guān)，從而達到控制儀器使用的目的.基于聲紋識別技術(shù)的共享儀器平臺管理系統(tǒng)，具體包括以下5個步驟.

步驟1聲紋登記.用戶通過儀器培訓(xùn)后，在儀器管理員監(jiān)督和指導(dǎo)下，通過麥克風(fēng)錄音，朗讀計算機屏幕上的文字，進行聲紋特征值的采集.達到有效時長后，提示用戶錄音結(jié)束，系統(tǒng)檢測語音合格后，登記該聲紋模型，屏幕顯示聲紋登記成功.

步驟2用戶開啟儀器工作站時，自動啟動聲紋驗證程序.用戶通過麥克風(fēng)朗讀屏幕上的文字，達到有效時長后，提示用戶錄音結(jié)束.

步驟3系統(tǒng)判斷用戶聲紋是否與登記聲紋模型一致，識別用戶身份是否為授權(quán)用戶.

步驟4已授權(quán)用戶，儀器可正常啟動，用戶正常使用儀器，后臺記錄用戶信息和統(tǒng)計機時.

步驟5若用戶為非授權(quán)用戶，儀器則不能正常啟動，用戶無法使用該儀器.用戶可聯(lián)系儀器管理員，告知存在的問題.

2 基于GMM-HMM 算法的聲紋識別系統(tǒng)

2.1 基本原理

聲紋識別是一個模式識別過程，其基本原理如圖2所示.首先對目標(biāo)說話人的語音特征提取；然后進行聲紋建模，驗證語音也要經(jīng)過特征提取，才能進行聲紋比對；聲紋比對得分與事先設(shè)定的閾值比對，最后得到驗證結(jié)果.圖2 是一個典型的模式識別過程，關(guān)鍵是聲紋特征要與語音信號建立一一對應(yīng)的關(guān)系.如果語音信號包含噪聲等雜音，則還需進行降噪等前端處理.后端模型用來刻畫聲紋的統(tǒng)計分布，比較通用的是采用高斯混合模型（Gaussian mixture model，GMM）［5－6］.

GMM 通過若干個高斯概率密度函數(shù)的線性組合逼近任意分布，從而模擬出各種形式的語音特征分布，以區(qū)分不同的說話人.GMM 能很好地刻畫參數(shù)空間中訓(xùn)練數(shù)據(jù)的空間分布及其特征，并且具有簡單高效的特點，已廣泛應(yīng)用于與文本無關(guān)的聲紋識別系統(tǒng).

為解決錄音冒充問題，進一步結(jié)合隱馬爾可夫模型（hidden Markov model，HMM）［7］，采用一種語音動態(tài)口令的建模和驗證方法［8］，把聲紋識別和語音識別技術(shù)更好地融合在一起，使得身份認(rèn)證系統(tǒng)更加可靠.

圖2 聲紋識別基本原理Fig.2 Principle of voiceprint recognition

2.2 聲紋建模過程

系統(tǒng)依據(jù)說話人的訓(xùn)練語音，進行語音預(yù)處理，提取說話人特征，并通過相應(yīng)的建模算法，生成聲紋模型.聲紋動態(tài)口令系統(tǒng)訓(xùn)練模型所需要的語音是N段文本內(nèi)容不同的短語音，一般取3至5段.訓(xùn)練過程，如圖3所示.用戶錄完的語音，將被訓(xùn)練成與該用戶相關(guān)的聲紋模型（包括說話人模型和語音模型）.其中，說話人模型為GMM 模型，采用最大后驗概率（MAP）方法［6］，由全局背景模型（UBM）自適應(yīng)而來.具體實現(xiàn)時，只需要自適應(yīng)均值參數(shù)，即

式（1）中：i是UBM 所包含的每個高斯函數(shù)對應(yīng)的索引；Ei（x）為自適應(yīng)數(shù)據(jù)x的均值期望；μi為原始UBM 的均值；為自適應(yīng)后得到的均值；β為調(diào)節(jié)系數(shù).

語音模型采用隱馬爾可夫模型.基于HMM 的通用語音識別器，也可實現(xiàn)自適應(yīng)訓(xùn)練，變成與目標(biāo)說話人相關(guān)的特定識別器，如圖4所示.

圖3 聲紋建模過程Fig.3 Modeling process of voiceprint

Hong等［8］采用單音子（monophone）模型，沒有考慮音素的上下文關(guān)聯(lián)，一定程度上會導(dǎo)致識別率的下降.而文中進一步采用了三音子（triphone）模型，使聲韻母之間的關(guān)聯(lián)性也能得到建模.經(jīng)過重新組合［7－8］，采用的三音子模型（不考慮yi和yao）包括sil，＋i＿one，s－i＿one，sp，s＋an，san，＿w＋u，＿w－u，q＋i，q－i，b＋a，b－a，l＋ing，l－ing，j＋iou，j－iou，＿e＋er，＿e－er，l＋iou，l－iou.

圖4 HMM 自適應(yīng)訓(xùn)練Fig.4 Adaptation of HMM

2.3 聲紋驗證過程

在驗證階段，聲紋系統(tǒng)根據(jù)說話人的語音，判決說話人是否為其所申明的身份（identity claimed）.這個階段有2個輸入信息，即說話人的語音和其所申明的身份信息.首先，系統(tǒng)對語音進行預(yù)處理；然后，提取聲紋特征，將其與對應(yīng)的聲紋模型進行模式匹配；最后，判決這段語音是否屬于該說話人.

在文中方法里，聲紋驗證過程是個融合的過程.輸入語音經(jīng)特征提取后，分別進行基于HMM 的語音識別和基于GMM 的聲紋確認(rèn)，得到相應(yīng)的語音識別得分和聲紋確認(rèn)得分.基于HMM 的語音識別，是根據(jù)提示文本，產(chǎn)生相應(yīng)的受限語法.如數(shù)字串“43825769”，其對應(yīng)的受限語法如下

＄digit1＝si；

＄digit2＝san；

＄digit3＝ba；

＄digit4＝er；

＄digit5＝wu；

＄digit6＝qi；

＄digit7＝liu；

＄digit8＝j(luò)iu；

（SENT－START［＄digit1］［＄digit2］［＄digit3］［＄digit4］［＄digit5］［＄digit6］［＄digit7］［＄digit8］SENT－END）

其中：＄digit1表示第一個數(shù)字；si對應(yīng)數(shù)字4；括號里的SENT－START 是句子的開頭；SENT－END 是句子的結(jié)尾；［＄digit1］［＄digit2］［＄digit3］［＄digit4］［＄digit5］［＄digit6］［＄digit7］［＄digit8］表示只能識別為8個數(shù)字.

基于以上受限語法，采用Viterbi解碼算法［7］，就可得到語音識別得分.由于受限語法是與提示文本關(guān)聯(lián)的，也就是相當(dāng)于為文本內(nèi)容建立了對應(yīng)的語言模型.如果用戶故意說別的數(shù)字串，或用錄音設(shè)備錄制回放別的數(shù)字串，則正確識別到的數(shù)字個數(shù)就很少，識別得分也會很低.因此，該方法可起到內(nèi)容鑒別的作用，有效避免錄音冒充.

系統(tǒng)融合得分計算，表達為

式（2）中：SF為系統(tǒng)融合得分；SASR為基于HMM 的語音識別得分；SVPR為GMM 的聲紋確認(rèn)得分；α是調(diào)節(jié)系數(shù)，可根據(jù)實際應(yīng)用調(diào)節(jié).

聲紋驗證過程，如圖5所示.由圖5可知：系統(tǒng)融合得分將與預(yù)設(shè)閾值比對，超過閾值則表示接受通過，未超過則予以拒絕.閾值可根據(jù)實際應(yīng)用做調(diào)整.

圖5 聲紋驗證過程Fig.5 Verification process of voiceprint

3 結(jié)果與分析

進行了兩組語音動態(tài)口令實驗.一組在辦公室進行聲紋的登記和測試，采集對象以年輕人為主.說話人與麥克風(fēng)之間的距離在0.3～1m 之間，以說話人感覺舒適為度.采樣率為8K，量化位數(shù)為16bit.樣本總共20人，每人錄音20句以上，隨機抽取16句作為登記，其他剩下的作為本人認(rèn)證測試，不同人之間進行交叉測試.測試結(jié)果，如表1所示.表1中：RFR表示錯誤拒絕率，即本人認(rèn)證被拒絕的比例；RFA表示錯誤接受率，即他人冒充通過的比例.

表1 語音動態(tài)口令的測試結(jié)果Tab.1 Experimental results of speech dynamic password

從表1可以看出：RFR為2.55%，即本人通過率為97.45%，說明本文系統(tǒng)對真實用戶通過率較高，已可滿足應(yīng)用需求；RFA為0.63%，即他人冒充通過的可能性低于1%，說明文中系統(tǒng)具有很強的防冒充能力，能有效地保證貴重儀器的安全管理.有文獻［9］報道基于指紋識別的開放式儀器管理系統(tǒng)，RFR為2.50%，RFA為1.11%.

第2組實驗數(shù)據(jù)是在比較復(fù)雜的環(huán)境下采集的.采集環(huán)境可能在辦公室、馬路邊、商場、家里等地方，以模擬各種噪聲背景.樣本總共30人，每個人用智能手機采集8個隨機數(shù)字，登記語音5遍，驗證語音3遍以上.采樣率為16K，量化位數(shù)為16bit.本人測試149次，冒充測試7 305次.實驗結(jié)果采用DET 曲線［10］繪制，如圖6所示.圖6中：RFA為錯誤接受率；RFR為錯誤拒絕率.圖6中：曲線越靠近零點表示識別效果越好；曲線與對角線的交叉點是等錯誤率（REE，即RFA與RFR相等的地方）.由圖6可知：三音子模型明顯優(yōu)于單音子模型，三音子的REE約為1%.

與文獻［9］方法相比，在本人通過率相差不大的情況下，文中方法的他人冒充通過率更低.考慮到指紋識別的開放式儀器管理系統(tǒng)需要部署指紋采集儀，成本較高，因此，文中方法具有較高的性價比.

文中方法將基于傳統(tǒng)模型GMM 和HMM的聲紋識別技術(shù)有機地結(jié)合起來，應(yīng)用到實際系統(tǒng)中，實現(xiàn)內(nèi)容＋身份的識別，而不是簡單的GMM 身份識別.尤其采用了8 個數(shù)字隨機動態(tài)口令，非法用戶無法通過錄音冒充通過，有效地提高了儀器管理的安全性.

在實際應(yīng)用中，聲紋采集時，操作是否規(guī)范直接影響聲紋識別效果.因此，需要儀器管理員在現(xiàn)場指導(dǎo).這樣，一方面提高聲紋采集樣本的質(zhì)量；另一方面，從源頭防止冒充他人使用儀器的可能.

圖6 聲紋驗證結(jié)果Fig.6 Verification results of voiceprint

4 結(jié)束語

在貴重儀器現(xiàn)有的工作站系統(tǒng)內(nèi)加入聲紋識別部分，通過聲紋識別判定儀器使用者的身份［11］，并從后臺記錄儀器使用機時，有利于儀器的規(guī)范化管理，防止儀器使用者漏登記機時.通過測試發(fā)現(xiàn)，語音動態(tài)口令的效果很好，錯誤接受率低于1%，可有效防范冒充，保證了系統(tǒng)的可靠性.

［1］王云平.國外大學(xué)實驗室管理及其對國內(nèi)開放實驗室的啟示［J］.實驗技術(shù)與管理，2010，27（3）：149－151.

［2］HONG Q Y，KWONG S.Discriminative training for speaker identification based on maximum model distance algorithm［C］∥IEEE International Conference on Acoustics，Speech，and Signal Processing.Montreal：IEEE Press，2004：25－28.

［3］張彩紅，洪青陽，陳燕.基于GMM－UBM 的說話人確認(rèn)系統(tǒng)的研究［J］.心智與計算，2007，1（4）：420－425.

［4］陳燕，洪青陽，張彩虹.聲紋識別在司法身份鑒定中的應(yīng)用［J］.心智與計算，2008，2（1）：1－7.

［5］REYNOLDS D A.Speaker identification and verification using Gaussian mixture speaker models［J］.Speech Communication，1995，17（1／2）：91－108.

［6］REYNOLDS D A，QUATIERI T F，DUNN R B.Speaker verification using adapted Gaussian mixture models［J］.Digital Signal Processing，2000，10（1／2／3）：19－41.

［7］韓紀(jì)慶，張磊，鄭鐵然.語音信號處理［M］.北京：清華大學(xué)出版社，2004：200－213，239－241.

［8］HONG Qing－yang，WANG Sheng，LIU Zhi－jian.A robust speaker－adaptive and text－prompted speaker verification system［J］.Lecture Notes in Computer Science，2014，8833：385－393.

［9］盧暢.基于指紋檢測識別的開放式實驗室管理系統(tǒng)研究與設(shè)計［J］.實驗室研究與探索，2013，32（12）：211－215.

［10］DODDINGTON G R，PRZYBOCKI M A，MARTIN A F，et al.The NIST speaker recognition evaluation：Overview，methodology，systems，results，perspective［J］.Speech Communication，2000，31（2／3）：225－254.

［11］DEHAK N，KENNY P，DEHAK R，et al.Front－end factor analysis for speaker verification［J］.IEEE Transactions on Audio，Speech，and Language Processing，2011，19（4）：788－798.