鄭 方 李藍天 張 慧 艾斯卡爾·肉孜
1(清華信息科學技術國家實驗室技術創(chuàng)新和開發(fā)部語音和語言技術中心 北京 100084)2(清華大學信息技術研究院語音和語言技術中心 北京 100084)3(清華大學計算機科學與技術系 北京 100084)4(貴州大學科技學院 貴陽 550001)(fzheng@tsinghua.edu.cn)
?
聲紋識別技術及其應用現(xiàn)狀
鄭 方1,2,3李藍天1,2,3張 慧4艾斯卡爾·肉孜1,2,3
1(清華信息科學技術國家實驗室技術創(chuàng)新和開發(fā)部語音和語言技術中心 北京 100084)2(清華大學信息技術研究院語音和語言技術中心 北京 100084)3(清華大學計算機科學與技術系 北京 100084)4(貴州大學科技學院 貴陽 550001)(fzheng@tsinghua.edu.cn)
隨著信息技術的快速發(fā)展,如何準確認證一個人的身份、保護個人隱私和保障信息安全,成為當前亟需解決的問題.與傳統(tǒng)身份認證方式相比,生物特征識別身份認證技術在使用過程中具有不會丟失、被盜或遺忘的特性;其不但快捷、方便,而且準確、可靠.聲紋識別作為當前最熱門的生物特征識別技術之一,在遠程認證等應用領域中具有獨特優(yōu)勢,受到了越來越多的關注.以聲紋識別技術及其應用現(xiàn)狀為主線,將依次介紹聲紋識別的基本概念、發(fā)展歷程、應用現(xiàn)狀及其行業(yè)標準化現(xiàn)狀;綜述聲紋識別所面臨的各類問題及其解決方案;最后對聲紋識別技術以及應用的發(fā)展前景進行展望.
生物特征識別;身份認證;聲紋識別;發(fā)展歷程;技術應用
在我國古代戰(zhàn)亂時期,官兵進出城池通過對照預先設定的口令判斷是敵是友;在現(xiàn)實生活中,我們每天通過鑰匙或電子卡進出家門;在上網(wǎng)過程中,用戶的賬戶和密碼是登錄某網(wǎng)站或某郵箱進行下一步操作的渠道;在一些電子支付中,通過發(fā)送驗證碼到用戶手機讓其輸入進行支付確認…….上述提到的口令、鑰匙、電子卡、賬戶密碼以及支付驗證碼都代表了認證操作者的相關信息,但在科技和互聯(lián)網(wǎng)迅速發(fā)展的今天,傳統(tǒng)身份認證顯然已不能滿足用戶對個人信息及財產(chǎn)保護的需求.口令易被泄露、鑰匙或電子卡易丟失和被復制、賬戶和密碼易被遺忘和攻擊、驗證碼易被截取等一系列的安全隱患所帶來的事故時有發(fā)生.因此,傳統(tǒng)認證方式將逐漸成為歷史,而生物特征認證方式將閃亮登場.
在“無處不賬戶、無處不密碼”的時代,人們常常因為遺忘或丟失密碼而感到煩惱,生物特征認證技術的出現(xiàn)無疑帶來了更便捷、高效的服務方式.生物特征可“隨身攜帶”,可隨時隨地使用人們身上的生物特征來對自己的身份進行認證,是“用自己來識別自己”的一門技術.顯然,在使用生物特征的認證過程中,人們無需擔心遺忘、丟失.此外,生物特征還有防偽性好、不易被改造和竊取等優(yōu)點.有關新聞報道和預測指出,未來明文密碼將成為歷史,各種口令也將不復存在,生物特征認證技術將取而代之.
生物特征可分為2類,包括生理特征和行為特征[1].常見的生理特征有指紋、掌紋、人臉、虹膜、視網(wǎng)膜等;常見的行為特征有聲紋、簽名、心跳等.除此之外,生物特征還有手形、步態(tài)、DNA、味紋、血管紋路等.生物特征代表著每個人所固有的特點,它具有普遍性、唯一性、穩(wěn)定性、不易復制性等,但在實際應用中,這些生物特征的認證都有其一定的局限性.例如手指、手掌蛻皮或磨損的情況下會使身份認證辨認度降低;不法分子通過戴指模躲過指紋認證系統(tǒng)掩蓋其真實身份以逃避司法追究;虹膜識別技術需要昂貴的攝像頭聚焦和較好的光源;視網(wǎng)膜識別技術要求激光照射眼球的背面以獲取視網(wǎng)膜特征的唯一性,故可能會影響使用者的健康,并且視網(wǎng)膜身份認證技術的使用性不是很好,研究成本也高;而在2015年10月21日新聞報道中,“趙薇‘被賣房’”案件表明人臉識別系統(tǒng)也存在一定的風險性.
與其他生物特征相比,作為行為特征的聲紋具有以下特點[2]:
1) 蘊含聲紋特征的語音獲取方便、自然,在采集過程中涉及到的用戶個人隱私信息較少,因此使用者更易接受;
2) 語音采集裝置成本低廉,使用簡單,一個麥克風即可,在使用通訊設備(如電話、手機)時更無需額外的錄音設備;
3) 配合語音識別技術,可使聲紋口令動態(tài)變化而無需擔心密碼遺忘、丟失和竊取問題,防止錄音假冒,因此也尤為適合遠程身份認證.
為此,本文以聲紋識別技術為主線,介紹聲紋識別技術的基本概念、應用領域以及聲紋識別在實際應用中所存在的問題與對應解決方案;最后,展望聲紋識別技術在身份認證領域的發(fā)展前景.
在日常生活中,我們時時刻刻都在從外界接受和向外界傳達著各種信息,語音信息則是其中重要的一部分.在語音領域中,人的語音通常被定義為人的發(fā)音器官所發(fā)出的、帶有一定實際含義的聲音,也常常被研究者認為是語言的發(fā)音符號.音頻信號的處理在人工智能和機器學習領域研究中具有很重要的地位.人類語音中含有各類豐富的信息,既有豐富的說話人個性信息和發(fā)音的內容信息,也有錄制環(huán)境的噪聲信息、信道信息等等.
聲紋其實就是對語音中所蘊含的、能表征和標識說話人的語音特征,以及基于這些特征(參數(shù))所建立的語音模型的總稱[3],而聲紋識別是根據(jù)待識別語音的聲紋特征識別該段語音所對應的說話人的過程[3].與指紋類似,每個人在說話過程中所蘊含的語音特征和發(fā)音習慣幾乎是獨一無二的,就算被模仿,也改變不了話者最本質的發(fā)音特性和聲道特征.有相關科學研究表明,聲紋具有特定性和穩(wěn)定性等特點,尤其在成年之后,可以在相對長的時間里保持相對穩(wěn)定不變.聲紋是一種行為特征,由于每個人在講話時使用的發(fā)聲器官如舌頭、牙齒、口腔、聲帶、肺、鼻腔等在尺寸和形態(tài)方面有所差異,以及年齡、性格、語言習慣等多種原因,加之發(fā)音容量大小和發(fā)音頻率不同,在發(fā)音時千姿百態(tài),因而導致這些器官發(fā)出的聲音必然有著各自的特點.可以說任何2個人的聲紋圖譜都不盡相同.
聲紋識別技術又稱說話人識別技術,就是基于這些信息來探索人類身份的一種生物特征識別技術.這種技術基于語音中所包含的說話人特有的個性信息,利用計算機以及現(xiàn)在的信息識別技術,自動地鑒別當前語音對應的說話人身份[4-5].聲紋識別與語音識別不同,聲紋識別的過程是試圖找到區(qū)別每個人的個性特征,而語音識別則是側重于對話者所表述的內容進行區(qū)分.在實際應用中往往把語音識別技術和聲紋識別技術結合起來應用,以提高聲紋身份認證系統(tǒng)的安全性能.
聲紋識別是一類典型的模式識別問題,其主要包含說話人模型訓練和測試語音識別2個階段,圖1是一個基本的說話人識別框架.
1) 訓練階段.對使用系統(tǒng)的說話人預留充足的語音,并對不同說話人語音提取聲學特征,然后根據(jù)每個說話人的語音特征訓練得到對應的說話人模型,最終將全體說話人模型集合在一起組成系統(tǒng)的說話人模型庫.
2) 識別階段.說話人進行識別認證時,系統(tǒng)對識別語音進行相同的特征提取過程,并將語音特征與說話人模型庫進行比對,得到對應說話人模型的相似性打分,最終根據(jù)識別打分判別得到識別語音的說話人身份.
圖1 基本的說話人識別系統(tǒng)框架
1.1 聲紋識別的分類
按照不同的分類角度,聲紋識別可大致分為以下幾類.
1.1.1 聲紋辨認和聲紋確認
聲紋識別根據(jù)實際應用的范疇可分為聲紋辨認和聲紋確認[5].這2類任務的識別目標略有不同.聲紋辨認是指判定待測試語音屬于目標說話人模型集合中哪一個人,是一個“多選一”的選擇問題.而聲紋確認是確定待識別的一段語音是否來自其所聲明的目標說話人,是一個“一對一”的判決問題.
對于聲紋識別辨認來說,根據(jù)測試識別來自說話人范圍的不同,說話人辨認又可劃分為閉集識別和開集識別[5].閉集識別是指待測試語音必定屬于目標說話人集合中的某一位,即待識別語音為集內說話人;所謂開集識別是指待識別語音的發(fā)音者可能不屬于目標說話人集合中的任何一位.
除此之外,根據(jù)實際應用場景,聲紋識別還包括說話人檢測(即檢測目標說話人是否在某段語音中出現(xiàn))和說話人追蹤(即以時間為索引,實時檢測每段語音所對應的說話人)[6].
1.1.2 文本相關、文本無關和文本提示
按照待識別語音的文本內容,聲紋識別可分為文本無關(text-independent)、文本相關(text-dependent)和文本提示(text-prompted)[5]3種.文本無關是指說話人識別系統(tǒng)對于語音文本內容無任何要求,說話人的發(fā)音內容不會被預先限定,在訓練和識別階段說話人只需要隨意地錄制達到一定長度的語音即可;而文本相關是指說話人識別系統(tǒng)要求用戶必須按照事先指定的文本內容進行發(fā)音.對比這2類說話人識別,文本相關的說話人識別的語音內容匹配性優(yōu)于文本無關的說話人識別,所以一般來說其系統(tǒng)性能也會相對好很多,但是對說話人預留和進行識別時語音的錄制要求更高并且識別文本易于竊??;而文本無關的說話人識別使用更加方便靈活,具有更好的推廣性和適應性.
為此,綜合二者的優(yōu)點,文本提示型的說話人識別應運而生,其是指識別系統(tǒng)從說話人的訓練文本庫中隨機提取若干詞匯組合后提示用戶發(fā)音,這樣不僅避免了文本相關的假冒錄音闖入,并且實現(xiàn)相對簡單、安全性高,是說話人識別技術的一大熱點.
1.2 聲紋識別的性能評價
根據(jù)聲紋識別任務的不同,其系統(tǒng)性能的評價指標也略有不同.對于聲紋確認系統(tǒng),通常采用DET曲線、等錯誤率(equal error rate,EER)和檢測代價函數(shù)DCF(detection cost function);而聲紋辨認系統(tǒng)則根據(jù)測試集合的不同,選擇不同的系統(tǒng)評價指標.
1.2.1 聲紋確認系統(tǒng)性能指標
1) DET曲線及等錯誤率EER[7]
聲紋確認識別系統(tǒng)的性能評價主要看2個參量,分別是錯誤接受率(false acceptation rate,FAR)和錯誤拒絕率(false rejection rate,FRR).FAR是指將非目標說話人判別為目標說話人造成的錯誤.FRR是指將目標說話人誤識成非目標說話人造成的錯誤.二者的定義如下:
(1)
(2)
在聲紋識別系統(tǒng)中,可通過設定不同的閾值對FAR和FRR進行權衡.系統(tǒng)所要求的安全性越高則設定閾值應越高,此時接受條件就越嚴格,即FAR越低,但FRR越高;反之,如果系統(tǒng)追求較好的用戶體驗性(通過率高),則閾值應越低,此時接受條件就越寬松,F(xiàn)AR就越高,但FRR越低.一般采用檢測錯誤權衡曲線(detection error trade-offs curve, DET)來反映2個錯誤率之間的關系:對一個特定的聲紋識別系統(tǒng),以FAR為橫坐標軸,以FRR為縱坐標軸,通過調整其參數(shù)得到的FAR與FRR之間關系的曲線圖就是DET曲線(參見圖2).顯然,DET曲線離原點越近系統(tǒng)性能越好.
圖2 檢測錯誤權衡曲線示例
在DET曲線上,第1象限角平分線與其的交點處,F(xiàn)AR與FRR值相等,該錯誤率稱為EER.顯然,EER值越小系統(tǒng)性能應該越好,它代表了聲紋識別系統(tǒng)的一個大約性能,是衡量系統(tǒng)性能的重要參數(shù).
2) 檢測代價函數(shù)DCF[5]
在美國國家標準技術研究所(National Institute of Standards and Technology, NIST)的評測中,還定義了FAR和FRR的加權和函數(shù),即檢測代價函數(shù)DCF作為系統(tǒng)性能的評價指標.DCF的定義如下:
(3)
其中,CMiss和CFalseAlarm分別表示錯誤拒絕和錯誤接受的權重,表示目標說話人的先驗概率.針對不同的應用場景,對FAR和FRR定義不同的權重,并用最小DCF即minCDCF來表示系統(tǒng)能夠取得的最優(yōu)性能.
1.2.2 聲紋辨認系統(tǒng)性能指標
通常情況下,在開集聲紋辨認系統(tǒng)中仍可采用等錯誤率EER和檢測代價函數(shù)DCF來評價系統(tǒng)性能指標;而在聲紋閉集辨認系統(tǒng)中通常采用正確識別率(簡稱識別率)、錯誤識別率(簡稱為錯誤率)以及前N正確率(TopNcorrectness)作為評價系統(tǒng)性能的指標.
識別率是指待識別語音能夠從目標說話人集合中正確找到所對應說話人的概率.通常認定待識別語音與目標說話人集合中相似度最大的作為辨認說話人,其辨認正確的比率又可稱為Top-1辨認正確率;若目標說話人集合中相似度最大的N個辨認說話人包含正確說話人時認為辨認正確,如此統(tǒng)計出來的辨認正確的比率稱為Top-N辨認正確率.
1.3 聲紋識別的發(fā)展歷程
“聞其聲而知其人”,通過人的聽覺來判斷說話人的聲音具體來自哪一個人,古已有之.以語音作為身份認證的手段,最早可追溯到17世紀60年代英國查爾斯一世之死的案件審判中.對說話人識別的研究始于20世紀30年代[8].自1937年的Lindbergh兒子被拐騙事件開始,人們針對語音中的說話人信息開展了科學的探索和研究.1945年,Bell實驗室的Kesta等人借助肉眼觀察,完成語譜圖匹配,并首次提出了“聲紋”的概念;且在1962年第1次介紹了采用此方法進行說話人識別的可能性.1966年,美國法院的第1次采用“聲紋”進行了取證.Bell實驗室的Pruzanshy提出的基于模板匹配(template matching)和統(tǒng)計方差分析的說話人識別方法[9],引起信號處理領域許多學者的注意,興起了說話人研究的高潮.1969年Luck首先將倒譜技術用于說話人的識別,得到了較好的效果.Atal等人[10]將線性預測倒譜系數(shù)(linear predictive cepstrum coefficient, LPCC)用于說話人識別,提高了識別系數(shù)的精度.Doddington等人[11]提出了利用共振峰進行說話人確認,1972年,Atal[12]用提出的基頻輪廓進行說話人識別.
從20世紀70年代末至80年代末,說話人識別的研究重點轉向對聲學特征參數(shù)的處理以及新的模式匹配方法上.研究者相繼提出了LPC譜系數(shù)[13]、LSP譜系數(shù)、感知線性預測系數(shù)(perceptual linear predictive, PLP)[14]、梅爾倒譜系數(shù)(Mel-frequency cepstrum coefficient, MFCC)[15]等說話人識別特征參數(shù).此時,動態(tài)時間規(guī)整法(dynamic time warping, DTW)[16]、矢量量化法(vector quantization, VQ)[17]、隱馬爾科夫模型(hidden Markov model, HMM)[18]、人工神經(jīng)網(wǎng)絡法(artificial neural network, ANN)[19]等技術在語音識別領域得到了廣泛的運用,也成為說話人識別的核心技術.
20世紀90年代以后,尤其是Reynolds[20]對高斯混合模型(Gaussian mixture model, GMM)作了詳細介紹后,GMM以其簡單、靈活、有效以及較好的魯棒性,迅速成為目前與文本無關的說話人識別中的主流技術,將說話人識別研究帶入一個新的階段.2000年,Reynolds等人[21]在說話人確認任務中提出了高斯混合模型-通用背景模型GMM-UBM (Gaussian mixture model-Universal background model)結構,為說話人識別從實驗室走向實用作出了重要貢獻.
進入21世紀,在傳統(tǒng)GMM-UBM的方法上,Kenny,Dehak等人先后提出了聯(lián)合因子分析(Joint factor analysis, JFA)[22]和i-vector模型[23],將說話人模型映射到低維子空間中,克服了GMM-UBM系統(tǒng)中高斯分量互相獨立的局限性,提高了系統(tǒng)性能.為進一步提高模型的區(qū)分性能力,相關的區(qū)分性訓練方法也應運而生.此外,隨著深度機器學習在語音識別、圖像處理等領域的快速發(fā)展和成功應用,近年來,基于深度學習的相關方法也逐漸應用到說話人識別中[24-25],并取得了不俗的成效.
聲紋識別技術早已在西方許多國家開始應用,如:1998年歐洲電信聯(lián)盟應用聲紋識別技術在電信與金融結合領域,完成了cAvE計劃;2004年美國最大的銀行自動出納機制造商NCR分部,開始試驗自動出納機的聲紋核實效果;同年5月美國加利福尼亞州Beep Card公司發(fā)明了一種帶有特殊安全功能的信用卡,這種信用卡只有在識別出主人的聲音后確認身份后才能正常操作;2006年,荷蘭的ABN AMRO銀行率先使用了美國Voice Vault的聲紋識別系統(tǒng),借助預先錄制的個人私密問題進行身份驗證.目前在國外,聲紋識別技術已經(jīng)廣泛應用到軍事、國防、政府、金融等多個領域.
國內對聲紋識別技術的研究起步稍晚于國外,但經(jīng)過國內研究人員的共同努力,聲紋識別技術在國內已經(jīng)得到了較好的發(fā)展與應用.2011年中國建設銀行與北京得意公司合作,構建了基于說話人識別技術的聲紋電話銀行系統(tǒng);2013年11月,廈門天聰公司與廈門公安局指揮中心合作,搭建廈門“110”報警聲紋采集與輔警系統(tǒng).2013年12月,北京得意公司與中大信通合作的社區(qū)矯正項目,利用聲紋識別技術為深圳司法局提供服務.
根據(jù)實際應用范疇,下文將從聲紋辨認和確認等方面詳細介紹聲紋識別技術的應用,并總結相關的行業(yè)及國家標準.
2.1 聲紋辨認技術領域
聲紋辨認技術通常廣泛應用于公安司法、軍隊國防領域中,如:刑偵破案、罪犯跟蹤、國防監(jiān)聽等[5,26-27];
1) 監(jiān)聽跟蹤
恐怖分子在作案前后通常會與組織、同伙保持聯(lián)系,通訊中可能會包含關鍵內容.因此,在通信系統(tǒng)或安全監(jiān)測系統(tǒng)中預先安裝聲紋辨認系統(tǒng),可通過通訊跟蹤和聲紋辨別技術對罪犯進行預防和偵查追捕.據(jù)悉,拉登的落網(wǎng)正是美國情報部門充分利用了聲紋鑒別技術.此外,聲紋辨認技術還用于對滿刑釋放的犯罪嫌疑人進行監(jiān)聽和跟蹤,可有效阻止犯罪嫌疑人再次犯科,也利于對其進行及時逮捕.
2) 國防安全
聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現(xiàn),繼而對交談內容進行跟蹤(戰(zhàn)場環(huán)境監(jiān)聽);當通過電話發(fā)出軍事指令時,可以對發(fā)出命令者進行身份辨認(敵我指戰(zhàn)員鑒別).目前該技術在國外軍事方面已經(jīng)有所應用.據(jù)報道,2001年4月1日迫降在我國海南機場的美軍EP-3偵察機就載有類似的聲紋識別偵聽模塊.
3) 公安技偵
犯罪嫌疑人通過非法渠道到獲取受害者的個人信息,通過電話勒索、綁架等刑事犯罪案件時有發(fā)生.如:2015年9月21日,中國警察網(wǎng)新聞報道了一起電話“勒索‘消災費’每天恐嚇數(shù)百名學生家長”的案件;2015年11月19日報道了富豪被綁架勒索的案件等.對于此類的刑事犯罪案件,公安司法人員可利用聲紋辨認技術,從通話語音中鎖定嫌疑犯人、減小刑偵范圍.在車站、飛機、碼頭等公共安檢點裝入聲紋辨認系統(tǒng),可以有效對危險人物進行鑒別和提示,降低肉眼識別所帶來的錯誤,提高人們生命財產(chǎn)的安全性.
2.2 聲紋確認技術領域
隨著互聯(lián)網(wǎng)的快速發(fā)展,便捷的網(wǎng)上交易越來越受人們的親睞,因而遠程身份認證的安全性亟待加強.聲紋確認技術可以滿足網(wǎng)上交易、支付、遠程身份認證的安全性需要,并已逐漸廣泛應用于證券交易、銀行交易、個人設備聲控鎖、汽車聲控鎖、公安取證、信用卡識別等[5,26-27].
1) 網(wǎng)絡支付
2014年中國互聯(lián)網(wǎng)支付用戶調研報告顯示,網(wǎng)上支付、手機支付、第三方支付已成為現(xiàn)代人購物付款的主流方式.顯然,網(wǎng)絡支付的安全性應當重視起來,網(wǎng)絡支付的身份認證也愈發(fā)重要.近年來,有相關媒體接二連三地報道支付寶被盜刷、網(wǎng)銀被轉出等案件.為了防止這類案件的再次發(fā)生,將聲紋確認技術加入到交易支付中,通過動態(tài)密碼口令等方式進行個人身份認證,有效地提高了個人資金和交易支付的安全性.例如,荷蘭ABN AMRO銀行、澳大利亞國家銀行National借助聲紋識別系統(tǒng)實現(xiàn)用戶身份認證;全球互聯(lián)網(wǎng)支付系統(tǒng)的領導者Voice Commerce Group也于2008年推出了基于聲紋識別的Voice Pay服務.目前在國內,由北京得意公司提供的聲紋認證技術正在中國建設銀行等領域推廣使用.
2) 聲紋鎖控
據(jù)媒體報道,近幾年數(shù)以萬計的騰訊QQ用戶出現(xiàn)了賬號被盜取的情況.盜號者通過聯(lián)系用戶的親朋好友進行金錢詐騙,給用戶及其親友帶來了嚴重的損失.為了避免這類事件再次發(fā)生,有必要將聲紋認證代替明文密碼認證.例如,微信已上線使用基于聲紋動態(tài)口令的登錄方式,極大提高了使用者賬號的安全性.隨著聲紋認證技術的成熟,相信聲紋控鎖技術將被廣泛地應用在各類賬戶聲控密碼鎖、電腦聲控鎖、汽車聲控鎖等領域中.
3) 生存認證
有關資料顯示,全國每年都有上萬人甚至更多的人冒領社保達數(shù)億元之多.為了防止養(yǎng)老金被冒領,進一步完善對養(yǎng)老保險金的管理和監(jiān)督,社保局可通過預裝聲紋身份認證系統(tǒng),再結合人工輔助手段,對領養(yǎng)老金者進行現(xiàn)場身份認證或當本人無法親臨現(xiàn)場時可通過電話進行遠程身份確認,有效地阻止國家社保養(yǎng)老金的流失,提高社保服務機構工作的準確性和安全性.與其他生物認證技術相比,聲紋認證技術具有更強的遠程操控性,可快捷靈活地應用于遠程身份認證中.
2.3 其他應用領域
除了上述相關應用領域,說話人檢測和追蹤技術也有著廣泛的應用.在含有多說話人的語音段中,如何高效準確地把目標說話人檢測標識出來有著十分重要的意義.例如,在現(xiàn)有音頻視頻會議系統(tǒng)中,通常設有多麥克風陣列用以實時記錄會議中每一個說話人的講話.通過將說話人追蹤技術嵌入該會議系統(tǒng),可實時標識每段語音所對應的說話人,實時追蹤“who spoke when”.該技術廣泛應用于遠程會議中,方便會議紀要總結,有利于提高公司的工作效率.
2.4 聲紋識別的行業(yè)及國家標準
為了使生物特征識別技術得到更好的發(fā)展,國際標準化組織(International Organization for Standardization, ISO)對生物特征識別的相關術語及其產(chǎn)業(yè)技術制訂了標準和規(guī)范,其中涵括了聲紋識別技術.我國國家標準和相關行業(yè)權威部門也針對聲紋識別技術制定了一系列的標準及規(guī)范,如[27]:
由北京得意公司、清華大學智能技術與系統(tǒng)國家重點實驗室(語音與語言技術中心)和中國電子技術標準化研究所共同起草的《自動聲紋識別(說話人識別)技術規(guī)范》(SJT 11380—2008)于2008年3月11日正式頒布實施,該標準的內容主要包括聲紋識別(說話人識別)的術語與定義、數(shù)據(jù)交換格式和應用編程接口,適用于各種計算機、網(wǎng)絡和智能設備的聲紋識別系統(tǒng).該標準是我國第1個關于聲紋識別(說話人識別)的標準,其頒布很好地推動和規(guī)范了我國的聲紋識別產(chǎn)業(yè)的發(fā)展.
由清華大學、中國科學院自動化研究所、中國科學院計算技術研究所等單位共同起草的《安防生物特征識別應用術語》(GAT 893—2010)標準于2010年12月1日起實施,該標準規(guī)范化了生物特征識別技術通用術語,其中包括聲紋識別專用術語的定義規(guī)范.該標準的頒布實施給生物特征識別技術的研究帶來了方便,同時也避免了研究人員因濫用自定義術語而對技術研究造成不良影響.
2014年9月19日,由全國安防標委會人體生物特征識別應用分技術委員會正式發(fā)出公告,《安防聲紋確認應用算法技術要求和測試方法》(GAT 1179—2014)標準已通過審核批準予以頒布,并于2014年10月1日開始實施.該標準是由清華大學語音和技術中心和北京得意公司為主要單位共同起草的.該標準首次提出聲紋識別安全分級的概念.它的頒布在一定程度上促進了國內聲紋技術在安防行業(yè)的發(fā)展應用.
此外,全國信息標準化委員會生物特征識別分技術委員會(SACTC28SC37)也設有生物特征識別標準委員會,其生物特征識別標準委員會也對生物特征識別在其應用領域提供了一些標準.這將對生物特征識別技術的發(fā)展起到推動性的作用.然而,目前這些標準對于生物特征識別行業(yè)的發(fā)展還是遠遠不夠的,更多更精細的標準有待制定,以此滿足生物特征識別技術和產(chǎn)業(yè)的發(fā)展.
近年來,聲紋識別技術發(fā)展迅速,并在許多領域得以應用.然而,實際應用中的復雜環(huán)境對聲紋識別系統(tǒng)的魯棒性提出了巨大的挑戰(zhàn).為此,許多高校、科研機構和公司企業(yè)針對聲紋識別面臨的各類問題開展了一系列探究,并已提出實施了相應解決方案.本節(jié)將羅列聲紋識別技術所面臨問題和對應解決方案[28].
3.1 環(huán)境噪音
實際應用中,人們所處的錄音環(huán)境總是包含著各種類型的噪音,如白噪音、音樂播放、開關門的聲音等等.這些噪音不僅在一定程度上淹沒了語音信號中所蘊含的說話人信息,并且使得聲紋系統(tǒng)無法獲取準確的說話人聲紋特征.此外,環(huán)境噪音通常是不可預知的,這使得聲紋識別性能具有極大的不確定性.為了解決環(huán)境噪音對聲紋識別系統(tǒng)的影響,關于噪音魯棒性的研究陸續(xù)展開;其主要包括2個方向,一方面是提高聲紋特征的噪音魯棒性;另一方面是建立噪音魯棒的聲紋模型.針對聲紋特征,研究者提出了頻譜減法(spectral subtraction)用于解決固定環(huán)境噪音[29-30];RASTA濾波法用以消除信道緩慢變化的噪音[31];也有許多算法用以提高特征魯棒性,如主成分分析法[32]、線性判別法[33]和異方差線性判別分析[34]等.針對模型的噪音魯棒性,其通常采用模型補償算法[35-36]來減少測試和訓練之間的噪音失配程度.
3.2 信道失配
信道失配是影響聲紋識別性能的另一大因素.在實際應用中,語音信號可通過各式各樣的錄音設備錄制得到,如不同麥克風、手機、固定電話、采訪錄音筆等等.而錄音設備的不同會直接導致語音信號傳輸信道的變化,使得語音信號發(fā)生頻譜畸變,進而嚴重影響語音聲學特征和說話人模型對說話人特性的表征能力,造成測試語音聲學特征與說話人模型在聲學空間分布上的失配.這種失配在很大程度上降低了說話人識別系統(tǒng)的性能.現(xiàn)有解決信道失配問題的方法也有很多,如傳統(tǒng)GMM-UBM框架下的特征變換(feature transformation)[37-39]、模型補償(model compensation)[40-41]、分數(shù)歸一化(score normalization)[21,42],JFAi-vector模型與區(qū)分性方法(如WCCN[43],LDA[23,44],NAP[45],PLDA[46-47]等)的結合,在基于神經(jīng)網(wǎng)絡的說話人識別系統(tǒng)中通過消除一些網(wǎng)絡隱藏節(jié)點[48]等.
3.3 多說話人
多說話人是指在同一時刻有2個或2個以上的人同時說話,從而形成了多說話人的混合語音,其聲紋識別的復雜性遠大于單個說話人.在實際應用中,說話人在聲紋語音錄制時往往會摻雜其他說話人,如果系統(tǒng)不能實現(xiàn)多說話人的語音分離,將直接影響到聲紋識別系統(tǒng)的性能.為此,研究者提出了說話人分割技術,對多說話人混合語音進行分割和聚類處理,捕捉獲取語音信號各時間點所對應的說話人信息[49].根據(jù)分割聚類過程的不同,可分為同步語音分割聚類和異步語音分割聚類.前者指聲紋系統(tǒng)在分割語音片段的同時判別語音片段所對應的說話人類別;后者是將多說話人的混合語音分割成若干個獨立的說話人語音片段,而后再將同一說話人的語音片段聚在一起進行每個說話人身份認證[50].
當前常用的同步說話人語音分割聚類的算法有:基于E-HMM算法自上而下[51]、自下而上[52-53]的方法;為解決自上而下初始參數(shù)設定的問題,Imseng等人[54]提出了具有魯棒性的自適應方法;由于同步分割聚類系統(tǒng)主要采用基于HMM的方法,為確定HMM狀態(tài)數(shù),F(xiàn)ox等人[55]先后又提出了基于HDP-HMM的分割聚類算法和粘性的HDP-HMM(sticky HDP-HMM)算法.
3.4 說話人自身
說話人自身的影響是指自身的一些因素對聲紋識別性能帶來的影響.同一個說話人的聲音具有易變性,會受其身體狀況、時變、情感、語速以及語言等各種因素的影響,這些因素的影響也是當前語音信號處理的重要難點[56].針對以上提到的這些影響因素,下面將逐一介紹與剖析.
1) 身體狀況.語音發(fā)出者可能由于身體不適,如感冒、喉炎、鼻塞及其他原因,引起聲音變化,這種變化會使聲紋特征發(fā)生畸變,導致聲紋識別的準確度降低.早在1996年,Tull等人[57-58]已經(jīng)對感冒在說話人識別中所帶來的影響展開了相關的研究.該研究分別在感冒情況下和正常情況下的聲道、基頻和梅爾倒譜系數(shù)、共振峰等信號參數(shù)進行了分析.研究發(fā)現(xiàn),感冒情況下的語音信號中含有由于嗓子嘶啞和咳嗽所產(chǎn)生的噪音,而這種噪音在正常語音中是不存在的.
2) 時變.人的聲道會隨著年齡的增長而變化,因此同一個人在不同年齡階段所發(fā)出的聲音也是有所不同的[59-60].在實際應用中發(fā)現(xiàn),聲紋預錄和聲紋驗證通常不在同一個時間段甚至相隔了很長時間,而這種時間間隔會對聲紋識別系統(tǒng)性能造成明顯的衰減[61-62].為提高聲紋識別系統(tǒng)的時變魯棒性,研究者提出了一系列方法.如定期要求用戶進行聲紋模型更新,或者借助最新用戶數(shù)據(jù)完成用戶聲紋模型自適應更新[63-66].從特征域角度,有研究者提出了基于F-ratio準則的頻帶區(qū)分性特征算法和基于性能驅動的頻帶彎折算法[67-68],其強調說話人個性信息的同時弱化時變信息,提取了時變魯棒的聲紋特征.
3) 情感.情感屬于語音中的一種信息,同一個人在不同情感下所發(fā)出的語音是有所不同的.在實際應用中,用戶情緒不可能是一成不變的,其通常會受各種因素的影響而產(chǎn)生不同情緒化的語音,其對說話人的音量、語速、語調均會產(chǎn)生一定的影響.有研究表明,在不同的情緒狀態(tài)(喜、怒、哀、樂)下,每種狀態(tài)的頻譜分布有所不同[69-71].為此,針對情感對聲紋識別的影響,研究者提出了附加情感的模型訓練方法[72],以此獲取情感相關的聲紋模型;此外,還有研究者提出了基于特征和模型聯(lián)合優(yōu)化的方法[73-74],將情感特征投影到中性特征空間,進而弱化情感信息的影響.
4) 語速.語速是對一個人說話快慢的度量,其是一種高層的說話人信息.對同一個人而言,當其在重復同一段話時,幾乎不可能實現(xiàn)語音的時間同步,而這就是由語速快慢而造成的[75].有研究表明,語速對聲紋識別系統(tǒng)有較大的影響,語速過快或者過慢均會使系統(tǒng)性能降低[76].針對語速的研究尚少,目前是在文本相關的聲紋識別系統(tǒng)上采用時間對準的方法降低語速對系統(tǒng)性能的影響[77];而對于文本無關的聲紋識別,由于無法預知時間對準信息,因此對語速的研究較為棘手.
5) 跨語言.跨語言是指說話人在進行聲紋預留和聲紋驗證時使用不同的語言,如:說話人使用漢語進行模型訓練,而用英語進行聲紋驗證.實驗表明,與同語言識別結果相比,跨語言聲紋識別準確率大幅降低[78].在這個多民族、多國家、多文化的時代,單一的語言已經(jīng)不能滿足人們工作和學習交流的需要,因此,跨語言聲紋識別是必須要解決的問題.針對跨語言聲紋識別已經(jīng)有了一些成果,如在聲紋建模時采用多種語言的語音,訓練一個多語言說話人模型,提高模型的語言魯棒性[78];提取更加魯棒的聲紋特征,削弱語言信息的影響[79];提出語言因子補償算法[80],試圖將語音中的語言因子信息消除,進而降低跨語言對系統(tǒng)的影響.
3.5 假冒闖入
早在20世紀90年代,研究者已關注到生物特征識別中的假冒闖入問題,并針對指紋、人臉識別提出了一系列防假冒闖入的方法和對策.隨著聲紋識別技術的快速發(fā)展與廣泛應用,針對聲紋識別的防假冒闖入研究也逐漸興起[81-83].聲紋識別的防假冒闖入場景主要分為聲音模仿、語音合成、聲音轉換和錄音重放4個方面.
1) 聲音模仿.模仿是最早的研究方向[84],研究者認為模仿更多體現(xiàn)的是對韻律和講話風格的模仿,而未從根本上改變聲道特性.因此,模仿更多是對人耳的欺騙,而對聲紋識別系統(tǒng)影響不大[85].
2) 語音合成.近年來語音合成技術發(fā)展迅速,其可借助少量語音實現(xiàn)特定說話人的模型自適應,而后將合成得到的特定說話人語音進行聲紋系統(tǒng)假冒闖入[86-89].通過探究正常語音與合成語音在聲學特性之間的差異性(如:頻譜相位譜動態(tài)特性[88-90]、高階梅爾倒譜系數(shù)的離散度[91]、F0統(tǒng)計[92-93]等),現(xiàn)已有許多方法對策實現(xiàn)針對語音合成的闖入檢測.
3) 聲音轉換.其通常分為離線訓練和在線轉換2個過程[94],如何建立訓練闖入語音和目標語音之間的轉換函數(shù)決定了聲音轉換假冒闖入的效果.現(xiàn)有的聲音轉換檢測方法,如余弦相位譜[90]、MGDF相位譜分析[90]、基于句子層和短時的特征離散度統(tǒng)計[95-96]等.
4) 錄音重放.與前三者相比,錄音重放在實際應用中更易出現(xiàn)[81].闖入者無需任何語音學知識,僅借助簡單的錄音放音設備即可實現(xiàn)錄音重放闖入[96].與此同時,實驗表明錄音重放闖入率也較高.為此,研究者開展了一系列的研究.如:基于語譜圖,構建“語音指紋”模型[97];針對錄音重放帶來的信道變化,提出了信道檢測算法[98-99]等.
針對實際應用中的假冒闖入問題,除了上述提到的各類解決方法外,活體檢測也是一種有效地防闖入機制.活體檢測通俗地講就是判斷系統(tǒng)輸入的是預先處理得到的語音(如合成語音、轉換語音、錄音重放語音)還是真實的活體人聲.如何將活體檢測技術合理應用到聲紋識別系統(tǒng)中,對防假冒闖入和提高系統(tǒng)魯棒性具有十分重要的意義.近年來許多研究機構和公司開展了一系列研究,并提出了相應的技術方案[100-101].
3.6 短語音
對于實際應用中的聲紋識別系統(tǒng),其用戶體驗性的好壞已成為一項重要的評價指標,顯然較短的測試語音時長會帶來更好的用戶體驗;此外,在很多聲紋識別的應用領域,實際使用時無法獲取足夠長度的測試語音(如刑偵安防等領域).因此,研究較短的測試語音時長下的聲紋識別具有很強的現(xiàn)實意義.
早在1983年,研究者就注意到語音時長對說話人系統(tǒng)的性能有著直接的影響[102].然而,對于目前主流的幾種聲紋識別系統(tǒng)(GMM-UBM,i-vector,JFA),在較短測試語音條件下的系統(tǒng)性能變化均十分劇烈,且都不能取得令人滿意的效果.其原因在于短語音測試條件下,測試語音中所包含的說話人信息不均衡,進而導致訓練與識別的匹配性嚴重下降;此外,短語音條件下測試語音中的信息量太少,不足以提供充足的區(qū)分性信息,使得識別混淆度變大[2].
近些年來,針對短語音聲紋識別,研究者們也提出了一系列方法與對策.例如:從語音中篩選更具有區(qū)分性的數(shù)據(jù)[103];融合不同聲學特征獲得更魯棒的特征參數(shù)[104];結合語音識別的先驗知識構建更精細的聲紋模型[105];更合理準確的雙邊似然分計算方式[106]等.
本文對生物特征技術中的聲紋識別作了詳細介紹.綜述了聲紋識別的基本概念、應用領域、行業(yè)標準、聲紋識別所面臨問題及其解決方案,同時對現(xiàn)有和未來的潛在應用進行了介紹.
聲紋識別技術發(fā)展到今天,對所面臨問題的解決方法并未完全成熟,與實際情景中的運用還存在一定的距離,但聲紋識別技術在未來方方面面的潛在應用是有目共睹的.該技術有望應用于金融安全、公共安全、社保生存認證、社區(qū)矯正系統(tǒng)、移動互聯(lián)網(wǎng)安全、車聯(lián)網(wǎng)安全等各個領域.
目前,在實際應用中,可通過聲紋識別融合其他的生物認證方式如人臉、指紋、虹膜等技術的優(yōu)勢提高系統(tǒng)識別認證的安全性;在遠程身份認證中,可以聲紋認證為主、人工為輔對操作者進行雙重認證;在手機支付及聲紋鎖認證中,可借助動態(tài)隨機碼和語音識別以防止錄音假冒的闖入.總之,在不同的應用場合下,可根據(jù)實際的需求,靈活地使用聲紋識別認證技術.
聆聽美好聲音,科技不僅在你的身邊,還在你的聲音中.用你的聲音探索身邊的科技,用你的聲音掌控你身邊的智能設備,聲紋識別技術會讓科技更人性化,讓人們的生活更愉快、更輕松.
[1]Wikipedia. Biomerics. [OL]. [2015-12-20]. https://en.wikipedia.org/wiki/Biometrics
[2]張陳昊. 短語音說話人識別研究[D]. 北京: 清華大學計算機科學與技術系, 2014
[3]中華人民共和國電子行業(yè)標準. SJ/T 11380—2008. 自動聲紋識別(說話人識別)技術規(guī)范[J]. 信息技術與標準化, 2008 (8): 27-29
[4]Atal B S. Automatic recognition of speakers from their voices[J]. Proceedings of the IEEE,1976, 64(4): 460-475
[5]Campbell Jr J P. Speaker recognition: A tutorial[J]. Proceedings of the IEEE, 1997, 85(9): 1437-1462
[6]Wikipedia. Speaker recognition[OL]. [2015-12-20]. https://en.wikipedia.org/wiki/Speaker_recognition
[7]Martin A, Doddington G, Kamm T, et al. The DET curve in assessment of detection task performance[C] //Proc of the European Conf on Speech Communication and Technology (Eurospeech 1997). 1997: 1895-1898
[8]吳璽宏. 聲紋識別聽聲辨人[N]. 計算機世界, 2001-08-13
[9]Pruzansky S, Mathews M V. Talker-recognition procedure based on analysis of variance[J]. Journal of the Acoustical Society of America, 1965, 36(11): 2041-2047
[10]Atal B S, Hanauer S L. Speech analysis and synthesis by linear prediction of the speech wave[J]. Journal of the Acoustical Society of America, 1971, 50(2B): 637-655
[11]Doddington G R, Flanagan J L, Lummis R C. Automatic speaker verification by non-linear time alignment of acoustic parameters: US Patent 3,700,815[P]. 1972-10-24
[12]Atal B S. Automatic speaker recognition based on pitch contours[J]. Journal of the Acoustical Society of America, 1972, 52(6B): 1687-1697
[13]Makhoul J, Cosell L. LPCW: An LPC vocoder with linear predictive spectral warping[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1976: 466-469
[14]Hermansky H. Perceptual linear predictive (PLP) analysis of speech[J]. Journal of the Acoustical Society of America, 1990, 87(4): 1738-1752
[15]Vergin R, O’shaughnessy D, Farhat A. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1999, 7(5): 525-532
[16]Sakoe H, Chiba S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1978, 26(1): 43-49
[17]Burton D K, Shore J E, Buck J T. A generalization of isolated word recognition using vector quantization[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1983: 1021-1024
[18]Rabiner L R, Juang B H. An introduction to hidden Markov models[J]. ASSP Magazine, 1986, 3(1): 4-16
[19]Jain A K, Mao J, Mohiuddin K M. Artificial neural networks: A tutorial[J]. Computer, 1996, 29(3): 31-44
[20]Reynolds D. Gaussian mixture models[M] //Encyclopedia of Biometrics. Berlin: Springer, 2009: 659-663
[21]Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19-41
[22]Dehak N, Dumouchel P, Kenny P. Modeling rosodic features with joint factor analysis for speaker verification[J]. IEEE Trans on Audio, Speech, and Language Processing, 2007, 15(7): 2095-2103
[23]Dehak N, Kenny P, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 19(4): 788-798
[24]Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2014: 4052-4056
[25]Kenny P, Gupta V, Stafylakis T, et al. Deep neural networks for extracting Baum-Welch statistics for speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2014
[26]Furui S. Recent advances in speaker recognition[C] //Proc of the Audio-and Video-based Biometric Person Authentication. Berlin: Springer, 1997: 235-252
[27]Zheng T F. Prove yourself by yourself with the use of speaker recognition technology[EB/OL]. [2015-12-20]. http://cslt.riit.tsinghua.edu.cn/fzheng/R&D.htm#R&D_Invited
[28]Zheng T F, Jin Q, Li L T, et al. An overview of robustness related issues in speaker recognition[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2014). 2014: 1-10
[29]Boll S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1979, 27(2): 113-120
[30]Berouti M, Schwartz R, Makhoul J. Enhancement of speech corrupted by acoustic noise[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1979: 208-211
[31]Hermansky H, Morgan N. RASTA processing of speech[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(4): 578-589
[32]Kocsor A, Tóth L, Kuba A, et al. A comparative study of several feature transformation and learning methods for phoneme classification[J]. Journal of Speech Technology, 2000, 3(3/4): 263-276
[33]Lomax R G, Hahs-Vaughn D L. Statistical Concepts: A Second Course[M]. United States of America: Taylor & Francis Group, 2012
[34]Saon G, Padmanabhan M, Gopinath R, et al. Maximum likelihood discriminant feature spaces[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1129-1132
[35]Gales M J F, Young S J. Robust continuous speech recognition using parallel model combination[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(5): 352-359
[36]Renevey P, Drygajlo A. Statistical estimation of unreliable features for robust speech recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1731-1734
[37]Reynolds D. Channel robust speaker verification via feature mapping[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2003: 53-56
[38]Zhu D, Ma B, Li H, et al. A generalized feature transformation approach for channel robust speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2007: 61-64
[39]Vair C, Colibro D, Castaldo F, et al. Channel factors compensation in model and feature domain for speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2006: 1-6
[40]Heck L P, Weintraub M. Handset-dependent background models for robust text-independent speaker recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1997: 1071-1074
[41]Teunen R, Shahshahani B, Heck L P. A model-based transformational approach to robust speaker recognition[C] //Proc of the 6th Int Conf on Spoken Language Processing (ICSLP 2000). 2000: 495-498
[42]Auckenthaler R, Carey M, Lloyd-Thomas H. Score normalization for text-independent speaker verification systems[J]. Digital Signal Processing, 2000, 10(1): 42-54
[43]Hatch A O, Kajarekar S S, Stolcke A. Within-class covariance normalization for SVM-based speaker recognition[C] //Proc of the INTERSPEECH. 2006
[44]McLaren M, Van Leeuwen D. Source-normalised-and-weighted LDA for robust speaker recognition using i-vectors[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2011: 5456-5459
[45]Solomonoff A, Quillen C, Campbell W M. Channel compensation for SVM speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2004: 219-226
[46]Ioffe S. Probabilistic Linear Discriminant Analysis[M]. Computer Vision—ECCV 2006. Berlin: Springer, 2006: 531-542
[47]Prince S J D, Elder J H. Probabilistic linear discriminant analysis for inferences about identity[C] //Proc of the 11th Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2007: 1-8
[48]Kishore S P, Yegnanarayana B. Speaker verification: Minimizing the channel effects using autoassociative neural network models[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1101-1104
[49]Tranter S E, Reynolds D. An overview of automatic speaker diarization systems[J]. IEEE Trans on Audio, Speech, and Language Processing, 2006, 14(5): 1557-1565
[50]Kotti M, Moschou V, Kotropoulos C. Speaker segmentation and clustering[J]. Signal Processing, 2008, 88(5): 1091-1124
[51]Meignier S, Bonastre J F, Fredouille C, et al. Evolutive HMM for multi-speaker tracking system[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1201-1204
[52]Ajmera J, Wooters C. A robust speaker clustering algorithm[C] //Proc of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Piscataway, NJ: IEEE, 2003: 411-416
[53]Wooters C, Huijbregts M. The ICSI RT07s speaker diarization system[M] //Multimodal Technologies for Perception of Humans. Berlin: Springer, 2008: 509-519
[54]Imseng D, Friedland G. Tuning-robust initialization methods for speaker diarization[J]. IEEE Trans on Audio, Speech, and Language Processing, 2010, 18(8): 2028-2037
[55]Fox E B, Sudderth E B, Jordan M I, et al. A sticky HDP-HMM with application to speaker diarization[J]. The Annals of Applied Statistics, 2011, 5(2A): 1020-1056
[56]Huang C, Chen T, Li S Z, et al. Analysis of speaker variability[C] //Proc of the INTERSPEECH. 2001: 1377-1380
[57]Tull R G, Rutledge J C. Analysis of “cold-affected”speech for inclusion in speaker recognition systems[J]. Journal of the Acoustical Society of America, 1996, 99(4): 2549-2574
[58]Tull R G, Rutledge J C. “Cold Speech” for Automatic Speaker Recognition[C] //Acoustical Society of America 131st Meeting Lay Language Papers, 1996
[59]Kersta L G. Voiceprint Recognition[J]. Nature, 1962, (4861): 1253-1257
[60]Bonastre J F, Bimbot F, Bo? L J, et al. Person authentication by voice: A need for caution[C] //Proc of the INTERSPEECH. 2003
[61]Kato T, Shimizu T. Improved speaker, verification over the cellular phone network using phoneme-balanced and digit-sequence-preserving connected digit patterns[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2003: 57-60
[62]Hébert M. Text-Dependent Speaker Recognition[M]. Berlin: Springer, 2008: 743-762
[63]Bimbot F, Bonastre J F, Fredouille C, et al. A tutorial on text-independent speaker verification[J]. EURASIP Journal on Applied Signal Processing, 2004, 2004: 430-451
[64]Beigi H. Effects of time lapse on speaker recognition results[C] //Proc of the 16th IEEE Int Conf on Digital Signal Processing. Piscataway, NJ: IEEE, 2009: 1-6
[65]Beigi H. Fundamentals of Speaker Recognition[M]. Berlin: Springer, 2011
[66]Lamel L F, Gauvain J L. Speaker verification over the telephone[J]. Speech Communication, 2000, 31(2): 141-154
[67]Wang L-L, Wu X-J, Zheng T F, et al. An investigation into better frequency warping for time-varying speaker recognition[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2012). 2012: 1-4
[68]Wang L-L, Zheng T F. Creation of time-varying voiceprint database[C] //Proc of the O-COCOSDA 2010. 2010
[69]Bie F-H, Wang D, Zheng T F, et al. Emotional speaker verification with linear adaptation[C] //Proc of the IEEE China Summit & Int Conf on Signal and Information Processing (ChinaSIP). Piscataway, NJ: IEEE, 2013: 91-94
[70]Zetterholm E. Prosody and voice quality in the expression of emotions[C] //Proc of the ICSLP. 1998
[71]Pereira C, Watson C I. Some acoustic characteristics of emotion[C] //Proc of the ICSLP. 1998
[72]Wu T, Yang Y, Wu Z. Improving speaker recognition by training on emotion-added models[M] //Affective Computing and Intelligent Interaction. Berlin: Springer, 2005: 382-389
[73]Shahin I. Speaker identification in emotional environments[J]. Iranian Journal of Electrical and Computer Engineering, 2009, 8(1): 41-46
[74]Bie F-H, Wang D, Zheng T F, et al. Emotional adaptive training for speaker verification[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2013). Piscataway, NJ: IEEE, 2013: 1-4
[75]Atal B S. Automatic recognition of speakers from their voices[J]. Proceedings of the IEEE, 1976, 64(4): 460-475
[76]Matsui T, Furui S. Comparison of text-independent speaker recognition methods using VQ-distortion and discrete/continuous HMM’s[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(3): 456-459
[77]Yasuda H, Kudo M. Speech rate change detection in martingale framework[C] //Proc of the 12th IEEE Int Conf on Intelligent Systems Design and Applications (ISDA). Piscataway, NJ: IEEE, 2012: 859-864
[78]Ma B, Meng H. English-Chinese bilingual text-independent speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2004: 293-296
[79]Nagaraja B G, Jayanna H S. Combination of features for multilingual speaker identification with the constraint of limited data[J]. International Journal of Computer Applications, 2013, 70(6): 1-6
[80]Lu L, Dong Y, Zhao X, et al. The effect of language factors for robust speaker recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2009: 4217-4220
[81]Lindberg J, Blomberg M. Vulnerability in speaker verification—A study of technical impostor techniques[C] //Proc of the Eurospeech. 1999: 1211-1214
[82]Evans N, Kinnunen T, Yamagishi J. Spoofing and countermeasures for automatic speaker verification[C] //Proc of the INTERSPEECH. 2013: 925-929
[83]Wu Z, Evans N, Kinnunen T, et al. Spoofing and countermeasures for speaker verification: A survey[J]. Speech Communication, 2015, 66: 130-153
[84]Lau Y W, Wagner M, Tran D. Vulnerability of speaker verification to voice mimicking[C] //Proc of the 2004 IEEE Int Symp on Intelligent Multimedia, Video and Speech Processing. Piscataway, NJ: IEEE, 2004: 145-148
[85]Perrot P, Aversano G, Blouet R, et al. Voice forgery using ALISP: Indexation in a client memory[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2005: 17-20
[86]Masuko T, Tokuda K, Kobayashi T, et al. Speech synthesis using HMMs with dynamic features[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1996: 389-392
[87]Masuko T, Tokuda K, Kobayashi T, et al. Voice characteristics conversion for HMM-based speech synthesis system[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1997: 1611-1614
[88]De Leon P L, Pucher M, Yamagishi J, et al. Evaluation of speaker verification security and detection of HMM-based synthetic speech[J]. IEEE Trans on Audio, Speech, and Language Processing, 2012, 20(8): 2280-2290
[89]Galou G, Chollet G. Synthetic voice forgery in the forensic context: a short tutorial[C] //Proc of the Forensic Speech and Audio Analysis Working Group (ENFSI-FSAAWG). 2011
[90]Wu Z, Siong C E, Li H. Detecting converted speech and natural speech for anti-spoofing attack in speaker recognition[C] //Proc of the INTERSPEECH. 2012
[91]Chen L-W, Guo W, Dai L-R. Speaker verification against synthetic speech[C] //Proc of the 7th Int Symp on Chinese Spoken Language Processing (ISCSLP). 2010: 309-312
[92]Ogihara A, Hitoshi U, Shiozaki A. Discrimination method of synthetic speech using pitch frequency against synthetic speech falsification[J]. IEICE Trans on Fundamentals of Electronics, Communications and Computer Sciences, 2005, 88(1): 280-286
[93]De Leon P L, Stewart B, Yamagishi J. Synthetic speech discrimination using pitch pattern statistics derived from image analysis[C] //Proc of the INTERSPEECH. 2012
[94]Stylianou Y. Voice transformation: A survey[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2009: 3585-3588
[95]Alegre F, Vipperla R, Evans N. Spoofing countermeasures for the protection of automatic speaker recognition systems against attacks with artificial signals[C] //Proc of the INTERSPEECH. 2012
[96]Alegre F, Amehraye A, Evans N. Spoofing countermeasures to protect automatic speaker verification from voice conversion[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2013: 3068-3072
[97]Wu Z, Gao S, Cling E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification[C] //Proc of the Asia-Pacific Signal and Information Processing Association, 2014 Annual Summit and Conference (APSIPA ASC). Piscataway, NJ: IEEE, 2014: 1-5
[98]Villalba J, Lleida E. Detecting replay attacks from far-field recordings on speaker verification systems[M] //Biometrics and ID Management. Berlin: Springer, 2011: 274-285
[99]Wang Z-F, Wei G, He Q-H. Channel pattern noise based playback attack detection algorithm for speaker recognition[C] //Proc of the IEEE Int Conf on Machine Learning and Cybernetics (ICMLC). Piscataway, NJ: IEEE, 2011: 1708-1713
[100]Shiota S, Villavicencio F, Yamagishi J, et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification[C] //Proc of the 16th Annual Conf of the International Speech Communication Association. 2015: 239-243
[101]鄭方. 基于動態(tài)密碼語音的身份確認系統(tǒng)及方法: 中國, ZL201310123555.0[P]. 2015-02-25
[102]Li K P, Wrench Jr E H. An approach to text-independent speaker recognition with short utterances[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1983: 555-558
[103]Kwon S, Narayanan S. Robust speaker identification based on selective use of feature vectors[J]. Pattern Recognition Letters, 2007, 28(1): 85-89
[104]Zhang C-H, Zheng T F. A fishervoice based feature fusion method for short utterance speaker recognition[C] //Proc of the IEEE China Summit & Int Conf on Signal and Information Processing (ChinaSIP). Piscataway, NJ: IEEE, 2013: 165-169
[105]Zhang C-H, Wu X-J, Zheng T F, et al. A K-phoneme-class based multi-model method for short utterance speaker recognition[C] //Proc of the Asia-Pacific Signal & Information Processing Association Annual Summit and Conference (APSIPA ASC 2012). 2012: 1-4
[106]Malegaonkar A, Ariyaeeinia A, Sivakumaran P, et al. On the enhancement of speaker identification accuracy using weighted bilateral scoring[C] //Proc of the 42nd IEEE Annual Int Carnahan Conf on Security Technology (ICCST). Piscataway, NJ: IEEE, 2008: 254-258
鄭 方
教授,博士生導師,主要研究方向為說話人識別、語音識別、自然語言處理.
fzheng@tsinghua.edu.cn
李藍天
博士研究生,主要研究方向為說話人識別.
lilt@cslt.riit.tsinghua.edu.cn
張 慧
本科生,主要研究方向為說話人識別.
hebe.hui.zhang@gmail.com
艾斯卡爾·肉孜
博士研究生,主要研究方向為說話人識別.
askar@cslt.riit.tsinghua.edu.cn
Overview of Voiceprint Recognition Technology and Applications
Thomas Fang Zheng1,2,3, Li Lantian1,2,3, Zhang Hui4, and Askar Rozi1,2,3
1(CenterforSpeechandLanguageTechnologies,DivisionofTechnicalInnovationandDevelopment,TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084)2(CenterforSpeechandLanguageTechnologies,ResearchInstituteofInformationTechnology,TsinghuaUniversity,Beijing100084)3(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)4(CollegeofScienceandTechnology,GuizhouUniversity,Guiyang550001)
With the rapid development of information technology, how to identify a person to protect hisher personal privacy as well as information security has become a hot issue. Comparing with the traditional identity authentication, the biometric authentication technologies have the features of not being to get lost, to be stolen or forgotten when being used. The use of them is not only fast and convenient, but also accurate and reliable. Being one of the most popular biometric authentication technologies, the voiceprint recognition technology has its unique advantages in the field of remote authentication and other areas, and has attracted more and more attention. In this paper, the voiceprint recognition technology and its applications will be mainly introduced, including the fundamental concept, development history, technology applications and industrial standardizations. Various kinds of problems and corresponding solutions are overviewed, and the prospects are pointed out finally.
biometric recognition; identity authentication; voiceprint recognition; development history; technology applications
2016-01-03
國家自然科學基金項目(61271389,61371136);國家“九七三”重點基礎研究發(fā)展計劃基金項目(2013CB329302)
TP391.4