古斌郭武
(中國科學技術(shù)大學語音及語言信息處理國家工程實驗室,合肥,230026)
說話人確認(Speaker verification,SV)是判斷一段測試語音與其所聲明身份是否一致的過程,是一個典型的二分類模式識別任務。在說話人確認中,需要計算每段測試語料與其聲明說話人模型之間的得分,然后將得分與設(shè)定的判決門限比較并作出判決,該門限對所有測試語音都是同一個數(shù)值[1]。受語料之間信道、語種、時長、性別等因素的影響,不同的說話人模型、不同冒認者的得分分布往往不同,這種固定數(shù)值的門限會導致整個系統(tǒng)的性能受到嚴重的影響。
在進行生物輻射影響評價時,經(jīng)常會用到分級的評價結(jié)構(gòu)。較低層級的評價頗為保守,但只需要極少的數(shù)據(jù)輸入,多用于初步篩選;較高層級的評價則更為接近現(xiàn)實情況,結(jié)果更加準確,但相應的也需要更多的數(shù)據(jù),尤其是當?shù)氐臏y量數(shù)據(jù)。在進行生物輻射影響評價時,通常會先采用較低層級的方法來進行篩選,對于可能出現(xiàn)影響的情況再進行高層級地仔細評價。
材料力學[1-2]是固體力學的一個分支,與彈性力學[3]相比,研究的構(gòu)件局限在桿件這一相對簡單的形式上,包括在載荷或溫度變化作用下桿件的強度、剛度和穩(wěn)定性問題。材料力學是一門重要的技術(shù)基礎(chǔ)課,包括機械、土木、水利和交通等專業(yè)的學生都要求必須修讀。雖然大部分學生在中小學就學習了牛頓力學的基本常識,但是一般直到開始學習材料力學,才開始接觸力學中最重要的一些概念,比如應力和應變等。由于材料力學本身內(nèi)容繁雜,概念抽象,對數(shù)學工具的應用要求較高,再加上力學課程的課時安排在很多高校中并不充裕,在實際的教學實踐中發(fā)現(xiàn)相當多的學生對這門課的掌握并不理想。
為了使得不同說話人模型、不同冒認者的得分分布趨于一致,從而使得固定的門限能夠比較好地區(qū)分目標說話人和冒認者,一般采用得分規(guī)整的方法來實現(xiàn)這一目的。通常有2種規(guī)整的途徑,一種是規(guī)整目標說話人模型的得分分布,例如零規(guī)整(Z-norm),另一種是規(guī)整冒認者得分分布,例如測試規(guī)整(T-norm),在這二者的基礎(chǔ)上,又衍生出了一系列得分規(guī)整方法,包括ZT-norm[2]、S-norm[3]、Top-norm[4]等。目前得分規(guī)整已在說話人確認系統(tǒng)中的得到廣泛運用,并在高斯混合模型-通用背景模型(Gaussian mixture models,universal background model,GMM-UBM)[5]、i-vector[6]、x-vector[7]等系統(tǒng)中取得顯著效果。
近幾年的研究中,如何挑選合適的測試語料與其聲明身份組成測試從而得到接近真實測試條件的得分分布參數(shù)是一關(guān)鍵問題[8]。由于測試集的得分分布實際上是無法事先獲知的,為了盡量縮小估計分布與真實分布之間的偏移,研究者們提出了自適應得分規(guī)整方法。一些研究者從說話人特征層面來挑選規(guī)整數(shù)據(jù)[9-10],挑選與測試數(shù)據(jù)盡可能相似的數(shù)據(jù),還有一些研究者選擇從得分層面來挑選規(guī)整數(shù)據(jù),對規(guī)整集合得分只取值較大的若干個得分用于統(tǒng)計分布參數(shù)[11-12]。近幾年的應用中,從得分層面挑選規(guī)整數(shù)據(jù)的自適應得分規(guī)整方法應用更加廣泛[13-15]。
得分規(guī)整總體邏輯思路就是把所有冒認者得分規(guī)整到同一分布上,消除說話內(nèi)容、語速等因素的影響[16],從而通過一個合理的門限來獲得最好的識別性能。NIST SRE 2016測試集出現(xiàn)了以往數(shù)據(jù)集中未曾出現(xiàn)過的語種,開發(fā)集中只有部分無標簽數(shù)據(jù)與測試集標簽信息相匹配,因此無法針對每個說話人或測試語句挑選合適的規(guī)整數(shù)據(jù)集,根據(jù)以往的研究,此時需要使用自適應得分規(guī)整的方法。在選擇得分最高的一些冒認者得分來估計規(guī)整參數(shù)時,對每個待規(guī)整對象(說話人模型或測試語料)都取相同數(shù)量的較大得分,這些數(shù)值較大的得分不服從高斯分布,因此必然與測試集的分布存在偏差。
林業(yè)資源是我國能源資源儲備體系的重要組成部分,對維護生態(tài)平衡、促進國民經(jīng)濟健康發(fā)展以及提高人們生活質(zhì)量都產(chǎn)生了積極促進作用。完善林業(yè)資源保護措施,提升森林防火管理模式的實用性和有效性,有助于緩解當前林業(yè)資源無法滿足經(jīng)濟社會高速發(fā)展對大量林業(yè)資源需求的矛盾,為充分發(fā)揮林業(yè)資源對經(jīng)濟社會的促進作用奠定基礎(chǔ)。
由表2~6可以看出,29個樣品個共有峰的相對保留時間漂移不大。由表3可見,不同品種棗葉的指紋圖譜相似度存在差異。根據(jù)與S30(對照圖譜[14])相似度的大小,可將樣品分為三類:Ⅰ類相似度為85%~91%,Ⅱ類相似度為92%~95%,Ⅲ類相似度大于95%;S1、S11、S17、S18、S24棗葉指紋圖譜相似度為85%~91%,為Ⅰ類; S12、S20、S23、S28、S29棗葉的指紋圖譜相似度為92%~95%,為Ⅱ類;其余的為Ⅲ類。相似度可以體現(xiàn)不同批次樣品間各成分在種類及其相對量上的整體相似程度。分析結(jié)果表明,29個品種棗葉樣品的成分和含量相似度較高,但仍然存在一定差異。
聚類完成后,可以認為K-means聚類獲得的K個類別的得分代表著不同匹配程度的測試得分類,類中心數(shù)值越大的類得分所對應的冒認者測試語料與聲明說話人在性別、語種等方面信息匹配程度越高。
本文使用NIST SRE 2016測試集作為系統(tǒng)性能評估數(shù)據(jù)集,測試集為廣東話與菲律賓塔加路語2種語言的混合數(shù)據(jù)集。測試集中說話人注冊語音為時長60 s的語料,說話人模型由1段或3段語料注冊得到;測試語料時長均勻分布在10~60 s,目標說話人測試37058條,冒認者測試19494662條。
故障處理結(jié)束后,對調(diào)度系統(tǒng)進行修復維護。對計算機站控系統(tǒng)的各個設(shè)備進行狀態(tài)檢查,通過在線自診斷確定故障發(fā)生的部位,用交互方式在線對數(shù)據(jù)庫中的各個數(shù)據(jù)項進行修改和增刪,及時處理故障完成修復工作,保證調(diào)度系統(tǒng)能夠盡快投入運行。
目前為止,富春江浮標站為富春江上唯一氣象監(jiān)測站,資料的時間序列也有限,而且維護維修程序相對繁瑣,資料的連續(xù)性有時無法得到保障。因此對浮標站和周邊站點的對比分析,找到其與周邊站點一些定性定量的規(guī)律顯得尤為重要。風向?qū)庀鬄暮Φ闹鲗ё饔貌幻黠@,故下面主要對城區(qū)國家站(58449)、浮標站(K1600)、江南站(K1240)以及新沙島站(K1712)4個站的風速做一定的對比分析。
T-norm與Z-norm相似,不同的是它利用每段測試語料與不同冒認說話人模型進行測試得到得分,從而統(tǒng)計每段測試語句的得分分布參數(shù)并對測試得分進行規(guī)整。T-norm可以較好地消除測試語音環(huán)境對輸出評分分布的影響,但是得分分布參數(shù)需在實際測試時獲取,屬于在線計算,會降低模型識別速度?;赯-norm、T-norm的規(guī)整方法,又衍生出了S-norm、ZT-norm、TZ-norm等一系列方法,其中S-norm是將Z-norm和T-norm規(guī)整后的得分進行加權(quán)求和,該方法憑借其優(yōu)異的性能在近些年獲得了廣泛應用。
物質(zhì)文化,即是校園文化的基礎(chǔ)。它的存在與校園的每個角落,環(huán)境、設(shè)施等等。物質(zhì)文化比較重點的方面是學校內(nèi)部的綠化、教學設(shè)施、實驗設(shè)備等幾個對日常影響較大的方面,物質(zhì)文化相較于精神文化,更加的直觀,只要進到學校,就能夠?qū)@個學校的物質(zhì)文化好與壞一覽無遺。
自適應得分規(guī)整方法在基礎(chǔ)得分規(guī)整方法之上對規(guī)整數(shù)據(jù)進行了選擇。在這類方法中,只有部分被選中的規(guī)整數(shù)據(jù)用于統(tǒng)計得分的均值和標準差,被選中的這部分數(shù)據(jù)可能隨著每一個規(guī)整對象而變化。以Top-norm為例。在Top-norm中,規(guī)整數(shù)據(jù)集中的每條語句都參與得分計算,但是只有得分值最大的N個得分將被用于統(tǒng)計規(guī)整時所使用的均值和方差,圖1以某個說話人模型在規(guī)整數(shù)據(jù)集上的得分分布為例,展示了自適應規(guī)整數(shù)據(jù)選擇的過程,其中橫軸表示得分的數(shù)值大小,縱軸表示得分在單位區(qū)間內(nèi)出現(xiàn)的次數(shù)。
該種自適應得分挑選的方法如今已廣泛應用于Z-norm、T-norm、S-norm等基礎(chǔ)得分規(guī)整方法中,本文所提出的自適應得分規(guī)整方法將與該種方法進行對比。在本文中使用該種方法時會在相應的基礎(chǔ)規(guī)整方法前用“Top”標注。
圖1 自適應規(guī)整數(shù)據(jù)選擇Fig.1 Adaptive normalization data selection
步驟3當模型參數(shù)收斂或達到最大迭代次數(shù)時終止參數(shù)更新,否則跳轉(zhuǎn)至步驟1。
對于注冊集中第m個說話人模型em,與包含L條語料的規(guī)整數(shù)據(jù)集測試后可得到L個測試得分{s(em,t*l),l∈[1,L]},利用K-means算法對L個得分進行聚類,然后僅保留均值靠前的若干類得分作為篩選后得分。具體算法如下:
步驟1隨機選擇K個初始中心點{μ1,μ2,…,μK}。
步驟2計算每個測試得分到K個中心點歐式距離,根據(jù)最小歐式距離劃分每個測試得分所屬類別C(μk),當s(em,t*l)∈C(μk)則對于?k'∈ [1,K]有
魯棒水印算法有較多的研究成果,本文用基于小波變換的水印兩次嵌入算法[11]進行實驗。對如圖1 所示的1200×933 的原始唐卡圖像嵌入如圖2 所示的154×447 的二值水印圖像,含水印唐卡圖像如圖3 所示,從圖3 中提取的水印如圖4 所示。因為唐卡圖像紋理復雜度高,嵌入水印信息后透明性很好,且魯棒水印算法能抵抗常見的各種攻擊,具有較好的抗攻擊能力。
步驟3根據(jù)每個類別的得分更新每個類別中心點,其中|C(μk)|表示C(μk)類中的得分個數(shù)
步驟4當每個類別更新后的中心點相較未更新中心點的距離小于設(shè)定閾值或迭代次數(shù)大于設(shè)定值,此時認為聚類數(shù)據(jù)已收斂,否則跳轉(zhuǎn)至步驟2。
Z-norm和T-norm是使用最為廣泛的2種得分規(guī)整方法,Z-norm利用實際說話人模型{e1,e2,…,eM}對大量冒認者語料進行測試,得到測試得分其中em表示注冊集中第m個說話人模型表示規(guī)整數(shù)據(jù)集中第l條冒認者語料,統(tǒng)計每個說話人模型得分均值μ(em)和標準差σ(em)。
由于得分值較大的冒認者在實際測試時最難以分辨,需要更多地關(guān)注這類較大值得分,因此舍棄中心值較小的得分類,保留前K'個聚類中的得分,如圖2所示。在本文Z-norm中K取6,K'取3;T-norm中K取3,K'取2。
不同于以往假設(shè)每個待規(guī)整對象對于冒認者者得分分布服從單高斯分布,本文假設(shè)其得分分布滿足更為復雜的混合高斯分布,在2.1節(jié)篩除部分冒認者得分的基礎(chǔ)上,引入GMM模型擬合保留得分的分布。
圖2 得分篩選示意圖Fig.2 Score screening schematic
鑒于2.1節(jié)已經(jīng)獲得了K'個得分類,可以按這K'個類的均值和標準差初始化K'個高斯的GMM模型均值和標準差,權(quán)重初始值wi按照式(4)初始化
式中:|C|為保留的總得分個數(shù),|C(μi)|表示第i類中的得分個數(shù)。利用EM算法對保留的得分進行進一步聚類直至滿足收斂條件,GMM模型的參數(shù)按式(5)—(8)進行更新:
步驟1計算每個得分在每個高斯的占有率
本文提出了一種新的自適應得分規(guī)整方法,利用無監(jiān)督聚類對每個待規(guī)整對象的得分集合進行聚類,然后對數(shù)據(jù)進行篩選,并且用混合高斯函數(shù)來擬合經(jīng)過篩選后的冒認者得分分布,取均值最大的高斯函數(shù)的均值和標準差作為規(guī)整參數(shù),可以縮小與測試集的真實得分分布之間的偏差,減小通過固定數(shù)量的得分統(tǒng)計分布參數(shù)時丟失的分布信息,從而提高整體識別性能。本文在NIST SRE 2016數(shù)據(jù)集的測試集上進行實驗驗證,從結(jié)果上來看,明顯優(yōu)于傳統(tǒng)的方法。
步驟2根據(jù)每個高斯的占有率更新GMM參數(shù)
本節(jié)以Z-norm為例,說明基于聚類的得分規(guī)整。
《殘疾人康復服務“十三五”實施方案》中指出到2020年,有需求的殘疾兒童和持證殘疾人接受基本康復服務的比例達80%以上。為實現(xiàn)這一目標,提出了“實施殘疾人精準康復服務、提升殘疾人康復服務專業(yè)化水平”等措施。同時提出“加強康復醫(yī)院、康復醫(yī)學科規(guī)范化建設(shè)”。在《殘疾人精準康復服務行動實施方案》中也指出為每個社區(qū)(村)配備一名社區(qū)康復協(xié)調(diào)員,與社區(qū)(村)醫(yī)生共同組成殘疾人精準康復服務小組??梢?,康復醫(yī)學將在當前推進殘疾人小康進程中發(fā)揮著不可替代的作用,在基層康復服務實踐其重要意義也不可或缺。
當GMM模型收斂后,取均值最大的高斯單元均值μ(etop-gaussm)和標準差σ(etop-gaussm)作為當前說話人模型的得分規(guī)整參數(shù),如圖3所示,其中縱軸表示得分在單位區(qū)間內(nèi)出現(xiàn)的概率。
圖3 GMM得分規(guī)整示意圖Fig.3 GMM score normalization Schematic
訓練數(shù)據(jù)集包括 NIST SRE 2004、2005、2006、2008、2010,SwitchBoard以及Mixer6數(shù)據(jù)集中的部分數(shù)據(jù),共計87457條數(shù)據(jù),數(shù)據(jù)時長主要分布在30 s~3 min,大部分內(nèi)容為網(wǎng)絡(luò)語音、室內(nèi)錄音以及電話中的英文對話。這些數(shù)據(jù)主要用于UBM、i-vector因子分析的載荷矩陣、PLDA的載荷矩陣訓練。
開發(fā)集中包含一份無標簽數(shù)據(jù),為廣東話與菲律賓塔加路語兩種語言的混合數(shù)據(jù),開發(fā)集中只有該部分數(shù)據(jù)語種與測試集匹配,以往研究證明若測試集與規(guī)整數(shù)據(jù)集語種不匹配得分規(guī)整將很難獲得效果,因此這部分數(shù)據(jù)將用于得分規(guī)整,共計2272條語音。從這些無標簽數(shù)據(jù)中隨機挑選3/4數(shù)據(jù)作為Z-norm集,剩余作為T-norm集,將說話人模型與Z-norm集、測試語料與T-norm集組合構(gòu)造測試用于得分規(guī)整。
機能實驗室重組后,在人員方面僅剩實驗室技術(shù)人員,而教師負責實驗教學,在編制上不屬于實驗室。教師和實驗技術(shù)人員缺少溝通和理解,實驗室教學與管理出現(xiàn)了脫軌,工作銜接不上,給日常實驗教學順利進行增加許多困難[6]。實驗技術(shù)人員必須具有整體觀念和團結(jié)協(xié)作精神,在工作上與教研室教師互相配合,遇到問題及時溝通、商討,凡事從整體利益出發(fā),保證工作順利進行。實驗技術(shù)人員和教師在專業(yè)分工、職業(yè)規(guī)劃、工作價值追求等方面都不盡相同,合理地對待這種差異,用平等的態(tài)度看待彼此的工作,有利于營造全體教職人員團結(jié)和諧的工作氛圍,符合整個學校教學體系建設(shè)的初衷。
然后利用這2個分布參數(shù)對含有說話人模型em的實際測試得分S(em,*)進行規(guī)整
本文采用NIST SRE 2016官方計劃中的等錯誤率(Equal error rate,EER),最小錯誤代價函數(shù)(Minimal detection cost function,Min_DCF)和實際的錯誤代價函數(shù)(Actual detection cost function,Act_DCF)作為評價指標[17]。
為了體現(xiàn)估計的得分分布參數(shù)與真實分布參數(shù)的差異,另外給出均值和標準差2個偏差參數(shù)的定義
式中:N為測試集中待規(guī)整對象的數(shù)量,對于Z-norm,N為注冊說話人數(shù)量,對于T-norm,N為測試語料數(shù)量,μ?n、σ?n為根據(jù)規(guī)整集得分估計的均值和標準差,μn、σn為根據(jù)真實測試得分統(tǒng)計的結(jié)果。通過這2個參數(shù)來比較不同算法對于真實得分分布的擬合能力,越小則代表擬合能力越強。
本文采用基于i-vector和概率線性判別分析(Probabilistic linear discriminant analysis,PLDA)的說話人確認系統(tǒng)。在得到PLDA測試得分之后,采用各種得分規(guī)整方法進行得分規(guī)整。整個流程主要使用Kaldi toolkit[18]開源代碼實現(xiàn)。
Z-norm可以較好地消除說話人模型之間的分布差異性,屬于離線計算,在模型訓練階段就可以獲得分布參數(shù),在測試階段不會額外占用計算時間。
在特征提取階段,首先提取加上一階二階差分后共計60維的梅爾頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)特征,使用3 s的平滑窗作均值方差規(guī)整,然后通過基于能量的語音活動檢測(Voice activity detection,VAD)算法去除靜音幀。
在模型訓練階段使用NIST SRE 2016開發(fā)集中的無標簽數(shù)據(jù)訓練具有全對角協(xié)方差矩陣的UBM模型,該模型有2048個高斯成分,利用訓練數(shù)據(jù)集與UBM模型訓練i-vector生成矩陣,提取600維的i-vector向量,然后訓練集測試集各自進行均值中心化,通過線性判別分析(Linear discriminant analysis,LDA)將i-vector降維至400維,利用無標簽數(shù)據(jù)作主成分分析(Principal component analysis,PCA)白化,所有數(shù)據(jù)進行長度規(guī)整后作概率形式的線性判別分析(Probabilistic linear discriminant analysis,PLDA)得到測試得分,訓練和測試過程均為性別、文本無關(guān)。
本文根據(jù)不同的得分規(guī)整方法,構(gòu)建了不同的得分規(guī)整系統(tǒng)進行對比:
系統(tǒng)0:得分不做規(guī)整,這是基線(Baseline)系統(tǒng)。
教師應更多地采取贊許、表揚和鼓勵、給予信任性委托等措施來培養(yǎng)他們的自尊心,使其自尊自立、自愛自強,并且在此基礎(chǔ)上,培養(yǎng)學生的集體榮譽感。
自動上料的運行軌跡為:在初始狀態(tài)機構(gòu)處于左側(cè)上方位置,上電以后機構(gòu)下行至左側(cè)下方位置;開始吸紙,然后回到左側(cè)上方,行至中間位置停下;機構(gòu)開始前伸,上料完畢。
系統(tǒng)1~3:使用所有得分進行Z-norm、T-norm、S-norm;這些算法是目前廣泛采用的算法,也是對比系統(tǒng)。
系統(tǒng)4~6:使用數(shù)據(jù)自適應選擇的方法進行Z-norm、T-norm、S-norm。這是參考文獻[12]所采用的算法。本文中Z-norm中N取150,T-norm中N取100,在這兩個參數(shù)上本文系統(tǒng)性能最佳,后面的描述中按此種做法所做的規(guī)整將在規(guī)整方法前加Top,例如Top Z-norm,這些屬于對比系統(tǒng)。
系統(tǒng)7~9:利用基于GMM的Z-norm、T-norm、S-norm。后面的描述中按此種做法所做的規(guī)整將在規(guī)整方法前加GMM,例如GMM Z-norm。
從表1中各項指標可看出,系統(tǒng)9 GMM S-norm整體性能最佳,EER為13.69,而Min_DCF和Act_DCF為0.7167和0.7214,這2項指標較Baseline分別有7.1%和22.0%的相對改進,較自適應得分規(guī)整方法也有3.3%和6.3%的相對優(yōu)化。
從基本的規(guī)整方法來看,S-norm效果要好于Z-norm、T-norm,說明S-norm充分結(jié)合了二者的優(yōu)點,實現(xiàn)了性能互補。對比系統(tǒng)1~3、4~6以及系統(tǒng)7~9可知,從自適應選取規(guī)整得分策略來看,選取靠前的得分統(tǒng)計規(guī)整參數(shù)性能更優(yōu),這一定程度上是因為靠前的得分集合相對目標說話人真實得分有更加穩(wěn)定的均值和標準差,而靠后的得分相對目標說話人得分波動性比較大,將使得每個說話人的理想最佳門限和統(tǒng)一的判決門限相差較遠。在此基礎(chǔ)上,使用基于聚類的變長數(shù)量得分的策略要優(yōu)于選定固定數(shù)量得分,這得益于GMM模型在刻畫數(shù)據(jù)分布時的優(yōu)勢,從而使用該模型進行聚類能夠得到更加穩(wěn)定的均值和方差,這也表明利用GMM模型能有效地解決在選取固定數(shù)量的得分計算規(guī)整參數(shù)時分布信息丟失的問題。
表1 不同得分規(guī)整方法實驗結(jié)果Tab.1 Results of different scoring normalization methods
為了更近一步說明GMM模型在獲得規(guī)整參數(shù)時的優(yōu)勢,表2給出式(9,10)定義的均值和標準差偏差參數(shù)。
從表2可以看出,無論是Z-norm還是T-norm,基于聚類的得分規(guī)整方法的均值偏差都要明顯小于選取固定數(shù)量個得分的規(guī)整方法,二者的方差偏差基本屬于同一水平。本文基于GMM的規(guī)整方法首先剔除了靠后的得分類,可以縮小與真實分布均值上的差距,然后利用GMM軟聚類的方法使得保留的每個得分點都參與規(guī)整參數(shù)的計算,這樣可以縮小標準差與真實分布的偏差,因此基于聚類的得分規(guī)整可更加有效地擬合真實的得分分布。
表2 不同得分規(guī)整方法偏差參數(shù)Tab.2 Bias of different score normalization methods
本文采用聚類手段,替代了以往自適應規(guī)整算法中直接取得分最高的特定數(shù)量個得分統(tǒng)計分布參數(shù)這一做法,選取變長個得分參與分布參數(shù)計算,獲得了很好的性能提升。進一步的工作可以將從特征端規(guī)整數(shù)據(jù)自適應挑選和本文從得分端的規(guī)整數(shù)據(jù)自適應挑選結(jié)合起來以獲得進一步的改進。