亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于核典型關(guān)聯(lián)分析的短語音說話人嵌入向量算法

        2021-11-22 09:48:50瞿于荃
        關(guān)鍵詞:特征融合模型

        龍 華,瞿于荃,段 熒

        1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000)

        2(昆明理工大學(xué) 云南計(jì)算機(jī)國家重點(diǎn)實(shí)驗(yàn)室,昆明 650000)

        1 引 言

        硬件設(shè)施的更新迭代加速模式識(shí)別這一大領(lǐng)域的發(fā)展,圖像,文本,語音領(lǐng)域的技術(shù)得到突飛猛進(jìn)的進(jìn)展.作為信號(hào)處理和語音處理領(lǐng)域一個(gè)重要分支,許多聲紋研究者開始觸碰說話人識(shí)別這一領(lǐng)域.文本相關(guān)方向的說話人識(shí)別已初出茅廬,得到了大多數(shù)群眾的認(rèn)可和使用,并且有關(guān)文本相關(guān)的具體技術(shù)也已商業(yè)落地,比如小度,Siri,Ok google等.它們的出現(xiàn)使得人們的生活更加便利和暢通,人們漸漸離不開說話人識(shí)別技術(shù)的廣泛應(yīng)用,說話人識(shí)別技術(shù)也正在便捷人們的生活.而作為另一個(gè)方面的文本無關(guān)的說話人識(shí)別有仍許多挑戰(zhàn)未解決,盡管已在有關(guān)技術(shù)在公安機(jī)關(guān)實(shí)現(xiàn)運(yùn)用并落地,正在進(jìn)行著追捕漏網(wǎng)犯罪嫌疑人的聲紋識(shí)別工作,但面對(duì)復(fù)雜環(huán)境下,傳統(tǒng)基于統(tǒng)計(jì)的說話人模型全局變異空間的魯棒性有待商榷.如今的文本無關(guān)的說話人識(shí)別正面臨著噪聲干擾,多收集信道以及短語音等等的挑戰(zhàn).短語音問題[1]一直是讓研究員犯難的問題之一,由于現(xiàn)實(shí)環(huán)境中,從目標(biāo)說話人端收集語音信息較難,說話人也不可能對(duì)著收集設(shè)備一直注冊(cè)幾十秒甚至是幾分鐘的時(shí)間,而對(duì)于一個(gè)生物識(shí)別技術(shù)的考驗(yàn)之一,便是便捷性,時(shí)效性.相較我們熟悉的虹膜以及人臉識(shí)別等這類的身份識(shí)別技術(shù),雖然說話人識(shí)別有著自身的優(yōu)點(diǎn),但短語音似乎是現(xiàn)階段基于文本無關(guān)的說話人識(shí)別最需要解決的阻礙的其中之一,這也成為說話人識(shí)別一系列技術(shù)能夠商用的關(guān)鍵步驟.

        針對(duì)短語音這一重要難點(diǎn)問題,研究人員早在二十一世紀(jì)的初期就展開了探索.高斯混合模型的提出代替了矢量量化[2]方法,但因?yàn)橛?xùn)練每一個(gè)說話人的高斯模型都需要大量的目標(biāo)說話人語料去擬合,這無疑增大了訓(xùn)練說話人模型的難度.通用背景模型[3]的提出解決了這一問題,用一個(gè)通用數(shù)據(jù)集預(yù)訓(xùn)練通用說話人模型,隨后只需要相對(duì)少量的樣本即可適應(yīng)得到每一個(gè)目標(biāo)說話人模型.隨后的因子分析方法將說話人模型分別按照說話人身份差異空間和信道差異空間分別建模,但需要估計(jì)和計(jì)算的量過于偏大.2011年,Kenny P等人將說話人差異空間和信道差異空間共同建模,提出全局變異空間的概念,從中提取出固定維度的說話人embedding向量,i-vector[4].可以說,i-vector的出現(xiàn)將基于統(tǒng)計(jì)模型下的說話人識(shí)別技術(shù)推向了高潮,而高性能的i-vector也成為近十年來許多世界級(jí)說話人識(shí)別挑戰(zhàn)賽上的基線系統(tǒng).i-vector雖然簡(jiǎn)單并且計(jì)算量小,但在面對(duì)不同注冊(cè)和測(cè)試時(shí)長(zhǎng)下,也出現(xiàn)了在短語音條件下識(shí)別性能急劇下降的情況,說明說話人信息的不足直接導(dǎo)致了對(duì)語音后驗(yàn)概率估計(jì)的不足,針對(duì)這一點(diǎn),王錚[5]等人利用加入歷史測(cè)試語音信息和通用背景模型的參數(shù)信息增強(qiáng)說話人信息,孫念[6]等人提出了多特征的聲學(xué)特征增強(qiáng)i-vector的方法,周萍[7]等人提出基于伽馬通倒譜系數(shù)的特征融合方法,但是從聲學(xué)特征的融合來說,只能改善短語音環(huán)境下的說話人識(shí)別性能,對(duì)于不同時(shí)長(zhǎng)和環(huán)境不匹配的魯棒性來說,并不能從根本消除短語音所帶來的影響.

        深度學(xué)習(xí)中各式各樣的網(wǎng)絡(luò)層出不窮,語音識(shí)別最早掀起深度學(xué)習(xí)的浪潮,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用讓識(shí)別率得到的提升.學(xué)者們將目光放在了說話人識(shí)別上面,google最早應(yīng)用的基于深度神經(jīng)網(wǎng)絡(luò)框架下的說話人識(shí)別[8]成為第一個(gè)純正使用深度學(xué)習(xí)并且完全拋開傳統(tǒng)說話人框架的模型.初次嘗試深度學(xué)習(xí)讓研究人員嘗到了大量語料庫堆疊下的甜頭,各式各樣的深度框架隨即應(yīng)用在說話人識(shí)別上,至此說話人識(shí)別技術(shù)由此進(jìn)入一個(gè)嶄新的時(shí)期.結(jié)合深度學(xué)習(xí),王昕[9]等人提出利用DNN輸入帶噪語音增強(qiáng)i-vector魯棒性.另外,人們利用深度學(xué)習(xí)可以拋去傳統(tǒng)的物理聲學(xué)特征,將深度神經(jīng)網(wǎng)絡(luò)看作是一個(gè)提取器,比如酆勇[10]等人提出從高斯伯努利受限玻爾茲曼機(jī)中提取說話人非線性特征,田垚[11]等人提出基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征的提取,突破傳統(tǒng)聲學(xué)特征的束縛.模型結(jié)構(gòu)上,各式各樣層出不窮.2018年,Amirsina[12]等人提出的3D-CNN網(wǎng)絡(luò)首次提出說話人話語級(jí)特征這一概念并將CNN代替DNN作為說話人模型,同年,snyder[13]等人利用時(shí)延神經(jīng)網(wǎng)絡(luò)對(duì)幀級(jí)信息進(jìn)行整合成為話語級(jí)信息,提取embedding向量x-vector,成為近幾年短語音說話人識(shí)別技術(shù)上的熱點(diǎn).

        本文針對(duì)短語音環(huán)境下,說話人時(shí)域信息較少導(dǎo)致說話人識(shí)別性能不足的問題,提出一種利用核函數(shù)關(guān)聯(lián)分析方法融合說話人嵌入向量的算法,旨在融合深層次說話人嵌入特征,以此增強(qiáng)短語音環(huán)境下說話身份信息,由此提高說話人識(shí)別等誤差率和最小檢測(cè)代價(jià).

        2 全局變異空間模型

        聯(lián)合因子分析對(duì)一段語音中包含的信息進(jìn)行了分析:說話人的信息大部分都蘊(yùn)含在每個(gè)人的高斯均值超向量?jī)?nèi),而利用全局變異空間的方法建模對(duì)每個(gè)人的高斯均值超矢量做出了很好的表達(dá):每個(gè)人語音中所蘊(yùn)含的信息可以被兩部分表示,分別是話者自身固有表達(dá)自身身份的信息以及才收集話者語音時(shí)不同采集設(shè)備帶來的信道和環(huán)境噪聲兩部分組成,具體的表示:

        M=m+Tω

        (1)

        上式中,T是代表全局變異空間的變換矩陣,即T矩陣,而M作為某個(gè)說話人一句語音中的高斯均值超矢量被分解為一個(gè)與特定說話人和信道無關(guān)的通用背景模型均值超矢量m以及在T矩陣上進(jìn)行投影所得到一個(gè)固定低維向量,我們稱之為全局變異空間因子向量ω,該向量是包含了整段語音中說話人和信道信息,而這就是身份向量i-vector.i-vector模型技術(shù)的重點(diǎn)就是全局變異空間矩陣的估計(jì)和i-vector的提取.

        2.1 全局變異空間矩陣的估計(jì)

        全局變異空間矩陣的估計(jì)方面,首先需要提取鮑姆威爾琦(Baum-welch,BW)統(tǒng)計(jì)量,接著在E步計(jì)算全局變異空間隱變量因子的后驗(yàn)分布,M步最大化T矩陣,經(jīng)過迭代多次直至停止,最后得到全局變異空間矩陣.而上述的基礎(chǔ)條件是我們已經(jīng)用一個(gè)無關(guān)背景的數(shù)據(jù)集訓(xùn)練好了通用背景模型的情況下.給定第s個(gè)說話人的第h句話語,有若干幀{Y1,Y2,Y3,…}所組成,那么對(duì)于每一個(gè)高斯分量c,我們需要計(jì)算它的零階,一階BW的統(tǒng)計(jì)量如下:

        (2)

        (3)

        其中mc是第c個(gè)高斯混合模型的分量所對(duì)應(yīng)的均值矢量,對(duì)于t時(shí)刻,γt(c)的意思則是在t時(shí)刻Yt語音分布落入第c個(gè)高斯模型狀態(tài)的后驗(yàn)概率,如下式計(jì)算:

        (4)

        E步:對(duì)于第s位話者的第h句話語有:它的身份向量i-vector的表示記作ωs,h,并令l(s)=I+TTΣ-1Nh(s)T,則:

        (5)

        (6)

        M步:接著我們需要更新參數(shù)矩陣和最大化似然函數(shù)值,參數(shù)矩陣如下:

        (7)

        (8)

        這里為T矩陣迭代便捷,φ,φ是推導(dǎo)得出的更新步驟的結(jié)論,記高斯混合度為c=1,2,…,C,提取的特征參數(shù)維度f=1,2,…,P,令i=(c-1)P+f,式(9)所需要估計(jì)的矩陣,按照行來進(jìn)行估計(jì),Ti表示T的第i行,φi表示φ的第i行,則說話人全局變異空間矩陣T的更新公式如下:

        (9)

        2.2 身份向量的提取和分析

        訓(xùn)練完T矩陣后,通過測(cè)試集和注冊(cè)集語音,我們就可以利用式(5)得到每個(gè)說話人對(duì)應(yīng)的身份向量i-vector.從2.1節(jié)所示,話者的身份向量i-vector的提取與T全局變異矩陣的訓(xùn)練有著密不可分的關(guān)系,倘若我們進(jìn)行注冊(cè)和測(cè)試的話語能夠?yàn)槲覀兲峁┏渥愕摩胻(c),那么全局變異矩陣的充足訓(xùn)練會(huì)讓我們所提取的i-vector在表征話者身份方面有著較好的詮釋.在短語音下的說話人識(shí)別,從根本上來說就是{Y1,Y2,Y3,…,Yt}的減少,繼而滿足不了零階和一階BW統(tǒng)計(jì)量,而語音數(shù)據(jù)量過少勢(shì)必造成統(tǒng)計(jì)量估計(jì)的偏差.對(duì)于GMM-UBM以及i-vector等基于語音概率分布進(jìn)行建模的統(tǒng)計(jì)模型來講,短語音缺少信息量的前提下使得對(duì)語音分布存在的偏差,繼而生成的說話人身份向量在統(tǒng)計(jì)上變得并不準(zhǔn)確,這似乎也成為i-vector不可逾越的最大弊端.

        3 時(shí)滯神經(jīng)網(wǎng)絡(luò)

        使用一個(gè)較為低維的向量去包含一個(gè)具有身份的對(duì)象這就是嵌入(Embedding)技術(shù)的初衷所在.在說話人識(shí)別中,這里的對(duì)象指的是說話人的語音.嵌入向量能夠表達(dá)對(duì)應(yīng)對(duì)象的某些特征,也可以說將對(duì)象進(jìn)行了稠密地濃縮,將其特性包含在了一個(gè)向量之中.說話人識(shí)別深受影響,Snyder等人提出使用時(shí)延神經(jīng)網(wǎng)絡(luò)[14](Time Delay Neural Networks,TDNN)提取說話人語音的embeddings 特征,這就是x-vector的由來.架構(gòu)如圖1所示,將語音處理后分塊輸入至5層的時(shí)滯神經(jīng)網(wǎng)絡(luò),之后是一個(gè)統(tǒng)計(jì)池化層,它的目的是將幀級(jí)(frame level)特征整合至話語級(jí)(uttenarence level)特征上,具體是計(jì)算幀級(jí)特征的均值以及標(biāo)準(zhǔn)差.緊接著的使用兩層全連接層充當(dāng)嵌入層用于對(duì)話語級(jí)語音進(jìn)行抽取embedding向量,網(wǎng)絡(luò)最后一層為softmax層用于對(duì)訓(xùn)練集的分類,輸出的神經(jīng)元個(gè)數(shù)和訓(xùn)練網(wǎng)絡(luò)中說話人數(shù).由于TDNN 可以看作是一個(gè)一維的卷積,利用其時(shí)滯的優(yōu)點(diǎn)可以捕捉任何時(shí)段的信息,這也讓x-vector 在短語音上表現(xiàn)上優(yōu)于i-vector.

        圖1 基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector提取圖

        4 核典型關(guān)聯(lián)分析

        4.1 說話人嵌入向量

        基于全局變異空間模型所提取的說話人向量i-vector和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)所提取的x-vector,雖然一個(gè)基于統(tǒng)計(jì)模型一個(gè)基于深度框架,但從某種意義上來講,i-vector說話人向量和x-vector向量都屬于embedding嵌入技術(shù)的一種,我們也叫它們嵌入向量[15].原因在于它們將可變長(zhǎng)度的說話人語音映射成為固定維度的說話人嵌入向量來表征.將原始語音從時(shí)域變換為頻域后進(jìn)行簡(jiǎn)單處理,后得到說話人淺層聲學(xué)特征如梅爾頻率倒譜系數(shù)等,經(jīng)過訓(xùn)練全局變異空間模型和時(shí)滯神經(jīng)網(wǎng)絡(luò)后,通過注冊(cè)和測(cè)試集抽取得到i-vector,x-vector這類深層說話人特征.在這兩個(gè)分別獨(dú)立進(jìn)行識(shí)別得說話人系統(tǒng)里面,無獨(dú)有偶,被提取出來的i-vector和x-vector也可以單獨(dú)代表該說話人進(jìn)行下一步的相似度判別分析,例如余弦距離等.

        4.2 基于核典型關(guān)聯(lián)分析的短語音說話人嵌入向量

        作為生物識(shí)別的其中之一,對(duì)于說話人識(shí)別的前沿技術(shù)許多都是從人臉識(shí)別的技術(shù)上總結(jié)而來的,比如概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)[16],最新的Facenet[17]以及三元組損失[18]等.核典型關(guān)聯(lián)分析(Kernel Canonical Correlation Analysis,KCCA)[19]也是在人臉識(shí)別多視圖學(xué)習(xí)中較為常用得一種.對(duì)于一維向量之間的相似度關(guān)聯(lián)關(guān)系來說,皮爾遜相關(guān)系數(shù)可以很好的解決這一問題,而面對(duì)兩組隨機(jī)變量時(shí),尋找兩者的線性投影的最大程度上的相關(guān),這就是典型關(guān)聯(lián)分析.它是一種將高維變量降維至一維的方法,從而分析其一維情況下的線性關(guān)聯(lián)關(guān)系的方法,而KCCA則通過核函數(shù)將兩組樣本投影至高維空間上進(jìn)行分析,從而減少降維所帶來的信息量損失.

        基于KCCA的說話人嵌入向量融合方法,旨在學(xué)習(xí)i-vector和x-vector兩種說話人深層次嵌入向量之中的非線性關(guān)聯(lián)關(guān)系.本文提出利用核典型關(guān)聯(lián)分析方法分析抽取得到的說話人嵌入向量之中得非線性特征信息,學(xué)習(xí)全局變異空間模型中i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)下的x-vector的非線性映射關(guān)系,從中提取經(jīng)過非線性映射所得到得投影向量a和b,以此增強(qiáng)說話人識(shí)別在短語音下的信息不足問題.

        首先,在訓(xùn)練階段,經(jīng)由訓(xùn)練集我們訓(xùn)練好全局變異空間和時(shí)滯神經(jīng)網(wǎng)絡(luò).將注冊(cè)和測(cè)試集階段將每一個(gè)人每句話的i-vector和x-vector提取出來,假設(shè)說話人的i-vector為I=(i1,…,in),x-vector為X=(x1,…,xs),這里將多者進(jìn)行截取的操作,最終的維度為p維,則KCCA將數(shù)據(jù)通過兩個(gè)非線性φ,η映射至一個(gè)高維特征空間F上,由下式表示:

        (10)

        其中φ(I),η(X)∈F空間,設(shè)核函數(shù)為ki和kx,則令:

        (11)

        KCCA的目標(biāo)與典型關(guān)聯(lián)分析類似,只不過是在高維空間里去尋找投影方向上得αφ,βη在相關(guān)性最大下式:

        (12)

        其中,向量αφ是存在于i-vector向量所映射在的高維空間之中,αφ存在于φ(I)=(φ1(i),…,φp(i)所表示的高緯度空間之中,則存在N維的向量ζ使得αφ=φ(I)ζ,并且βη也存在于η(X)=(η1(x),…,ηp(x)之中,故存在N維向量ψ讓?duì)娄?η(X)ψ,于是可以到的:

        (13)

        我們將KCCA轉(zhuǎn)為約束問題,則約束條件為:

        (14)

        則我們的優(yōu)化目標(biāo)則僅剩下式(13)中的分子項(xiàng),用拉格朗日乘子法來求解分子項(xiàng)的最優(yōu)化問題,如下式子:

        (15)

        其中,λ1和λ2為拉格朗日乘子,若令λ1=λ2,分別對(duì)式(15)中ξ和ψ求導(dǎo),然后令其等式等于0,即可解出ξ,ψ,接著可得到I,X之間的非線性投影向量組為:

        (16)

        至此,利用KCCA獲得i-vector與x-vector非線性相關(guān)的特征向量a和b后,即仿射向量,兩者的維度都為p×1,將其二者結(jié)合,即得到新的說話人向量,稱為k-xi向量.綜上,基于KCCA的說話人嵌入向量融合方法步驟如圖2所示.

        圖2 基于KCCA的說話人嵌入向量方法流程圖

        5 實(shí)驗(yàn)結(jié)果與分析

        5.1 實(shí)驗(yàn)語料庫

        實(shí)驗(yàn)語料庫為L(zhǎng)ibrispeech英文名著讀物語料庫,和aidatatang中文普通話語料庫以及實(shí)驗(yàn)室自建普通話語料庫所組成的混合語料庫,語料庫總?cè)藬?shù)為975人,將其分為開發(fā)集,訓(xùn)練集,注冊(cè)集以及測(cè)試集.注冊(cè)集設(shè)置為100人,測(cè)試集人數(shù)與注冊(cè)集保持相一致.開發(fā)集設(shè)置100人,目的是對(duì)可調(diào)參數(shù)進(jìn)行實(shí)驗(yàn),選取最優(yōu)應(yīng)用至注冊(cè)和測(cè)試集內(nèi),其余人數(shù)全部歸為訓(xùn)練集之中.語音預(yù)處理方面,采樣率統(tǒng)一為16Khz,預(yù)加重系數(shù)0.9375,對(duì)信號(hào)分幀處理幀長(zhǎng)設(shè)置為25毫秒,幀移為10毫秒,對(duì)信號(hào)加窗類型為漢明窗,使用基于譜熵的話音檢測(cè)來除去靜音段語音,原因主要是語料庫種大多說話人語音采集場(chǎng)景接近場(chǎng)景下,實(shí)驗(yàn)在驗(yàn)證短語音下說話人嵌入向量識(shí)別性上盡量避免其余的干擾信息.而在后端處理上,采用LDA對(duì)說話人嵌入向量進(jìn)行降維處理,信道補(bǔ)償和相似度打分采用概率線性判別分析的方法.

        5.2 基線系統(tǒng)

        本文基線系統(tǒng)分別設(shè)置為基于全局變異空間所提取的i-vector向量,基于深度神經(jīng)網(wǎng)絡(luò)提取的d-vector向量和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)提取的x-vector這3種說話人embedding向量.評(píng)價(jià)指標(biāo)方面:本次實(shí)驗(yàn)選取最為常用的誤差率(Equal Error Rate,EER)和NIST SRE 2010說話人挑戰(zhàn)賽所提出最小檢測(cè)代價(jià)(Minimum Detection Cost Function,minDCF).

        實(shí)驗(yàn)對(duì)比模型方面,選擇3種說話人識(shí)別框架和一種分?jǐn)?shù)融合方法.分別是基于全局變異空間的i-vector,基于深度神經(jīng)網(wǎng)絡(luò)的d-vector和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector 3種說話人嵌入模型以及將i-vector與x-vector說話人向量在相似度判決后的最后得分進(jìn)行加權(quán)平均的方法.全局變異空間模型方面設(shè)置,輸入特征為20維梅爾倒譜系數(shù),一階差分以及二階差分系數(shù)的拼接組合,全局變異空間矩陣維度為600.深度神經(jīng)網(wǎng)絡(luò)方面,取24維Filterbank作為輸入特征,深度網(wǎng)絡(luò)為四層全連接,后兩層設(shè)置dropout,系數(shù)為0.5,末端為softmax層,輸出節(jié)點(diǎn)數(shù)是訓(xùn)練集人員的個(gè)數(shù).從最后一層全連接層提取嵌入向量,即為d-vector說話人向量.時(shí)滯神經(jīng)網(wǎng)絡(luò)方面,網(wǎng)絡(luò)節(jié)點(diǎn)與文獻(xiàn)[13]保持一致,輸入特征為24維Fbank特征,網(wǎng)絡(luò)訓(xùn)練優(yōu)化器采用Adam,我們?cè)趯?shí)驗(yàn)之中也發(fā)現(xiàn)了在語料庫有限的情況下Adam優(yōu)化器在e輪次上比SGD優(yōu)化器收斂速度更迅速許多,網(wǎng)絡(luò)最后端為softmax分類器,輸出節(jié)點(diǎn)與訓(xùn)練集人保持一致.在x-vector框架的全連接層第一層提取出說話人嵌入向量x-vector,全連接第一層輸出節(jié)點(diǎn)為512.

        5.3 實(shí)驗(yàn)結(jié)果與分析

        完成準(zhǔn)備工作后,使用基線系統(tǒng)與k-xi向量進(jìn)行說話人識(shí)別性能的比較情況,以研究從全局變異空間模型和時(shí)滯神經(jīng)網(wǎng)絡(luò)中所獲取的互補(bǔ)信息并以此增強(qiáng)說話人身份信息的有效性.

        首先,在建立的開發(fā)集上對(duì)KCCA以及核函數(shù)等超參數(shù)和多選項(xiàng)進(jìn)行了測(cè)試實(shí)驗(yàn)選擇,選取最優(yōu)以便進(jìn)一步的使用,3種核函數(shù)分別是:線性核函數(shù),多項(xiàng)式核函數(shù)以及高斯核函數(shù).首先是線性核函數(shù)并沒有專門需要設(shè)置的參數(shù),而對(duì)于多項(xiàng)式核函數(shù)超參數(shù)為d以及高斯核函數(shù)中σ值采用交叉驗(yàn)證的方法進(jìn)行驗(yàn)證來確定超參值.

        從圖3,圖4中可確定σ,d,的值分別為0.5,5.確定好參數(shù)后,進(jìn)行下一步核函數(shù)的選擇工作,從圖5中可看出,高斯核函數(shù)表現(xiàn)最優(yōu),這也印證了在核函數(shù)的選擇上,對(duì)于特征參數(shù)緯度較大的工作來說,高斯核函數(shù)較為合適,且多項(xiàng)式核函數(shù)的d為高階時(shí).參數(shù)過多容易造成計(jì)算量的增加,故本文采用σ值為0.5的高斯核函數(shù)對(duì)說話人嵌入向量進(jìn)行下一步的處理工作.

        圖3 不同σ值下高斯核函數(shù)對(duì)說話人識(shí)別的等誤差率

        圖4 各d值下多項(xiàng)式核函數(shù)對(duì)說話人識(shí)別的等誤差率

        圖5 不同核函數(shù)對(duì)說話人識(shí)別性能的影響

        表1和表2報(bào)告了本研究中使用的不同說話人識(shí)別嵌入向量在不同測(cè)試語音下的性能指標(biāo).首先看來,在全時(shí)長(zhǎng)測(cè)試語音下,4種嵌入向量之中比較,基于分?jǐn)?shù)融合方法的等誤差率在五者中較低,而minDCF上面,融合方法同為最低.這說明在全時(shí)長(zhǎng)注冊(cè)和測(cè)試的情況下,基于全局變異空間的i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector在分?jǐn)?shù)上的融合已經(jīng)能達(dá)到較好的性能.刨去分?jǐn)?shù)融合的方法,令人眼前一亮的是i-vector在全時(shí)長(zhǎng)測(cè)試語音下的EER上表現(xiàn)最優(yōu),相比之下的基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector并沒有像文獻(xiàn)[20]所指出的那樣性能比i-vector好,原因可能是在以下3點(diǎn):預(yù)處理階段本次實(shí)驗(yàn)未對(duì)時(shí)滯神經(jīng)網(wǎng)絡(luò)的輸入特征進(jìn)行3秒窗口內(nèi)的歸一化操作,分?jǐn)?shù)判決打分階段未使用分?jǐn)?shù)歸一化的操作在去除混語料庫下的多信道影響,以及未添加噪音和回響去增強(qiáng)x-vector的魯棒性所導(dǎo)致.而k-xi嵌入向量在全時(shí)長(zhǎng)的表現(xiàn),相較于x-vector時(shí)提升了等誤差率,相較于i-vector反而變成冗余部分,并且在面對(duì)同為融合思想下的分?jǐn)?shù)融合法,在全時(shí)長(zhǎng)下并未凸顯出自身學(xué)習(xí)雙方非線性相關(guān)的優(yōu)勢(shì)所在.好在10秒測(cè)試語音長(zhǎng)度下,本文所提出的k-xi嵌入向量相比i-vector,d-vector,x-vector以及分?jǐn)?shù)融合在等誤差率方面降低了17.02%,19.49%,1.34%,0.96%;minDCF方面相比i-vector和d-vector和分?jǐn)?shù)融合下降了14.67%,7.24%,1.54%,相比x-vector反而上升了3.12%.在測(cè)試語音長(zhǎng)度為5秒時(shí),k-xi嵌入向量在等誤差率方面,對(duì)比前四者分別下降了14.84%,20.45%,1.95%,0.98%;minDCF方面相比i-vector和d-vector同比下降3.79%,6.58%,且與x-vector和融合算法保持一致.在極短測(cè)試語音2秒條件下,等誤差率上k-xi向量比i-vector,d-vector和x-vector和融合方法下降了17.01%,21.21%,5.05%,4.54%;minDCF方面同比下降了5.62%,7.68%,2.33%,4.55%.

        表1 不同測(cè)試語音長(zhǎng)度下說話人嵌入向量的等誤差率

        表2 不同測(cè)試語音長(zhǎng)度下說話人嵌入向量的最小權(quán)衡代價(jià)

        隨著測(cè)試時(shí)間的縮短,k-xi向量在等誤差率和minDCF上相比其他四者有了很大程度上的降低,尤其在測(cè)試語音3秒的情況下,降低幅度較大,這也反映了短語音下基于全局變異空間對(duì)于語音概率估計(jì)不足的問題隨著時(shí)長(zhǎng)的縮短開始明顯起來,這個(gè)弊端與第2節(jié)中所分析的基本一致.而基于DNN的d-vector在提供同層之間的關(guān)聯(lián)信息的方面上,而在上下層的信息關(guān)聯(lián)方面,相對(duì)于x-vector有些欠缺.x-vector是當(dāng)前3種基線系統(tǒng)內(nèi),短語音下表現(xiàn)較優(yōu)秀的說話人嵌入向量,但語音特征在輸入層被分塊的操作雖然加快模型的運(yùn)算速度,但此舉更加壓縮了說話人的信息,并不能在上下文關(guān)系上給予充足的信息共享.視線轉(zhuǎn)向后端分?jǐn)?shù)融合的方法,雖然在全時(shí)長(zhǎng)測(cè)試語音的環(huán)境下,融合分?jǐn)?shù)的方法增強(qiáng)了說話人在后端的判別能力,其表現(xiàn)在五種方法下表現(xiàn)較優(yōu),但隨著測(cè)試時(shí)長(zhǎng)的縮短,融合方法的魯棒性欠佳的缺點(diǎn)也顯露出來,分?jǐn)?shù)融合的策略欠缺些許考慮,且統(tǒng)計(jì)模型下的i-vector在短語音測(cè)試下性能的波動(dòng)致使融合分?jǐn)?shù)會(huì)受到一方的影響而不得不進(jìn)行折中的判決,等誤差率的提高趨于緩慢,在最小權(quán)衡代價(jià)方面也會(huì)出現(xiàn)時(shí)而高于x-vector的表現(xiàn),表明分?jǐn)?shù)融合的方法并不穩(wěn)定.參考兩者的得分綜合判斷的操作,則必會(huì)受到兩者系統(tǒng)不同程度上的影響.

        由此可見,k-xi在4種說話人嵌入向量和一種分?jǐn)?shù)融合方法下表現(xiàn)出較好的識(shí)別性能和魯棒性需求.實(shí)驗(yàn)也證明了本文基于KCCA融合基于全局變異空間模型i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector提取出新的說話人嵌入向量k-xi的有效性.

        5.4 t分布隨機(jī)鄰近嵌入算法可視化

        t分布隨機(jī)鄰近嵌入(t-distributed stochastic neighbor embedding,t-SNE)[21]是一種可以將高維信息降維并可視化的技術(shù).我們使用t-SNE對(duì)4種說話人嵌入向量降維至平面,并進(jìn)行可視化操作.從測(cè)試集中隨機(jī)抽取注冊(cè)集5名說話人,每人5句2至5秒不等的語音,同時(shí)提取4種說話人嵌入向量并降維至二維投影至平面分析,所得到t-SNE可視化圖如圖6所示,t-SNE展示了說話人身份向量的分布情況.在圖6(a)中i-vector所表達(dá)說話人的方式過于緊湊,以至于5名說話人的嵌入向量都擁擠在一起,過多注意類內(nèi)之間的距離,而忽略了類間之間的距離.圖6(b)和圖6(c)所表示的d-vector和x-vector都是依靠模型中最尾端的softmax進(jìn)行分類,所以從圖中可以看出,d-vector和x-vector這類判別式分類模型與i-vector不同的點(diǎn)在于,d-vector與x-vector更加注重在于類間之間的差異,而對(duì)每個(gè)說話人的內(nèi)部差異卻沒有一個(gè)很好的表達(dá),導(dǎo)致每個(gè)說話人自身之間的表達(dá)缺少了聚合點(diǎn).從圖6(d)中可以看出,k-xi嵌入向量結(jié)合了i-vector與x-vector的特征,更好的從類內(nèi)聚合和類間距離兩種方式上表達(dá)了說話人身份向量.

        圖6 各個(gè)說話人嵌入向量的t-SNE可視化圖

        5.5 實(shí)驗(yàn)對(duì)比

        最后,我們將本文算法與文獻(xiàn)[6],文獻(xiàn)[7],文獻(xiàn)[9],文獻(xiàn)[12]在不同測(cè)試時(shí)長(zhǎng)下對(duì)等誤差率進(jìn)行比較.如圖7所示.本文所提出的k-xi向量相對(duì)于文獻(xiàn)[6],文獻(xiàn)[7],文獻(xiàn)[9],文獻(xiàn)[12]在測(cè)試時(shí)間為10秒時(shí),等誤差率相比下降17.82%,14.81%,16.34%,11.27%;測(cè)試時(shí)長(zhǎng)為5秒時(shí),等誤差率相比下降13.51%,16.69%,13.51%,10.43%;當(dāng)測(cè)試時(shí)長(zhǎng)降至2秒時(shí),等誤差率同比下降了15.76%,17.0%,10.24%,9.43%.文獻(xiàn)[6]與文獻(xiàn)[7]都是基于多特征的說話人識(shí)別技術(shù),雖然增加聲學(xué)特征的維數(shù)是一種在輸入層面對(duì)說話人信息增強(qiáng)的傳統(tǒng)技術(shù),維數(shù)的增加會(huì)造成計(jì)算量的冗余,如果像文獻(xiàn)[6]所述的使用PCA進(jìn)行降維,也會(huì)造成原始信息的缺失.文獻(xiàn)[9]的方法從嵌入層出發(fā),將加噪i-vector和純凈i-vector輸入進(jìn)DNN網(wǎng)絡(luò)學(xué)習(xí)非線性關(guān)系,但主動(dòng)的加噪操作也會(huì)造成最終的i-vector存在帶噪的成分,從而干擾識(shí)別的判定.與此同時(shí),我們?cè)谘芯堪l(fā)現(xiàn)本文所抽取的向量k-xi也存在些許的不足之處需要改進(jìn)的空間,在時(shí)效性上相比上述幾種文獻(xiàn)有些許差距.總體來講,針對(duì)短語音條件下所提出基于KCCA的說話人嵌入向量提取的算法,經(jīng)過短測(cè)試語音條件的測(cè)試,證明了聯(lián)合i-vector與x-vector所提取出的說話人向量k-xi算法的有效性.

        圖7 基于KCCA的說話人嵌入向量方法流程圖

        6 結(jié) 語

        針對(duì)短語音環(huán)境下,本文提出一種基于核典型關(guān)聯(lián)分析的短語音說話人嵌入向量的方法.該方法首先需要分別訓(xùn)練全局變異空間和時(shí)滯神經(jīng)網(wǎng)絡(luò)模型,在注冊(cè)和測(cè)試階段從中提取i-vector和x-vector嵌入向量,經(jīng)過KCCA將兩者變換至高維空間分析其非線性關(guān)聯(lián)特征,最終提取出融合后的說話人向量k-xi.該向量也是從嵌入層出發(fā),通過KCCA學(xué)習(xí)i-vector向量與x-vector向量非線性特性,以此增強(qiáng)由于短語音環(huán)境下的說話人信息不足的問題.上述實(shí)驗(yàn)驗(yàn)證了本文所提出的方法有效降低短語音環(huán)境下說話人識(shí)別的等誤差率和最小權(quán)衡代價(jià),具有可行性和有效性.在未來的工作中,主要研究分為兩部分展開:一是向極短語音(1秒,0.5秒)條件下探索,二是針對(duì)基于核典型關(guān)聯(lián)分析的短語音說話人嵌入向量方法的時(shí)效性加以優(yōu)化.

        猜你喜歡
        特征融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        国产亚洲精品看片在线观看| 亚洲av天堂免费在线观看| 国产a∨天天免费观看美女| 亚洲精品成人无码中文毛片| 欧洲熟妇色xxxxx欧美老妇伦| 欧美大肥婆大肥bbbbb| 曰韩少妇内射免费播放| 午夜无遮挡男女啪啪免费软件| 亚洲av无码乱码在线观看富二代| 亚洲色图专区在线视频| 国产成人精品优优av| 精品国际久久久久999波多野| 日本阿v片在线播放免费| 少妇被爽到高潮动态图| 最新亚洲无码网站| 日韩精品综合在线视频| 少妇一级淫片中文字幕| 特黄做受又粗又长又大又硬| 特级毛片a级毛片在线播放www| 二区久久国产乱子伦免费精品 | 成人免费丝袜美腿视频| 粉嫩人妻91精品视色在线看| 日本做受120秒免费视频| 国产96在线 | 欧美| 色妞www精品视频| 国产偷2018在线观看午夜| 国产av三级精品车模| 野花香社区在线视频观看播放| 亚洲热妇无码av在线播放| 亚洲男人的天堂网站| 极品少妇被后入内射视| 日本最新视频一区二区| 亚洲av无码乱码国产精品| 高清在线亚洲中文精品视频| 在线一区二区三区视频观看| 国产日产久久高清ww| 肉体裸交137日本大胆摄影| 996久久国产精品线观看| 亚洲av色香蕉一区二区三区蜜桃 | 欧洲精品免费一区二区三区| 久久久久久久妓女精品免费影院|