Multi-prototype driven graph neural network for speaker diarization
Abstract:Recently,theutilizationof graphneuralnetwork forsesson-levelmodelinghasdemonstrateditseficacyforspeakerdiarization.However,mostof existing variantssolelyrelyonlocalstructure information,gnoringtheimportanceof global speakerinformation,whichcannotfullycompensateforthelackof speakerinformationinthespeakerdiarizationtask.This paper proposedamulti-prototypedriven graphneuralnetwork(MPGNN)forrepresentationlearning,whichefectivelycombined local and global speaker information within each session and simultaneously remaps X -vector to a new embedding space that was moresuitableforclustering.Specifically,,the designof prototypelearning withadynamicandadaptive approach wasacritical component,where more accurateglobal speaker informationcould becaptured.Experimentalresultsshowthatthe proposed MPGNN approach significantly outperforms the baseline systems,achieving diarization error rates(DER)of 3.33% , 3.52% , (204號 5.66% ,and 6.52% on the AMI_SDM and CALLHOME datasets respectively.
Keywords:speakerdiarization;graphneural network;local structure information;global speaker information;multiprototype learning
0 引言
說話人日志(speakerdiarization,SD)的目標(biāo)是解決“誰在何時(shí)說話”的問題,即在給定的包含多個(gè)說話人交流的長音頻信號中,同時(shí)實(shí)現(xiàn)說話人識別和說話人定位。近年來,說話人日志技術(shù)的有效研究已經(jīng)廣泛應(yīng)用于多個(gè)場合,如會議記錄、來電角色劃分、語音搜索引擎、在線視頻特定說話人檢索等。
縱觀說話人日志領(lǐng)域多篇綜述性論文[1.2],主流的研究方向大致可以分成兩大類,即基于聚類的多模塊級聯(lián)學(xué)習(xí)方法和端到端的神經(jīng)網(wǎng)絡(luò)方法。2018年深度學(xué)習(xí)技術(shù)的興起,給予端到端的說話人日志方法極大的發(fā)展,使其在某些條件受限的情況下表現(xiàn)出較為優(yōu)越的性能。但隨著CHiME-5/6、DIHARD-1/2/3、VoxSRC-20/21/22/23等挑戰(zhàn)賽的發(fā)布,說話人日志領(lǐng)域的研究開始著力于解決真實(shí)的場景問題。而基于聚類的多模塊級聯(lián)學(xué)習(xí)方法相比端到端方法,能更好地處理復(fù)雜場景下的長音頻和未知說話人情況,是當(dāng)下比較熱門的研究方向。
基于聚類的說話人日志方法旨在將每個(gè)會話中的多個(gè)說話人精確地定位并識別。其處理流程通常包括一系列步驟:語音活動(dòng)檢測[3.4]、語音段分割[5.6]、說話人嵌入提取[7.8]、聚類[9,10]和后處理[11]?;诰垲惖恼f話人日志方法作為級聯(lián)學(xué)習(xí)方法的一種,好的短切分說話人表征直接影響最后的聚類效果,因此目前研究熱點(diǎn)主要集中在基于固定短切分的說話人嵌入優(yōu)化上。說話人嵌入特征的提取通常依賴于預(yù)訓(xùn)練模型,將語音片段轉(zhuǎn)換為固定維度的特征空間,如i-vector或X-vector[8]。然而,在說話人日志任務(wù)中使用這些預(yù)訓(xùn)練的說話人模型存在兩個(gè)主要問題。一方面,預(yù)訓(xùn)練模型特征設(shè)計(jì)不同于說話人日志任務(wù),很可能引入冗余和不相關(guān)的信息。另一方面,說話人日志需要較短的片段(0.5\~2.0s)以準(zhǔn)確定位說話人變化點(diǎn),預(yù)訓(xùn)練的說話人模型可能無法提供足夠的說話人特定信息。因此,基于聚類的說話人日志體系最為關(guān)鍵的組成部分就是在固定短切分框架下,對說話人嵌入進(jìn)行優(yōu)化。
近年來,圖神經(jīng)網(wǎng)絡(luò)(graphneuralnetwork,GNN)在會話級別建模中的應(yīng)用已顯示出其在說話人嵌入優(yōu)化方面的有效性,例如使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行會話級別的說話人嵌入細(xì)化方法[12]、基于多尺度說話人嵌入的圖注意力網(wǎng)絡(luò)方法[13]以及基于圖神經(jīng)網(wǎng)絡(luò)對說話人嵌入和聚類進(jìn)行聯(lián)合優(yōu)化的基于社區(qū)檢測的圖卷積網(wǎng)絡(luò)方法(communitydetectiongraphconvolutionalnetwork,CDGCN)[14]、有監(jiān)督層次圖聚類方法(supervised hierar-chical graph clustering,SHARC)[15]。這些方法的主要思想是先為每個(gè)片段提取固定維度的嵌人,然后利用親和度矩陣來迭代學(xué)習(xí)每個(gè)會話內(nèi)相鄰片段之間的局部特征。盡管這些方法提升了特定會話的理解能力,但它們僅僅依賴于局部結(jié)構(gòu)信息而忽略全局說話人信息的重要性,最終限制了其整體性能的有效性。之后,基于圖注意力的深度嵌入聚類(graphattentionbaseddeep embedded clustering,GADEC)[16]打破了上述局限,它利用高階鄰居來探索全局信息。然而,這種方法受到圖注意力層數(shù)的限制,不僅增加了計(jì)算開銷,同時(shí)引入了無法避免的鄰居噪聲。
最近一種使用多原型學(xué)習(xí)的圖像聚類方法[1突破了上述問題的限制。類原型在圖形結(jié)構(gòu)上學(xué)習(xí)節(jié)點(diǎn)表示可以促進(jìn)來自遠(yuǎn)程節(jié)點(diǎn)的信息交流,從而有效捕獲全局相關(guān)性。受此啟發(fā),本文提出了一種面向說話人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法(multi-prototype driven graph neural network for speaker dia-rization,MPGNN)。該方法在擴(kuò)展說話人原型概念的基礎(chǔ)上,提出了一種全新的基于圖神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)過程。該過程既能避免GADEC方法中高階鄰居帶來的計(jì)算開銷和噪聲影響,還能有效引入全局說話人信息,彌補(bǔ)說話人日志任務(wù)中固定短切分框架下說話人嵌入信息不足等問題。
本文的主要貢獻(xiàn)概括如下:
a)提出一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)模塊,在避免多層圖神經(jīng)網(wǎng)絡(luò)帶來計(jì)算開銷和噪聲影響的同時(shí),能有效獲取全局說話人信息。b)提出一種基于注意力機(jī)制的特征融合方法,有助于探索局部相關(guān)性和說話人全局信息之間的相互交互,以實(shí)現(xiàn)針對特定會話的說話人表征學(xué)習(xí)。c)提出的MPGNN方法在AMI_SDM和CALLHOME數(shù)據(jù)集上分別達(dá)到了 3.33%.3.52%.5.66% 和 6.52% 的說話人日志錯(cuò)誤率。該方法顯著優(yōu)于基線系統(tǒng),并且在大部分情況下,甚至超過了最先進(jìn)(SOTA)方法。
1本文方法
本章將詳細(xì)介紹所提出的面向說話人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法MPGNN,具體實(shí)現(xiàn)方法如算法1所示。給定一個(gè)會話音頻,通過語音活動(dòng)檢測過濾非語音片段后,將語音片段固定切分成1.5s長,0.75s重疊的短片段。隨后,利用預(yù)訓(xùn)練模型作為說話人編碼器來提取固定維度的說話人嵌入X={x1,x2,…,xN|xi∈RD} ,其中 N 表示每個(gè)會話中音頻片段的數(shù)量, xi 表示第 i 個(gè)音頻片段的聲紋嵌入, D 表示嵌入空間的維度。最后,這些嵌人作為輸入應(yīng)用于MPGNN模型對說話人表征進(jìn)行優(yōu)化,并輸出重構(gòu)親和矩陣進(jìn)行無監(jiān)督說話人聚類。
算法1 MPGNN
輸入:說話人嵌入 X ;會議數(shù),最近鄰數(shù),說話人數(shù)和原性數(shù) M,k c*,p* ;超參數(shù) μ,λ 。
輸出:預(yù)估的親和矩陣 。
while m=0 to M-1 do圖構(gòu)建: (204多原型學(xué)習(xí)
(24號信息融合:
(204號
endwhile
output:使用 σ(Hm,Hm′) 預(yù)測
MPGNN的主要思想是為了探索特定會話下局部相關(guān)性和說話人全局信息之間的有效交互,總體流程如圖1所示。其主要包括以下幾個(gè)關(guān)鍵模塊:圖構(gòu)建模塊、多原型學(xué)習(xí)模塊、信息融合與聯(lián)合優(yōu)化模塊。
1.1語音片段關(guān)系圖構(gòu)建
參考近期說話人日志領(lǐng)域中利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行會話級建模方法[12-16],根據(jù)聲紋嵌入間的余弦相似度或概率線性判別分析(probabilisticlineardiscriminantanalysis,PLDA)相似度[18構(gòu)建圖結(jié)構(gòu),將非結(jié)構(gòu)化嵌入轉(zhuǎn)換為結(jié)構(gòu)化圖形數(shù)據(jù)??紤]到初始圖結(jié)構(gòu)直接影響圖神經(jīng)網(wǎng)絡(luò)對于說話人局部結(jié)構(gòu)信息的學(xué)習(xí)效果,本文對初始圖結(jié)構(gòu)進(jìn)行校準(zhǔn)。
1.1.1語音片段關(guān)系圖結(jié)構(gòu)初始化
首先,利用預(yù)訓(xùn)練編碼器提取每個(gè)會話中對應(yīng)語音片段的說話人嵌入 X={x1,x2,…,xN|xi∈RD} 。將每一條語音片段作為圖節(jié)點(diǎn),語音片段對應(yīng)的說話人嵌入作為節(jié)點(diǎn)嵌入,得到節(jié)點(diǎn)表示 V={vi|i=1,2,…,N} 。其中 N 表示特定會話中的語音片段數(shù), vi 表示第 i 條語音片段對應(yīng)的節(jié)點(diǎn)表示。然后,利用說話人嵌入間的相似性建立節(jié)點(diǎn)間的關(guān)系表示 E={eij|i,j=1 ∣2,…,N} ,其中 eij 表示第 i 條語音片段和第 j 條語音片段之間對應(yīng)節(jié)點(diǎn)的相關(guān)性,其權(quán)重表示由親和矩陣 A∈RN×N 確定。
1.1.2語音片段關(guān)系圖結(jié)構(gòu)校準(zhǔn)
不同于基于余弦相似度或PLDA相似度構(gòu)建親和矩陣方法,本文受文獻(xiàn)[14]啟發(fā),舍棄了需要單獨(dú)訓(xùn)練的PLDA模型,本文在簡單的余弦相似度基礎(chǔ)上,參考對領(lǐng)域信息進(jìn)行整合的相關(guān)工作[19],提出一個(gè)多步驟初始圖結(jié)構(gòu)校準(zhǔn)方法。
a)余弦相似度矩陣構(gòu)建。本文利用余弦相似度,構(gòu)造一個(gè) N×N 的相似度矩陣 s
其中: Sijcos 表示聲紋嵌入 xi 和 xj 之間的余弦相似度。
b)最近鄰選擇。通過近似最近鄰算法(approximatenearestneighbor,ANN)挑選與節(jié)點(diǎn) vi 最相近的 k 個(gè)最近鄰 N(vi,k)= {vi1,vi2,…,vik} 。為提升節(jié)點(diǎn) vi 和 N(vi,k) 中的元素同屬于一類的可能性,將最近鄰集合 N(vi,k) 拓展為 vi 和 N(vi,k) 中的元素互為鄰居的新集合 R(vi,k) :
R(xi,k)={xj∣(xj∈N(xi,k))∧(xi∈N(xj,k))}
為避免一些特征空間上相似性較小的相同說話人被排除在 K 近鄰之外,對集合 R(xi,k) 進(jìn)行擴(kuò)充:
?vj∈R(vi,k)
其中: 1?1 表示集合中的元素?cái)?shù)量; R*(vi,k) 表示包含更多同一說話人語音節(jié)點(diǎn)的集合。
c)相似度重定義。本文重新定義了節(jié)點(diǎn) vi 和每個(gè)候選節(jié)點(diǎn) vj 之間的相似性度量,利用杰卡德相似性 Sijjac 來校準(zhǔn)簡單余弦相似性 Sijcos 帶來的噪聲邊影響:
其中: λ 是一個(gè)平衡系數(shù),用于調(diào)整杰卡德相似度 Sijjac 和余弦相似度 Sijcos 的權(quán)重。
d)閾值過濾。參考前人工作[1,利用特征空間計(jì)算得到的相似度矩陣 s 往往包含大量弱連接邊,使用閾值過濾能獲得一個(gè)更有益于說話人區(qū)分的圖結(jié)構(gòu)。
1.2動(dòng)態(tài)說話人多原型學(xué)習(xí)
盡管好的圖結(jié)構(gòu)表示能為當(dāng)前表征帶來有效的局部結(jié)構(gòu)信息,但若依賴圖神經(jīng)網(wǎng)絡(luò)層數(shù)的增加來獲取全局信息,往往伴隨著鄰居噪聲點(diǎn)的干擾。MPGNN在擴(kuò)展說話人原型概念的基礎(chǔ)上,提出了一種動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)方法,在避免多層圖神經(jīng)網(wǎng)絡(luò)帶來的噪聲干擾同時(shí),以說話人原型為導(dǎo)向,有效引入全局說話人信息。整個(gè)多原型學(xué)習(xí)的過程主要包含多原型初始化和多原型更新,具體步驟如圖2所示。
1.2.1動(dòng)態(tài)說話人多原型初始化
為解決預(yù)訓(xùn)練模型任務(wù)不匹配帶來的高維度信息冗余問題,本文首先使用多層感知機(jī)(multilayerperceptron,MLP)將特定會話的節(jié)點(diǎn)表示 ,即初始的說話人嵌入表示 X0 轉(zhuǎn)換到一個(gè)低維潛在空間并表示為
。接著,在給定說話人類別數(shù) c* 和說話人原型數(shù) p* 的情況下,利用K-means無監(jiān)督聚類算法來獲取初始的聚類分布 C={Cc|c=1,2,… c* }。其中 c* 表示特定會話中的說話人數(shù)量,即聚類數(shù),而Cc∈RN′×D′ 表示包含 N' 個(gè)節(jié)點(diǎn)數(shù)和 p′ 特征維度的說話人類別c 最后,通過對每個(gè)說話人類別執(zhí)行平均池化操作,獲取每個(gè)類別的初始說話人中心表征 Xc'
由于單說話人原型往往無法有效表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu)[17],MPGNN以聚類為指引進(jìn)行多原型的設(shè)計(jì),捕捉更加豐富的類內(nèi)多樣性特征。在多原型學(xué)習(xí)初始化過程中,本文利用高斯分布 N(η,Σ) 進(jìn)行隨機(jī)采樣,其中 η 表示由說話人中心表征 Xc 進(jìn)行初始化得到的均值, Σ 表示為隨機(jī)初始化得到的協(xié)方差。
1.2.2動(dòng)態(tài)說話人多原型自適應(yīng)更新
在設(shè)計(jì)的特定聯(lián)合損失約束下,多原型 Pc={Pcp|p=1 2,…,p*} 伴隨著槽注意力機(jī)制的學(xué)習(xí)過程而不斷更新。其中p* 表示說話人類別 c 中的原型數(shù)量。公式化描述如下:
其中:l表示多原型迭代學(xué)習(xí)次數(shù); WQ ,WK, WV∈RD′×D′ 為參數(shù)矩陣; 分別表示在說話人類別 ∣c∣ 中映射所得查詢(queries)、鍵(keys)和值(values)。
原始的槽注意力機(jī)制通過學(xué)習(xí)固定數(shù)量的槽來表示計(jì)算機(jī)視覺任務(wù)中的不同對象。在MPGNN中,本文擴(kuò)展了槽注意力機(jī)制來學(xué)習(xí)每個(gè)類中多原型的節(jié)點(diǎn)特征。利用高斯分布所得的初始化多原型 pc 在槽注意力機(jī)制經(jīng)過 l+1 次迭代后,學(xué)習(xí)得到符合數(shù)據(jù)分布的新多原型 (Pc)l+1 :
其中: Λω 表示一個(gè)用于數(shù)值穩(wěn)定性的小系數(shù),其值被設(shè)置為 1E-8
1.3特征融合和聯(lián)合優(yōu)化
初始說話人嵌入 X∈RN×D 在局部分支中,經(jīng)由兩層圖卷積網(wǎng)絡(luò)層[20]得到新的節(jié)點(diǎn)輸出 G∈RN×D' ,鑒于模型的復(fù)雜度,本文簡單地利用點(diǎn)積注意力機(jī)制,將局部相關(guān)性信息與說話人感知的全局信息進(jìn)行融合:
其中: ω 表示一個(gè)用于數(shù)值穩(wěn)定性的小系數(shù),其值被設(shè)置為 1E-8
為有效探索局部和全局信息之間的交互過程,本文引入單分支的獨(dú)立優(yōu)化和雙分支的一致性優(yōu)化來對MPGNN進(jìn)行聯(lián)合訓(xùn)練。對于全局分支,在給定說話人嵌入 X∈RN×D 和說話人類別數(shù) c* 的情況下,MPGNN為確保每個(gè)類別中不同說話人原型間的多樣性,引入正交損失:
其中: F 表示L2范數(shù): ;I 表示單位矩陣,以實(shí)現(xiàn)軟正交約束。對于雙分支的一致性優(yōu)化,引人均方誤差(mean squared error,MSE) :
其中: Y 表示真實(shí)標(biāo)簽; 表示局部分支輸出節(jié)點(diǎn)在與全局信息進(jìn)行交互時(shí)對應(yīng)的最相似說話人原型標(biāo)簽。最后,將常用的有監(jiān)督說話人日志損失 lbce 與本文提出的兩個(gè)新的損失函數(shù)進(jìn)行有效結(jié)合:
L=αlortho+βlcom+lbce
其中: α 和 β 分別表示全局分支的獨(dú)立優(yōu)化和雙分支一致性優(yōu)化在總損失函數(shù)中的固定權(quán)重。
2 實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集
為驗(yàn)證MPGNN方法的有效性,本文選用說話人日志領(lǐng)域最常用的兩個(gè)公開數(shù)據(jù)集AMI和CALLHOME進(jìn)行相關(guān)實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)描述如表1所示。
AMI數(shù)據(jù)集[21是一個(gè)全面的多模態(tài)英語數(shù)據(jù)集,共包含171個(gè)會議記錄,總對話時(shí)長高達(dá) 100h 。每場會議都以16kHz 的頻率進(jìn)行采樣,每個(gè)對話最多有五個(gè)說話人參與。本文選用通用的AMISDM條件下的驗(yàn)證集和測試集用于實(shí)驗(yàn)。
NISTSRE2000(Disk8)也被稱為CALLHOME數(shù)據(jù)庫。該數(shù)據(jù)集是一個(gè)會話式多語言庫,總時(shí)長為 20h 。每個(gè)對話最多涉及七個(gè)說話人。作者通常采用5折交叉驗(yàn)證方法[12.22]來評估其模型的性能。
2.2 評價(jià)指標(biāo)
根據(jù)說話人日志任務(wù)需求,基于固定短切分的級聯(lián)學(xué)習(xí)方法更看重說話人識別的準(zhǔn)確性。因此,本文選用當(dāng)前使用頻率最高的說話人日志錯(cuò)誤率(diarizationerrorrate,DER)作為評估指標(biāo)來衡量不同方法的性能。其計(jì)算方式如下:
DER=FA+MS+SC
其中: FA (1alarm)表示語音的誤報(bào)率; MS (missed speech)表示語音的漏檢率; sc (speakerconfusion)表示說話人標(biāo)簽的誤報(bào)率。前兩者主要用來評判語音檢測或語音分割的優(yōu)劣,后者用來評判說話人識別的準(zhǔn)確性。
2.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)服務(wù)器配置為 4316 CPU,GPU采用GeForce RTX 3080Ti 。操作系統(tǒng)為Ubuntu20.04.4,使用Python3.9.17,CUDA11.3和PyTorch1.10.0作為開發(fā)環(huán)境。
參考前人工作[12.16],本文采用與主流方法一致的前端工作,將長語音片段切分成1.5s固定長度的短片段,相鄰片段的重疊時(shí)長為 0.75s 。針對不同的數(shù)據(jù)集,利用Kaldi官方[23]提供的聲紋特征提取器分別提取512維和128維的X-vector[8],兩個(gè)數(shù)據(jù)集的X-vector的訓(xùn)練配置如表2所示。
GNN預(yù)訓(xùn)練:為驗(yàn)證圖結(jié)構(gòu)校準(zhǔn)過程的有效性,本文新增了最近鄰選擇、相似度重定義、閾值過濾的消融實(shí)驗(yàn)。實(shí)驗(yàn)在AMISDM數(shù)據(jù)集上,最近鄰數(shù)量 k 、平衡系數(shù) λ 和相似度分過濾閾值 μ 最佳取值分別為 300.0.1 和0.3,由于CALLHOME數(shù)據(jù)集中錄音記錄相對較短,所以鄰居數(shù) k 的最佳取值為30,平衡系數(shù) λ 和相似度得分過濾閾值 μ 最佳取值分別為0.1和0.3。在整個(gè)實(shí)驗(yàn)過程中,本文延續(xù)了前人工作[1的相同設(shè)置,采用兩層圖編碼器(GNN)并將其維度分別設(shè)置為 32,16 (24為更好地進(jìn)行比較,本文使用了兩種當(dāng)下主流的無監(jiān)督聚類方法:凝聚層次聚類(agglomerativehierarchicalclustering,AHC)[6.24]和譜聚類(spectral clustering,SC)[25-27],其中凝聚層次聚類的學(xué)習(xí)過程與工作[28]一致,新增一個(gè)用于全局主成分分析(principalcomponentsanalysis,PCA)的線性層。而譜聚類中針對說話人未知的情況,本文同文獻(xiàn)[27]一致,將余弦相似度矩陣進(jìn)行特征間隙分析,預(yù)估說話人數(shù)量。
MPGNN訓(xùn)練:為驗(yàn)證多原型學(xué)習(xí)過程的有效性,本文新增了三個(gè)損失函數(shù)的消融實(shí)驗(yàn)。將上述GNN預(yù)訓(xùn)練的網(wǎng)絡(luò)作為編碼器,在多原型學(xué)習(xí)分支下,分別使用不同的損失函數(shù)組合對其進(jìn)行微調(diào)。學(xué)習(xí)過程中,本文使用隨機(jī)梯度下降(stochasticgradientdescent,SGD)優(yōu)化器對MPGNN進(jìn)行了100個(gè)epochs的訓(xùn)練,并將實(shí)驗(yàn)重復(fù)10次取平均以避免極端值。其中,初始學(xué)習(xí)率為0.01,在第90個(gè)epoch后學(xué)習(xí)率設(shè)置為0.001。實(shí)驗(yàn)在AMISDM數(shù)據(jù)集上,超參數(shù) α?β 和原型數(shù) p* 最佳取值分別為 0.01,0.1 和10,CALLHOME數(shù)據(jù)集上超參數(shù)分別選擇為0.05、0.1和7。
本文使用dscore工具分別計(jì)算說話人已知和未知情況下,包含0.25s語音邊界不計(jì)分區(qū)域的SC說話人標(biāo)簽誤報(bào)率以及不包含0.25s語音邊界不計(jì)分區(qū)域的DER總錯(cuò)誤率,從而更好地與說話人日志領(lǐng)域特定數(shù)據(jù)集下主流方法進(jìn)行比較。
2.4對比實(shí)驗(yàn)
為充分驗(yàn)證MPGNN的有效性,本節(jié)選擇當(dāng)前主流的一些基于固定段切分的模塊化方法:ClusterGAN[29]、SSC-PIC[28]、SHARC[15]、GADEC[16]] GNN[12] 與本文方法進(jìn)行比較。表3給出了相關(guān)方法在AMISDM和CALLHOME數(shù)據(jù)集上DER指標(biāo)的評估結(jié)果。為了更好地與主流方法進(jìn)行比較,本文在計(jì)算DER的過程中與上述方法保持一致,選擇 Δw/outOVP+COL 這種去除重疊語音和增加 0.25s 語音邊界不計(jì)分區(qū)域的DER計(jì)算。其中,在AMISDM數(shù)據(jù)集上,本文方法延續(xù)了公開文獻(xiàn)中說話人未知情況下DER的錯(cuò)誤率,而在CALLHOME數(shù)據(jù)集上,本文方法在實(shí)驗(yàn)結(jié)果上保留了說話人已知和未知情況下的DER錯(cuò)誤率。
結(jié)合表3中的實(shí)驗(yàn)數(shù)據(jù),可以觀察到主流方法在AMISDM數(shù)據(jù)集上往往表現(xiàn)更佳,這是由于該數(shù)據(jù)集相對而言語音較長,模型能夠捕獲更多有利的說話人信息。在AMISDM和CALLHOME數(shù)據(jù)集上,MPGNN的DER和SOTA方法(例如GADEC)相比分別降低了 5.9%10.2%.36.6%.7.8% 。實(shí)驗(yàn)結(jié)果表明,通過多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)以感知全局說話人特征的MPGNN方法,相較于利用高階鄰居來探索全局信息的GADEC方法,不僅能突破圖注意力層數(shù)的限制,減少額外的計(jì)算開銷,還能有效避免鄰居噪聲,降低說話人識別錯(cuò)誤率。
2.5 消融實(shí)驗(yàn)
為驗(yàn)證提出的圖構(gòu)建策略和原型驅(qū)動(dòng)策略的有效性,本節(jié)在CALLHOME數(shù)據(jù)集上選擇 和 x-vec+cos+SC 作為基線方法并對所提方法進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果分別如表4和5所示,表4中的策略1、2分別表示最近鄰選擇策略,相似度重定義 + 閾值過濾策略,表5中的L1、L2、L3分別表示有監(jiān)督說話人日志損失、探索局部和全局信息交互的均方誤差損失 lcomp 以及確保類別原型多樣性的正交損失 lortho 。
圖構(gòu)建策略的有效性:通過在基線模型上增加多步驟圖構(gòu)建策略,如表4所示的 GNN+SC-l ,可以看出相較于基線模型x-vec+cos+SC ,以往公開文獻(xiàn)[16]中常用的最近鄰圖構(gòu)建策略在CALLHOME數(shù)據(jù)集上并不奏效。鑒于本文使用的X-vector[8]聲紋信息汲取能力略遜于文獻(xiàn)[16],但又為了能與主流方法更好地進(jìn)行比較,本文在普通聲紋特征模型X-vector[8]的基礎(chǔ)上,增加相似度重定義 + 閾值過濾策略,實(shí)驗(yàn)結(jié)果顯示GNN?SC-2 相比基線模型 μX-vec+cos+SC 在性能上有了明顯的提升,這也表明了該圖構(gòu)建策略的有效性。
原型驅(qū)動(dòng)策略的有效性:通過在基線模型上增加不同原型驅(qū)動(dòng)策略,如表5所示的MPGNN +SC-1 ,可以看出相較于基線模型 x-vec+cos+SC ,公開文獻(xiàn)[12\~16]中常用的 lbce 在多原型學(xué)習(xí)過程中并不奏效。這是由于本文在探索全局說話人信息的同時(shí),說話人多原型又引入了噪聲。為此本文新增均方誤差損失 lcomp 原型驅(qū)動(dòng)策略以及正交損失 lortho 原型驅(qū)動(dòng)策略,實(shí)驗(yàn)結(jié)果表明,MPGNN +SC-2 、MPGNN +SC.3 相比基線均有所下降,這證明了使用原型驅(qū)動(dòng)策略在有效減輕多原型學(xué)習(xí)過程中說話人不匹配帶來的噪聲干擾影響的同時(shí),能夠有效提升模型性能。
2.6 超參分析
本節(jié)將對所提方法引入的參數(shù)進(jìn)行分析,包括圖構(gòu)建策略中的過濾閾值 μ 和平衡系數(shù) λ ,以及原型驅(qū)動(dòng)策略中的超參數(shù)原型數(shù) p* 。實(shí)驗(yàn)在AMI_SDM數(shù)據(jù)集上進(jìn)行,結(jié)果如圖3所示。
在沒有原型學(xué)習(xí)時(shí),過濾閾值 μ 和平衡系數(shù) λ 對DER的影響如圖3(a)所示。在圖構(gòu)建過程中用于平衡余弦相似度和杰卡德相似度重要性的參數(shù) λ ,當(dāng) λ 為0時(shí),僅考慮余弦相似度作為最終相似度;而當(dāng) λ 為1時(shí),則僅使用杰卡德相似度。DER會先隨著 λ 的增大而降低,然后在超過閾值0.1后開始快速升高。在 λ 值過小時(shí),少量的杰卡德相似度可以補(bǔ)充余弦相似度在說話人嵌入上的細(xì)微不足。而在 λ 值過大時(shí),杰卡德相似度占比過大,不利于捕捉說話人嵌人之間的潛在關(guān)系。
此外,在圖構(gòu)建過程中用于過濾較小相似度的閾值 μ DER會先隨著 μ 增加而降低,而當(dāng)為 μ 分配一個(gè)較大的值時(shí)可能會過濾掉相關(guān)說話人嵌入導(dǎo)致的性能下降。由此,當(dāng)設(shè)置平衡系數(shù) λ=0.1 和閾值 μ=0.3 時(shí),在說話人未知時(shí)獲得最佳測試集結(jié)果,即 4.17% 的識別錯(cuò)誤率??梢杂^察到,所提方法明顯優(yōu)于基線 的 5.97% 的識別錯(cuò)誤率,表明使用圖構(gòu)建策略是有效的。在增加多原型學(xué)習(xí)時(shí),超參數(shù)原型數(shù)p* 對DER的影響如圖3(b)所示,DER隨著 p* 在一個(gè)合理范圍的增加而降低。當(dāng) p* 過小時(shí),類原型太少無法提供完整的全局說話人信息,而在 p* 過大時(shí),類原型過多導(dǎo)致不同說話人區(qū)分性較差。但本文方法在不同的 p* 值上始終優(yōu)于基線。這表明了使用多原型學(xué)習(xí)策略來捕獲全局說話人信息是有效的。
2.7 可視化分析
為了評估AMI_SDM數(shù)據(jù)集上MPGNN方法的有效性,本節(jié)選取開發(fā)集中一個(gè)會議樣本進(jìn)行親和矩陣的可視化分析。如圖4所示,可以觀察到本文方法MPGNN在圖4(b)所示的親和矩陣可視化分析上,區(qū)分性明顯優(yōu)于圖4(a)所示的基線模型 的親和矩陣。這表明相比基線模型,MPGNN能使不同的說話人嵌人之間區(qū)別更加明顯,更有助于不同說話人之間的區(qū)分,這也充分說明了本文所提多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)在說話人日志領(lǐng)域的有效性。
3結(jié)束語
本文致力于解決說話人日志任務(wù)中基于固定短切分導(dǎo)致說話人信息不足的問題,提出了一種面向說話人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法MPGNN。相較于現(xiàn)有技術(shù),MPGNN通過精心設(shè)計(jì)的四大核心模塊一圖構(gòu)建、原型學(xué)習(xí)、信息融合及聯(lián)合優(yōu)化,實(shí)現(xiàn)了對全局信息的深度捕捉與局部相關(guān)性的精細(xì)整合。盡管本文方法有效削弱了說話人信息不足對聚類效果的負(fù)面影響,但還存在一定的改進(jìn)空間。后續(xù)工作中,將進(jìn)一步考慮如何自適應(yīng)地確定最近鄰數(shù)量 k 值以及如何將本文所提方法與聚類進(jìn)行聯(lián)合學(xué)習(xí)等問題。
參考文獻(xiàn):
[1]TranterSE,ReynoldsDA.An overview ofautomatic speaker diarizationsystems[J].IEEETrans on Audio,Speech,and LanguageProcessing,2006,14(5):1557-1565
[2]Park TJ,KandaN,DimitriadisD,et al.Areview of speaker diarization:recent advances with deep learning[J].Computer Speech amp; Language,2022,72:101317.
[3]Zazo R,Sainath TN,Simko G,et al.Feature learning with rawwaveform CLDNNs forvoiceactivity detection[C]//Proc of InterSpeech. 2016:3668-3672.
[4]Chang S Y,LiBo, Simko G,et al. Temporal modeling using dilated convolutionand gating forvoice-activity-detection[C]//Procof IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEEPress,2018:5549-5553.
[5]YinRuiqing,Bredin H,Barras C. Speaker change detection in broadcast TV using bidirectional long short-term memory networks[C]// Proc of InterSpeech.2017.
[6]Sell G,Garcia-Romero D.Speaker diarization with PLDA i-vector scoringand unsupervised calibration [C]//Proc of IEEE Spoken Language TechnologyWorkshop.Piscataway,NJ:IEEEPress,2014: 413-417.
[7]Dehak N,KennyPJ,Dehak R,et al.Front-end factor analysis for speaker verification [J]. IEEE Trans on Audio,Speech,and LanguageProcessing,2011,19(4):788-798.
[8]Snyder D,Garcia-Romero D,Sell G,et al.X-vectors:robust DNN embeddingsfor speakerrecognition[C]//Proc of IEEEInternational Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE Press,2018:5329-5333.
[9]Han KJ,Kim S,Narayanan S S. Strategies to improve the robustness of agglomerative hierarchical clustering under data source variation for speaker diarization[J].IEEE TransonAudio,Speech,and Language Processing,2008,16(8):1590-1601.
[10]Luxburg U.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.
[11]LandiniF,ProfantJ,Diez M,et al.Bayesian HMMclustering of (204號 X -vector sequences(VBx)in speaker diarization:theory,implementation and analysis on standard tasks [J].Computer Speech amp; Language,2022,71:101254.
[12]Wang Jixuan,Xiao Xiong,Wu Jian,etal.Speaker diarization with session-level speaker embedding refinement using graph neural networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020: 7109-7113.
[13]KwonY,HeoHS,JungJW,et al.Multi-scale speaker embeddingbased graph attention networks for speaker diarization [C]/Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:8367-8371.
[14]Wang Jie,Chen Zhicong,Zhou Haodong,et al.Community detection graph convolutional network for overlap-aware speaker diarization [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2O23:1-5.
[15] Singh P,Kaul A,Ganapathy S. Supervised hierarchical clustering usinggraph neural networks for speaker diarization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2O23:1-5.
[16]Wei Yi,GuoHaiyan,Ge Zirui,etal.Graph attention-based deep embedded clustering for speaker diarization [J]. Speech Communication,2023,155:102991.
[17]Zeng Shan,Duan Xiangjun,Bai Jun,et al.Soft multiprototype clusteringalgorithmviatwo-layersemi-NMF[J].IEEETrans on Fuzzy Systems,2024,32(4):1615-1629.
[18]IoffeS.Probabilistic lineardiscriminantanalysis[C]//Procofthe 9th European Conference on Computer Vision.Berlin:Springer, 2006:531-542.
[19]朱必松,毛啟容,高利劍,等.基于時(shí)間分段和重組聚類的說話 人日志方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2649-2654. (ZhuBisong,MaoQirong,Gao Lijian,etal.Temporal-segment-andregroup clustering for speaker diarization [J].Application ResearchofComputers,2024,41(9):2649-2654.)
[20]Kipf TN,Welling M. Semi-supervised classfication with graph convolutional networks[EB/OL].(2016-09-09).htps://arxiv.org/ abs/1609.02907.
[21]Kraaij W,HainT,LincolnM,etal.TheAMImeetingcorpus[C]// Proc of International Conference on Methods and Techniques in Behavioral Research.2005:1-4.
[22]Lin Qingjian,Yin Ruiqing,LiMing,et al.LSTM based similarity measurement with spectral clustering for speaker diarization [EB/ OL].(2019-07-23). https://arxiv.org/abs/1907.10393.
[23]PoveyD,Ghoshal A,BoulianneG,etal.TheKaldispeech recognition toolkit[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway,NJ:IEEE Press,2011.
[24]SellG,Snyder D,McCree A,et al.Diarization is hard:some experiences andlessonslearned for the JHU team in the inaugural DIHARD challenge [C]//Proc of InterSpeech.2018:2808-2812.
[25]Ning Huazhong,Liu Ming,Tang Hao,et al.A spectral clustering approach to speaker diarization [C]//Proc of InterSpeech.2006: 2178-2181.
[26]Wang Quan,Downey C,Wan Li,et al.Speaker diarization with LSTM[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2018: 5239-5243.
[27]Park TJ, Han K J,Kumar M,et al. Auto-tuning spectral clustering forspeaker diarization using normalized maximum eigengap[J]. IEEESignal Processing Letters,2019,27:381-385.
[28]Singh P,Ganapathy S. Self-supervised representation learning with pathintegral clustering for speaker diarization[J].IEEE/ACM Trans on Audio,Speech,and Language Processng,2021, 29:1639-1649.
[29]Pal M,KumarM,Peri R,et al.Speaker diarizationusing latent space clustering in generative adversarial network[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020:6504-6508.