亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類研究

        2023-08-21 08:44:48令曉明郭亞龍
        科技創(chuàng)新與應(yīng)用 2023年23期
        關(guān)鍵詞:音頻語(yǔ)音聚類

        項(xiàng) 羽,令曉明,2,郭亞龍

        ( 1.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070;2.蘭州交通大學(xué) 國(guó)家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心,蘭州 730070)

        說(shuō)話人分割聚類( Speaker Diarization)是語(yǔ)音處理的一個(gè)研究方向, 主要是作為一種前端處理技術(shù)在語(yǔ)音處理領(lǐng)域使用。 是將一段連續(xù)的語(yǔ)音數(shù)據(jù)按不同說(shuō)話人分割成片段, 并給每段語(yǔ)音片段標(biāo)注上說(shuō)話人的身份信息,以解決“ 誰(shuí)在什么時(shí)候說(shuō)”的問(wèn)題[1]。 說(shuō)話人分割聚類在眾多領(lǐng)域都有著廣泛的應(yīng)用,如在錄音軟件中,可以通過(guò)說(shuō)話人分割聚類技術(shù)將錄音音頻的說(shuō)話人及其說(shuō)話時(shí)長(zhǎng)標(biāo)注出來(lái), 將其作為特征可以快速?gòu)谋姸嘁纛l中找到特定音頻;在會(huì)議場(chǎng)景中,結(jié)合說(shuō)話人分割聚類技術(shù)和語(yǔ)音識(shí)別技術(shù)可以生成一份包含發(fā)言人身份信息的會(huì)議記錄,便于參會(huì)人員回顧會(huì)議內(nèi)容;作為語(yǔ)音領(lǐng)域的前端處理技術(shù),還可以提升后續(xù)語(yǔ)音處理系統(tǒng)的性能,如語(yǔ)音識(shí)別系統(tǒng)在說(shuō)話人發(fā)生變化的時(shí)間點(diǎn)重置語(yǔ)音識(shí)別模型可以提高語(yǔ)音識(shí)別的準(zhǔn)確率。

        最初的說(shuō)話人分割方法是基于能量的[2],這種方法是假設(shè)在兩人對(duì)話話語(yǔ)之間存在一個(gè)靜默區(qū)域, 通過(guò)設(shè)定能量閾值檢測(cè)說(shuō)話人轉(zhuǎn)換點(diǎn), 但是實(shí)際場(chǎng)景存在搶話現(xiàn)象導(dǎo)致分割結(jié)果并不理想。 目前比較主流的分割方法有2 種,分別是基于距離和基于模型的分割方法。 基于距離的分割方法不需要說(shuō)話人的先驗(yàn)信息,但需劃定門(mén)限,魯棒性較差。 常用的距離度量有貝葉斯信息準(zhǔn)則( Bayesian Information Criterion,BIC)、 歸一化交叉似然比( Normalized Cross Likelihood Ratio,NCLR)、T-Test度量距離等[3]。 常用的說(shuō)話人聚類方法是層次聚類,進(jìn)行層次聚類有2 種方法, 分別是自下而上和自上而下的方法[4],其中自下而上的方法魯棒性較差,而自上而下的方法區(qū)分性較差, 在分割聚類系統(tǒng)中自下而上的方法得到了更為廣泛的使用。

        本文提出基于DS 證據(jù)理論多特征融合模型, 提取說(shuō)話人的嵌入特征用于說(shuō)話人分割聚類。 該模型相較于傳統(tǒng)單一特征或單一神經(jīng)網(wǎng)絡(luò), 說(shuō)話人分割聚類系統(tǒng)性能得以提升。

        1 說(shuō)話人分割聚類系統(tǒng)

        完整的說(shuō)話人分割聚類系統(tǒng)由預(yù)處理、有效語(yǔ)音檢測(cè)、說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)、說(shuō)話人聚類和二次分割幾部分組成,其示意圖如圖1 所示。

        圖1 說(shuō)話人分割聚類系統(tǒng)框圖

        1.1 預(yù)處理

        音頻信號(hào)如果直接輸入說(shuō)話人分割聚類系統(tǒng),系統(tǒng)的性能會(huì)不理想。 因此在此之前需要對(duì)音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理,由此消除發(fā)聲器官本身和采集設(shè)備采集音頻所帶來(lái)的混疊、高次諧波失真、高頻等因素對(duì)音頻信號(hào)質(zhì)量的影響。

        1.2 有效語(yǔ)音檢測(cè)

        有效語(yǔ)音檢測(cè)的目的是將輸入的音頻信號(hào)中的語(yǔ)音與非語(yǔ)音分離,只保留說(shuō)話人的語(yǔ)音信號(hào)用于后續(xù)的分割聚類,這里的非語(yǔ)音指的是靜音區(qū)域、環(huán)境噪音、背景音樂(lè)音效等。 有效語(yǔ)音檢測(cè)模塊的存在有助于后續(xù)模塊專注于處理音頻信號(hào)的語(yǔ)音部分,由此而提高系統(tǒng)的性能。

        1.3 說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)

        說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)的目的是檢測(cè)出說(shuō)話人變化的時(shí)間點(diǎn),再根據(jù)這個(gè)時(shí)間點(diǎn)將語(yǔ)音信號(hào)分割成片段,使其成為只包含一個(gè)說(shuō)話人的音頻片段。 目前主流的分割方法有2 種,分別是基于距離和基于模型的方法?;诰嚯x的方法是選取大小相同相鄰的2 個(gè)滑動(dòng)窗,計(jì)算2 個(gè)窗內(nèi)的特征分布之間的距離作為說(shuō)話人分割的依據(jù),通過(guò)與預(yù)先設(shè)定的閾值或懲罰因子來(lái)進(jìn)行比較判斷2 個(gè)窗內(nèi)的語(yǔ)音是否來(lái)自同一說(shuō)話人[5]?;谀P偷姆椒ㄊ菍?duì)語(yǔ)音建立起說(shuō)話人模型,將語(yǔ)音分割成等長(zhǎng)的短語(yǔ)音片段,使用建立的說(shuō)話人模型對(duì)這些語(yǔ)音片段進(jìn)行分類,模型之間的邊界就是說(shuō)話人的轉(zhuǎn)換點(diǎn)。 除此之外還有基于深度神經(jīng)網(wǎng)絡(luò)的方法,其基本思想是通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)確定當(dāng)前語(yǔ)音幀和說(shuō)話人轉(zhuǎn)換點(diǎn)的相對(duì)位置,然后在所有語(yǔ)音幀中找到和理想的轉(zhuǎn)換點(diǎn)最匹配的語(yǔ)音幀作為說(shuō)話人轉(zhuǎn)換點(diǎn)。 基于深度神經(jīng)網(wǎng)絡(luò)的方法相較于前2 種方法準(zhǔn)確率會(huì)更高,但是計(jì)算量會(huì)更大。

        1.4 說(shuō)話人聚類

        說(shuō)話人聚類是將分割得到的語(yǔ)音片段按說(shuō)話人的身份信息進(jìn)行聚類,類別的數(shù)量就是說(shuō)話人的數(shù)量。常用層次聚類的方法進(jìn)行說(shuō)話人聚類, 進(jìn)行層次聚類有自下而上和自上而下2 種方法。 自下而上的方法是將每段語(yǔ)音片段都當(dāng)作一類,然后計(jì)算所有類別之間的相似度,接著合并2 個(gè)相似度最高的2 個(gè)類別, 合并后重新計(jì)算新類之間的相似度, 重復(fù)迭代這一過(guò)程直到完成聚類輸出結(jié)果[6]。自上而下的方法是將所有語(yǔ)音片段當(dāng)成一個(gè)整體類別,然后增加類別并重新分配語(yǔ)音片段,不斷重復(fù)迭代直至達(dá)到目標(biāo)類別數(shù)。 除了層次聚類之外還可以使用譜聚類等聚類方法進(jìn)行說(shuō)話人聚類, 譜聚類是通過(guò)距離矩陣和相似矩陣將聚類問(wèn)題轉(zhuǎn)化為平面上的帶權(quán)無(wú)向圖的切分問(wèn)題,使得切分得到的子圖之間的權(quán)重和最小,而每個(gè)子圖內(nèi)的權(quán)重和最大。

        1.5 二次分割

        說(shuō)話人聚類完成后就得到了說(shuō)話人分割聚類的初步結(jié)果,但是得到的結(jié)果可能不夠理想。二次分割就是對(duì)片段的邊界及聚類結(jié)果進(jìn)行進(jìn)一步處理, 得到更佳的聚類結(jié)果。二次分割會(huì)帶來(lái)額外的計(jì)算量,而且只能用于離線的說(shuō)話人分割聚類系統(tǒng),因此二次分割不是必須的。

        2 基于DS 融合理論的說(shuō)話人嵌入特征提取

        2.1 DS 證據(jù)理論

        DS 證據(jù)理論是由Dempster 提出并由Shafer 完善的不確定性推理計(jì)算方法[7],是一種廣泛應(yīng)用于決策融合和信息融合上的多數(shù)據(jù)融合方法,在多分類器融合、不確定性推理、多準(zhǔn)則決策等領(lǐng)域都得到了廣泛的應(yīng)用。

        在DS 證據(jù)理論中識(shí)別框架是不確定性問(wèn)題所有可能發(fā)生事件的集合[8],用Θ={A1,A2,…,An}來(lái)表示,Ai為識(shí)別框架Θ 的一個(gè)子集。 識(shí)別框架內(nèi)的子集兩兩之間相互排斥,其冪集用2Θ表示,表示的是所有可能的問(wèn)題組合。

        基本概率分布是DS 證據(jù)理論對(duì)識(shí)別框架中的每一種可能發(fā)生事件的結(jié)果都分配了概率。 基本概率分布配置函數(shù)稱為mass 函數(shù),常用m 來(lái)表示。對(duì)于2Θ中的任何命題A,mass 函數(shù)在識(shí)別框架的冪集2Θ滿足以下條件

        式中:? 為空集,表示不可能發(fā)生的命題;m( A)為A 的基本概率分配函數(shù),反映了證據(jù)對(duì)命題A 的支持程度。

        組合規(guī)則是DS 證據(jù)理論的核心,DS 證據(jù)理論的融合基本策略就是將多個(gè)獨(dú)立證據(jù)函數(shù)m1,m2,…,mi進(jìn)行正交運(yùn)算,用⊕表示組合運(yùn)算,則

        2 個(gè)證據(jù)體Ai和Bi的合成公式可以表示為

        同理,多證據(jù)體的情況計(jì)算公式為

        式中:1/( 1-k) 為歸一化因子;n 為發(fā)生事件的個(gè)數(shù);k 反映了證據(jù)體之間沖突程度的大小,值越大,沖突程度越大,取值范圍為[0,1]。

        2.2 組合特征

        原始的語(yǔ)音信號(hào)中有著大量的冗余信息,空間特征也較為復(fù)雜。 如果將原始的語(yǔ)音信號(hào)直接送入神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致網(wǎng)絡(luò)模型承擔(dān)額外的計(jì)算量,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練的效果并不理想。 因此對(duì)原始語(yǔ)音信號(hào)進(jìn)行特征提取選取出具有代表的數(shù)據(jù)用于表征語(yǔ)音信號(hào)能減少包含的冗余信息,減輕網(wǎng)絡(luò)的負(fù)擔(dān),提高訓(xùn)練的效果。

        本文選取了5 種聲學(xué)特征進(jìn)行組合,相較于單一特征能夠更加全面有效地表征語(yǔ)音信號(hào)。 這5 種特征分別是梅爾倒譜系數(shù)( Mel-scale Frequency Cepstral Coefficients,MFCC)、 對(duì)數(shù)梅爾頻譜( Logarithmic Mel Spectrum,Log-Mel)、 色度特征( Chroma)、 光譜對(duì)比度特征( Spectral Contrast)和調(diào)性網(wǎng)絡(luò)特征( Tonnetz)。 分別將MFCC 和Log-Mel 與其他3 種特征的譜圖垂直拼接得到MFCST 特征和LMCST 特征。 2 種組合特征的語(yǔ)譜圖如圖2 所示。

        圖2 MFCST 與LMCST 語(yǔ)譜圖

        2.3 密集卷積網(wǎng)絡(luò)

        在卷積神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,提取的像素特征就越準(zhǔn)確。但是網(wǎng)絡(luò)層數(shù)并不是越多越好,過(guò)多的網(wǎng)絡(luò)層數(shù)會(huì)帶來(lái)訓(xùn)練過(guò)程中前傳信號(hào)和梯度信號(hào)的消失問(wèn)題。 殘差網(wǎng)絡(luò)( ResNet)的出現(xiàn)解決了這一問(wèn)題,ResNet 的核心是通過(guò)建立前層與后層之間的連接,可以實(shí)現(xiàn)訓(xùn)練過(guò)程中梯度的反向傳播,可以訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)。密集卷積網(wǎng)絡(luò)( DenseNet)是基于ResNet 思想提出的一種網(wǎng)絡(luò)結(jié)構(gòu),與ResNet 相比是一種更密集的連接方式,將所有層都相互連接起來(lái)。 DenseNet 的這種連接方式會(huì)使得當(dāng)前層的輸入來(lái)自于前面所有層的輸出,而不是僅僅只有前一層的輸出。這樣的方式充分利用了可用的特征信息,并對(duì)特征進(jìn)行重用,大大減少了訓(xùn)練模型所需的參數(shù)量,同時(shí)還減輕了網(wǎng)絡(luò)加深梯度消失的問(wèn)題。

        2.4 多分類器DS 融合

        由于在現(xiàn)實(shí)環(huán)境中存在各種外界因素的干擾,采用單一神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練效果并不理想, 而基于DS證據(jù)理論的決策融合算法可以利用數(shù)據(jù)集訓(xùn)練不同的分類器進(jìn)行融合。 本文選取的網(wǎng)絡(luò)為DenseNet-121,將從語(yǔ)音數(shù)據(jù)提取到的2 種組合特征MFCST 和LMCST 分別作為2 個(gè)網(wǎng)絡(luò)的輸入, 從2 個(gè)網(wǎng)絡(luò)提取到softmax 層的輸出后,利用DS 證據(jù)理論進(jìn)行融合。 DS-DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

        圖3 基于DS 證據(jù)理論的網(wǎng)絡(luò)結(jié)構(gòu)

        3 實(shí)驗(yàn)分析

        為了驗(yàn)證本文提出的基于DS 證據(jù)理論多特征融合模型的有效性,從SAM 語(yǔ)料庫(kù)[9]中抽取了18 000 個(gè)語(yǔ)音片段作為訓(xùn)練集,模型在AVA 數(shù)據(jù)集上進(jìn)行測(cè)試。 對(duì)聲音片段進(jìn)行分幀處理,重疊率為87.5%。 利用Python 的librosa 庫(kù) 提 取MFCC、Log-Mel、Chroma、Spectral Contrast 和Tonnetz 特征。 為了研究特征維數(shù)的影響,組合特征分別使用了24 維、32 維和64 維的MFCC、Log-Mel 與8 維的Chroma、16 維的Tonnetz 和8 維的Spectral Con trast 進(jìn)行拼接,將拼接組合特征MFCST 和LMCST 輸入到網(wǎng)絡(luò)中,用于提取說(shuō)話人的嵌入特征,提取到說(shuō)話人的特征序列之后進(jìn)行層次聚類得到說(shuō)話人分割聚類的結(jié)果。

        為了評(píng)估系統(tǒng)的性能,采用說(shuō)話人分割聚類錯(cuò)誤率( Diarization Error Rate,DER) 作為系統(tǒng)的評(píng)價(jià)指標(biāo),其定義如下

        DER=MSR+FASR+Speaker Error,

        式中:MSR 為漏警, 表示有效語(yǔ)音部分被誤判為非語(yǔ)音部分的比例;FASR 為虛警,表示非語(yǔ)音的部分被誤判為有效語(yǔ)音部分;Speaker Error 表示說(shuō)話人分類錯(cuò)誤,表示原來(lái)屬于某個(gè)說(shuō)話人的語(yǔ)音被誤判為另一說(shuō)話人語(yǔ)音的比例。這3 種錯(cuò)誤來(lái)源于說(shuō)話人分割聚類的不同步驟,MSR 和FASR 是有效語(yǔ)音檢測(cè)模塊產(chǎn)生的錯(cuò)誤,而Speaker Error 是說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)和說(shuō)話人聚類產(chǎn)生的錯(cuò)誤。

        為了將組合特征與單特征進(jìn)行性能比較,首先使用了24 維的MFCC、Log-Mel 與其他3 種特征的組合,將單MFCC、Log-Mel 與2 種組合特征輸入DenseNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)( 表1)。

        表1 單特征與組合特征的DER

        由表1 可知,組合特征相較于單特征用作網(wǎng)絡(luò)的輸入,在相同條件下能夠得到更為準(zhǔn)確的結(jié)果。為了測(cè)試進(jìn)行DS 理論融合結(jié)果及特征維度的影響, 分別將24 維、32 維和64 維的MFCC、Log-Mel 與其他3 種特征進(jìn)行組合,用于DS-DenseNet 的輸入進(jìn)行實(shí)驗(yàn)( 表2)。

        表2 DS-DenseNet 下不同維度特征的DER

        通過(guò)與表1 對(duì)比, 可以發(fā)現(xiàn)進(jìn)行DS 融合后系統(tǒng)的性能得到了提升,并且在本文選用的3 種特征維度中,32維的特征維度取得了最好的結(jié)果。

        4 結(jié)束語(yǔ)

        本文提出基于DS 證據(jù)理論多特征融合模型的說(shuō)話人分割聚類提高了分割聚類系統(tǒng)的性能。 與單一特征相比,2 種組合特征的系統(tǒng)準(zhǔn)確率得到了提升,將2 種組合特征使用DS 證據(jù)理論進(jìn)行融合后再作為分割聚類系統(tǒng)的輸入能進(jìn)一步提升系統(tǒng)的精度。 特征維度也對(duì)系統(tǒng)性能有一定影響, 其中在本文選取的3 種特征維度中,32維取得了最高的精度。

        猜你喜歡
        音頻語(yǔ)音聚類
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門(mén)攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        對(duì)方正在輸入……
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于DBSACN聚類算法的XML文檔聚類
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        基于改進(jìn)的遺傳算法的模糊聚類算法
        久精品国产欧美亚洲色aⅴ大片| 无码一区久久久久久久绯色AV| 亚洲AV毛片无码成人区httP| 亚洲专区在线观看第三页| 日韩精品免费一区二区中文字幕| 日韩高清不卡一区二区三区| 一边做一边喷17p亚洲乱妇50p | 日韩毛片基地一区二区三区| 国产精品久久久久久久久久影院| 日本岛国一区二区三区四区| 亚洲一区二区在线观看网址 | 国产AV无码专区久久精品网站| 亚洲色成人网一二三区| 天堂av一区一区一区| 久久精品一区一区二区乱码| 日韩人妻系列在线观看| 国产狂喷潮在线观看| 无码人妻丰满熟妇区五十路百度| 亚洲线精品一区二区三区八戒| 97久久综合区小说区图片区| 久久青青草原亚洲av| 久久精品久99精品免费| 加勒比色老久久爱综合网| 亚洲av无码一区二区三区天堂古代 | 国产日韩成人内射视频| 亚洲AV无码乱码1区久久| 国产精品午夜福利亚洲综合网| 亚洲av无码国产精品色软件| 人人色在线视频播放| 日韩AV无码免费二三区| 国产欧美久久久精品影院| 麻豆三级视频网站在线观看| 亚洲最大成人网站| 欧美mv日韩mv国产网站| 女高中生自慰污免费网站| 人妻中出中文字幕在线| 国产精品国产自产自拍高清av| 久久99国产精一区二区三区| 精品人妻无码一区二区色欲产成人| 国产精品白浆一区二区免费看| 国产在线视频一区二区三区|