亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于局部和全局特征提取及多級(jí)特征聚合的中文方言識(shí)別模型

        2024-01-03 00:00:00孟一凡陳寧李泓鍇

        摘要:與其他語(yǔ)種的方言相比,中文方言種類(lèi)較多,且方言類(lèi)間差異小,類(lèi)內(nèi)差異大,因此中文方言識(shí)別極具挑戰(zhàn)性??紤]到中文方言間的差異性可能體現(xiàn)在語(yǔ)音的局部(短時(shí))特性上,也可能體現(xiàn)在語(yǔ)音的全局(長(zhǎng)時(shí))特性上,同時(shí)還可能反映在語(yǔ)音不同層級(jí)的特性上,本文提出一種融合語(yǔ)音局部和全局特征提取以及多級(jí)特征聚合的中文方言識(shí)別模型。首先通過(guò)Res2Block 提取語(yǔ)音的局部特征,然后利用Conformer 提取語(yǔ)音的全局特征,最后通過(guò)將多個(gè)Conformer 級(jí)聯(lián)輸出進(jìn)行多層級(jí)特征的聚合。跨域和非跨域的實(shí)驗(yàn)結(jié)果表明,該模型取得了比基線模型更高的識(shí)別準(zhǔn)確率。

        關(guān)鍵詞:Conformer;方言識(shí)別;多層級(jí)特征聚合;Res2Block;注意力統(tǒng)計(jì)池化

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

        方言是語(yǔ)言的地方變體,中文方言隸屬于漢藏語(yǔ)系,有著廣泛的地理分布[1-2]。由于歷史上漢族社會(huì)不斷地分化和融合,演化出紛繁復(fù)雜的中文方言[3-4]。中文方言識(shí)別(Dialect Identification, DID) 存在兩個(gè)主要的難點(diǎn):一方面由于中文方言具有共同的起源[5],并且經(jīng)?;ハ嘟栌迷~匯[6],因此不同方言具有相似的音韻規(guī)則[7-8],而同種方言則存在多種變體[9],這使得中文方言類(lèi)間差異小,類(lèi)內(nèi)差異大,給方言識(shí)別造成了很大的難度;另一方面,由于訓(xùn)練語(yǔ)料和實(shí)際語(yǔ)料的采集所使用的設(shè)備和所處的環(huán)境有所不同,兩者的數(shù)據(jù)分布差異明顯,從而導(dǎo)致在域內(nèi)測(cè)試集上性能很好的DID 模型在實(shí)際應(yīng)用場(chǎng)景中性能卻急劇下降[10]。

        不同中文方言的差異性可能體現(xiàn)在單字的聲調(diào)、語(yǔ)速,以及語(yǔ)法結(jié)構(gòu)等方面。其中單字聲調(diào)的持續(xù)時(shí)間較短,屬于局部特征(或短時(shí)特征),語(yǔ)速和語(yǔ)法結(jié)構(gòu)反映在較長(zhǎng)的時(shí)間范圍內(nèi),屬于全局特征(或長(zhǎng)時(shí)特征)。例如,由于閩南語(yǔ)和粵語(yǔ)分別具有7 個(gè)和6 個(gè)單字聲調(diào)[11],而四川話則是4 個(gè),因此這3 種方言的局部差異性明顯。又如,由于與晉方言、冀魯方言等北方方言相比,吳方言(包括上海話、蘇州話,杭州話等)、閩方言等南方方言的語(yǔ)速更快,且吳語(yǔ)存在連讀變調(diào)的發(fā)音特點(diǎn)[12],因此它們之間的差異性更多地體現(xiàn)在全局特性上。鑒于上述原因,要全面反映方言之間的差異性,需要同時(shí)提取語(yǔ)音的局部特征和全局特征。同時(shí),為了更好地表征這些差異性可以利用深度網(wǎng)絡(luò)提取語(yǔ)音的多層級(jí)特征。

        近年來(lái)的主流DID 模型僅側(cè)重于局部或全局特征的提取。在局部特征提取方面,基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network, TDNN)[13-14] 的X-vector模型采用堆疊的TDNN 模塊作為特征編碼器[15-16],通過(guò)時(shí)域卷積運(yùn)算提取語(yǔ)音特征。為了增強(qiáng)模型對(duì)語(yǔ)音多尺度局部特征的表征能力,動(dòng)態(tài)多尺度卷積(Dynamic Multi-scale Convolution, DMC) 模型[17]采用改進(jìn)的TDNN 模塊,通過(guò)具有不同內(nèi)核尺寸的多個(gè)卷積層來(lái)提取多尺度局部特征。該模型在2020 年?yáng)|方語(yǔ)種識(shí)別(Oriental Language Recognition, OLR) 競(jìng)賽[18] 的方言識(shí)別任務(wù)中取得了最好的平均代價(jià)損失(Average Cost Performance, Cavg) 和等錯(cuò)誤率(EqualError Rate, EER)。文獻(xiàn)[19] 采用ECAPA-TDNN[20]作為骨干網(wǎng)絡(luò),提出基于多尺度通道自適應(yīng)時(shí)延神經(jīng)網(wǎng)絡(luò)(Multi-Scale Channel Adaptive Time-DelayNeural Network, MSCA-TDNN) 的DID 模型。其中包含的MSCA-Res2Block 模塊能夠提取多尺度特征,從而進(jìn)一步擴(kuò)大卷積運(yùn)算的感受野[19], ECAPATDNN采用擠壓和激勵(lì)(Squeeze-and-Excitation, SE)模塊來(lái)捕獲更長(zhǎng)的上下文信息[20],但SE 僅對(duì)整個(gè)序列應(yīng)用全局平均,在捕獲動(dòng)態(tài)全局特征方面仍然受到限制[21]。在全局特征提取方面,Transformer中包含的多頭注意力機(jī)制(Multi-Head Self-Attention, MHSA)已經(jīng)在多種任務(wù)上證明了其強(qiáng)大的全局特征提取能力[22-25]。文獻(xiàn)[26] 使用基于Transformer 的端到端模型,進(jìn)行日語(yǔ)DID 和多方言ASR(MD-ASR)多任務(wù)學(xué)習(xí),利用文本信息和聲學(xué)特征對(duì)日語(yǔ)方言進(jìn)行識(shí)別和分類(lèi)。文獻(xiàn)[27] 采用Speech-Transformer[28]模型中的編碼器作為特征提取器,在阿拉伯方言識(shí)別任務(wù)中取得了當(dāng)時(shí)最好的識(shí)別效果。

        考慮到僅依靠語(yǔ)音局部特征或全局特征,無(wú)法全面準(zhǔn)確地識(shí)別中文方言之間復(fù)雜的差異性,因此針對(duì)中文方言識(shí)別,本文提出了一種基于局部特征和全局特征提取、并結(jié)合多層級(jí)特征融合的DID 模型。該模型的優(yōu)勢(shì)主要包括: (1) 結(jié)合TDNN 和Res2Block,提取語(yǔ)音的時(shí)序多尺度局部特征。(2)通過(guò)引入Conformer[21] 結(jié)構(gòu),提取語(yǔ)音全局特征。(3)通過(guò)對(duì)多個(gè)Conformer 結(jié)構(gòu)進(jìn)行串聯(lián),提取和聚合多層級(jí)特征。實(shí)驗(yàn)結(jié)果表明,該模型取得了比基于局部特征或全局特征提取的基線模型更高的分類(lèi)準(zhǔn)確率。

        1 算法描述

        本文提出的基于局部和全局特征融合及多級(jí)特征聚合的中文方言識(shí)別模型如圖1 所示。它包括局部特征提取、全局特征提取、多層級(jí)特征聚合和注意力統(tǒng)計(jì)池化4 個(gè)重要部分。

        1.1 局部特征提取

        考慮到方言的差異性可能體現(xiàn)在不同時(shí)間尺度的局部特性中, 本文采用TDNN 和殘差網(wǎng)絡(luò)(Residual Networks, ResNets)[29] 的結(jié)合,以不同時(shí)間步長(zhǎng)提取原始語(yǔ)音特征中多尺度局部特征。TDNN通過(guò)引入時(shí)延神經(jīng)元存儲(chǔ)先前的輸入,并將其傳遞到后續(xù)的時(shí)間步,從而精確提取時(shí)序特性[13]。如圖2(a) 所示, Res2Block 是基于ResNets的卷積神經(jīng)網(wǎng)絡(luò),旨在增強(qiáng)網(wǎng)絡(luò)的特征提取能力。受DMC[17] 的啟發(fā),本文將Res2Block 中的3×3 卷積替換為由兩個(gè)卷積分支構(gòu)成的卷積模塊(Conv),以捕獲不同時(shí)間步長(zhǎng)的特征。如圖2(b) 所示,在該卷積模塊中,一個(gè)分支采用傳統(tǒng)卷積,而另一個(gè)分支采用擴(kuò)張因子為2 的擴(kuò)張卷積。Res2Block 將TDNN 輸出的特征按照通道數(shù)均勻分為 個(gè)塊,每個(gè)塊記為xi (1 ? i ? s),第n個(gè)卷積模塊的輸入,記為inputn (2 ? n ? s),是xn與前一個(gè)卷積模塊的輸出yn-1之和。

        在Conv 模塊中,兩個(gè)卷積分支的輸出首先相加送入高階統(tǒng)計(jì)池化(High-Order Statistics Pooling,HOSP)層,該層提取并連接每個(gè)通道上特征的均值、標(biāo)準(zhǔn)差、偏度和峰度。通過(guò)兩個(gè)一維卷積和Softmax激活函數(shù),獲得每個(gè)通道的權(quán)重win,然后與卷積輸出加權(quán)求和作為卷積模塊的輸出,記為yn。

        其中:s1n和s2n是兩個(gè)卷積分支的輸出;w1n和w2n是相應(yīng)的權(quán)重;⊙表示矩陣元素對(duì)應(yīng)相乘。由此,Res2Block 中每個(gè)卷積模塊的輸出yi可以通過(guò)公式(3) 得到。

        通過(guò)TDNN 和Res2Block 結(jié)構(gòu)的組合,模型可以從語(yǔ)音信號(hào)中提取不同時(shí)間尺度上的局部特征。

        1.2 全局特征提取

        考慮到局部特征可以有效地表征方言之間在音高、語(yǔ)調(diào)等方面的短時(shí)差異性,而全局特征則可以捕獲方言之間在韻律、連續(xù)變調(diào)等方面的長(zhǎng)時(shí)差異性,本文采用Conformer 提取方言全局特征。一方面,受文獻(xiàn)[30] 的啟發(fā),Conformer 在Transformer 的基礎(chǔ)上引入了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),以提取基于相對(duì)位置編碼的局部信息[21];另一方面,Conformer 所包含的MHSA 模塊通過(guò)計(jì)算注意力權(quán)重表征當(dāng)前位置與其他位置的依賴(lài)關(guān)系,從而捕捉輸入序列的長(zhǎng)時(shí)全局相關(guān)性[21]。與Macaron-Net[31] 的結(jié)構(gòu)類(lèi)似,Conformer 結(jié)構(gòu)(圖3)中的MHSA模塊和卷積模塊被夾在兩個(gè)前饋模塊(Feed ForwardModule, FFN) 之間,比僅使用一個(gè)前饋模塊顯著提高了性能[21]。每個(gè)FFN 由2 個(gè)線性變換函數(shù)和1 個(gè)非線性激活函數(shù)組成。全局特征提取網(wǎng)絡(luò)由L個(gè)Conformer 組成,對(duì)于第i個(gè)Conformer 模塊的輸入yi,其中間變量和輸出hi可通過(guò)公式(4) 獲得。

        1.3 多層級(jí)特征聚合

        與其他基于內(nèi)容的識(shí)別任務(wù)(如語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和語(yǔ)種識(shí)別)相比,方言的類(lèi)間差異較小,因此需要更深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取深層特征,本文采用多個(gè)Conformer 的級(jí)聯(lián)結(jié)構(gòu)提取語(yǔ)音的深層特征。然而,隨著網(wǎng)絡(luò)層數(shù)的增加,可能導(dǎo)致模型退化問(wèn)題??紤]到殘差連接可緩解模型退化的問(wèn)題[32],并且低層級(jí)特征有助于更準(zhǔn)確地表征音頻的音高、語(yǔ)調(diào)等特性[20, 33-35],本文在Conformer 塊和層歸一化之間采用了如圖1 所示的殘差連接結(jié)構(gòu), 將每個(gè)Conformer 塊的輸出拼接后輸入至最后的池化層。設(shè)第 個(gè)Conformer 塊的輸出為hi,則聚合后的特征設(shè)為H′,可由公式(5) 獲得。

        H′= Concate(h1,…, hL) (5)

        然后,對(duì)聚合后的特征圖 H'進(jìn)行層歸一化操作,以獲得語(yǔ)音嵌入H。

        H = LayerNorm(H′) (6)

        1.4 注意力統(tǒng)計(jì)池化

        注意力統(tǒng)計(jì)池化(Attentive Statistics Pooling,ASP) 是一種特征整合方法, 與統(tǒng)計(jì)池化(StatisticPooling, SP) 相比,ASP 引入了一種注意力機(jī)制,根據(jù)不同時(shí)間步的重要性對(duì)特征進(jìn)行加權(quán),使ASP 能夠更有效地捕捉語(yǔ)音信號(hào)的動(dòng)態(tài)特征,避免信息丟失[36]。不同通道特征的標(biāo)量分?jǐn)?shù)et由注意力模塊產(chǎn)生,特征的權(quán)重由et的歸一化分?jǐn)?shù)αt確定,通過(guò)特征加權(quán)使模型能夠在每個(gè)時(shí)間步選擇性地聚焦特征,并將最相關(guān)的特征用于預(yù)測(cè)。標(biāo)量分?jǐn)?shù)et通過(guò)公式(7) 進(jìn)行計(jì)算。

        et = υT f (Wht + b)+ k (7)

        其中:υ為一個(gè)可學(xué)習(xí)的參數(shù)向量;ht為時(shí)間步t的輸入特征向量;非線性激活函數(shù)f (·)為tan h;W和b分別是權(quán)重矩陣和偏置。歸一化分?jǐn)?shù)αt是按公式(8) 對(duì)et進(jìn)行歸一化處理后得到的權(quán)重。

        隨后,通過(guò)公式(9) 對(duì)ht進(jìn)行加權(quán)處理后得到均值向量^μ并通過(guò)公式(10) 獲得相應(yīng)的加權(quán)標(biāo)準(zhǔn)差,記為^σ。公式(8~10)中的T 為整個(gè)時(shí)間序列的長(zhǎng)度。

        之后,^μ和^σ通過(guò)全連接層映射到注意力向量作為ASP 的輸出。

        2 實(shí)驗(yàn)結(jié)果

        2.1 數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置

        為了測(cè)試本文的DID 模型在域內(nèi)和跨域場(chǎng)景中的性能,本文基于多個(gè)數(shù)據(jù)集構(gòu)建了訓(xùn)練集、可見(jiàn)域測(cè)試集和未見(jiàn)域測(cè)試集。如表1 所示,數(shù)據(jù)來(lái)源包括Datatang、Aishell2、Aishu、THCHS30、ST-CDMS和OLR[18]。由于Datatang、Aishu 和OLR 數(shù)據(jù)集所共有的方言種類(lèi)分別為閩南話(Hokkien) 、上海話(Shanghainese)和四川話(Sichuanese),因此本文在實(shí)驗(yàn)中對(duì)普通話(Mandarin)和上述3 種方言進(jìn)行了分類(lèi)。

        實(shí)驗(yàn)采用的基線模型分別是基于全局特征提取的Transformer[27]、基于局部特征提取的DMC[17],以及使用CNN 增強(qiáng)全局特征提取的Conformer[21]。各基線模型的參數(shù)設(shè)置如下:(1)在Transformer[27] 模型中,編碼器數(shù)量和每個(gè)編碼器中注意力模塊的注意力頭的數(shù)量參照原文的設(shè)置,分別為4 和8;每個(gè)編碼器的位置感知前饋網(wǎng)絡(luò)的輸出維度分別為512 和2 048。(2)本文基于PyTorch 重新實(shí)現(xiàn)了DMC[17],所有設(shè)置與原論文保持一致。(3)為了獲得最佳性能,Conformer[21] 模型輸入的下采樣率設(shè)置為1/4,Conformer 塊的數(shù)量為9。(4)本文模型,在Res2Block模塊中,輸入特征被分為8 個(gè)塊,級(jí)聯(lián)的Conformer塊數(shù)L=9。上述所有模型都以80 維的Mel 頻譜圖作為輸入,窗長(zhǎng)為25 ms,幀移為10 ms。特征提取模塊的輸出首先映射到一個(gè)256 維的固定長(zhǎng)度向量。然后,將該向量映射到類(lèi)別數(shù)量,并使用交叉熵?fù)p失1 1063 104進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程采用了OneCycleLR學(xué)習(xí)率調(diào)度技術(shù), 初始學(xué)習(xí)率為 , 最大學(xué)習(xí)率設(shè)置為。

        2.2 與基線模型的性能比較

        本模型和基線模型在可見(jiàn)域和未見(jiàn)域的二分類(lèi)和四分類(lèi)準(zhǔn)確率結(jié)果如表2 所示。

        在四分類(lèi)任務(wù)上,本文的模型在可見(jiàn)域和未見(jiàn)域的分類(lèi)準(zhǔn)確率優(yōu)于所有3 個(gè)基線模型;在二分類(lèi)任務(wù)上,Conformer[21] 在可見(jiàn)域取得了最好的效果。本文的模型在可見(jiàn)域場(chǎng)景的性能略低于基線模型,可能的原因是,綜合局部與全局特征提取可以使得模型學(xué)習(xí)到盡量少的域相關(guān)信息,在可見(jiàn)域減小了過(guò)擬合,與Conformer[21] 模型相比,TDNN 和Res2Block的結(jié)合有助于更精確地提取局部特征,此外,多層級(jí)特征聚合機(jī)制可以利用不同級(jí)別特征信息的互補(bǔ),豐富語(yǔ)音嵌入的信息,讓模型在域外有更好的泛化性。這使得本文模型在跨域場(chǎng)景的性能優(yōu)于所有基線模型。

        2.3 語(yǔ)音嵌入t-SNE 可視化

        為了比較本文模型和基線模型在未見(jiàn)域上的性能,本節(jié)采用t-SNE[37] 算法將模型從未見(jiàn)域數(shù)據(jù)提取的方言特征向量映射到2D 空間,以評(píng)估模型對(duì)未見(jiàn)域方言的聚類(lèi)效果,如圖4 所示??梢钥闯?,與基線模型相比,本文模型提取的方言特征向量類(lèi)內(nèi)距離小于基線模型,且聚類(lèi)中心個(gè)數(shù)與分類(lèi)數(shù)相符。因此,本文模型可以更有效地聚類(lèi)相同方言的特征,在未見(jiàn)域?qū)崿F(xiàn)了更好的泛化性。

        2.4 消融實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證本文提出的模型中每個(gè)關(guān)鍵模塊(TDNN 和Res2Block、多層級(jí)特征聚合和ASP)的有效性,將本文模型移除任一關(guān)鍵模塊后與原模型的跨域分類(lèi)準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果如表3 所示??梢钥闯?,移除任何一個(gè)關(guān)鍵模塊都會(huì)導(dǎo)致模型性能下降。因此,每個(gè)關(guān)鍵模塊對(duì)本文模型的性能提升均有所貢獻(xiàn),而TDNN 和Res2Block 的組合效果比其他兩個(gè)模塊更顯著。

        3 結(jié) 論

        針對(duì)中文方言類(lèi)間差異小、類(lèi)內(nèi)差異大、識(shí)別難度大的問(wèn)題,本文提出了一種結(jié)合局部和全局特征提取和多層級(jí)特征聚合的方言識(shí)別模型,它通過(guò)結(jié)合TDNN 和Res2Block 提取輸入語(yǔ)音的多尺度局部特征,并通過(guò)多個(gè)串聯(lián)的Conformer 模塊對(duì)多層級(jí)特征進(jìn)行聚合。域內(nèi)和跨域場(chǎng)景下的實(shí)驗(yàn)結(jié)果表明,本文模型取得了比基線模型更好的分類(lèi)準(zhǔn)確性和更好的泛化性。

        參考文獻(xiàn):

        [ 1 ]SAGART L, JACQUES G, LAI Y, et al. Dated languagephylogenies shed light on the ancestry of Sino-Tibetan[J].PNAS, 2019, 116(21): 10317-10322.

        [ 2 ]LIU H, LIANG J, VAN HEUVEN V J, et al. Vowels andtones as acoustic cues in Chinese subregional dialect identification[J]. Speech Communication, 2020, 123: 59-69.

        [ 3 ]WANG W S Y. Languages or Dialects?[M]. Hongkong,China: The Chinese University of Hong Kong Press, 1997:54-62.

        [ 4 ]DEFRANCIS J. The Chinese Language: Fact andFantasy[M]. Hawaii, USA: University of Hawaii Press,1986.

        [ 5 ]ZHANG M, YAN S, PAN W, et al. Phylogenetic evidencefor Sino-Tibetan origin in northern China in the Late Neolithic[J]. Nature, 2019, 569(7754): 112-115.

        [ 6 ]NORMAN J. Chinese[M]. Cambridge, UK: CambridgeUniversity Press, 1988.

        [ 7 ]GRAHAM T, RANDY J L. The Sino-Tibetan Languages[M]. New York: Routledge, 2003: 84-125.

        [ 8 ]LIST J M. Network perspectives on Chinese dialect history:Chances and challenges[J]. Bulletin of Chinese Linguistics,2015, 8(1): 27-47.

        [ 9 ]李如龍. 論漢語(yǔ)方言語(yǔ)音的演變[J]. 語(yǔ)言研究, 1999(1):102-113.

        [10]SULLIVAN P, ELMADANY A, ABDUL-MAGEED M.On the robustness of Arabic speech dialect identification[C]//Proceedings of Interspeech. Dublin, Ireland: Interspeech,2023: 5326-5330.

        [11]LI A, FANG Q, XU R, et al. A contrastive study betweenminnan-accented Chinese and standard Chinese[J]. Reportof Phonetic Research, 2005, 18: 1-7.

        [12]ZHU X. A Grammar of Shanghai Wu[M]. Munich, Germany:Lincom Publishers, 2006.

        [13]SUGIYAMA M, SAWAI H, WAIBEL A H. Review ofTDNN (time delay neural network) architectures for speechrecognition[C]//IEEE International Symposium on Circuitsand Systems (ISCAS). Singapore: IEEE, 1991: 582-585.

        [14]YU Y Q, LI W J. Densely connected time delay neural networkfor speaker verification[C]//Proceedings of Interspeech.Shanghai, China: Interspeech, 2020: 921-925.

        [15]SNYDER D, GARCIA-ROMERO D, MCCREE A, et al.Spoken language recognition using X-vectors[C]//Odyssey 2018. Les Sables d'Olonne. France: The Speaker and LanguageRecognition Workshop, 2018: 105-111.

        [16]SNYDER D, GARCIA-ROMERO D, SELL G, et al. Xvectors:Robust dnn embeddings for speakerrecognition[C]//2018 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP). Calgary,AB, Canada: IEEE, 2018: 5329-5333.

        [17]KONG T, YIN S, ZHANG D, et al. Dynamic multi-scaleconvolution for dialect identification[C]//Proceedings ofINTERSPEECH. Brno, Czech: Interspeech, 2021: 3261-3265.

        [18]LI Z, ZHAO M, HONG Q, et al. AP20-OLR challenge:Three tasks and their baselines[C]//2020 Asia-Pacific Signaland Information Processing Association Annual Summitand Conference (APSIPA ASC). Auckland, New Zealand:IEEE, 2020: 550-555.

        [19]LUO Q, ZHOU R. Multi-scale channel adaptive time-delayneural network and balanced fine-tuning for arabic dialectidentification[J]. Applied Sciences, 2023, 13(7): 4233.

        [20]DESPLANQUES B, THIENPONDT J, DEMUYNCK K.Ecapa-tdnn: Emphasized channel attention, propagation andaggregation in TDNN based speaker verification[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 3830-3834.

        [21]GULATI A, QIN J, CHIU C C, et al. Conformer: Convolution-augmented transformer for speech recognition[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 5036-5040.

        [22]VASWANI A, SHAZEER N, PARMAR N, et al. Attentionis all you need[C]//Advances in Neural Information ProcessingSystems. Long Beach, USA: [s.n.], 2017: 30.

        [23]TJANDRA A, CHOUDHURY D G, ZHANG F, et al.Improved language identification through cross-lingualself-supervised learning[C]//2022 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP).Singapore: IEEE, 2022: 6877-6881.

        [24]LIU H, PERERA L P G, KHONG A W H, et al. Efficientself-supervised learning representations for spoken languageidentification[J]. IEEE Journal of Selected Topics inSignal Processing, 2022, 16(6): 1296-1307.

        [25]SONG Q, SUN B, LI S. Multimodal sparse transformer networkfor audio-visual speech recognition[J]. IEEE Transactionson Neural Networks and Learning Systems, 2023, 12:10028-10038.

        [26]IMAIZUMI R, MASUMURA R, SHIOTA S, et al. End-toendJapanese multi-dialect speech recognition and dialectidentification with multi-task learning[J]. APSIPA Transactionson Signal and Information Processing, 2022, 11: e4.

        [27]LIN W, MADHAVI M, DAS R K, et al. Transformer-basedArabic dialect identification[C]//2020 International Confer-ence on Asian Language Processing (IALP). [s.l.]:[s.n.],2020: 192-196.

        [28]ZHAO Y, LI J, WANG X, et al. The speechtransformer forlarge-scale mandarin Chinese speech recognition[C]//2019IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). Brighton, UK: IEEE, 2019:7095-7099.

        [29]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. San Juan, PR,USA: IEEE, 2016: 770-778.

        [30]WU Z, LIU Z, LIN J, et al. Lite transformer with long-shortrange attention[EB/OL]. (2020-04-24)[2023-12-10]. https://arxiv.org/abs/2004.11886.

        [31]LU Y, LI Z, HE D, et al. Understanding and improvingtransformer from a multi-particle dynamic system point ofview[EB/OL]. (2019-6-6)[2023-12-10]. https://arxiv.org/abs/1906.02762.

        [32]GAO S H, CHENG M M, ZHAO K, et al. Res2net: A newmulti-scale backbone architecture[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2019, 43(2):652-662.

        [33]GAO Z, SONG Y, MCLOUGHLIN I, et al. Improving aggregationand loss function for better embedding learning inend-to-end speaker verification system[C]// Proceedings ofInterspeech. Graz, Austria: Interspeech, 2019: 361-365.

        [34]TANG Y, DING G, HUANG J, et al. Deep speaker embeddinglearning with multi-level pooling for text-independentspeaker verification[C]//2019 IEEE International Conferenceon Acoustics, Speech and Signal Processing(ICASSP). Brighton, UK: IEEE, 2019: 6116-6120.

        [35]ZHANG Y, LV Z, WU H, et al. Mfa-conformer: Multiscalefeature aggregation conformer for automatic speakerverification[C]//Proceedings of Interspeech. Incheon,Korea: Interspeech, 2022: 306-310.

        [36]OKABE K, KOSHINAKA T, SHINODA K. Attentive statisticspooling for deep speaker embedding[C]//Proceedings ofInterspeech. Hyderabad, India: Interspeech, 2018: 2252-2256.

        [37]HINTON G E, ROWEIS S. Stochastic neighbor embedding[C]//Advances in Neural Information Processing Systems.Van Couver, Canada: [s.n.], 2002: 15.

        (責(zé)任編輯:劉亞萍)

        基金項(xiàng)目: 國(guó)家自然科學(xué)基金面上項(xiàng)目 (61771196)

        亚洲中文字幕乱码在线视频| 84pao强力打造免费视频34| 国产小屁孩cao大人免费视频| 精品午夜中文字幕熟女| 久久熟妇少妇亚洲精品| 国产肥熟女视频一区二区三区| 久久精品国产亚洲vr| 国产一区二区毛片视频| 最新中文字幕人妻少妇| 日本乱偷人妻中文字幕在线| 亚洲欧洲国产日产国码无码| 麻豆av在线免费观看精品| 免费的日本一区二区三区视频| 久久精品免视看国产成人| 久久水蜜桃亚洲av无码精品麻豆 | 久久久亚洲精品蜜臀av| 黄片视频免费在线播放观看| 国产二级一片内射视频插放| 激情久久无码天堂| 亚洲精品中文字幕熟女| 台湾佬中文网站| 无码熟熟妇丰满人妻啪啪| 亚洲国产视频精品一区二区| 91精品国产综合久久久蜜| 欧美性色黄大片手机版| a在线免费| 中文字幕视频一区二区| 玩弄少妇人妻中文字幕| 亚洲中文字幕无码永久在线 | 久青草国产视频| 国产av一区二区三区在线 | 曰欧一片内射vα在线影院| 成人久久免费视频| 国产精品成年人毛片毛片| 高潮毛片无遮挡高清视频播放| 国产精品久久久久国产a级| 黑人巨大亚洲一区二区久| 亚洲男人av天堂久久资源| 亚洲国产一区二区a毛片| 丁香六月久久| 中文字幕精品一区二区的区别|