亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于編碼器的語音增強(qiáng)的效果實(shí)現(xiàn)

        2023-08-19 09:59:30張可欣劉云翔
        電子設(shè)計(jì)工程 2023年16期
        關(guān)鍵詞:多任務(wù)解碼器編碼器

        張可欣,劉云翔

        (上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)

        語音情感識(shí)別是指賦予計(jì)算機(jī)和人腦相同的能力,通過說話者的語音分析說話者的情感狀態(tài),主要應(yīng)用于教育業(yè)、服務(wù)業(yè)、偵察業(yè)[1-3]。

        在現(xiàn)有的研究中,在語音特征值的選擇、特征值的降維、分類器的構(gòu)建方面取得了很大的進(jìn)展[4-6]。深度學(xué)習(xí)在情感分類當(dāng)中應(yīng)用廣泛,深度學(xué)習(xí)分類器有卷積神經(jīng)網(wǎng)絡(luò)(DNN)、雙向循環(huán)記憶神經(jīng)網(wǎng)絡(luò)(BLSTM)、深度置信神經(jīng)網(wǎng)絡(luò)[7-9]。自然環(huán)境中數(shù)據(jù)集存在差異,使用遷移學(xué)習(xí)消除源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的差異[10-11]。

        傳統(tǒng)的語音增強(qiáng)方法有頻譜相減、小波分解變化、維納濾波語音增強(qiáng)方法、生成對(duì)抗網(wǎng)絡(luò)方法[12-14]。文中的改進(jìn)方法在于融合自然語言處理領(lǐng)域的知識(shí)來解決語音增強(qiáng)的問題。首先利用文本特征,通過對(duì)文本信息的分詞、向量化、輸入到編碼器,把聲學(xué)特征和編碼器的輸出一起輸入到解碼器,解碼器的輸出作為聲學(xué)模型。文本信號(hào)輸入該訓(xùn)練過的聲學(xué)模型,使用多任務(wù)學(xué)習(xí)的DNN 分類器,實(shí)現(xiàn)了更加高效的語音情感識(shí)別。

        1 文本特征的處理

        在文本特征輸入到編碼器之前,需要對(duì)文本進(jìn)行預(yù)處理,包括去停用詞、Jieba 分詞、文本特征向量化,達(dá)到去除冗余信息、充分利用上下文語義關(guān)系的效果,提高情感分類的效率。在文本預(yù)處理的步驟,經(jīng)過對(duì)文本特征的處理操作,為利用文本特征進(jìn)行語音增強(qiáng)打下了基礎(chǔ)。

        1.1 去停用詞和Jieba分詞

        文本中經(jīng)常存在“嗯”、“啊”、“哦”、“嗎”等無實(shí)際意義的虛詞,它們的存在加大了情感分類的復(fù)雜度。應(yīng)首先查閱停用詞字典,對(duì)比文本中的詞是否在停用詞字典中,若是,則過濾掉。Jieba 分詞首先基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖,然后根據(jù)詞頻按照動(dòng)態(tài)規(guī)劃的方法來尋找概率最大的分詞路徑,找出基于詞頻的最大切分組合。Jieba 分詞可以把文本詞匯最精準(zhǔn)地切分,速度相比常見的分詞方法,如最大匹配算法、臨近匹配算法、基于統(tǒng)計(jì)的方法要快。

        1.2 TF-IDF權(quán)重計(jì)算

        TF-IDF 表示文本特征的重要程度。選擇TFIDF 值大的特征,剔除TF-IDF 小的特征,可以減少貢獻(xiàn)度小的信息的干擾,計(jì)算公式如下:

        TFi表示特征詞i的詞頻,D為全部文本數(shù)量,Di為包含特征詞i的文本數(shù)。

        1.3 BERT模型

        常用的詞向量模型是Word2vec,其局限性在于不能根據(jù)上下文的語義識(shí)別一詞多義的情況,容易引起歧義。例如,“炒魷魚”既可以指吃的炒魷魚,又可以指下崗;“蘋果”既可以指一種水果,又可以指一種手機(jī)的品牌。傳統(tǒng)的詞向量對(duì)于一詞多義的識(shí)別率低,然而BERT 模型能夠根據(jù)語義做出識(shí)別,可以更好地實(shí)現(xiàn)上下文的關(guān)聯(lián)。BERT 模型結(jié)構(gòu)圖如圖1 所示。該模型由Transformer 構(gòu)成,預(yù)訓(xùn)練任務(wù)分為遮蔽詞預(yù)測(cè)任務(wù)和下一句判斷任務(wù)[15]。

        圖1 BERT結(jié)構(gòu)

        1.3.1 Transformer結(jié)構(gòu)

        Transformer 是Seq2seq 的改進(jìn),它引入了多頭注意力機(jī)制。Seq2seq 由編碼器和解碼器組成。編碼器把輸入的文本信息壓縮成固定長(zhǎng)度的向量,解碼器把向量輸出為和編碼器長(zhǎng)度相等的向量序列。在編碼器中,先使用多頭注意力機(jī)制,增強(qiáng)文本關(guān)注上下文的語義信息。多頭注意力機(jī)制的計(jì)算如下:

        1)計(jì)算Query(Q),Key(K)和Value(V)值。

        其中,WQ、WK、WV分別表示Q、K、V的權(quán)重矩陣。權(quán)重的計(jì)算公式為:

        2)計(jì)算每個(gè)頭部的權(quán)重:

        3)計(jì)算所有頭部的權(quán)重之和:

        計(jì)算完多頭注意力機(jī)制后,進(jìn)入add&norm 層進(jìn)行權(quán)重的相加以及歸一化處理,經(jīng)過feed forward 層之后再進(jìn)行add&norm 層的處理。從編碼器中輸出,輸入到解碼器,把固定長(zhǎng)度的向量解碼為可變長(zhǎng)度的輸出序列。這樣就通過BERT 模型完成了文本向量化。Encoder-Decoder 模型結(jié)構(gòu)如圖2 所示。

        圖2 Encoder-Decoder模型結(jié)構(gòu)

        1.3.2 BERT模型預(yù)訓(xùn)練

        BERT 模型預(yù)訓(xùn)練分為遮蔽詞預(yù)測(cè)和下一句判斷兩個(gè)任務(wù)。遮蔽詞預(yù)測(cè)任務(wù)中會(huì)隨機(jī)地用特殊符號(hào)遮蔽住部分詞匯,然后用其他的詞匯來預(yù)測(cè)被遮蔽的詞匯,被遮蔽的詞匯占15%,這些被遮蔽的詞語被特殊符號(hào)替代的占80%,被隨機(jī)詞替代及保持原樣的概率各占10%[18]。由于遮蔽詞預(yù)測(cè)不能夠判斷句子之間的聯(lián)系,需要利用下一句判斷任務(wù),判斷一個(gè)句子是不是另一個(gè)句子的下一句。

        2 文本-語音增強(qiáng)模型

        語音合成模型也是基于Encoder-Decoder 的模型。Encoder-Decoder 模型在上一節(jié)已經(jīng)介紹?;舅枷胧抢肐EMOCAP 數(shù)據(jù)庫的文本信息與語音信號(hào)合成,達(dá)到利用文本信息使得語音效果增強(qiáng)的目的。編碼器由預(yù)網(wǎng)和CBHG 模塊構(gòu)成,解碼器由預(yù)網(wǎng)和兩層殘差的GRU 構(gòu)成。把經(jīng)過BERT 模型向量化的文本輸入到編碼器中,編碼器的輸出和語音信號(hào)輸入到解碼器,解碼器的輸出作為聲學(xué)模型。然后利用測(cè)試集的文本,輸入到聲學(xué)模型中,完成語音信號(hào)的合成。語音合成模型如圖3 所示。

        圖3 語音合成模型

        2.1 編碼器

        編碼器的輸入是經(jīng)BERT 模型處理過的詞向量。編碼器由預(yù)網(wǎng)和CBHG 模塊構(gòu)成。預(yù)網(wǎng)由兩個(gè)隱藏層網(wǎng)絡(luò)組成。第一個(gè)隱藏層的神經(jīng)單元數(shù)目等于輸入向量的維度,設(shè)置為256 個(gè)神經(jīng)單元。第二個(gè)隱藏層的神經(jīng)元數(shù)目等于第一個(gè)隱藏層神經(jīng)元數(shù)目的一半,設(shè)置為128 個(gè)神經(jīng)單元。隱藏層選取Relu 激活函數(shù)進(jìn)行非線性變化。為了提高模型的泛化能力,dropout 設(shè)置為0.5。CBHG 模塊首先使用一維卷積層,卷積層的激活函數(shù)選取Relu 函數(shù),進(jìn)行局部特征向量的建模。然后進(jìn)行最大池化操作,池化層的步長(zhǎng)設(shè)置為1,寬度設(shè)置為2,然后輸入到多層高速公路網(wǎng)絡(luò)。高速公路網(wǎng)絡(luò)設(shè)置為4 層、128 個(gè)神經(jīng)單元,實(shí)現(xiàn)高層特征的提取。最后雙向GRU 從前后兩個(gè)方向進(jìn)行雙向的文本特征提取,并把它表示成連續(xù)空間的向量。GRU 的神經(jīng)單元數(shù)為128[16]。

        2.2 解碼器

        解碼器的輸入為編碼器對(duì)文本信息的輸出以及語音特征。語音特征的提取選用Python 中的librosa工具包,提取MFCC 特征值和語譜圖特征,并把提取的聲學(xué)特征輸入到解碼器。解碼器由預(yù)網(wǎng)和兩層GRU 組成,預(yù)網(wǎng)結(jié)構(gòu)如編碼器所述。每層GRU 有256 個(gè)神經(jīng)單元。GRU 所有單元的輸出之和作為解碼器的輸出,即聲學(xué)模型。

        3 多任務(wù)分類

        多任務(wù)學(xué)習(xí)將主任務(wù)和若干個(gè)輔助任務(wù)關(guān)聯(lián)起來,能提高分類的泛化性。在多任務(wù)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)底層是共享隱藏層,學(xué)習(xí)任務(wù)之間的聯(lián)系;頂層是任務(wù)特有層,學(xué)習(xí)每個(gè)任務(wù)的特有屬性。多任務(wù)學(xué)習(xí)結(jié)構(gòu)圖如圖4 所示。經(jīng)過語音合成與增強(qiáng)得到的語音信號(hào),再二次提取MFCC 和語譜圖特征值,進(jìn)行多任務(wù)學(xué)習(xí)的分類。分類的主任務(wù)為情感識(shí)別,輔助任務(wù)為性別分類。多任務(wù)學(xué)習(xí)基于DNN 結(jié)構(gòu)。在網(wǎng)絡(luò)模型的共享隱藏層中,設(shè)置隱藏層的層數(shù)為2 層,每層由128 個(gè)單元組成。隱藏層共享兩個(gè)屬性之間的隱藏層中的節(jié)點(diǎn)。Dense層前面與隱藏層連接,后面為每個(gè)任務(wù)分別連接,起到學(xué)習(xí)特定任務(wù)的作用。連接在Dense層之后的是softmax分類器,這里有兩個(gè)任務(wù),所以連接兩個(gè)softmax 分類器。定義網(wǎng)絡(luò)模型,使用Python 中 的基于tensorflow 的kearas 定義。情感分類器的損失記為L(zhǎng)ov1,權(quán)重為β,性別分類的損失記為L(zhǎng)ov2,權(quán)重為γ,損失值Lov=βLov1+γLov2。同時(shí)訓(xùn)練兩個(gè)模型,使總損失值最小。

        圖4 多任務(wù)學(xué)習(xí)結(jié)構(gòu)圖

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

        IEMOCAP 數(shù)據(jù)庫是一個(gè)多模態(tài)的數(shù)據(jù)庫,包括文本和語音信號(hào)。該數(shù)據(jù)集包含憤怒、快樂、悲傷、中立、沮喪、興奮、恐懼、驚訝等情感。IEMOCAP 數(shù)據(jù)庫支持視頻和音頻,還有所有話語的文本轉(zhuǎn)錄。數(shù)據(jù)庫中包含5 331 條音頻和文本轉(zhuǎn)錄話語。此次實(shí)驗(yàn)按照數(shù)據(jù)樣本的90%劃分為訓(xùn)練集、10%劃分為測(cè)試集。測(cè)試集的文本用來增強(qiáng)合成語音信號(hào)。實(shí)驗(yàn)運(yùn)行環(huán)境選擇Windows 系統(tǒng),編程語言使用Python編程,深度學(xué)習(xí)的框架選取tensorflow 和kearas。

        4.2 實(shí)驗(yàn)參數(shù)設(shè)計(jì)和評(píng)價(jià)指標(biāo)

        BERT 模型的dropout 值設(shè)置為0.5,迭代次數(shù)設(shè)置10 次,學(xué)習(xí)率設(shè)置為0.01。多任務(wù)學(xué)習(xí)分類模型以及語音合成模型的參數(shù)設(shè)置如2、3 部分所述。文中使用準(zhǔn)確率來評(píng)價(jià)實(shí)驗(yàn)方法的優(yōu)劣。準(zhǔn)確率的計(jì)算可表示為正確分類的數(shù)目與總數(shù)目的比值。

        4.3 實(shí)驗(yàn)設(shè)計(jì)思路

        為了證明設(shè)計(jì)的語音增強(qiáng)效果優(yōu)于對(duì)比文獻(xiàn)方法,需要設(shè)計(jì)多組對(duì)比實(shí)驗(yàn)。第一組實(shí)驗(yàn)的目的是證明BERT 模型比Word2vec 模型好。設(shè)計(jì)思路為分別使用BERT 和Word2vec 對(duì)文本進(jìn)行向量化,然后同樣使用文本-語音合成模型與多任務(wù)學(xué)習(xí)分類器。第二組實(shí)驗(yàn)?zāi)康氖亲C明提到的文本-語音增強(qiáng)模型優(yōu)于其他對(duì)比文獻(xiàn)的語音增強(qiáng)方法,同樣使用BERT 模型進(jìn)行文本向量化,語音增強(qiáng)用文中方法和頻譜相減、小波分解變化、增強(qiáng)方法對(duì)比,然后用多任務(wù)學(xué)習(xí)分類器分類。第三組實(shí)驗(yàn)?zāi)康氖亲C明同時(shí)學(xué)習(xí)性別和情感分類優(yōu)于只學(xué)習(xí)情感分類一個(gè)任務(wù),對(duì)比實(shí)驗(yàn)使用BERT 模型+文本-語音增強(qiáng)模型以及一個(gè)使用單任務(wù)的DNN、一個(gè)使用多任務(wù)的DNN。

        4.4 實(shí)驗(yàn)結(jié)果

        如表1 所示,BERT 詞向量與Word2vec 詞向量相比,準(zhǔn)確率提高了6%,原因在于BERT 詞向量解決了Word2vec詞向量一詞多義的問題,以及BERT 的多頭注意力機(jī)制更能有效地學(xué)習(xí)上下文信息。文本-語音增強(qiáng)模型的識(shí)別率為92%,頻譜相減的準(zhǔn)確率為85%,小波分解的準(zhǔn)確率為89%,證明了文中語音增強(qiáng)方法優(yōu)于小波分解法和頻譜相減法。原因在于用文本特征增強(qiáng)語音特征避免了頻譜相減法引入“音樂噪聲”,解決了小波分解法閾值確定的問題。多任務(wù)學(xué)習(xí)的準(zhǔn)確率與單任務(wù)DNN 相比,提升了4%,因?yàn)槎嗳蝿?wù)學(xué)習(xí)可以利用不同任務(wù)之間的關(guān)聯(lián)。

        表1 對(duì)比實(shí)驗(yàn)的結(jié)果

        4.5 相似研究對(duì)比

        下面對(duì)比其他利用編碼器和解碼器的語音增強(qiáng)方法,并進(jìn)行分析。實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可知,文獻(xiàn)[16]、文獻(xiàn)[17]、文獻(xiàn)[19]和文中方法的識(shí)別準(zhǔn)確率分別為84%、86.7%、82%和92%。文中方法改進(jìn)之處在于:①利用文本信息增強(qiáng)語音的效果優(yōu)于利用語音信號(hào)增強(qiáng),這是因?yàn)槲谋拘畔⒉蝗菀资艿江h(huán)境噪聲、語言文化差異的影響,能夠更加直觀地表達(dá)情感;②對(duì)文本信息進(jìn)行去停用詞、特征權(quán)重計(jì)算操作篩選有用特征值,大量的文本信息會(huì)加大文本-語音合成的工作量;③對(duì)文本特征的BERT 向量化,根據(jù)文本的上下文避免一詞多義造成的歧義;④利用多任務(wù)學(xué)習(xí),考慮了性別差異[20]。

        表2 對(duì)比文獻(xiàn)的識(shí)別準(zhǔn)確率

        5 結(jié)論

        文中使用文本信息增強(qiáng)語音信號(hào),實(shí)現(xiàn)了語音和文本兩個(gè)模態(tài)的融合以及自然語言處理和語音情感識(shí)別兩個(gè)交叉領(lǐng)域的創(chuàng)新應(yīng)用。對(duì)文本信號(hào)進(jìn)行去停用詞、Jieba 分詞、使用TF-IDF 計(jì)算權(quán)重,挑選權(quán)重大的文本特征。用BERT 模型將挑選的文本特征向量化,可以利用上下文的語義信息,解決了Word2vec 詞向量一詞多義及識(shí)別率不準(zhǔn)確的問題。將BERT 模型的輸出輸入到Encoder 中,Encoder 的輸出和語音特征輸入到Decoder,完成聲學(xué)模型的訓(xùn)練。在合成階段,利用測(cè)試集的文本信息輸入到聲學(xué)模型,完成了合成。對(duì)合成后的語音信號(hào)進(jìn)行二次特征提取,最終在基于多任務(wù)學(xué)習(xí)的DNN 模型完成了分類。文中方法的改進(jìn)之處在于:①利用文本信息增強(qiáng)語音信號(hào),避免引入“音樂噪聲”和閾值確定困難的問題;②對(duì)于增強(qiáng)后的語音信號(hào),同時(shí)學(xué)習(xí)性別分類和情感分類這兩個(gè)任務(wù)。多任務(wù)學(xué)習(xí)既可以學(xué)習(xí)各自任務(wù)的特征,也可以學(xué)習(xí)共享的特征。如果只考慮到不同任務(wù)的差異,而忽略共享信息,會(huì)造成識(shí)別率下降。

        猜你喜歡
        多任務(wù)解碼器編碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
        電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        久久97久久97精品免视看| 国产一区二区三区观看视频| 尤物成av人片在线观看| 手机在线免费av资源网| 国产乱子伦农村xxxx| 久久成人麻豆午夜电影| 国产成人综合亚洲av| 国产精品久久久黄色片| 亚洲国产精彩中文乱码av| 久久久久久久性潮| 亚洲精品日本| 亚洲一区二区三区成人网| 亚洲av成人片无码网站| 亚洲va中文字幕无码久久不卡| 国产成人亚洲合集青青草原精品| 精品人妻午夜中文字幕av四季| 日本伊人精品一区二区三区 | 男女一级毛片免费视频看| 女同性恋一区二区三区四区| 亚洲国产色一区二区三区| 卡一卡二卡三无人区| 国产成人精品免费久久久久| 日本中文字幕人妻精品| 国产精品亚洲专区无码不卡| 久久久久久伊人高潮影院| 男人的天堂av网站一区二区| 99伊人久久精品亚洲午夜| 岛国av无码免费无禁网站| 中文字幕无码无码专区| 亚洲愉拍自拍视频一区| 国产av精品一区二区三区久久| 开心五月激情综合婷婷色| 91精品啪在线观看国产18| 久久精品国产亚洲av沈先生| 欧美性生交活xxxxxdddd | 欧美嫩交一区二区三区| 久久久精品2019免费观看| 久久久久人妻精品一区5555| 亚洲一区亚洲二区视频在线| 我把护士日出水了视频90分钟| 日韩成人精品在线|