亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的單通道雙人語(yǔ)音分離研究*

        2020-04-25 13:37:24周曉東陳人楷孫華星莫鈔然
        通信技術(shù) 2020年4期
        關(guān)鍵詞:信號(hào)模型

        周曉東,陳人楷,孫華星,莫鈔然

        (1.國(guó)網(wǎng)福建省電力有限公司信息通信分公司,福建 福州 350000;2.廣州廣哈通信股份有限公司,廣東 廣州 510000)

        0 引 言

        在傳統(tǒng)電力調(diào)度通信系統(tǒng)中,調(diào)度通話(huà)雙方甚至多方的語(yǔ)音必須在錄音系統(tǒng)中存儲(chǔ),其存儲(chǔ)方式為雙方甚至多方的語(yǔ)音被存儲(chǔ)在單個(gè)錄音文件中。這種存儲(chǔ)方式對(duì)于語(yǔ)音識(shí)別和聲紋識(shí)別的準(zhǔn)確率會(huì)帶來(lái)阻礙,其中單聲道多人語(yǔ)音問(wèn)題被稱(chēng)為雞尾酒會(huì)問(wèn)題。解決雞尾酒會(huì)問(wèn)題的傳統(tǒng)機(jī)器學(xué)習(xí)方法,主要有計(jì)算機(jī)聽(tīng)覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis,CASA)、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)和生成模型的方法等。計(jì)算機(jī)聽(tīng)覺(jué)場(chǎng)景分析系統(tǒng)(CASA)[1]是利用一定的組織準(zhǔn)則和適當(dāng)?shù)姆蛛x線(xiàn)索,模擬人類(lèi)聽(tīng)覺(jué)系統(tǒng)處理聲音的過(guò)程。CASA 的計(jì)算目標(biāo)是理想二值掩碼IBM。在混合語(yǔ)音中,如果目標(biāo)語(yǔ)音占主導(dǎo)地位,則IBM 值記為1;否則,為0。但是,CASA 對(duì)噪聲掩蔽不夠徹底,分離出的語(yǔ)音仍含有較多的干擾聲音,且在分離相對(duì)時(shí)延較大的一路信號(hào)時(shí)存在困難。文獻(xiàn)[2-3]提出了非負(fù)矩陣分解(NMF)方法,求解兩個(gè)非負(fù)矩陣,使得它們的乘積盡可能地接近輸入矩陣。NMF 應(yīng)用于雞尾酒會(huì)問(wèn)題的主要思路:學(xué)習(xí)單個(gè)說(shuō)話(huà)者的語(yǔ)音特征wk,將所有說(shuō)話(huà)者的字典矩陣串聯(lián)起來(lái)形成一個(gè)最終的字典,再求解系數(shù)矩陣Hm,最后將第k 個(gè)說(shuō)話(huà)者的基矩陣Wk(k=1,2,…,p)乘以系數(shù)矩陣(k=1,2,…,p),從而提取出第k 個(gè)說(shuō)話(huà)者的語(yǔ)音信號(hào)的幅度譜Xk。文獻(xiàn)[4-7]解釋了基于生成模型的方法,應(yīng)用最廣泛的是GMM-HMM,但計(jì)算量較大,且只能用于說(shuō)話(huà)人已知的情況。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)方法逐漸應(yīng)用到雞尾酒會(huì)問(wèn)題中,基本思路是根據(jù)輸入的語(yǔ)音信息,通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)說(shuō)話(huà)人的掩碼,然后用這個(gè)掩碼與混合語(yǔ)音信號(hào)相乘,從而分離出不同說(shuō)話(huà)人。文獻(xiàn)[8-11]提出了幾種使用廣泛的掩碼,主要有IBM、IRM、SMM、PSM 和cIRM。其中,在不同信噪比下,IRM 性能都優(yōu)于IBM、SMM 和IRM 性能類(lèi)似,且都優(yōu)于傳統(tǒng)的非負(fù)矩陣分解的方法。文獻(xiàn)[12-13]提出了深度聚類(lèi)(Deep Clustering,DPCL)的方法,是一種說(shuō)話(huà)人無(wú)關(guān)的分離模型。這種方法通過(guò)把混疊語(yǔ)音中的每個(gè)時(shí)頻單元結(jié)合其上下文信息映射到一個(gè)新的空間,并在這個(gè)空間上進(jìn)行聚類(lèi),使得在這一空間中屬于同一說(shuō)話(huà)人的時(shí)頻單元距離較小,可以聚類(lèi)到一起。文獻(xiàn)[14]提出了深度吸引子網(wǎng)絡(luò)(Deep Attractor Network,DANet)。研究表明,人的腦回路會(huì)產(chǎn)生感知吸引子,這些吸引子使吸引空間形變,將與之相似的聲音吸引過(guò)來(lái)。DANet 與之類(lèi)似,會(huì)在嵌入空間中形成參考吸引子,并將與之類(lèi)似的聲音吸引過(guò)來(lái)。文獻(xiàn)[15]提出了置換不變網(wǎng)絡(luò)(Permutation Invariant Training,PIT),實(shí)驗(yàn)結(jié)果顯示,PIT 的性能優(yōu)于傳統(tǒng)的非負(fù)矩陣分解(NMF)、計(jì)算機(jī)聽(tīng)覺(jué)場(chǎng)景分析(CASA)和深度聚類(lèi)(DPCL),且和說(shuō)話(huà)人的數(shù)目和語(yǔ)言無(wú)關(guān),容易實(shí)現(xiàn),且易與其他方法結(jié)合。但是,PIT 在分離性別相同的說(shuō)話(huà)人時(shí),性能比性別相反的說(shuō)話(huà)人時(shí)性能要差,且能分離的最大數(shù)目取決于網(wǎng)絡(luò)結(jié)構(gòu)。由于傳統(tǒng)的方法都是在頻域?qū)φZ(yǔ)音信號(hào)進(jìn)行處理,而將信號(hào)變換到頻域時(shí)需要對(duì)信號(hào)加窗。為實(shí)現(xiàn)足夠的頻率分辨率,需要的窗函數(shù)對(duì)應(yīng)的時(shí)間很長(zhǎng),且可能引起相位幅度的解耦。為解決以上限制,文獻(xiàn)[16]首次提出在時(shí)域直接處理信號(hào),并提出了TasNet(Time-domain Audio Separation Network)。實(shí)驗(yàn)結(jié)果表明,TasNet 減少了計(jì)算量,分離效果優(yōu)于之前提出的DPCL、PIT 和DANet。

        1 算法模型結(jié)構(gòu)

        本文的模型結(jié)構(gòu)如圖1 所示,主要包括預(yù)處理、特征提取、attention 模塊和k-means 聚類(lèi)4 部分。

        圖1 模型結(jié)構(gòu)

        1.1 預(yù)處理

        在將語(yǔ)音信號(hào)輸入到神經(jīng)網(wǎng)絡(luò)之前,要先對(duì)語(yǔ)音信號(hào)進(jìn)行降采樣到8 kHz,然后對(duì)其做短時(shí)傅里葉變化。本文在實(shí)驗(yàn)中使用32 ms 的漢明窗,窗移為8 ms。為了保證語(yǔ)音信號(hào)的局部一致性,對(duì)語(yǔ)音信號(hào)進(jìn)行100 幀的分割。

        1.2 特征提取

        圖2 LSTM 結(jié)構(gòu)

        本文使用雙向LSTM(BiLSTM)提取語(yǔ)音信號(hào)的特征。LSTM 是RNN 的特例,解決了RNN 長(zhǎng)距離依賴(lài)的問(wèn)題。LSTM 主要包括遺忘門(mén)、輸入門(mén)和輸出門(mén),結(jié)構(gòu)如圖2 所示。ft是遺忘門(mén)輸入,xt是當(dāng)前時(shí)刻輸入,it是輸入門(mén)輸入,是輸入門(mén)神經(jīng)元輸出,ht是當(dāng)前時(shí)刻隱藏層輸出,ht-1是上一時(shí)刻隱藏層輸出,Ct是輸出神經(jīng)元最終輸出,Wf、bf、Wi、bi和Wc、bc、Wo、bo是在訓(xùn)練過(guò)程中需要學(xué)習(xí)的參數(shù)。雙向LSTM 由前向LSTM 和后向LSTM 組成,如圖3 所示,輸出yt為兩個(gè)LSTM 輸出的組合,如式(7)~式(9)所示,可以更好地捕捉數(shù)據(jù)之間的數(shù)據(jù)依賴(lài)。

        圖3 雙向LSTM 結(jié)構(gòu)

        1.3 注意力機(jī)制

        人類(lèi)在觀察一幅圖片時(shí),可通過(guò)快速掃描獲取整體圖像信息獲得重點(diǎn)觀察區(qū)域,也就是注意力焦點(diǎn),然后對(duì)這一區(qū)域投入更多資源,目的是取更多細(xì)節(jié)信息而忽略其他無(wú)用信息。這是在長(zhǎng)期進(jìn)化過(guò)程中人類(lèi)逐漸形成的一種生存機(jī)制,使得可以從大量信息中用有限的資源篩選出更高價(jià)值的信息。神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制與此類(lèi)似,核心是從大量信息中篩選出對(duì)當(dāng)前任務(wù)更有效的信息。注意力模型在機(jī)器翻譯、圖像描述、文本摘要中被廣泛使用,主要包括hard attention、soft attention、global attention、local attention 和self attention 等類(lèi)型。在本文模型中采用的attention 機(jī)制的結(jié)構(gòu)如圖4 所示。

        圖4 attention 模型結(jié)構(gòu)

        初始時(shí)令Q=K=V=I,其中I 為輸入向量且I=[i1,i2,…,in],其中n 為向量維度,計(jì)算Q 和K 的點(diǎn)積,并除以K 的維度,然后將所得結(jié)果通過(guò)softmax函數(shù),從而得到每一特征向量的權(quán)重α:

        經(jīng)過(guò)attention 模塊后,所得向量為:

        1.4 聚 類(lèi)

        無(wú)監(jiān)督聚類(lèi)算法主要包括k-means、高斯混合聚類(lèi)、密度聚類(lèi)以及層次聚類(lèi)等。由于k-means具有原理簡(jiǎn)單、實(shí)現(xiàn)容易等優(yōu)點(diǎn),因此本文選擇k-means 算法對(duì)經(jīng)過(guò)attention 模塊后的語(yǔ)音特征進(jìn)行聚類(lèi),算法流程如下:

        (1)首先確定K 值,即聚類(lèi)后的集合數(shù)目;

        (2)從數(shù)據(jù)集中隨機(jī)選擇K 個(gè)數(shù)據(jù)點(diǎn)作為初始質(zhì)心;

        (3)對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn),分別計(jì)算它們與這K 個(gè)點(diǎn)的歐氏距離,根據(jù)距離遠(yuǎn)近分別將這些數(shù)據(jù)劃分到K 個(gè)質(zhì)心所在的集合中;

        (4)對(duì)(3)中K 個(gè)集合中的每個(gè)數(shù)據(jù)點(diǎn),分別重新計(jì)算每個(gè)集合的質(zhì)心;

        (5)如果(4)中得到的新的質(zhì)心沒(méi)有變化,則聚類(lèi)結(jié)束,所得的K 個(gè)集合就是最后的劃分結(jié)果,否則返回(3)。

        2 實(shí)驗(yàn)過(guò)程

        2.1 數(shù)據(jù)集

        本文中,訓(xùn)練和測(cè)試所用的數(shù)據(jù)集為wsj0 數(shù)據(jù)集。其中,訓(xùn)練集包含50 個(gè)男性說(shuō)話(huà)人和51 個(gè)女性說(shuō)話(huà)人,測(cè)試集包含10 個(gè)男性說(shuō)話(huà)人和8 個(gè)女性說(shuō)話(huà)人。每個(gè)說(shuō)話(huà)人有141 ~142 條語(yǔ)音,每條語(yǔ)音持續(xù)時(shí)間為5 ~6 s,采樣率為16 kHz,比特率為256 kb/s,在預(yù)處理中將其降采樣到8 kHz。實(shí)驗(yàn)中按照測(cè)試集中的語(yǔ)音是否出現(xiàn)在訓(xùn)練集中,將測(cè)試集劃分為開(kāi)放的數(shù)據(jù)集和封閉的數(shù)據(jù)集,并按照性別將測(cè)試集劃分為男性和男性混合、男性和女性混合、女性和女性混合3 種情況。

        2.2 訓(xùn) 練

        假設(shè)語(yǔ)音信號(hào)經(jīng)過(guò)短時(shí)傅里葉變化后的向量為I=[i1,i2,…,in],每層雙向LSTM 有600 個(gè)節(jié)點(diǎn),經(jīng)過(guò)attention 模塊后輸出的向量為O=[o1,o2,…,on]。對(duì)每一個(gè)時(shí)頻點(diǎn),若說(shuō)話(huà)人A 的信號(hào)能量高于B,則記mi為1,否則為0。那么,對(duì)于每一個(gè)輸出向量O,在對(duì)應(yīng)的時(shí)頻點(diǎn)上有M=[m1,m2,…,mn]。在本文的模型中,損失函數(shù)為:

        2.3 實(shí)驗(yàn)結(jié)果

        將文獻(xiàn)[12]中的結(jié)果與本文的模型進(jìn)行性能對(duì)比,結(jié)果如表1 所示。評(píng)價(jià)指標(biāo)為SDR。SDR 是評(píng)價(jià)語(yǔ)音信號(hào)損失的指標(biāo),值越大說(shuō)明語(yǔ)音信號(hào)損失越小。

        表1 不同情況下混合說(shuō)話(huà)人的語(yǔ)音分離結(jié)果

        從表1 可見(jiàn),在封閉數(shù)據(jù)集下,當(dāng)混合語(yǔ)音由男性和男性組成時(shí),SDR(Signal-to-Distortion Ratio)增加了20.58%;當(dāng)混合語(yǔ)音由女性和女性、男性和女性組成時(shí),SDR 分別增加了17.25%、1.88%,整體SDR 增加了22.78%;在開(kāi)放數(shù)據(jù)集下,SDR 在男性和男性混合、女性和女性混合、女性和男性混合時(shí),SDR 分別增加了3.56%、20.87%、1.04%,整體SDR 增加了17.67%。需要說(shuō)明的是,上述數(shù)據(jù)通過(guò)“(本文數(shù)據(jù)-DC+k-means)/DC+k-means”獲得。綜上,本文的模型相比于原來(lái)的模型在不同性別的語(yǔ)音混合情況下,SDR 都有所提升,其中在女性和女性的語(yǔ)音混合時(shí)性能提升幅度最大。

        3 結(jié) 語(yǔ)

        本文提出了一種雙向BLST 和注意力機(jī)制融合的語(yǔ)音分離模型。在算法模型中使用雙向LSTM 來(lái)提取語(yǔ)音信號(hào)的高維特征,用attention 模塊為每一個(gè)語(yǔ)音特征分配權(quán)重,用k-means 對(duì)輸出結(jié)果進(jìn)行聚類(lèi),從而在混合語(yǔ)音中分離出兩個(gè)說(shuō)話(huà)人。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)沒(méi)有attention 模塊的深度聚類(lèi)模型相比,本文的算法模型取得了更好的分離性能。在封閉/開(kāi)放的數(shù)據(jù)集上,新算法的SDR 增長(zhǎng)率在不同聲音混合情形下都有不同數(shù)量的提升。在電力調(diào)度領(lǐng)域中,實(shí)際情況下可能不止有2 個(gè)人在同時(shí)說(shuō)話(huà),對(duì)于3 人或3 人以上的語(yǔ)音分離任務(wù)將是未來(lái)的研究重點(diǎn)。

        猜你喜歡
        信號(hào)模型
        一半模型
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線(xiàn)三等角』
        完形填空二則
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        孩子停止長(zhǎng)個(gè)的信號(hào)
        3D打印中的模型分割與打包
        基于LabVIEW的力加載信號(hào)采集與PID控制
        一種基于極大似然估計(jì)的信號(hào)盲抽取算法
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        精品极品视频在线观看| 国产精品国产三级国产在线观| 久久久无码一区二区三区| 欧美性猛交xxxx乱大交蜜桃| 男女视频在线一区二区| 亚洲乱码中文字幕综合| 亚洲精品中文字幕乱码| 一级r片内射视频播放免费 | 亚洲中文字幕视频第一二区| 91精品国产92久久久| 国产亚av手机在线观看| 国产激情内射在线影院| 青草福利在线| 精品免费久久久久国产一区| 精品蜜臀国产av一区二区| 手机在线看片国产人妻| 中文字幕人妻在线中字| 精品无码久久久久成人漫画| 中文字幕天堂在线| 亚洲不卡av不卡一区二区| 亚洲二区精品婷婷久久精品| 在线a亚洲视频播放在线播放| 在线观看视频播放| 免费人成无码大片在线观看| 一本到无码AV专区无码| 美女扒开内裤露黑毛无遮挡| 精品极品视频在线观看| av狠狠色丁香婷婷综合久久| 亚洲av无码1区2区久久| 国产极品美女高潮抽搐免费网站| 亚洲av国产大片在线观看| 91国产自拍精品视频| 国产成人亚洲精品无码青| 蜜臀av 国内精品久久久| 亚洲精品国产品国语在线app| 91亚洲国产成人久久精品网站| 中文字幕色偷偷人妻久久一区| 久久久亚洲欧洲日产国码αv| 婷婷五月综合激情| 无码伊人久久大杳蕉中文无码| 91国产熟女自拍视频|