亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的單音源語音分離方法研究

        2022-06-15 02:33:00
        電聲技術(shù) 2022年4期
        關(guān)鍵詞:信號(hào)

        陳 瑤

        (西京學(xué)院,陜西 西安 710123)

        0 引言

        在日常交流生活環(huán)境中,語音傳遞多數(shù)伴隨著多方面的噪聲,但人耳可利用聽到的混合語音,經(jīng)過大腦皮層篩選,得到所需信息,即從噪聲中分離得到目標(biāo)語音信息,這種現(xiàn)象稱為“雞尾酒會(huì)效應(yīng)”[1]。早間,學(xué)術(shù)界對(duì)語音交互的方法研究不深,實(shí)驗(yàn)結(jié)果在相位、語音的質(zhì)量以及計(jì)算頻譜圖時(shí)間等方面都存在著較大的誤差,因此有必要提高語音分離的質(zhì)量,促進(jìn)交互技術(shù)的發(fā)展,為生活帶來便利。

        1 算法框架

        語音分離技術(shù)通常使用頻域網(wǎng)絡(luò)進(jìn)行處理,時(shí)域分離網(wǎng)絡(luò)近幾年才被提出并實(shí)驗(yàn)。時(shí)域分離網(wǎng)絡(luò)可以有效地減小相位差,用特征提取替代短時(shí)傅里葉變換,滿足時(shí)間與頻率局部化的變化,直接對(duì)源波形處理?;谇捌趯?duì)方法的調(diào)研,本文選擇使用一種全卷積時(shí)域分離網(wǎng)絡(luò)。這是一種端到端的深度學(xué)習(xí)方法,由時(shí)頻分解、特征提取、目標(biāo)分離、模型訓(xùn)練及波形合成五個(gè)模塊組成[2]。

        全卷積時(shí)域分離網(wǎng)絡(luò)主要包括編碼、分離及解碼三個(gè)處理階段。首先,使用編碼器將兩段波形片段混合;其次將混合后的波形片段轉(zhuǎn)換為特征空間中的相應(yīng)片段[3],并估量每個(gè)時(shí)間步長中源的乘法函數(shù);最后用解碼器對(duì)被掩碼的編碼器特征進(jìn)行變換從而重構(gòu)波形。整個(gè)流程如圖1 所示。

        圖1 全卷積分離圖

        全卷積分離網(wǎng)絡(luò)由多個(gè)一維卷積塊組成。在建模中,使用時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)替代循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN),使訓(xùn)練、驗(yàn)證的速度加快。TCN中的每一層都包含呈指數(shù)增長的一維卷積的擴(kuò)展因子。時(shí)域分離方法的性能與編碼器窗口大小有關(guān),窗口越小,得到的精度越高,分離模塊需要處理向量的長度也就越長。

        1.1 卷積分離模塊

        本次實(shí)驗(yàn)使用兩段純凈語音合成作為混合語音。假設(shè)有2 位說話人的語音為x1(t),x2(t),y(t)為混合語音,x1(t)為目標(biāo)語音,x2(t)為噪聲。定義如下:

        混合后,將語音分成n段長度為1 的重疊長度語音,sk=1,2,…,n∈D1×1,k為分段索引。經(jīng)一維卷積運(yùn)算將sk轉(zhuǎn)化為M維,再通矩陣乘法重構(gòu):

        式中:U∈Dn×X包含n個(gè)向量(編碼器基函數(shù)),每個(gè)向量的長度為X,H是一個(gè)可選的非線性函數(shù)(非負(fù)數(shù))。第一個(gè)轉(zhuǎn)化模塊后,加入非線性激活函數(shù)和歸一化運(yùn)算。

        1.2 編/解碼器

        卷積神經(jīng)網(wǎng)絡(luò)包含了編碼器和解碼器。在編碼時(shí),輸入一段語音信號(hào)y(t),通過多層卷積處理并且在每一層中輸入一個(gè)帶有參數(shù)的線性整流函數(shù)(PReLU)。

        式中:c為輸入特征,fE(*)是輸入特征中帶向量c的映射函數(shù)。

        解碼時(shí),解碼器即是卷積運(yùn)算的逆操作。其中,xd(t)是說話人的分離信號(hào)fD(*)的解碼器的映射函數(shù)。z是噪聲向量,服從正態(tài)分布。計(jì)算如下:

        并用一維轉(zhuǎn)置卷積重構(gòu)波形,并表示為一個(gè)矩陣乘法:

        1.3 端到端網(wǎng)絡(luò)

        基于端到端的語音分離,將輸入的語音信號(hào)直接使用時(shí)域上的原始波形點(diǎn)作為輸入特征,進(jìn)行特征提取[4]。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 參數(shù)設(shè)置

        從語料庫中分別提取兩種人的50 個(gè)純凈語音,信噪比在-5~5 dB,以最小值生成30 h 的訓(xùn)練集、10 h 的驗(yàn)證集以及5 h 的評(píng)估集。再將每個(gè)數(shù)據(jù)集裁剪成10 小段。波形均以8 kHz 重新采樣。

        初始學(xué)習(xí)率設(shè)置為10-3,訓(xùn)練后設(shè)為10-8。優(yōu)化器使用Adam。N(自動(dòng)編碼器中過濾器數(shù)量)=256,L(過濾器長度)=20,B(通道數(shù)和剩余路徑的1×1 轉(zhuǎn)換塊)=256,H(卷積塊中通道數(shù))=512,P(卷積塊中內(nèi)核大?。?3。

        2.2 實(shí)驗(yàn)分析

        為了準(zhǔn)確地評(píng)估算法的性能,取信噪比都為5 dB 的音頻并生成頻譜圖,如圖2 所示。圖2(a)表示混合聲音的頻譜,圖2(b)表示分離后目標(biāo)語音頻譜,圖2(c)表示分離后噪聲頻譜。從圖2 可以看出,圖2(a)在1—2 區(qū)域內(nèi),頻譜變換多曲折,而在圖2(b)相同區(qū)域中頻譜變化則有一小段趨于0;圖2(a)的最高頻譜值在0.5~0.6,圖2(c)的最高頻譜值則在0.9~1.0;圖2(b)頻譜的最低值出現(xiàn)在2—3 區(qū)域內(nèi),圖2(c)最低值則在1—2區(qū)域內(nèi)。后面兩個(gè)子圖與圖2(a)變化明顯,顯然分離的效果較好。

        圖2 spk1 分離前后的頻譜圖

        2.3 對(duì)比實(shí)驗(yàn)

        頻域分離作為語音處理中的重要部分,主要是輸入一段時(shí)域語音信號(hào),通過一、二維變換成二維頻域信號(hào)[5]。在分解時(shí),把卷積后的時(shí)域語音信號(hào)輸入到短時(shí)傅里葉變換內(nèi),變成瞬時(shí)語音信號(hào)。代替編/解碼器,重構(gòu)波形,以此得到更加稀疏和結(jié)構(gòu)化的聲學(xué)特征表征。spk2 分離前后的時(shí)頻如圖3所示。

        經(jīng)過對(duì)比,從圖3 可以明顯看出,用時(shí)頻方法分離后的音頻譜圖3(b)和原語音頻譜圖3(a)的波形大體相同,只有小部分波形有變化。圖3(a)最高頻譜值在0.5~0.75,與圖3(b)極其相似,只有圖3(c)中才有較小的變化,其頻譜最高在0.5~0.6。說明分離語音質(zhì)量不好,無法完全分離。因此用時(shí)域方法分離后音頻的質(zhì)量要比頻域方法更優(yōu)。

        圖3 spk2 分離前后時(shí)頻圖

        3 結(jié)語

        全卷積分離網(wǎng)絡(luò)使用的是時(shí)域分離方法,即在時(shí)域上使用編碼器-解碼器對(duì)信號(hào)建模,并在非負(fù)編碼器輸出音源,重構(gòu)波形。該模型計(jì)算量小,延遲相對(duì)較短,是解決語音分離相對(duì)較優(yōu)的方法。在今后的工作中,研究者仍需要克服神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)階段產(chǎn)生噪聲對(duì)實(shí)驗(yàn)的偏差。

        猜你喜歡
        信號(hào)
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        7個(gè)信號(hào),警惕寶寶要感冒
        媽媽寶寶(2019年10期)2019-10-26 02:45:34
        孩子停止長個(gè)的信號(hào)
        《鐵道通信信號(hào)》訂閱單
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        基于Arduino的聯(lián)鎖信號(hào)控制接口研究
        《鐵道通信信號(hào)》訂閱單
        基于LabVIEW的力加載信號(hào)采集與PID控制
        Kisspeptin/GPR54信號(hào)通路促使性早熟形成的作用觀察
        亚州少妇无套内射激情视频| 亚洲国产综合久久天堂| 国产成人小视频| 亚洲美免无码中文字幕在线| 亚洲AV无码久久精品国产老人| 少妇一级内射精品免费| 蜜桃18禁成人午夜免费网站| 亚洲国产精品第一区二区| 日韩在线第二页| 亚洲av色无码乱码在线观看| 99综合精品久久| av一区二区在线免费观看| 国产精品毛片va一区二区三区| 欧美freesex黑人又粗又大| 久久亚洲国产精品123区| 国产日产韩国级片网站| 黄片小视频免费观看完整版| 人妻少妇偷人精品无码| 在线高清精品第一区二区三区| 天堂av在线一区二区| 国产精品国产三级国产专播下| 99精品国产一区二区| 欧美亚洲高清日韩成人| 亚洲av国产精品色a变脸| 天天综合网网欲色| 天躁夜夜躁狼狠躁| 国产亚洲精品国看不卡| 一本色道久久亚洲av红楼| 国模雨珍浓密毛大尺度150p| 亚洲中文字幕乱码| 日韩在线精品视频免费| 亚洲中文字幕国产视频 | 免费观看又污又黄的网站| 久久国产香蕉一区精品天美| 日本精品久久不卡一区二区| 成人做受视频试看60秒| 日韩高清无码中文字幕综合一二三区 | 美利坚合众国亚洲视频 | 刚出嫁新婚少妇很紧很爽| 久久理论片午夜琪琪电影网| 亚洲黄色电影|