亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CycleGAN的音頻風(fēng)格遷移改進(jìn)方法

        2022-07-17 09:45:20蔡志偉許鑫亮吳文益
        關(guān)鍵詞:古典音樂特征音樂

        王 歡,蔡志偉,許鑫亮,張 豹,吳文益

        (大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連116650)

        音樂風(fēng)格沒有明確的概念,不同語義下音樂風(fēng)格含義不同[1],可能是音樂流派,如:古典樂、爵士樂等,也可能是音色、音調(diào)的不同,本文研究的音樂風(fēng)格遷移指的是音樂流派風(fēng)格的遷移。

        音樂是一個(gè)1維的時(shí)間序列,且音樂的特征信息較多,特征之間連接較為復(fù)雜緊密,在提取特征上較為復(fù)雜。目前大多數(shù)對(duì)音頻進(jìn)行風(fēng)格遷移的方法都是直接采用的圖像風(fēng)格遷移的算法。

        國(guó)際上的科學(xué)家研究了復(fù)雜的表示和信號(hào)處理技術(shù)。Engel[2]等人使用GAN通過模擬STFT幅度和相位角來生成音樂音色,但沒有生成特定風(fēng)格的音頻。Huang等[3]提出的Timbertron通過提取音頻的CQT特征,然后通過CycleGAN對(duì)其進(jìn)行音色轉(zhuǎn)換。隨后通過訓(xùn)練好的聲碼器將轉(zhuǎn)換后的CQT特征轉(zhuǎn)換成原始音頻。但該方法是在單一音色域上進(jìn)行風(fēng)格變換。Noam等[4]提出了一個(gè)通用的音樂翻譯網(wǎng)絡(luò),該網(wǎng)絡(luò)通過訓(xùn)練一個(gè)WaveNet音樂編碼器和多個(gè)WaveNet解碼器來實(shí)現(xiàn)音樂音色轉(zhuǎn)換。該網(wǎng)絡(luò)實(shí)現(xiàn)了從一種音色域轉(zhuǎn)換到多種音色域,但是想要實(shí)現(xiàn)不同風(fēng)格,需要訓(xùn)練多種解碼器,這對(duì)機(jī)器的算力有較高的要求,當(dāng)更換風(fēng)格時(shí)又需重新訓(xùn)練解碼器,不具有泛化性。

        針對(duì)目前存在的多種音頻風(fēng)格轉(zhuǎn)換模型不具備泛化性、計(jì)算量大等問題。本文提出了一種CycleGAN音頻風(fēng)格遷移的改進(jìn)方法來克服上述模型存在的問題。

        1 本文方法

        本文采用CycleGAN[5]實(shí)現(xiàn)音頻的風(fēng)格遷移,針對(duì)音樂數(shù)據(jù)的特殊性對(duì)CycleGAN進(jìn)行了改進(jìn)。生成式對(duì)抗網(wǎng)路是Gosodfellow等[6]提出的一類隱式生成模型。CycleGAN模型結(jié)構(gòu)如圖1。它的核心是通過兩個(gè)生成對(duì)抗網(wǎng)絡(luò)的合作組成的。第1組生成對(duì)抗網(wǎng)絡(luò)是生成器GA→B(從A到B的生成)與鑒別器DB,兩個(gè)生成器GA→B和GB→A的目標(biāo)是盡可能生成對(duì)方領(lǐng)域中的圖像以騙過各自對(duì)應(yīng)的鑒別器,鑒別器用于判斷圖像是否屬于指定領(lǐng)域。

        圖1 CycleGAN模型結(jié)構(gòu)

        1.1 改進(jìn)的ResNet結(jié)構(gòu)

        為了減少計(jì)算量,本文在生成器中的ResNet殘差網(wǎng)絡(luò)中加入了瓶頸結(jié)構(gòu)如圖2。利用1×1的卷積核[7],1×1的卷積核能夠減少計(jì)算量而不會(huì)損失太多原來的信息。上一級(jí)輸入通過1×1的卷積核,進(jìn)行降維同時(shí)進(jìn)行壓縮操作,在3×3的卷積核后面再設(shè)置一個(gè)1×1的卷積,使其維度與輸入時(shí)保持一致。

        圖2 瓶頸結(jié)構(gòu)

        生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖3。通過3個(gè)卷積層進(jìn)行下采樣,輸入到ResNet殘差網(wǎng)絡(luò),ResNet網(wǎng)絡(luò)由10個(gè)Resnet Block組成,在每一層Resnet layer中加入瓶頸結(jié)構(gòu),減少計(jì)算量同時(shí)不會(huì)損失太多原來信息。最后通過反卷積進(jìn)行上采樣還原回原來尺寸。

        圖3 生成器網(wǎng)絡(luò)結(jié)構(gòu)

        1.2 提高生成音頻可信性

        為了提高生成音頻的可信性,使生成的音樂更像真實(shí)音樂,本文在兩組對(duì)抗生成網(wǎng)絡(luò)中各增加1個(gè)鑒別器。將多領(lǐng)域音樂與通過1個(gè)生成器生成的音頻輸入該鑒別器,以使得生成器學(xué)習(xí)音樂更高級(jí)的特性,從而使生成的音頻更具有可信性。增加1個(gè)鑒別器后的1組生成對(duì)抗網(wǎng)絡(luò)如圖4。

        圖4 附加鑒別器后的生成對(duì)抗網(wǎng)絡(luò)

        2 實(shí)驗(yàn)結(jié)果分析

        本文采用不同流派數(shù)據(jù)集,為實(shí)驗(yàn)?zāi)P蛯?shí)用性提供可靠保證。

        2.1 數(shù)據(jù)集及預(yù)處理

        本文采用的音頻格式為MIDI格式,MIDI音樂就是利用音樂軟件中的音序編輯方法,通過MIDI系統(tǒng)處理合成制作出的計(jì)算機(jī)音樂[8]。其類似于活頁(yè)樂譜的符號(hào)音樂,MIDI文件中并不存在波形數(shù)據(jù),而是將所演奏的樂曲信息用信息字節(jié)來描述。在本文中,使用的歌曲流派有:爵士樂,古典音樂與流行樂,數(shù)據(jù)集見表1。數(shù)據(jù)集從YouTube上收集,可以從https:∥goo.gl/ZK8wLW下載。

        表1 數(shù)據(jù)集

        首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理如圖5。過濾掉錯(cuò)誤音樂,并將得到的規(guī)格音樂轉(zhuǎn)換成2維矩陣,2維矩陣存放的數(shù)據(jù)為時(shí)間和音高[9]。

        圖5 數(shù)據(jù)預(yù)處理

        2.2 實(shí)驗(yàn)方法對(duì)比

        古典音樂與爵士樂的差異在于音高[10],古典音樂的音高比爵士樂音高高。本文根據(jù)這一特點(diǎn),在進(jìn)行古典音樂轉(zhuǎn)換為爵士樂風(fēng)格時(shí),降低原音頻的音高;進(jìn)行爵士樂轉(zhuǎn)換為古典音樂風(fēng)格時(shí),提高原音頻的音高。

        本文將原音頻與轉(zhuǎn)換后的音頻的音高特征圖繪制出來進(jìn)行直觀的比對(duì),同時(shí)將改進(jìn)后生成的音頻與傳統(tǒng)CycleGAN生成的音頻進(jìn)行對(duì)比。

        為古典音樂音高特征圖如圖6。傳統(tǒng)CycleGAN生成的古典音樂轉(zhuǎn)換為爵士樂風(fēng)格音頻的音高特征圖如圖7。本文改進(jìn)后的CycleGAN生成的古典音樂轉(zhuǎn)換為爵士樂風(fēng)格音頻的音高特征圖如圖8。

        圖6 古典音樂音高特征圖

        圖7 古典轉(zhuǎn)爵士音高特征圖

        圖8 改進(jìn)后古典轉(zhuǎn)爵士音高特征圖

        從圖7中可以看出實(shí)現(xiàn)了音高的降低,但效果不是很好,圖像上與原音頻音高特征圖相比較為稀疏,這是因?yàn)橥ㄟ^傳統(tǒng)CycleGAN生成的音頻丟失掉了一部分音高信息,表現(xiàn)在聽覺效果上為音頻不連續(xù)。

        從圖6中可以看出實(shí)現(xiàn)了音高的降低,與傳統(tǒng)CycleGAN生成的音頻音高特征圖,圖7相比音高較低效果更好一些,與原音頻音高特征圖,圖6相比音高信息保留較為全面,且與圖7相比,音高信息保留更多。聽覺效果上更為連續(xù)。

        爵士樂音高特征圖如圖9,傳統(tǒng)CycleGAN生成爵士樂轉(zhuǎn)換為古典音樂風(fēng)格音頻的音高特征圖如圖10。本文改進(jìn)后的CycleGAN生成爵士樂轉(zhuǎn)換為古典音樂風(fēng)格音頻的音高特征圖如圖11。

        圖9 爵士樂音高特征圖

        圖10 爵士轉(zhuǎn)古典音高特征圖

        圖11 改進(jìn)后爵士轉(zhuǎn)古典音高特征圖

        從圖10中可以看出實(shí)現(xiàn)了音高的提高,但效果不是很好,且傳統(tǒng)CycleGAN生成的音頻丟失了較多的音高信息,導(dǎo)致聽起來不連續(xù)。

        從圖11中可以看出改進(jìn)后生成的音頻音高提高效果較傳統(tǒng)CycleGAN生成的音頻音高特征圖,圖10相比較好,且保留較多信號(hào)信息,聽起來更為連續(xù)。

        3 評(píng)估指標(biāo)

        生成的音樂既要實(shí)現(xiàn)風(fēng)格的遷移又需滿足人類的主觀感受,為此本文采取主觀評(píng)價(jià)與客觀評(píng)價(jià)相結(jié)合的方式。

        3.1 主觀評(píng)價(jià)

        主觀評(píng)價(jià)采用國(guó)際標(biāo)準(zhǔn)MOS平均主觀意見分,MOS評(píng)價(jià)標(biāo)準(zhǔn)見表2,即由不同的人分別對(duì)原始音頻和通過系統(tǒng)生成的音頻進(jìn)行主觀感覺對(duì)比,得出MOS分,最后求平均分。MOS一般5個(gè)等級(jí):很差、差、一般、良好、優(yōu)秀。

        表2 MOS評(píng)價(jià)標(biāo)準(zhǔn)

        本文以發(fā)送調(diào)查問卷的形式,來實(shí)施對(duì)音頻遷移效果的主觀評(píng)估。共回收了623張問卷。結(jié)果如圖12。

        從圖12中可以看出本文實(shí)現(xiàn)的音頻遷移效果較好。其中良好占40.03%,優(yōu)秀占33.44%,一般占25.24%,差占0.96%,很差占0.32%。說明音頻風(fēng)格遷移能夠較好地滿足人們對(duì)音樂的主觀要求。

        圖12 主觀評(píng)價(jià)統(tǒng)計(jì)圖

        3.2 客觀評(píng)價(jià)

        PA(xA)=CA,B(xA)>0.5;

        (1)

        (2)

        另外,對(duì)于模型的評(píng)估還需看其損失率和正確率。損失越小,正確率越高,模型越好。本文改進(jìn)的CycleGAN模型當(dāng)?shù)?00次時(shí),正確率達(dá)88.71%,損失值很小,超出了計(jì)算機(jī)精度范圍,幾乎為0。

        傳統(tǒng)CycleGAN基本在迭代73次時(shí)損失值不發(fā)生明顯變化;本文改進(jìn)的CycleGAN在迭代72次時(shí)損失值已不發(fā)生明顯變化,對(duì)比改進(jìn)前后在不同程度高斯噪聲下迭代70次的損失值見表3。

        由表3可以看出該二分類器魯棒性很好、具有很好的泛化性,且改進(jìn)后降低了損失值,說明改進(jìn)后在客觀指標(biāo)上也表現(xiàn)良好。

        4 結(jié) 語

        本文提出基于CycleGAN音頻風(fēng)格遷移改進(jìn)方法。在傳統(tǒng)CycleGAN網(wǎng)絡(luò)生成器中的ResNet中加入瓶頸結(jié)構(gòu),可以提高計(jì)算速度同時(shí)不損失原來信息。本文附加兩個(gè)鑒別器使CycleGAN網(wǎng)絡(luò)中的生成器可以學(xué)習(xí)更高級(jí)的特性,這有助于規(guī)則生成器生成具有多樣性的音頻,使其生成的音頻更接近現(xiàn)實(shí)音樂。不論是主觀上MOS評(píng)估還是客觀上二分類器評(píng)估結(jié)果均顯示該模型的音頻風(fēng)格遷移具有不錯(cuò)的效果。

        猜你喜歡
        古典音樂特征音樂
        影視中的古典音樂
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        古典音樂廣播節(jié)目的通俗化表達(dá)探析
        新聞傳播(2018年5期)2018-05-30 07:02:51
        圣誕音樂路
        兒童繪本(2017年24期)2018-01-07 15:51:37
        抓住特征巧觀察
        集大成的交響樂《英雄》:兼談怎樣聽古典音樂
        歌劇(2017年7期)2017-09-08 13:09:37
        音樂
        古典音樂欣賞與時(shí)代的融合——經(jīng)典作品欣賞引發(fā)的思考
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        伊人久久中文大香线蕉综合| 日韩精品一区二区三区在线视频| 久久婷婷色香五月综合缴缴情| 成人毛片一区二区| 午夜婷婷国产麻豆精品| 日本一区二区在线播放观看| 日本九州不卡久久精品一区 | 熟妇熟女乱妇乱女网站| 国产精品永久免费视频| 久久久亚洲精品午夜福利| 国产精品亚洲二区在线| 久久黄色视频| 中文字幕精品久久久久人妻| 国产精品27页| 国产午夜视频高清在线观看| 国产自国产自愉自愉免费24区| 女厕厕露p撒尿八个少妇| 日本少妇按摩高潮玩弄| 日本精品少妇一区二区| 欧美xxxxx在线观看| 中文字幕亚洲欧美日韩2019| 日本一区二区三区激情视频| 国产又大大紧一区二区三区| 97人伦影院a级毛片| 欧美性猛交xxxx乱大交丰满| 亚洲成AV人久久| av手机免费在线观看高潮| 国产午夜福利在线观看红一片| 91久久精品国产91久久| 日本五十路熟女在线视频| 看女人毛茸茸下面视频| 国语精品一区二区三区| 欧美日韩一区二区三区色综合| 婷婷久久亚洲中文字幕| 含紧一点h边做边走动免费视频| 亚洲丁香五月激情综合| 激情综合网缴情五月天| 97中文字幕精品一区二区三区| 欧洲熟妇色 欧美| 久久久AV无码精品免费| 东京热加勒比国产精品|