亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多聲學(xué)特征融合的語音自動(dòng)剪輯深度學(xué)習(xí)模型

2023-08-29 01:10:18倪仁倢周立欣侯昌佑

小型微型計(jì)算機(jī)系統(tǒng) 2023年8期

關(guān)鍵詞：特征模型

劉臣,倪仁倢,周立欣,侯昌佑

1(上海理工大學(xué) 管理學(xué)院,上海 200093)

2(上海廣播電視臺(tái),上海 200125)

1 引言

隨著互聯(lián)網(wǎng)的普及,數(shù)字傳媒行業(yè)高速發(fā)展,音視頻媒體的數(shù)量呈指數(shù)型增長,而它們的后期制作離不開剪輯.它是一項(xiàng)藝術(shù)性,風(fēng)格化程度較高的工作,不同類型媒體的剪輯風(fēng)格與要求也不盡相同[1],且相較于調(diào)色或字幕等其它后期工作,剪輯通?；ㄙM(fèi)著更多的人力和時(shí)間.

目前自動(dòng)剪輯模型都是針對(duì)某種特定的剪輯需求而建立,現(xiàn)有的模型主要為機(jī)器學(xué)習(xí)算法中的隱馬爾可夫模型(Hidden Markov Model,HMM).Leake等人[1]聯(lián)合提出了一種基于人臉識(shí)別和語音識(shí)別的劇情類視頻剪輯框架.它采用HMM及維比特算法,通過語音識(shí)別匹配劇本,同時(shí)結(jié)合畫面元素進(jìn)行自動(dòng)剪輯.Roininen等人[2]提出了一個(gè)音樂會(huì)視頻的自動(dòng)剪輯模型,它使用了馬爾科夫鏈、聚類以及高斯混合模型,通過分析音頻信號(hào)的變化來進(jìn)行自動(dòng)剪輯.魯雨佳等人[3]聯(lián)合提出了一種服裝類商品短視頻的自動(dòng)剪輯框架.它根據(jù)不同分鏡所含的信息類別,綜合考慮剪輯和片段節(jié)奏并進(jìn)行分割篩選,使用HMM和維比特算法合成最佳的視頻序列.但上述基于HMM的模型由于馬爾科夫性的限制,無法有效地結(jié)合長時(shí)間序列的關(guān)聯(lián)信息,導(dǎo)致模型的剪輯結(jié)果偏靜態(tài).

語言類的音視頻在廣播和電視中一直占有較高的比重,而它們的持續(xù)時(shí)間又較長,剪輯師需要綜合審閱后再開始剪輯工作[4],所以剪輯此類媒體所花費(fèi)的時(shí)間往往多于其他視頻.通過觀察上海電視臺(tái)具有豐富經(jīng)驗(yàn)的剪輯師們,了解他們的剪輯習(xí)性,發(fā)現(xiàn)剪輯師們十分注重節(jié)奏的掌控[1,5].他們在切分音頻時(shí),會(huì)根據(jù)不同情境在語音部分的兩側(cè)保留合適的非語音部分作為緩沖[1,4].如果保留過少會(huì)使剪輯節(jié)奏過快銜接突兀,相反的保留過多會(huì)導(dǎo)致剪輯節(jié)奏拖沓冗長.有經(jīng)驗(yàn)的剪輯師通常會(huì)綜合考慮前后聯(lián)系,保留0.5s～1.5s的音頻,確保剪輯過后的音頻過渡柔和節(jié)奏適中.同時(shí)不會(huì)對(duì)連續(xù)的語音進(jìn)行切分,以此來提升剪輯后音頻的流暢程度[6].此外還會(huì)將一些人為發(fā)出的噪聲刪除[4],保證聽眾擁有良好的聽感.

由于剪輯工作與前后信息有著密切的關(guān)聯(lián)[3],直接使用傳統(tǒng)語音端點(diǎn)檢測的方法如雙門限法,表現(xiàn)并不理想.因?yàn)樗鼤?huì)機(jī)械地在語音的起訖端點(diǎn)處進(jìn)行切分,導(dǎo)致剪輯過后的媒體銜接生硬,質(zhì)量較低.語音剪輯相較于語音端點(diǎn)檢測難點(diǎn)在于,它需要在精確識(shí)別語音起止端點(diǎn)的基礎(chǔ)上,使語音前后保留合適的余量,同時(shí)不能分割連續(xù)的語音,以保證剪輯的流暢性.然而深度學(xué)習(xí)模型可以分析并學(xué)習(xí)出數(shù)據(jù)的內(nèi)在聯(lián)系,在同一風(fēng)格的剪輯工作中往往具有良好表現(xiàn).近年來卷積神經(jīng)網(wǎng)絡(luò)[7](Convolutional Neural Networks,CNN)被廣泛應(yīng)用于計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域.它擁有局部感受野,權(quán)值共享等特點(diǎn),計(jì)算效率較高[8].并且隨著卷積層數(shù)的深入,可以抽象出高維度特征[9].但若僅使用CNN或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),將無法有效的獲取長時(shí)間序列的關(guān)聯(lián)信息,導(dǎo)致模型偏靜態(tài).而門控循環(huán)單元[10](Gated Recurrent Units,GRU)擁有更新門和重置門,可以對(duì)隱藏層信息進(jìn)行更新,使得它可以有效記憶先前的時(shí)間序列信息,避免了梯度消失和爆炸現(xiàn)象.但單向GRU無法結(jié)合后續(xù)時(shí)間的特征來進(jìn)行預(yù)測,同樣無法做到接近人工剪輯的效果.此外由于RNN無法在單個(gè)圖形處理器(Graphic Processing Unit,GPU)上并行計(jì)算,音頻序列的數(shù)據(jù)量較大時(shí),會(huì)降低模型運(yùn)行速率的優(yōu)勢.

從剪輯工作存在的難點(diǎn)和實(shí)際應(yīng)用角度考慮,本文提出了一種端到端的語音自動(dòng)剪輯模型 CNN-BiGRU.它通過提取音頻中的對(duì)數(shù)梅爾頻譜[11](Filter Banks,Fbank)、短時(shí)能量[12]和短時(shí)過零率[13]3種聲學(xué)特征,并將它們分別輸入3個(gè)不同的CNN.使用LeakyReLU函數(shù)[14]進(jìn)行激活,并將卷積層的輸出融合后[15,16],輸入由正向GRU、后向GRU和全連接神經(jīng)網(wǎng)絡(luò)[17](Fully Connected Neural Networks,FC)組成的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)[18](Bidirectional Gated Recurrent Neural Networks,Bi-GRU).最后使用Softmax[19]對(duì)最終輸出結(jié)果進(jìn)行激活和分類.使用二元交叉熵?fù)p失函數(shù)[20]計(jì)算損失值,采用課程式學(xué)習(xí)訓(xùn)練模型,將參數(shù)優(yōu)化至最佳.

由于模型需要在考慮整體宏觀信息的基礎(chǔ)上結(jié)合局部微觀信息進(jìn)行預(yù)測,常規(guī)的小批量梯度下降(mini batch)存在一定局限性,本文考慮使用基于課程式學(xué)習(xí)的方法來訓(xùn)練模型.Bengio等人[21]于2009年最早提出了課程式學(xué)習(xí)這一概念,它使用先易后難的數(shù)據(jù)形式對(duì)模型進(jìn)行訓(xùn)練[22,23],和兒童的學(xué)習(xí)過程相似.Liu等人[24]指出課程式學(xué)習(xí)能增強(qiáng)模型讀取長時(shí)間序列的能力.考慮到剪輯模型也需具備該特性,所以采用先大后小的數(shù)據(jù)類型進(jìn)行訓(xùn)練,過程類似于樹木生長,由整體到局部.

考慮到實(shí)際工程中的應(yīng)用,本模型在確保準(zhǔn)確率的情況下,盡可能減少參數(shù),降低計(jì)算復(fù)雜度.實(shí)驗(yàn)結(jié)果表明模型在切分語音時(shí),在前后保留了不同程度的余量,使剪輯后的視頻過渡柔和;同時(shí)該模型不會(huì)分割連續(xù)的語音,以確保視頻的連貫性.此外它還能檢測出非語音部分的人為異常噪聲并將其刪除,但不會(huì)對(duì)語音部分出現(xiàn)的環(huán)境噪聲進(jìn)行切分.相較于采用傳統(tǒng)人工剪輯,使用模型可以大幅縮短剪輯時(shí)間,并取得和人工剪輯相近似的結(jié)果.在節(jié)省人力成本的同時(shí),可使某些與時(shí)效性較強(qiáng)的視頻盡早發(fā)布,從而獲得更多的流量和收益.

2 音頻特征提取

本文從音頻中提取了3種聲學(xué)特征作為模型的輸入.它們分別是聲譜特征中的Fbank;韻律學(xué)特征中的短時(shí)能量和短時(shí)過零率(以下簡稱過零率).其中Fbank主要用于檢測語音部分[11],而短時(shí)能量和過零率主要用于檢測人為異常噪聲[25].提取出3種特征后,對(duì)其進(jìn)行預(yù)處理,便于后續(xù)神經(jīng)網(wǎng)絡(luò)的計(jì)算.

2.1 聲譜特征提取

目前語音識(shí)別等領(lǐng)域常用的兩種聲譜特征為Fbank[11]和梅爾頻譜倒譜系數(shù)[26](Mel-Frequency Cepstral Coefficients,MFCC).MFCC是在Fbank的基礎(chǔ)上進(jìn)行了一次離散余弦變換,所以Fbank相比較MFCC保有的更多的信息[27].故本文選擇Fbank用以檢測音頻中的語音部分.

Fbank的提取過程如下:首先對(duì)波形音頻進(jìn)行幀采樣,采樣率設(shè)為22.05kHz[27].之后進(jìn)行預(yù)加重,預(yù)加重系數(shù)設(shè)為0.97[28].再對(duì)音頻進(jìn)行分幀[29],為了縮小數(shù)據(jù)量,將幀長設(shè)為約46ms,幀移約23ms.分幀后進(jìn)行加窗,窗函數(shù)選用漢明窗[30],公式如式(1)所示:

(1)

之后進(jìn)行快速傅里葉變換,將加窗后的音頻信號(hào)從時(shí)域轉(zhuǎn)換為頻域,再將頻率標(biāo)度轉(zhuǎn)化為梅爾尺度[27],轉(zhuǎn)換過程如式(2)所示.在梅爾尺度上使用40個(gè)等面積三角過濾器進(jìn)行濾波[29],得到Fbank特征數(shù)據(jù),結(jié)果如圖1所示.在提取完Fbank特征后分別對(duì)其中每個(gè)維度的數(shù)據(jù)進(jìn)行歸一化處理.

圖1 對(duì)數(shù)梅爾頻譜圖

(2)

2.2 韻律學(xué)特征提取

在語音錄制的過程中,難免會(huì)出現(xiàn)一些如咳嗽,清嗓等人為噪聲.而在發(fā)出此類噪聲時(shí),短時(shí)能量和過零率會(huì)出現(xiàn)大幅波動(dòng)[25],如圖2所示.所以它們可用來檢測異常噪聲,同時(shí)也能輔助識(shí)別語音部分.

圖2 波形音頻、短時(shí)能量與短時(shí)過零率

2.2.1 短時(shí)能量

短時(shí)能量是指一幀音頻中所蘊(yùn)含的能量信息[12],本文選擇每512個(gè)采樣點(diǎn)作為一幀,窗函數(shù)為矩形窗.短時(shí)能量的計(jì)算過程如式(3)所示:

(3)

其中En為短時(shí)能量的值,m為音頻幀,ω(n)為窗函數(shù).因?yàn)槎虝r(shí)能量的數(shù)值巨大,所以先對(duì)其取對(duì)數(shù),再進(jìn)行歸一化.

2.2.2 短時(shí)過零率

短時(shí)過零率指的是一幀音頻中信號(hào)通過零點(diǎn)的次數(shù).清音時(shí)過零率數(shù)值較高,濁音時(shí)較低.通過計(jì)算每一幀時(shí)間內(nèi)信號(hào)通過零點(diǎn)的次數(shù),然后除以每幀所含采樣點(diǎn)的數(shù)目,得出過零率[13],計(jì)算過程如式(4)所示.將每512個(gè)采樣點(diǎn)作為一幀,窗函數(shù)選用矩形窗來提取過零率,并進(jìn)行歸一化.

(4)

其中m為音頻幀,sgn()為符號(hào)函數(shù).

3 語音自動(dòng)剪輯模型

自動(dòng)剪輯模型需要遵從一些基本的剪輯技法[3],以提升它的藝術(shù)性.例如O′Steen[6]提到綜合考慮整體與局部的關(guān)聯(lián)性來把控剪輯的節(jié)奏;去除異常噪聲提高聽眾舒適度;不對(duì)連續(xù)的音頻進(jìn)行切分以提升流暢度等.為了滿足上述需求,本文提出了一個(gè)融合3種聲學(xué)特征,結(jié)合3種不同神經(jīng)網(wǎng)絡(luò)的語音剪輯模型CNN-BiGRU.

3.1 模型總體結(jié)構(gòu)

CNN-BiGRU模型的總體結(jié)構(gòu)如下:從波形音頻中提取出Fbank、短時(shí)能量和過零率3種聲學(xué)信號(hào)特征,進(jìn)行預(yù)處理后,分別輸入3個(gè)不同的CNN.將Fbank特征輸入由兩層二維CNN組成的神經(jīng)網(wǎng)絡(luò)中;短時(shí)能量和過零率則分別輸入兩個(gè)一維CNN.使用LeakyReLU函數(shù)進(jìn)行激活,并將卷積層的輸出融合后,輸入Bi-GRU中.Bi-GRU由正向GRU層、后向GRU層[31]和FC層[17]組成.采用Softmax對(duì)最終結(jié)果進(jìn)行激活和分類,送入交叉熵?fù)p失函數(shù)計(jì)算損失值,并使用基于課程式學(xué)習(xí)的方法來優(yōu)化模型參數(shù).模型總體結(jié)構(gòu)如圖3所示.

圖3 CNN-BiGRU模型結(jié)構(gòu)圖

3.2 聲學(xué)特征融合

由于Fbank、短時(shí)能量和過零率它們所包含的信息不同,若簡單地將其輸入到同一個(gè)神經(jīng)網(wǎng)絡(luò)中會(huì)降低模型的性能.故通過使用3個(gè)不同的CNN,分別對(duì)3種聲學(xué)特征進(jìn)行卷積操作,并為不同的特征分配合適的權(quán)重.此外考慮到3種聲學(xué)特征的數(shù)值差異較大,卷積層中所使用的過濾器均添加有偏置向量.

卷積神經(jīng)網(wǎng)絡(luò)使用卷積核不斷滑動(dòng)和對(duì)應(yīng)窗口大小的數(shù)據(jù)進(jìn)行哈達(dá)瑪積運(yùn)算,再與偏置向量求和,從而得出一個(gè)新的值[7],計(jì)算過程如式(5)所示.

(5)

首先對(duì)于Fbank特征,使用兩層二維CNN進(jìn)行卷積操作.第1層使用8個(gè)1*40的過濾器進(jìn)行卷積操作.卷積的步長(stride)設(shè)置為1.第1層CNN用來抽象出每個(gè)時(shí)間節(jié)點(diǎn)處的特征.第2層使用3個(gè)5*8的過濾器來進(jìn)行卷積操作,卷積的步長仍設(shè)置為1,填充(padding)設(shè)為2.第2層CNN可以結(jié)合部分周邊數(shù)據(jù)的特征信息.此外考慮到音頻特征是高度非線性的,采用LeakyReLU函數(shù)[14]來對(duì)卷積層的輸出進(jìn)行激活.該激活函數(shù)在負(fù)區(qū)間內(nèi)有一個(gè)待學(xué)習(xí)參數(shù)α,有效的避免了梯度為0的現(xiàn)象.LeakyReLU函數(shù)如式(6)所示:

(6)

而對(duì)于短時(shí)能量特征,使用一層一維CNN對(duì)其進(jìn)行卷積操作,過濾器大小設(shè)為5,步長設(shè)置為1,填充設(shè)為2.短過零率所使用的CNN和短時(shí)能量參數(shù)相同.最后將卷積層的輸出融合后輸入Bi-GRU中,卷積層的結(jié)構(gòu)如圖4所示.

圖4 卷積層結(jié)構(gòu)圖

經(jīng)過卷積層處理后的數(shù)據(jù)一定程度上聚合了周邊節(jié)點(diǎn)的信息,抽象出了高維度非線性特征[9].同時(shí)對(duì)原始數(shù)據(jù)進(jìn)行降維,減小了Bi-GRU的運(yùn)算量,而且給3種聲學(xué)特征分配了不同比例的權(quán)重,使得Bi-GRU可以更有效的權(quán)衡并優(yōu)化參數(shù).

3.3 時(shí)間信息結(jié)合

由于語音剪輯需要在綜合考慮宏觀信息的基礎(chǔ)上結(jié)合微觀信息來進(jìn)行,剪輯模型必須能夠讀取并記憶長時(shí)間序列的前后關(guān)聯(lián)性特征.此外考慮到實(shí)際應(yīng)用中的運(yùn)行效率,模型的計(jì)算復(fù)雜度又不能過高.綜合考慮后決定采用Bi-GRU,來讀取時(shí)間序列的關(guān)聯(lián)信息.Cho[10]等人在2014年首先提出了門控循環(huán)單元(Gated Recurrent Units,GRU),它不同于普通的RNN,另設(shè)有重置門和更新門對(duì)隱藏層的狀態(tài)進(jìn)行更新,使它能有效捕捉長時(shí)間序列的依賴關(guān)系,一定程度避免了經(jīng)典RNN存在的梯度消失等問題.它和長短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)類似,不同的是它將LSTM的輸入門和遺忘門合并成更新門,使得它的計(jì)算復(fù)雜度小于LSTM[31,32].GRU的更新門用于確定多少先前的隱藏信息保留到當(dāng)前節(jié)點(diǎn),重置門用于控制多少信息在當(dāng)前節(jié)點(diǎn)被遺忘.

本文使用一層正向GRU、一層后向GRU和一層FC來組成Bi-GRU,它使模型在每個(gè)時(shí)間節(jié)點(diǎn)的輸出都可以充分讀取正向和后向的隱藏層狀態(tài)信息.為了防止模型過學(xué)習(xí),同時(shí)減少冗余參數(shù),將隱藏層單元的隨機(jī)失活率dropout[33]設(shè)為0.2.FC的輸入為正向和后向GRU的隱藏層信息,輸出為1維序列,使用Softmax對(duì)的輸出結(jié)果進(jìn)行激活和分類.Bi-GRU模型結(jié)構(gòu)如圖5所示,其中左側(cè)為單個(gè)GRU單元.

圖5 Bi-GRU結(jié)構(gòu)圖

(7)

由于剪輯是一個(gè)二分類的任務(wù),采用二元交叉熵?fù)p失函數(shù)[20]來計(jì)算模型最終的損失值,計(jì)算過程如式(8)所示:

(8)

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)準(zhǔn)備與標(biāo)簽處理

為了保證訓(xùn)練集數(shù)據(jù)的平衡性,人工錄制了約30分鐘的音頻,其中語音占比約60%,語言為中文.錄制時(shí)在語句之間停頓3秒,段落間停頓30秒,同時(shí)發(fā)出一些人為噪聲.之后向其添加城市街道噪聲,以此模擬戶外錄制環(huán)境.相較于穩(wěn)定的白噪聲,城市噪聲屬于隨機(jī)噪聲,更具干擾性.經(jīng)過加噪處理后的語音信噪比在0db左右,以此來增加模型訓(xùn)練難度,強(qiáng)化模型的魯棒性.

驗(yàn)證集和測試集使用CHiME-5數(shù)據(jù)集,它是一個(gè)嘈雜環(huán)境下的語音識(shí)別挑戰(zhàn)數(shù)據(jù)集[34].該數(shù)據(jù)集包含真實(shí)、仿真和干凈的錄音,其中真實(shí)錄音由6個(gè)四通道麥克風(fēng)陣列所錄制,內(nèi)容為家庭晚宴,語言為英語,每段錄音的時(shí)長在兩小時(shí)左右.選取距離說話者位置最遠(yuǎn)的麥克風(fēng)所錄制的音頻,從不同音頻中分別截取各60分鐘作為驗(yàn)證集和測試集,其中語音部分占比均在75%左右.數(shù)據(jù)集中音頻的語音響度較低,同時(shí)環(huán)境中存在著大量隨機(jī)噪聲、寬帶噪聲以及遠(yuǎn)場混響等干擾因素,約有15%的語音達(dá)到平均意見評(píng)分[35]等級(jí)2的標(biāo)準(zhǔn),需要集中相當(dāng)?shù)淖⒁饬Σ拍苈犌?使用此數(shù)據(jù)來查看模型在極端環(huán)境下的表現(xiàn).

標(biāo)簽以人工標(biāo)注的方式進(jìn)行,邀請上海廣播電視臺(tái)的剪輯師對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注.音頻以波形圖的方式顯示,人工聽取后再選取需要保留的音頻,保留部分為正例樣本,反之亦然,標(biāo)注過程如圖6所示.以下為剪輯師的標(biāo)注習(xí)性:在語句間停頓超過2s時(shí),剪輯師會(huì)對(duì)其進(jìn)行切分,同時(shí)在句子兩端分別保留0.5～1s作為緩沖.當(dāng)語音段落和段落之間具有較長停頓時(shí),會(huì)在段落的起始和結(jié)尾處分別保留約1～2s空余.而當(dāng)語句連續(xù)時(shí),例如語句間的停頓小于2s,剪輯師不會(huì)對(duì)其進(jìn)行切分.此外它會(huì)刪去人為發(fā)出的噪聲,但不會(huì)刪除語音部分處出現(xiàn)的環(huán)境噪聲.經(jīng)過人工剪輯后的音頻過渡流暢,無明顯停頓,同時(shí)聽者也能區(qū)分出不同的段落.原始標(biāo)簽以二進(jìn)制時(shí)間序列的形式保存,標(biāo)簽數(shù)量與音頻采樣點(diǎn)數(shù)量相同,之后對(duì)其進(jìn)行下采樣,使之和特征序列長度相同.

圖6 標(biāo)簽標(biāo)注

4.2 基于課程式學(xué)習(xí)的訓(xùn)練

剪輯工作不同于語音端點(diǎn)檢測,需要模型在考慮整體宏觀信息的基礎(chǔ)上結(jié)合局部微觀信息進(jìn)行預(yù)測.所以常規(guī)的小批量訓(xùn)練存在一定局限性,為了能更好地訓(xùn)練模型,本文采用基于課程式學(xué)習(xí)[21-23]的方法進(jìn)行訓(xùn)練,來強(qiáng)化模型讀取長時(shí)間序列的能力[24].為了讓本模型能更好的結(jié)合音頻特征之間的前后聯(lián)系進(jìn)行剪輯,使用先整體后局部的數(shù)據(jù)形式進(jìn)行訓(xùn)練,過程類似于樹木生長,由樹干到樹支.同時(shí)訓(xùn)練的過程先快后慢,整體部分快而局部則慢.

首先,將訓(xùn)練集中的音頻每95秒劃分為一個(gè)批次,優(yōu)化器使用Adam[36],學(xué)習(xí)率設(shè)置為0.01,進(jìn)行第1輪訓(xùn)練.訓(xùn)練的目的是讓模型能學(xué)習(xí)到整體的關(guān)聯(lián)性特征,即段落與段落之間的聯(lián)系.在經(jīng)過一定數(shù)量地迭代,當(dāng)模型尚未完全收斂時(shí),停止訓(xùn)練.倘若使用大批次數(shù)據(jù)訓(xùn)練模型至完全收斂,會(huì)導(dǎo)致模型過擬合,在驗(yàn)證集上性能有所下降.第2輪訓(xùn)練時(shí),將每21秒音頻劃分為一個(gè)批次,優(yōu)化器同樣使用Adam,但初始學(xué)習(xí)率下降為0.001.此外設(shè)置指數(shù)學(xué)習(xí)率衰減[37],即每進(jìn)行一次迭代后將當(dāng)前學(xué)習(xí)率乘以衰減系數(shù)γ,這里將設(shè)γ為0.95.第2輪訓(xùn)練的目的是能讓模型將注意力集中在細(xì)節(jié)處,即句子與句子之間的聯(lián)系.由于小批次數(shù)據(jù)變化較大,較小的學(xué)習(xí)率可使模型參數(shù)相對(duì)保持穩(wěn)定.

相較于傳統(tǒng)固定批次的mini batch,課程式學(xué)習(xí)通過變換批次的大小,提高數(shù)據(jù)的差異性,使模型能有效的權(quán)衡宏觀與微觀的信息,從而將模型優(yōu)化到最佳狀態(tài).訓(xùn)練結(jié)束后選取驗(yàn)證集上表現(xiàn)最優(yōu)的模型,在測試集上進(jìn)行測試.考慮實(shí)際工程中的應(yīng)用,不對(duì)驗(yàn)證集和測試集的數(shù)據(jù)進(jìn)行切分,以此來保證測試數(shù)據(jù)的完整性.

4.3 評(píng)價(jià)指標(biāo)

使用Softmax對(duì)模型的輸出結(jié)果進(jìn)行分類,判斷模型的預(yù)測與標(biāo)簽是否一致.使用準(zhǔn)確率(Accuracy)作為模型的評(píng)價(jià)指標(biāo)之一,公式如式(9)所示:

(9)

其中,TP代表預(yù)測正確的正例樣本數(shù),TN為預(yù)測正確的負(fù)例樣本數(shù),R為原始音頻的總樣本數(shù).但在剪輯任務(wù)中當(dāng)音頻中的負(fù)例樣本遠(yuǎn)多于正例樣本時(shí),準(zhǔn)確率并不能顯著地體現(xiàn)模型之間的性能差異.

所以除了準(zhǔn)確率,剪輯質(zhì)量的判斷還將采用誤剪率作為衡量標(biāo)準(zhǔn),誤剪率(Miss)的含義是剪輯非所需內(nèi)容和所需內(nèi)容之間的比值.誤剪率在樣本分布不平衡時(shí),仍然能精確地衡量模型的性能,誤剪率的計(jì)算過程如式(10)所示:

(10)

其中FP為預(yù)測錯(cuò)誤的正例樣本數(shù),FN為預(yù)測錯(cuò)誤的負(fù)例樣本數(shù),R+為標(biāo)簽中正例樣本的總數(shù).

準(zhǔn)確率越高,說明模型預(yù)測越準(zhǔn)確;誤剪率越低,說明模型與人工剪輯越相似.

4.4 消融實(shí)驗(yàn)

本次實(shí)驗(yàn)的環(huán)境配置如下:操作環(huán)境Windows 10 pro,CPU為AMD Ryzen 2700 @3.2GHz,GPU采用Nvidia Geforce GTX1080 1708MHz,內(nèi)存使用雙通道16g ddr4 2666MHz,開發(fā)環(huán)境是Pytorch 1.9.0+cuda11.2,開發(fā)工具為微軟Visual Studio Code.

首先對(duì)比不同聲學(xué)特征在CNN-BiGRU上的表現(xiàn),實(shí)驗(yàn)結(jié)果如表1所示.為了驗(yàn)證多特征融合此方法的有效性,實(shí)驗(yàn)中所使用的對(duì)比模型其CNN數(shù)量與輸入特征數(shù)量保持一致,且均采用課程式學(xué)習(xí)在驗(yàn)證集上訓(xùn)練至最佳.

表1 聲學(xué)特征對(duì)比

實(shí)驗(yàn)結(jié)果表明,使用頻譜特征與韻律學(xué)特征融合的方式能有效提升模型性能,使用Fbank+短時(shí)能量+過零率時(shí)模型性能達(dá)到最優(yōu).MFCC結(jié)合短時(shí)能量+過零率比MFCC提升了約4%.Fbank+短時(shí)能量也使性能有所提升.但Fbank+過零率則使性能略微下降,原因在于過零率主要用于區(qū)分清音和濁音,當(dāng)環(huán)境中存在大量隨機(jī)噪聲時(shí)會(huì)產(chǎn)生一定的虛假的過零率,反而會(huì)干擾模型的判斷,所以過零率通常與短時(shí)能量結(jié)合使用.

在單特征中Fbank比MFCC性能高出約7%,這說明在深度學(xué)習(xí)模型中Fbank的性能優(yōu)于MFCC.短時(shí)能量+過零率效果最差,說明在低信噪比情況下韻律學(xué)特征的抗干擾能力較弱.此外使用四種特征時(shí),模型的性能不再有提升,表明特征數(shù)量與模型性能并非完全的正相關(guān).

通過對(duì)比不同模型間的準(zhǔn)確率和誤剪率來判斷其性能,實(shí)驗(yàn)結(jié)果如表2所示,其中對(duì)比模型均選擇驗(yàn)證集上表現(xiàn)最優(yōu)時(shí)的參數(shù)設(shè)置.實(shí)驗(yàn)結(jié)果表明CNN-BiGRU在準(zhǔn)確率和誤剪率上均明顯優(yōu)于其他模型.該模型在測試集上的準(zhǔn)確率為98.36%,誤剪率為2.09%.Bi-GRU和Bi-LSTM模型的性能相似,準(zhǔn)確率在97.1%左右.而CNN-GRU模型由于僅使用單向GRU,無法結(jié)合后向信息進(jìn)行預(yù)測,所以模型的準(zhǔn)確率稍低為93.05%.CNN和DNN-HMM因?yàn)闊o法有效結(jié)合長時(shí)間序列的信息,在處理高度非線性的音頻特征時(shí)效果較差,準(zhǔn)確率均在78.5%左右.

表2 模型性能對(duì)比

實(shí)驗(yàn)還對(duì)比了不同訓(xùn)練方式對(duì)模型性能造成的影響,結(jié)果如表2所示,其中mini batch固定使用50秒的音頻作為每個(gè)批次的數(shù)據(jù),優(yōu)化器使用Adam,學(xué)習(xí)率固定為0.01.實(shí)驗(yàn)結(jié)果表明相比較傳統(tǒng)的mini batch,課程式學(xué)習(xí)使CNN-BiGRU、CNN-GRU、Bi-GRU和Bi-LSTM模型的準(zhǔn)確率均提升了約3%,說明課程式學(xué)習(xí)可以在一定程度上提升RNN的性能.然而DNN-HMM則由于馬爾科夫性的限制,變換數(shù)據(jù)長度的訓(xùn)練方式基本沒有對(duì)模型性能造成影響.而CNN模型因?yàn)槠浣Y(jié)構(gòu)簡單,參數(shù)較少,數(shù)據(jù)變化較大時(shí)會(huì)略微影響性能.

實(shí)驗(yàn)分別記錄了模型計(jì)算60分鐘音頻數(shù)據(jù)所需的運(yùn)行時(shí)間和內(nèi)存占用,來衡量模型的計(jì)算效率,結(jié)果如表3所示.其中CNN運(yùn)行時(shí)間最少,但其預(yù)測效果過差,不具備應(yīng)用價(jià)值.Bi-LSTM和Bi-GRU的運(yùn)行時(shí)間和運(yùn)行內(nèi)存都較高,它們對(duì)硬件的需求也較高.而本文提出的CNN-BiGRU其運(yùn)行內(nèi)存和時(shí)間均為Bi-GRU的86%左右,說明使用卷積層可以在一定程度上減小RNN的計(jì)算量,同時(shí)也降低了模型的參數(shù)量.CNN-BiGRU使用更少的運(yùn)行內(nèi)存獲得了比CNN-GRU更優(yōu)異的性能,但它的運(yùn)行時(shí)間多于CNN-GRU.CNN-BiGRU使用GPU進(jìn)行剪輯運(yùn)算僅需6.25秒,而標(biāo)注數(shù)據(jù)集的剪輯師使用索貝非線性編輯系統(tǒng)進(jìn)行剪輯平均花費(fèi)了約35分鐘.顯然相較人工剪輯,模型可以大幅度節(jié)省時(shí)間成本,此外它的性能不會(huì)隨著數(shù)據(jù)量的增大而下降,但人工效率卻會(huì)因疲勞等因素逐漸下滑.

表3 模型計(jì)算效率對(duì)比

按照CNN-BiGRU模型的預(yù)測輸出和人工標(biāo)注的標(biāo)簽,對(duì)測試集的音頻進(jìn)行實(shí)例化剪輯,結(jié)果如圖7所示.經(jīng)研究發(fā)現(xiàn),人工切分語音時(shí)在兩側(cè)保留的時(shí)間存在一定的波動(dòng),并且隨著剪輯工作的推移,浮動(dòng)越大.CNN-BiGRU在切分句子時(shí)會(huì)在語句的前后分別保留約0.8s的余量,切分段落時(shí)則會(huì)保留約1.5s的余量.另外在一處噪聲嚴(yán)重干擾的語音部分,剪輯師誤將其刪除,但模型正確地進(jìn)行了保留.此外模型和剪輯師一樣,能準(zhǔn)確地刪除人為發(fā)出的異常噪聲,同時(shí)不會(huì)對(duì)語音部分出現(xiàn)的環(huán)境噪聲進(jìn)行切分,而Bi-GRU和Bi-LSTM均無法做到這一點(diǎn).表3中的其余對(duì)比模型,剪輯后音頻的聽感都明顯遜色于CNN-BiGRU.最后請20名廣播行業(yè)內(nèi)的剪輯師對(duì)模型和人工剪輯的結(jié)果進(jìn)行區(qū)分,13人表示無法判斷,3人判斷錯(cuò)誤,僅有4人判別正確,表明模型的剪輯性能十分接近人工水平.

圖7 CNN-BiGRU與人工剪輯結(jié)果對(duì)比

5 結(jié) 語

本文提出了一種多聲學(xué)特征融合的語音自動(dòng)剪輯模型CNN-BiGRU.通過提取Fbank、短時(shí)能量和短時(shí)過零率3種聲學(xué)特征,使用CNN對(duì)音頻特征進(jìn)行融合,之后通過Bi-GRU結(jié)合雙向時(shí)間信息進(jìn)行預(yù)測,并采用課程式學(xué)習(xí)這一方法,將模型訓(xùn)練至最優(yōu).實(shí)驗(yàn)結(jié)果表明該模型在CHiME-5測試集上的準(zhǔn)確率高達(dá)98.36%,剪輯過后的音頻過渡流暢節(jié)奏適中,與人工剪輯的結(jié)果十分接近.該模型參數(shù)較少,運(yùn)行效率高,處理一個(gè)小時(shí)的視頻僅需幾秒,相比較人工剪輯可以大幅減少耗時(shí).

本模型擁有較強(qiáng)的魯棒性,即使在低信噪比環(huán)境下,依然能保持良好的性能,能夠勝任如戶外采訪,賽事解說等剪輯工作.在廣播電視臺(tái)等需要大量剪輯語音類媒體的場所,有著較高的應(yīng)用價(jià)值.另外模型也可應(yīng)用于其他領(lǐng)域,例如網(wǎng)課、會(huì)議等音視頻中.通過使用不同類型的標(biāo)簽數(shù)據(jù),該模型也可用于語音端點(diǎn)檢測領(lǐng)域.目前隨著5G時(shí)代的來臨,網(wǎng)絡(luò)視頻和音頻的數(shù)量呈指數(shù)型上升,屆時(shí)該模型將擁有廣泛的應(yīng)用前景.

由于該模型根據(jù)語音進(jìn)行自動(dòng)剪輯,如果輸入視頻音畫不同步,剪輯質(zhì)量也會(huì)受到影響.未來可以考慮在此模型基礎(chǔ)上,自動(dòng)添加過渡轉(zhuǎn)場提高藝術(shù)性,也可搭載語音識(shí)別模塊生成文本,直接嵌入視頻字幕中,進(jìn)一步降低人工成本.