亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ResNet的音頻場(chǎng)景聲替換造假的檢測(cè)算法

        2022-07-05 08:28:58董明宇嚴(yán)迪群
        計(jì)算機(jī)應(yīng)用 2022年6期
        關(guān)鍵詞:特征值殘差音頻

        董明宇,嚴(yán)迪群

        基于ResNet的音頻場(chǎng)景聲替換造假的檢測(cè)算法

        董明宇1,嚴(yán)迪群1,2*

        (1.寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211; 2.東南數(shù)字經(jīng)濟(jì)發(fā)展研究院,浙江 衢州 324000)(*通信作者電子郵箱yandiqun@nbu.edu.cn)

        針對(duì)造假成本低、不易察覺的音頻場(chǎng)景聲替換的造假樣本檢測(cè)問題,提出了基于ResNet的造假樣本檢測(cè)算法。該算法首先提取音頻的常數(shù)Q頻譜系數(shù)(CQCC)特征,之后由殘差網(wǎng)絡(luò)(ResNet)結(jié)構(gòu)學(xué)習(xí)輸入的特征,結(jié)合網(wǎng)絡(luò)的多層的殘差塊以及特征歸一化,最后輸出分類結(jié)果。在TIMIT和Voicebank數(shù)據(jù)庫(kù)上,所提算法的檢測(cè)準(zhǔn)確率最高可達(dá)100%,錯(cuò)誤接收率最低僅為1.37%。在現(xiàn)實(shí)場(chǎng)景下檢測(cè)由多種不同錄音設(shè)備錄制的帶有設(shè)備本底噪聲以及原始場(chǎng)景聲音頻,該算法的檢測(cè)準(zhǔn)確率最高可達(dá)99.27%。實(shí)驗(yàn)結(jié)果表明,在合適的模型下利用音頻的CQCC特征來(lái)檢測(cè)音頻的場(chǎng)景替換痕跡是有效的。

        音頻造假;音頻場(chǎng)景聲替換;殘差網(wǎng)絡(luò);常數(shù)Q頻譜系數(shù)

        0 引言

        隨著人們生活水平的提高,信息已經(jīng)成為人們?nèi)粘I钪械慕佑|媒體,用來(lái)與外界進(jìn)行溝通,了解外界的發(fā)展情況。然而信息的不對(duì)稱性可能會(huì)導(dǎo)致信息造假的現(xiàn)象,而這種造假技術(shù)所產(chǎn)生的信息很有可能是人們利用自身?xiàng)l件無(wú)法辨別的,其中造假新聞的出現(xiàn)會(huì)嚴(yán)重誤導(dǎo)沒有相關(guān)辨別能力或者技術(shù)的人[1]。例如現(xiàn)在電影中的計(jì)算機(jī)動(dòng)畫(Computer Graphics, CG)技術(shù),它將合成技術(shù)應(yīng)用到特效電影中,幾乎到了人眼無(wú)法分辨的程度。這樣的技術(shù)雖然能帶來(lái)視覺上的享受,但也會(huì)帶來(lái)一定的危害,如果不法分子利用這種技術(shù)對(duì)人們?nèi)粘=佑|的信息進(jìn)行修改將會(huì)造成非常惡劣的影響;而且利用現(xiàn)在的技術(shù)進(jìn)行造假并不是非常困難,造假的產(chǎn)物也真假難辨。

        隨著深度學(xué)習(xí)技術(shù)的日益進(jìn)步與普及,普通用戶利用這項(xiàng)技術(shù)對(duì)多媒體媒介(圖像、視頻、音頻)進(jìn)行造假的能力有了明顯的提升。在音頻領(lǐng)域,一些工具能讓造假音頻從人類的聽覺角度上達(dá)到難以辨認(rèn)的地步。造假技術(shù)具有非常多樣的變化,其中音頻的降噪工具的應(yīng)用使得場(chǎng)景聲替換的音頻能夠更加真實(shí)。如造假者把一段只含有說(shuō)話人說(shuō)話的音頻與一段只含有場(chǎng)景聲的音頻合成在一起,將會(huì)生成一種極具欺騙性的音頻,且從聽覺上很難區(qū)分真假。通常可以利用這種方式隱藏說(shuō)話人的真實(shí)位置信息,但也有不法分子將說(shuō)話人的某段音頻與某些違法場(chǎng)所的錄制音頻進(jìn)行合成,制造說(shuō)話人有違法行為的假象,并對(duì)說(shuō)話人進(jìn)行敲詐勒索。從法證的角度上講,音頻證據(jù)需要有完整性和真實(shí)性的保障,因此辨別音頻是否有經(jīng)過(guò)場(chǎng)景聲替換的痕跡是很有必要的。

        在音頻領(lǐng)域,已經(jīng)有研究對(duì)音頻的變調(diào)不變速造假樣本[2]、音頻重捕獲樣本[3]等進(jìn)行檢測(cè),但據(jù)作者了解,目前對(duì)音頻的場(chǎng)景聲替換的研究還較少。

        大部分音頻檢測(cè)算法的第一步往往是提取音頻的某些特征,如利用梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)特征來(lái)進(jìn)行說(shuō)話人驗(yàn)證[4]。常數(shù)Q頻譜系數(shù)(Constant Q Cepstral Coefficient, CQCC)作為音頻的一類特征值,其特點(diǎn)是時(shí)間分辨率可變,優(yōu)點(diǎn)是能夠很好地描述音頻波形走勢(shì)上的信息,在計(jì)算常數(shù)Q變換(Constant-Q Transform, CQT)時(shí)能夠?qū)r(shí)域信息轉(zhuǎn)換到頻域,有更小的帶寬,使得低頻部分信息能夠更詳細(xì)地被突出?;贑QT的倒譜分析已經(jīng)被Lidy等[5]用于音頻場(chǎng)景聲的識(shí)別,并取得了一定的成功。發(fā)展到現(xiàn)在,如今的算法對(duì)CQT的頻率尺度進(jìn)行了線性化,從而保持了離散余弦變換(Discrete Cosine Transform, DCT)基的正交性。

        在圖像領(lǐng)域,殘差網(wǎng)絡(luò)(Residual Network, ResNet)在分類上的表現(xiàn)很出色[6-7];在音頻領(lǐng)域,也有研究在頻域上使用ResNet對(duì)載體進(jìn)行隱寫分析[8],針對(duì)聲音場(chǎng)景分類的任務(wù)在使用ResNet時(shí)也取得了不錯(cuò)的效果[9]。在ASVspoof 2019的比賽上,ResNet的網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢(shì)也得到了驗(yàn)證,取得了很好的比賽成績(jī)。因此本文也考慮使用一個(gè)二分類的ResNet對(duì)從音頻中提取到的CQCC特征值進(jìn)行分析,以判斷音頻是否進(jìn)行過(guò)場(chǎng)景替換操作。本文的主要工作如下:利用深度學(xué)習(xí)方法對(duì)場(chǎng)景聲替換造假音頻進(jìn)行檢測(cè),并結(jié)合多種深度學(xué)習(xí)框架和機(jī)器學(xué)習(xí)模型與音頻的特征探究了能最大區(qū)分場(chǎng)景聲替換音頻的方法。

        1 場(chǎng)景替換的造假音頻

        對(duì)于音頻場(chǎng)景聲替換的應(yīng)用背景首先需要確定的是正負(fù)樣本的定義以及數(shù)據(jù)庫(kù)。本文定義正樣本即原始樣本未經(jīng)過(guò)任何操作的且由錄音設(shè)備進(jìn)行錄制的樣本,負(fù)樣本為將錄制好的場(chǎng)景聲音頻疊加到原始音頻后得到的樣本。實(shí)驗(yàn)數(shù)據(jù)庫(kù)來(lái)自于開放且知名度非常高的TIMIT[10]以及Voicebank[11]數(shù)據(jù)庫(kù)。原始的純凈樣本是未經(jīng)過(guò)處理的原始音頻,原始音頻并不含有任何帶有場(chǎng)景的聲音。其中TIMIT是由德州儀器、麻省理工學(xué)院和SRI International合作構(gòu)建的聲學(xué)-音素連續(xù)語(yǔ)音語(yǔ)料庫(kù)。TIMIT數(shù)據(jù)庫(kù)的語(yǔ)音采樣頻率為16 kHz,位深度為16 bit。該數(shù)據(jù)庫(kù)包含來(lái)自美國(guó)不同地區(qū)的630個(gè)人的聲音,其中70%的說(shuō)話人是男性,大多數(shù)說(shuō)話者是成年白人。參與者每人說(shuō)出10個(gè)不同句子,最后總共獲得6 300個(gè)樣本,所有的句子都在音素級(jí)別上進(jìn)行了人工標(biāo)注。在Voicebank數(shù)據(jù)庫(kù)中選擇了30個(gè)說(shuō)話人,每個(gè)音頻都是16 kHz的采樣頻率。

        實(shí)驗(yàn)選用的場(chǎng)景聲的音頻也是同樣來(lái)自于知名的開放數(shù)據(jù)庫(kù)Demand[12]。該數(shù)據(jù)庫(kù)包含多種不同場(chǎng)景下錄制的場(chǎng)景聲,每一段是長(zhǎng)達(dá)5 min的音頻,有咖啡廳、車站、廚房等不同的場(chǎng)景,所有的音頻都為單通道且采樣頻率為16 kHz。

        由上述定義,正樣本為原始未修改過(guò)的音頻,而負(fù)樣本則是將Demand數(shù)據(jù)庫(kù)進(jìn)行裁剪疊加到原始音頻上得到的一段帶有場(chǎng)景聲的語(yǔ)音音頻。從主觀角度來(lái)評(píng)價(jià)制作的負(fù)樣本,負(fù)樣本完全可以以假亂真、混淆視聽。

        對(duì)正樣本與負(fù)樣本進(jìn)行時(shí)域及頻域上的分析。首先獲取正負(fù)樣本的語(yǔ)譜圖,并將其數(shù)據(jù)取對(duì)數(shù)來(lái)放大它們的時(shí)域以及頻域分布,如圖1所示:圖(a)、(c)為原始音頻,圖(b)、(d)為場(chǎng)景替換音頻;為了放大真假樣本音頻的區(qū)別部分,圖(a)、(b)為取了對(duì)數(shù)處理的語(yǔ)譜圖,圖(c)、(d)是正常語(yǔ)譜圖。

        在圖1(a)中可以明顯看到,高亮的部分基本集中在中低頻說(shuō)話人講話的部分。而經(jīng)過(guò)場(chǎng)景聲音頻的疊加后,會(huì)將原先高亮的部分分布模糊化,在低頻部分還多了一些新的信息。從圖1(d)可以看到,被掩蓋之后依舊會(huì)表現(xiàn)出跟原始分布略有差異的表現(xiàn)形式,只是有些地方會(huì)被“修改”得表現(xiàn)不出原始音頻的特性,大部分疊加到原始音頻上的部分集中在低頻部分,某些中高頻部分也會(huì)發(fā)生一些突變,只是數(shù)量比較少。因此,從語(yǔ)譜圖上分析來(lái)看,可以使用一些能夠表現(xiàn)人類說(shuō)話相關(guān)的特征值來(lái)描述音頻,例如MFCC、CQCC等,這些音頻的特征可以將低頻中的信息放大,進(jìn)而將兩者區(qū)別開來(lái)。

        圖1 正負(fù)樣本的語(yǔ)譜圖

        2 區(qū)分場(chǎng)景聲替換音頻的算法

        2.1 提取聲學(xué)特征

        在ASVspoof 2015數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果表明,CQCC在音頻取證領(lǐng)域具有實(shí)用性,它的性能比之前的最佳結(jié)果高出72%。在此之后,CQCC在說(shuō)話人驗(yàn)證等方面也表現(xiàn)出了很強(qiáng)的競(jìng)爭(zhēng)力[13],它作為音頻的一類特征值在很多的場(chǎng)景下都發(fā)揮了作用。

        得到CQT之后的處理相對(duì)簡(jiǎn)單,主要是利用一些樸素的數(shù)據(jù)處理方式將音頻的特征凸顯出來(lái)。最后經(jīng)過(guò)DCT得到CQCC最終表達(dá)式為:

        提取CQCC特征值的流程如圖2所示。

        圖2 CQCC特征提取流程

        Fig.2 Flowchart of CQCC feature extraction

        將音頻進(jìn)行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)之后,如圖3所示:圖(a)展示的是原始音頻的頻率分布,音頻的信息基本上分布在中低頻的部分;經(jīng)過(guò)場(chǎng)景替換之后,在中低頻有明顯的差異,如圖(b)。根據(jù)CQCC特征的設(shè)計(jì),在低頻段會(huì)使用帶寬窄的濾波器進(jìn)行計(jì)算,所以經(jīng)過(guò)CQT之后中低音頻信息可以將這部分的信息差異放大,從而將正常樣本與場(chǎng)景替換的造假樣本(負(fù)樣本)區(qū)分開來(lái)。

        圖3 正負(fù)樣本頻率分布

        2.2 音頻區(qū)分算法

        本文采用的網(wǎng)絡(luò)模型是在ASVspoof 2019上性能表現(xiàn)優(yōu)良的殘差網(wǎng)絡(luò)模型[14],結(jié)構(gòu)如圖4所示。該網(wǎng)絡(luò)結(jié)構(gòu)中采用了多個(gè)殘差塊(圖4中虛線框所示),每個(gè)殘差塊都由兩個(gè)卷積以及卷積對(duì)應(yīng)的歸一化和激活函數(shù)構(gòu)成,最后使用交叉熵作為損失函數(shù)。雖然在視覺層面上網(wǎng)絡(luò)的層數(shù)非常深,但是歸功于跳躍連接的使用,不會(huì)讓梯度隨著網(wǎng)絡(luò)深度的遞增而消失[15]。同時(shí)根據(jù)原始?xì)埐罹W(wǎng)絡(luò)的設(shè)計(jì)理念,特征圖隨著網(wǎng)絡(luò)深度的增加,會(huì)放大所需的“信息”部分。由于送入到網(wǎng)絡(luò)結(jié)構(gòu)中的是CQCC特征值,是類似于圖片的一組單通道的數(shù)值矩陣,所以在應(yīng)用殘差網(wǎng)絡(luò)時(shí)可以讓決策邊界快速收斂,即使收斂到極限時(shí)也不至于退化嚴(yán)重。

        圖4 ResNet的結(jié)構(gòu)示意圖

        在訓(xùn)練過(guò)程中,特征值經(jīng)過(guò)每一個(gè)殘差塊之后,都會(huì)將特征的大小進(jìn)行一定程度上的壓縮。特征進(jìn)行第一次卷積之后,都會(huì)把每一組的數(shù)據(jù)進(jìn)行橫向的歸一化,保證數(shù)據(jù)在均值為0、方差為1的范圍內(nèi)。接下來(lái)把歸一化之后的矩陣經(jīng)過(guò)激活函數(shù)中的線性整流函數(shù)(Rectified Linear Unit,ReLU)。在第二次卷積之后會(huì)加上第一次卷積之后的第二路卷積后的值,這么做是為了防止發(fā)生梯度消失,疊加之后繼續(xù)歸一化和激活。以上是每一個(gè)殘差塊的工作,網(wǎng)絡(luò)中具有多個(gè)殘差塊,并且前后直接緊密相連。特征值經(jīng)過(guò)若干個(gè)殘差塊的提取之后,需要將其展平到一維并連接到緊密層,即全連接層。為了防止過(guò)擬合現(xiàn)象發(fā)生,會(huì)在兩個(gè)全連接層之間加上一個(gè)Dropout層,其中Dropout層也會(huì)在之前的殘差塊中有應(yīng)用,隨機(jī)斷開一定數(shù)量的連接來(lái)防止過(guò)多連接所導(dǎo)致的過(guò)擬合。最后將一維的特征數(shù)據(jù)經(jīng)過(guò)LogSoftmax層,產(chǎn)生是否為場(chǎng)景替換音頻的概率。以上就是一個(gè)完整的訓(xùn)練過(guò)程。

        為了探究不同的模型對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)中使用在分類模型中性能優(yōu)良的VGG網(wǎng)絡(luò)[16]以及機(jī)器學(xué)習(xí)中的支持向量機(jī)(Support Vector Machine, SVM)模型來(lái)對(duì)比在不同特征值選擇條件下的結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)中使用的音頻來(lái)自多個(gè)數(shù)據(jù)庫(kù),其中正樣本來(lái)自TIMIT和Voicebank數(shù)據(jù)庫(kù),噪聲樣本來(lái)自Demand數(shù)據(jù)庫(kù),均是開源且具有一定代表性的語(yǔ)料數(shù)據(jù)庫(kù)。來(lái)自Demand數(shù)據(jù)庫(kù)的噪聲樣本包含多種不同場(chǎng)景下的聲音,如廚房、車站、咖啡廳等。

        實(shí)驗(yàn)中將所有音頻樣本均統(tǒng)一重采樣到8 kHz,重采樣后的音頻表現(xiàn)都大致相似而且可以減少運(yùn)算量。將每段音頻統(tǒng)一剪切至?xí)r長(zhǎng)2 000 ms,即16 000個(gè)采樣點(diǎn)。正樣本與負(fù)樣本的數(shù)量一致,但正、負(fù)樣本出現(xiàn)的音頻中的純凈音頻都不同。負(fù)樣本的制作是將場(chǎng)景音頻疊加至純凈音頻上生成帶有場(chǎng)景聲的音頻,在控制好兩者疊加音頻音量的條件下,負(fù)樣本可以達(dá)到以假亂真的效果。

        ResNet中一共有6個(gè)殘差塊,每個(gè)殘差塊前后直接緊密相連,在特征輸入到殘差塊之前會(huì)經(jīng)過(guò)一次3×3卷積。在送入到網(wǎng)絡(luò)模型中的數(shù)據(jù)中,每25個(gè)音頻為1個(gè)Batch,初始化學(xué)習(xí)率為0.000 1。

        根據(jù)筆者調(diào)研了解,目前還少有人進(jìn)行場(chǎng)景聲替換音頻的檢測(cè),為了客觀地分析實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中選用了兩個(gè)指標(biāo)來(lái)衡量檢測(cè)的結(jié)果:檢測(cè)準(zhǔn)確率(Accuracy)用來(lái)展示檢測(cè)算法的效率;錯(cuò)誤接受率(False Acceptance Rate, FAR)則用來(lái)展示檢測(cè)過(guò)程中錯(cuò)漏過(guò)負(fù)類的占比。FAR的計(jì)算公式如下所示:

        3.2 結(jié)果與分析

        從兩個(gè)不同實(shí)驗(yàn)場(chǎng)景呈現(xiàn)實(shí)驗(yàn)結(jié)果:第一個(gè)實(shí)驗(yàn)中的負(fù)樣本是將場(chǎng)景聲音頻直接疊加在純凈的原始音頻上;而第二個(gè)實(shí)驗(yàn)是在真實(shí)物理世界場(chǎng)景中的,大部分原始音頻本身就含有場(chǎng)景聲音頻,而負(fù)樣本則需要在原始音頻處理之后再進(jìn)行場(chǎng)景聲音頻的疊加。

        3.2.1 數(shù)據(jù)庫(kù)場(chǎng)景下的實(shí)驗(yàn)

        人耳感受到的聲音高低與其頻率不呈線性關(guān)系,人耳對(duì)低頻信號(hào)比高頻信號(hào)更加敏感[13],因此根據(jù)人耳的特性模擬出的MFCC特征會(huì)適用于該場(chǎng)景。與CQCC一致的是映射到頻域階段的濾波器都是低頻窄、高頻寬的設(shè)置,由于使用濾波器的不同,兩者中低頻的信息量也不同。

        圖5是在VGG以及ResNet下,用CQCC作為特征值輸入時(shí)訓(xùn)練過(guò)程中的損失的表現(xiàn)。可以清晰地看到,在訓(xùn)練過(guò)程中損失保持下降趨勢(shì),足以說(shuō)明使用殘差的結(jié)構(gòu)會(huì)使得整個(gè)網(wǎng)絡(luò)保持收斂狀態(tài),讓決策邊界不斷收縮,從而使往后訓(xùn)練時(shí)更新的步伐會(huì)很小,并且整個(gè)網(wǎng)絡(luò)也沒有表現(xiàn)出退化的趨勢(shì)。在收斂性上VGG以及ResNet都表現(xiàn)出持續(xù)收斂,ResNet某個(gè)時(shí)刻的損失值會(huì)突然增大,但是在后期會(huì)慢慢修復(fù)這個(gè)突然的變化。

        圖5 兩種網(wǎng)絡(luò)的收斂性分析

        表1是在不同的判別模型下CQCC和MFCC特征在不同數(shù)據(jù)庫(kù)訓(xùn)練的準(zhǔn)確率與FAR。SVM的準(zhǔn)確率在大部分的數(shù)據(jù)庫(kù)上都很高,但是在跨數(shù)據(jù)庫(kù)間的表現(xiàn)上會(huì)差一些。VGG網(wǎng)絡(luò)依舊存在數(shù)據(jù)庫(kù)之間的準(zhǔn)確率偏低、同時(shí)FAR也比較高的問題。ResNet的表現(xiàn)比SVM和VGG好很多,準(zhǔn)確率較高而且很均衡,不會(huì)出現(xiàn)像SVM和VGG模型中某些樣本無(wú)法判別的情況。在兩個(gè)特征值中,CQCC作為特征表現(xiàn)得比MFCC好一些。從上述結(jié)果可以看出,用CQCC作為特征值,結(jié)合ResNet來(lái)區(qū)分樣本是否經(jīng)過(guò)場(chǎng)景聲的替換是有效的。

        表1 不同條件下不同模型的準(zhǔn)確率和錯(cuò)誤接受率

        3.2.2 現(xiàn)實(shí)場(chǎng)景下的實(shí)驗(yàn)

        現(xiàn)實(shí)場(chǎng)景錄制的音頻不如數(shù)據(jù)庫(kù)音頻純凈,為了增加數(shù)據(jù)真實(shí)性的驗(yàn)證,用不同的手機(jī)設(shè)備進(jìn)行錄制,并且每段錄音都含有原始的場(chǎng)景聲音的音頻,場(chǎng)景有辦公室、操場(chǎng)、醫(yī)院、食堂等,使用錄制設(shè)備有Letv、OPPO和iPhone手機(jī)。在實(shí)驗(yàn)中將錄制好的原始音頻作為正樣本。為了更加貼近現(xiàn)實(shí)中替換場(chǎng)景聲的操作,將原始音頻利用去噪軟件進(jìn)行降噪后疊加上錄制好的場(chǎng)景聲音頻,實(shí)現(xiàn)場(chǎng)景替換。

        表2是用三個(gè)不同設(shè)備錄制的音頻的檢測(cè)準(zhǔn)確率結(jié)果,使用的模型是由TIMIT和Voicebank兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練的ResNet。由表2可以看出,CQCC作為特征值的檢測(cè)效果會(huì)比MFCC好很多(表2中加粗?jǐn)?shù)據(jù))。由于錄制設(shè)備的不同,原始音頻可能含有的場(chǎng)景聲有設(shè)備的本底噪聲以及原始的場(chǎng)景聲,或者有些音頻在經(jīng)過(guò)設(shè)備的錄制之后會(huì)經(jīng)過(guò)設(shè)備自帶的壓縮過(guò)程,所以檢測(cè)的結(jié)果會(huì)略有些差異,但是整體檢測(cè)率依舊不夠高。

        表2 不同設(shè)備錄制音頻的準(zhǔn)確率 單位: %

        4 結(jié)語(yǔ)

        本文提出了對(duì)音頻場(chǎng)景聲替換的造假樣本的檢測(cè)方法,目前相關(guān)方面的工作還不多。實(shí)驗(yàn)的基本思想是通過(guò)對(duì)正負(fù)樣本的頻譜分析,提取音頻樣本的CQCC特征值,利用ResNet對(duì)特征值進(jìn)行判斷分類。雖然在公認(rèn)的數(shù)據(jù)庫(kù)上的檢測(cè)準(zhǔn)確率可以達(dá)到一個(gè)很高的水準(zhǔn),但依舊存在一些問題,例如在檢測(cè)真實(shí)場(chǎng)景下不同設(shè)備錄制的音頻時(shí),模型對(duì)這些樣本有不同的效果,針對(duì)有些設(shè)備錄制并造假的音頻檢測(cè)率非常低。所以我們今后的工作是提出更加魯棒的跨設(shè)備的檢測(cè)方法,讓現(xiàn)實(shí)場(chǎng)景下場(chǎng)景替換的造假樣本能以一個(gè)高準(zhǔn)確率被檢測(cè)出來(lái)。

        [1] WESTERLUND M. The emergence of deepfake technology: a review[J]. Technology Innovation Management Review, 2019, 9(11): 39-52.

        [2] WU H J, WANG Y, HUANG J W. Identification of electronic disguised voices[J]. IEEE Transactions on Information Forensics and Security, 2014, 9(3): 489-500.

        [3] LIN X D, LIU J X, KANG X G. Audio recapture detection with convolutional neural networks[J]. IEEE Transactions on Multimedia, 2016, 18(8): 1480-1487.

        [4] AL-ALI A K H, DEAN D, SENADJI B, et al. Enhanced forensic speaker verification using a combination of DWT and MFCC feature warping in the presence of noise and reverberation conditions[J]. IEEE Access, 2017, 5: 15400-15413.

        [5] LIDY T, SCHINDLER A. CQT-based convolutional neural networks for audio scene classification[C/OL]// Proceedings of the 2016 Workshop on Detection and Classification of Acoustic Scenes and Events. [2021-04-21].https://dcase.community/documents/workshop2016/proceedings/Lidy-DCASE2016workshop.pdf.

        [6] WU Z F, SHEN C H, VAN DEN HENGEL A. Wider or deeper: revisiting the ResNet model for visual recognition[J]. Pattern Recognition, 2019, 90: 119-133.

        [7] HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks[C]// Proceedings of the 2016 European Conference on Computer Vision, LNIP 9908. Cham: Springer, 2016: 630-645.

        [8] REN Y Z, LIU D K, XIONG Q C, et al. Spec-ResNet: a general audio steganalysis scheme based on deep residual network of spectrogram[EB/OL]. (2019-02-26)[2021-04-21].https://arxiv.org/pdf/1901.06838.pdf.

        [9] LIU M L, WANG W C, LI Y X. The system for acoustic scene classification using ResNet[R/OL]. [2021-04-21].https://dcase.community/documents/challenge2019/technical_reports/DCASE2019_SCUT_19.pdf.

        [10] GAROFOLO J S, LAMEL L F, FISHER W M, et al. DARPA TIMIT: acoustic-phonetic continous speech corpus CD-ROM: NIST speech disc 1-1.1: NISTIR 4930[R]. Gaithersburg, MD: National Institute of Standards and Technology, 1993.

        [11] VEAUX C, YAMAGISHI J, KING S. The voice bank corpus: Design, collection and data analysis of a large regional accent speech database[C]// Proceedings of the 2013 International Conference Oriental COCOSDA Held Jointly with 2013 Conference on Asian Spoken Language Research and Evaluation. Piscataway: IEEE, 2013: 1-4.

        [12] THIEMANN J, ITO N, VINCENT E. The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): a database of multichannel environmental noise recordings[J]. Proceedings of Meetings on Acoustics, 2013,19(1): No.035081.

        [13] TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech and Language, 2017, 45: 516-535.

        [14] ALZANTOT M, WANG Z Q, SRIVASTAVA M B. Deep residual neural networks for audio spoofing detection[C]// Proceedings of the Interspeech 2019. [S.l.]: International Speech Communication Association, 2019: 1078-1082.

        [15] 楊磊,趙紅東. 基于輕量級(jí)深度神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(11):3172-3177.(YANG L, ZHAO H D. Environment sound recognition based on lightweight deep neural network[J]. Journal of Computer Applications, 2020, 40(11): 3172-3177.)

        [16] MATEEN M, WEN J H, NASRULLAH, et al. Fundus image classification using VGG-19 architecture with PCA and SVD[J]. Symmetry, 2019, 11(1): No.1.

        Detection algorithm of audio scene sound replacement falsification based on ResNet

        DONG Mingyu1, YAN Diqun1,2*

        (1,,315211,;2,324000,)

        A ResNet-based faked sample detection algorithm was proposed for the detection of faked samples in audio scenes with low faking cost and undetectable sound replacement. The Constant Q Cepstral Coefficient (CQCC) features of the audio were extracted firstly, then the input features were learnt by the Residual Network (ResNet) structure, by combining the multi-layer residual blocks of the network and feature normalization, the classification results were output finally. On TIMIT and Voicebank databases, the highest detection accuracy of the proposed algorithm can reach 100%, and the lowest false acceptance rate of the algorithm can reach 1.37%. In realistic scenes, the highest detection accuracy of this algorithm is up to 99.27% when detecting the audios recorded by three different recording devices with the background noise of the device and the audio of the original scene. Experimental results show that it is effective to use the CQCC features of audio to detect the scene replacement trace of audio.

        audio falsification; audio scene sound replacement; Residual Network (ResNet); Constant Q Cepstral Coefficient (CQCC)

        This work is partially supported by National Natural Science Foundation of China (U1736215, 61901237), Zhejiang Provincial Natural Science Foundation (LY20F020010, LY17F020010), Ningbo Natural Science Foundation (202003N4089).

        DONG Mingyu, born in 1997, M. S. candidate. His research interests include machine learning, multimedia forensics, adversarial example.

        YAN Diqun, born in 1979, Ph. D., associate professor. His research interests include machine learning, information security, information hiding.

        TP391.4

        A

        1001-9081(2022)06-1724-05

        10.11772/j.issn.1001-9081.2021061432

        2021?08?10;

        2021?11?10;

        2021?11?17。

        國(guó)家自然科學(xué)基金資助項(xiàng)目(U1736215, 61901237);浙江省自然科學(xué)基金資助項(xiàng)目(LY20F020010, LY17F020010);寧波市自然科學(xué)基金資助項(xiàng)目(202003N4089)。

        董明宇(1997—),男,浙江寧海人,碩士研究生,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、多媒體取證、對(duì)抗樣本;嚴(yán)迪群(1979—),男,浙江余姚人,副教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、信息安全、信息隱藏。

        猜你喜歡
        特征值殘差音頻
        基于雙向GRU與殘差擬合的車輛跟馳建模
        一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問題
        單圈圖關(guān)聯(lián)矩陣的特征值
        基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        基于商奇異值分解的一類二次特征值反問題
        亚洲性日韩一区二区三区| 亚洲中文字幕第一页在线| 亚洲国产另类久久久精品小说 | 欧美中出在线| 东京热加勒比国产精品| 久久99精品久久久久婷婷| 亚洲精品aa片在线观看国产| 亚洲乱码一区二区三区成人小说| 日美韩精品一区二区三区| 日韩精品视频久久一区二区 | 国产亚洲自拍日本亚洲| 亚洲码国产精品高潮在线| 国产高级黄区18勿进一区二区| 日韩精品一二区在线视频| 国产肥熟女免费一区二区| 97色伦综合在线欧美视频| av超碰在线免费观看| 久久蜜桃一区二区三区| 精品厕所偷拍一区二区视频| 亚洲aⅴ在线无码播放毛片一线天| 日本午夜国产精彩| 国产成人亚洲综合二区| 18国产精品白浆在线观看免费| 久久久精品2019免费观看| 四虎国产精品成人影院| 放荡成熟人妻中文字幕| 亚洲国产成人久久综合| 欧美黄色免费看| 最新国内视频免费自拍一区| 国产成人无码一区二区三区| 欧美最猛黑人xxxx黑人表情| 亚洲精品自拍视频在线观看 | 国产 无码 日韩| 丰满的少妇av一区二区三区| av无码精品一区二区三区宅噜噜| Y111111国产精品久久久| 99热婷婷一区二区三区| 国产精品爽爽ⅴa在线观看 | 国产一区二区三区四区在线视频| 国产精品久久久久一区二区三区 | 国产福利一区二区三区在线观看 |