亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合與RCB?EffcientNet網(wǎng)絡(luò)的校園安全聲檢測(cè)方法

        2025-04-05 00:00:00孫凱瑋王玫闞瑞祥劉鑫仇洪冰林桂耀
        現(xiàn)代電子技術(shù) 2025年7期
        關(guān)鍵詞:特征融合輕量化

        摘" 要: 聲音分類技術(shù)在校園事件監(jiān)測(cè)中至關(guān)重要。然而,聲音識(shí)別領(lǐng)域存在諸多挑戰(zhàn),如特征提取方法的適配性不足、現(xiàn)有方法難以平衡學(xué)習(xí)、理解能力與模型復(fù)雜度之間的關(guān)系等。為解決這些問(wèn)題,文中提出一種基于LM?H聲學(xué)特征和RCB?EfficientNet模型的改進(jìn)算法。從原始音頻中提取Log?Mel和Hilbert譜圖特征,融合為全新的LM?H特征來(lái)描述校園異常聲,并提出輕量化音頻分類模型RCB?EfficientNet。通過(guò)減少主要模塊的堆疊和模型參數(shù)量,并添加特征層間的跳躍連接保證信息傳遞,同時(shí)通過(guò)替換注意力模塊來(lái)避免信息丟失。最后,在基于數(shù)個(gè)公開(kāi)數(shù)據(jù)集重組而成的自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)后的模型參數(shù)量為2.69 MB,減少了1.32 MB,總體下降32%,同時(shí)實(shí)現(xiàn)了98.70%的精度。證實(shí)了該改進(jìn)算法在維持輕量級(jí)計(jì)算的同時(shí),具有高準(zhǔn)確性和穩(wěn)健性。

        關(guān)鍵詞: 聲音分類; 特征融合; 校園異常聲; 聲學(xué)特征; 輕量化; 注意力模塊

        中圖分類號(hào): TN912?34" " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " " 文章編號(hào): 1004?373X(2025)07?0079?06

        Campus security sound detection method based on feature fusion and RCB?EfficientNet

        SUN Kaiwei1, WANG Mei1, KAN Ruixiang2, LIU Xin1, QIU Hongbing2, LIN Guiyao1

        (1. College of Computer Science and Engineering, Guilin University of Technology, Guilin 541006, China;

        2. School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, China)

        Abstract: Sound classification technology is critical for campus event monitoring. However, the sound recognition is confronted with numerous challenges, for example, the inadequate adaptability of feature extraction methods and the difficulties in balancing the learning and comprehension capabilities and the model complexity in contemporary approaches. In view of the above, an improved algorithm based on LM?H acoustic features and the RCB?EfficientNet model is proposed. Log?Mel and Hilbert spectrogram features are extracted from the raw audio and fused into a novel LM?H feature, so as to describe the abnormal sound in the campus. In addition, a lightweight audio classification model, RCB?EfficientNet, is introduced. The stack of primary modules and model parameters are reduced, and skip links between feature layers are incorporated, so as to ensure information transfer. At the same time, information loss is avoided by replacing attention modules. A custom?built dataset is assembled based on several public datasets to demonstrate the experiment results. It can be seen that the improved model achieves a parameter count of 2.69 MB, a reduction of 1.32 MB, for a total reduction of 32%. At the same time, it achieves an accuracy rate of 98.70%, confirming that the proposed algorithm maintains high accuracy and robustness while ensuring computational efficiency.

        Keywords: sound classification; feature fusion; abnormal sound in campus; acoustic feature; lightweight; attention module

        0" 引" 言

        近年來(lái),校園內(nèi)各類違法犯罪行為日益增加,嚴(yán)重威脅到了在校師生的身心健康與安全[1]?,F(xiàn)有研究主要側(cè)重于使用攝像機(jī)進(jìn)行自動(dòng)監(jiān)控[2],但受限于光線、視野等問(wèn)題。因此,聲信號(hào)在特定情景下更適合實(shí)際需求[3?4]。本文將探討校園環(huán)境聲場(chǎng)景下的關(guān)鍵問(wèn)題,如聲學(xué)特征提取、識(shí)別準(zhǔn)確性和模型能力。

        在音頻分類任務(wù)中,如何正確表達(dá)音頻的聲學(xué)特征是該領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題。文獻(xiàn)[5]通過(guò)Log?Mel譜圖、時(shí)頻譜圖和相位譜圖進(jìn)行特征融合來(lái)共同表征環(huán)境聲音,提高了在環(huán)境音識(shí)別中的分類精度。而校園異常聲音包含一些緊急的事件,如爆炸聲、槍聲等,這些事件在時(shí)頻域上可能表現(xiàn)出較高頻率的尖銳成分和持續(xù)時(shí)間較短等特性。因此,需要針對(duì)高頻率與瞬時(shí)性這些特性提出一種合理且高效的特征提取方法來(lái)解決這一問(wèn)題。

        音頻分類模型的選擇也是該領(lǐng)域中的一個(gè)重要環(huán)節(jié)。文獻(xiàn)[6]提出了一種自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(RACNN),該網(wǎng)絡(luò)通過(guò)自適應(yīng)卷積(RAC)模塊以更低成本生成相同數(shù)量的特征映射,有效提取音頻的時(shí)間和頻率特征。文獻(xiàn)[7]提出一種具有分層結(jié)構(gòu)的音頻網(wǎng)絡(luò)HTS?AT,該網(wǎng)絡(luò)能夠更好地結(jié)合標(biāo)記語(yǔ)義模塊,從而使模型能夠進(jìn)行音頻事件檢測(cè)。然而,上述的核心流程中在一些復(fù)雜場(chǎng)景中由于分類模型上下文感知能力欠缺與資源調(diào)配方案不佳等問(wèn)題,正在逐漸暴露其局限性。文獻(xiàn)[8]在聲音識(shí)別問(wèn)題上提出利用輕量級(jí)模型EfficientNet進(jìn)行聲音分類的方法,并取得了令人滿意的分類結(jié)果。其中EfficientNet網(wǎng)絡(luò)[9]集成了一種“擴(kuò)張?激活”(Squeeze?and?Excitation, SE)注意力模塊,在該模塊中,特征圖被擴(kuò)張后再進(jìn)行激活,以確保通道權(quán)重的重要性。擴(kuò)張卷積操作的執(zhí)行可能導(dǎo)致聲音信號(hào)信息的一部分丟失,進(jìn)而導(dǎo)致某些情況下聲音分類結(jié)果不理想。因此,如何在計(jì)算能力和模型性能之間實(shí)現(xiàn)有效的平衡是本文需要解決的問(wèn)題。

        本文的主要貢獻(xiàn)概括為以下兩方面。

        1) 提出了一種新的聲學(xué)特征組合策略LM?H,用于描述校園安全聲。該融合特征由一個(gè)聚焦于全局特征的Log?Mel譜圖和一個(gè)聚焦于局部特征的Hilbert譜圖組成,每個(gè)通道側(cè)重于不同頻譜特征,可以更好地捕捉語(yǔ)音信號(hào)中的語(yǔ)音特征,相互之間形成補(bǔ)充。

        2) 提出了一種改進(jìn)的輕量化模型RCB?EfficientNet,該模型減少網(wǎng)絡(luò)中重疊模塊的同時(shí),將網(wǎng)絡(luò)模型中的SE注意力機(jī)制替換為CBAM(Convolutional Block Attention Module)注意力機(jī)制,通過(guò)引入空間注意力,RCB?EfficientNet可以動(dòng)態(tài)調(diào)整不同頻率分布的權(quán)重,從而使模型更加關(guān)注譜圖的局部特征,有效避免了一些信息的丟失。

        1" LM?H特征

        針對(duì)校園異常場(chǎng)景下可能出現(xiàn)的聲音特征,如爆炸聲、玻璃破碎等,這些事件在時(shí)頻域上可能表現(xiàn)出較高頻率的尖銳成分等特性。當(dāng)僅關(guān)注全局特征進(jìn)行特征提取時(shí),可能無(wú)法充分捕捉瞬時(shí)聲音中存在的局部變化,或無(wú)法有效獲取關(guān)鍵的時(shí)序信息。而若只關(guān)注于局部特性,可能無(wú)法獲取整個(gè)聲音信號(hào)的全局信息,從而影響對(duì)聲音特征的全面理解和分析。這可能導(dǎo)致遺漏一些重要的聲音特征,從而影響異常聲識(shí)別的準(zhǔn)確性和完整性。

        因此,本文提出一種結(jié)合Log?Mel譜圖和Hilbert譜圖的特征融合策略。Log?Mel通過(guò)從全局特征的角度出發(fā),更全面地反映聲音信號(hào)的頻率分布情況。而Hilbert譜圖適用于分析信號(hào)的瞬時(shí)變化和包絡(luò)特征,且具有較強(qiáng)的抗噪性,能夠在復(fù)雜的環(huán)境中提取出清晰的聲音特征。在異常聲特征提取中,Hilbert譜圖能更好地關(guān)注信號(hào)的瞬態(tài)性。圖1顯示了該融合策略的提取過(guò)程。

        圖2a)、圖2b)分別展示了爆炸聲的Log?Mel和Hilbert聲學(xué)特征。由圖2a)可以看出,Log?Mel譜圖捕獲了爆炸聲的全局特征,包括頻譜能量分布和整體頻率成分。同時(shí),通過(guò)圖2b)的Hilbert譜圖可以觀察到其弱化了Log?Mel譜圖中低分貝的頻率特性,特別對(duì)于噪聲成分或無(wú)關(guān)信息來(lái)說(shuō),Hilbert譜圖可能會(huì)將其抹除或弱化。這種現(xiàn)象是由于Hilbert變換更加注重信號(hào)的相位信息,對(duì)于振幅較低或噪音成分不重要的頻率會(huì)被視為次要特征而被抑制。因此,Hilbert譜圖突出了異常聲的關(guān)鍵信號(hào)特性,這些關(guān)鍵特征有助于突顯信號(hào)中重要的局部特性。綜上所述,利用LM?H特性作為聲信號(hào)的提取方法在理論上是可行和有效的。

        1.1" Log?Mel譜圖

        1) 分幀和加窗。分幀的目的是將長(zhǎng)時(shí)信號(hào)劃分為短時(shí)幀,以便在每一幀內(nèi)進(jìn)行分析。實(shí)驗(yàn)幀長(zhǎng)設(shè)為1 024,幀移設(shè)為512。漢明窗的數(shù)學(xué)表達(dá)式為:

        [ω(n)=0.54-0.46cos2πnN-1," " 0≤n≤N-1] (1)

        式中:[ω(n)]是窗口在第[n]個(gè)采樣點(diǎn)的值;[N]是窗口的長(zhǎng)度;[cos2πnN-1]是漢明窗的余弦部分。這個(gè)函數(shù)使得窗口兩端逐漸趨近于零,有助于減小頻譜泄漏。

        2) 傅里葉變換。它將信號(hào)從時(shí)域轉(zhuǎn)換到頻域,分析一個(gè)信號(hào),將其表示為不同頻率的正弦和余弦函數(shù)的組合。公式如下:

        [x(f)=-∞+∞x(t)?e-j2πftdt," " "0≤k≤N-1] (2)

        式中:[x(f)]是頻率域中的復(fù)數(shù)表示,表示信號(hào)在頻率[f]處的分量;[x(t)]是時(shí)域中的信號(hào);j是虛數(shù)單位(j2=?1);[表示積]分。

        3) Mel濾波器組。它是一組在Mel頻率刻度上均勻分布的濾波器,用于將音頻信號(hào)分解為不同頻率區(qū)間的能量分布,以生成Mel頻譜圖。

        [Mel(f)=2 595lg1+f700] (3)

        式中:[f]是線性頻率;Mel([f])是對(duì)應(yīng)的Mel頻率。

        1.2" Hilbert譜圖分析

        1) 解析信號(hào)。對(duì)原始信號(hào)進(jìn)行解析,得到其復(fù)數(shù)形式的解析信號(hào)。解析信號(hào)通常由原始信號(hào)與希爾伯特變換濾波器的輸出構(gòu)成。希爾伯特變換濾波器在頻率域中將正頻率部分保留不變,而將負(fù)頻率部分相位旋轉(zhuǎn)180°,從而產(chǎn)生解析信號(hào)。解析信號(hào)[xa(t)]可以表示為:

        [xa(t)=x(t)+j2H{X(t)}] (4)

        式中:[x(t)]是原始信號(hào);j2是虛數(shù)單位;[H{X(t)}]是[x(t)]的Hilbert變換。

        2) 取幅度譜。從解析信號(hào)中取幅度譜,表示信號(hào)在頻率上的強(qiáng)度分布。幅度譜[A(f)]可以通過(guò)解析信號(hào)的幅度計(jì)算得到。

        [A(f)=Re2(f)+Im2(f)] (5)

        式中:[Re(f)]是解析信號(hào)的實(shí)部在頻率[f]處的值;[Im(f)]是解析信號(hào)的虛部在頻率[f]處的值。

        3) Hilbert譜圖。Hilbert譜圖[H(f)]可以通過(guò)取幅度譜的對(duì)數(shù)得到。

        [H(f)=lgA(f)] (6)

        2" 本文核心方法

        2.1" EfficientNet

        EfficientNet網(wǎng)絡(luò)是一種高效的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過(guò)使用復(fù)合縮放來(lái)調(diào)整網(wǎng)絡(luò)的深度、寬度和分辨率,在保持性能的同時(shí)減小計(jì)算成本,更加適用于資源分配要求較高的傳感網(wǎng)絡(luò)環(huán)境中,強(qiáng)調(diào)了計(jì)算效率和性能之間的平衡。MBConv(Mobile Inverted Bottleneck Convolution)模塊是該網(wǎng)絡(luò)架構(gòu)的關(guān)鍵組成部分之一,該模塊結(jié)合了深度可分離卷積、普通卷積和SE注意力模塊用于提高模型的表現(xiàn)力和計(jì)算效率,具有高效的特征提取和表示能力。

        研究發(fā)現(xiàn),EfficientNet堆疊較多的MBConv模塊會(huì)使網(wǎng)絡(luò)深度過(guò)大,進(jìn)而增加模型的復(fù)雜度,導(dǎo)致泛化能力下降。此外,不同類型的音頻樣本具有某些相似性,如槍聲和爆炸聲都屬于高強(qiáng)度的瞬態(tài)聲音,具有突然性和強(qiáng)烈的頻率成分,為使聲音分類任務(wù)有較好的分類精度,應(yīng)加強(qiáng)模型對(duì)音頻特征的學(xué)習(xí)能力。

        2.2" RCB?EfficientNet

        針對(duì)以上這些問(wèn)題,本文對(duì)EfficientNet進(jìn)行了以下幾個(gè)方面的改進(jìn)。

        1) EfficientNet是由16個(gè)MBConv模塊堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu)。本文針對(duì)在實(shí)際場(chǎng)景中,無(wú)線傳感器受制于有限的計(jì)算資源和帶寬的限制問(wèn)題,將原始的16個(gè)MBConv模塊縮減為9個(gè),以此來(lái)減少模型的參數(shù)量和復(fù)雜性。同時(shí),為了避免因?yàn)槟K的減少造成信息丟失的問(wèn)題,本文模型在相鄰不同尺寸的MBConv模塊之間引入了3×3卷積的跨層連接。這種跨層連接旨在確保特征信息的有效傳遞,并合理化信息傳遞過(guò)程中的損失,進(jìn)而提升模型的特征學(xué)習(xí)和表達(dá)能力。

        2) 用CBAM模塊代替MBConv模塊中的SE模塊,CBAM注意力機(jī)制結(jié)合了空間和通道注意力,相較于SE注意力機(jī)制,它引入了空間注意力,可以幫助模型動(dòng)態(tài)調(diào)整不同頻率分布的權(quán)重。通過(guò)考慮每個(gè)通道在譜圖空間上的重要性,使模型更加關(guān)注譜圖的局部特征,有效避免了一些信息的丟失。

        圖3展示了RCB?EfficientNet的結(jié)構(gòu)圖。首先,音頻經(jīng)過(guò)聲學(xué)融合后生成的LM?H特征譜圖以224×224×3 的尺寸輸入到RCB?EfficientNet網(wǎng)絡(luò);接著,利用5組經(jīng)過(guò)改進(jìn)的MBConv模塊獲取音頻更多的細(xì)節(jié)信息。經(jīng)過(guò)這些模塊的處理后,得到7×7×1 280通道的特征圖;最后,將特征圖輸入全連接層進(jìn)行分類,得到最終的音頻分類結(jié)果。

        2.3" 改進(jìn)的注意力模塊

        SE模塊首先對(duì)輸入的特征圖進(jìn)行全局池化操作,以獲取每個(gè)通道全局信息的向量;然后對(duì)該向量進(jìn)行降維操作,這可能會(huì)導(dǎo)致細(xì)節(jié)信息的丟失,并且異常聲的聲音特性通常表現(xiàn)為尖銳、突然等局部特點(diǎn),這種降維操作可能無(wú)法充分表達(dá)數(shù)據(jù)的全部特性,尤其是局部特征的重要性。

        CBAM模塊結(jié)構(gòu)如圖4所示。CBAM結(jié)合了空間注意力和通道注意力,能更好地捕獲這些局部特性。

        圖5分別展示了通道注意力結(jié)構(gòu)和空間注意力結(jié)構(gòu)。CBAM注意力模塊首先通過(guò)通道注意力機(jī)制自適應(yīng)地調(diào)整不同通道的重要性,強(qiáng)調(diào)重要頻率成分。隨后通過(guò)空間注意力機(jī)制關(guān)注時(shí)頻圖中不同位置的顯著性,以捕捉關(guān)鍵時(shí)間點(diǎn)和頻率成分的變化。這也意味著CBAM能夠更妥善地關(guān)注通道間的關(guān)系和特征圖的局部信息,有助于提高模型對(duì)空間和通道特征的感知能力。另外,CBAM模塊采用共享權(quán)重參數(shù)的設(shè)計(jì),因此替換后的模塊參數(shù)量是可以忽略不計(jì)的。

        這兩個(gè)注意力模塊分別更加注重通道上自適應(yīng)調(diào)整的權(quán)重與空域信息的理解、泛化過(guò)程,為校園異常聲檢測(cè)打下堅(jiān)實(shí)基礎(chǔ)。通道注意力[MC]和空間注意力[MS]計(jì)算公式為:

        [MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(FCavg))+W1(W0(FCmax))) ] (7)

        [MS(F)=δ(f7×7([AvgPool(F);MaxPool(F)]))=δ(f7×7([FSavg;FSmax]))] (8)

        式中:[σ]和[δ]為sigmoid函數(shù);[FCavg]、[FCmax]和[FSavg]、[FSmax]分別表示經(jīng)過(guò)全局最大平均池化和全局最大池化操作后得到的通道特征圖和空間特征圖;[W0]和[W1]是卷積層的權(quán)重參數(shù);[f7×7]表示濾波器大小為7×7。

        3" 實(shí)驗(yàn)與分析

        3.1" 數(shù)據(jù)集

        由于目前沒(méi)有統(tǒng)一的異常聲數(shù)據(jù)庫(kù),本文從公開(kāi)數(shù)據(jù)集ESC?50、UrbanSound8k、FSD?50K[10]中挑選符合校園場(chǎng)景的音頻數(shù)據(jù),最終共選取了11個(gè)類別,每個(gè)類別包含200個(gè)音頻樣本,隨后對(duì)原始音頻進(jìn)行數(shù)據(jù)擴(kuò)增處理(隨機(jī)時(shí)間拉伸、動(dòng)態(tài)范圍壓縮和隨機(jī)音高移動(dòng)[11]),這有效擴(kuò)充了訓(xùn)練數(shù)據(jù)集的規(guī)模和多樣性。最終,每個(gè)類產(chǎn)生1 000個(gè)音頻樣本,總計(jì)11 000個(gè)音頻樣本,形成的一個(gè)基準(zhǔn)數(shù)據(jù)集SS?11,如圖6所示。

        3.2" 基線模型

        本文采用了經(jīng)過(guò)遷移學(xué)習(xí)的EfficientNet?B0作為基準(zhǔn)模型。在訓(xùn)練階段,選擇交叉熵?fù)p失函數(shù)作為損失函數(shù),并設(shè)置每批次的樣本數(shù)為128,訓(xùn)練周期(Epoch)為100。實(shí)驗(yàn)環(huán)境搭建在一臺(tái)搭載Core i5?12400f處理器和RTX 4060Ti(16 GB顯存)顯卡的計(jì)算機(jī)上,所有實(shí)驗(yàn)均在PyTorch 1.10.0和Python 3.11.5環(huán)境下進(jìn)行。

        3.3" 實(shí)驗(yàn)結(jié)果分析

        3.3.1" 對(duì)比不同輸入特征的效果

        為了深入探究不同聲學(xué)特征在音頻描述中對(duì)不同方面信息的側(cè)重,并了解其對(duì)實(shí)驗(yàn)結(jié)果的影響,本文旨在驗(yàn)證由Log?Mel譜圖和Hilbert譜圖組成的LM?H特征的卓越性能。在基線模型EfficientNet上進(jìn)行了消融實(shí)驗(yàn),選取的特征方案有Log?Mel、Hilbert、LM?H這三種。表1展示了在100輪迭代中,各個(gè)特征組合所取得的最佳實(shí)驗(yàn)結(jié)果。

        從表1得出的實(shí)驗(yàn)結(jié)果可知,LM?H特征在校園安全聲音分類任務(wù)中展現(xiàn)出卓越的性能,這種特征組合不僅能夠捕捉聲音信號(hào)的全局特征,還能有效分析信號(hào)的局部變化,相互之間形成補(bǔ)充。從而在分類精度上顯著優(yōu)于其他兩種特征組合,驗(yàn)證了該特征組合在校園安全聲音表征方面的高效性。

        3.3.2" 對(duì)比相關(guān)模型效果

        本文以校園安全聲音檢測(cè)為核心,必須從實(shí)際需求出發(fā),并綜合考慮后續(xù)傳感器的部署情況。因此,在這一場(chǎng)景下,參數(shù)量少、算力要求低且高效的網(wǎng)絡(luò)模型是符合本文需求的。為了驗(yàn)證本文提出的RCB?EfficientNet的分類優(yōu)勢(shì),實(shí)驗(yàn)中將選取SS?11作為實(shí)驗(yàn)數(shù)據(jù)集,采用LM?H作為輸入特征進(jìn)行消融實(shí)驗(yàn),消融實(shí)驗(yàn)的網(wǎng)絡(luò)模型方案為:模型A為RCB?EfficientNet;模型B為EfficientNet;模型C為在基線模型上減少堆疊模塊;模型D為在基線模型上用CBAM模塊取代SE模塊。

        不同模型的性能結(jié)果如表2所示。

        從表2結(jié)果來(lái)看,減少堆疊模塊后EfficientNet的分類精度并未降低,這歸功于引入了跨層連接,確保了特征信息的有效傳遞。同時(shí),將基線模型EfficientNet中的SE模塊替換為CBAM模塊后,在不增加過(guò)多模型復(fù)雜度的前提下,有效提升了復(fù)雜場(chǎng)景中校園異常聲識(shí)別的精度,相較原本以SE模塊為核心的方法提升了1.3%。這表明CBAM模塊不僅繼承了SE模塊通道注意力機(jī)制的優(yōu)勢(shì),還通過(guò)引入空間注意力模塊幫助模型更好地理解不同頻率特征之間的關(guān)聯(lián),進(jìn)而提高了聲音分類的準(zhǔn)確性。最終,RCB?EfficientNet在分類精度方面優(yōu)于其他三個(gè)模型,并且其所需的參數(shù)量也相對(duì)較少。這進(jìn)一步證實(shí)了本文提出的RCB?EfficientNet具有準(zhǔn)確率高、參數(shù)量少等特點(diǎn),符合構(gòu)建輕量級(jí)網(wǎng)絡(luò)的要求。

        3.3.3" 對(duì)比不同框架的效果

        為了進(jìn)一步驗(yàn)證本文提出的分類框架的高效性能,將本文方法與目前一些主流模型進(jìn)行比較。表3展示了該實(shí)驗(yàn)結(jié)果。

        通過(guò)實(shí)驗(yàn)結(jié)果可見(jiàn),本文提出的分類框架在保持高準(zhǔn)確性的同時(shí),有效減少了參數(shù)量和計(jì)算復(fù)雜度。該框架在校園場(chǎng)景聲音分類任務(wù)中表現(xiàn)出色,取得了理想的分類效果。圖7展現(xiàn)了該音頻分類框架的混淆矩陣,從圖中可以看出,改進(jìn)后的模型在準(zhǔn)確識(shí)別各類別方面表現(xiàn)突出,這也是該模型取得優(yōu)異性能指標(biāo)的主要原因。

        4" 結(jié)" 語(yǔ)

        本文提出了一種適用于校園異常場(chǎng)景的LM?H雙聲道聲學(xué)特征組合策略,該策略不僅能展現(xiàn)音頻樣本的全局特征,還能分析信號(hào)的瞬時(shí)變化和包絡(luò)特征,實(shí)現(xiàn)互補(bǔ)效果,并針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型的性能與資源消耗之間的平衡問(wèn)題,提出一種改進(jìn)型網(wǎng)絡(luò)RCB?EfficientNet。實(shí)驗(yàn)證明,該網(wǎng)絡(luò)不僅識(shí)別準(zhǔn)確率高,而且具有較低的模型參數(shù)量和運(yùn)算量,更易部署到跨平臺(tái)和移動(dòng)設(shè)備中。

        然而,音頻分類框架在處理多個(gè)重疊聲音時(shí)存在不足之處。在真實(shí)場(chǎng)景中,校園異常聲音發(fā)生時(shí)可能伴隨其他聲音,從而影響分類精度。為此,未來(lái)的工作將重心轉(zhuǎn)移到處理重疊聲音和低信噪比場(chǎng)景中易混淆聲信號(hào)的多分類任務(wù)中,專注于優(yōu)化分類算法,使其在噪聲環(huán)境中表現(xiàn)更加穩(wěn)健。

        注:本文通訊作者為王玫。

        參考文獻(xiàn)

        [1] HUANG D K, CECCATO V, KYTTA M. Safety perceptions in university campuses: the role of environment [J]. Crime prevention and community safety, 2022, 24(3): 266?285.

        [2] DING B Y, ZHANG T, WANG C, et al. Acoustic scene classification: A comprehensive survey [J]. Expert systems with applications, 2024, 238: 121902.

        [3] CHANDRAKALA S, JAYALAKSHMI S L. Environmental audio scene and sound event recognition for autonomous surveillance: A survey and comparative studies [J]. ACM computing surveys (CSUR), 2019, 52(3): 1?34.

        [4] SINGH V K, SHARMA K, SUR S N. A survey on preprocessing and classification techniques for acoustic scene [J]. Expert systems with applications, 2023, 229: 120520.

        [5] GUO J M, LI C K, SUN Z P, et al. A deep attention model for environmental sound classification from multi?feature data [J]. Applied sciences, 2022, 12(12): 5988.

        [6] FANG Z, YIN B, DU Z H, et al. Fast environmental sound classification based on resource adaptive convolutional neural network [J]. Scientific reports, 2022, 12(1): 6599.

        [7] CHEN K, DU X J, ZHU B L, et al. HTS?AT: A hierarchical token?semantic audio transformer for sound classification and detection [C]// 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2022: 646?650.

        [8] KIM J W, LEE G W, PARK C S, et al. Sound event detection using EfficientNet?B2 with an attentional pyramid network [C]// 2023 IEEE International Conference on Consumer Electronics (ICCE). New York: IEEE, 2023: 1?2.

        [9] TAN M X, LE Q V. EfficientNet: Rethinking model scaling for convolutional neural networks [C]// International Conference on Machine Learning. New York: PMLR, 2019: 6105?6114.

        [10] FONSEACA E, FAVORY X, PONS J, et al. FSD50K: an open dataset of human?labeled sound events [J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 30: 829?852.

        [11] 劉臣,倪仁倢,周立欣.多任務(wù)實(shí)時(shí)聲音事件檢測(cè)卷積模型與復(fù)合數(shù)據(jù)擴(kuò)增[J].計(jì)算機(jī)應(yīng)用研究,2023,40(4):1080?1087.

        [12] NASIRI A, HU J J. SoundCLR: Contrastive learning of representations for improved environmental sound classification [EB/OL]. [2021?03?04]. https://arxiv.org/abs/2103.01929.

        [13] ADAPA S. Urban sound tagging using convolutional neural networks [EB/OL]. [2019?10?02]. http://arxiv.org/abs/1909.12699.

        [14] GONG Y, CHUNG Y A, GLASS J R. AST: Audio spectrogram transformer [EB/OL]. [2024?03?05]. https://arxiv.org/abs/2104.01778.

        作者簡(jiǎn)介:孫凱瑋(1998—),男,河南焦作人,碩士研究生,研究方向?yàn)榄h(huán)境聲識(shí)別、傳感器網(wǎng)絡(luò)。

        王" 玫(1963—),女,山西壽陽(yáng)人,教授,研究方向?yàn)槲恢酶兄c協(xié)同定位、傳感器網(wǎng)絡(luò)、能效優(yōu)化等。

        收稿日期:2024?06?25" " " " " "修回日期:2024?07?16

        基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(62071135);國(guó)家自然科學(xué)基金項(xiàng)目(61961010);桂林電子科技大學(xué)研究生創(chuàng)新項(xiàng)目(2023YCXB05)

        猜你喜歡
        特征融合輕量化
        汽車輕量化集成制造專題主編
        四點(diǎn)接觸球轉(zhuǎn)盤(pán)軸承的輕量化材料應(yīng)用
        哈爾濱軸承(2020年4期)2020-03-17 08:13:52
        一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計(jì)
        基于多特征融合的圖像匹配算法
        人體行為特征融合與行為識(shí)別的分析
        425輕量化橋軸承座工藝改進(jìn)
        基于移動(dòng)端的樹(shù)木葉片識(shí)別方法的研究
        科技資訊(2017年11期)2017-06-09 18:28:13
        基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
        融合整體與局部特征的車輛型號(hào)識(shí)別方法
        基于MATLAB的道路交通標(biāo)志識(shí)別
        69天堂国产在线精品观看| 极品少妇小泬50pthepon| 中文国产日韩欧美二视频| 国产片AV在线永久免费观看| 成人偷拍自拍在线视频| 久久九九精品国产av| 香蕉人人超人人超碰超国产| 伊人22综合| 亚洲在线视频一区二区| 国产亚洲精品国产精品| 亚洲另类欧美综合久久图片区| 日韩精品电影在线观看| 日本激情久久精品人妻热| 日本精品女优一区二区三区| 免费观看性欧美大片无片| 人妻丰满熟妇AV无码片| 亚洲女同精品一区二区久久| 刺激一区仑乱| 国产三级在线观看免费| 一区二区三区国产97| 国产自拍在线视频91| 日韩av东京社区男人的天堂| 国产午夜久久久婷婷| 天堂av一区二区麻豆| 免费a级毛片18禁网站| 日本高清www无色夜在线视频| 亚洲午夜久久久久中文字幕久| 亚洲av色香蕉一区二区三区潮| 亚洲熟妇丰满多毛xxxx| 无码人妻丰满熟妇精品区| av最新版天堂在资源在线| 国产网站一区二区三区| 成人激情五月天| 成人综合亚洲欧美一区h| 三级日本理论在线观看| 粗大猛烈进出白浆视频| 精品少妇大屁股白浆无码 | 亚洲长腿丝袜中文字幕| 无码孕妇孕交在线观看| 亚洲综合一区二区三区四区五区| 久久久国产精品五月天伊人|