亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語義信息的城市音頻場(chǎng)景識(shí)別方法

        2024-09-23 00:00:00農(nóng)文韜孫雨桐梅宇
        無線互聯(lián)科技 2024年17期

        摘要:針對(duì)音頻場(chǎng)景識(shí)別領(lǐng)域中城市場(chǎng)景易混淆、難以區(qū)分的問題,文章提出了一種融合語義信息的城市音頻場(chǎng)景識(shí)別方法。算法首先通過語音活動(dòng)檢測(cè)將語音與環(huán)境聲音分割,然后分別對(duì)語音與環(huán)境聲音進(jìn)行場(chǎng)景類型識(shí)別,再將兩者識(shí)別的場(chǎng)景概率通過信息熵加權(quán)計(jì)算,最終得到融合語義信息的音頻場(chǎng)景類型。該方法有效解決了傳統(tǒng)環(huán)境音頻場(chǎng)景識(shí)別方法對(duì)于易混淆、低區(qū)分度音頻場(chǎng)景分類結(jié)果較差的問題。實(shí)驗(yàn)表明,文章提出的方法對(duì)于籃球場(chǎng)、超市等易混淆城市音頻場(chǎng)景的識(shí)別效果有較為明顯的改進(jìn)作用,同時(shí)識(shí)別結(jié)果也證明了語義信息對(duì)城市音頻場(chǎng)景識(shí)別的重要性。

        關(guān)鍵詞:音頻場(chǎng)景識(shí)別;語義信息;CNN;BiLSTM;信息熵;信息融合

        中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)志碼:A

        0 引言

        城市聲環(huán)境對(duì)人們的生活有著重要影響:一方面,人類和社會(huì)活動(dòng)的聲音監(jiān)測(cè)對(duì)于公共安全有著至關(guān)重要的價(jià)值[1-2];另一方面,聲音數(shù)據(jù)能有效彌補(bǔ)光線灰暗和物體遮擋對(duì)光學(xué)傳感器采集的影響,是全息地圖、視頻監(jiān)控的補(bǔ)充數(shù)據(jù)源之一[3-4]。因此,環(huán)境音頻場(chǎng)景識(shí)別(EASR)得到了來自聲學(xué)、計(jì)算機(jī)科學(xué)、地理信息科學(xué)等領(lǐng)域的關(guān)注。

        現(xiàn)有的各種EASR方法主要針對(duì)環(huán)境聲音的時(shí)間域、頻率域、倒頻譜等特征來進(jìn)行分析與識(shí)別音頻場(chǎng)景[1]。目前在環(huán)境音頻場(chǎng)景識(shí)別領(lǐng)域,主要的方法有基于生成模型的方法[5-6]、基于判別模型的方法[7-9]、基于深度學(xué)習(xí)模型的方法和基于混合模型的方法[10-13]。其中,基于深度學(xué)習(xí)的方法是主流,有著較好的識(shí)別率,比較常用的有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度神經(jīng)網(wǎng)絡(luò)(DNN)等。Hamid等[10]使用多通道i-vector和CNN的混合方法從聲學(xué)場(chǎng)景中捕獲互補(bǔ)信息,這種混合方法利用分?jǐn)?shù)融合技術(shù)從室內(nèi)和室外場(chǎng)景中獲取補(bǔ)充信息,其在2016年國際聲學(xué)場(chǎng)景檢測(cè)及分類挑戰(zhàn)賽中獲得第一名。

        然而,現(xiàn)有的音頻場(chǎng)景識(shí)別方法對(duì)于易混淆的場(chǎng)景仍難以區(qū)分,例如街道交通與餐館、步行街、市集、商店等。這些音頻場(chǎng)景沒有顯著的區(qū)分度,僅憑音頻特征難以將它們準(zhǔn)確地分類[9-14]。這是因?yàn)椋海?)在音頻信號(hào)中,信噪比(SNR)通常非常小,特別是麥克風(fēng)離聲源不太近的情況[2]。(2)音頻場(chǎng)景判別信息存在于低頻范圍[15],難以識(shí)別。(3)環(huán)境聲音場(chǎng)景沒有特定的結(jié)構(gòu),如音素或韻律[16]。這些原因?qū)е乱谆煜?、低區(qū)分度的音頻場(chǎng)景特征差異并不明顯。

        針對(duì)上述問題,本研究擬通過融合語義信息提升音頻場(chǎng)景的識(shí)別效果,針對(duì)城市中人群活動(dòng)密集的典型音頻場(chǎng)景,通過環(huán)境音頻場(chǎng)景識(shí)別方法確定可能的場(chǎng)景,并結(jié)合語音主題分類結(jié)果輔助判斷,區(qū)分易混淆的音頻場(chǎng)景,提升識(shí)別的正確率。

        1 融合語義信息的城市音頻場(chǎng)景識(shí)別方法

        本文提出的融合語義信息的城市音頻場(chǎng)景識(shí)別方法,主要包括下列步驟:(1)音頻分割;(2)環(huán)境音頻場(chǎng)景識(shí)別;(3)語音主題分類;(4)音頻場(chǎng)景協(xié)同判斷。圖1展示了方法的大致流程。

        在真實(shí)城市環(huán)境中,語音與環(huán)境聲音常同時(shí)出現(xiàn)。在音頻場(chǎng)景識(shí)別的研究中,通常不考慮語音信息,但語音中蘊(yùn)含著人類對(duì)周圍地理環(huán)境的評(píng)價(jià)、情感等信息,可以作為語義信息輔助音頻場(chǎng)景判別。本文提出的方法對(duì)同一地點(diǎn)的語音、環(huán)境聲音進(jìn)行信息提取與分類,輸入的音頻數(shù)據(jù)格式為常用音頻格式,例如MP3(.mp3)、WAV(.wav)等,同時(shí)包含語音與環(huán)境聲音。

        1.1 音頻分割

        語音活動(dòng)檢測(cè)(VAD)是數(shù)字語音處理領(lǐng)域不可 或缺的一部分,目的是找到有效語音的端點(diǎn),從而將其與噪聲區(qū)分開來,如圖2所示[17]。VAD算法具有高效、低計(jì)算成本的特點(diǎn),能快速地進(jìn)行語音段識(shí)別。本文通過VAD方法將音頻中的語音與環(huán)境聲音區(qū)分標(biāo)識(shí),并進(jìn)行音頻分割。

        VAD方法的基本思路是根據(jù)語音和環(huán)境聲的不同特征進(jìn)行判斷。由于清音(unvoiced sound)和環(huán)境聲的特性非常相似,但濁音(voiced sound)的特性與環(huán)境聲有明顯的區(qū)別[17]。因此,清音/濁音檢測(cè)方法非常常用,通常算法會(huì)將音頻信號(hào)劃分為發(fā)音部分(voiced)、未發(fā)音部分(unvoiced)和靜默部分(silence)。VAD方法的大致流程如下:

        (1)將音頻信號(hào)進(jìn)行分幀處理;

        (2)從每一幀中提取特征;

        (3)在一個(gè)已知語音和環(huán)境聲音信號(hào)區(qū)域的數(shù)據(jù)幀集合上訓(xùn)練一個(gè)分類器;

        (4)對(duì)未知類別的數(shù)據(jù)幀進(jìn)行分類,判斷其屬于語音信號(hào)還是環(huán)境聲信號(hào)。

        將輸入的音頻記為A,通過VAD方法將音頻分割為語音音頻集S={si|i=0,1,…,n}與環(huán)境音頻集E={ej|j=0,1,…,m},這里n與m分別為分割得到的語音音頻數(shù)量與環(huán)境音頻數(shù)量。

        1.2 環(huán)境音頻場(chǎng)景識(shí)別

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)方法中廣泛使用的架構(gòu)之一,通過CNN方法進(jìn)行環(huán)境音頻場(chǎng)景識(shí)別,可以同時(shí)考慮音頻時(shí)間域與頻率域的特征[10,18-23]。CNN包括輸入層、隱含層與輸出層,其中隱含層包括卷積、池化與全連接層。

        研究采用的CNN模型部分遵循Visual Geometry Group(VGG)風(fēng)格[10],輸入大小是一個(gè)128×345的單通道頻譜圖,如圖3所示。本文使用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含多個(gè)并行的卷積塊,每個(gè)卷積塊使用了不同大小的卷積核,可以幫助模型捕捉不同大小和方向的特征。通過將4個(gè)并行卷積塊的輸出相加,模型可以綜合這些特征以提高性能。在卷積層之后,模型使用全局平均池化層(Global Average Pooling)來減少參數(shù)數(shù)量,降低計(jì)算復(fù)雜度,同時(shí)防止過擬合。模型使用一個(gè)全連接層(Dense層)將特征連接到不同的類別,并通過Softmax激活函數(shù)將輸出轉(zhuǎn)換為概率分布,通過輸出具有最高概率的類別作為預(yù)測(cè)結(jié)果。

        將1.1小節(jié)中分割得到的環(huán)境音頻E切分為1 s長度的短音頻,標(biāo)記后通過上述模型進(jìn)行訓(xùn)練,得到環(huán)境音頻場(chǎng)景識(shí)別預(yù)訓(xùn)練模型。此模型可以識(shí)別一段短音頻ej可能的環(huán)境音頻場(chǎng)景及其概率。輸入環(huán)境音頻集E,得到每段短音頻ej、環(huán)境音頻場(chǎng)景esj及其概率pj,統(tǒng)計(jì)esj得到A的環(huán)境音頻場(chǎng)景集合ESA={esj|j=0,1,…}及其概率PAes={pj|j=0,1,…}。

        1.3 語音主題分類

        語音文本主題分類旨在對(duì)文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記,屬于一種基于分類體系的自動(dòng)分類方法。對(duì)語音文本進(jìn)行場(chǎng)景主題分類,能為音頻場(chǎng)景識(shí)別提供額外的信息。根據(jù)上一節(jié)提取出的環(huán)境音頻場(chǎng)景集合ES,結(jié)合語音文本主題分類結(jié)果,可以對(duì)識(shí)別的音頻場(chǎng)景進(jìn)行校正。在文本分類領(lǐng)域中,雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)算法較為經(jīng)典且準(zhǔn)確度較高,本文采用BiLSTM+Attention對(duì)語音文本進(jìn)行主題分類。BiLSTM由前向LSTM與后向LSTM組成,可以更好地捕捉雙向的語義依賴,非常適合用于對(duì)文本數(shù)據(jù)的建模。Attention機(jī)制[24]是模仿人類注意力而提出的一種解決問題的辦法,簡單地說就是從大量信息中快速篩選出高價(jià)值信息,主要用于解決BILSTM模型輸入序列較長時(shí)很難獲得合理向量表示的問題。Attention的機(jī)制是保留BILSTM的中間結(jié)果,用新的模型對(duì)其進(jìn)行學(xué)習(xí),并將其與輸出進(jìn)行關(guān)聯(lián),從而達(dá)到信息篩選的目的。

        在進(jìn)行模型訓(xùn)練前,需要進(jìn)行文本數(shù)據(jù)增強(qiáng),以識(shí)別更多特征。Easy Data Augmentation(EDA)是一種簡單但有效的文本數(shù)據(jù)增強(qiáng)方法[25], 能提高文本分類任務(wù)的性能。EDA方法有4種數(shù)據(jù)增強(qiáng)操作,包括同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除。EDA方法的優(yōu)點(diǎn)在于:生成增強(qiáng)數(shù)據(jù)時(shí)會(huì)引入一定程度的噪聲,有助于防止模型過擬合;可以通過同義詞替換和隨機(jī)插入操作引入新的詞匯,增強(qiáng)模型的泛化性。

        基于BiLSTM的語音文本主題分類模型訓(xùn)練的具體步驟如下。

        (1)語音轉(zhuǎn)寫及文本預(yù)處理:對(duì)語音音頻訓(xùn)練集Strain進(jìn)行文本轉(zhuǎn)換并進(jìn)行預(yù)處理,包括分詞與去除語氣詞。

        (2)文本數(shù)據(jù)增強(qiáng):采用EDA方法進(jìn)行訓(xùn)練集文本增強(qiáng)。

        (3)特征詞生成唯一編碼:根據(jù)統(tǒng)計(jì)得到的特征詞,生成唯一的編碼。

        (4)將文本轉(zhuǎn)化成編碼序列:將特征詞編碼轉(zhuǎn)化成相同長度的序列,并將序列左側(cè)補(bǔ)齊,得到語音文本訓(xùn)練集Sttrain。

        (5)訓(xùn)練集Sttrain 隨機(jī)化:打亂語音文本訓(xùn)練集Sttrain數(shù)據(jù)的順序,讓數(shù)據(jù)隨機(jī)化,避免模型過擬合。

        (6)訓(xùn)練模型:將Sttrain中數(shù)據(jù)轉(zhuǎn)化為詞向量,構(gòu)建BiLSTM網(wǎng)絡(luò)結(jié)構(gòu),并訓(xùn)練模型,通過Softmax激活函數(shù)將輸出轉(zhuǎn)換為概率分布。

        將1.1小節(jié)中分割得到的語音音頻集S通過音頻轉(zhuǎn)寫方法轉(zhuǎn)換為語音文本數(shù)據(jù)集,通過上述方法進(jìn)行訓(xùn)練,得到語音主題分類預(yù)訓(xùn)練模型。此模型可以識(shí)別一段語音文本可能所在的語音主題場(chǎng)景及其概率。輸入語音音頻集S,得到每段短音頻si的語音主題場(chǎng)景sti及其概率pi,統(tǒng)計(jì)sti得到A的語音主題場(chǎng)景集STA={sti|i=0,1,…}及其概率PAst={pi|i=0,1,…}。

        1.4 音頻場(chǎng)景協(xié)同判斷

        信息熵是信息的期望值,用于描述信息的不確定度[26],如公式1所示。集合信息的熵越大,混亂程度就越高,其包含的信息價(jià)值就越少。信息熵被廣泛地用于信息的量化度量。信息增益是對(duì)信息前后變化量的描述,當(dāng)集合信息的熵減小時(shí),其包含的信息就更有序,價(jià)值更高;反之則信息變得更混沌,信息價(jià)值降低。

        公式(1)中, p 代表概率,這里 “X” 表示進(jìn)行信息熵計(jì)算的集合。在音頻場(chǎng)景識(shí)別領(lǐng)域中,可以按各個(gè)場(chǎng)景類別的占比(占比越高,該類別純度越高)來理解公式(1),其中 N 表示場(chǎng)景類別的數(shù)目,而 pk表示類別 k在子集中的占比。

        語音文本與環(huán)境聲中都蘊(yùn)含場(chǎng)景信息,環(huán)境聲可以獲得所在場(chǎng)景的音頻特征信息,而語音可以獲取額外的實(shí)體信息、屬性信息、關(guān)系信息等。由于城市聲音的復(fù)雜性與多樣性,其包含的語音地理信息十分繁雜。通過信息熵可以衡量語音與環(huán)境聲音中場(chǎng)景信息的價(jià)值,協(xié)同2個(gè)模態(tài)(文本、聲音)的信息進(jìn)行音頻場(chǎng)景的判別。

        本文提出的基于信息熵的音頻地理場(chǎng)景協(xié)同判斷機(jī)制流程如下,具體如圖4所示。

        (1)輸入環(huán)境音頻場(chǎng)景集合ESA={esj|j=0,1,…}、語音主題場(chǎng)景集合STA={sti|i=0,1,…},統(tǒng)計(jì)ESA、STA的場(chǎng)景類別,得到環(huán)境音頻場(chǎng)景類別集合Ses={sa|a=0,1,…}、語音主題場(chǎng)景集合Sst={sb|b=0,1,…}。

        (2)根據(jù)公式(2)分別計(jì)算環(huán)境音頻場(chǎng)景信息熵H(ES)、語音主題場(chǎng)景信息熵H(ST),公式(3)計(jì)算場(chǎng)景k的總概率。

        其中,N表示X集合中出現(xiàn)的場(chǎng)景類別的數(shù)目,nk表示場(chǎng)景k在X集合中出現(xiàn)的次數(shù),nsum表示在X集合中所有場(chǎng)景的音頻段數(shù)目,pk表示短音頻ej的場(chǎng)景k概率。

        (3)根據(jù)公式(4)—(6)計(jì)算Ses中所有場(chǎng)景的加權(quán)概率Pweight,Pweight最大的場(chǎng)景即為音頻A的場(chǎng)景。

        其中,Penvironment表示場(chǎng)景在環(huán)境聲中的總概率,Pspeech表示場(chǎng)景在語音中的總概率,當(dāng)Ses中場(chǎng)景類別不存在Sst時(shí),Pspeech=0。

        2 實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)采集區(qū)域位于南京市機(jī)場(chǎng)、地鐵、超市、體育館、圖書館等人流密集區(qū)域。對(duì)于采集的音頻數(shù)據(jù),需進(jìn)行語音與環(huán)境聲音分割以訓(xùn)練語音主題分類與環(huán)境音頻場(chǎng)景分類模型。在實(shí)驗(yàn)區(qū)內(nèi),共采集了將近100 h的音頻,包含10個(gè)場(chǎng)景類別的語音與環(huán)境聲音。經(jīng)過音頻分割處理,去除了部分無意義的音頻,最后進(jìn)行預(yù)訓(xùn)練的音頻數(shù)據(jù)集如表1所示。這些數(shù)據(jù)通過索尼(SNOY)數(shù)碼錄音棒ICD-TX650采集,原始音頻格式為WAV。訓(xùn)練開始前,將音頻數(shù)據(jù)集以4∶1∶1 的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        2.2 實(shí)驗(yàn)結(jié)果

        將環(huán)境音頻場(chǎng)景識(shí)別的結(jié)果、語音主題場(chǎng)景識(shí)別結(jié)果、協(xié)同判斷的場(chǎng)景結(jié)果與真實(shí)場(chǎng)景結(jié)果與人工識(shí)別結(jié)果進(jìn)行對(duì)比,以驗(yàn)證方法的有效性。進(jìn)行場(chǎng)景識(shí)別的專家經(jīng)過高等教育且長期生活在南京市,對(duì)于音頻場(chǎng)景的辨別能力較強(qiáng)。

        本文方法識(shí)別的結(jié)果如表2所示。與真實(shí)場(chǎng)景對(duì)比可知,在此實(shí)驗(yàn)中有14個(gè)地理場(chǎng)景被正確識(shí)別, 總體準(zhǔn)確率為87.5%。從識(shí)別結(jié)果可以看出,機(jī)場(chǎng)、食堂、超市等語音特征明顯的場(chǎng)景識(shí)別準(zhǔn)確率較高,而籃球場(chǎng)、排球場(chǎng)等區(qū)分度較低的場(chǎng)景識(shí)別正確率較低。

        2.3 實(shí)驗(yàn)結(jié)果分析

        本文通過消融實(shí)驗(yàn)驗(yàn)證融合語義信息的城市音頻場(chǎng)景識(shí)別方法的有效性。去除語音數(shù)據(jù)輸入及BiLSTM語音分類模塊,直接通過CNN環(huán)境音頻場(chǎng)景識(shí)別模型進(jìn)行音頻場(chǎng)景分類,測(cè)試結(jié)果如表3所示。

        由表3可知,與融合語義信息的城市聲場(chǎng)景識(shí)別方法相比,直接使用環(huán)境音頻特征的場(chǎng)景識(shí)別方法的準(zhǔn)確率降低。由此可知,使用語義信息能提升城市音頻場(chǎng)景的識(shí)別準(zhǔn)確率,在本實(shí)驗(yàn)數(shù)據(jù)集上有18.75%的提升。

        3 結(jié)語

        本文針對(duì)音頻場(chǎng)景識(shí)別領(lǐng)域中城市場(chǎng)景難以區(qū)分的問題,提出了一種融合語義信息的城市音頻場(chǎng)景識(shí)別方法。該方法通過補(bǔ)充場(chǎng)景語義信息,并利用信息熵權(quán)重來計(jì)算場(chǎng)景的概率,綜合考慮語音與環(huán)境聲音中的場(chǎng)景信息,從而提升音頻場(chǎng)景識(shí)別的精度。實(shí)驗(yàn)證明,本文提出的方法對(duì)于籃球場(chǎng)、超市等音頻場(chǎng)景識(shí)別結(jié)果有較為明顯的改進(jìn)。本文的方法同樣可以推廣到其他易混淆音頻場(chǎng)景,提升音頻場(chǎng)景識(shí)別結(jié)果的正確率。

        參考文獻(xiàn)

        [1]CHANDRAKALA S,JAYALAKSHMI S L.Environmental audio scene and sound event recognition for autonomous surveillance:a survey and comparative studies[J].ACM Computing Surveys(CSUR),2019(3):1-34.

        [2]CROCCO M,CRISTANI M,TRUCCO A,et al.Audio surveillance:a systematic review[J].ACM Computing Surveys(CSUR),2016(4):1-46.

        [3]李權(quán).面向安全監(jiān)控的異常聲音識(shí)別的研究[D].長沙:湖南師范大學(xué),2015.

        [4]余卓淵,閭國年,張夕寧,等.全息高精度導(dǎo)航地圖:概念及理論模型[J].地球信息科學(xué)學(xué)報(bào),2020(4):760-771.

        [5]RABAOUI A,LACHIRI Z,ELLOUZE N.Using HMM-based classifier adapted to background noises with improved sounds features for audio surveillance application[J].International Journal of Computer and Information Engineering,2009(11):2609-2618.

        [6]MESAROS A,HEITTOLA T,VIRTANEN T.TUT database for acoustic scene classification and sound event detection:2016 24th European Signal Processing Conference(EUSIPCO),29 Aug.-2 Sept.,2016[C].New York:IEEE,2016.

        [7]MESAROS A,HEITTOLA T,DIMENT A,et al.DCASE 2017 challenge setup:tasks,datasets and baseline system:DCASE 2017-Workshop on Detection and Classification of Acoustic Scenes and Events,2017,November 16,2017[C].New York:IEEE,2017.

        [8]DHANAKALASHMI P,PALANIVEL S,RAMALINGAM V.Classification of audio signals using AANN and GMM[J].Applied Soft Computing,2011(1):716-723.

        [9]RAKOTOMAMONJY A,GASSO G.Histogram of gradients of time-frequency representations for audio scene classification[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014(1):142-153.

        [10]HAMID E Z,BERNHARD L,MATTHIAS D,et al.A hybrid approach with multi-channel i-vectors and convolutional neural networks for acoustic scene classification:2017 25th European Signal Processing Conference(EUSIPCO),28 Aug.-2 Sept.,2017[C].New York:IEEE,2017.

        [11]PETETIN Y,LAROCHE C,MAYOUE A.Deep neural networks for audio scene recognition:2015 23rd European Signal Processing Conference(EUSIPCO),31 Aug.-4 Sept.,2015[C].New York:IEEE,2015.

        [12]CHIT K M,LIN K Z.Audio-based action scene classification using HMM-SVM algorithm[J].International Journal of Advanced Research in Computer Engineering & Technology,2013(4):226865838.

        [13]ZIEGER C,OMOLOGO M.Acoustic event classification using a distributed microphone network with a GMM/SVM combined algorithm:INTERSPEECH 2008-9th Annual Conference of the International Speech Communication Association,September 22-26,2008[C].New York:EI,2008.

        [14]NTALAMPIRAS S,POTAMITIS I,F(xiàn)AKOTAKIS N.Probabilistic novelty detection for acoustic surveillance under real-world conditions[J].IEEE Transactions on Multimedia,2011(4):713-719.

        [15]CHACHADA S,KUO C J.Environmental sound recognition:a survey[J].APSIPA Transactions on Signal and Information Processing,2014(3):1-9.

        [16]COWLING M,SITTE R.Comparison of techniques for environmental sound recognition[J].Pattern Recognition Letters,2003(15):2895-2907.

        [17]YANG X,TAN B,DING J,et al.Comparative study on voice activity detection algorithm:2010 International Conference on Electrical and Control Engineering,June 25-27,2010[C].New York:IEEE,2010.

        [18]HAN Y,LEE K.Convolutional neural network with multiple-width frequency-delta data augmentation for acoustic scene classification:IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events[C].New York:IEEE,2016.

        [19]PHAN H,KOCH P,HERTEL L,et al.CNN-LTE:a class of 1-X pooling convolutional neural networks on label tree embeddings for audio scene classification:2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),June 16,2017 [C].New York:IEEE,2017.

        [20]DONG X,YIN B,CONG Y,et al.Environment sound event classification with a two-stream convolutional neural network[J].IEEE Access,2020(8)8:125714-125721.

        [21]MUSHTAQ Z,SU S.Environmental sound classification using a regularized deep convolutional neural network with data augmentation[J].Applied Acoustics,2020,167:107389.

        [22]SHARMA J,GRANMO O,GOODWIN M.Environment Sound Classification Using Multiple Feature Channels and Attention Based Deep Convolutional Neural Network:INTERSPEECH,October 25-30,2020[C].New York:IEEE,2020.

        [23]SU Y,ZHANG K,WANG J,et al.Environment sound classification using a two-stream CNN based on decision-level fusion[J].Sensors,2019(7):1733.1-1733.15.

        [24]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[EB/OL].(2023-08-02)[2024-05-23].https://arxiv.org/pdf/1706.03 762.pdf.

        [25]WEI J,ZOU K.EDA:easy data augmentation techniques for boosting performance on text classification tasks[EB/OL].(2019-01-31)[2024-05-23].https://arxiv.org/pdf/1901.11196v1.

        [26]SHANNON C E.A mathematical theory of communication[J].The Bell System Technical Journal,1948(3):379-423.

        Urban audio scene recognition method integrating semantic information

        Abstract: In response to the problem of urban scenes being easily confused and difficult to distinguish in the field of audio scene recognition, this paper proposes a city audio scene recognition method that integrates semantic information. The algorithm first segments speech and environmental sounds through voice activity detection, then identifies the scene types for both speech and environmental sounds separately, and finally calculates the scene probabilities of both by weighted information entropy to obtain the audio scene type that integrates semantic information. This method effectively solves the problem of poor classification results for easily confused and low discrimination audio scenes in traditional environmental audio scene recognition methods. Experiments show that the proposed method has a significant improvement effect on the recognition of easily confused urban audio scenes such as basketball courts and supermarkets, and the recognition results also prove the importance of semantic information for city audio scene recognition.

        Key words: audio scene recognition; semantic information; CNN; BiLSTM; information entropy; information fusion

        免费黄网站一区二区三区| 国产成人精品av| 91在线在线啪永久地址| 日本av在线精品视频| 开心久久婷婷综合中文字幕 | 婷婷色香五月综合激激情| 无遮无挡三级动态图| 久久精品视频按摩| 日本不卡视频一区二区| 国产精品人妻一区二区三区四| 五月天精品视频在线观看| 亚洲大尺度动作在线观看一区| 精品高清一区二区三区人妖| 大地资源高清在线视频播放| 亚洲国产综合精品 在线 一区| 丰满熟妇人妻无码区| av新型国产在线资源| 亚洲av无码专区亚洲av网站| 美丽人妻被按摩中出中文字幕| 中文字幕日韩人妻高清在线| 91偷拍与自偷拍亚洲精品86| 国产人妻精品无码av在线| 亚洲无码一二专区| 色婷婷日日躁夜夜躁| 国产av成人精品播放| 国产AV无码无遮挡毛片| 一本色道久久88加勒比| 亚洲av无码乱码国产精品| 亚洲精品不卡电影| 国产精品成人久久a级片| 亚洲成熟女人毛毛耸耸多| 久久久久久久久久久国产| 精品日韩欧美| 与最丰满美女老师爱爱视频| 少妇被粗大的猛烈进出免费视频 | 亚洲男人天堂av在线| 国产激情视频在线观看你懂的| 日本区一区二区三视频| 成人a级视频在线观看| 国产女奸网站在线观看| 蜜臀av一区二区三区|