亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聲音-圖像的跨模態(tài)處理方法綜述

        2018-08-02 06:15:50鄭婉蓉謝凌云
        關(guān)鍵詞:分類特征信號(hào)

        鄭婉蓉,謝凌云

        (中國傳媒大學(xué) 傳播聲學(xué)研究所,北京100024)

        1 引言

        傳統(tǒng)的聲音信號(hào)(無論是樂音還是語音)處理中,一般都是獲取一維的波形數(shù)據(jù),進(jìn)行與聲音有關(guān)的特征分析或數(shù)字信號(hào)處理。同樣地,在圖像信號(hào)處理中,所采用的特征和方法也是直接和二維圖像相關(guān)的。這兩種視聽覺模態(tài)的輸入信息,一直以來都是在各自的領(lǐng)域進(jìn)行獨(dú)立的研究。近年來,視聽交互和融合的心理感知現(xiàn)象在視聽覺的信號(hào)分析領(lǐng)域得到越來越多的重視,研究人員的分析視角也逐漸地從一維聲音信號(hào)和二維圖像信號(hào)的獨(dú)立分開處理轉(zhuǎn)向創(chuàng)造性的跨模態(tài)處理。聲音(圖像)的信號(hào)處理方法,被運(yùn)用到另一模態(tài)的圖像(聲音),從而試圖從一個(gè)模態(tài)上挖掘有用的信息后再應(yīng)用到另一個(gè)模態(tài)上。其中最重要的中介就是語譜圖。

        語譜圖將聲音的頻譜隨時(shí)間變化的信息展現(xiàn)在一個(gè)二維平面圖上,其中橫軸是時(shí)間,縱軸是頻率,某一點(diǎn)處顏色的深淺代表了對應(yīng)時(shí)刻和頻率的信號(hào)能量大小,也被稱為聲譜圖(spectrogram)。它雖然反映了聲音信號(hào)的特征,但是卻和二維圖像具有相同的屬性。以它為中介,可以完成圖像到聲音和聲音到圖像的雙向轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的。

        本文接下來一方面介紹了從語譜圖的角度進(jìn)行聲音分類的研究內(nèi)容及進(jìn)展情況,包括用于音樂流派分類圖像特征類型及其分類的精確度,對普通聲音事件分類的方法及其結(jié)果。另一方面對圖像到聲音的相互轉(zhuǎn)換及關(guān)系等相關(guān)工作進(jìn)行了介紹,包括通過修改聲音來改變圖像或者通過圖像處理來改變聲音等。同時(shí)提出了基于語譜圖的圖像處理重建語音,以達(dá)到語音增強(qiáng)目的的處理方法。

        2 基于語譜圖像的聲音信號(hào)分類研究

        信息時(shí)代早期以來,數(shù)字音樂已成為消費(fèi)類型最多的媒體之一,對于音樂數(shù)據(jù)的自動(dòng)分析相應(yīng)的越來越重要。音樂流派是人類為確定音樂風(fēng)格而創(chuàng)建的分類標(biāo)簽,是提高音樂檢索的一個(gè)重要描述信息。傳統(tǒng)音樂流派分類的方法大多都以音樂信號(hào)為基礎(chǔ),近幾年來,相當(dāng)一部分關(guān)于音樂的自動(dòng)流派分類工作大部是基于內(nèi)容的,即從數(shù)字音頻信號(hào)中提取有代表性的短時(shí)音頻特征,較為頻繁使用的特征中有音色、節(jié)拍、音高等,再利用模式識(shí)別以及分類算法處理特征達(dá)到音樂流派分類的目的。例如Tzanetakis[1]根據(jù)聲音的音色、節(jié)奏、韻律、MFCC系數(shù)等特征對10個(gè)音樂流派進(jìn)行分類,達(dá)到了61%的分類識(shí)別率。國內(nèi)外有相當(dāng)一部分研究如Kosina、Grimaldi都做了類似的工作。2011年Costa[2]提出了一種新的音樂流派分類方法。

        Costa提出的音樂流派分類方法是將聲音信號(hào)的時(shí)頻表示轉(zhuǎn)換為紋理圖像,提取圖像特征來構(gòu)建新的音樂流派分類系統(tǒng)。具體是將音頻信號(hào)轉(zhuǎn)換為語譜圖,然后從視覺表示中提取特征,對圖像特征向量進(jìn)行訓(xùn)練分類,從而達(dá)到音樂流派分類的目的。音樂信號(hào)可能包括類似的樂器和類似的節(jié)奏模式,使得語譜圖圖像中有相似區(qū)域。通過對圖像進(jìn)行分區(qū),提取出局部特征信息,獲得每種音樂流派的突出特點(diǎn)再進(jìn)行分類。

        接著,Costa又利用灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)來對音樂信號(hào)進(jìn)行分類訓(xùn)練,GLCM是特定空間(包括距離和角度)中兩個(gè)灰度出現(xiàn)的聯(lián)合概率分布,得到的結(jié)果與Lopes[3]的結(jié)果相比,分類正確率提高了7個(gè)百分點(diǎn)。

        2012年,Costa[4]從語譜圖提取了圖像特征:灰度共生矩陣和局部二值模式(Local Binary Patterns,LBP)。LBP是用來描述圖像局部紋理特征的算子,它反映的內(nèi)容是每個(gè)像素點(diǎn)與其周圍像素點(diǎn)的對比信息,或者說差異。結(jié)果表明用LBP訓(xùn)練的SVM分類器能夠?qū)崿F(xiàn)80%的識(shí)別率,優(yōu)于用GLCM訓(xùn)練。具體見表1。

        表1 流派分類的結(jié)果對比

        2013年Costa[5]進(jìn)一步利用Gabor濾波器和LPQ(Local Phase Quantization,局部相位量化)描述符來表示圖像紋理特征,得到新的音樂流派分類識(shí)別率。Gabor函數(shù)是一個(gè)用于邊緣提取的線性濾波器。Gabor濾波器的頻率和方向表達(dá)同人類視覺系統(tǒng)類似。用LPQ訓(xùn)練的SVM分類器達(dá)到高于80%的識(shí)別率。結(jié)果參見表2和表3。

        實(shí)驗(yàn)的過程方法都是類似的,數(shù)據(jù)集使用的是LATIN MUSIC DATABASE(LMD),圖像取自歌曲前中后三個(gè)片段的語譜圖,分別采用全局和局部兩種特征進(jìn)行訓(xùn)練分類,訓(xùn)練分類使用了三重交叉驗(yàn)證。

        表2 不同圖像特征的結(jié)果對比

        表3 不同圖像特征的結(jié)果與傳統(tǒng)方法及比賽結(jié)果對比

        由結(jié)果可以看出,提出的基于語譜圖圖像特征的方法表現(xiàn)出了良好的分類效果,特別是LBP和LPQ,存在的不足是使用的特征向量維數(shù)過多,造成計(jì)算時(shí)的冗雜,例如LBP的特征向量唯獨(dú)為59。因此在優(yōu)化識(shí)別率的基礎(chǔ)上,算法效率也需要加強(qiáng)。

        聲音事件通常具有更獨(dú)特的時(shí)間頻率表示,能量集中在少量的頻譜分量上。這使得它們更適合于基于它們的視覺特征進(jìn)行分類,因此可以從圖像處理的相關(guān)領(lǐng)域中得到啟發(fā)。2014年,Dennis[6]介紹了最近6種根據(jù)語譜圖進(jìn)行聲音事件分類的方法,包括一個(gè)基于幀的直方圖特征(Histogram of Oriented Gradients,HOG),三個(gè)全局特征語譜圖圖像特征(Spectrogram Image Feature,SIF)、子帶功率分布圖像特征(Subband Power Distribution Image Feature,SPD-IF)、聲譜縫模式(Spectrographic Seam Patterns,SSP),兩個(gè)局部特征包括時(shí)頻有序BOVW(Ordered Spectro-Temporal Bag-of-Visual-Words)和尺度不變特征變換BOVW(SIFT BOVW)。Dennis分析了這6種方法在對50種不同環(huán)境聲音中的表現(xiàn)的性能,聲音數(shù)據(jù)來自RWCP(Real Word Computing Partnershi),所選擇的聲音事件涵蓋了廣泛,包括木制,金屬和瓷器撞擊,摩擦聲以及其他聲音如鈴聲,電話和哨聲等。使用了NOISEX’92中的語噪、工廠噪聲、飛機(jī)駕駛艙噪聲作為環(huán)境噪聲。表4給出在不同方法在聲音事件分類任務(wù)中的效果比較。

        表4 不同聲音分類方法結(jié)果對比

        其中ETSI Advanced Front End(AFE)和Multi-Conditional Training(MCT)是基于幀的MFCC-HMM系統(tǒng),兩個(gè)分類系統(tǒng)都使用基于39維的基于幀的MFCC特征,后六個(gè)方法是基于語譜圖圖像處理方法的。使用有序BOVW方法的性能明顯優(yōu)于無序SIFT BOVW技術(shù)。整體性能表現(xiàn)最好的方法是SPD-IF,SPD-IF方法是通過頻譜圖的子帶分布捕獲時(shí)間信息,與SIF相比,信號(hào)和噪聲信息在SPD表現(xiàn)中更容易分離。SPD方法沒有精確捕獲聲音中時(shí)間信息的排序,但它可以為特征提取提供一個(gè)魯棒和區(qū)分性的基礎(chǔ),優(yōu)于現(xiàn)有MCT技術(shù)。總的來看將語譜圖信息結(jié)合到特征中對于聲音事件分類是有益的。

        3 圖像與聲音的相互轉(zhuǎn)換

        3.1 從圖像到聲音

        Kawamura[7]在2016年發(fā)表在《applied acoustics》上的文章里討論了關(guān)于“圖像-聲音-圖像”的變換方法。他把一般圖像視為某個(gè)聲音的語譜圖進(jìn)行處理,將任意的圖像進(jìn)行IFFT變換得到一個(gè)一維的聲音數(shù)據(jù),對該聲音數(shù)據(jù)進(jìn)行相應(yīng)的音頻信號(hào)處理,如延時(shí)、濾波、改變相位等技術(shù)來修改聲音,再將一維的聲音數(shù)據(jù)進(jìn)行FFT,得到產(chǎn)生相應(yīng)改變的語譜圖圖像,具體過程如圖1。

        圖1 圖像-聲音-圖像的轉(zhuǎn)換

        圖像經(jīng)過IFFT后得到聲音,對聲音進(jìn)行的基本運(yùn)算,包括乘、延遲、疊加等。結(jié)果發(fā)現(xiàn)乘法算子可以改變信號(hào)幅度,由此改變圖像的明亮度。信號(hào)乘的系數(shù)越大,重建圖像亮度越高。時(shí)域延遲會(huì)使圖像右移,特定情況圖像會(huì)減損。聲音疊加時(shí),相位對結(jié)果影響很大,當(dāng)且僅當(dāng)兩信號(hào)相位相同時(shí),信號(hào)相加得到的頻譜(圖像)也是相加的,否則圖像會(huì)產(chǎn)生失真。作者還對聲音進(jìn)行了常見的音頻信號(hào)處理,經(jīng)過不同類型的濾波器(高通、低通、帶寬)后恢復(fù)的圖像有相應(yīng)不同的遮擋效果,經(jīng)過FIR或IIR濾波器后恢復(fù)的圖像有延遲重疊效果,陷波濾波器可以產(chǎn)生寬度和位置可變的黑線條。脈沖聲經(jīng)過圖像重建產(chǎn)生豎直線;正弦信號(hào)則顯示水平線,這與傅里葉變換結(jié)果一致。

        以上的研究把圖像與聲音信號(hào)處理之間關(guān)聯(lián)起來,采用聲音信號(hào)處理的方法來改變圖像。實(shí)際應(yīng)用上也可以借此利用通感,讓盲人經(jīng)過訓(xùn)練后,通過聲音來感受圖像的變化。這種思維角度值得進(jìn)一步研究。

        3.2 從聲音到圖像

        基于以上研究,我們提出了一種新的基于譜圖的語音增強(qiáng)方法。其主要思想是將帶噪語音聲音經(jīng)過STFT之后得到語譜圖數(shù)據(jù),將語譜圖轉(zhuǎn)換成灰度圖像后,對其進(jìn)行圖像處理后再進(jìn)行逆短時(shí)傅里葉變換得到重建的聲音。實(shí)驗(yàn)中采用的方法均基于灰度變換(Gray-Scale Transform,GST)。GST是對圖像像素直接進(jìn)行處理,可以根據(jù)實(shí)際需要來擴(kuò)展或者壓縮灰度,起到圖像增強(qiáng)的作用。實(shí)驗(yàn)主要采用了兩種灰度變換方法,一種是gamma變換,一種是對比度拉伸。

        實(shí)驗(yàn)語料采用IEEE語料庫中的10個(gè)句子,每個(gè)句子7~12個(gè)單詞。噪聲類型選擇了3種,分別為白噪聲、speech-shaped noise和babble噪聲。所有信號(hào)設(shè)置采樣率16kHz,16位深度。噪聲和語音設(shè)置了3種信噪比:-5dB,0dB,5dB。圖像處理方法使用了gamma變換和對比圖拉伸兩種,并使用維納濾波、譜減以及最小均方誤差估計(jì)三種傳統(tǒng)增強(qiáng)方法作為對照。

        經(jīng)過圖像處理方法重建的語音以及經(jīng)過傳統(tǒng)方法增強(qiáng)語音不同方法處理后得到的語音后,分別對處理后的語音進(jìn)行信噪比(SNR)、分段信噪比(SEG-SNR)以及主觀語音質(zhì)量評估(PESQ)的計(jì)算,并對結(jié)果進(jìn)行分析,其中PESQ的結(jié)果見圖2。

        圖2 不同語音增強(qiáng)方法下的PESQ

        PESQ是 ITU-T P.862建議書提供的客觀MOS值評價(jià)方法。如圖2所示,在PESQ的表現(xiàn)上,圖像處理方法的去噪效果明顯好于傳統(tǒng)方法。傳統(tǒng)去噪方法信噪比越低,對PESQ提升的效果越差,而圖像處理方法對PESQ的提升則相對穩(wěn)定。

        SNR是語音信號(hào)的整體信噪比,從長時(shí)信噪比的提高的結(jié)果上來看,通過圖像處理方法重建的聲音雖然相對于原始加噪語音有所提升,但相比于傳統(tǒng)方法沒有表現(xiàn)出明顯的優(yōu)勢,在SNR為5dB的情況下表現(xiàn)稍差,其他情況與傳統(tǒng)方法的效果近似。SEG-SNR是對信號(hào)的每一幀進(jìn)行計(jì)算得出的平均信噪比值。圖像處理方法在這個(gè)參數(shù)的表現(xiàn)上相對傳統(tǒng)方法沒有優(yōu)勢。

        由于不同的窗口大小得到的語譜圖具有不同的時(shí)間分辨率和頻率分辨率,考慮的到這種特性可能會(huì)影響GST方法的結(jié)果,在實(shí)驗(yàn)中用分別使用了6種大小的窗長64/128/256/512/1024/2048進(jìn)行了測試,發(fā)現(xiàn)窗口大小對增強(qiáng)語音質(zhì)量沒有顯著影響。

        這種聲音到圖像的映射方法,連接了圖像信號(hào)處理方法和聲音數(shù)據(jù)。在這種情況下,時(shí)間的維度在聲音處理中消失,被引入到圖像處理中,形成了圖像二維矩陣的一個(gè)維度。從一個(gè)新的角度去處理問題,得到了意想不到的效果,這對聲音的處理有了新的啟發(fā)。

        4 結(jié)論

        利用語譜圖的圖像特征對音樂流派或聲音事件進(jìn)行分類具有良好的效果;通過修改聲音可以達(dá)到改變圖像特征的目的;實(shí)驗(yàn)證明了從圖像角度來處理數(shù)據(jù)可以達(dá)到語音去噪效果。這種聲音-圖像跨模態(tài)的處理思想,連接了圖像處理技術(shù)和聲音處理技術(shù)。從聲音被識(shí)別為圖像或圖像被識(shí)別為聲音的全新視角來看待視聽覺信號(hào)處理,這種新的方法會(huì)為數(shù)字信號(hào)處理中的跨模態(tài)研究提供新的思路,也能夠幫助視聽交互心理感知研究的量化建模。

        猜你喜歡
        分類特征信號(hào)
        分類算一算
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        日日天干夜夜狠狠爱| 四川少妇大战4黑人| 大地资源中文在线观看官网第二页| 中文字幕亚洲乱码熟女一区二区| 日韩亚洲中文图片小说| 日本人妖一区二区三区| 亚洲黄片av在线播放| 国99精品无码一区二区三区| 2021国产精品国产精华| 国产啪精品视频网给免丝袜 | 亚洲另类国产精品中文字幕| 精品一区二区三区四区国产| 国内少妇毛片视频| 在线亚洲人成电影网站色www| 亚洲国产精品久久九色| 国产好片日本一区二区三区四区| 青青草视全福视频在线| 亚洲伦理第一页中文字幕| 熟女无套内射线观56| 亚洲精品中国国产嫩草影院美女| 亚洲国内精品一区二区在线| 在线麻豆精东9制片厂av影现网| 国产在线精品一区二区在线看| 欧美国产日本精品一区二区三区 | 国内国外日产一区二区| 日本三级香港三级人妇99| 自慰无码一区二区三区| 欧美综合图区亚洲综合图区| 亚洲熟少妇一区二区三区| 亚洲人成网网址在线看| 18女下面流水不遮图| 国产成人午夜福利在线小电影| 一区二区三区日韩毛片| 内射夜晚在线观看| 人人爽久久涩噜噜噜丁香| 狼人国产精品亚洲| 日本成年少妇人妻中文字幕| 一区二区三区视频亚洲| 国产成人精品午夜二三区波多野 | 欧美激情αv一区二区三区| 免费在线观看视频专区|