亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稀疏字典的聽覺顯著性計算①

        2016-06-15 03:51:11陳曦夏秀渝四川大學電子信息學院成都610064
        計算機系統(tǒng)應(yīng)用 2016年4期
        關(guān)鍵詞:顯著性

        陳曦,夏秀渝(四川大學 電子信息學院,成都 610064)

        ?

        基于稀疏字典的聽覺顯著性計算①

        陳曦,夏秀渝
        (四川大學 電子信息學院,成都 610064)

        摘 要:聽覺注意顯著性計算模型是研究聽覺注意模型的基本問題,顯著性計算中選擇合適的特征是關(guān)鍵,本文從特征選擇的角度提出了一種基于稀疏字典學習的聽覺顯著性計算模型.該模型首先通過K-SVD字典學習算法學習各種聲學信號的特征,然后對字典集進行歸類整合,以選取的特征字典為基礎(chǔ),采用OMP算法對信號進行稀疏表示,并直接將稀疏系數(shù)按幀合并得到聲學信號的聽覺顯著圖.仿真結(jié)果表明該聽覺顯著性計算模型在特征選擇上更符合聲學信號的自然屬性,基于基礎(chǔ)特征字典的顯著圖可以突出噪聲中具有結(jié)構(gòu)特征的聲信號,基于特定信號特征字典的顯著圖可以實現(xiàn)對特定聲信號的選擇性關(guān)注.

        關(guān)鍵詞:聽覺選擇性注意; 聽覺顯著圖; 顯著性; 字典學習

        注意是一種在指定時間內(nèi)大腦關(guān)注某種特定信息的能力,根據(jù)參與器官的不同,可以分為聽覺注意、視覺注意等.注意有兩個基本特征: 指向性和集中性.指向性主要指選擇出現(xiàn)在同一時間的各種刺激; 集中性主要指對干擾的抑制,其產(chǎn)生的范圍以及持續(xù)時間取決于外部刺激的特點和人的主觀因素.學界普遍認為聽覺注意是由自底向上(Bottom-Up)外源性聽覺注意和自頂向下(Top-Down)內(nèi)源性聽覺注意的兩種因素所驅(qū)動[1-3].自頂向下的注意因受到具體任務(wù)和人的主觀意識的影響,其研究結(jié)果往往呈現(xiàn)出較大的差異性[4-7],并依賴自底向上的注意方式對信息的提取加工起作用.

        研究聽覺注意計算模型無論對生理心理學和計算機科學都具有重要的理論意義和實用價值.目前國內(nèi)外對聽覺注意計算模型的研究主要集中在外源性聽覺注意上,即Bottom-Up聽覺顯著性模型.現(xiàn)有的聽覺顯著性模型主要參考了經(jīng)典Itti視覺顯著圖計算模型.該模型提取圖像的三個初級視覺特征(顏色,強度和方位),然后對每一個特征進行中央周圍差和標準化得到視覺顯著圖.近年來國內(nèi)外還提出用傅里葉變換、小波分析等算法對圖像的紋理特征及運動顯著圖進一步強化[8,9].Kayser等人[10]借鑒Itti模型首先提出了一個聽覺顯著圖計算模型,他們將聲音信號通過聽覺外周計算模型得到聽覺圖譜,然后對聽覺圖譜進行不同尺度的高斯濾波提取圖像的強度、時間對比度、頻率對比度等特征,整合各種特征得到聽覺顯著圖,該計算模型初步實現(xiàn)了顯著圖的計算.Emine等人[11]在Kayser模型的基礎(chǔ)上增加了波形包絡(luò),譜圖,速度,帶寬,和音高等特征信息,同時對頻率通道分別處理得到聲音信號的顯著圖,將特征提取方法加以細化計算顯著圖.文獻[12]提出在音樂背景中對聲音顯著性特征進行提取的方法,該方法對聲源信號限定了內(nèi)容.目前的聽覺顯著性計算模型主要采用了人工選取的時域、頻域、能量等各種聲學特征,采用一定的合并策略合成最終顯著圖,但在表示聲學信號自然屬性的準確性和反映聽覺感知特性的完整性上存在缺陷.

        本文對自底而上和自頂向下聽覺顯著性計算模型進行研究.根據(jù)Itti模型結(jié)構(gòu)框架,其中特征選取是關(guān)鍵,但聽覺顯著性經(jīng)典模型多來源于視覺模型,選取的特征不一定符合聲音自然屬性.因而,本文提出通過稀疏字典學習算法從自然聲音中自動學習各種聲學特征,并選擇性地利用這些特征計算聽覺顯著圖,從而得到更符合聽覺感知特性的顯著性表示.

        1 聽覺顯著性計算模型

        1.1經(jīng)典聽覺顯著性計算模型

        自底向上聽覺顯著性計算主要是對環(huán)境中“突?!甭曇舻捻憫?yīng),最后以顯著圖的方式凸顯值得關(guān)注的聲音.已有的聽覺顯著性提取模型大多都基于Itti的圖像顯著模型框架,以Kayser[10]提出的聽覺顯著性提取模型為例,其原理流程圖如圖1所示.

        圖1 自底向上聽覺注意模型框圖

        Kayser模型在聽覺前期處理中將聲音信號轉(zhuǎn)換成語譜圖,再通過二維高斯濾波器在不同尺度上提取語譜圖的強度、頻率對比度、時間對比度等特征,利用中心-周邊差(center-surround difference)算子計算各特征的顯著度并進行跨尺度整合,最后通過各特征顯著度的線性合并得到聲學信號的聽覺顯著圖.該方法一度成為計算聽覺顯著圖的基礎(chǔ)模型,隨后Kalinli[13]等人在Kayser模型的基礎(chǔ)上提出依賴詞法和句法信息的使用概率作為判別條件,采用不同的顯著圖歸一化算法計算聲學信號的聽覺顯著圖.Duangudom[14]模型主要利用了信號的時頻能量和時頻調(diào)制特性,考慮聽覺譜圖中時頻接受域的輸出并計算出信號的聽覺顯著圖.

        上述文獻通過增加符合聽覺特性的特征對模型加以完善,這些特征都是基于經(jīng)驗人工選取的,選取工作比較困難且計算的有效性較低.為突出聽覺特性和聲音的自然屬性,本文將聲音信號送入更貼近人耳聽覺特性的Mel濾波器組得到聲音信號的聽覺圖譜,然后通過字典學習算法從自然聲音中自動學習各種典型的聽覺特征,進而形成聽覺顯著圖,該方法避免了傳統(tǒng)人工選取特征的困難,更符合聽覺感知特性.

        1.2基于稀疏字典的聽覺顯著性計算

        顯著圖計算關(guān)鍵是選取合適的特征,除根據(jù)先驗知識人工選擇外,還可通過學習的方法獲得自然聲音的聽覺特征,利用其特征計算得到的顯著圖更符合聲源的信息特點,減小人工干涉的影響,本文利用稀疏字典K-SVD學習算法獲取聲學信號特征.

        1.2.1信號稀疏表示及K-SVD算法

        語音信號具有典型的稀疏性,利用稀疏表示就能提取出信號特點,僅用數(shù)個特征值即可.目前K-SVD算法在處理稀疏信號上應(yīng)用較廣,能夠簡便高效地獲得信號的特征原子.

        設(shè)聽覺譜信號為Y,字典為D和系數(shù)矩陣A,則K-SVD的目標函數(shù)為:

        ① 稀疏分解

        解決式(2)可用正交匹配追蹤(OMP)算法.

        ② 字典更新

        基于SVD字典更新原理,在字典更新階段,對字典中的原子逐個進行更新,每次更新一個字典原子和相應(yīng)的系數(shù),懲罰項為:

        其中▽中的奇異值是由大到小排列的, 則得到U的第一列為第一個原子, 表示V的第一列乘以?(1,1)為更新后系數(shù)矢量的解. 接著進行下一次迭代, 第一步和第二步交替完成, 得到信號的稀疏表示矩陣及相應(yīng)的字典原子.

        1.2.2基于稀疏字典的聽覺顯著性計算方法

        通過K-SVD算法來學習自然聲音的典型特征,經(jīng)學習得到的字典中每個原子都是聲音信號的一個典型特征,根據(jù)顯著圖計算模型可以考慮用字典原子作為顯著圖的特征,用這些特征濾波器對聲音進行濾波,經(jīng)整合后可形成聽覺顯著圖.但由于訓(xùn)練出的初始字典原子個數(shù)較多,多特征顯著圖合并時還有相互抵消的現(xiàn)象,導(dǎo)致模型計算量較大且合并后的顯著圖區(qū)分度不夠明顯.為此本文提出直接利用聲學信號稀疏表示系數(shù)矩陣來計算聲學信號顯著度的方法,即直接將信號單元的稀疏系數(shù)相加得到最終的聽覺顯著度.這里利用系數(shù)絕對值直接相加形成顯著度曲線,具有比通過直接濾波整合計算顯著圖方法更低的算法復(fù)雜度,提升了算法的效率和信號的區(qū)分度.本文聽覺顯著圖的計算總體框架如圖2所示.

        具體步驟如下:

        ① 將一維的聲音信號通過短時傅里葉變換轉(zhuǎn)換為語譜圖,考慮人耳聽覺特性及字典原子大小對K-SVD算法學習效率的影響,進一步采用Mel濾波器組(24個三角濾波器組)濾波將語譜圖轉(zhuǎn)換為聽覺譜圖.普通圖像和聽覺譜圖雖然都是二維圖像,但兩者是有區(qū)別的,普通圖像兩個維度物理意義完全一樣,均表示空間分布.而聽覺圖譜第一維是時域維度,第二維是頻域維度,這兩維的物理意義完全不同.

        圖2 本文聽覺顯著圖計算模型結(jié)構(gòu)

        ② 選取不同聲源的輸入信號通過K-SVD算法進行字典學習.圖像應(yīng)用中原子形狀常取正方形,而聲學信號更多地表現(xiàn)為頻譜隨時間的變化,所以提取聲學信號特征時,本文考慮時頻特征,以每幀信號的Mel譜為基礎(chǔ)進行稀疏字典學習,原子大小設(shè)定為24*1.通過學習得到對應(yīng)不同種類聲信號的小字典集,然后通過統(tǒng)計分析挑選出部分原子合成基礎(chǔ)聲學特征庫Dn.

        ③ 將該字典固定,對實際輸入信號在字典Dn上進行稀疏分解,可以獲得分解系數(shù)矩陣Ai,然后將每幀信號稀疏系數(shù)絕對值ai疊加就得到該輸入信號最終的聽覺顯著度曲線.由于字典原子具有結(jié)構(gòu)化特征,該基礎(chǔ)聲學字典可用于區(qū)分具有結(jié)構(gòu)特征的自然聲和不具有結(jié)構(gòu)特征的噪音.

        ④ 另外統(tǒng)計分析發(fā)現(xiàn)各原子在每類聲信號稀疏表示中出現(xiàn)的概率不同,即不同種類的聲音具有不同的特征,因此也可從基礎(chǔ)聲學特征庫Dn中挑選部分原子構(gòu)成某類特殊聲音的特征字典,用于特定聲音的顯著性計算,從而實現(xiàn)稀疏分解的簡化計算和有偏向的顯著性計算.

        2 仿真實驗及結(jié)果分析

        實驗選取語音、貓叫、鳥鳴、風扇聲各一段,所用純凈語音選自TIMIT 語音庫,其中男女聲各2句,信號采樣頻率16 kHz,幀長為512個樣點,將一幀的Mel譜維數(shù)作為字典原子大小24*1.

        2.1字典學習及其統(tǒng)計分析

        我們將語音、貓叫、鳥鳴、風扇聲分別作為輸入信號,采用K-SVD算法學習得到各種聲音的小字典.每種聲音時頻原子大小為24*1,每個字典大小為256個原子,圖3為以上類型聲音的時頻字典,為了節(jié)省空間這里只給出了各聲音字典的部分典型原子.

        圖3 各種聲學信號特征字典

        從圖3可以看出時頻字典能很好地反映出各種聲信號的時頻結(jié)構(gòu),字典中的每個原子能夠表示聲學信號的局部時頻域特征.不同類信號學習得到的字典也不同,他們的主要特征結(jié)構(gòu)不同.另外還統(tǒng)計了每類聲學信號字典原子在稀疏矩陣中出現(xiàn)的概率(如圖4所示).

        圖4 不同信號字典原子概率分布

        通過圖4可以看出每類聲學信號各個字典原子在稀疏矩陣中出現(xiàn)的概率區(qū)別較大,可以認為某些原子就是信號重要特征.為提高信號稀疏表示的計算效率,可挑選出現(xiàn)概率大的原子構(gòu)成特征小字典.圖3表示了各聲學信號引用概率大的10個原子.

        2.2基于字典的聽覺顯著圖

        通過2.1節(jié)的實驗分析可知,用于顯著度提取的特征字典可以從小字典集中挑選部分原子構(gòu)成.首先我們從小字典集中挑選出現(xiàn)概率大的原子構(gòu)成一個基礎(chǔ)特征字典,通過對語音、貓叫、鳥鳴、風扇聲進行字典學習(各字典原子個數(shù)設(shè)定為256個),進而對每個小字典的原子特征進行統(tǒng)計,提取出現(xiàn)概率大于3倍概率均值的原子作為該小字典的特征原子,每個小字典分別可以挑出10~20個原子,而后將幾組小字典組成為具有結(jié)構(gòu)化特性的基礎(chǔ)聲學字典(含原子49個).該字典的原子皆具有結(jié)構(gòu)化特點,所以用基礎(chǔ)聲學字典來計算信號顯著度時,可以區(qū)分結(jié)構(gòu)化聲音與非結(jié)構(gòu)化噪聲.截取前述四種聲音并和白噪聲拼接后送入顯著性模型計算顯著度,實驗結(jié)果如圖5.

        圖5 聲音顯著圖

        由圖5看出,白噪聲不具有結(jié)構(gòu)化特性,其稀疏分解系數(shù)較小,所以對應(yīng)的顯著度曲線取值小,而語音、貓叫、鳥鳴、風扇聲這些具有結(jié)構(gòu)化特性的聲音顯著度取值都比較大.

        另外對于該字典,每類聲音對各原子的使用概率也不同,所以還可以挑選部分在某類聲音中出現(xiàn)概率高,而在其他類聲音中出現(xiàn)概率低的原子構(gòu)成特征字典,以此得到具有偏向性的顯著圖.如我們想選擇性關(guān)注語音,則從基礎(chǔ)聲學字典中挑選語音稀疏表示中使用概率大的原子構(gòu)成語音特征字典,然后基于該語音特征字典計算輸入信號的顯著度,就可以實現(xiàn)對語音的選擇性注意.

        實驗中我們從基礎(chǔ)聲學字典中挑選出18個原子構(gòu)成語音特征字典,12個原子構(gòu)成貓叫聲特征字典,下圖分別是基于語音和貓叫聲特征字典得到的具有偏向性的顯著圖.

        圖6 選擇性注意顯著圖

        圖6-b中只有語音段具有相對較高顯著度,圖6-c中貓叫聲段顯著值明顯偏高,基于語音和貓叫特征字典的顯著圖表現(xiàn)出對兩種特定聲音的偏向性,不僅非結(jié)構(gòu)化的噪聲顯著度低,而且和特性不同的另三種聲音顯著度也低.從而驗證了分類小字典具有一定的選擇特性,可用于實現(xiàn)人類聽覺自頂向下選擇性注意.

        3 結(jié)論

        本文針對人的聽覺注意方式提出了一種基于特征字典的聽覺顯著圖計算模型.該模型在稀疏字典學習的基礎(chǔ)上提取了信號的特征字典,并利用稀疏系數(shù)矩陣表示出了信號的顯著圖.實驗結(jié)果表明,本文方法實現(xiàn)了對具有結(jié)構(gòu)特性聲音的顯著性注意計算并通過對特征原子的提取應(yīng)用實現(xiàn)了對聲源的指向性注意.本文模型兼具自頂向下和自底向上的選擇性注意功能,降低了對顯著圖計算的復(fù)雜度和計算量,提取特性未加以人工干涉,在實現(xiàn)構(gòu)建聽覺選擇性注意模型方面更具現(xiàn)實意義.在以后的研究中,希望能用更多的聲學特征來完善本文模型,針對聲源的分類識別上有進一步的研究.

        參考文獻

        1Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis.IEEE Trans.on Pattern Analysis and Machine Intelligence,1998,20(11): 1254–1259.

        2Itti L,Koch C.Computational modeling of visual attention.Nature Reviews Neuroscience,2001,2(3): 194–203.

        3Tsotsos J,Culhane S,Kei WW,et al.Modeling visual attention via selective tuning.Artificial Intelligence,1995,78 (1): 507–545.

        4Borjia IL.State-of-the-art in visual attention modeling.IEEE Trans.on Pattern Analysis and Machine Intelligence,2013,35(1): 185–207.

        5Yarbus A.Eye Movements and Vision.Plenum Press,1967.

        6Foulsham T,Under WG.What can saliency models predict about eye movements spatial and sequential aspects of fixations during encoding and recognition.Journal of Vision,2008,8(2).

        7Hayhoe M,Ballard D.Eye movements in natural behavior.Trends in Cognitive Sciences,2005,9(4): 188–194.

        8徐貴力,毛罕平.利用傅里葉變換提取圖像紋理特征新方法.光電工程,2004,31(11):55–58.

        9張焱,張志龍,沈振康.一種融入運動特性的顯著性特征提取方法.國防科技大學學報,2008,30(3):109–115.

        10Kayser C,Petkov CI,Lippert M,et al.Logothetis.Mechanisms for allocating auditory attention: An auditory saliency map.Current Biology.2005.1943.

        11Kaya EM,Elhilali M.A temporal saliency map for modeling auditory attention.Department of Electrical and Computer Engineering.

        12Vaclav B,Rainer M,et al.A model-based auditory scene analysis approach and its application to speech source localization.Acoustics,Speech and Signal Proccessing (ICASSP).Prague Congress Centre Prague,Czech Republic.2011.2624–2627.

        13Kalinli O,Member S,Narayanan S.Prominence detection using auditory attention cues and task-dependent high level information.IEEE Trans.on Audio,Speech,And Language Processing,2009,17(5).

        14Duangudom V,Anderson DV.Using auditory saliency to understand complex auditory scenes.Proc.of the 15th European Signal Processing Conference(EUSIPCO 2007).2007.1206–1210.

        15王雪君,夏秀渝,張欣,何培宇.新的聽覺注意顯著圖計算模型研究.信號處理,2013,29(9):1142–1147.

        Auditory Saliency Calculation Based on Sparse Dictionary

        CHEN Xi,XIA Xiu-Yu
        (College of Electronics and Information Engineering,Sichuan University,Chengdu 610064,China)

        Abstract:Auditory attention saliency computation model is one of the fundamental problems in the study of auditory attention model,and the key of this model is the selection of appropriate features.In this paper,an auditory significance calculation model based on sparse dictionary learning is proposed from the view of feature selection.The first step is getting the characteristics of a variety of acoustic signals by the K-SVD dictionary learning algorithm.Then the dictionary set is classified and integrated.Based on a selected feature dictionary,OMP algorithm is used for signal sparse representation.And the sparse coefficients are combined frame by frame to obtain the auditory saliency map.The simulation results show that this auditory saliency map computation model can achieve better correspondence characteristic with the nature attribute of acoustic signal in feature selection.The saliency map based on dictionary of basic characteristics can highlight the structure characteristics of noisy acoustic signal.The saliency map based on dictionary of special characteristics can achieve selective attention for certain signals.

        Key words:auditory selective attention; auditory saliency map; saliency; dictionary learning

        基金項目:①四川省科技支撐項目(2011SZ0123,2013GZ1043)

        收稿時間:2015-08-12;收到修改稿時間:2015-09-21

        猜你喜歡
        顯著性
        本刊對論文中有關(guān)統(tǒng)計學表達的要求
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        基于視覺顯著性的視頻差錯掩蓋算法
        論我國聲音商標顯著性審查規(guī)則的修正
        法大研究生(2018年2期)2018-09-23 02:20:10
        基于視覺顯著性的織物起球客觀等級評價
        本刊關(guān)于統(tǒng)計學處理的要求
        一種基于顯著性邊緣的運動模糊圖像復(fù)原方法
        論商標固有顯著性的認定
        紋理粗糙度在紅外圖像顯著性檢測中的應(yīng)用
        一種基于詞袋模型的新的顯著性目標檢測方法
        自動化學報(2016年8期)2016-04-16 03:38:59
        性色做爰片在线观看ww| 亚洲av色香蕉一区二区三区潮| 久久女人精品天堂av影院麻| 亚洲熟妇av一区| 97午夜理论片在线影院| 韩国日本亚洲精品视频| 成人免费毛片立即播放| 欧美亚洲一区二区三区| 久久精品女人天堂av| 偷亚洲偷国产欧美高清| 午夜一区二区三区在线观看| 老鸭窝视频在线观看| 国产熟女露脸大叫高潮| 国产日韩精品一区二区在线观看播放| 国产激情小视频在线观看的| 久久黄色视频| 最近日本中文字幕免费完整| 日本韩国三级aⅴ在线观看| 91精品国产九色综合久久香蕉| 国产精品成人免费视频一区| 久久人妻公开中文字幕| 亲少妇摸少妇和少妇啪啪| 国内自拍速发福利免费在线观看| 天天躁日日躁狠狠躁欧美老妇| 99久久国产视频| 一区二区三区国产大片| 日本亲近相奷中文字幕| 亚洲欧美日韩一区二区三区在线| 亚洲成AV人片在一线观看| 亚洲毛片免费观看视频| 永久黄网站免费视频性色| 国产美女在线精品亚洲二区| 人妻乱交手机在线播放| 欧美伦费免费全部午夜最新| 久久精品人妻一区二区三区| 一区二区丝袜美腿视频| 国产精品美女久久久网站三级| 久久精品国产亚洲av四虎| 蜜桃在线播放免费一区二区三区| 日本乱熟人妻中文字幕乱码69 | 无码国产精品一区二区免费式直播 |