亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        理解數(shù)字聲音
        ——基于一般音頻/環(huán)境聲的計算機聽覺綜述

        2019-07-30 08:52:30偉,李
        復旦學報(自然科學版) 2019年3期
        關鍵詞:特征信號檢測

        李 偉,李 碩

        (1.復旦大學 計算機科學技術學院,上海 201203; 2.復旦大學 上海市智能信息處理重點實驗室,上海 200433)

        1 聲音概述

        聲音在現(xiàn)實世界中無所不在,種類繁多.有的聲音由人創(chuàng)造,有的存在于自然界和日常生活中.聽覺和視覺對于感知系統(tǒng)一樣重要,密不可分,缺一不可.聲音蘊含著極大的信息量.例如,轟隆隆的雷聲預示快要下雨,動物的叫聲表征其種類,人類語言可用于分辨性別甚至具體的人,交響樂隊的樂器聲讓人知道這是一場古典音樂會,鳥叫聲通常暗示周圍有很多樹,槍炮聲代表戰(zhàn)爭場面,有經(jīng)驗的技師聽到汽車發(fā)動機的聲音就能大體判斷出存在的故障,經(jīng)過訓練的聲吶員通過聲吶接收的水下聲信號就可以判斷水下目標的類型,諸如此類,無法盡數(shù).因此,對聲音的內容進行基于信息科技的自動分析與理解,在語言交互、數(shù)字音樂、工業(yè)、農(nóng)業(yè)、生物、軍事、安全等幾乎所有的自然和社會領域都具有重要的現(xiàn)實意義.本文闡述的局限于人耳能聽到的聲音,人類感覺不到的超聲波和次聲波不在所述范圍之內.

        聲音是一種物理波動現(xiàn)象,即聲源振動或氣動發(fā)聲所產(chǎn)生的聲波.聲波通過空氣、固體、液體等介質傳播,并能被人或動物的聽覺器官所感知.人類聽到的聲音基本都是在空氣中傳播.振動源周圍空氣分子的振動形成疏密相間的縱波傳播機械能,一直延續(xù)到振動消失.聲波具有一般波的各種特性,包括反射(Reflection)、折射(Refraction)和衍射(Diffraction)等.聲音還是一種心理感受,不僅與人的生理構造和聲音的物理性質有關,還受到環(huán)境和背景的影響.例如,同樣的一段樂曲,輕松時聽起來讓人愉悅,緊張時聽起來卻讓人煩躁.

        圖1 正弦波模型示意圖Fig.1 A schematic diagram of sine wave model

        從信號的角度看,聲音可分為純音(Pure tone)、復合音(Compound tone)和噪聲(Noise).純音和復合音都是周期性聲音,波型具有一定的重復性,具有明顯的音高(Pitch).純音是只具有單一頻率的正弦波,通常只能由音叉、電子器件或合成器產(chǎn)生,在自然環(huán)境下一般不會發(fā)生.我們在日常生活和自然界中聽到的聲音大多是復合音(有少量不是,例如清輔音),由許多參數(shù)不同的正弦波分量疊加而成.復合音信號可用正弦波模型(Sinusoidal Model, SM)模擬,即任何復雜的周期振動都可以分解為多個具有不同頻率、不同強度、不同相位的正弦波的疊加,如圖1所示,圖形所示波的頻率從上到下依次升高.該模型也稱為傅里葉分析(Fourier Analysis, FA)或頻譜分析(Spectral Analysis, SA),純音和復合音之間可以互相合成與分解.

        通常在復合音中,頻率最低的正弦波(即整個波形振動的頻率)稱為基頻(Fundamental frequency),記為f0,f0決定聲音的音高.其他頻率較高的的正弦分量(如2f0,2.5f0,3f0,…)稱為泛音(Overtone),泛音決定聲音的音色(Timbre).泛音之中頻率是f0整數(shù)倍的正弦分量(如2f0,3f0,…)連同f0統(tǒng)稱為諧音(Harmonics).特殊情況下,在復合音中,頻率最低的正弦波不是基頻.例如當手機或計算機音箱播放不出低頻(例如100Hz)以下的聲音時,出現(xiàn)基頻缺失現(xiàn)象.另一個相關的概念是物理上的諧波(Partial),包含f0與所有泛音.在f0的整數(shù)倍上諧波與諧音相同,但與泛音次數(shù)不同.如1次諧波/諧音定義為f0,2次諧波/諧音定義為1次泛音,3次諧波/諧音定義為2次泛音,依此類推.

        聲音是一種時間域(Time-domain)隨機信號.聲音的基本物理維度(或要素)是時間、頻率(Frequency)、強度(Intensity)和相位(Phase).頻率即每秒鐘振動的次數(shù),單位是赫茲(Hz),振動越快音高越高;強度與振幅的大小成正比,單位是分貝(dB),體現(xiàn)為聲音的強弱(Dynamics);相位指特定時刻聲波所處的位置,是信號波形變化的度量,以角度作為單位.兩個聲波相位相反會相互抵消,相位相同則相互加強.

        與純音和復合音不同,噪聲是非周期性聲音,由許多頻率、幅度和相位各不相同的聲音成分無規(guī)律地組合而成.噪聲一般具有不規(guī)則的聲音波形,沒有明顯的音高,聽起來感到不舒服甚至刺耳.噪聲的測量單位是分貝(dB).按照頻譜的分布規(guī)律,噪聲可分為白噪聲(White noise)、粉紅噪聲(Pink noise)和褐色噪聲(Brown noise)等.白噪聲是指功率譜密度(Power Spectrum Density, PSD)在整個可聽頻域(20~20000Hz)內均勻分布為常數(shù)的噪聲,聽感上是比較刺耳的沙沙聲.粉紅噪聲能量分布與頻率成反比,主要集中于中低頻帶.頻率每上升一個八度(Octave)能量就衰減3dB,所以又被稱做頻率反比(1/f)噪聲.粉紅噪聲可以模擬出自然界常見的瀑布或者下雨的聲音,在人耳聽感上經(jīng)常會比較悅耳.褐色噪聲的功率譜主要集中在低頻帶,能量下降曲線為1/f2.聽感上有點和工廠里面轟隆隆的背景聲相似.

        從聽覺感受的角度看,聲音可分為樂音(Musical tone)和噪聲兩種.樂音是讓人感覺愉悅的聲音,通常由有規(guī)則的振動產(chǎn)生,具有明顯的音高.如圖2所示,樂音包括語音、歌聲、各種管弦和彈撥類樂器(如小提琴、薩克斯、鋼琴、吉他等)等發(fā)出的復合音(Compound Tone-Speech and Music, Compound Tone-SM),部分環(huán)境聲中的復合音(Compound Tone-General Audio, Compound Tone-GA)如鳥叫,以及少量稱為噪樂音(Noise tone)的打擊類樂器(如鑼、鈸、鼓、沙錘、梆子、木魚等)發(fā)出的噪聲.噪聲是讓人聽起來不悅耳的聲音,通常由無規(guī)則的振動產(chǎn)生,沒有明顯的音高.去掉噪樂音之后其余的絕大部分噪聲可稱為一般噪聲(Ordinary noise),包括自然界及日常生活中的風雨聲、雷電聲、海浪聲、流水聲、敲打聲、機器轟鳴聲、物體撞擊聲、汽車聲、施工嘈雜聲等.

        從聲音特性的角度看,聲音可劃分為語音(Speech)、音樂(Music)和一般音頻/環(huán)境聲(General audio/ambient sound)3大類.人類的語言具有特定的詞匯及語法結構,用于在人類中傳遞信息.語音是語言的聲音載體,語音信號屬于復合音,其基本要素是音高、強度、音長、音色等.音樂是人類創(chuàng)造的復雜的藝術形式,組成成分是上述的各種樂音,包括歌聲、各種管弦和彈撥類樂器發(fā)出的復合音、少量來自環(huán)境聲的復合音以及一些來自打擊樂器的噪樂音.其基本要素包括節(jié)奏、旋律、和聲、力度、速度、調式、曲式、織體、音色等.除了人類創(chuàng)造的語音和音樂,在自然界和日常生活中,還存在著其他數(shù)量巨大、種類繁多的聲音,統(tǒng)稱為一般音頻或環(huán)境聲.如圖2所示,一般音頻/環(huán)境聲包含噪樂音、一般音頻復合音、一般噪聲,后兩者是本文所述的內容.一般音頻中的噪樂音主要對應于打擊樂器等各種藝術化的噪聲,其對應的主要學科領域是音樂聲學(Music Acoustics,MA)和音樂信息檢索技術(Music Information Retrieval, MIR)(見圖3),因此不在本文討論的范圍內.專門處理語音的學科是語音信息處理,以語言聲學為基礎,歷史悠久,發(fā)展相對成熟,已獨立成為一門學科.本文涉及的媒體是一般音頻復合音與一般噪聲,如圖2中黑色加粗框所顯示,對應的學科領域則稱為基于一般音頻/環(huán)境聲的計算機聽覺(Computer Audition, CA).如圖3所示,該學科與語音信息處理、音樂信息檢索(MIR)技術高度相似,也主要使用音頻信號處理及機器學習這兩種技術,屬于人工智能(Artificial Intelligence, AI)與音頻領域的交叉學科,同時需要用到對應聲音種類的聲學知識.與相對成熟的語音信息處理和音樂信息檢索技術相比,基于一般音頻/環(huán)境聲的CA技術由于各種原因發(fā)展更慢.

        圖2 聲音的種類關系圖Fig.2 A relation graph of sound type

        圖3 聽覺信息處理各學科關系圖Fig.3 A relation graph of different disciplines about auditory information processing

        2 計算機聽覺簡介

        人類聽覺系統(tǒng)(Human Auditory System, HAS)將外界的聲音通過外耳和中耳組成的傳音系統(tǒng)傳遞到內耳,在內耳將聲波的機械能轉變?yōu)槁犛X神經(jīng)上的神經(jīng)沖動,神經(jīng)沖動傳送到大腦皮層的聽覺中樞,產(chǎn)生主觀感覺.人類的聽覺感知能力主要體現(xiàn)在通過聲音特性產(chǎn)生主觀感受(Subjective perception)、音頻事件檢測(Audio event detection)、聲音目標識別(Acoustic target detection)、聲源定位(Sound source location)等幾個方面.

        近20年來,半導體技術、互聯(lián)網(wǎng)、音頻壓縮技術、錄音設備及技術的共同發(fā)展使得數(shù)字格式的各種聲音數(shù)量急劇增加.在人類聽覺機制的啟發(fā)下,誕生了一個新的學科—計算機聽覺,也可稱為機器聽覺(Machine listening).計算機聽覺是一個面向數(shù)字音頻和音樂(Audio and music),研究用計算機軟件(主要是信號處理及機器學習)來分析和理解海量數(shù)字音頻音樂內容的算法和系統(tǒng)的學科.

        CA涉及樂理(Music theory)、一般聲音的語義(General sound semantics)等領域知識,與音頻信號處理(Audio signal processing)、音樂信息檢索(MIR)、音頻場景分析(Auditory science analysis)、計算音樂學(Computational musicology)、計算機音樂(Computer music)、聽覺建模(Auditory modelling)、音樂感知和認知(Music perception and cognition)、模式識別(Pattern recognition)、機器學習(Machine learning)、心理學(Psychology)等學科有交叉.

        從技術的角度看,CA的研究可以被粗略地分成以下6個子問題.

        (1) 音頻時頻表示(Time-frequency representation)

        音頻時頻表示包括音頻本身的表示,如信號或符號(Signal or symbolic)、單聲道或雙聲道(Monaural or stereo)、模擬或數(shù)字(Analog or digital)、聲波樣本、壓縮算法的參數(shù)等;音頻信號的各種時頻(Time-frequency, T-F)表示,如短時傅里葉變換(Short-time Fourier Transform, STFT)、小波變換(Wavelet Transform, WT)、小波包變換(Wavelet Packet Transform, WPT)、連續(xù)小波變換(Continuous Wavelet Transform, CWT)、常數(shù)Q變換(Constant-Q Transform, CQT)、S變換(S-Transform, ST)、希爾伯特-黃變換(Hilbert-Huang Transform, HHT)、離散余弦變換(Discrete Cosine Transform, DCT)等;音頻信號的建模表示由于種類繁多,又通常包含多個聲源,無法像語音信號那樣被有效地表示成某個特定的模型,如源-濾波器模型(Source-filter model),通常使用濾波器組(Filter banks)或正弦波模型來獲取并捕捉多個聲音參數(shù)(Sound parameters).

        (2) 特征提取(Feature extraction)

        音頻特征是對音頻內容的緊致反映,用來刻畫音頻信號的特定方面,有時域特征、頻域譜特征、T-F特征、統(tǒng)計特征、感知特征、中層特征、高層特征等數(shù)十種.典型的時域特征如過零率(Zero-Crossing Rate, ZCR)、能量(Energy),頻域譜特征如譜質心(Spectral Centroid, SC)、譜通量(Spectral Flux, SF),T-F特征如基于頻譜圖的Zernike矩、基于頻譜圖的(Scale Invariant Feature Transform, SIFT)描述子,統(tǒng)計特征如峰度(Kurtosis)、均值(Mean),感知特征如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)、線性預測倒譜系數(shù)(Linear Predictive Cepatral Coefficient, LPCC),中層特征如半音類(Chroma),高層特征如旋律(Melody)、節(jié)奏(Rhythm)、頻率顫音(Vibrato)等.

        (3) 聲音相似性(Sound similarity)

        兩段音頻之間或者一段音頻內部各子序列(Subsequence)之間的相似性一般通過計算音頻特征之間的各種距離(Distance)來度量.距離越小,相似度越高.在某些時域(Temporal)信息很重要的場合,通常使用動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)來計算相似度.也可通過機器學習方法進行音頻相似性計算.

        (4) 聲源分離(Sound Source Separation, SSS)

        與通常只有一個聲源的語音信號不同,現(xiàn)實聲音場景中的環(huán)境聲及音樂的一個基本特性就是包含多個同時發(fā)聲的聲源,因此SSS問題成為一個極其重要的技術難點.音樂中的各種樂器及歌聲按照旋律、和聲及節(jié)奏耦合起來,對其進行分離比分離環(huán)境聲中各種基本不相關的聲源要更加困難,至今沒有方法能很好地解決這個問題.

        (5) 聽覺感知(Auditory cognition)

        人類欣賞音樂時引起的的情感效應(Emotional effect)以及人類和動物對于聲音傳遞的信息的理解,都需要從心理和生理(Psycho-physiological)的角度加以研究理解,不能只依賴于特定的聲音特性和機器學習方法.

        (6) 多模態(tài)分析(Multi-modal analysis)

        人類對世界的感知都是結合各個信息源綜合得到的.因此,對數(shù)字音頻和音樂進行內容分析理解時,理想情況下也需要結合文本、視頻、圖像等多種媒體進行多模態(tài)的跨媒體研究.

        3 計算機聽覺通用技術框架及典型算法

        從實際應用的角度出發(fā),一個完整的CA算法系統(tǒng)應該包括的幾個步驟如圖4所示.首先使用麥克風(Microphone)/聲音傳感器(Acoustic sensor)采集聲音數(shù)據(jù);之后進行預處理(例如將多聲道音頻轉換為單聲道、重采樣、解壓縮等);音頻是長時間的流媒體,需要將有用的部分分割出來,即進行音頻事件檢測(Audio Event Detection, AED)或端點檢測(Endpoint Detection, ED);采集的數(shù)據(jù)經(jīng)常是多個聲源混雜在一起,還需進行聲源分離,將有用的信號分離提取出來,或至少消除部分噪聲,進行有用信號增強;然后根據(jù)具體聲音的特性提取各種時域、頻域、T-F域音頻特征,進行特征選擇(Feature selection)或特征抽取(Feature extraction),或采用深度學習(Deep Learning, DL)進行自動特征學習(Feature learning);最后送入淺層統(tǒng)計分類器或深度學習模型進行聲景(Sound scape)分類、聲音目標識別或聲音目標定位.機器學習模型通常采用有監(jiān)督學習(Supervised learning),需要事先用標注好的已知數(shù)據(jù)進行訓練.本文所述的基于一般音頻/環(huán)境聲的CA算法設計與語音信息處理及音樂信息檢索(MIR)技術高度類似,區(qū)別在于聲音的本質不同,需要更有針對性的設計各個步驟的算法,另外需要某種特定聲音的領域知識.

        圖4 計算機聽覺技術算法系統(tǒng)的框架圖Fig.4 A frame diagram of computer audition algorithm system

        3.1 音頻事件檢測

        音頻事件(Audio event)指一段具有特定意義的連續(xù)聲音,時間可長可短,例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等,也可稱為音頻鏡頭(Audio shot).音頻事件檢測(AED),亦稱聲音事件檢測(Sound Event Detection, SED)、環(huán)境聲音識別(Environmental Sound Recognition, ESR),旨在識別音頻流中事件的起止時間(Event onsets and offsets)和類型[1-2],有時還包括其重要性(Saliency)[2].面向實際系統(tǒng)的AED需要在各種背景聲音的干擾下,在連續(xù)音頻流中找到聲音事件的邊界再進行分類,比單純的分類問題要更困難[3].雖然聲音識別的研究在傳統(tǒng)上側重于語音和音樂信號,但面向一般音頻/環(huán)境聲的聲音識別問題早在1999年即已開始[4],而且近年來得到了越來越多的關注[5].AED應用范圍廣泛,典型的如多媒體分析,對人類甚至動物生活的監(jiān)控,槍聲識別(Gunshot recognition)[6],聲音監(jiān)控(Acoustic surveillance)和智能家居(Smart home automation)[7]、犯罪調查等安全系統(tǒng)[8],行車環(huán)境的音頻監(jiān)控[9],推斷人類活動和位置[10]等.

        環(huán)境聲音是非結構化的(Unstructured),類似于噪聲[8].麥克風是最常見的聲音采集設備,從單麥克風[11]到雙麥克風[7]甚至4個麥克風[6].聲源往往來自不同聲學環(huán)境下的未知距離,混有噪聲,并且是混響(Reverberant).例如,在家庭環(huán)境的噪聲中,最難處理的是非平穩(wěn)干擾如電視、收音機或音樂TV[7].物聯(lián)網(wǎng)(Internet of Things, IoT)平臺有大量的分布式麥克風可用,能夠將來自多個傳感器的信息進行融合,從而使各麥克風組成多麥克風系統(tǒng),可提高AED系統(tǒng)的識別精度[12].一個很具有挑戰(zhàn)性的任務是從單通道(Single channel)音頻中同時識別出重疊的音頻事件(Overlapping sound events)[13].

        傳統(tǒng)的基于幀(Frame-based)的方法不太適合環(huán)境聲音識別,因為每個時間幀都混合了來自多個聲源的信息[13].基于聲音場景或事件(Acoustic scenes or events)分割更適合于識別.場景具有明確的語義,適用于預先知道目標類別的應用.事件適用于監(jiān)督程度較低的情況,通常在基本音頻流分割單元上聚類得到[2,14].文獻[14]使用基于經(jīng)驗模式分解(Empirical Mode Decomposition, EMD)產(chǎn)生的第1到第6個本征模態(tài)函數(shù)(Intrinsic Mode Functions, IMF)的投票(Voting)方法來檢測音頻事件的端點,進行盲分割.環(huán)境聲音在日常生活中經(jīng)常重復,音頻分割的一個特例就是環(huán)境聲音的重復識別(Repeat recognition),對于這些聲音的緊致表示(Compact representation)和預測至關重要.文獻[15]根據(jù)能量包絡的形狀將輸入的環(huán)境聲信號分成幾個單元,計算每對單元之間的聽覺距離(Auditory distance),然后利用近似匹配算法(Approximate matching algorithm)檢測重復的部分.

        在實際情況下,各種干擾噪聲和背景聲音與感興趣的音頻事件同時存在,濾波等傳統(tǒng)降噪方法完全無效[16].文獻[17]采用概率潛在成分分析(Probabilistic Latent Component Analysis, PLCA)進行噪聲分離(Noise separation).為了減輕聲源分離引入的人工痕跡(Artifacts),應用一系列頻譜加權(Spectral weightings)技術來提高聲譜(Audio spectra)的可靠性.文獻[7,16]使用一種新型的基于回歸的噪聲消除(Regression-based Noise Cancellation, RNC)技術以減少干擾.對于殘留噪聲,采用頻帶功率分布的圖像特征(Subband Power Distribution-Image Feature, SPD-IF)增強框架,將噪聲和信號定位到不同的區(qū)域.然后對可靠部分進行缺失特征分類,利用頻帶上的時間信息來估計頻帶功率分布.

        在非平穩(wěn)(Non-stationary)環(huán)境中,T-F表示是一種強大的分析工具,可進行信號的分類或檢測[18].常見的如Gabor變換[19],EMD[14]等.EMD將信號表示為一組IMFs,然后將這些IMFs的動態(tài)表示為線性動態(tài)系統(tǒng)(Linear dynamical system),采用線性和非線性技術來學習系統(tǒng)動態(tài),可以區(qū)分不同類別的聲音紋理(Sound textures)[20].非線性時序分析技術在處理環(huán)境聲音方面具有較大潛力[21].

        音頻特征影響AED系統(tǒng)的性能[22].最近的研究集中在非平穩(wěn)特性的新特征,力求將與信號的時間和頻譜特征有關的信息(Temporal and spectral characteristics)內容最大化[5].使用過的音頻特征有MFCC[10,23-26]及其變種Binaural MFCC[23]、log MFCC[23]、小波(Wavelet)系數(shù)[24]、使用OpenSMILE提取的兩個不同的大規(guī)模時間池特征(Large-scale temporal pooling features)[23]、mile983(983維)、Smile6k(6573維)[25]、線性預測系數(shù)(Linear Prediction Coefficient, LPC)、匹配追蹤(Matching Pursuit, MP)[8]、伽瑪通倒譜系數(shù)(Gammatone Cepstral Coefficients, GCC)[27]、降維對數(shù)譜特征(Log-spectral features)[28]、STE[26]、SE[26]、ZCR[26]、SC[26]、SBW[26]、f0[26]、為結合CNN使用的低級空間特征(Low-level spatial features)[29]、頻譜圖(Spectrogram)[25]等.文獻[30]認為背景聲比前景聲更具魯棒性,在復雜的聲音環(huán)境中可以從背景聲中提取音頻特征.文獻[16]提出一種基于類補償(Class-Based Compensation, CBC)的方法,基本思想是為分類器的每一個類學習一組過濾器,將較高的權重分配給最能區(qū)分類信息的頻率成分,以增強特征的區(qū)分能力.

        與以上聲音特征不同,從頻譜圖中提取的聲音子空間(Acoustic subspaces)矩陣可以作為識別的基本元素,有效地描述了頻譜圖的時間-譜模式(Temporal-spectral patterns)[17,19].文獻[19]通過從Gabor頻譜圖中提取子空間,進一步對低秩(Low-rank)的突出的(Prominent)T-F模式進行編碼.子空間特征需要通過兩步得到: 首先,在復雜向量空間中通過目標事件分析建立子空間庫(Subspace bank);然后,通過將觀測向量(Observation vectors)投影到子空間庫上,可以減少噪聲效應(Noise effect),生成源自不同事件子空間(Event subspaces)的判別字符(Discriminant characters)[31].

        受圖像處理技術啟發(fā),在2維T-F頻譜圖上計算LBP,提取頻譜相關的局部特征,可以更好地描述音頻[32],而且通常認為局部特性比全局特性更重要[8].文獻[33]將本地的統(tǒng)計數(shù)據(jù)、均值、標準偏差結合在一起,建立了魯棒的LBP.文獻[13]提出一種基于局部頻譜圖特征(Local Spectrogram Features, LSF)的方法,找出頻譜圖中稀疏的、有區(qū)分性的峰值作為關鍵點,在圍繞關鍵點的2維區(qū)域內提取局部頻譜信息.通過一組具有代表性的LSF簇(Clusters)和它們在頻譜圖中的出現(xiàn)時間(Occurrences)來模擬音頻事件.

        音頻片段長度即粒度(Granularity)對分類識別結果有影響.文獻[8]使用較長持續(xù)時間(6s),比使用較短持續(xù)時間(1s)顯著提高了分類精度,而沒有增加額外開銷.較大的訓練和標簽集也有益于分類任務[34].文獻[11]也表明分類準確度受分類粒度的影響.文獻[8]研究了關于分類準確性與窗口大小和采樣率(Sampling rate)的關系,以找出每個因素的合適的值,還研究了這些因素的所有組合.

        在很多的候選特征中需確定最佳特征(Optimal feature)組合并進行特征融合.文獻[35]通過因子分析(Factor analysis)研究特征的性能,并確定特征組合.文獻[36]利用進化算法(Evolutional algorithm)中的粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法和遺傳算法(Genetic Algorithm, GA)從大量音頻特征中選擇最重要的聲音特征.

        選取最佳特征集后,有時還需進行后處理(Post-processing),增強區(qū)分能力和魯棒性.文獻[33]采用L2-Hellinger歸一化(Normalization)技術.文獻[37]在給定的時間窗口中,計算內部所有幀的心理聲學(Psychoacoustic)特征,即梅爾和伽瑪通頻率倒譜系數(shù)(Mel and Gammatone-Frequency Cepstral Coefficients, MGFCC).按照學習好的碼本(Codebook)將特征量化為音頻詞袋(Bag of Audio Words, BoAW),即直方圖(Histogram).特征袋方法計算成本低,對于在線處理特別有用.文獻[38-41]也采用了類似的音頻詞袋方法.文獻[29]擴展了CNN,分別學習多通道特征.該網(wǎng)絡不是將各個通道的特征連接到一個單獨的特征向量中,而是將多聲道音頻中的音頻事件作為單獨的卷積層來更好地學習.

        音頻事件通常發(fā)生在非結構化的環(huán)境中,頻率內容和時間結構都有很大的變化.早期的算法通?;谑止ぶ谱?Hand-crafted)特征.隨著DL的流行,大量基于DL的算法被用于自動特征學習.CNN能夠提取反映本質內容的特征,并且對局部頻譜和時間變化不敏感[42].文獻[43]提出一種使用CNN的新型端到端(End-to-end)的ESC系統(tǒng),直接從原始波形(Raw waveforms)中學習特征用于分類.因為缺乏明確的語義單元,對音頻事件進行端到端的識別通常需要較長的時間片段,文獻[38]引入了具有更大輸入域(Input field)的CNN.文獻[22]使用多流分層深度神經(jīng)網(wǎng)絡(Multi-stream Hierarchical Deep Neural Network, MS-H-DNN)提取音頻深度特征(Deep feature),融合了多個輸入特性流的潛在互補信息,更具區(qū)分性.基于極端學習機的自動編碼器(Extreme Learning Machine-based Auto-Encoder, ELM-AE)是一種新的DL算法,具有優(yōu)異的表現(xiàn)性能和快速的訓練過程.文獻[44]提出一種雙線性多列(Bilinear Multi-column ELM-AE, B-MC-ELM-AE)算法,以提高原始ELM-AE算法的魯棒性、穩(wěn)定性和特征表示能力,學習聲信號的特征表示.

        簡單的音頻事件種類識別可采用核Fisher判別(Kernel Fisher Discriminant, KFD)分析法[19],正則化核Fisher判別(Regularized KFD)分析法[17],DTW[24],矢量量化(Vector Quantization, VQ)[24].但更多的采用統(tǒng)計分類器,如K近鄰(K-Nearest Neighbors, KNN)[8,36],GMM[23,25,45],隨機森林(Random Forest, RF)[14],支持向量機(Support Vector Machine, SVM)[16,25-26],HMM[28],人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)[24,46],DNN[23,25],RNN[23,25],CNN[23,25],RDNN[25],I-Vector[23],EC[47]等.文獻[46]在相同數(shù)據(jù)集上對兩種不同的神經(jīng)網(wǎng)絡(Neural Network, NN)進行分析,后向傳播神經(jīng)網(wǎng)絡(Back-Propagation Neural Network, BPNN)與徑向基函數(shù)神經(jīng)網(wǎng)絡(Radial-Basis Function Neural Network, RBFNN)相比,識別結果具有顯著性和有效性.文獻[34]研究了幾個深度NN架構,包括全連接DNN(Fully-connected DNN)、CNN-AlexNet、CNN-VGG、CNN-GoogLeNet Incepetion和CNN-ResNet,發(fā)現(xiàn)CNN類網(wǎng)絡表現(xiàn)良好.文獻[25]全面研究各種統(tǒng)計分類器后,發(fā)現(xiàn)深度學習模型與傳統(tǒng)淺層模型相比具有一定的優(yōu)越性,但沒有一個模型能在所有數(shù)據(jù)集上優(yōu)于所有其他模型,說明模型的性能隨著特征的不同而有很大差異.文獻[48]的研究也表明,在AED任務上,基于DNN的系統(tǒng)比使用GFB特征與多類GMM-HMM相結合的系統(tǒng)識別精度要差.

        序列學習(Sequential learning)方法被用來捕捉環(huán)境聲音的長期變化[5].RNN擅長學習音頻信號的長時上下文信息,而CNN在分類任務上表現(xiàn)良好,文獻[42]將這兩種方法結合形成CRNN(Convolutional Recurrent Neural Network),性能在日常復合音頻事件(Polyphonic sound event detection)檢測任務中有很大的改進.但在文獻[23]和[25]的實驗中,表現(xiàn)最好的模型是非時態(tài)(Non-temporal)DNN,表明DCASE(IEEE Challenge on Detection and Classification of Acoustic Scenes and Events)挑戰(zhàn)中的聲音不會表現(xiàn)出強烈的時間動態(tài)(Temporal dynamics),這與文獻[42]的結論相反.關于時序信息對于音頻事件檢測的作用還有待進一步研究.

        在決策階段,文獻[23]對多個分類器的結果采用后期融合方法(Late-fusion approach).文獻[13]使用廣義霍夫變換(Generalized Hough Transform, GHT)投票系統(tǒng),對許多獨立的關鍵點的信息進行匯總,產(chǎn)生起始假設(Onset hypotheses),可以檢測到頻譜圖中任何音頻事件的任意組合.對每個假設進行評分,以識別頻譜圖中的重疊音頻事件.

        訓練統(tǒng)計模型必須具備較大的數(shù)據(jù)量,完全監(jiān)督的訓練數(shù)據(jù)需要在一個音頻片段中只清楚地包含某個特定的音頻事件.所需時間及人力、經(jīng)濟代價巨大,經(jīng)常還需要各類聲音的領域知識.為使收集大量訓練聲音數(shù)據(jù)的過程更容易,文獻[49]設計了基于游戲的環(huán)境聲音采集框架“Sonic home”.為降低訓練數(shù)據(jù)量的要求,通常使用主動學習(Active learning)或半監(jiān)督學習(Semi-supervised learning)技術[50].文獻[51]提出一種新的主動學習方法.首先在未標記的聲音片段上進行K-medoids聚類,并將簇的中心點(Medoids)呈現(xiàn)給標注者進行標記,中心點帶標注的標簽用于派生其他簇成員的預測標簽.該方法優(yōu)于對所有數(shù)據(jù)進行標注的傳統(tǒng)主動學習法如隨機抽樣(Random sampling)、基于確定性的主動學習(Certainty-based active learning)和半監(jiān)督學習.在保持相同識別準確率的同時,可節(jié)省50%~60%訓練音頻事件分類器的標注工作量.文獻[52]使用一個基于全卷積神經(jīng)網(wǎng)絡(Fully Convolutional Networks, FCN)的模型,基于弱監(jiān)督學習(Wakly-supervised learning)識別音頻事件,而且能夠在只有片段級別(Clip-level)沒有幀級別(Frame-level)標注的訓練下進行音頻事件定位.文獻[53]提出一個與文獻[52]類似的FCN結構,從YouTube上的弱標記數(shù)據(jù)識別音頻事件.該網(wǎng)絡有5個卷積層,后邊沒有采用最常見的全連接層(Fully connected dense layers),而是采用了另外2個卷積層,最后是一個全局最大池化層(Global max-pooling layer),形成了一個全卷積的CNN架構.與將時間域信息全部混合起來得到最后結果的全連接架構不同,使用全局最大池化層可以在時間軸上選擇最有效的片段輸出最后的預測結果.因此,在訓練和測試中能有效處理可變長度的輸入音頻,不需要進行固定分割的前處理過程,可進行粗略的音頻事件定位.文獻[54]結合帶標記的音頻訓練數(shù)據(jù)集和互聯(lián)網(wǎng)上的未標記音頻進行自訓練(Self-training)來改進聲音模型.首先在帶標記音頻上訓練,然后在YouTube下載的音頻上測試.當檢測器以較高的置信度識別出任何已知的聲音事件時,就把這個未標記的音頻加入到訓練集進行重新訓練.

        彌補目標域(Target domain)訓練樣本的不足還可以采用遷移學習(Transfer learning),調用在其他具有類似特點的大型數(shù)據(jù)庫已預先訓練好的模型[55].該技術旨在將數(shù)據(jù)和知識從源域(Source domain)轉移到目標域,即使源和目標具有不同的特性分布和標簽集[56].基于DNN的遷移學習已經(jīng)被證明在視覺對象分類(Visual Object Classification, VOC)中是有效的,文獻[55]利用VOC-DNN在其訓練環(huán)境之外的學習能力,遷移到AED領域.文獻[56]假設所有的音頻事件都有相同的基本聲音構件(Basic acoustic building blocks)集合,只是在這些聲音構件的時間順序上存在差異.構造一個DNN,它具有一個卷積層來提取聲音構件,和一個遞歸層(Recurrent layer)來捕獲時間順序(Temporal order).在上述假設下,通過將卷積層從源域(合成源數(shù)據(jù)庫)轉移到目標域(DCASE 2016的目標數(shù)據(jù)庫),實現(xiàn)從源域轉換到具有不同聲音構件及順序的目標域的遷移學習.注意,遞歸層是直接從目標域學習的,無法通過轉移來檢測與源領域中聲音構件不同的事件.

        訓練數(shù)據(jù)的多樣性對于防止過擬合(Overfitting),獲得魯棒的模型具有關鍵作用.文獻[38]提出一種新的數(shù)據(jù)增強(Data augmentation)方法來引入數(shù)據(jù)變化,以充分利用CNN網(wǎng)絡的建模能力.文獻[57]在訓練過程中使用模擬仿真,將目標聲音(Target sounds)與各種環(huán)境聲音按照不同的角度配置(Angular source configuration)和信噪比(Signal-to-Noise Ratio, SNR)疊加在一起,增強其泛化性能,稱為多條件訓練(Multi-conditional training).

        環(huán)境聲的種類無法盡數(shù),在研究中只能選擇個別類型作為例子.文獻[47]使用了兩個基準數(shù)據(jù)集: RWCP(Real World Computing Partnership)數(shù)據(jù)庫和Sound Dataset.文獻[23]使用了最大的數(shù)據(jù)集之一——DCASE 2016,將聲音分類為15種常見的室內和室外聲音場景,如公共汽車(Bus)、咖啡館(Cafe)、汽車(Car)、市中心(City center)、森林道路(Forest path)、圖書館(Library)、火車(Train)等,共13h的立體聲錄音.文獻[26]將環(huán)境聲分為6類,即車鳴聲、鐘聲、風聲、冰塊聲、機床聲、雨聲.文獻[28]包含男性演講(Male speech)、女性演講(Female speech)、音樂(Music)、動物聲音(Animal sounds)等.文獻[6]則專門識別燃放鞭炮(Firecracker)、9mm和44mm口徑發(fā)令槍(Starter pistol)、爆炸(Explosion)、射擊(Firing)等沖擊型聲音.文獻[36]將聲音分為6類: 語音(Speech)、音樂(Music)、噪聲(Noise)、掌聲(Applause)、笑聲(Laughing)、哭聲(Crying).文獻[20]錄制5種聲音組成了一個數(shù)據(jù)集,包括噼啪的火焰聲(Crackling fire)、打字聲(Typewriter action)、暴雨聲(Rainstorms)、碳酸飲料聲(Carbonated beverages)和觀眾的掌聲(Crowd applause).網(wǎng)絡視頻提供了一個幾乎無限的音頻來源,文獻[58]在100萬部YouTube視頻中提取45kh的音頻,構成一個多樣化語料庫.文獻[59]建立的ESRD03數(shù)據(jù)庫從21張音效CD和RWCP數(shù)據(jù)庫中收集數(shù)據(jù),包括16000多個音軌,大部分發(fā)生在家庭環(huán)境中.

        AED還可用于自動和快速標記音頻記錄(Audio tagging).這是一項具有挑戰(zhàn)性的任務,音頻事件變化無窮,對應的標簽數(shù)量眾多,不同的標注者可能提供不完整或不明確的標簽.為了處理這些問題,文獻[60]使用一個共同正則化(Co-regularization)方法來學習一對聲音和文本上的分類器.第一個分類器將低級音頻特性映射到真正的標簽列表,第二個分類器將損壞的標簽映射到真正的標簽,減少了由第一個分類器中的低級聲學變化引起的不正確映射,并用額外的相關標簽進行擴充.音頻信息還可以輔助進行視頻事件檢測(Video Event Detection, VED).文獻[61]提出一種音頻算法,基于STE、ZCR、MFCC、基于統(tǒng)計特性的改進特征、HMM,對視頻中的尖叫片段進行檢測.

        3.2 音頻場景識別

        音頻場景(Audio scenes)是一個保持語義相關或一致性(Semantic consistant)的聲音片段,通常由多個音頻事件組成.例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對應一個戰(zhàn)爭場景.對于實際應用中的連續(xù)音頻流,音頻場景識別(Audio Scene Recognition, ASR)首先進行時間軸語義分割,得到音頻場景的起止時間即邊界(Audio scene cut),再進行音頻場景分類(Audio Scene Classification, ASC).ASR是提取音頻結構和內容語義的重要手段,是基于內容的音頻、視頻檢索和分析的基礎[26,62].目前場景檢測(Scene detection)的研究主要基于圖像和視頻.音頻同樣具有豐富的場景信息,基于音頻既可獨立進行場景分析,也可以輔助視頻場景分析,以獲得更為準確的場景檢測和分割.音頻場景的類別并沒有固定的定義,依賴于具體應用場景.在電影等視頻中,可粗略分為語音、音樂、歌曲、環(huán)境音、帶音樂伴奏的語音等幾類[62].環(huán)境音還可以進行更細粒度的劃分.基于音頻分析的方法用戶容易接受,計算量也比較少[63-64].

        音頻場景由主要的幾個聲源所刻畫.換句話說,音頻場景可以定義為一個包含多個聲源的集合[65].當大多數(shù)聲源變化時,就會發(fā)生場景變化.基于一個模擬人類聽覺的具有時間兩個參數(shù)(Attention-span和Memory)的模型[66],文獻[65]逐塊提取能量、過零率、譜特征、倒譜特征等多個音頻特征,對每個特征擬合最佳包絡線,通過計算包絡線之間的相關度,基于閾值進行邊界分割.參數(shù)Attention-span增加時性能提升.文獻[67]假設大多數(shù)廣播包含語音、音樂、掌聲、歡呼聲等聲音類別,將每秒音頻包含的分類構成直方圖形式的紋理(Texture)表示,基于紋理的變化進行場景變化檢測.文獻[68]首先使用模糊C均值聚類(Fuzzy C-means)算法檢測Audio shot cuts,之后計算音頻鏡頭之間的語義相關性,語義相關的音頻鏡頭被合并為音頻場景.文獻[69]基于音頻事件進行音頻場景檢測,符合人類的思維習慣.與文本信息檢索中的罕見詞和常見詞類似,給更能反映音頻內容主題(Topic)的音頻事件賦予更大的權重,而給在多個主題中出現(xiàn)的常見音頻事件賦予較小的權重,會有助于音頻場景的檢測.

        聲音特征的確定是音頻場景自動識別中的一個重要問題,提取正確的特性集是獲得系統(tǒng)高性能的關鍵.設計選擇音頻特征與對應的音頻場景有很強的相關性.例如,在文獻[70]的水聲、風聲、鳥叫聲、城市聲音等4種類型的聲音中,一般來說,水和風的聲音都有較低的音高值和音高強度;鳥叫聲有很高的音高值和音高強度;城市的聲音有很低的音高值和相對廣泛的音高強度.

        人們已經(jīng)提出了各種各樣的音頻特征,但過去的絕大多數(shù)工作都利用結構化數(shù)據(jù)(如語音和音樂)的特性,并假定這種關聯(lián)會自然地傳遞到非結構化的聲音[71].ASR使用的特征有MFCC[25-26,53,72],短時能量(Short-Time Energy, STE)[26],頻帶能量(Subband Energy, SE)[26],ZCR[26],f0[26],SC[26,72],頻譜帶寬(Spectral Band Width, SBW)[72],MPEG-7特征[26,39,73],基于幅度調制濾波器組(Amplitude modulation filterbank)與Gabor濾波器組(Gabor Filterbank, GFB)的特征[48].文獻[70]使用音高特征(Pitch features),包括音高值、音高強度、可聽音高隨時間變化的百分比.文獻[74]通過線性正交變換的主成分分析(Principal Component Analysis, PCA)將多通道觀測幅度的對數(shù)轉換為特征向量.文獻[71]基于匹配追蹤進行環(huán)境聲音的特征提取.利用字典來選擇特征,得到靈活、直觀、物理可解釋的表示形式,對噪聲的敏感度較低,能夠有效地代表來自不同聲源和不同頻率范圍的聲音.通常特征向量只描述單個幀(Frame)的信息,但與時間動態(tài)(Temporal dynamics)相關的局部特征會有益于環(huán)境聲信號的分析.文獻[72]將幀級的MFCC特征視為2維圖像,采用局部二進制模式(Local Binary Pattern, LBP)來描述時間動態(tài)的隱藏(Latent)信息,并使用LBP對演化(Evolution)過程進行編碼.由于音頻場景有豐富的內容,多個特征的組合將是獲得良好性能的關鍵.

        與傳統(tǒng)的手工特征相比,矩陣分解(Matrix factorization)類的非監(jiān)督學習方法包括稀疏性(Sparsity)、基于內核(Kernel-based)、卷積(Convolutive)、PCA的新方法,可以自動從T-F表示中學習場景的更好表示[75].文獻[76]通過有監(jiān)督的非負矩陣分解(Supervised Non-negative Matrix Factorization, NMF)進行矩陣分解,研究了使用監(jiān)督特征學習方法從聲場記錄中提取具有相關性和區(qū)分性(Relevant and discriminative)特征的方法.文獻[77]使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)作為特征提取器,從標簽樹嵌入圖像(Label-tree embedding image)中自動學習對分類任務有用的特征模板.文獻[74]通過PCA得到的線性正交變換將多通道觀測幅度的對數(shù)轉換為特征向量.

        ASR使用的模型包括高斯混合模型(Gaussian Mixture Model, GMM)[25,48],隱馬爾可夫模型(Hidden Markov Model, HMM)[48],SVM[25-26,78-79],I-Vector[53],集成分類器(Ensemble Classifier, EC)[72],深度神經(jīng)網(wǎng)路(Deep Neural Network, DNN)[25,48]、遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)[25,48]、遞歸深度神經(jīng)網(wǎng)絡(Recurrent Deep Neural Network, RDNN)[25]、CNN[25]等.文獻[48]采用能夠像RNN一樣分析長期上下文信息(Long contextual information),且訓練代價與傳統(tǒng)DNN類似的時延神經(jīng)網(wǎng)絡(Time-Delay Neural Network, TDNN)系統(tǒng).

        聲音與視覺信息互為補充是人類感知環(huán)境的重要方式[25].音頻場景分析被大量用于輔助視頻場景分析、檢測和分割,提高對視頻內容的識別準確率,解決諸如圖像變化而實際場景并未變化的困難,且整體運算復雜度更低[64].音頻場景分析可應用于視頻內容監(jiān)控及特定視頻片段的檢索與分割[78],即使在視頻數(shù)據(jù)丟失的情況下,也能檢測到目標聲源的活動[80].文獻[81]使用聲音識別廣播新聞中說話人的變化位置,定位每一個主題的開始,實現(xiàn)快速自動瀏覽.文獻[82]結合音、視頻特點,對足球視頻進行基于進球語義事件的檢索,滿足觀眾的個性化檢索要求.為滿足網(wǎng)絡視頻的監(jiān)管需求,文獻[39]提取音頻流的MPEG-7低層(SC、SBW)和高層音頻特征(音頻簽名),采用獨特的權重分配機制形成音頻詞袋特征,輸入SVM對暴力和非暴力視頻進行分類.文獻[40]結合視頻靜圖特征、運動特征以及聲音特征,建立一個多模態(tài)色情視頻檢測算法.文獻[79]首先用兩層(粗/細)SVM識別爆炸/類似爆炸的音頻區(qū)間,得到爆炸的備選場景.對這些備選場景再判斷其對應的視覺特征是否發(fā)生劇烈突變,得到最后的識別結果.

        4 各領域基于一般音頻/環(huán)境聲的計算機聽覺算法概述

        如前所述,CA是一個運用音頻信號處理、機器學習等方法對數(shù)字音頻和音樂進行內容分析理解的學科.其中音樂部分的技術綜述參見文獻[83],本文面向一般音頻/環(huán)境聲,以國民經(jīng)濟行業(yè)分類國家標準[84]中的各個領域為主線,總結已有的CA技術的典型算法.

        4.1 醫(yī)療衛(wèi)生

        人的身體本身和許多疾病,都會產(chǎn)生各種各樣的聲音.借助CA進行輔助診斷與治療,既可部分減輕醫(yī)生的負擔,又可普惠廣大消費者,是智慧醫(yī)療的重要方面.

        4.1.1 呼吸系統(tǒng)疾病

        常見的與病人呼吸系統(tǒng)相關的音頻事件有咳嗽、打鼾、言語、喘息、呼吸等.監(jiān)控病人狀態(tài),在發(fā)生特定音頻事件時觸發(fā)警報以提醒護士或家人具有重要意義[85].聽診器是診斷呼吸系統(tǒng)疾病的常規(guī)設備,文獻[86]研制光電型智能聽診器,能存儲和回放聲音,顯示聲音波形并比對,同時對聲音進行智能分析,給醫(yī)生診斷提供參考.

        咳嗽(Cough)是人體的一種應激性的反射保護機制,可以有效清除位于呼吸系統(tǒng)內的異物.但是,頻繁、劇烈和持久的咳嗽也會給人體造成傷害,是呼吸系統(tǒng)疾病(Respiratory disease)的常見癥狀.不同呼吸疾病可能具有不同的咳嗽特征.目前對咳嗽的判斷主要依靠病人的主觀描述,醫(yī)生的人工評估過程繁瑣、主觀,不適合長期記錄,還有傳染危險.鑒于主觀判斷的不足,研究客觀測量及定量評估咳嗽頻率(Cough frequency)、強度(Cough intensity)等特性的咳嗽音自動識別與分析系統(tǒng),為臨床診斷提供信息,就非常必要[87-88].有時還需要專門針對兒科人群(Pediatric population)的技術[89].

        文獻[90]通過臨床實驗測試了人類根據(jù)聽覺和視覺來識別和計算咳嗽的準確性,還評估了一個全自動咳嗽監(jiān)視器(Pulmotrack).被試依靠聽覺可以很好地識別咳嗽,視覺數(shù)據(jù)對于咳嗽計數(shù)也有顯著影響.雖然Pulmotrack自動測試的咳嗽頻率和人類結果有較大差距,但文獻[91]研發(fā)的基于音頻的自動咳嗽檢測(Audio-based automatic cough detection)優(yōu)于使用4個傳感器的商用系統(tǒng),說明了這種技術具有一定的可行性.

        從含有背景噪聲的音頻流中識別咳嗽音頻事件(Cough events)的技術框架與上述AED相同,只是集中于識別分類為咳嗽聲的音頻片段.最簡單的端點檢測是分幀[92],并對疑似咳嗽的片段進行初步篩選.文獻[88]和[93]基于STE和ZCR的雙門限檢測算法對咳嗽信號進行端點檢測.文獻[88]研究了基于WT的含噪咳嗽信號降噪方法,通過實驗確定小波函數(shù)和分解層數(shù)、閾值等.在已有工作中,幾乎所有的咳嗽聲音特征提取方法都來自語音或音樂領域,如LPC[88],MFCC[88,92-93],香農(nóng)熵(Shannon entropy)[89],倒譜系數(shù)(Cepstral coefficients)[89],線性預測倒譜系數(shù)(Linear Predictive Cepstral Coefficient, LPCC)[88],結合WPT和MFCC的WPT-MFCC特征[88]等.從咳嗽的生理學特性和聲學特點可知,咳嗽聲屬于典型的非平穩(wěn)信號,具有突發(fā)性.在咳嗽頻譜(Cough spectrum)中能量是高度分散的,與語音和音樂信號明顯不同.為提取更符合咳嗽的聲音特性,文獻[87]基于Gammatone濾波器組在部分頻帶提取音頻特征.在咳嗽聲分類識別階段,文獻[92]使用DTW將咳嗽疑似幀的MFCC特征和模板庫進行基于距離的匹配.文獻[87]使用SVM、KNN和RF分別訓練和測試,集成各種輸出做出最終決策.文獻[92]使用ANN,文獻[93]使用HMM,文獻[88]使用GMM對咳嗽片段進行分類.在咳嗽聲錄音里經(jīng)常出現(xiàn)的聲音種類一般還有說話聲、笑聲、清喉音、音樂聲等[88].

        在CA的醫(yī)學應用領域,目前各項研究都是用自行搜集的臨床數(shù)據(jù).文獻[87]收集了18個呼吸系統(tǒng)疾病患者的真實數(shù)據(jù),并由人類專家進行了標注.文獻[89]搜集了14個受試者的數(shù)據(jù),錄音長度840min.在識別咳嗽音頻事件的基礎上,如果集成更多咳嗽方面的專家知識,可以更精確地幫助提高疾病類型臨床診斷的精確度[92].

        肺的狀況直接影響肺音(Lung sound).肺音包含豐富的肺生理(Physiological)和病理(Pathological)信息,在聽診(Auscultation)過程中對肺部噪聲振動頻率(Lung noise vibration frequency)、聲波振幅(Amplitude)和振幅波動梯度(Amplitude fluctuation gradient)等特征進行分析來判斷病因.研究塵肺患者肺部聲音的改變,可以探索聽聲辨病的可行性[94].文獻[95]對30多份相同類型的肺音進行小波分解,每個頻帶小波系數(shù)加權優(yōu)化后,通過BPNN對大型、中型和小型濕羅音(Wet rale)和喘息聲(Wheezing sound)進行分類識別.文獻[96]采集肺音信號,使用WT濾波抑制噪聲獲得更純凈的肺音,然后使用WT進行分析,將肺音信號分解為7層,并從頻帶中提取一組統(tǒng)計特征輸入BPNN,分類識別為正常和肺炎兩種結果.

        阻塞性睡眠呼吸暫停(Obstructive Sleep Apnea, OSA)是一種常見的睡眠障礙,伴隨打鼾,在睡眠時上呼吸道(Upper airway)有反復的阻塞,發(fā)生在夜間不易被發(fā)現(xiàn),對人身健康造成極大的危害,對其進行預防與診斷十分重要.此疾病監(jiān)測要對患者的身體安裝許多附件來追蹤呼吸和生理變化,讓患者感到不適,并影響睡眠.目前使用的診斷設備-多導睡眠儀需要患者整夜待在睡眠實驗室,連接大量的生理電極,無法普及到家庭.鼾聲信號的聲音分析方法具有非侵入式、廉價易用的特點,在診斷OSA上表現(xiàn)出極大的潛力.

        鼾聲信號采集通常使用放于枕頭兩端的聲音傳感器[97].整夜鼾聲音頻記錄持續(xù)時間較長,而且伴有其他非鼾聲信號.首先需進行端點檢測,如文獻[98]采用集成經(jīng)驗模態(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)算法,文獻[99]采用更加適合鼾聲這種非線性、非平穩(wěn)聲信號的自適應縱向盒算法,文獻[100]采用基于STE、ZCR的時域自相關算法.文獻[101]通過整夜鼾聲聲壓級(響度)、鼾聲暫停間隔等特征,得到區(qū)分單純鼾癥(Simple Snoring, SS)與OSA患者的簡便篩查方法.文獻[100]通過數(shù)字濾波器、快速傅里葉變換(Fast Fourier Transform, FFT)、線性預測分析等技術提取呼吸音相關特征,并用DTW算法進行匹配識別.文獻[102]采用由f0、SC、譜擴散(Spectral spread)、譜平坦度(Spectral flatness)組成的對噪聲具有一定魯棒性的特征集,以及SVM分類器,對笑聲、尖叫聲(Scream)、打噴嚏(Sneeze)和鼾聲進行分類,并進一步對鼾聲和OSA分類識別.文獻[98]采用類似方法,提取共振峰頻率(Formant Frequency,F(xiàn)F)、MFCC和新提出的基頻能量比(f0energy ratio)特征,經(jīng)SVM訓練后可有效區(qū)分出OSA與單純打鼾者.而且將呼吸、血氧信號與鼾聲信號相結合,優(yōu)勢互補,提高了整個系統(tǒng)的篩查能力.文獻[103]使用相機記錄患者的視頻和音頻,并提取與OSA相關聯(lián)的特征.進行視頻時間域降噪后,跟蹤患者的胸部和腹部運動.從視頻和音頻中分別提取特征,用于分類器訓練和呼吸事件檢測.文獻[99]提取能夠描述打鼾時聲道特性的特征(即共振峰)后進行K-means聚類,將音頻事件中的鼾聲檢測出來.

        4.1.2 心臟系統(tǒng)疾病

        心音信號(Heart Sounds, HS)是人體內一種能夠反映心臟及心血管系統(tǒng)運行狀況的重要生理信號.對心音信號進行檢測分析,能夠實現(xiàn)多種心臟疾病的預警和早期診斷.針對心音的分析研究已從傳統(tǒng)的人工聽診定性分析,發(fā)展到對T-F特征的定量分析.

        真實心臟聲信號的錄制可使用電子聽診器[104],或布置于人體心臟外胸腔表面的聲音傳感器[105].胎兒的心音可通過超聲多普勒終端檢測后經(jīng)音頻接口轉換為聲信號[106].利用心音信號的周期性和生理特征可對心音信號進行自動分段[107].

        心音信號非常復雜且不穩(wěn)定.在采集過程中,不可避免地會受到噪聲和其他器官活動聲音(如肺音等)的干擾,在T-F域上存在非線性混疊.文獻[108]對原始心音信號通過WT進行降噪處理.文獻[109]使用針對非平穩(wěn)信號的EMD方法初步分離心音.為解決模態(tài)混疊問題,又對EMD獲得的IMFs分量進行奇異值分解(Singular Value Decomposition, SVD).對各個特征分量進行篩選重構后,獲得較為清晰的心音信號,優(yōu)于傳統(tǒng)的小波閾值消噪等方法.

        心音信號檢測使用的T-F表示包括STFT、Wigner分布(Wigner Distribution, WD)和WT[110].使用的特征主要是第一心音(S1)和第二心音(S2)的共振峰頻率FF[104,108]、從功率譜分布中提取的特征[111]、心電圖(Electrocardiograph,ECG)等輔助數(shù)據(jù)特征[112].S1和S2具有重要的區(qū)分特性.實驗表明,只依靠S1和S2這兩個聲音特征,無需參考ECG,也不需要結合S1和S2的單個持續(xù)時間或S1-S2和S2-S1的時間間隔,即可得到好的識別結果[104].

        心音信號檢測使用的統(tǒng)計分類器有SVM[108]、全貝葉斯神經(jīng)網(wǎng)絡模型(Full Bayesian Neural Network Model, FBNNM)[111]、DNN[104]、小波神經(jīng)網(wǎng)絡(Wavelet Neural Network, WNN)[113]等.文獻[111]定義了8種不同類型的心音.由于臨床采集困難,目前研究中心音數(shù)據(jù)量都不大.文獻[111]中有64個樣本,文獻[107]有48例心音(異常10例),每例提取2個時長5s的樣本,共96個樣本.

        4.1.3 其他相關醫(yī)療

        文獻[114]使用自相關法提取嗓音的f0特征,用SVM進行分類識別,區(qū)分病態(tài)嗓音和正常嗓音,完成對嗓音疾病的早期診斷.文獻[115]采集胎音和胎動信號,獲得胎音信號最強的位置,即胎兒心臟的位置,以此判斷出胎兒頭部位置和胎兒的體位姿態(tài).文獻[116]檢測片劑、丸劑或膠囊暴露于腸胃系統(tǒng)時所產(chǎn)生的聲波,以確定該人已經(jīng)吞服了所述片劑、丸劑或膠囊.文獻[117]使用X射線圖像確定血液速度的空間分布,根據(jù)速度分布人工合成可視譜所定義的聲音.該方法允許心臟病學家和神經(jīng)科學者以增強的方式分析血管,對脈管病變進行估計,并對血流質量進行更好的控制.肌音信號(Mechanomyographic, MMG)是人體發(fā)生動作時由于肌肉收縮所產(chǎn)生的聲信號,蘊含了豐富的能夠反映人體肢體運動狀態(tài)的肌肉活動信息.文獻[118]通過肌音傳感器采集人體前臂特定肌肉的聲信號,基于模式分類開發(fā)相應的假肢手控制系統(tǒng).

        4.2 安全保護

        安全保護經(jīng)常采用智能監(jiān)控方式,按照地點可分為公共場所監(jiān)控和私密場所監(jiān)控兩種.公共場所包括公園、車站、廣場、商場、街道、學校、電影院、劇場等地點,經(jīng)常人員密集,對其進行有效的安防智能監(jiān)控來維護社會安全是最主要的應用.目前公共場所的監(jiān)控系統(tǒng)主要都基于視頻,但是視線被遮擋時存在盲區(qū),而且容易受到光線、惡劣天氣等因素的影響.異常事件通常會伴隨異常聲音的發(fā)生,異常聲音本身即能有效地反應重大事故和危急情況的發(fā)生,且具有復雜度低、易獲取、不受空間限制等優(yōu)勢[119-120].一個完整的公共場所智能監(jiān)控系統(tǒng)應當充分利用場景中視聽覺信息的相關性,將其有機地融合到一起[121].例如,文獻[122]采集ATM機監(jiān)控區(qū)域內的聲信號,提取特征后判斷是否為異常聲音,與視頻監(jiān)控相結合可以解決ATM機暴力犯罪的問題.私密場所主要包括家庭、宿舍、醫(yī)院病房、浴室、KTV包房、軍事基地等地點,由于或多或少的隱私性及保密性,不方便采用可能暴露被監(jiān)護人隱私的視頻監(jiān)控,采用基于AED的音頻監(jiān)控更為合適[123-124].典型的應用包括老年人、殘疾人、嬰兒和兒童的家庭日常生活監(jiān)控,病人的醫(yī)療監(jiān)控及輔助護理,浴室、學生寢室等私密性公共場所的安全監(jiān)控等[125-127].與已有的基于穿戴式設備的個體監(jiān)護技術相比,音頻監(jiān)控受到的限制較小,成本也降低很多[128].

        對公共場所及私密場所進行音頻監(jiān)控的技術框架相同,區(qū)別在于可能發(fā)生的異常聲音種類不同.異常聲音是指正常聲音比如開門聲、關門聲、電話鈴聲、腳步聲、談話聲、音樂聲、車輛行駛聲等之外的在特殊情況下才發(fā)出的聲音.文獻中研究較多的公共場合異常聲音種類通常有槍聲[129-132]、爆炸聲[133-134]、玻璃破碎聲[134]、亂扔垃圾聲[135]等,私密場合研究較多的異常聲音種類通常有摔門聲[131]、跑步聲[131,136]、玻璃破碎聲[131,133]、人的尖叫聲[131,133]、嬰兒或小孩的哭聲[133,137]、老人摔倒聲[136,138-139]、呼救聲[136]、漏水聲[140]等.注意這種劃分并不是絕對的,只是按照發(fā)生的可能性進行的粗略分類,有時也會交叉.比如人的尖叫聲除了可能發(fā)生在家庭吵架場合,也會發(fā)生在廣場恐怖事件這樣比較少數(shù)的場合.音頻監(jiān)控系統(tǒng)主要基于軟硬件的系統(tǒng)集成.文獻[141]在智能家居領域發(fā)明了一種具有聲音監(jiān)聽功能的智能電視,智能電視和聲音監(jiān)聽模塊通過無線通信連接.當聲音監(jiān)聽模塊監(jiān)聽到特定的聲音或者音量超限時,智能電視會自動調成靜音.

        在已有的音頻監(jiān)控文獻中,采集聲音數(shù)據(jù)通常使用麥克風[136]或麥克風陣列(Microphone array)[138].文獻[131]構建了一個大約1000個聲音片段的音頻事件數(shù)據(jù)集和一個監(jiān)視系統(tǒng)的真實情況數(shù)據(jù)集.文獻[136]模擬了一個包含105個設計場景、21個音頻事件的音頻事件數(shù)據(jù)庫.

        文獻[133]使用MFCC的第1維系數(shù)改進聲音活動檢測算法,確定異常聲音的端點.文獻[142]針對公共場所異常聲音的特點,提出一種綜合短時優(yōu)化ZCR和短時對數(shù)能量的自適應異常聲音端點檢測方法.文獻[134]通過WT分析信號的高頻特性,采用基于能量變化的算法檢測異常聲音片段.文獻[119]基于STE時間閾值進行音頻事件端點檢測.文獻[120]則另辟蹊徑,首先用基于單類SVM的異常聲音檢測算法進行粗分類,根據(jù)MFCC、STE、SC、短時平均ZCR等特征判斷每一幀聲音是否異常.當窗長2s的滑動窗內有連續(xù)多個幀出現(xiàn)異常時,則判定這一段聲音為異常聲音.通過對各段聲音進行中值濾波(Median filtering)平滑后得到音頻事件的分割,從而直接省去端點檢測的步驟.文獻[143]使用了小波降噪方法進行信號提純.

        音頻監(jiān)控使用的音頻特征包括STE[129,143]、ZCR[144]、短時平均ZCR[129]、SC[144]、滾降點(Roll-off point)[144]、MFCC[123,129,134,136-137,139,143-144]、ΔMFCC[134,136,143]、ΔΔMFCC[136]、Teager能量算子[133]、感知特征(Perceptual features)[135]、MPEG-7特征[145-146]等.考慮到異常聲信號具有非平穩(wěn)、突發(fā)性等特點,文獻[120]將信號通過EEMD處理獲得不同層的IMF,對每一層的IMF提取MFCC等特征,并使用特征組合成最終稱為EEMD-MFCC的特征矢量,識別效果比MFCC有明顯提升.文獻[41]在提取音頻特征后不立即進行分類,而是先送入概率潛在語義分析模型(Probabilistic Latent Semantic Analysis, PLSA),通過訓練獲取聲音主題詞袋模型,降低音頻信號特征矩陣的維數(shù)[41].文獻[128]認為特征融合很重要.文獻[131]研究了不同的幀大小對音頻特征提取的影響,結果表明不同的音頻幀大小會引起分類精度變化.整合多幀特征生成一個新的特征集,可以實現(xiàn)更好的性能.

        音頻監(jiān)控使用的音頻事件匹配識別算法有模板匹配法[126]、DTW[129,137]、動態(tài)規(guī)劃(Dynamic Programming, DP)[139].使用過的統(tǒng)計分類器包括SVM[145]、KNN[41]、GMM[143-144]、HMM[123,133-134]、適合處理時間序列數(shù)據(jù)的脈沖神經(jīng)網(wǎng)絡(Pulsed Neural Networks, PulsedNN)[147]、層次結構神經(jīng)網(wǎng)絡(Hierarchical Structure Neural Network, HSNN)[148]、條件隨機場(Conditional Random Field, CRF)[127]、基于模糊規(guī)則的單類分類器(Fuzzy rule-based one-class classifiers)[135]等.通常系統(tǒng)會根據(jù)音頻事件的種類數(shù)量訓練相同數(shù)量的模型,如文獻[136]訓練了與其音頻事件數(shù)據(jù)庫對應的21個HMM.大多數(shù)異常聲音監(jiān)控系統(tǒng)采用直接識別法,只適用于少量異常聲音種類的檢測,當檢測種類上升時效果變差[120].通過增加訓練文件的數(shù)量和減少每個訓練文件中樣本的數(shù)量,可以獲得更高的識別準確率[6].機器學習并不是識別音頻事件的唯一辦法,文獻[140]研究了一種基于氣泡聲學物理模型的識別系統(tǒng),不需要訓練.

        4.3 交通運輸、倉儲

        CA在交通運輸、倉儲業(yè)具有多個應用.例如,CA可自動進行車輛檢測、車型識別、車速判斷、收費、交通事故認定、剎車片材質好壞識別、飛行數(shù)據(jù)分析等,對于水、陸、空智能交通都具有重要意義[149-151].

        4.3.1 鐵路運輸業(yè)

        文獻[152]發(fā)明一種地鐵故障檢測裝置,用麥克風檢測列車發(fā)出的聲信號并轉換為電信號.若電信號的幅值變量與基準幅值變量相同,則繼續(xù)檢測;若不相同,則觸發(fā)報警模塊,記錄當前時刻,并顯示列車故障點的位置.

        4.3.2 道路運輸業(yè)

        4.3.2.1 車型及車距識別

        車型自動識別廣泛應用于收費系統(tǒng)、交通數(shù)據(jù)統(tǒng)計等相關工作中.傳統(tǒng)方法是在公路上埋設電纜線及感應線圈,通過攝像頭抓拍進入視線的車輛照片進行車型識別.此外,還有超聲波檢測法、微波檢測法、紅外線檢測法等.但對路段有破壞性,設備后期維護要求高,受雨霧等天氣狀況影響大,不適合沿道路大量鋪設[149].基于音頻信號的識別技術具有非接觸性、維護簡單、價格低等特點,在很大程度上彌補傳統(tǒng)車輛檢測設備易損壞、破壞路面、受環(huán)境影響明顯、價格昂貴等不足,具有非常重要的現(xiàn)實意義[150].

        早在1998年,文獻[153]就提出一種根據(jù)物體發(fā)出的聲音來對軍用車輛進行分類的統(tǒng)計方法.文獻[149]基于車輛聲信號進行車型識別.文獻[154]提出一種基于聲音特征的運動車輛類型(Vehicle types)和距離的簡單分類算法,對行駛車輛的接近程度進行識別,幫助不能聽到車輛從背后接近的聽障(Hearing impaired)人士降低戶外行動的危險.記錄車輛在不同環(huán)境條件和不同車速下的聲音以及對應的車輛類型和距離作為訓練數(shù)據(jù).文獻[155]的算法可以識別車輛類型.文獻[156]將車輛與人的距離分為接近(Approaching)、通過(Passing)和遠離(Receding)3類,通過對道路行駛車輛在不同階段感知到的噪聲差異進行識別.為了防止碰撞,文獻[157]研發(fā)了一種根據(jù)車輛輪胎發(fā)出的聲音來識別接近車輛(Approaching vehicle)的方案.

        車型識別的CA技術框架基本一致,只是對應的各種聲音來源及種類有所不同.文獻[158]選用了駐極體麥克風和AD7606數(shù)據(jù)采集模塊,采集了東風農(nóng)用三輪車和大眾Sagitar 1.4T轎車的通過噪聲.文獻[159]使用DARPA SensIT實驗中的真實數(shù)據(jù),其中包含了履帶車和重型卡車的大量聲信號.文獻[157]使用測量車上的一對麥克風來檢測接近的車輛.文獻[160]使用聲音傳感器,采集多條車道上行駛車輛的混疊聲信號.

        行駛車輛的聲音可能會受到環(huán)境噪聲(Ambient noises)和人所在車輛發(fā)出聲音的影響.文獻[157]利用多對麥克風的譜減技術(Spectral subtraction)來降低發(fā)動機、冷卻風扇以及其他環(huán)境噪聲的影響.盲信號分離或盲源分離(Blind Source Separation, BSS)在未知源信號與混合系統(tǒng)參數(shù)的情況下,僅由傳感器搜集的觀測信號估計出源信號.文獻[160]通過盲源分離模型估計信號分量個數(shù)及瞬時幅度,將單個車輛信號從混合信號中分離出來.文獻[150]采用MP稀疏分解方法,用Gabor原子進行信號的分解及重構,重構后的信號能較好地反映原信號的特征.文獻[150]認為發(fā)動機聲信號相對平穩(wěn),信號分解后頻域相對穩(wěn)定,采用單幀進行識別可滿足實時性要求.文獻[161]采用200ms的較長時間幀來計算頻譜.

        使用的音頻特征有自回歸(Autoregressive)[154]、STE[149]、ZCR[149]、基頻周期[149]、MFCC[161]、基于聽覺Gammatone濾波器的頻譜特征[162]、使用WPT提取的16維信號特征[159]等.文獻[160]利用HHT抽取信號分量的時域包絡線,并提取特征向量.文獻[155]使用零均值調整樣本的協(xié)方差矩陣的均值向量和最重要主成分特征向量,來共同表征其聲音特征.文獻[162]首先在多個時間幀上對Gammatone過濾的特征向量進行組合,建立一個高維的時間譜表示(Spectro-Temporal Representation, STR).此外,由于運動車輛的確切聲音特征是未知的,因此文獻[162]采用非線性Hebbian學習(Nonlinear Hebbian Learning, NHL)規(guī)則從T-F特征提取出具代表性的獨立特征并減少特征空間的維度.STR和NHL均能準確提取原始輸入數(shù)據(jù)的關鍵特征.該模型在噪聲環(huán)境下的性能優(yōu)于同類模型.對于加性高斯白噪聲和一般有色噪聲,該模型具有良好的魯棒性.在SNR為0dB時,它可以減少3%的錯誤率,同時提高21%~34%的性能;在SNR為-6dB時,其他模型已經(jīng)不能正常工作,而它也才只有7%~8%的錯誤率.

        使用的統(tǒng)計分類器有BPNN[150,154,160]、GMM[161]、HMM[161]、SVM[159]、基于STFT的貝葉斯子空間方法[161]等.在單節(jié)點識別結果上,文獻[159]提出基于能量的全局決策融合算法,對多個節(jié)點做出的決策進行融合.文獻[161]研究了在相似工作條件下產(chǎn)生的各種車輛聲音的向量分布,使用一組典型的聲音樣本集合作為訓練數(shù)據(jù)集.文獻[156]將各種聲音數(shù)據(jù)按層次分類,結果比沒有層次結構的傳統(tǒng)水平分類方案要好.文獻[156]同時表明了當前AI系統(tǒng)的識別能力,通常低于人類專家,但高于未受訓練的普通人.

        4.3.2.2 交通事故識別

        在重大交通事故發(fā)生時,車輛運行狀態(tài)與正常行駛狀態(tài)相比發(fā)生了很大變化,伴隨有劇烈碰撞的聲音,而且與周圍的噪聲存在較大的差別.因此,可以通過聲音傳感器實時采集并分析車輛周圍的聲音,判別車輛的運行情況,一旦有事故發(fā)生,可立即提取碰撞聲并識別,并及時向后臺救護系統(tǒng)發(fā)出報警信號[163].

        聲音采集裝置成本低廉,體積小,安裝方便,可靠性強,不易損壞,維護容易.聲音檢測系統(tǒng)的計算方法相對簡單,信號處理量小,既可實時處理又可遠程傳輸,快速準確,不易受雨雪天氣和交通條件的影響,可以全天候工作.在事故發(fā)生后,報警信號應該將包括事故地理位置在內的信息盡快地傳遞到指揮中心,可用無線網(wǎng)絡來傳輸數(shù)據(jù)[163].建立一個快速、高效的應急救援系統(tǒng),能提高交通事故檢測的實時性和準確度[164].

        人耳對相同強度、不同頻率的聲音變化的敏感程度不同.文獻[165]利用此特點,用基于人耳等響度曲線的A計權濾波器對聲信號進行加權,使聲信號映射到真實的人耳聽覺頻域,然后再進行音頻事件檢測.文獻[164]采用單類SVM進行異常點檢測.文獻[165]采用互信息(Mutual information)分析噪聲低頻域與高頻域的相關性,分別作為輸入和輸出向量,用RBFNN建模后估計高頻域噪聲,用譜減法降噪后獲取較純凈的聲信號.

        在提取音頻特征方面,文獻[164]使用Haar-WT提取聲信號的頻域特征.文獻[166]以小波分解后不同頻帶的重構信號能量作為特征向量.文獻[165]首先二值化目標音頻事件的頻譜圖,定位要保留的頻帶,提取其中最主要的頻率成分.與全頻域的MFCC特征相比,能降低計算量,提高檢測速度,適用于行車環(huán)境下的實時音頻事件檢測.在類型識別方面,文獻[166]采用多個SVM構成的交通事件分類器,對正常行駛、剎車、碰撞事件的聲信號進行識別.

        4.3.2.3 交通流量檢測

        現(xiàn)有交通流量數(shù)據(jù)采集設備造價高,采集精度不夠,后期分析困難.文獻[167]提取車輛噪聲的時域特征STE、ZCR,檢測端點和特征跳變點,進行車型辨別和分類,統(tǒng)計出交通流量數(shù)據(jù).為保證音頻信息采集的有效性,數(shù)據(jù)采集設備安裝在車輛加速行駛路段或凸形豎曲線頂部附近.文獻[168]依據(jù)道路擁堵時機動車怠速聲音在環(huán)境中所占比例較高的原理,發(fā)明一種道路擁堵檢測方法.將一定時間內采集到的道路聲音進行FFT,在低頻區(qū)域(20~40Hz)內,擁堵與暢通兩種狀態(tài)下的頻域能量譜有明顯區(qū)別.擁堵時怠速頻率處將有明顯尖峰,將尖峰陡峭程度轉換成系數(shù)k,基于k值進行道路狀況評判.文獻[169]基于聲信號判斷是否有汽車到來,尤其適用于車流量稀少、基礎設施比較差的區(qū)域以及智能公路的前期建設階段,同時對路燈進行智能控制,環(huán)保節(jié)能.

        4.3.2.4 道路質量檢測

        汽車行駛產(chǎn)生的道路噪聲與不同類型、不同磨損狀況的路面直接相關.文獻[170]基于正常車輛行駛下獲得的輪胎聲音,使用ANN分類器,能夠正確預測3種路面類型及其磨損情況.該技術可用于創(chuàng)建數(shù)字地圖,自動識別對車輛行駛道路噪聲帶來強烈影響的路段,估計道路宏觀紋理.對于土木工程部門、道路基礎設施運營商以及高級駕駛員輔助系統(tǒng)都有很大好處.文獻[171]采集聲信號,基于短時平均幅值對信號進行端點檢測.以MFCC和基于HHT的希爾伯特邊際譜作為特征,結合BPNN實現(xiàn)基于聲振法的水泥混凝土路面脫空狀況檢測.

        4.3.3 水上運輸業(yè)

        CA在江河海洋領域主要用于水聲目標識別、船舶定位、安全監(jiān)控等.利用被動聲吶(Passive sonar),如安裝在海床上的單水聽器來檢測船舶和自主水下航行器(Autonomous underwater vehicles)的活動,是對海洋保護區(qū)和受限水域進行遠程監(jiān)測的一種有效方法.傳統(tǒng)方法利用水聲數(shù)據(jù)的倒譜分析來測量直接路徑到達和第一次多徑到達之間的時間延遲,從而估計聲源的實時范圍[172].水下聲道的環(huán)境不確定性常常是聲場(Acoustic field)預測誤差的主要來源[173].

        近年來,基于AI測量船舶距離的方法開始發(fā)展起來.文獻[172]基于數(shù)據(jù)增強進行模型訓練.在不同SNR情況下,運用倒譜數(shù)據(jù)的CNN能夠比傳統(tǒng)的被動聲吶測距方法更遠距離地檢測出船只,并估計出船只所在的范圍.文獻[174]在圣巴巴拉海峽進行深水(600m)船只距離估計實驗.將觀測船的采集數(shù)據(jù)作為前饋神經(jīng)網(wǎng)絡(Feed-forward Neural Network, FNN)和SVM分類器的訓練和測試數(shù)據(jù).分類器表現(xiàn)良好,檢測范圍達到10km,遠超傳統(tǒng)匹配場處理的約4km的檢測范圍.

        CA技術同樣在水聲目標識別領域得到應用.文獻[175]在淺水環(huán)境中記錄了25個包括干擾的聲源信號.每個聲源使用單獨的類,基于子空間學習法(Subspace learning)和自組織特征映射(Self-Organizing Feature Maps, SOFM)進行分類.文獻[176]采用基于核函數(shù)的SVM模型,在二類(Binary-class)和多類(Multi-class)分類的情況下,準確率均超過線性分類器(Linear classifiers).文獻[177]使用水聲傳感器采集魚群攝食時的聲音,分析其與攝食量的關系,給出攝食時間、攝食量的估計,對于漁業(yè)養(yǎng)殖有重要意義.使用機器學習方法需要注意過擬合問題.如文獻[175]中,測試時使用訓練中出現(xiàn)的信號樣本,準確率可以達到80%~90%;若使用來自相同聲源的全新記錄樣本,準確率則下降為40%~50%.

        4.3.4 航空運輸業(yè)

        4.3.4.1 航空飛行器識別

        文獻[45]使用嵌入式麥克風陣列采集一個四旋翼飛行器(Quadrotor)的聲信號進行飛行事件識別.室外飛行環(huán)境很嘈雜,包括轉子(Rotors)、風(Wind)和其他聲源產(chǎn)生的噪聲.對于單聲道音頻降噪使用魯棒主成分分析(Robust Principal Component Analysis, RPCA)方法,對于多通道音頻降噪使用幾何高階去相關的源分離方法(Geometric High-order Decorrelation based Source Separation, GHDSS).聲源盲分離提高了輸入聲音的SNR,然后對改善后的聲音基于堆疊降噪自動編碼機(Stacked Denoising Autoencoder, SDA)和CNN進行聲源識別(Sound Source Identification, SSI).GHDSS和CNN的結合效果更好.文獻[180]同樣通過聲信號檢測旋翼飛行器,基于MFCC特征和DTW匹配,實現(xiàn)對于直徑范圍為40~60cm的旋翼飛行器的短距離檢測和預警.

        4.3.4.2 航空飛行數(shù)據(jù)分析

        黑匣子于1953年由澳大利亞的載維·沃倫博士發(fā)明,是飛機上的記錄儀器.一種是飛行數(shù)據(jù)記錄儀(Flight Data Recorder, FDR),記錄飛機的高度、速度、航向、爬升率、下降率、加速情況、耗油量、起落架放收、格林威治時間、系統(tǒng)工作狀況、發(fā)動機工作參數(shù)等飛行參數(shù).另一種是座艙話音記錄儀(Cockpit Voice Recorder, CVR),實際上就是一個無線電通話記錄器,分4條音軌分別記錄駕駛艙內所有的聲音,包括飛行員與地面管制人員的通話,組員間的對話,機長、空中小姐對乘客的講話,威脅、爆炸、發(fā)動機聲音異常以及駕駛艙內各種聲音如開關手柄的聲音、機組座位的移動聲、風擋玻璃刮水器的馬達聲等.FDR可以向人們提供飛機失事瞬間和失事前一段時間里飛機的飛行狀況、機上設備的工作情況等,CVR能幫助人們根據(jù)機上人員的各種對話分析事故原因,以便對事故作出正確的結論[181-182].

        我國在民航事故調查中仍然沿用傳統(tǒng)的人耳辨聽座艙聲音,自動化程度很低.有些聲音識別超出了人的生理功能極限,而且經(jīng)常受到各種噪聲掩蓋,影響駕駛艙話音記錄器作用的發(fā)揮.研發(fā)基于CA技術的駕駛艙話音記錄器聲音識別系統(tǒng)已迫在眉睫.文獻[182]對艙音中的微弱信號——開關手柄聲音特性進行分析,驗證其符合暫態(tài)噪聲脈沖模型.對信號進行STFT得到頻譜,進行WPT得到信號在不同頻帶的能量.以歸一化的頻譜幅值、頻譜幅值熵、歸一化的小波SE、小波SE熵作為開關手柄聲音的特征,分析其各自的適用范圍,使用SVM進行識別.

        4.3.5 管道運輸業(yè)

        在各種管道傳輸中,可能會發(fā)生因人為損壞或自然因素造成的泄漏事故.如輸水管道的漏水、油氣輸送管道的第三方破壞(Third Party Destroy, TPD)等.此外,在傳輸管道中頻繁使用的閥門也會出現(xiàn)泄漏現(xiàn)象.管道和閥門的泄露現(xiàn)象不易檢測.傳統(tǒng)的方式是人工監(jiān)聽,需要有豐富的經(jīng)驗,容易造成誤判.基于泄漏聲音的自動檢測是一類很有希望的方法.

        早在1991年,文獻[183]就報導了日本電力中央研究所和東亞閥門公司根據(jù)聲音檢測閥門漏泄.文獻[184]研究基于FFT自相關算法并嵌入到DSP芯片的便攜式智能昕漏儀,能夠在復雜背景噪聲中檢測出漏水點.文獻[185]采用小波降噪,快速有效地提取TPD信號,對其奇異點進行定位,以小波分解SE和相關統(tǒng)計量作為特征輸入SVM進行分類,能正確區(qū)分切割、挖掘、敲擊等典型的TPD信號,監(jiān)控的有效檢測距離達到1400m.文獻[186]基于LPCC特征,利用HMM識別損傷或泄漏信號.文獻[187]用聲音傳感器采集聲信號,提取MFCC特征輸入HMM識別異常聲音,及時發(fā)現(xiàn)閥門泄漏并報警.文獻[188]研究軟管隔膜活塞泵進出口閥門聲音實時檢測系統(tǒng),該系統(tǒng)使用MFCC作為特征,利用HMM分類器識別故障.

        管道內檢測器用來檢測管道腐蝕、局部形變以及焊縫裂紋等缺陷.檢測器進行檢測工作時,容易在管壁的形變處、三通處和閥門處等位置發(fā)生卡堵事件.輕則影響管道正常運輸,重則引發(fā)凝管事故、導致整條管道報廢.因此,研究地面管道內檢測器追蹤定位技術具有重要意義.文獻[189]通過建立聲音在土壤中的傳播模型實現(xiàn)對卡堵位置的準確定位,后續(xù)可用機器學習模型加以研究.

        4.3.6 倉儲業(yè)

        制煉廠中產(chǎn)生的聲音可以用來檢測在容器內發(fā)生反應的進展,或檢測生產(chǎn)線內的流體流動.聲音通過安裝在容器外部的傳感器來接收.該技術是非侵入性(Non-invasive)的,不需要對過程流體進行采樣,避免了污染等潛在風險[190].

        在農(nóng)業(yè)上,由于糧食儲藏后期技術不過關,蟲害導致的玉米損失總量非常龐大.基于聲音的害蟲檢測技術逐漸成為研究熱點[191],已開始實倉多點應用[192].文獻[193]研究玉米象、米象、雜擬谷盜等3種害蟲在玉米中活動的聲信號.首先進行加漢寧(Hanning)窗,50階帶通濾波,小波降噪等預處理,計算STE、ZCR,在時域進行聲信號端點檢測,然后提取能量峰值頻率,MFCC、ΔMFCC作為音頻特征.當信號能量達到11dB左右時判斷可能有害蟲存在.采用兩種識別辦法: 一是將聲信號的第1,4,5,6能量峰值頻率輸入Probalistic NN進行分類識別;二是將聲信號的MFCC、ΔMFCC,振動信號的LPC、ΔLPC輸入HMM進行分類識別.前者比后者識別效果要好.文獻[194]在隔音環(huán)境下,采集谷蠹、米象和赤擬谷盜等3種儲糧害蟲的爬行聲信號,然后進行頻域分析獲取其功率譜,提取特征向量,輸入BPNN進行分類識別.

        4.4 制造業(yè)

        近些年,CA技術在制造業(yè)的數(shù)十個細分領域中開始逐步產(chǎn)生應用.例如,基于聲信號的故障診斷技術被大量應用在機械工程的各個領域,逐漸成為故障診斷領域的一個研究熱點.對于很多設備如發(fā)動機、螺旋槳、揚聲器等,故障發(fā)生在內部,在視覺、觸覺、嗅覺等方面經(jīng)常沒有明顯變化.而產(chǎn)生的聲音作為特例卻通常具有明顯變化,可用于機械損傷檢測[195],成為獨特的優(yōu)勢.此外,傳統(tǒng)上采用的基于攝像機和傳感器的方法,也不能進行早期的故障異常檢測[18,196].

        4.4.1 鐵路、船舶、航空航天和其他運輸設備制造業(yè)

        轉轍機用于鐵路道岔的轉換和鎖閉,其結構損傷會直接影響行車安全.在生產(chǎn)過程中,需要對高鐵轉轍機的重要零件全部進行無損檢測.基于聲信號進行結構損傷檢測具有非接觸、高效等優(yōu)點.文獻[197]基于核主分量分析提取聲信號特征,用SVM進行結構損傷分類識別.

        水泥廠輸送帶托輥運行工況惡劣,數(shù)量眾多,又要求連續(xù)運轉,并且在線檢修不便.要保證輸送機長期連續(xù)穩(wěn)定的運行,對有故障托輥的快速發(fā)現(xiàn)和及時處理非常重要.為快速安全可靠地發(fā)現(xiàn)有故障隱患的托輥,需適時安排檢修,避免托輥帶病運轉可能造成的更高的停機維修成本及產(chǎn)量損失,減少工人的工作強度[198].瑞典的SKF軸承公司發(fā)明了一種托輥聲音檢測儀,原理是對運行中的托輥發(fā)出的聲音進行辨別,從而判斷托輥是否正常,并對異常聲音發(fā)出報警信號.該裝置設有聲音遮蓋技術,可以區(qū)分托輥良好運行和帶故障運行所發(fā)聲音的區(qū)別.即使在高噪聲環(huán)境下,亦能過濾出周邊部件的信號,準確捕捉故障托輥信號.

        4.4.2 通用設備制造業(yè)

        4.4.2.1 發(fā)動機

        發(fā)動機是飛機、船舶、各種行走機械的核心部件[199],有柴油機(Diesel engine)、汽油機(Gasoline engine)、內燃機(Internal combustion engine)、燃氣渦輪發(fā)動機(Gas turbine engines)等幾種.發(fā)動機故障是發(fā)動機內部發(fā)生的嚴重事故,傳統(tǒng)的發(fā)動機故障診斷高度依賴于工程師的技術能力,如文獻[200]根據(jù)發(fā)動機的高、中、低3個頻帶的頻譜特性對其進行分析,通過分析汽車噪聲的強度可大致判斷出汽車發(fā)動機部件的故障.人工判斷具有很大的局限性,一些經(jīng)驗豐富的技術人員也會有一些失敗率,造成時間和金錢的嚴重浪費.因此,急需一種自動化的故障診斷(Fault diagnosis)方法[201].系統(tǒng)既可直接用于自動診斷,提高系統(tǒng)可靠性,節(jié)約維護成本,也可作為經(jīng)驗不足的技術人員的訓練模塊.而且避免了拆分機器安裝振動傳感器的傳統(tǒng)診斷方式的麻煩[202].

        發(fā)動機在正常工作時,其振動的聲音及振動頻譜是有規(guī)律的.在發(fā)生各種故障時,會發(fā)出各種異常響聲[203],頻譜會出現(xiàn)變異和失真.每一個發(fā)動機故障都有一個特定的可以區(qū)分的聲音相對應[201,204],可用于進行基于聲信號的故障診斷,此類研究早在1989年即已開始[205].常見的發(fā)動機故障有失速[204],正時鏈張緊器損壞[206],定時鏈條故障(Timing chain faults)[207],閥門調整(Valve-setting)[207-208],消聲器泄漏(Muffler leakage)[207],發(fā)動機啟動問題(Engine start problem)[208],驅動帶分析(Drive-belt analysis)[208],發(fā)動機軸瓦故障[209],漏氣[210],齒輪異常嚙合[210],連桿大瓦異響[210],斷缸故障[211],油底殼處異響[212]、前部異響[212]、氣門挺柱異響[212],發(fā)動機喘振[213],滑動主軸承磨損故障[214],箱體異響[215],右蓋異響[215],左蓋異響[215]等.

        發(fā)動機聲信號的采集通常使用麥克風/聲音傳感器[211,216-219],也有的系統(tǒng)使用智能手機[208].聲音采集具有非接觸式的特點,如文獻[218]利用發(fā)動機缸蓋上方的聲壓信號對發(fā)動機進行故障診斷.文獻[208]采用基于頻譜功率求和(Spectral power sum)與頻譜功率跳躍(Spectral power hop)兩種不同的聚類技術將音頻流分割.使用的T-F表示有CWT[220]、STFT[196,208,213,221]、WT[222]、HHT[209]、稀疏表示[223]等.

        使用的聲信號降噪采用各種濾波,如SVD濾波、WT濾波、EMD濾波[224].理論描述表明,發(fā)動機噪聲產(chǎn)生機理與獨立成分分析(Independent Component Analysis, ICA)模型的原理相同.文獻[220]用ICA將發(fā)動機噪聲信號分解成多個獨立成分(Independent Components, IC).文獻[215]研究表明,小波閾值降噪效果較好,但是具有突變、不連續(xù)特性的發(fā)動機聲信號會產(chǎn)生偽Gibbs現(xiàn)象,進一步改進為基于平移不變小波的閾值降噪法.文獻[209]基于一種改進的HHT進行EMD分解,利用端點優(yōu)化對稱延拓和鏡像延拓聯(lián)合法抑制端點效應,同時采用相關性分析法去除EMD分解的虛假分量,用快速獨立成分分析(Fast ICA)去除噪聲.文獻[213]對低頻區(qū)域的聲信號使用db8小波的7層分解進行降噪.文獻[225]利用Fast ICA盲源分離法對船舶柴油機的噪聲信號進行分離.

        初級的故障檢測可以只區(qū)分正常和異常[232],更高級的方法可識別具體的故障種類.故障識別可采用模板匹配的方法[216].文獻[201]收集和分析了不同類型汽車的聲音樣本,代表不同類型的故障,并建立了一個頻譜圖數(shù)據(jù)庫.將測試中的故障與數(shù)據(jù)庫中的故障進行比較,匹配度最高的數(shù)據(jù)庫中的故障被認為是檢測到的故障.使用的距離有灰色系統(tǒng)(Grey system)的關聯(lián)度量(Relational measure)[205]、馬氏距離(Mahalanobis distance)[205]、Kullback-Leiber距離[205].文獻[203]采用線性預測方法模擬發(fā)動機聲音時域特征與轉速(表征發(fā)動機狀態(tài))之間的關系.更多的方法是基于機器學習統(tǒng)計分類器,如SVM[224,231],HMM[228],高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)[227],模糊邏輯推理(Fuzzy logic inference)系統(tǒng)[208],BPNN[196,208,213,217],概率神經(jīng)網(wǎng)絡(Probabilistic Neural Network, Probabilistic NN)[215],小波包與BPNN相結合的WNN[202].文獻[207]采用DTW進行兩級故障檢測.第一階段將樣本粗分為健康和故障兩類,第二階段細分故障種類.若有其他相關證據(jù),可利用信息融合理論對發(fā)動機故障進行綜合診斷[218].

        4.4.2.2 金屬加工機械制造

        刀具狀態(tài)是保證切削加工過程順利進行的關鍵,迫切需要研制準確、可靠、成本低廉的刀具磨損狀態(tài)監(jiān)控系統(tǒng).切削聲信號采集裝置成本低廉,結構簡單,安放位置可調整.基于它的檢測技術,信號直接來源于切削區(qū),靈敏度高,響應快,非常適用于刀具磨損監(jiān)控.需要注意的是,切削聲信號頻率低,容易受到環(huán)境噪聲、機床噪聲等的干擾,獲取高SNR的刀具狀態(tài)聲音是監(jiān)控系統(tǒng)的關鍵[233].

        早在1991年,文獻[234]已利用金屬切削過程中的聲音輻射檢測工具的狀態(tài),即鋒利、磨損、破損.以5kHz為邊界,低頻和高頻帶的頻譜成分作為特征,可以很容易地區(qū)分鋒利和磨損工具.對于破損的情況,鑒別需要更多的特征.

        文獻[233]首先采集刀具在不同磨損狀態(tài)下的切削聲信號.通過時域統(tǒng)計分析和頻域功率譜分析,發(fā)現(xiàn)時域統(tǒng)計特征均方值與刀具磨損狀態(tài)具有明顯的對應關系,與刀具磨損相關的特征頻率段為2~3kHz.還實驗研究了不同主軸轉速、進給速率對刀具磨損狀態(tài)的影響.基于小波分析,將聲信號分為8個不同的頻帶,以不同SE占信號總能量的百分比作為識別刀具磨損狀態(tài)的特征向量,用BPNN進行狀態(tài)識別.

        加工的主要目標是產(chǎn)生高質量的表面光潔度,但是只能在加工周期結束時才能進行測量.文獻[235]在加工過程中對加工質量進行檢測,形成一種實時、低成本、準確的檢測方法,能夠動態(tài)調整加工參數(shù),保持目標表面的光潔度,并且調查了車削過程中發(fā)出的聲信號與表面光潔度的關系.AISI 52100淬火鋼的實驗表明,這種相關性確實存在,從聲音中提取MFCC可以檢測出不同的表面粗糙度水平.

        文獻[236]利用采煤機切割的聲信號進行切割模式的識別.將工業(yè)麥克風安裝在采煤機上,采集聲信號.利用多分辨率WPT分解原始聲音,提取每個節(jié)點的歸一化能量(Normalized energy)作為特征向量.結合果蠅和遺傳優(yōu)化算法(Fruitfly and Genetic Optimization Algorithm, FGOA),利用模糊C均值(Fuzzy C-Means, FCM)和混合優(yōu)化算法對信號進行聚類.通過在基本果蠅優(yōu)化算法(Fruitfly Optimization Algorithm, FOA)中引入遺傳比例系數(shù),克服傳統(tǒng)FCM算法耗時且對初始質心敏感的缺點.

        沖壓工具磨損會顯著降低其沖壓的產(chǎn)品的質量,其狀態(tài)檢測為許多制造行業(yè)迫切需求.文獻[237]研究了發(fā)出的聲信號與鈑金沖壓件磨損狀態(tài)的關系.原始信號和提取信號的頻譜分析表明,磨損進程與發(fā)出的聲音特征之間存在重要的定性關系.文獻[238]介紹了一種金剛石壓機頂錘檢測與防護裝置.運用聲紋識別技術,提取頂錘斷裂聲特征參數(shù),建立頂錘斷裂聲模板庫.再將金剛石壓機工作現(xiàn)場聲音特征參數(shù)與頂錘斷裂聲模板庫進行比對,相符則切斷金剛石壓機工作電源,實現(xiàn)了對其余完好頂錘的保護.

        有經(jīng)驗的焊接工人僅憑焊接電弧聲音的響度和音調特征就可以判斷焊縫質量.文獻[239]基于焊接自動化系統(tǒng)采集焊接聲信號,可忽略噪聲的影響.根據(jù)鋁合金脈沖焊接聲信號的特點,提取3164~4335Hz內聲信號的短時幅值平均值、幅值標準差、能量和、對數(shù)能量平均值作為特征,通過SVM識別鋁合金脈沖熔透狀態(tài),用粒子群優(yōu)化算法對SVM模型的參數(shù)進行優(yōu)化.

        4.4.2.3 軸承、齒輪和傳動部件制造

        旋轉機械(軸承、齒輪等)在整個機械領域中有著舉足輕重的地位,發(fā)生故障的概率又遠遠高于其他機械結構,因此對該類部件進行狀態(tài)檢測與故障診斷就尤為重要[240].針對傳統(tǒng)的振動傳感器需要拆分機器、不易安裝的缺點,可通過在整機狀態(tài)下檢測特定部位的噪聲來判定軸承與齒輪等是否異常[241].

        滾動軸承是列車中極易損壞的部件,其故障會導致列車故障甚至脫軌.非接觸式的軌旁聲學檢測系統(tǒng)(Trackside Acoustic Detector System, TADS)采集并分析包含圓錐或球面軸承運動信息的振動、聲音等信號[240,242-243].由美國Seryo公司設計的軸承檢測探傷器[244]除了用軌道旁的聲音傳感器收集滾動軸承發(fā)出的聲音,還包括紅外線探傷器.文獻[245]提出一種鐵路車輪自動化探傷裝置,研究所需探測的缺陷類型.通過傳聲器檢測發(fā)射到空氣中的聲音可用于發(fā)現(xiàn)輪輞或輻板的裂紋,而擦傷或輪輞破損則最好由安裝在鋼軌上的加速度計來探測.

        文獻[240]提出兩種針對列車軸承信號的分離技術.第一種通過多普勒畸變信號的偽T-F分布,來獲取不同聲源的時間中心和原始頻率等參數(shù),利用多普勒濾波器實現(xiàn)對不同聲源信號的逐一濾波分離;第二種基于T-F信號融合和多普勒匹配追蹤獲取相關參數(shù),再通過T-F濾波器組的設計運用,得到各個聲源的單一信號.

        使用的音頻特征有MFCC[242]、小波熵比值即峭熵比(Kurtosis Entropy Ratio, KER)[243]和EEMD[243].分類器有BPNN[242]、SVM[242].文獻[244]則采用類似單類識別的方法,識別從某一軸承中產(chǎn)生的任何所接收到的標準信號.一旦檢測出非標準頻率信號,將報警.能在因表面發(fā)熱導致紅外線探測器觸發(fā)前檢測出損壞的軸承.

        4.4.2.4 包裝專用設備制造

        文獻[246]公開了一種基于聲信號的瓶蓋密封性檢測方法.聲信號的產(chǎn)生由電磁激振裝置對瓶子封蓋激振產(chǎn)生,由麥克風采集.文獻[247]基于聲信號實現(xiàn)啤酒瓶密封性快速檢測.瓶蓋受激發(fā)后產(chǎn)生受迫振動,其振動幅度和振動頻率與瓶蓋的密封性存在一定的關系.瓶內壓力增高時,若瓶蓋密封性好,其振動頻率就高,振幅就小;反之,若密封性差,振動頻率就比較低,振幅也比較大.

        4.4.3 電氣機械和器材制造業(yè)

        電機是用于驅動各種機械和工業(yè)設備、家用電器的最通用裝置.電機有很多種,如同步電機(Synchronous motors)[248]、直流電機(DC machine)[249]、感應電機(Induction motor)[250].為保證其安全穩(wěn)定運行,常常需要工作人員定期檢修、維護.電機在發(fā)生故障時,維護人員聽電機發(fā)出的聲音,以人工方式判斷故障的類型,耗費大量人力,而且無法保證及時檢測到故障,急需自動化檢測系統(tǒng)[251].基于聲信號的聲紋識別系統(tǒng)將提取的音頻特征與某一類型的故障聯(lián)系起來[250],可以識別出電機異響[252]及各種類型的故障,如線圈破碎和定子線圈短路[253].

        文獻[251]利用聲音傳感器在電機軸向位置采集電機的聲信號.文獻[254]結合EMD與ICA,通過EMD的自適應分解能力,解決ICA中信號源數(shù)目的限制問題;同時利用ICA方法的盲源分離能力,避免EMD分解的模態(tài)混疊現(xiàn)象.通常需要對音頻信號進行預加重、分幀、加窗等預處理[255].文獻[255]使用自適應門限的音頻流端點檢測進行分割.

        使用的T-F表示有FFT[253]、WT及WPT[252,256-260].小波分析對信號的高頻部分分辨率差,小波包分解方法能夠對信號高頻部分進行更加細化地分解并能更有效地檢測出發(fā)電機故障.因為人耳對相位不敏感,只需要對幅度譜進行分析[252].使用的音頻特征有LPC[249],LPCC[255],根據(jù)SVD得到的特征向量[252],MFCC[255,261],基于加權、差分的MFCC動態(tài)特征[255],故障信號與正常信號小波能量包的相對熵、各頻帶的綜合小波包能量相對熵[259].PCA被用來進行特征維度壓縮[252].

        使用的統(tǒng)計分類器有線性SVM[253]、KNN[248]、HMM[255,261]、BPNN[146,256,257,260].針對BPNN收斂速度慢的問題,文獻[260]提出了兩點改進: 利用區(qū)域映射代替點映射和動態(tài)改變學習速率.考慮到電機的故障率很低,很難收集到足夠多的各類故障樣本,且電機異音形成過程復雜,文獻[251]和[252]基于SVM進行單類學習(Single class learning)實現(xiàn)異音電機檢測.以足夠數(shù)量的正常、無異音電機樣本為基礎建立一個判別電機聲音是否異常的判別函數(shù),不需要異音樣本,凡是檢測有不符合正常電機聲音特征的樣本一律判為有故障樣本.文獻[259]根據(jù)小波包能量相對熵首先確定電機是否有故障,之后通過比較大小判斷故障所處的頻帶位置,從而確定電機為何種故障.

        電力系統(tǒng)中的許多設備在運行或操作時會產(chǎn)生聲音,對應于各種狀態(tài).高壓斷路器是電力系統(tǒng)不間斷供電的關鍵性保護裝置,斷路器合閘的聲信號可用于識別其運行時的機械狀態(tài)[262].變壓器是變電站中的重要設備.變壓器在正常運行時,有較輕微、均勻的嗡嗡聲.如果突然出現(xiàn)異常的聲音,則表明發(fā)生故障.不同的聲音對應于不同的故障[263].電力電纜發(fā)生故障時,故障電弧會發(fā)出聲音[264],可用于故障定位.電力開關柜的內部故障電弧在劇烈放電前的局部放電會產(chǎn)生電弧聲音,可用于故障電孤檢測與預警[265].航天繼電器中多余物的存在會導致其可靠性下降,不同的聲音對應于不同的材質.

        各種電力設備主要依靠人工進行故障檢測,耗時耗力.電力設備在運行時經(jīng)常是高電壓和強電磁場等復雜環(huán)境,不利于接觸式設備故障檢測方法.有經(jīng)驗的技術人員可以直接憑借電氣設備工作時所發(fā)出的聲音來判斷設備是否發(fā)生異常,基于聲信號的故障診斷近年來逐漸發(fā)展起來.采集聲音數(shù)據(jù)的方法各不相同.文獻[264]在低壓電氣輸電線路導線絕緣層上設置聲音傳感器,文獻[266]采用麥克風陣列,有效抑制周圍噪聲干擾并將波束對準目標信號.

        聲音采集過程中經(jīng)常會混合干擾信號如人的說話聲,與電氣設備發(fā)出的聲音是統(tǒng)計獨立的[266].文獻[266]采用ICA來分離有用的電氣設備聲信號.文獻[262]利用改進的勢函數(shù)法進行聲源數(shù)估計,通過EEMD得到多個IMF分量,重構形成符合聚類聲源數(shù)的多維信號,利用擬牛頓法優(yōu)化快速ICA算法提取斷路器操作產(chǎn)生的聲信號.文獻[267]總結了常見的線性模型盲信號分離算法: 基于負熵的固定點算法,信息極大化的自然梯度算法,聯(lián)合近似對角化算法,并將這3種算法分別用于對電力設備作業(yè)現(xiàn)場多種混合聲源信號進行分離.文獻[268]提出一種基于WPT分解信號、自適應濾波估計噪聲與遺傳算法尋優(yōu)重構相結合的聲信號增強算法.

        文獻[262]根據(jù)包絡特征比對識別斷路器的狀態(tài).文獻[269]使用SVM實現(xiàn)對斷路器當前狀態(tài)的識別.文獻[270]對航天繼電器中多余顆粒物碰撞噪聲的聲音脈沖包絡進行分析,使用RBFNN將顆粒自動分為金屬、非金屬兩類.文獻[271]提取0~1000Hz內的21個諧波作為特征,建立樣本庫,利用VQ的LBG算法訓練得到變壓器和高抗設備的碼本,與未知聲音特征匹配后實現(xiàn)運行狀態(tài)的識別.文獻[266]用MFCC作為聲信號特征,與專家故障診斷庫中各種各樣的故障信號進行匹配,根據(jù)DTW判斷是否發(fā)生電氣設備故障.

        4.4.4 紡織業(yè)

        細紗斷頭的低成本自動檢測一直是紡紗企業(yè)急需解決的一個問題.文獻[272]利用定向麥克風采集5個周期的鋼絲圈轉動產(chǎn)生的聲信號.正常紡紗時的聲信號都具有分布均勻的5個較高波峰,而發(fā)生紡紗斷頭時采集到的聲信號不具有該特點.按照此標準即可判斷紗線是否發(fā)生斷頭.

        4.4.5 黑色及有色金屬冶煉和壓延加工業(yè)

        文獻[273]對金屬和非金屬粘接結構施加微力,在頻域提取與粘接有關的聲信號的特征用于后續(xù)模式識別.文獻[274]撞擊非晶合金產(chǎn)品使其產(chǎn)生振動,并采集發(fā)出的聲信號.以聲信號衰減時間的長短作為特征,判斷產(chǎn)品的合格性,可以準確地檢測出非晶合金產(chǎn)品內部是否存在收孔或裂紋等缺陷.

        文獻[275]采集氧化鋁熟料與滾筒窯撞擊所產(chǎn)生的聲音,通過分析頻譜、幅度等數(shù)據(jù)區(qū)別出熟料的3種狀態(tài): 正常、過燒、欠燒,進行自動質量檢測.文獻[276]采集成品熟料與滾筒窯撞擊所產(chǎn)生的聲音,經(jīng)濾波、譜分析等處理后,對燒結工序中的異常狀態(tài)進行判斷并報警.

        在鋁電解生產(chǎn)過程中,電解槽內電解質和錙液循環(huán)流動、界面波動、槽內陽極氣體的排出、陽極效應的出現(xiàn)都伴隨著相應的特征聲音.檢測這些特征聲信號并分析,能夠判斷出鋁電解槽的運行狀況[277].針對鋁錠鑄造是否脫模的故障檢測難題,文獻[278]嘗試利用鑄模敲擊聲信號進行診斷分析.首先基于改進的小波包算法對敲擊聲音進行降噪.進行頻域分析后發(fā)現(xiàn),某次敲擊后如果鋁錠脫模,那么將與下一次敲擊聲音存在明顯的峰值頻率差.此現(xiàn)象可作為故障特征,進行基于閾值的檢測.

        角鋼是鐵塔加工的必備原料.若不同材質的鋼材混用,將對鐵塔的強度、韌性、硬度產(chǎn)生很大影響.在鐵塔加工過程中,角鋼進行沖孔時會發(fā)出一定的聲音,不同材質的角鋼加工時會發(fā)出不同的聲音.Q235和Q345是兩種標準角鋼材質.文獻[279]利用傳感器采集并提取單個沖孔周期的聲信號,基于MFCC和DTW計算待測模板與Q235和Q345兩種標準模板之間的距離,距離小者判定為該種角鋼材質.文獻[280]分析Q235和Q345兩種材質角鋼聲信號的頻譜特征,計算在特定高頻頻帶與低頻頻帶的能量比值,找到能區(qū)別兩種材質的能量比取值范圍作為特征.

        4.4.6 非金屬礦物制品業(yè)

        熱障涂層(Thermal Barrier Coatings, TBC)是一層陶瓷涂層,沉積在耐高溫金屬或超合金的表面,對基底材料起到隔熱作用,使得用其制成的器件(如發(fā)動機渦輪葉片)能在高溫下運行.TBC有4種典型的失效模式: 表面裂紋、滑動界面裂紋、開口界面裂紋、底層變形.文獻[281]以WPT特征頻帶的小波系數(shù)為特征,BPNN為分類器,基于聲信號進行TBC失效檢測.文獻[282]提取沖擊聲的T-F域特征及聽覺感知特征,通過模式識別研究基于沖擊聲的聲源材料自動識別.

        4.4.7 汽車制造業(yè)

        汽車的NVH(Noise, Vibmtion, Harshness)表示噪聲、振動與舒適性.汽車噪聲主要來自發(fā)動機,是影響汽車乘坐舒適性的重要因素.對發(fā)動機、車輛傳動系等進行聲品質分析及控制的研究具有重要意義.聲品質的改善目標是獲得容易被人接受的、不令人厭煩的聲音[283-284].

        文獻[285]針對C級車,在一汽技術中心的半消聲室內采集4個車型、5個勻速工況下由發(fā)動機引起的車內噪聲,用等級評分法對聲音樣本的煩躁度打分,計算出聲音樣本的7個客觀心理聲學參數(shù),對主觀評價值和客觀參數(shù)進行相關分析.與主觀評價值相關性較大的心理聲學參數(shù)是響度、尖銳度、粗糙度.文獻[284]使用EEMD獲得的IMF的熵作為特征,比心理聲學參量效果更佳.

        以心理聲學參數(shù)作為聲品質預測模型的輸入,主觀評價值作為聲品質預測模型的輸出,建立聲品質煩躁度的預測模型[283].文獻[285]訓練確定BPNN的結構,包括輸入、輸出層神經(jīng)元個數(shù)、隱含層數(shù)、隱含層神經(jīng)元個數(shù)和傳遞函數(shù).用遺傳算法(GA)對BPNN的權值和閾值進行編碼,采用選擇、交叉和變異等操作尋求全局最優(yōu)解,將遺傳輸出結果作為BPNN的初始權值和閾值,得到聲品質煩躁度的GA-BPNN預測模型.文獻[284]以Morlet小波基函數(shù)作為隱含層節(jié)點的傳遞函數(shù)構建WNN,同時運用GA優(yōu)化WNN的層間權值和層內閾值,構造GA-WNN模型用于傳動系聲品質預測.

        文獻[283]研究結果表明,響度是影響人們對車輛排氣噪聲主觀感受的最主要因素,和滿意度呈負相關.使用多元線性回歸(Multiple Linear Regression, MLR)與BPNN理論分別建立了柴油發(fā)動機噪聲聲品質預測模型,實驗表明BPNN模型預測值與實測值更接近,能夠更好地反映客觀參數(shù)和主觀滿意度間的非線性關系.文獻[285]表明,在網(wǎng)絡訓練誤差目標相同的情況下,GA-BPNN預測模型比BPNN預測模型的收斂速度提高了5倍.由于BPNN預測模型初始權值和閾值的隨機性,導致相同樣本每次的預測結果都存在較大差異.而GA-BPNN預測模型采用遺傳算法對BPNN的初始權值和閾值進行優(yōu)化,保證了網(wǎng)絡的穩(wěn)定性,對聲音樣本聲品質預測結果有較高的一致性.文獻[284]研究表明GA-WNN網(wǎng)絡較GA-BPNN網(wǎng)絡能更準確、有效地對傳動系聲品質進行預測.

        汽車內部安靜并不是好汽車的唯一目標,不同的汽車要有對其合適的聲音.文獻[286]研究發(fā)動機聲音和客戶偏好之間的關系,對汽車聲音進行主觀評價.研究發(fā)現(xiàn),加速度和恒定速度下的聲音感知明顯不同,不同的車主群體有不同的感知.

        4.4.8 農(nóng)副食品加工業(yè)

        在雞蛋、鴨蛋等的加工過程中,從生產(chǎn)線上分選出破損蛋是一道重要工序.國內主要依靠工人在燈光下觀察是否有裂紋,或轉動互碰時聽蛋殼發(fā)出的聲音等方法來識別和剔除破損雞蛋.這種方法效率低下,精度差,勞動強度大,成本高.研究自動化的禽蛋破損檢測方法意義重大[287].經(jīng)驗表明,好蛋的蛋殼發(fā)出的聲音清脆,而破損蛋的蛋殼發(fā)出的聲音沙啞、沉悶[287],這使得基于聲音音色進行蛋類質量判別成為可能.

        文獻[288]以雞蛋赤道部位的4個點(1,2,3,4)作為敲擊位置,采集雞蛋的聲信號.文獻[287]對鴨蛋自動連續(xù)敲擊,采集鴨蛋的聲信號.在實際環(huán)境中,還需要音頻分離或降噪技術.文獻[289]根據(jù)海蘭褐蛋雞聲音與風機噪聲的PSD在1000~1500Hz頻率范圍內存在的差異,從風機噪聲環(huán)境中分離提取蛋雞聲音.文獻[290]用自制的橡膠棒分別敲擊雞蛋中間、中間偏大頭一點、中間偏小頭一點等3個位置,低通濾波消除噪聲干擾,每次采樣128點數(shù)據(jù).

        已用的音頻特征各不相同,文獻[288]使用雞蛋最大、最小2個特征頻率(fmax,fmin)的差值Δf(=fmax-fmin),文獻[291]使用敲擊聲信號的衰竭時間、最小FF、4點最大頻率差,文獻[292]使用共振峰對應的模擬量頻率值、功率譜面積、高頻帶額外峰功率譜幅值和第32點前后頻帶功率譜面積的比值.除了常規(guī)的好、壞兩種分類,文獻[291]進一步將雞蛋分類為正常蛋、破損蛋、鋼殼蛋、尖嘴蛋等4種.已用的識別方法有的基于規(guī)則,如文獻[288]以1000Hz作為裂紋雞蛋的識別閾值.有的基于機器學習模式識別,如Bayes判別[287,292]、基于最大隸屬度原則的模糊識別[290-291]、ANN[293]等.

        4.4.9 機器人制造

        機器人需要對周圍環(huán)境的聲音具有聽覺感知能力.AED在技術角度也屬于CA,但專用于機器人的各種應用場景[294].如文獻[295]面向消費者的服務消費機器人,在室內環(huán)境中識別日常音頻事件.文獻[296]面向災難響應的特殊作業(yè)機器人,識別噪聲環(huán)境中的某些音頻事件,并執(zhí)行給定的操作.文獻[297]面向閥廳智能巡檢的工業(yè)機器人,對設備進行智能檢測和狀態(tài)識別.

        文獻[295]將機器人聽覺的整體技術框架分為分割連續(xù)音頻流、用穩(wěn)定的聽覺圖像(Stabilized Auditory Image, SAI)對聲音進行T-F表示、提取特征、分類識別等步驟.使用的音頻特征有PSD[294],MFCC[294],對數(shù)尺度頻譜圖的視覺顯著性[294],小波分解的第五層細節(jié)信號的質心、方差、能量和熵[297],從Gammatone對數(shù)頻譜圖中提取的多頻帶LBP特征,提高對噪聲的魯棒性,更好地捕捉頻譜圖的紋理信息[298].使用的機器學習模型有SVM[294]、BPNN[297]、深度學習中的受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)[296].基于人與機器人的交互,建立了一個新的音頻事件分類數(shù)據(jù)庫,即NTUSEC數(shù)據(jù)庫[298].

        4.5 農(nóng)、林、牧、漁業(yè)

        4.5.1 農(nóng)業(yè)

        在現(xiàn)代綠色農(nóng)業(yè)中,噴灑農(nóng)藥需首先判斷農(nóng)作物上的昆蟲是否是害蟲.害蟲活動的聲音經(jīng)常具有明顯特點,例如文獻[299]使用麥克風在隔音箱內錄制黃粉蟲成蟲的爬行和咬食活動的聲音,發(fā)現(xiàn)咬食活動聲音脈沖信號的時間帶有明顯規(guī)律性,時間間隔約為0.68s.咬食活動聲音頻率的主峰值在70~93Hz,低于爬行活動的140~180Hz.文獻[300]結合聲信號分離和聲音活動端點檢測,基于頻譜圖模板進行害蟲的匹配識別.在確定存在害蟲后,為避免噴灑農(nóng)藥量過多或不足,需根據(jù)病蟲害的實際情況和分布種類混藥進行變量式噴霧.文獻[301]首先識別混雜在復雜背景音下的不同病蟲害的聲音,用DNN自動學習特征并分類,并根據(jù)識別的病蟲害種類及分布情況進行自動在線混藥.

        文獻[302]將聽診器改裝成一種裝置,用以在檢疫檢驗中探測在水果和谷粒中昆蟲嚼食的聲音.先是在實驗室進行實驗,從柚子、枇杷、木瓜中迅速而準確地將實蠅檢測出來.僅一條剛剛孵化出一天的幼蟲也能從柚子中檢測出來.后來發(fā)現(xiàn)谷蠹和麥蛾也能從玉米、水稻和小麥的谷粒中檢測出來.

        小麥是最重要的農(nóng)作物之一,其硬度是評價小麥品質的重要指標,需建立自動、客觀、準確的檢測技術.文獻[303]采集單粒小麥籽粒下落碰撞產(chǎn)生的聲信號,進行譜估計和WT,提取時域和頻域的16個特征,采用回歸分析(Regression analysis)和ANN建立小麥聲音特性與千粒重和硬度之間的數(shù)學模型,以達到預測小麥品質的目的.文獻[304]自制小麥自動進料器,使小麥逐粒、自然地下落擊靶,采用聲音傳感器接收小麥擊靶發(fā)出的聲信號.經(jīng)調理、放大、A/D轉換及預處理后,在時域提取ZCR、波形指標、脈沖因子等特征,在頻域提取基于FFT和DCT的特征,利用線性回歸(Linear Regression, LR)、BPNN建立特征參數(shù)和對應的小麥硬度指數(shù)之間的預測模型.文獻[305]進一步在不同采樣頻率、不同下落高度情況下,在時域和FFT、DCT、WT等頻域分別提取特征.研究表明,無論是時域還是頻域,在采樣頻率為200kHz、下落高度為40cm時,聲音特征與小麥硬度指數(shù)相關性較好,最后運用LR分析和BPNN建立了小麥硬度基于聲音的預測模型.

        榴蓮是東南亞的一種綠色尖刺水果.因為價格昂貴,又很難從外觀上判斷榴蓮的成熟度,迫切需要開發(fā)一種在不進行切割或破壞條件下的自動識別榴蓮成熟度的方法,這對果農(nóng)、消費者和零售商都很重要.文獻[306]提取信號的頻譜特征,用HMM模型識別榴蓮是否已成熟,并確定成熟的程度.當敲擊次數(shù)從1次增加到5次時(每次不超過80ms),識別準確率會隨之增加.文獻[307]提取聲音特征后使用N-gram模型識別榴蓮是否成熟,利用多數(shù)投票從N-best列表中找到成熟度.

        同樣的道理,為滿足采收前后對西瓜成熟度的無損檢測的需求,文獻[308]實現(xiàn)了在田間環(huán)境下通過聲音自動檢測西瓜成熟度的方法.使用STE和ZCR判斷擊打信號的起止點,完整提取每次敲擊西瓜的聲音片段,濾波消除干擾噪聲.不同成熟度的西瓜敲擊聲音對應不同的功率譜峰值頻率范圍,作為西瓜成熟度檢測的規(guī)則.

        4.5.2 林業(yè)

        我國的森林盜伐現(xiàn)象猖獗.文獻[309]專門設計實現(xiàn)了一種基于聲音識別的森林盜伐檢測傳感器.文獻[310]通過對聲信號的頻譜特征分析、相似度值及SNR計算,檢測是否存在鏈鋸伐木行為.

        蛀干害蟲是一類危害嚴重的森林害蟲.因其生活隱蔽,林木受害表現(xiàn)滯后,使得檢測和防治極其困難.基于聲音識別的害蟲檢測技術具有無損、快速、準確等優(yōu)勢,潛力巨大.文獻[311]研究紅棕象甲蟲、亞洲長角草甲蟲、天牛甲蟲幼蟲等3種木蛀蟲的生物聲學(Bioacoustics)規(guī)律.發(fā)現(xiàn)通過咬音和摩擦音可以有效地進行物種識別.

        文獻[312]用高靈敏度錄音機采集雙條杉天牛害蟲的活動聲信號.采用ANN和濾波器消噪,提取較為純凈的雙條杉天牛幼蟲活動聲音.發(fā)現(xiàn)其幼蟲活動聲音脈沖數(shù)量隨害蟲密度增加而增加,呈線性關系,且取食聲信號能量大于爬行聲信號能量.

        文獻[313]在野外環(huán)境下,距離50cm內,采集云杉大墨天牛、光肩星天牛和臭椿溝眶象3種蛀干害蟲的幼蟲在活動、取食時產(chǎn)生的聲信號.受風聲和汽車噪聲影響較大,但是與鳥鳴和蟲鳴噪聲在T-F域有顯著差別,可相對容易地分離.研究發(fā)現(xiàn)不同種類幼蟲產(chǎn)生的聲信號在T-F域特征上均有明顯差異,但與數(shù)量無明顯關系.幼蟲聲音脈沖個數(shù)與幼蟲數(shù)量正相關,可利用脈沖個數(shù)估計幼蟲數(shù)量.

        4.5.3 畜牧業(yè)

        在養(yǎng)殖業(yè)中,準確高效地檢測畜禽信息,有助于提高養(yǎng)殖及加工效率,及時發(fā)現(xiàn)生病或異常個體,減少經(jīng)濟損失.人工觀察方式主觀性強且精度低,嵌入式檢測手段又會造成動物應激反應,發(fā)展智能自動檢測手段是目前的研究熱點[314].禽畜的聲音直接反應了它們的各種狀況,可用于狀態(tài)監(jiān)測.例如,針對豬的大規(guī)模養(yǎng)殖中頻發(fā)的呼吸道疾病問題,可通過檢測咳嗽狀況對豬的健康狀況進行預警[315].

        對采集的豬的聲音,首先進行加窗分幀[316]等預處理.音頻流分割需要端點檢測[315].文獻[317]通過ZCR和STE進行端點檢測,文獻[318]基于雙門限進行端點檢測.之后進行降噪處理,如譜減法[315]、小波閾值法[318].已用的音頻特征有MFCC[315,317-318]、ΔMFCC[318].文獻[316]和[318]分別定義了豬在8種行為狀態(tài)下的聲音.常用的識別匹配及分類算法有VQ[319]、HMM[315-316,318]、SVM[316-317]、Adaboost[316]等.

        4.6 水利、環(huán)境和公共設施管理業(yè)

        4.6.1 水利管理業(yè)

        錢塘江潮涌高且迅猛,傷人事故頻發(fā).為提高潮涌實時檢測與預報水平,文獻[320]提出一種基于音頻能量幅值技術的潮涌識別方法.通過采集沿江各危險點潮涌來臨前后的聲音,經(jīng)濾波后進行FFT幅頻特性分析,提取潮涌音頻能量幅值特征值,自動識別并進行潮涌實時檢測與預報.

        為最大限度開發(fā)利用空中水資源,減輕干旱、冰雹等造成的損失,利用高炮、火箭實施人工影響天氣作業(yè)是解決水資源緊缺的有效途徑.文獻[321]實現(xiàn)了一種基于炮彈聲音采集、識別、處理的高炮作業(yè)用彈量統(tǒng)計系統(tǒng).

        4.6.2 生態(tài)保護和環(huán)境治理業(yè)

        動物發(fā)出的各種聲音具有不同的聲學特點,作為交流的手段.例如,沙蝦虎魚發(fā)出的聲音由一系列脈沖組成,以每秒23~29次的速度重復.單脈沖的頻譜為20~500Hz,峰值在100Hz左右.絕對聲壓水平在1~3cm范圍內為118~138dB[322].雄性石首魚集體的聲音甚至可以掩蓋捕魚船的引擎噪聲[323].大熊貓“唔”的叫聲是警告性行為,“唔”音的長短和強弱反映大熊貓的情緒及警告程度.若警告無效,“唔”音加強和變急,進一步轉變成發(fā)怒的叫聲“汪”、“呢”和“哞”,下一步即可能發(fā)生打斗行為[324].

        生態(tài)環(huán)境中的聲音在自動物種識別(Species recognition)與保護,野生動物及瀕危鳥類監(jiān)控,森林聲學和健康檢測,以及對相關環(huán)境、進化、生物多樣性、氣候變化、個體交流等的理解分析上都有重要應用[325-334].文獻中根據(jù)聲音研究分析過的動物已有很多種,如海豹[335],海豚[336],大象[337],魚類[322-323,338-339],蛙類[340],鳥類[341-348],昆蟲[349-353]等.

        文獻[342]在鳥類背上綁定麥克風采集聲音.除了真實錄制的數(shù)據(jù),還可以采用合成聲音數(shù)據(jù)[354].在真實場景中,存在風或其他動物的叫聲等背景噪聲干擾[341],需要來抑制噪聲[327].文獻[355]采用ICA進行野外動物聲音的聲源分離.文獻[353]和[333]分別使用Adobe Adition和Gold Wave軟件對錄制的聲音文件進行人工降噪.文獻[325]將早期的短時譜估計算法與一種基于雙向路徑搜索的噪聲功率譜動態(tài)估計算法相結合,提出一種適用于高度非平穩(wěn)噪聲環(huán)境下的音頻增強算法.文獻[356]使用改進的多頻帶譜減法進行降噪.文獻[332]研究了基于DWT的聲音降噪方法.傳統(tǒng)的噪聲估計需要假設背景噪聲是平穩(wěn)的,不能適應實際的非平穩(wěn)環(huán)境噪聲.文獻[347]將一種基于雙向路徑搜索的動態(tài)噪聲功率譜估計算法與經(jīng)典的短時譜聲音增強技術相結合,進行非平穩(wěn)環(huán)境噪聲下的聲音增強.此外,傳感器節(jié)點的能量消耗也是實際系統(tǒng)的一個問題[345].

        進行動物識別需要將連續(xù)音頻流分割為有意義的單元.文獻[356]和[325]采用基于STE的門限進行端點檢測.文獻[329]通過聚類在聲音記錄中檢測4種音頻事件,即哨聲(Whistles)、點擊(Clicks)、含糊音(Slurs)和塊(Blocks).文獻[329]對通過WT后的中、低頻聲信號進行端點檢測,不但可以去除高斯噪聲,而且可以去除高頻脈沖噪聲對系統(tǒng)的影響.文獻[347]通過比較每個2維T-F矩陣點的幅度譜來定位每個鳥叫音節(jié)(Syllable)在整個T-F圖中的起始位置,實現(xiàn)連續(xù)鳥叫聲音的音節(jié)分割.文獻[348]將遙感領域使用的圖像分割技術引入頻譜圖進行鳥叫聲分割.

        頻譜圖是最常用的T-F表示,有時需要形態(tài)學濾波(Morphological filtering)等預處理[343].文獻[339]為克服特征提取時間長、數(shù)量多等問題,采用稀疏表示.文獻[357]從神經(jīng)機制方面研究了聽覺的特征.使用的音頻特征有LPC[328,358]、MFCC[328,351,353,358-359]、頻譜圖特征(Spectrogram feature)[340]、音色特征[360]、基于特征學習自動提取的特征[342,359]、基于頻帶的倒譜(Sub-Band based Cepstral, SBC)[361].此外,文獻[341]從頻譜圖提取特征.文獻[335]采用海豹叫聲的持續(xù)時間作為特征反映海豹之間的個體差異.文獻[334]使用MP算法提取有效信號的T-F特征.動物叫聲經(jīng)常在T-F圖上表現(xiàn)出不同的紋理特征.文獻[325]用和差統(tǒng)計法進行T-F紋理特征提取,在4種不同位置關系下計算5個二次統(tǒng)計特征,得到一個20維的T-F紋理特征向量.文獻[347]使用圖像處理中的灰度共生矩陣紋理分析法,提取T-F圖4個方向上的5種紋理特征.文獻[362]使用A-DCTNet(Adaptive DCTNet)提取鳥叫的聲音特征作為分類器的輸入.A-DCTNet與CQT類似,其濾波器組的中心頻率以幾何間距排列,能比MFCC等特征更好地捕獲對人類聽覺敏感的低頻聲音信息.文獻[344]在研究鳴禽的過程中,發(fā)現(xiàn)除了傳統(tǒng)的絕對音高(Absolute Pitch, AP)信息,頻譜形狀等音色類特征也可以用于鳴禽的叫聲.文獻[345]首先基于Sigmoid函數(shù)進行音調區(qū)域探測(Tonal Region Detection, TRD),然后采用基于分位數(shù)的倒譜歸一化(Quantile-based cepstral normalization)方法提取Gammatone-Teager能量倒譜系數(shù)(Gammatone-Teager Energy Cepstral Coefficients, GTECC),形成最終的TRD-GTECC特征.文獻[356]對頻譜圖進行Radon變換和WT提取特征.文獻[332]針對不同頻帶的重要程度,提出了基于WT和MFCC的小波Mel倒譜系數(shù)WT-MFCC.文獻[346]為克服MFCC對噪聲的敏感性,提取更符合人耳聽覺特性的Gammatone濾波器倒譜系數(shù)(GFCC)及小波系數(shù),組合后作為特征向量.文獻[339]基于稀疏表示利用正交匹配追蹤法(Orthogonal Matching Pursuit, OMP)提取與水聲信號最為匹配的少數(shù)原子作為特征.

        對于待識別的聲音種類,文獻[329]首先為這些目標構建模板,之后用DTW等進行匹配[341],這適用于數(shù)據(jù)有限的情況.文獻[363]基于鳥聲在T-F平面高度結構化的特點,利用閾值方法對鳥類聲音進行幀級的二元決策,并融合得到最終結果.文獻[360]基于頻譜-時間激發(fā)模式(Spectro-Temporal Excitation Patterns, STEP)進行聽覺距離匹配.更多的方法采用機器學習分類器,如HMM[328,341,343,345],GMM[333,343],RF[325,347],KNN[358],RNN[362],ANN[352],DNN[345],SVM[328,334,339,356],Probalistic NN[351,353],PLCA[342],遷移學習[359],CNN[359,364-365],基于內核的極限學習機(Kernel-based Extreme Learning Machine, KELM)[326]等.分類模型的設計及調試需考慮實際應用場景.例如,文獻[366]對每種鳥類的鳴叫聲和鳴唱聲建立雙重GMM模型,并討論不同階數(shù)對GMM模型的影響.使用多個模型時,可使用后期融合(Late-fusion)方法將模型融合起來[364].文獻[349]采用Probalistic NN和GMM的分數(shù)級融合(Score-level fusion),提出一種針對昆蟲層次結構(如亞目、科、亞科、屬和種)的高效的分層(Hierarchic)分類方案.

        機器學習的方法需要較多的標注數(shù)據(jù).例如文獻[340]的數(shù)據(jù)集包括來自美國的48個無尾目類動物物種的736個叫聲數(shù)據(jù),文獻[367]使用數(shù)千個未處理的鳥類現(xiàn)場錄音.數(shù)據(jù)量不足時可使用數(shù)據(jù)增強方法增加訓練數(shù)據(jù)[364].為充分利用大量無標簽的動物聲音(如鳥叫),文獻[324]使用基于稀疏實例的主動學習(Sparse-Instance based Active Learning, SI-AL)和基于最小置信度的主動學習(Least-Confidence-Score-based Active Learning, LCS-AL)方法,有效地減少專家標注.

        以色列科學家發(fā)現(xiàn)一種檢測水污染的新方法——聽水生植物發(fā)出的聲音.用一束激光照射浮在水面的藻類植物,根據(jù)藻類反射的聲波,分析出水中的污染物類型以及水受污染的程度.激光能刺激藻類吸收熱量完成光合作用,在這一過程中,一部分熱量會被反射到水中,形成聲波.健康狀況不同的藻類的光合作用能力不同,反射出的熱量形成的聲波強度也不一樣.

        4.7 建筑業(yè)

        4.7.1 土木工程建筑業(yè)

        地下電纜經(jīng)常遭到手持電鎬、電錘、切割機、機械破碎錘、液壓沖擊錘、挖掘機等工程機械的破壞[368-369],影響供電系統(tǒng)穩(wěn)定性.電纜防破壞成為電力部門所面臨的一個重大技術難題,急需研發(fā)基于聲音的地下電纜防外力破壞方法,識別挖掘設備的聲音,進行預警判斷,對事發(fā)地定位.

        文獻[368]對聲信號采集、預加重、分幀、加窗預處理后,使用LPCC及提出的單邊自相關線性預測系數(shù)倒譜系數(shù)(One-Sided Autocorrelation LPCC, OSA-LPCC)作為特征,用SVM進行分類,OSA-LPCC的抗噪聲性能優(yōu)于LPCC.文獻[369]采用8通道的麥克風十字陣列,在夜晚環(huán)境下對4種挖掘設備在不同距離作業(yè)下采集聲信號,建立聲音特征庫.使用MFCC、ΔMFCC、ΔΔMFCC、頻譜動態(tài)特征,輸入BPNN、KNN和極限學習機(Extreme Learning Machine, ELM)進行設備識別.文獻[370]使用STE比值SFER(Short-term Frames Energy Ratio)、短時T-F譜幅值比(Short-term Spectrum Amplitude Ratio, SSAR)、短時T-F譜幅值比占比(Short-term Spectrum Amplitude Ratio Rate, SSARR)、沖擊脈沖寬度(Width of Pulse, WoP)、沖擊脈沖間隔(Interval of Pulse, IoP)等統(tǒng)計特征識別,受距離變化影響較小,性能穩(wěn)定,比LPCC、MFCC等經(jīng)典特征泛化能力更好.

        4.7.2 房屋建筑業(yè)

        文獻[371]通過單點單次敲擊抹灰墻采集聲信號,通過MFCC特征和DTW對抹灰墻黏結缺陷進行識別.文獻[372]通過燒磚的敲擊聲音判斷燒磚內部是否存在缺陷,并進一步區(qū)分缺陷類別.采用無限沖擊響應(Infinite Impulse Response, IIR)濾波器進行降噪,采用近似熵方法判斷敲擊聲音端點.以頻譜峰值點之間的關系作為特征,用PCA方法進行故障檢測.老房子的木質結構和家具中可能存有木蛀蟲,是物體腐朽的主要原因.文獻[373]基于木蛀蟲的活動聲音檢測其是否存在.因為幼蟲發(fā)出的聲音相對較低,背景噪聲會大大降低檢測的準確性.文獻[374]采集建筑物內部金屬斷裂的聲音進行分析,識別可能出現(xiàn)在建筑物內部的裂縫,避免倒塌等災難性后果的發(fā)生.

        4.8 采礦業(yè)、日常生活、身份識別、軍事等

        4.8.1 采礦業(yè)

        為監(jiān)測鉆井過程中的井壁坍塌、井底巖爆等井下工況信息,文獻[375]采集返出巖屑在排砂管中運輸所產(chǎn)生的聲信號.根據(jù)STE確定聲音段的起止點,利用NN算法去噪,DTW識別巖屑的大小,計算巖屑流量,進而判斷井下工況.

        4.8.2 日常生活

        CA技術在日常生活中也有許多應用.烹飪過程中會產(chǎn)生特定的聲音,可用于進行烹飪過程的檢測和控制.文獻[376]基于聲信號識別水沸騰的狀態(tài).文獻[377]發(fā)明另一種基于聲信號的裝置,檢測電磁爐水沸騰狀態(tài),而且還能自動關機.文獻[378]發(fā)明一種風扇異音檢測系統(tǒng).文獻[379]發(fā)明的一種智能吸油煙機能對廚房的各種環(huán)境聲音進行分析檢測,判斷該聲音是否是烹飪過程發(fā)出的聲音.進而判斷該烹飪聲音所對應的油煙量級別,設置對應的吸油煙機的啟動或關閉或調節(jié)風機轉速,實現(xiàn)對吸油煙機的智能控制.文獻[380]發(fā)明一種帶有保健檢測的手表,通過翻身聲響檢測人的睡眠質量.文獻[381]使用耳墊聲音傳感器采集咀嚼食物的聲信號,基于模式識別技術實時獲取咀嚼周期和食物類型,預測固體食物的食量,進行飲食指導.文獻[382]分別使用動圈式麥克風(Dynamic microphone)和電容式麥克風(Condenser microphone)采集在有償自動回收機(Reverse Vending Machines, RVM)中進入廢物的聲音,基于SVM和HMM對廢物的種類和大小進行分類,如自由落體、氣動撞擊、液體沖擊.文獻[383]基于PCA處理后的聲音的幀能量,根據(jù)方差最小原則判斷同型號待測打印紙的柔軟度,分為5級.文獻[384]發(fā)明一種日用陶瓷裂紋檢測裝置.通過敲擊碗坯發(fā)出聲音,聲音傳感器捕獲信號后判斷是否有裂紋.文獻[385]中的地震聲響測定儀基于FFT模型快速識別不同聲音的地震脈沖,預測將要發(fā)生危險的地帶.

        4.8.3 身份識別

        腳步聲是人最主要的行為特征之一.正常情況下每個人走路的腳步聲是不一樣的,蘊含著性格、年齡、性別等多方面信息,具有可靠性和唯一性.腳步聲識別在家庭監(jiān)控、安全防盜、軍事偵察等領域具有重要意義.常規(guī)算法采用MFCC特征,GMM分類器識別.由于同一人穿不同的鞋,在不同的地板上走路時腳步聲會有差異,這類對不同發(fā)聲機制較為敏感的方法具有很大的約束性和限制性,魯棒性不足.

        文獻[386]采用雙門限比較端點檢測法分割腳步聲,維納濾波降噪.提出一種新的特征,即腳步聲的持續(xù)時間與腳步聲的間隔時間,使用KNN分類識別.對于同一個人在不同發(fā)聲機制下的腳步聲識別具有良好的魯棒性和適用性.文獻[387]用譜減法對頻譜圖降噪.在訓練過程中,計算在安靜環(huán)境下采集的每個訓練樣本的對數(shù)能量,形成2維頻譜圖.應用數(shù)字圖像中的關鍵點檢測與表征技術在2維頻譜圖中檢測關鍵點,形成每個關鍵點的局部頻譜特征.在識別過程中,利用基于最小錯誤率的貝葉斯決策(Bayesian decision)理論對待識別樣本進行分類.

        手寫聲音(Hand writing sound)是真實環(huán)境中存在的一種噪聲,其信息不僅可以用來識別文字如數(shù)字字符,還可以進行書寫者身份識別(Writer recognition).文獻[388]記錄受試者用圓珠筆在紙上寫字時的聲音.采用MFCC、ΔMFCC、ΔΔMFCC作為特征,HMM作為分類器模型,進行書寫者身份識別.

        4.8.4 軍事

        CA在軍事上也有許多重要應用.下邊僅舉幾例.

        4.8.4.1 目標識別

        現(xiàn)代化的智能偵察與作戰(zhàn)方式需要準確感知到自身周圍是否出現(xiàn)機動目標,并判別它們的類別和數(shù)量,以配合目標定位、跟蹤和攻擊等功能.文獻[389]設計實現(xiàn)一個車輛聲音識別系統(tǒng).提取STE、ZCR、諧波集、SC、LPC、MFCC和小波能量等音頻特征,用遺傳算法對備選特征庫進行優(yōu)化產(chǎn)生最終的特征子集,對兩類目標車輛進行分類.文獻[390]基于聲信號對戰(zhàn)場上的車輛進行分類識別,集成諧波集、MFCC、小波能量等3種特征,并用PCA進行降維融合處理.

        被動聲音目標識別也稱為被動式聲雷達(Passive acoustic radar).與傳統(tǒng)雷達探測技術相比,有抗干擾、低功耗、不易被發(fā)現(xiàn)等優(yōu)點,可以彌補雷達低空探測存在盲區(qū)的不足.聲音傳感器實時接收目標的聲音信息,與典型的聲信號(如坦克、輪式車輛、直升機等)通過模式匹配進行自動識別.文獻[391]基于MFCC和DTW對低空四旋翼飛行器的聲信號進行聲紋識別.文獻[392]提出在戰(zhàn)場上對同時多低空目標進行分類的方法.采用ICA將混合信號分為若干個聲源并去除噪聲.提取MFCC作為特征,使用K-means聚類后產(chǎn)生訓練和識別的特征向量(Eigenvector),輸入模擬聲信號時域變化的HMM進行分類.

        文獻[393]基于無線聲音傳感器網(wǎng)絡(Wireless Sound Sensor Networks, WSSN)搜集數(shù)據(jù),結合MFCC和DTW實現(xiàn)一個海上無人值守偵察系統(tǒng),對進入偵察區(qū)域的目標進行外形輪廓和聲音的識別.由于海上船只、海面飛行物、海鳥以及海洋背景聲音的復雜性,只能對進入偵察海域的聲音進行初步感知.

        在復雜的電磁環(huán)境中,對雷達輻射源音頻信號進行人工識別耗時長、易于誤判和錯判.文獻[394]結合MFCC和DTW實現(xiàn)基于聲紋技術的雷達輻射源音頻自動識別.文獻[395]利用戰(zhàn)術無人機上的聲音傳感器探測和定位地面間接火力源(如迫擊炮和火炮),需先對發(fā)動機噪聲和空氣流動噪聲進行降噪處理.

        4.8.4.2 其他應用

        槍聲分析在現(xiàn)實中有著很多應用.槍聲信號的聲音特征顯示出強烈的空間依賴性,文獻[396]使用空間信息和一種基于它的決策融合規(guī)則來處理多聲道聲音武器分類.文獻[397]在自行火炮實車測試中,利用瞬態(tài)過程中的聲信號對齒輪箱進行故障診斷,避免了常規(guī)振動測試方法無法實現(xiàn)非接觸、不解體、無損在線檢測的弊端,采用倒譜分析克服FFT不能分析非穩(wěn)態(tài)信號的不足.文獻[398]基于振動信號和聲信號用于火炮發(fā)射現(xiàn)場對發(fā)射次數(shù)的計數(shù),解決了火炮發(fā)射人工計數(shù)準確性差的問題.文獻[399]采用Probabilistic NN在火炮音頻特征和火炮零部件(凸輪軸)硬度之間進行非線性映射,實現(xiàn)零部件的硬度分類.

        5 總結與展望

        本文全面總結了基于一般音頻/環(huán)境聲的計算機聽覺技術涉及的相關聲學基礎、概念與原理、典型技術框架、已有的應用領域.與語音信息處理、音樂信息檢索(MIR)、自然語言處理(Natural Language Processing, NLP)、計算機視覺(Computer Vision, CV)等相關領域相比,該學科在國內外發(fā)展都比較緩慢.

        影響CA發(fā)展的幾個原因包括: (1) 環(huán)境聲音具有非平穩(wěn)、強噪聲、弱信號、多聲源混合等特點.一個實際系統(tǒng)必須經(jīng)過音頻分割、聲源分離或增強/去噪后,才能進行后續(xù)的內容分析理解.音頻特征經(jīng)常需要根據(jù)具體應用場景下聲音的特點進行專門設計,直接套用語音信息處理或MIR中的特征則效果較差.(2) 各種音頻數(shù)據(jù)都源自特定場合和物體,難以全面搜集和標注.文獻中使用最多的兩個公共數(shù)據(jù)庫是DCASE和RWCP,但是這兩個數(shù)據(jù)庫主要面向日常生活場景中的一些典型聲音種類.對于其他絕大多數(shù)CA應用領域,不僅數(shù)據(jù)不公開,而且數(shù)據(jù)規(guī)模小,種類不全甚至完全不同,嚴重影響了算法的研究及比較.(3) 基于一般音頻/環(huán)境聲的CA幾乎都是交叉學科,除了日常生活場景,絕大多數(shù)應用需要了解相關各領域的專業(yè)知識和經(jīng)驗.(4) 作為新興學科,還存在社會發(fā)展水平、科研環(huán)境、科技評價、人員儲備等各種非技術類原因阻礙著CA技術的發(fā)展.

        聲音信號具有豐富的信息量,在很多視覺、觸覺、嗅覺不合適的場合下,具有獨特的優(yōu)勢.聲音信號通常被認為與振動信號具有較大的相關性,但聲音信號具有非接觸性,避免了振動信號采集數(shù)據(jù)的困難.基于一般音頻/環(huán)境聲的CA技術屬于AI在音頻領域的分支,直接面向社會經(jīng)濟生活的各個方面,在醫(yī)療衛(wèi)生,安全保護,交通運輸、倉儲,制造業(yè),農(nóng)、林、牧、漁業(yè),水利、環(huán)境和公共設施管理業(yè),建筑業(yè),采礦業(yè),日常生活,身份識別,軍事等數(shù)十個領域具有眾多應用,是一門非常實用的技術.目前該領域在國內外已開始起步發(fā)展,但在許多研究和應用領域仍接近于空白,具有無限廣闊的發(fā)展前景.

        猜你喜歡
        特征信號檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于FPGA的多功能信號發(fā)生器的設計
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應用
        九月婷婷人人澡人人添人人爽| 日韩一区二区三区人妻免费观看| 中文有码亚洲制服av片| 国产成人无码一区二区在线播放| 国产91精选在线观看麻豆| 国产青青草视频在线播放| 日韩av一区二区不卡| 97日日碰人人模人人澡| 亚洲国产精品久久久久久久| 韩国无码精品人妻一区二| 高清国产国产精品三级国产av| 337p粉嫩日本欧洲亚洲大胆| 少妇人妻真实偷人精品视频| 国产亚洲欧美日韩国产片| 精品久久一区二区三区av制服| 亚洲日韩在线中文字幕综合| 无码精品a∨在线观看十八禁| 啊v在线视频| 成人av资源在线播放| 亚洲精品白浆高清久久久久久 | 国产av一区二区三区在线播放| 亚洲春色在线视频| 国产日韩欧美在线| 日日噜噜夜夜久久密挑| 中文字幕av久久亚洲精品| 久久久精品456亚洲影院| 亚洲AV无码一区二区三区性色学| 国产特黄a三级三级三中国| 女人18毛片a级毛片| 无码专区天天躁天天躁在线| 久久aⅴ无码av高潮AV喷| 日本一二三四区在线观看| 亚洲国产精品ⅴa在线观看| 99福利网| 女同重口味一区二区在线| 亚洲色精品三区二区一区 | 好男人社区影院www| 国产精品福利影院| 青青草视频网站免费看| 国产极品女主播国产区| 亚洲色偷偷色噜噜狠狠99|