昂 晨,王 玫,羅麗燕,宋浠瑜,熊璐琦
(1.認(rèn)知無線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004; 2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
由于GPS信號(hào)在室內(nèi)環(huán)境下的定位效果不盡理想,因此急需一種高效、便捷和準(zhǔn)確的室內(nèi)定位技術(shù)來填補(bǔ)空白。近年來,隨著嵌入式和移動(dòng)終端的快速發(fā)展,智能手機(jī)等移動(dòng)平臺(tái)的CPU計(jì)算能力得到顯著提高。同時(shí),多種傳感器內(nèi)嵌其中,極大地豐富了智能手機(jī)的功能,使得音頻的采集和處理成為可能[1]。智能手機(jī)的普及讓智能手機(jī)獲取代價(jià)降低,使它成為人們生活中不可缺少的一部分。利用智能手機(jī)能夠在無需其他基礎(chǔ)設(shè)備的條件下實(shí)現(xiàn)低代價(jià)、高響應(yīng)速度的定位系統(tǒng),達(dá)到符合使用要求的定位效果。
當(dāng)前較成熟的有基于Wifi、藍(lán)牙、紅外線和超聲波等室內(nèi)定位技術(shù)?;赪iFi的定位技術(shù)基礎(chǔ)設(shè)備易于安裝,但易受其他信號(hào)干擾、功耗較高;基于藍(lán)牙的定位技術(shù)功耗低、易集成,但定位距離短、穩(wěn)定性較差、易受噪聲干擾;基于紅外的定位技術(shù)精度高,但不能穿越障礙,同時(shí)造價(jià)高、功耗較大;基于超聲波的室內(nèi)定位技術(shù)整體精度高、結(jié)構(gòu)簡(jiǎn)單,但存在多徑效應(yīng)、衰減明顯、易受溫度影響、成本高[2]?;诒尘奥暤氖覂?nèi)定位技術(shù)無需其他基礎(chǔ)設(shè)施,僅需手機(jī)錄音,成本較低。同時(shí)背景聲極易被獲取,其識(shí)別率也不受多徑效應(yīng)的影響。背景聲定位是基于指紋的定位技術(shù),為了達(dá)到較高的識(shí)別率,需要提取魯棒性高、穩(wěn)定性好的特征。對(duì)于語音和音樂,特征提取的方式已經(jīng)比較成熟。時(shí)域中有過零率[3]和短時(shí)能量[4]等;頻域中常用傅里葉變換法和線性預(yù)測(cè)分析方法(LPC)[5]等;梅爾頻率倒譜系數(shù)(MFCC)[6]作為倒譜域的特征使用最為廣泛。由于室內(nèi)背景聲與語音在結(jié)構(gòu)與特性上存在很大區(qū)別,因此用傳統(tǒng)方法對(duì)背景聲進(jìn)行特征提取和識(shí)別會(huì)存在不足[7]。此外,建筑聲學(xué)領(lǐng)域提出:房間的持續(xù)聲音和房間的沖擊響應(yīng)相結(jié)合形成了每一間房間的獨(dú)特背景聲[8]。即使是人耳聽覺相近的2個(gè)房間,由于房間結(jié)構(gòu)所產(chǎn)生的持久化聲音仍能較精確地區(qū)分2個(gè)不同的房間。
文獻(xiàn)[9]結(jié)合智能手機(jī)的多傳感器優(yōu)勢(shì),采集WiFi、聲音、視覺圖像和加速度計(jì)數(shù)據(jù)作為指紋,其中聲音指紋通過提取時(shí)域上聲音的幅度得出。實(shí)驗(yàn)結(jié)果顯示,此方法在51個(gè)不同房間中的匹配率達(dá)到87%。文獻(xiàn)[10]提出了一種提取背景聲頻譜的方法,采用KNN學(xué)習(xí)算法,依靠背景聲實(shí)現(xiàn)了房間級(jí)的室內(nèi)定位系統(tǒng),識(shí)別率達(dá)到69%。文獻(xiàn)[11]提出了聲音地標(biāo)定位器(ALL),取功率譜的5幀移動(dòng)平均作為聲音指紋,學(xué)習(xí)算法采用RPROP后向神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)智能手機(jī)室內(nèi)定位功能。
由此可見,對(duì)于聲學(xué)背景聲定位,如何對(duì)其特征指紋與學(xué)習(xí)算法進(jìn)行深入學(xué)習(xí)并加以改進(jìn),實(shí)現(xiàn)更高的房間識(shí)別率成為研究熱點(diǎn)和難點(diǎn)。因此,本文深入研究背景聲譜(ABS)及其特征,利用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),系統(tǒng)性能得到進(jìn)一步改進(jìn)。
本文通過智能手機(jī)采集房間背景聲作為訓(xùn)練樣本,定位系統(tǒng)設(shè)計(jì)分為線下采集與線上定位2個(gè)階段。
線下采集階段需要采集足量的房間背景聲數(shù)據(jù),以此訓(xùn)練出房間背景聲識(shí)別模型。由于聲音序列整體非平穩(wěn),但局部平穩(wěn)[12]。采集足夠長(zhǎng)時(shí)間的背景聲,對(duì)這些聲音序列進(jìn)行特征提取,得到背景聲指紋;另外,需要為每一個(gè)背景聲指紋添加標(biāo)記,背景聲指紋與標(biāo)記一起構(gòu)成了背景聲指紋庫。
構(gòu)建聲音指紋庫之后,通過學(xué)習(xí)算法訓(xùn)練出適用于背景聲室內(nèi)定位場(chǎng)景下的定位模型。此模型需要有較高的泛化能力,能較好地反映整個(gè)樣本空間的特性。線下采集與訓(xùn)練過程如圖1所示。
圖1 背景聲線下采集與訓(xùn)練過程
線上階段同樣用智能手機(jī)采集背景聲,對(duì)背景聲序列進(jìn)行特征提取,提取出的數(shù)據(jù)作為測(cè)試集輸入到訓(xùn)練的房間背景聲定位模型中。將得到的輸出與房間標(biāo)記信息進(jìn)行匹配,計(jì)算房間識(shí)別率。線上定位過程如圖2所示。
圖2 背景聲線上定位過程
高精度識(shí)別背景聲序列,特征的提取十分重要。提取出的特征在不同房間之間需要有較高的區(qū)分度;另外,在同一個(gè)場(chǎng)景下,不同時(shí)間的特征應(yīng)該具有時(shí)間平穩(wěn)性,對(duì)環(huán)境的改變具有魯棒性和一般性。本文使用了室內(nèi)環(huán)境聲學(xué)特征——室內(nèi)背景聲譜(ABS)。
預(yù)處理過程首先將采集的背景聲序列進(jìn)行分幀操作,通過分幀得到短時(shí)平穩(wěn)的背景聲信號(hào)。幀長(zhǎng)是進(jìn)行分幀需要考慮的一個(gè)重要參數(shù),長(zhǎng)度越長(zhǎng)特征越容易捕捉,長(zhǎng)度越小音頻失真度越小[13]。因此需要進(jìn)行折中考慮,在分幀過程中要進(jìn)行加窗,若不進(jìn)行加窗操作,會(huì)忽略背景聲信號(hào)的連續(xù)性和前后影響。常用的窗函數(shù)有漢明窗和矩形窗等。
漢明窗(Hamming Window)在主瓣寬度與矩形窗相同的情況下,旁瓣較窄,防頻譜泄露能力更強(qiáng)。漢明窗函數(shù)為:
(1)
矩形窗加窗計(jì)算簡(jiǎn)單,窗函數(shù)為:
(2)
式中,N為窗口長(zhǎng)度,即幀長(zhǎng)。
將采集的背景聲序列進(jìn)行預(yù)處理,計(jì)算每幀的功率譜,步驟如下:① 將一系列聲音信號(hào)做FFT變換;② 經(jīng)過FFT變換之后,保留前一半的數(shù)據(jù);③ 乘以留下元素的共軛復(fù)數(shù),得到功率譜;④ 提取功率的第五百分列并取對(duì)數(shù),即ABS。
ABS提取流程如圖3所示。
圖3 ABS提取流程
提取了背景聲的特征指紋(ABS)之后,需要對(duì)特征指紋進(jìn)行訓(xùn)練。不同的學(xué)習(xí)算法得出的定位模型會(huì)較大地影響房間識(shí)別精度。典型的幾種學(xué)習(xí)算法包括貝葉斯決策論[14]、決策樹[15]、神經(jīng)網(wǎng)絡(luò)和KNN等。本文采用KNN[16]、BP[17]神經(jīng)網(wǎng)絡(luò)以及RBF[18]神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真。
RBF神經(jīng)網(wǎng)絡(luò)是一種局部逼近的神經(jīng)網(wǎng)絡(luò),其優(yōu)化過程實(shí)質(zhì)是高維空間中的曲面擬合過程[19]。RBF神經(jīng)網(wǎng)絡(luò)模擬了生物神經(jīng)元互相覆蓋、局部調(diào)整的特性,其學(xué)習(xí)過程就是在高維空間中擬合訓(xùn)練數(shù)據(jù)來尋找一個(gè)最佳曲面,可在構(gòu)建好的模型中對(duì)測(cè)試數(shù)據(jù)進(jìn)行插值以提高其泛化能力。RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(3)
式中,網(wǎng)絡(luò)第j個(gè)節(jié)點(diǎn)的中心向量為cj=[cj1,cj2,cj3,…,cjn]T,j=1,2,3…,n。設(shè)網(wǎng)絡(luò)的基寬向量為:B=[b1,b2,b3,…,bn]T,bj為節(jié)點(diǎn)j的基寬參數(shù),且為大于零的數(shù)。
RBF網(wǎng)絡(luò)的權(quán)向量為:
W=[w1,w2,w3,…,wn]T。
(4)
RBF網(wǎng)絡(luò)的輸出為:
ym(k)=w1h1+w2h2+…+wnhn。
(5)
RBF網(wǎng)絡(luò)的性能指標(biāo)函數(shù)為:
(6)
式中,y(k)為測(cè)試數(shù)據(jù)的期望輸出。由于本文采用監(jiān)督學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)所有的參數(shù)進(jìn)行訓(xùn)練。根據(jù)梯度下降法,輸出權(quán)、節(jié)點(diǎn)基寬參數(shù)及節(jié)點(diǎn)中心矢量的迭代算法如下:
wj(k)=wj(k-1)+η(y(k)-ym(k))hj+
α(wj(k-1)-wj(k-2)),
(7)
(8)
bj(k)=bj(k-1)+ηΔbj+
α(bj(k-1)-bj(k-2)),
(9)
(10)
cji(k)=cji(k-1)+ηΔcji+
α(cji(k-1)-cji(k-2)),
(11)
式中,η為學(xué)習(xí)速率,η∈[0,1];α為動(dòng)量因子,α∈[0,1]。
為了評(píng)估本文算法的定位性能,下面給出對(duì)基于該解決方案實(shí)現(xiàn)房間級(jí)定位性能進(jìn)行測(cè)試的具體實(shí)驗(yàn)內(nèi)容,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
選取桂林電子科技大學(xué)金雞路校區(qū)第七與第八教學(xué)樓3層房間作為實(shí)驗(yàn)場(chǎng)地,整個(gè)實(shí)驗(yàn)場(chǎng)地大約有20個(gè)房間,包括教室、硬件實(shí)驗(yàn)室、軟件實(shí)驗(yàn)室與儲(chǔ)物室。選取其中15個(gè)房間(包含上述4類)利用華為榮耀7手機(jī)按上述特征提取方法得到各個(gè)房間的背景聲指紋庫。該實(shí)驗(yàn)場(chǎng)地部分房間如圖5所示。
本文在Android4.4手機(jī)操作系統(tǒng)下編程實(shí)現(xiàn)了用于錄制背景聲數(shù)據(jù)的軟件。采樣頻率設(shè)置為44.1 kHz。在每個(gè)房間的3個(gè)不同位置采集總時(shí)長(zhǎng)1 h的背景聲音頻。
圖5 桂電七教3層部分房間示意
本次實(shí)驗(yàn)對(duì)7 kHz以下相同房間的背景聲指紋與不同房間的背景聲指紋進(jìn)行了仿真對(duì)比,實(shí)驗(yàn)結(jié)果如圖6和圖7所示。
圖6 320房間7 kHz以下的5個(gè)背景聲指紋樣本
圖7 7 kHz以下5個(gè)不同房間的背景聲樣本
由圖6分析得出:在不同房間中提取出的背景聲指紋樣本在7 kHz以內(nèi)其功率變化趨勢(shì)有較大差別,且同頻率下其指紋功率值相差基本在4 dB以上。因此,不同房間的背景聲指紋具有較高的區(qū)分度。
由圖7分析得出:在同一房間下提取出的背景聲指紋樣本在7 kHz以內(nèi)其功率變化趨勢(shì)差別較小,同頻率下其指紋功率值相差基本在3 dB以內(nèi)。因此,相同房間的背景聲指紋具有時(shí)間平穩(wěn)性。
圖6與圖7結(jié)果表明,使用ABS特征提取能較好地表征一個(gè)房間的背景聲特征。
分別使用KNN、BP、RBF學(xué)習(xí)算法訓(xùn)練特征指紋集,得到各自的室內(nèi)背景聲定位模型。房間個(gè)數(shù)的變化對(duì)定位模型識(shí)別率與運(yùn)行時(shí)間的影響如表1所示。房間個(gè)數(shù)與定位模型匹配率高低的直方圖如圖8所示。
表1房間個(gè)數(shù)與定位模型識(shí)別率和運(yùn)行時(shí)間的比較
房間個(gè)數(shù)KNN識(shí)別率/%KNN計(jì)算時(shí)間/sBP識(shí)別率/%BP計(jì)算時(shí)間/sRBF識(shí)別率/%RBF計(jì)算時(shí)間/s281.9723.9378.7041.9286.8914.69379.1224.2468.6644.3487.9114.95474.4625.9869.6740.6679.3815.19571.3326.3164.3440.4275.3315.84675.5626.6765.0043.3278.3316.63870.9228.5253.0046.8377.5018.281069.3329.1351.3345.5375.9319.831268.7931.1645.3348.1275.6721.551567.3333.8542.6750.6575.3323.85
圖8 房間個(gè)數(shù)與定位模型識(shí)別率直方圖
實(shí)驗(yàn)結(jié)果表明:
① 定位模型的識(shí)別率隨著房間個(gè)數(shù)的增加基本呈遞減趨勢(shì),且RBF與kNN定位模型的識(shí)別率在房間個(gè)數(shù)為8時(shí)趨于穩(wěn)定;
② RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練得出的定位模型具有更高的房間識(shí)別率。另外相較其它學(xué)習(xí)算法,RBF運(yùn)算時(shí)間更短;
③ 由直方圖可直觀看出,存在個(gè)別房間數(shù)增加,房間識(shí)別率反而上升的情況,原因可能是房間的類型差別較大(即教室與實(shí)驗(yàn)室的背景聲存在較大的區(qū)別)。
本文利用ABS特征提取方法提取背景聲序列,以此建立魯棒性高的背景聲指紋數(shù)據(jù)庫。利用KNN、BP、RBF三種機(jī)器學(xué)習(xí)算法依次構(gòu)建背景聲定位模型。通過對(duì)測(cè)試數(shù)據(jù)的識(shí)別率與計(jì)算時(shí)間的計(jì)算,可知RBF訓(xùn)練出的定位模型相較KNN、BP有良好的性能改善,更適用于室內(nèi)背景聲定位場(chǎng)景。下一步研究可在本場(chǎng)景嘗試?yán)蒙疃葘W(xué)習(xí)RNN算法進(jìn)行建模,RNN對(duì)序列數(shù)據(jù)識(shí)別有著較好的效果,廣泛應(yīng)用于文本、語音等領(lǐng)域。但深度學(xué)習(xí)需要較大的數(shù)據(jù)量,因此后續(xù)還可考慮利用群智感知模式進(jìn)行數(shù)據(jù)采集,以降低采集數(shù)據(jù)的時(shí)間成本。