蘇 明,艾海明,王東明
(1.北京開(kāi)放大學(xué) 科學(xué)技術(shù)學(xué)院,北京100081;2.深圳市尼歐科技有限公司,廣東 深圳 518000)
網(wǎng)約車借助移動(dòng)互聯(lián)網(wǎng)通信技術(shù)手段成為市民出行新業(yè)態(tài),具有價(jià)格合理、高效節(jié)能、個(gè)性化出行等優(yōu)勢(shì)[1,2]。但運(yùn)營(yíng)過(guò)程也存在安全隱患,其深層次原因有[3~5]:1)網(wǎng)約車基數(shù)大,網(wǎng)約平臺(tái)無(wú)法獲取每臺(tái)車輛實(shí)情狀況;2)監(jiān)管工作量大,導(dǎo)致遺漏關(guān)鍵求助信息;3)現(xiàn)有安全預(yù)防機(jī)制不利,網(wǎng)約平臺(tái)對(duì)于事故報(bào)警處理調(diào)取車輛信息監(jiān)控存在層層審批,內(nèi)部監(jiān)管流程導(dǎo)致延誤第一時(shí)間接警處置;4)網(wǎng)約技術(shù)監(jiān)管僅提供車輛大致特征及GPS位置信息,被動(dòng)接收?qǐng)?bào)案人提供的求助信息。由于技術(shù)手段缺陷導(dǎo)致監(jiān)管漏洞,未能在案情發(fā)生初期予以立即阻止,對(duì)乘客生命安全造成隱患。綜上,網(wǎng)約車平臺(tái)現(xiàn)有的安全技術(shù)手段有限,且存在嚴(yán)重的滯后性。因此,本文提出一種車載智能語(yǔ)音識(shí)別報(bào)警系統(tǒng),其關(guān)鍵技術(shù)在于人工智能(AI)語(yǔ)音識(shí)別。
采用語(yǔ)音識(shí)別技術(shù),其總體框架結(jié)構(gòu)包括音頻輸入單元、增益放大電路、信號(hào)濾波調(diào)理、AD采集、語(yǔ)音識(shí)別單元、防拆報(bào)警單元、語(yǔ)音對(duì)講單元、無(wú)線數(shù)據(jù)傳輸?shù)纫?jiàn)圖1。
圖1 系統(tǒng)架構(gòu)框圖
主要工作流程為車載監(jiān)測(cè)裝置多路麥克風(fēng)拾音器實(shí)時(shí)采集車內(nèi)語(yǔ)音數(shù)據(jù),音頻數(shù)據(jù)經(jīng)過(guò)放大濾波、預(yù)處理后進(jìn)行語(yǔ)音特征提取,并將語(yǔ)音傳送到聲學(xué)模型進(jìn)行比對(duì),聲學(xué)模型建立有很多聲學(xué)詞典,經(jīng)神經(jīng)網(wǎng)絡(luò)進(jìn)行匹配,參照對(duì)應(yīng)的聲學(xué)詞典和解碼器進(jìn)行解碼,與概率比較器比較獲得文本信號(hào),文本信號(hào)與報(bào)警詞比較器進(jìn)行匹配,當(dāng)云后臺(tái)智能識(shí)別到落入報(bào)警敏感詞區(qū)間內(nèi),則將該語(yǔ)音信息通過(guò)云后臺(tái)發(fā)送給平臺(tái)監(jiān)管人員和公安報(bào)警系統(tǒng),監(jiān)管平臺(tái)能通過(guò)云后臺(tái)與主機(jī)進(jìn)行通信,通過(guò)語(yǔ)音與事故車輛進(jìn)行聯(lián)系。
音頻輸入單元電路通過(guò)一個(gè)直流偏置電路給麥克風(fēng)供電見(jiàn)圖2左圖,右圖通過(guò)三極管Q4和定位器R11搭成的音頻輸入電路拾取車內(nèi)音頻數(shù)據(jù),R11可微調(diào)音頻的輸入大小。本設(shè)計(jì)包括4個(gè)此類相同電路,分別分布于系統(tǒng)車載監(jiān)測(cè)裝置中前、后、左、右四個(gè)方向,該單元功能為采集車內(nèi)前后左右四個(gè)方向聲源的音頻數(shù)據(jù),其中一個(gè)作為輸入源,其他三個(gè)作為參考環(huán)境噪聲,其目的為濾除環(huán)境噪聲以提高信噪比,并獲取較為純凈的音頻信號(hào)。
圖2 音頻輸入單元電路
由于音頻輸入信號(hào)弱,麥克風(fēng)拾取的音頻信號(hào)為mV級(jí),須將輸入信號(hào)放大至約2 V左右,以便后續(xù)進(jìn)行模數(shù)轉(zhuǎn)換。增益放大電路中放大器選擇LM386作為音頻放大器見(jiàn)圖3,該集成運(yùn)放具有高信噪比,軌到軌放大的特點(diǎn),可在放大音頻信號(hào)的同時(shí)保證高信噪比。
圖3 增益放大電路
放大后信號(hào)含有較多環(huán)境噪聲[6],將聲源朝向的信號(hào)作為輸入,其他三個(gè)作為參考,利用自適應(yīng)濾波將環(huán)境噪聲濾除,并通過(guò)調(diào)理電路將輸入信號(hào)調(diào)理為高信噪比、幅度一致的理想信號(hào)。AD采集是將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),根據(jù)奈奎斯特采樣定律,為保證信號(hào)不失真還原,采樣頻率選為48 kHz。
防拆報(bào)警單元在外殼打開(kāi)處鐳雕檢測(cè)線通過(guò)內(nèi)部連接線連接至地上防靜電電阻,再與電源線中防拆線連接在一起,另一端連接控制單元中GPIO1和GPIO2引腳,當(dāng)GPIO1和GPIO2檢測(cè)到因外部原因?qū)е鲁尸F(xiàn)非正常態(tài)(低電平),則輸出報(bào)警,防拆報(bào)警單元會(huì)檢測(cè)到系統(tǒng)外力損壞并將這一信息通過(guò)云后臺(tái)報(bào)告給平臺(tái)安全監(jiān)控人員見(jiàn)圖4。
圖4 防拆報(bào)警單元硬件
系統(tǒng)工作自檢單元功能作用為檢測(cè)每個(gè)模塊單元工作狀態(tài),主要為定時(shí)檢測(cè)各主IC自檢信息或工作電壓,當(dāng)工作異常時(shí)通知云后臺(tái)報(bào)告工作異常代碼,便于設(shè)備正常運(yùn)轉(zhuǎn),減少設(shè)備工作不當(dāng)造成安全漏洞;該單元控制駕駛?cè)松矸軮D識(shí)別,當(dāng)語(yǔ)音密碼與后臺(tái)存儲(chǔ)的ID不一致時(shí),系統(tǒng)工作自檢單元鎖死系統(tǒng)各模塊停止工作,不能進(jìn)行接單。
語(yǔ)音識(shí)別控制單元作為系統(tǒng)的核心控制模塊,控制系統(tǒng)的正常工作并接收語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,智能識(shí)別安全異常信息并自動(dòng)通過(guò)后臺(tái)進(jìn)行報(bào)警。無(wú)線數(shù)據(jù)傳輸主要功能為進(jìn)行云后臺(tái)與裝置的通信手段,每秒發(fā)送一次心跳包到云后臺(tái),心跳包包括時(shí)間戳、車輛ID、設(shè)備運(yùn)行狀態(tài)、異常告警信息、位置信息等發(fā)送到后臺(tái)。無(wú)線數(shù)據(jù)傳輸手段包括但不限于藍(lán)牙、WiFi,4 G,NB-IOT等。
1)音頻信號(hào)檢測(cè)算法
本系統(tǒng)裝置通過(guò)語(yǔ)音識(shí)別控制單元采集車內(nèi)音頻數(shù)據(jù),假定獲取音頻數(shù)據(jù)序列為x(n)。音頻信號(hào)檢測(cè)算法為
(1)
式中X(ejω)為x(n)的離散傅里葉變換。頻譜分布能量場(chǎng)接近零值,則為靜音信號(hào),反之則為語(yǔ)音信號(hào)見(jiàn)圖5(a)。
2)音頻信號(hào)預(yù)處理算法
音頻信號(hào)數(shù)據(jù)可表達(dá)為
(2)
式中s(j)為靜音信號(hào)片段,V(m)為音頻信號(hào)去除靜音信號(hào)的語(yǔ)音信號(hào)片段,并作為語(yǔ)音輸入。
首先,語(yǔ)音信號(hào)采用最小均方(least mean square,LMS)自適應(yīng)濾波算法進(jìn)行非平穩(wěn)數(shù)字濾波;其次,采用另一路麥克風(fēng)采集背景噪聲L(m),并采用下式可得到純凈的語(yǔ)音信號(hào)Y(m),即Y(m)=V(m)-L(m)。
3)基于幀數(shù)據(jù)的特征提取算法
預(yù)處理后語(yǔ)音信號(hào)加窗成幀數(shù)據(jù)見(jiàn)圖5(b),每幀長(zhǎng)度為T,幀移動(dòng)長(zhǎng)度為t,則每幀之間存在著T-t的交替重疊(T>2t),處理好的每幀數(shù)據(jù)進(jìn)行特征提取。特征提取算法為:1)每幀語(yǔ)音信號(hào)進(jìn)行傅里葉變換;2)利用梅爾倒頻譜系數(shù)(Mel frequency cepstral coefficient,MFCC)法用于分離人類語(yǔ)音信號(hào)見(jiàn)式(4)、式(5)[7];3)利用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)分析語(yǔ)音信號(hào)所屬口音類型[8],以便選取對(duì)應(yīng)的語(yǔ)音識(shí)別模塊,其結(jié)構(gòu)見(jiàn)圖5(c)。
圖5 音頻信號(hào)處理
(3)
(4)
聲學(xué)模型存儲(chǔ)各地語(yǔ)音數(shù)據(jù)(包含普遍話及方言)如四川、廣東等,聲學(xué)模型共存儲(chǔ)N種不同模型數(shù)據(jù)。由特征提取結(jié)果找到對(duì)應(yīng)的所屬聲學(xué)詞典和解碼器見(jiàn)圖6。聲學(xué)詞典和解碼器經(jīng)過(guò)分析運(yùn)算,匹配輸出文本字符串。如反饋未識(shí)別到匹配詞匯,則重新回到特征提取再根據(jù)最大概率重新匹配,如再次未匹配成功則提示重新再說(shuō)一遍或放棄等待下一段語(yǔ)音。其中,概率比較器根據(jù)特征提取和聲學(xué)模型匹配結(jié)果,選擇最匹配聲學(xué)模型進(jìn)行特征幀比對(duì)并輸出文本信息;報(bào)警詞比較器對(duì)輸出文本信息進(jìn)行比較如尖銳敏感詞“救命”等,如多次監(jiān)測(cè)到設(shè)定的敏感詞,則判斷車內(nèi)存在安全隱患;輸出報(bào)警信息根據(jù)系統(tǒng)監(jiān)測(cè)到的報(bào)警詞匯將車輛信息、位置、報(bào)警信息反饋到網(wǎng)約平臺(tái)安全監(jiān)管人員。
圖6 基于聲學(xué)模型匹配算法的自動(dòng)報(bào)警流程圖
軟件開(kāi)發(fā)采用C語(yǔ)言和JAVA語(yǔ)言混合編程實(shí)現(xiàn),并采用模塊化程序設(shè)計(jì)見(jiàn)圖7。C語(yǔ)言和JAVA語(yǔ)言分別用于硬件控制和無(wú)線通信端程序設(shè)計(jì)。
圖7 系統(tǒng)軟件設(shè)計(jì)流程圖
共選取60名來(lái)自不同方言區(qū)志愿者作為本系統(tǒng)實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)對(duì)象采用5個(gè)測(cè)試敏感詞即尖銳聲“啊”“救命”“干什么”及持續(xù)的“不要”“放開(kāi)”。每個(gè)實(shí)驗(yàn)對(duì)象每次實(shí)驗(yàn)分別選用上述5個(gè)不同測(cè)試敏感詞作為真實(shí)的報(bào)警意圖,并與車載智能語(yǔ)音識(shí)別報(bào)警系統(tǒng)識(shí)別結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表1所示。表1兩列數(shù)據(jù)進(jìn)行卡方檢驗(yàn),可知本系統(tǒng)與實(shí)驗(yàn)對(duì)象語(yǔ)音識(shí)別無(wú)顯著差異(P>0.05)。
表1 智能語(yǔ)音識(shí)別對(duì)比
基于AI的車載智能語(yǔ)音識(shí)別報(bào)警系統(tǒng)可實(shí)時(shí)采集車內(nèi)音頻數(shù)據(jù),并通過(guò)云后臺(tái)與網(wǎng)約平臺(tái)反饋,便于立即處理異常情況。此外,基于語(yǔ)音識(shí)別的神經(jīng)網(wǎng)絡(luò)能通過(guò)自主學(xué)習(xí)并不斷提高識(shí)別的準(zhǔn)確率,云后臺(tái)報(bào)警詞比較器能根據(jù)敏感詞進(jìn)行擴(kuò)展,增加模型的自主學(xué)習(xí)能力。實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)智能語(yǔ)音識(shí)別自動(dòng)報(bào)警安全、可靠,可應(yīng)用于網(wǎng)約車載安全監(jiān)管。