, ,,,
(河南省人工影響天氣中心,鄭州 450003)
人工影響天氣(簡稱“人影”),是指為避免或者減輕氣象災(zāi)害,合理利用氣候資源,在適當(dāng)條件下通過科技手段對局部大氣的物理、化學(xué)過程進行人工影響,使某些局地天氣過程朝著有利于人類的方向轉(zhuǎn)化,從而實現(xiàn)增雨雪、防雹、消雨、消霧、改善環(huán)境等目的[1]。
目前實施人工影響天氣作業(yè)主要有地面和空中兩種方式。地面作業(yè)通常利用高炮或者火箭架向空中具有一定條件的目標云發(fā)射含有催化劑的炮彈、火箭彈,它們在云中爆炸,把催化劑播撒在云中,以影響云物理過程。這種作業(yè)方式具有播撤路徑長、發(fā)射高度高、成核率高、便于操作、機動性強等特點。第二種方式是利用飛機直接入云,在具有一定條件的目標云中直接播撒含有催化劑的物質(zhì),進行人工影響天氣作業(yè),以影響云物理過程。飛機作業(yè)成本較高,需要提前向航管部門申請航線,而且適合開展人工影響天氣作業(yè)的時機往往天氣條件惡劣,不利于飛行安全,特別是在夏季強對流發(fā)生的天氣。因此開展地面高炮人影作業(yè)是必不可少的一種作業(yè)方式。
在地面人影作業(yè)方式中37高炮是常用的作業(yè)裝備。長期以來人工影響天氣作業(yè)用37高炮用彈量計數(shù)采用的是人工紀錄上報的方式,這種統(tǒng)計方式較為繁瑣和落后。特別是近年來河南省人影作業(yè)期逐年增長、用彈量逐漸增大,這對高炮用彈量信息采集準確性和時效性的要求越來越高。傳統(tǒng)的人工統(tǒng)計計數(shù)方式已不能滿足智慧氣象及氣象信息化發(fā)展水平的需求。
近年來語音識別理論得到了不斷豐富和完善,語音識別技術(shù)有了長足發(fā)展,得到了廣泛的應(yīng)用,工業(yè)界也研制出了各種各樣的實用產(chǎn)品。例如,手機上的語音撥號系統(tǒng),只要說出被叫用戶名字就可以接通對方電話;基于自然語言識別的機器翻譯系統(tǒng),將極大地方便不同語種人們的交流,增進彼此了解。總之,語音識別已越來越多地融入到了查詢服務(wù)、工業(yè)控制、信息檢索等領(lǐng)域,正在改變著人們的生活方式。在人影領(lǐng)域,聲級采集儀也獲得研制成功并投入使用[2]。但這種聲級采集儀在識別算法中只簡單采用了聲壓語音參數(shù),識別性能有待提高。如果能將目前業(yè)界廣泛應(yīng)用的矢量量化、動態(tài)時間規(guī)整(DTW)、隱馬爾科夫(HMM)等算法與聲級采集儀相結(jié)合,必將提高識別性能,為人影37高炮作業(yè)用彈量的計數(shù)提供一種新的解決方案。
典型的語音識別系統(tǒng)結(jié)構(gòu)如圖1所示,通常包括預(yù)處理、特征提取、模式匹配、參考模板等基本單元,這一點與常規(guī)模式識別系統(tǒng)相同。但由于語音信號的復(fù)雜性,實際系統(tǒng)的結(jié)構(gòu)比一般的模式識別系統(tǒng)復(fù)雜得多[3]。
圖1 語音識別系統(tǒng)結(jié)構(gòu)圖
根據(jù)語音識別系統(tǒng)所服務(wù)的對象,可以分為特定人識別系統(tǒng)(Speaker Dependent, SD)和非特定人識別系統(tǒng)(Speaker Independent, SI)。SD系統(tǒng)需要使用特定人的樣本數(shù)據(jù)對系統(tǒng)進行訓(xùn)練,然后才能使用。每個人都有自己的專用參考模板。SI系統(tǒng)則是用非限定人的語音樣本對系統(tǒng)進行訓(xùn)練,訓(xùn)練好的系統(tǒng)可以直接使用。這兩種系統(tǒng)服務(wù)對象的不同,決定了兩者的結(jié)構(gòu)、識別方法、參數(shù)選擇都很不相同。后者的技術(shù)難度要大于前者,但它的應(yīng)用范圍更為廣泛。
語音識別系統(tǒng)只能識別出它事先所定義的詞匯表中的詞條。根據(jù)詞表的大小,一般把詞條數(shù)少于100時稱為小詞表,100至500為中等詞表,超過500為大詞表。詞表的大小直接影響了識別系統(tǒng)的設(shè)計難度和識別方法的選擇。
從語音的發(fā)音方式來劃分,可以分為孤立詞識別系統(tǒng)和連續(xù)語音識別系統(tǒng)。孤立詞識別系統(tǒng)結(jié)構(gòu)比較簡單,一般采用圖1所示的系統(tǒng)就可以完成。這種系統(tǒng)中每個詞對應(yīng)一個參考模板,經(jīng)過特征提取和訓(xùn)練得到。在識別時,先對待識別的詞進行預(yù)處理然后提取特征參數(shù),把得到的特征參數(shù)與各個參考模板進行模式匹配,將得分最高的作為識別結(jié)果。然而對于連續(xù)語音識別系統(tǒng)則不同,其由于句子中每個詞之間沒有明顯的停頓標記,分割困難,而且詞與詞之間的發(fā)音會相互影響,因此需要采取復(fù)雜的識別策略。
動態(tài)時間歸整(Dynamic Time Warping, DTW)算法是目前語音識別算法中最為簡單有效的,尤其是在孤立詞識別應(yīng)用中,識別準確度已達到實用水平。該算法引入動態(tài)規(guī)劃(Dynamic Programming, DP)思想,將時間規(guī)整和距離測度結(jié)合起來,解決了發(fā)音長短不一的模版匹配問題以及語速多變的問題[4]。
動態(tài)時間規(guī)整算法思想初衷是用來將未知量長度通過某種映射進行伸長或縮短達到與目標量長度一致。語音識別的原理就是基于標準模板與測試模板的相似度匹配,而語音具有相當(dāng)大的隨機性,發(fā)音受發(fā)音方式、聲道信道影響長短具有隨機性,不能進行直接匹配。動態(tài)時間規(guī)整技術(shù)的引入,將測試語音映射到標準語音時間軸中,使長短不相等的兩個語音最后通過時間軸彎曲之后時間長度變得一致,從而使匹配差別最小,結(jié)合DP動態(tài)規(guī)劃思想計算距離測度,得到測試語音與標準語音之間的距離。
若M={M(1),M(2), …M(i), …,M(m}、N{N(1),N(2), …N(j), …,N(n)}分別為一個標準語音與測試語音特征參數(shù)矢量序列,1…m和1…n表示幀號,且m≠n。特征參數(shù)矢量可以是MFCC參數(shù)、LPCC參數(shù)等。測度距離越小,參考語音與測試語音之間的相似度越高,距離最短的即可作為識別結(jié)果。DTW算法的核心就是設(shè)計時間規(guī)整函數(shù)i=w(j) 非線性映射測試矢量n到時間軸i上,同時第j陣測試語音矢量與第m幀標準語音矢量R(m)的距離測度D滿足:
(1)
其中:w(n)為非線性映射函數(shù),d[T(j),R(w(i))]為第i幀測試矢量T(j)與第j個標準語音矢量R(w(j))的距離。
DP算法尋求M和N的距離D[M(i),N(j)],簡單的說就是通過構(gòu)建鄰接矩陣尋找最短路徑累積和,一般思路為:
1)規(guī)劃路徑網(wǎng)絡(luò)。建立一個二維直角坐標系,將M(i)和N(j)分別作為橫坐標、縱坐標列出,i橫坐標,j為縱坐標。過橫軸的每個序號上平行于縱軸的線與過縱軸的每個序號上平行于橫軸的線交織為一個路徑網(wǎng)格,網(wǎng)格中各點可表示為X(i,j),其中i=1~m,j=1~n。
2)進行路徑搜索。確定由坐標原點開始,搜索有窮個格點X(i,j)最后到達終點的路徑。若不存在回溯路徑時,各個序號點的路徑方向可以有三種不同的決策,分別為向左直線、向上直線以及斜線向上,搜索路徑如圖2所示。如格點X(i,j)通往格點X(i+1,j+1)所經(jīng)過路徑的決策只可能是以下三種情況的一種:
(i,j)—(i+1,j+2)
(i,j)—(i+1,j+1)
(i,j)—(i+1,j)
圖2 DTW路徑搜索
不同的X(n,m)點組成的搜索路徑累積距離D(n,m)不同,最優(yōu)路徑的確定即為確定最優(yōu)路徑函數(shù)m=y(ni)且使得沿路徑的累積距離達到最小值。格點之間的搜索路徑不能過于傾斜,一般將斜率約束于[0.5,2]的范圍內(nèi)。不存在回溯路徑情況下,最優(yōu)路徑路線的格點X(ni,mi)累積距離表達式為:
D[(i,j)]=d[T(i),R(j)]+D[(i-1,j-1)]
(2)
D[(i-1,j-1)=min{D[(i-1,j)],
D[(i,j-1)],D[(i,j-2)]}
(3)
其中:D[(i,j)]為格點X(n,m)的累積距離,d[T(j),R(w(i))]為M(i)和N(j)兩幀特征矢量之間的距離,通常采用歐式距離。
從起始點(1,1)出發(fā),計算下一個格點的累積距離D[(i,j)],選擇最小累積距離格點作為下一個格點,并存儲其前續(xù)格點(i-1,j-1)和幀匹配距離d[i,j],每次只保留一條路徑,直到到達終點時即為最佳路徑。
HMM是一種用來表示隨機過程統(tǒng)計特性的概率模型,它由馬爾科夫鏈演變而來。隱馬爾科夫模型是一個雙重的隨機過程:一重用于描述短時平穩(wěn)段的瞬時特征;另一重描述了短時平穩(wěn)段轉(zhuǎn)到下一個短時平穩(wěn)段的概率,即短時統(tǒng)計特征的動態(tài)特性,它是隱含在觀察序列中的[5]。HMM的數(shù)學(xué)定義如下:
依據(jù)上述分析,對垃圾堆體四周采取柔性垂直防滲封閉,阻隔平面長度約1 499 m,然后利用封場技術(shù)對垃圾堆體頂部進行封場處理,將污染源整體三維封閉,實現(xiàn)垃圾堆體水文地質(zhì)的獨立,其三維阻隔平面如圖4所示。
1)N,表示HMM中的狀態(tài)數(shù)。狀態(tài)雖然是隱含的,但每個狀態(tài)都有對應(yīng)的實際物理含義。模型中的各個狀態(tài)記為{1,2,…,N},在t時刻所處的狀態(tài)記為qt。
2)M,表示HMM的每個狀態(tài)中的符號數(shù)。符號序列為V={v1,v2,…,vM},觀察序列為O={o1,o2,…,oT},其中ot為集合V中的一種觀察符號,T為觀察序列長度。
3)A=[aij]為狀態(tài)轉(zhuǎn)移概率矩陣,
aij=P(qt+1=j|qt=i)1≤i≤N,1≤j≤N
(4)
它滿足條件:
(5)
4)B為觀察序列O中任一觀察的分布,分為離散型和連續(xù)型兩類,對于離散型HMM,B為一概率矩陣:
B={bj(k)}={P(ot=vk|qt=j])1≤k≤M,
1≤j≤N
(6)
它滿足:
(7)
對于連續(xù)型HMM,設(shè)特征矢量序列為D維,那么B為N個D維的概率密度函數(shù)的集合:
B={bj(o),j=1,2,…,N}
(8)
它滿足:
(9)
5)初始狀態(tài)概率分π=[πi],其中:
πi=P(q1=i) 1≤i≤N
(10)
它滿足:
(11)
如何選擇HMM中狀態(tài)的輸出概率函數(shù)是十分重要的,它對系統(tǒng)的性能有很大的影響。人們通常選用高斯混合模型(Gaussian Mixture Model, GMM)來對聲學(xué)模型建模。高斯混合模型(GMM)理論上可以平滑地逼近任意形狀的概率分布[6]。GMM其本質(zhì)是一種多維概率密度函數(shù),一個由M個高斯成員組成,每個高斯為D維的模型可以用下面的式子表示,即[7]:
(12)
p[xt|μι,∑ι] =
(13)
在公式(12)中,μi為均值向量,Σi為協(xié)方差矩陣。共有M個高斯分布函數(shù)混合,每個高斯權(quán)重為wi,取和得到xt的概率分布[8]。
這樣便可以由均值向量μi,協(xié)方差矩陣Σι,混合加權(quán)系數(shù)wi三個變量來描述一個特定的GMM,可以記作:
λ={wi,μi,∑i}i=1,2,…,M
(14)
同時,對HMM中參數(shù)B的訓(xùn)練便轉(zhuǎn)化為對GMM模型中參數(shù)組λ的訓(xùn)練。根據(jù)最大似然準則,通過期望最大化算法(EM),可以求出對GMM參數(shù)的估計。在給出T個觀察特征矢量xt(t=1,2,…,T)的條件下,可以得到高斯混合模型中三個參數(shù)的迭代公式:
(15)
(16)
(17)
在實際計算中,如果∑i采用滿矩陣,則運算量非常大,因此通常將其簡化為對角矩陣,公式(17)可簡化為:
(18)
其中:第i個高斯分量的后驗概率為:
(19)
GMM有很好的特性,在理論上如果模型中混合度足夠高的話,它能夠?qū)θ我庑螤畹姆植歼M行模擬;同時每個概率密度分布函數(shù)可以表示如摩擦音、輔音、元音等基本聲學(xué)類型。但由于實際語音信號的復(fù)雜性,特征參數(shù)不一定滿足高斯分布,因此GMM不能完整無誤的對觀察向量進行建模。另外,由于協(xié)同發(fā)音的影響,HMM中前后狀態(tài)之間并不是獨立的,其對觀察向量獨立性的假設(shè)也是不合理的。所以基于混合高斯的隱馬爾科夫聲學(xué)建模方法有一定的局限性,要進一步提高系統(tǒng)識別性能,必須采用新的技術(shù),構(gòu)建新的模型結(jié)構(gòu)。
為了對人影37高炮用彈量計數(shù)開展研究,在洛陽進行了實地測試,錄制了作業(yè)時的高炮聲音。作業(yè)裝備采用人影37 mm口徑的高射炮,作業(yè)彈使用全省通用的人影增雨炮彈,進行單發(fā)作業(yè)實驗。
圖3 人影37高炮作業(yè)圖片
圖4 人影37高炮聲音波形
利用Matlab軟件對采集到的人影37高炮聲音進行初步分析,波形如圖4所示。聲音采樣頻率為44.1 K,16 bit 編碼。從圖中可以看出,在高炮作業(yè)發(fā)射前有一段瞬時的平靜期,在發(fā)射瞬間聲音波形迅速增大增強,持續(xù)大約0.6 s的時長,然后逐步衰減。針對這種突發(fā)性較強的聲音信號,可以采用較為傳統(tǒng)的DTW算法來進行識別。
在語音信號的識別過程中,首先需要對語音信號進行預(yù)處理。預(yù)處理的目的是去除語音信號中不需要的信息、噪聲及干擾,提升語音中的高頻部分同時去除非有效語音幀。主要步驟包括預(yù)濾波、數(shù)字化、預(yù)加重、分幀加窗以及語音端點檢測等[8]。
端點檢測是語音識別中非常重要的環(huán)節(jié),目的是從語音信號中分割出語音的起止端點,從語音噪聲段和靜音段中分割出語音段,也叫語音起止點檢測[9]。在本實驗中采用基于短時能量及過零率的雙門限端點檢測算法來進行端點檢測,結(jié)果如圖5所示。
圖5 雙門限端點檢測
原始語音信號中包含大量的冗余信息,無法直接進行處理,需要提取語音信號的特征參數(shù)實現(xiàn)降維。合適的特征參數(shù)能有效地表達語音信號信息,也可以通過計算機來方便地處理。語音特征參數(shù)大致可以分為時域參數(shù)、變換域參數(shù)和超音段參數(shù)三類。常用的頻域參數(shù)包括線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、MEL頻率倒譜系數(shù)(MFCC)、感覺加權(quán)的線性預(yù)測(PLP)參數(shù)等。MFCC參數(shù)是基于人耳的聽覺感知特性提出的,即人的聽覺系統(tǒng)是呈非線性的,對于不同頻率信號的靈敏度是呈對數(shù)關(guān)系的[10]。利用一組三角窗濾波器對信號的功率譜進行濾波,來模擬人耳的掩蔽效應(yīng)。它具有很好的抗噪性和魯棒性且識別性能好,在語音識別領(lǐng)域中得到廣泛的應(yīng)用,因此本文選取MFCC參數(shù)作為待識別的特征參數(shù)。MEL頻率與Hz頻率成非線性對應(yīng)關(guān)系:
(20)
圖6 MFCC參數(shù)提取流程
將采集到的高炮聲音數(shù)據(jù)分為2組,分別記為1a.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav,和1b.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav。第一組作為訓(xùn)練數(shù)據(jù)集,第二組作為測試數(shù)據(jù)集。利用Matlab R2010b搭建如圖7所示的語音識別系統(tǒng)。
圖7 構(gòu)建的語音識別結(jié)構(gòu)圖
實驗步驟如下:
1)對訓(xùn)練集內(nèi)的6個語音信號進行預(yù)處理;
2)提取MFCC語音特征參數(shù),將提取到的特征參數(shù)保存為模板庫;
3)對測試集語音信號進行預(yù)處理,提取MFCC特征參數(shù);
4)采用DTW算法將測試集特征參數(shù)與模板庫進行匹配,得到識別結(jié)果來進行計數(shù)。最終識別結(jié)果在Matlab界面中顯示如圖8所示。
圖8 識別結(jié)果圖
對比文獻[11]中提到的通過采集聲音實現(xiàn)人影高炮用彈量自動計數(shù)的方法,本文中的語音識別算法更為先進。文獻[11]中的語音識別算法僅僅用到了聲壓這一個聲音特征參數(shù),雖然這種算法計算量小,但在識別準確性及抗干擾性方面有待提高。如果將本文提到的識別算法移植到現(xiàn)有的聲級采集儀中,將是一種新的人影37高炮用彈量計數(shù)研究方案。
人工影響天氣工作在保障農(nóng)業(yè)生產(chǎn)、改善環(huán)境、減災(zāi)防災(zāi)等方面發(fā)揮著越來越重要的作用,是氣象工作的重要組成部分,也是氣象現(xiàn)代化建設(shè)的載體。一直以來對人影37高炮用彈量計數(shù)采用的是人工紀錄上報的方式,這種統(tǒng)計方式較為繁瑣和落后。特別是近年來河南省人影作業(yè)期逐年增長、用彈量逐漸增大,這對高炮用彈量信息采集準確性和時效性的要求越來越高。
隨著聲學(xué)技術(shù)的發(fā)展,語音識別算法不斷改進,識別準確度越來越高,應(yīng)用的行業(yè)也越來越多。同時,氣象行業(yè)信息化水平也不斷提高,能夠自動采集高炮作業(yè)信息的聲級采集儀研發(fā)成功,使得自動采集并傳輸作業(yè)信息成為可能。但傳統(tǒng)的聲級采集儀對高炮聲音識別時僅僅使用了聲壓這一簡單的特征參數(shù),識別精度及抗干擾性有待提高。將傳統(tǒng)的聲級采集儀結(jié)合先進的語音識別算法,能夠克服環(huán)境噪音,提高聲級采集儀的準確性,這為實現(xiàn)自動采集人影作業(yè)高炮信息提供了新的方案。