胡耀金, 卞鴻巍, 王榮穎, 馬 恒
(海軍工程大學(xué)電氣工程學(xué)院, 湖北 武漢 430033)
傳統(tǒng)上認(rèn)為船用羅經(jīng)誤差的概率密度分布基本符合正態(tài)分布,常常在正態(tài)分布的條件下分析羅經(jīng)的誤差性能特點(diǎn),目前國軍標(biāo)中對船用羅經(jīng)的性能測試就是以正態(tài)分布為前提的[1]。但通過多種數(shù)據(jù)統(tǒng)計(jì)分析方法對大量實(shí)際羅經(jīng)誤差數(shù)據(jù)概率密度特性進(jìn)行分析,發(fā)現(xiàn)實(shí)際的光纖羅經(jīng)誤差的概率密度并不完全符合單峰的正態(tài)分布情況,而大多數(shù)呈現(xiàn)多峰特點(diǎn),所以以往基于正態(tài)分布來分析羅經(jīng)誤差特性并不適用,影響對這一導(dǎo)航設(shè)備的性能評估、誤差建模、特性分析以及設(shè)計(jì)補(bǔ)償?shù)裙ぷ?需要研究采用新的誤差分布模型。
1894年生物學(xué)家卡爾·皮爾遜首先提出有限混合模型。由于有限混合模型的靈活性,其作為一種方便的、半?yún)?shù)的方法,廣泛應(yīng)用于信號處理[2-5]、電力系統(tǒng)[6-8]、導(dǎo)航制導(dǎo)控制[9-11]、機(jī)器視覺[12]、圖像分割[13-14]等領(lǐng)域的復(fù)雜分布建模中。有限混合模型中最為常用的是高斯混合模型(Gaussian mixture model, GMM)[15-16]。通過使用足夠多的高斯分布,并且調(diào)節(jié)其均值和方差以及線性組合系數(shù),GMM能夠以任意的精度近似逼近各種連續(xù)的概率密度分布[17]。
卡爾·皮爾遜最早使用矩方法(method of moments, MOM)來擬合具有不同均值和不同方差的兩個正態(tài)分布的混合;自從期望最大化(expectation maximization,EM)算法出現(xiàn)以來,極大似然估計(jì)(maximum likelihood estimation, MLE)一直是擬合混合分布最常用的方法[15]。由于EM算法是一種數(shù)值迭代算法,EM解很大程度上依賴于其起始位置,有效的初始化是算法收斂到似然函數(shù)的最優(yōu)局部極大值的重要前提[18-19]。EM初始化策略可以分為確定性策略和隨機(jī)性策略[18]:確定性策略通常采用層次聚類或K均值聚類算法對數(shù)據(jù)集合進(jìn)行聚類分析,將分析結(jié)果作為EM的初始值[20];隨機(jī)性策略嘗試使用不同的參數(shù)初始值,然后選擇產(chǎn)生最大局部值的參數(shù)作為EM的初始值[21]。大部分初始化策略很難分出優(yōu)劣,通常選擇幾種不同的策略,再從中選擇似然值最高的一個。
對于GMM聚類數(shù)量的估計(jì)[22-23]可以分為兩類:① 在似然函數(shù)的基礎(chǔ)上添加對聚類的懲戒函數(shù)來反映其復(fù)雜度,構(gòu)造新的EM目標(biāo)優(yōu)化函數(shù),通過最大化EM目標(biāo)函數(shù)得到最優(yōu)的聚類數(shù)量,構(gòu)造合適的懲戒函數(shù)是關(guān)鍵;② 基于信息論中最小化熵準(zhǔn)則,例如赤池信息準(zhǔn)則[24-25](Akaike information criterion,AIC)、貝葉斯信息準(zhǔn)則[26-27](Bayes information criterion,BIC)等,這類方法以特定的準(zhǔn)則測試模型來選擇最優(yōu)的聚類數(shù)量,缺點(diǎn)在于對組件數(shù)量變化不敏感,只有當(dāng)組件數(shù)量變化超過10個,才能表明模型有明顯的改進(jìn)。
Yang等[28]提出了一種GMM的Robust-EM算法,該算法構(gòu)建一種基于混合分布的新目標(biāo)函數(shù),然后創(chuàng)建新的EM算法更新方程。能夠自動找到最佳聚類數(shù)量,通過將所有數(shù)據(jù)集合作為初始值來解決EM初始化問題。但沒有考慮到數(shù)據(jù)集合具有重復(fù)數(shù)據(jù)情況,容易陷入到較差的局部最大值中。本文將基于該算法改進(jìn)后對光纖羅經(jīng)誤差進(jìn)行概率分布建模,從而對光纖羅經(jīng)誤差進(jìn)一步分析。
GMM滿足如下形式的概率分布模型:
(1)
式中,αk是第k個高斯分布的混合系數(shù),滿足:
(2)
f(x;θk)是第k個高斯分布密度,θk包含均值向量μk和協(xié)方差矩陣Σk。假設(shè)觀測數(shù)據(jù)x1,x2,…,xn由式(1)給出的GMM生成,對應(yīng)的α和θ是需要估計(jì)的參數(shù),通過最大化由式(3)給出對數(shù)似然函數(shù)來估計(jì)α和θ:
(3)
EM算法關(guān)鍵在于引入隱變量,將原問題分解。對于GMM引入隱變量zki,表示觀測數(shù)據(jù)xi來自第k個分模型的數(shù)據(jù)是未知的,其定義如下:
zki=1:第i個觀測來自第k個分模型;
zki=0:其他。
有了觀測數(shù)據(jù)xi及未觀測數(shù)據(jù)zki,完整數(shù)據(jù)是(xi,z1i,z2i,…,zki),對應(yīng)完整的對數(shù)似然函數(shù)為
(4)
EM算法將原問題分解為兩大步:期望步和最大化步。
期望步:用條件期望E(zki|xi;α,θ)來代替zki。根據(jù)貝葉斯理論得
(5)
(6)
最大化步:將式(5)的結(jié)果代入式(4)中得到式(6),最大化步是求式(6)對參數(shù)αk、μk和Σk的極大值。分別在式(2)的條件下求式(6)對αk、μk和Σk求偏導(dǎo)并令其為0,即可得到αk、μk和Σk的更新值:
(7)
(8)
(9)
不斷重復(fù)期望步、最大化步直到收斂為止,即對數(shù)似然函數(shù)值不再有明顯的變化。
本節(jié)介紹了Yang提出的一種GMM的Robust-EM算法[28],在不確定聚類數(shù)量的情況下,能夠有效地緩解對初始值的依賴,提高GMM對光纖羅經(jīng)誤差的概率分布擬合精度。
J(α,θ)=
(10)
式中,β≥0為懲戒系數(shù)。
將式(10)在式(2)的條件下對αk求極值,得到αk的更新:
(11)
c(new)=c(old)-c(ill)
(12)
式中,c(ill)為不合理的聚類數(shù)量之和。
(13)
(14)
(15)
-e-1≤αklnαk<0
(16)
(17)
將式(16)和式(17)代入式(11)中得
(18)
從而有
(19)
綜合式(15)得到β更新式為
β=
(20)
在每次迭代過程,當(dāng)聚類數(shù)量c達(dá)到穩(wěn)定時,令β=0使得式(10)等于式(4),回歸到傳統(tǒng)的EM算法的迭代更新中。
在Robust-EM算法的初始化中,使用數(shù)據(jù)集合長度作為聚類數(shù)量初始c(initial)=n,對應(yīng)的混合系數(shù)αk=1/c(initial);使用整個數(shù)據(jù)作為GMM均值初始值μk=xk。每個數(shù)據(jù)點(diǎn)與聚類中心的距離用向量的2-范數(shù)表示并對距離升序排序,其結(jié)果為
(21)
式中,sort{A}為對集合{A}進(jìn)行升序排序。
(22)
式中,Id為d×d的單位矩陣。
在迭代更新Σk的過程中,由于c過大,αk過小,存在Σk奇異的問題,為避免這種問題,用約束協(xié)方差矩陣更新Σk,約束協(xié)方差矩陣表示為
(23)
(24)
但Yang提出的Robust-EM算法存在問題:在實(shí)際的概率分布建模過程中,樣本數(shù)據(jù)中存在很多相同的數(shù)據(jù)點(diǎn),迭代更新時會生成多個參數(shù)相同的高斯分模型成分。Yang未將相同的高斯分模型成分進(jìn)行合并,導(dǎo)致優(yōu)化的目標(biāo)函數(shù)陷入到較差的局部最大值,最終的擬合精度會大幅度下降。
因此,在Yang提出的Robust-EM算法基礎(chǔ)上進(jìn)行改進(jìn),即在每次的迭代更新后對相同的高斯分模型成分進(jìn)行合并:統(tǒng)計(jì)每個模型參數(shù),得到互不相同的參數(shù)和重復(fù)的頻次,保持均值、協(xié)方差矩陣不變,混合系數(shù)和隱變量乘以重復(fù)的頻次,再將改動后的參數(shù)代入下一次迭代過程。Robust-EM算法的偽代碼如下。
算法 1Robust-EM算法
2 輸出:GMM參數(shù)θbest
5 While 1 do
9 If(t≥60)&&(c(t-60)-c(t)=0)
10 令β=0
11 End
15 對相同的高斯分模型成分進(jìn)行合并
17 Break;結(jié)束迭代更新
18 End
19t=t+1
End
設(shè)計(jì)一個三分量的一維GMM進(jìn)行仿真分析,對比傳統(tǒng)EM算法與Robust-EM算法的擬合效果。表1給出了該GMM真實(shí)參數(shù)與兩者算法建立的模型參數(shù)。圖1給出了對應(yīng)的概率密度直方圖。
表1 GMM仿真分析參數(shù)
圖1 樣本數(shù)據(jù)概率密度直方圖Fig.1 Probability density histogram of sample data
為了定量分析Robust-EM算法與傳統(tǒng)EM算法的優(yōu)劣,使用Kullback-Leibler divergence(簡稱為KL)[29]散度來比較兩個算法建立統(tǒng)計(jì)模型之間的差異,真實(shí)分布p(x)和近似分布q(x)之間的KL散度表達(dá)式為
KL的值越小說明近似分布q(x)越接近于真實(shí)分布p(x),當(dāng)KL=0時,q(x)=p(x)。
圖2給出Robust-EM算法與傳統(tǒng)EM算法的擬合效果,Robust-EM算法的KL=0.012 751,傳統(tǒng)EM算法的KL=0.248 43。
圖2 Robust-EM算法與傳統(tǒng)EM算法擬合效果Fig.2 Fitting effect of the Robust-EM algorithm and the traditional EM algorithm
從圖2給出的結(jié)果和對應(yīng)的KL散度可以得到Robust-EM算法明顯優(yōu)于傳統(tǒng)EM算法。
選取近年4套較為典型的新型光纖羅經(jīng)作為試驗(yàn)設(shè)備,以實(shí)際的航向試驗(yàn)數(shù)據(jù)來驗(yàn)證GMM與Robust-EM算法在光纖羅經(jīng)的誤差建模上適用性。4套設(shè)備集中放置在試驗(yàn)船舶中。所有光纖羅經(jīng)設(shè)備以計(jì)程儀輔助工作方式同時啟動并連續(xù)工作20天,東西跨越14個經(jīng)度,南北跨越7個緯度,數(shù)據(jù)采樣頻率為1 Hz;以高精度的GPS/SINS組合系統(tǒng)的航向值作為方位參考基準(zhǔn),所有采樣數(shù)據(jù)進(jìn)行了等比例降密處理。航行試驗(yàn)過程中機(jī)況、海況都很復(fù)雜,包括長距離航渡、直線、S形、O形航行狀況,并遇到8級臺風(fēng)海況。
使用均方根誤差(root mean square error, RMSE)作為指標(biāo)來分析GMM對實(shí)際數(shù)據(jù)的擬合效果[30],RMSE越接近于0表明擬合效果越好,計(jì)算公式為
表2給出了各個GMM擬合的RMSE值。建模效果如圖3所示,對應(yīng)的GMM參數(shù)由表3~表6給出。
表2 設(shè)備GMM的RMSE
圖3 GMM擬合效果圖Fig.3 Fitting effect graph of GMM
表3 設(shè)備1的GMM參數(shù)
表4 設(shè)備2的GMM參數(shù)
表5 設(shè)備3的GMM參數(shù)
表6 設(shè)備4的GMM參數(shù)
綜上分析,可以得出:
(1) 光纖羅經(jīng)實(shí)際誤差數(shù)據(jù)存在多峰現(xiàn)象是一種較為普遍的現(xiàn)象,且各設(shè)備多峰情況也不同,反映出光纖陀螺誤差的復(fù)雜性和多樣性。
(2) 本文采取的基于GMM的光纖羅經(jīng)誤差建模方法可以較好地解決多峰誤差分布問題,并可以給出明確的模型參數(shù)。
(3) 基于RMSE的誤差建模效果評估結(jié)果表明,全部設(shè)備樣本誤差建模結(jié)果均優(yōu)于10%,最理想的樣本結(jié)果優(yōu)于5%,說明這一方法對于光纖羅經(jīng)誤差建模具有理想的擬合效果。
本文針對船用光纖羅經(jīng)誤差的概率分布不完全符合高斯分布的情況,通過對比傳統(tǒng)EM算法和改進(jìn)后的Robust-EM算法在GMM中參數(shù)估計(jì)的效果,驗(yàn)證了后者參數(shù)估計(jì)性能更為優(yōu)異;將GMM與Robust-EM結(jié)合,對實(shí)際光纖羅經(jīng)的航向誤差數(shù)據(jù)進(jìn)行概率建模分析表明,相比于只使用單峰的高斯分布,這一方法可以更加有效和準(zhǔn)確反映其設(shè)備多峰誤差的統(tǒng)計(jì)特性。這一方法對于其他導(dǎo)航設(shè)備的概率建模分析也有較好的推廣意義,所建立的模型也可以應(yīng)用于導(dǎo)航設(shè)備后續(xù)的性能評估、改進(jìn)和誤差補(bǔ)償:對于羅經(jīng)設(shè)計(jì)人員可以從誤差模型找出設(shè)備的技術(shù)問題進(jìn)行調(diào)整;對于測試人員可以根據(jù)誤差模型完善試驗(yàn)方案,幫助論證更加準(zhǔn)確的技術(shù)指標(biāo);對于組合導(dǎo)航設(shè)計(jì)人員,明確的概率誤差模型可以應(yīng)用到濾波信息融合。設(shè)備誤差的概率分布與工況、海況密切相關(guān),后續(xù)需要將航行軌跡分割為具有相同狀況的子軌跡,分別對子軌跡進(jìn)行建模分析,細(xì)致地分析設(shè)備誤差特性。