葛泉波 程惠茹 張明川 鄭瑞娟 朱軍龍 吳慶濤
在復(fù)雜水域中,無人船(Unmanned surface vehicle,USV)需要準確地了解自身的位置、姿態(tài)和運動狀態(tài),以便進行自主導(dǎo)航和避障.位姿測量是無人船實現(xiàn)自主導(dǎo)航和避障的關(guān)鍵技術(shù)之一.位姿測量可以通過多種傳感器來實現(xiàn),如GPS、慣性測量單元、視覺傳感器等.這些傳感器可以提供無人船的位置、速度、加速度、角速度等信息.在無人機-無人船協(xié)同降落場景中,無人船需要面對各種復(fù)雜的環(huán)境 (風浪流),這些環(huán)境會對無人船的運動狀態(tài)以及后續(xù)無人機相對位姿的準確估計產(chǎn)生影響,因此需要準確的位姿測量來保證無人船的安全和穩(wěn)定性.
在位姿估計或目標跟蹤狀態(tài)估計算法中,通常使用的是基于卡爾曼濾波的方法,文獻[1]中基于EKF 給出了三種典型非線性集中式融合算法,并在非線性系統(tǒng)中推廣與完善;Fu 等[2]提出了一種基于動態(tài)遞歸標稱協(xié)方差估計和改進變分貝葉斯推理的增強自適應(yīng)卡爾曼濾波;Gao 等[3]提出了一種基于馬氏距離的自適應(yīng)加權(quán)聯(lián)邦卡爾曼濾波方法,提高了導(dǎo)航濾波計算的精度;文獻[4]中提出一種復(fù)合自適應(yīng)濾波算法,解決了一類過程噪聲統(tǒng)計特性未知且系統(tǒng)狀態(tài)分量可觀測度差的狀態(tài)估計問題.在卡爾曼濾波中,存在過程噪聲和測量噪聲兩個噪聲源.如果過程噪聲和測量噪聲都服從高斯分布,那么卡爾曼濾波器能夠提供一個最優(yōu)的線性無偏估計;如果噪聲是非高斯的,那么卡爾曼濾波器可能無法準確地描述數(shù)據(jù)的真實分布,從而導(dǎo)致估計誤差的增大.因此,對這些不確定噪聲的高斯性和非高斯性進行判別是后續(xù)建模的關(guān)鍵,而隨機噪聲變量的非高斯性/高斯性判別主要依賴于隨機變量概率分布曲線的峰度與偏度系數(shù)的檢驗,因此,對峰度與偏度系數(shù)的高性能估計成為關(guān)鍵.
近些年,有許多學(xué)者對基于峰度和偏度的非高斯判別方法進行研究[5-8],Mardia[5]基于偏度和峰度建立了多維正態(tài)性檢驗統(tǒng)計量.此后,許多學(xué)者對這一類型的檢驗進行了研究,使其理論不斷豐富和發(fā)展.Srivastava[6]對偏度和峰度在多維情形下做出了不同的推廣,提出了自己的多維正態(tài)性檢驗統(tǒng)計量;文獻[6]中所提到的多維正態(tài)性檢驗方法,對于高維和大樣本情形,可以考慮T 型多維峰度作為正態(tài)性檢驗統(tǒng)計量,許多國內(nèi)學(xué)者也針對多維數(shù)據(jù)降維技術(shù)進行了研究和實驗[9-12].孫平安和王備戰(zhàn)[13]驗證了主成分分析(Principal component analysis,PCA) 存在會損失部分有用信息并且容易受到噪聲影響的缺陷;Zhou 等[14]對基于PCA 和CCA 的特征降維算法進行了有效的研究.Sharma 和Saroha[15]將PCA 方法與特征排序相結(jié)合,最終驗證將PCA 與特征排序相結(jié)合的方式可以在提升分類精度的基礎(chǔ)上實現(xiàn)降維.劉文博等[16]提出一種基于加權(quán)核主成分分析的維度約簡算法,證明隨著數(shù)據(jù)維度的增加,多核學(xué)習(xí)的優(yōu)勢更明顯.如何構(gòu)造更加多樣化的核函數(shù)以提高數(shù)據(jù)處理效率成為了研究重點.
本文在現(xiàn)有技術(shù)的基礎(chǔ)上,提出了一種基于PCA 和獨立成分分析 (Independent component analysis,ICA)模式融合的非高斯特征檢測識別方法,以期得到更優(yōu)的檢測效果.
1) 提出一種基于標準化加權(quán)平均和信息熵的數(shù)據(jù)預(yù)處理方法.首先采用標準化加權(quán)平均對數(shù)據(jù)進行規(guī)范化處理,然后通過計算信息熵和信息偏差度來消除一些數(shù)據(jù)的不確定性.
2) 提出一種基于混合加權(quán)核函數(shù)的主成分分析方法.該方法使用加權(quán)核函數(shù)對PCA 進行改進,旨在對高維數(shù)據(jù)特征進行維度約簡,降低數(shù)據(jù)的復(fù)雜度,從而實現(xiàn)簡便的數(shù)據(jù)降維,同時提出一種改進的灰狼優(yōu)化(Grey wolf optimization,GWO)算法來優(yōu)化參數(shù).
3) 提出一種基于ICA 和PCA 聯(lián)合的相關(guān)性分析方法進行數(shù)據(jù)降維.該方法使用改進的PCA 算法對數(shù)據(jù)進行降維,將降維后的數(shù)據(jù)與經(jīng)過ICA 處理的數(shù)據(jù)進行相關(guān)性分析,以確定最終的降維成分.
4) 在降維數(shù)據(jù)的基礎(chǔ)上綜合T 型多維偏度峰度檢驗方法和KS (Kolmogorov-Smirnov)檢驗方法進行檢測識別,對數(shù)據(jù)進行多元正態(tài)分布擬合并且考慮到樣本容量和樣本分布狀況.
PCA 是一種數(shù)據(jù)分析技術(shù),它可以高效地找出數(shù)據(jù)中的主要部分,將原有的數(shù)據(jù)降維并去除整個數(shù)據(jù)中的噪聲和冗余.
1) 傳統(tǒng)利用PCA 進行降維處理的方法用零均值化對數(shù)據(jù)進行特征縮放.簡單的均值相減并不能達到數(shù)據(jù)預(yù)處理的目的,因此需要考慮對數(shù)據(jù)預(yù)處理過程進行改進和完善,以保障后續(xù)的計算結(jié)果.
2) PCA 只能解決數(shù)據(jù)分布是線性的情況.實際工程系統(tǒng)中,需要考慮到非線性噪聲的處理.文獻[17]中通過使用核主成分分析把非線性的數(shù)據(jù)映射到高維空間實現(xiàn)線性模式轉(zhuǎn)化,然后用PCA來進行降維處理[18],但其計算相對復(fù)雜,需考慮提高其處理效率.
3) PCA 整個計算過程就是通過一個協(xié)方差矩陣的特征值分解來起到降維效果的.PCA 降維是選取方差最大的主成分,難免會損失一些信息[19],因此,研究過程中需要考慮的是如何有效降維并且獲得精確的降維結(jié)果.
本文主要研究基于PCA 降維的非高斯特征判別在多維數(shù)據(jù)中的應(yīng)用.PCA 在數(shù)據(jù)特征提取方面具有一定優(yōu)勢,但在多維數(shù)據(jù)降維處理過程中,仍存在以下幾個問題:
1) 零均值化處理得到的數(shù)據(jù)難以很好地全面表征原始數(shù)據(jù)的綜合特征[20].由于均值容易受到極端值的影響,所以在對數(shù)據(jù)完全無知的情況下,簡單的均值處理并不能較好地保留數(shù)據(jù)特征信息.
2) 現(xiàn)有非高斯檢測方法中,基于PCA 的協(xié)方差矩陣求解技術(shù)難以保證協(xié)方差矩陣不受非線性噪聲的影響,從而將嚴重影響最終的降維效果[21-23].在實際應(yīng)用中,采用主成分降維后進行正態(tài)檢驗可能會受到非線性噪聲影響,從而極易影響檢驗效果.
3) 非高斯數(shù)據(jù)求解得到的特征值和特征向量不一定是最優(yōu)解,難以很好地表達原始數(shù)據(jù)的基本特征[24-25].PCA 主要通過尋找數(shù)據(jù)矩陣的特征值和特征向量,然后使用坐標旋轉(zhuǎn)得到主成分,所以如果輸入數(shù)據(jù)不是高斯分布,特征值和特征向量就不能代表數(shù)據(jù)的特征,這樣PCA 也就失去了它的意義[26].
面對上述多維數(shù)據(jù)PCA 降維中存在的問題,針對性地提出以下解決方案,改進后方案的具體過程如圖1 所示.
圖1 主成分分析改進方案過程Fig.1 Principal component analysis improvement plan process
在對數(shù)據(jù)完全無知的情況下,本文通過對原始數(shù)據(jù)集采用特征加權(quán)平均值進行改進,保留了特征間差異性,使降維后保留的信息量也更具有價值,此外,為了提高數(shù)據(jù)預(yù)處理的可靠性,本文使用熵權(quán)法進行數(shù)據(jù)篩選,篩除對結(jié)果貢獻率較低的數(shù)據(jù).
2.1.1 加權(quán)平均的數(shù)據(jù)處理過程
將原始數(shù)據(jù)按列組成n行m列矩陣X(n×m),以當前值減去數(shù)據(jù)集中該特征的加權(quán)平均值Dx,Dx的計算如式 (2) 所示,其中的權(quán)重分配方式參考每個特征算出的均方差σd,加權(quán)平均處理后得到矩陣具體計算公式如下所示
式 (2) 為數(shù)據(jù)平均值和加權(quán)平均值,式(3)為得到的數(shù)據(jù)預(yù)處理結(jié)果,xi為每行各個元素,為對應(yīng)的均值,Dd為每行各個元素與均值之差,每行均值之差構(gòu)造矩陣D(n×m),ω d為每個元素對應(yīng)σd所分配的權(quán)重值并且ω d之和為1,其中ωd利用均方差計算各指標的權(quán)重,為對加權(quán)平均值進行處理后的數(shù)據(jù)矩陣,避免了數(shù)據(jù)處理結(jié)果受到極端值的影響,為后續(xù)降維提供好的數(shù)據(jù)保障.
2.1.2 熵權(quán)法數(shù)據(jù)篩選過程
采用熵權(quán)法進行數(shù)據(jù)處理的目的就是篩除掉對結(jié)果貢獻率較低的數(shù)據(jù),對加權(quán)平均值進行處理后的數(shù)據(jù)繼續(xù)進行熵權(quán)法的數(shù)據(jù)篩選,式(4)中Ej為信息熵,rij為第i個數(shù)據(jù)的評價指標且滿足 0 ≤rij≤1,式 (5) 中ωj為各個特征的權(quán)重,式(6)中Z(n×p)為數(shù)據(jù)預(yù)處理后輸出的矩陣
對數(shù)據(jù)進行預(yù)處理標準化通常考慮標準差的影響,尤其是對被噪聲污染的數(shù)據(jù)而言,噪聲的標準差對數(shù)據(jù)的放大作用更顯著,而沒被噪聲污染的數(shù)據(jù)其在標準化的過程中放大作用較小.因此,為數(shù)據(jù)集中每個特征計算出信息熵值而后利用信息熵計算得出特征權(quán)重,這樣可以篩除掉作用小的數(shù)據(jù)以得到更高的降維精度.
改進的主成分分析過程引入加權(quán)核函數(shù),通過選取核函數(shù)并構(gòu)造多樣化的核函數(shù)來提高數(shù)據(jù)處理效率,使得混合后的核函數(shù)性能更佳[16].
2.2.1 構(gòu)造混合加權(quán)核函數(shù)
本文通過組合兩種具有代表性的高斯徑向核函數(shù)和多項式核函數(shù)的映射特性,構(gòu)造一種混合核函數(shù).該混合核函數(shù)擁有高斯徑向核函數(shù)的局部特性,也擁有多項式核函數(shù)的全局特性,多項式核函數(shù)選擇二階.傳統(tǒng)的高斯徑向核函數(shù)、多項式核函數(shù)以及混合核函數(shù)表達式分別為[16]
由上述公式可以看出,涉及到的參數(shù)有高斯徑向核函數(shù)參數(shù)σ、多項式核函數(shù)系數(shù)q和混合核函數(shù)的權(quán)重系數(shù)λ.文獻[27]中通過訓(xùn)練和測試支持向量機找出效果最好的參數(shù),但求解相對比較耗時.文獻[28]中采用粒子群優(yōu)化算法進行尋優(yōu),后期易陷入局部最優(yōu).針對參數(shù)尋優(yōu)問題,本文提出一種改進的灰狼優(yōu)化算法,減少主觀經(jīng)驗選擇的盲目性并在一定程度上提高算法的全局搜索和局部開發(fā)能力.由此依據(jù)加權(quán)核函數(shù)構(gòu)建目標函數(shù)過程如下[9]
式(8)中γ用來對內(nèi)積進行縮放;K為式 (9) 的加權(quán)核函數(shù);式 (10) 中ω為超平面法向量,c為懲罰因子,ei為松弛變量;式 (11) 中yi為約束條件,?(x) 為對應(yīng)的函數(shù)映射,b為函數(shù)中截距變量;式(12) 中y(x) 為目標函數(shù),αi為拉格朗日因子.
2.2.2 基于改進灰狼算法的混合核函數(shù)參數(shù)優(yōu)化
GWO 算法是一種群智能優(yōu)化算法.該算法的優(yōu)化過程將包圍、追捕、攻擊三個階段的任務(wù)分配給各等級的灰狼群來完成捕食行為,從而實現(xiàn)全局優(yōu)化的搜索過程[29-30].改進的灰狼算法注重全局搜索與局部開發(fā)能力的協(xié)調(diào),以便于較快獲得全局最優(yōu)
式 (13) 為標準GWO 算法中參數(shù)a的計算策略,其變化過程是線性遞減的,但是在整個算法搜索過程中并非是線性變化的,因此在式 (14) 中提出一種非線性控制因子策略.式中t表示當前迭代次數(shù),tmax為最大迭代次數(shù).如圖2 所示,當 |A|>1 時,進行全局搜索,當 |A|≤1 時,進行局部搜索.由式 (15)可知,參數(shù)A隨著控制因子a的變化而變化,因此在算法搜索過程中主要通過參數(shù)a的變化來完成.根據(jù)式(14),在迭代初期a的收斂速度較小,式(15)中A的值波動較大,避免了算法的早熟收斂,從而提升了算法的全局搜索能力.迭代后期a的收斂速度較大,算法有較強的局部開發(fā)能力.因此,改進的非線性控制因子策略能較好地協(xié)調(diào)算法的全局搜索與局部開發(fā)能力.
圖3 為使用不同非線性控制因子策略的迭代結(jié)果,圖中分別為利用不同控制策略對數(shù)據(jù)集CEC-2005 中函數(shù)F11[30]進行迭代的結(jié)果,橫坐標為迭代次數(shù),縱坐標為函數(shù)值,其中 G WOX為利用式 (14)的迭代結(jié)果,由結(jié)果可以看出本文提出的控制因子策略收斂速度快,迭代時間短[27].
圖3 不同控制因子策略的迭代結(jié)果Fig.3 Iterative results of different control factor strategies
灰狼在捕食獵物過程中的位置變化如式(15)~式 (17)所示
式中,A和C是系數(shù)向量,Xp是獵物的位置向量,而X表示灰狼的位置向量,D是一個矢量并且依賴于Xp,a為控制因子且在迭代過程中從2 線性減少到0,r1,r2是[0,1] 中的隨機向量,式(14)~式(18) 為灰狼的位置變化,最后對位置求平均得到灰狼的最終位置X(t+1).灰狼位置更新的具體過程如式(18)~式 (20)所示[27]
其中,D α,D β,D δ為三個最佳解,X α,X β,X δ為本次迭代適應(yīng)度前三的灰狼的位置,A1,A2,A3以及C1,C2,C3為每次迭代時產(chǎn)生的系數(shù),X1,X2,X3為各灰狼的位置.
根據(jù)上述分析,可以得到改進GWO 的參數(shù)優(yōu)化算法原理,如算法1 所示.其中,加權(quán)核函數(shù)中參數(shù)設(shè)置: 高斯徑向核函數(shù)參數(shù)σ∈[0.01,100],多項式核函數(shù)參數(shù)q∈[0.1,4],懲罰系數(shù)c∈[0.01,1 000],混合權(quán)重系數(shù)λ∈[0,1].基于改進的GWO 進行參數(shù)優(yōu)化的流程如圖4 所示.
圖4 GWO 參數(shù)優(yōu)化流程圖Fig.4 GWO parameter optimization flowchart
算法1.改進的GWO 參數(shù)優(yōu)化算法
1) 初始化種群規(guī)模N,隨機產(chǎn)生初始化種群,初始化t=0,初始化a,A,C,σ,λ,c,q等參數(shù);
2) 計算種群中每個個體的適應(yīng)度,將適應(yīng)度排名前三的個體分別記為X α,X β,X δ;
3) 由式 (14)~式(17) 計算種群中其他個體與X α,Xβ和X δ的距離,根據(jù)式(18)~式(20)更新個體位置;
4) 更新算法中a,A,C,σ,λ,c,q等參數(shù);
5) 判定算法是否滿足收斂條件,如果滿足,則算法結(jié)束;否則,令t=t+1,返回步驟 3).
對原始數(shù)據(jù)進行獨立成分分析,n為樣本量,p為數(shù)據(jù)維度.設(shè)有m條n維數(shù)據(jù)(n行m列),則構(gòu)成n行m列矩陣X,X=HS,其中H是混合源分量的某個未知可逆方陣,S為解出的獨立成分,ICA的目標是找到混合矩陣H,以便從觀測數(shù)據(jù)中恢復(fù)原始信號H[31].
2.3.1 獨立成分分析基本原理
1) 數(shù)據(jù)預(yù)處理,按行去中心化
2) 數(shù)據(jù)白化處理,去除數(shù)據(jù)集中所有線性相關(guān)性并沿所有維度歸一化方差.
a) 求協(xié)方差矩陣
b) 奇異值分解,化簡得到最終表達式
c) 得到原數(shù)據(jù)的白化數(shù)據(jù)Xw并將式(23)代入下式
d) 假設(shè)所有的數(shù)據(jù)源相互獨立,那么也就可知
3) 利用信息論求解,找到一個旋轉(zhuǎn)矩陣V,使得多重信息那么是條件獨立的,則W=V D-1/2ET.
ICA 處理數(shù)據(jù)過程中,V是正交矩陣,為唯一未知的旋轉(zhuǎn)矩陣,D為對角矩陣,對角線上的元素為對應(yīng)的特征值,E 是對應(yīng)的特征向量形成的一個正交基,U為奇異值矩陣,其中UTU=1,p(S) 表示概率分布.
2.3.2 改進ICA-PCA 的融合方法
本文提出一種ICA 和PCA 的融合模式,對兩種降維結(jié)果進行相關(guān)性計算和分析,具體流程如圖5 所示.
圖5 ICA-PCA 融合過程圖Fig.5 ICA-PCA fusion process diagram
文獻[32]中提到使用皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來描述兩組變量的相關(guān)性,兩者相比,皮爾遜相關(guān)系數(shù)需要數(shù)據(jù)服從正態(tài)分布,反之,斯皮爾曼相關(guān)系數(shù)適用于分布不明變量的相關(guān)性分析且沒有過多數(shù)據(jù)條件要求,分別為改進后PCA 降維后得到的分量以及ICA 降維后得到的分量,因此,本文ICA-PCA 融合改進應(yīng)用斯皮爾曼相關(guān)系數(shù)來處理和分析.式 (26) 為相關(guān)系數(shù)rs的計算公式
斯皮爾曼相關(guān)系數(shù)的取值范圍為[-1,1],rs絕對值越大,相關(guān)性越強.斯皮爾曼相關(guān)系數(shù)rs>0時,認為兩組變量存在正相關(guān);斯皮爾曼相關(guān)系數(shù)rs<0 時,則認為兩組變量存在負相關(guān).依據(jù)rs相關(guān)系數(shù)的計算進行相關(guān)性檢驗,式 (27) 為具體檢驗公式,rs的分布可近似地用均值為0、標準差為的正態(tài)分布曲線表示,Z為正態(tài)檢驗值
通過計算Z可以根據(jù)正態(tài)分布密度函數(shù)求得檢驗值P,通過比較P值與0.05 之間的大小,可以判斷r s<0 的顯著性.如果P值小于0.05,可以認為存在顯著性的差異,即兩者具有相關(guān)性.當樣本數(shù)小于30 時,參照臨界值表[33]該樣本數(shù)所對應(yīng)的斯皮爾曼相關(guān)系數(shù)臨界值,當計算的斯皮爾曼相關(guān)系數(shù)大于臨界值時,認為兩者之間相關(guān)性是顯著的,是有統(tǒng)計學(xué)意義的.
本文研究無人船航行觀測數(shù)據(jù)的非高斯特征識別,因此,對降維后的數(shù)據(jù)基于偏度和峰度進行非高斯性判別.T 型多維偏度峰度檢驗是將多維數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)后進行檢驗,但該方法對數(shù)據(jù)分布有要求;而使用非參數(shù)檢驗方法不需要假設(shè)數(shù)據(jù)服從特定的分布,適用于各種類型的數(shù)據(jù),例如KS檢驗.因此,本文使用T 型多維峰度統(tǒng)計量[8]并綜合KS 方法[33]進行檢驗.
第一,對數(shù)據(jù)進行多元正態(tài)分布擬合[34]后得到均值向量和協(xié)方差矩陣;第二,使用KS 檢驗和T型多維偏度峰度檢驗來檢驗擬合后的數(shù)據(jù)是否符合正態(tài)分布;第三,使用KS 檢驗來檢驗擬合后的數(shù)據(jù),檢驗兩個樣本是否來自同一分布,其檢驗統(tǒng)計量為KS 統(tǒng)計量;第四,如果KS 檢驗和T 型多維偏度峰度檢驗都表明數(shù)據(jù)符合正態(tài)分布,則可以認為數(shù)據(jù)符合正態(tài)分布,具體計算公式如下[34]
其中,x1,x2,···,xn為n個m維數(shù)據(jù),μ是m維向量,表示隨機變量的均值向量;Σ是n×n的協(xié)方差矩陣,f(xi;μ,Σ) 表示μ和Σ下樣本xi的概率密度函數(shù),l nL為對數(shù)似然函數(shù),對對數(shù)似然函數(shù)求偏導(dǎo)數(shù),令其等于零,解出參數(shù)μ和Σ的估計值,b1,b2分別為樣本的偏度和峰度,分別為數(shù)據(jù)的三階矩和四階距.
為驗證本文所提方法對復(fù)雜情形下的USV 傳感器受到不確定噪聲的非高斯性/高斯性檢測的優(yōu)越性,進行仿真實驗的平臺配置: 硬件環(huán)境為CPU Intel(R) Core(TM)-i5-8265U 1.80 GHz,運行在Windows10 操作系統(tǒng),運行軟件為Matlab R2019b.為了保證實驗的真實性和可靠性,本次實驗在千島湖水域?qū)o人船的數(shù)據(jù)進行采集,以280 Hz 的頻率采集無人艇在行駛中的正常數(shù)據(jù)集.數(shù)據(jù)集包括無人船位置數(shù)據(jù)和姿態(tài)角數(shù)據(jù),具體如下:X方向的加速度ax;Y方向的加速度ay;Z方向的加速度az;圍繞X軸旋轉(zhuǎn)的俯仰角α;圍繞Y軸旋轉(zhuǎn)的偏航角β;圍繞Z軸旋轉(zhuǎn)的翻滾角θ.將以上6 個值作為待處理的值,從而很大程度地仿真了無人船在真實運動場景下受到噪聲的實際情況,實驗中使用無人船采集數(shù)據(jù)的環(huán)境如圖6 所示,圖6(a)為靜止狀態(tài)的無人船,圖6(b)為運動狀態(tài)的無人船.為評估所提出的改進方法在不同改進階段的性能,本文通過對比相同數(shù)據(jù)集在不同方法下的結(jié)果,共做了5組實驗,實驗一驗證數(shù)據(jù)預(yù)處理方法的必要性;實驗二驗證改進灰狼優(yōu)化算法相較于其他優(yōu)化算法的優(yōu)越性;實驗三對改進的ICA-PCA 方法進行分析并驗證ICA 和PCA 聯(lián)合的優(yōu)勢;實驗四對比驗證對改進方法降維后的結(jié)果進行非高斯性檢測的效果;實驗五驗證整個方法在實際應(yīng)用中的有效性.
圖6 實際數(shù)據(jù)采集環(huán)境Fig.6 Actual data collection environment
實驗一驗證數(shù)據(jù)預(yù)處理方法的必要性.將本文提出的方法與EW-PCA 以及PCA 方法的結(jié)果進行比較,從而驗證數(shù)據(jù)預(yù)處理對降維效果的影響.這里選取Arcene 數(shù)據(jù)集進行驗證,Arcene 共700個樣本,數(shù)據(jù)維度為10 000.K值表示降維后主成分的個數(shù),在主成分個數(shù)更少的情況下,更大程度地保證了所含有的原有信息量.在相同貢獻率時,本文提出的方法主成分個數(shù)K值能夠取到更小,代表保留數(shù)據(jù)的能力更強.表1 為應(yīng)用PCA、EWPCA 以及本文改進的PCA 方法對相同數(shù)據(jù)集降維的結(jié)果,觀察表1 可見改進后的實驗效果優(yōu)于現(xiàn)有的方法.當貢獻率同樣都為95%時,PCA 方法的K值取110,EW-PCA 方法的K值取45,本文改進的PCA 方法的K值取36.在對相同數(shù)據(jù)集處理的情況下,本文提出的改進PCA 方法保留有用信息的能力更強.
表1 降維結(jié)果對比表Table 1 Comparison table of dimensionality reduction results
實驗二驗證改進灰狼優(yōu)化算法相較于其他優(yōu)化算法的優(yōu)越性.與近幾年改進后的灰狼優(yōu)化算法NGWO1等進行對比,將單峰函數(shù)、多峰函數(shù)以及固定維數(shù)的多峰函數(shù)三類函數(shù)分別進行測試,對PSO、GWO 以及NGWO1等優(yōu)化算法結(jié)果從收斂性能、迭代次數(shù)等方面進行比較,實驗的測試集使用CEC2005.圖7 為單峰函數(shù)測試結(jié)果對比圖,橫坐標為迭代次數(shù),縱坐標為函數(shù)值,從對比結(jié)果看,改進的GWO 算法相較于 N GWO1和PSO 收斂速度更快;圖8 為多峰函數(shù)測試結(jié)果對比圖,從對比結(jié)果看,改進的GWO 算法前期收斂速度慢,后期收斂速度較快;圖9 為固定維度的多峰函數(shù)測試結(jié)果對比圖,從對比結(jié)果不難看出,改進的GWO 算法具有收斂速度快以及迭代時間短等特點.因此本文方法在求解精度、收斂速度以及時間成本方面都有良好的性能,在一定程度上減少了主觀經(jīng)驗選擇的盲目性.
圖7 單峰函數(shù)結(jié)果對比圖Fig.7 Comparison chart of unimodal function results
圖8 多峰函數(shù)結(jié)果對比圖Fig.8 Comparison chart of multimodal function results
圖9 固定維數(shù)多峰函數(shù)結(jié)果對比圖Fig.9 Comparison chart of fixed dimension multimodal function results
實驗三對改進的ICA-PCA 方法進行分析并驗證其優(yōu)勢,使用主成分個數(shù)、累計貢獻率和運行時間三個指標進行評價.通過比較本文方法和現(xiàn)有ICA-PCA 方法的結(jié)果,驗證本文方法在實時性和降維效果等方面的優(yōu)勢.通過表2、表3 和圖10,對比累計貢獻率和運行時間兩個指標,當保留48 個主成分時,累計貢獻率達到了95%,相比改進之前的方法,保留有用信息的能力更強,時間成本更低.
表2 ICA-PCA 方法對比結(jié)果Table 2 ICA-PCA method comparison results
表3 降維結(jié)果Table 3 Dimensionality reduction results
圖10 降維主成分結(jié)果Fig.10 Dimensionality reduction principal component results
實驗四將降維后的數(shù)據(jù)的非高斯性判別結(jié)果與現(xiàn)有的非高斯性檢測方法的判別結(jié)果進行比較,從結(jié)果的精確度和檢測效果等方面進行比較.對原始數(shù)據(jù)集進行非高斯性檢測,判斷數(shù)據(jù)變量是否服從高斯分布,如果H0=0 且P在5%置信水平上,則過程變量服從高斯分布;反之,則服從非高斯分布.表4 為應(yīng)用現(xiàn)有的非高斯性檢測方法 Kolmogorov-Smirnov 檢驗和 Shapiro-Wilk 檢驗進行判別的結(jié)果.其中,統(tǒng)計量D為兩條累計分布曲線之間的最大垂直差,描述兩組數(shù)據(jù)之間的差異;統(tǒng)計量W為峰度,驗證一個隨機樣本數(shù)據(jù)是否來自正態(tài)分布.當數(shù)據(jù)呈現(xiàn)出顯著性P<0.05 時,意味著數(shù)據(jù)不具有正態(tài)性.
表4 正態(tài)性檢驗結(jié)果Table 4 Normality test results
為了驗證方法在實際應(yīng)用中的有效性,對采集到的無人船航行姿態(tài)數(shù)據(jù)進行處理和檢測.其中包括無人船進行圓形運動、矩形運動的線加速度、水平坐標和偏航角等信息.圖11 為無人船圓形運動時X,Y,Z方向的速度變化,其中橫軸代表采集樣點數(shù),縱軸為速度變化;圖12 為降維后的結(jié)果;圖13為非高斯性判別的結(jié)果,其中縱坐標頻率描述數(shù)據(jù)集中每個數(shù)值出現(xiàn)相對頻率的統(tǒng)計量.表5 中顯示漸進顯著性為0,則表明樣本量的增加不會影響檢測結(jié)果的顯著性.
表5 非高斯檢測結(jié)果Table 5 Non-Gaussian detection results
圖11 三個方向的速度圖Fig.11 Chart of speed in three directions
圖12 降維結(jié)果Fig.12 Dimensionality reduction results
圖13 檢測結(jié)果1Fig.13 Test result 1
針對復(fù)雜情形下傳感器觀測數(shù)據(jù)的非高斯性/高斯性檢測判別問題,改進傳統(tǒng)PCA 方法實現(xiàn)數(shù)據(jù)的降維處理,而后采用T 型多維峰度檢驗和KS檢驗方法進行非高斯特征的識別.該方法考慮到數(shù)據(jù)預(yù)處理的重要性、噪聲數(shù)據(jù)的復(fù)雜性以及非線性非高斯的噪聲對降維精確度的影響.實驗驗證改進后的方法能有效降低多維數(shù)據(jù)檢測的復(fù)雜度,保證了最終結(jié)果的精確性和完整性.需要注意的是,本文分析時著重考慮對多維數(shù)據(jù)的降維處理,并未考慮更多基于偏度和峰度判別的方法,在下一步的研究中,將深入展開更細致化的研究,使方法在精度和完整性方面得到進一步提升.