陳麒龍 陸一軍
摘 要:針對(duì)航標(biāo)運(yùn)行狀態(tài)模式識(shí)別依賴(lài)經(jīng)驗(yàn)閾值的現(xiàn)狀,為檢驗(yàn)經(jīng)驗(yàn)閾值是否具有普適性,提出基于概率的閾值模式識(shí)別效率度量算法。實(shí)驗(yàn)結(jié)果表明:該算法能準(zhǔn)確度量閾值的模式識(shí)別效率;經(jīng)檢驗(yàn),經(jīng)驗(yàn)閾值不具備普適性。因而,提出基于概率的模式識(shí)別模型。實(shí)驗(yàn)結(jié)果表明:以概率作為閾值具有普適性,該模型能準(zhǔn)確識(shí)別頻繁模式和異常模式,且性能更好。為實(shí)現(xiàn)數(shù)值預(yù)測(cè),提出基于概率密度的加權(quán)平均算法。實(shí)驗(yàn)結(jié)果表明:該算法的預(yù)測(cè)精度較高。本文為航標(biāo)運(yùn)行狀態(tài)模式識(shí)別和數(shù)值預(yù)測(cè)提出了新的解決方案。
關(guān)鍵詞:水路運(yùn)輸;航標(biāo);概率;模式識(shí)別;數(shù)值預(yù)測(cè)
航標(biāo)遙測(cè)數(shù)據(jù)是反映航標(biāo)運(yùn)行狀態(tài)的數(shù)值信息,包括:數(shù)據(jù)采集時(shí)間(Time)、電壓(Voltage)、電流(Current)、航標(biāo)位置(Longitude、Latitude)、離位距離(Distance)。頻繁模式表示航標(biāo)的“常態(tài)”,異常模式表示航標(biāo)的“非常態(tài)”。對(duì)頻繁模式和異常模式的識(shí)別,傳統(tǒng)方法是依據(jù)經(jīng)驗(yàn)閾值進(jìn)行分類(lèi),存在主觀(guān)臆斷的問(wèn)題。對(duì)航標(biāo)運(yùn)行狀態(tài)的數(shù)值預(yù)測(cè),目前仍處于研究階段。如何檢驗(yàn)經(jīng)驗(yàn)閾值是否具有普適性,如何實(shí)現(xiàn)航標(biāo)運(yùn)行狀態(tài)的數(shù)值預(yù)測(cè),是亟待解決的問(wèn)題。
對(duì)數(shù)據(jù)的頻繁模式和異常模式的模式識(shí)別,已有不少算法和模型,如:基于相關(guān)性度量算法、基于頻繁子樹(shù)算法、基于最大熵隱馬爾科夫模型,以及基于統(tǒng)計(jì)特征的支持向量機(jī) [1-4]。移動(dòng)對(duì)象位置預(yù)測(cè)的模型有:馬爾科夫模型、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型[5-7]。核密度估計(jì)(kernel density estimation,KDE)是一種估計(jì)數(shù)據(jù)的概率密度函數(shù)(probability density function,PDF)的算法,利用概率密度函數(shù)可以計(jì)算出給定數(shù)值區(qū)間的概率。概率可以用來(lái)度量經(jīng)驗(yàn)閾值的模式識(shí)別效率,以此來(lái)檢驗(yàn)經(jīng)驗(yàn)閾值是否有效,判定經(jīng)驗(yàn)閾值是否具有普適性。概率反映隨機(jī)事件發(fā)生的可能性,是客觀(guān)的,以概率作為閾值進(jìn)行分類(lèi),就是將“大概率”的數(shù)據(jù)作為“常態(tài)”,將“小概率”的數(shù)據(jù)作為“非常態(tài)”,從而使閾值成為一種客觀(guān)的指標(biāo),而具有普適性。概率密度與概率是正相關(guān)的,將概率密度轉(zhuǎn)化為權(quán)重,以加權(quán)平均數(shù)作為預(yù)測(cè)值,既消減了極端值的影響,又使預(yù)測(cè)值趨于“大概率”。相對(duì)于相關(guān)性度量算法、頻繁子樹(shù)算法、馬爾科夫模型、支持向量機(jī)、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型等,核密度估計(jì)和概率的計(jì)算過(guò)程更為簡(jiǎn)單,算法和模型易于解釋?zhuān)倚阅芰己?,適合航標(biāo)運(yùn)行狀態(tài)模式識(shí)別和數(shù)值預(yù)測(cè)。
1 經(jīng)驗(yàn)閾值檢驗(yàn)
1.1核密度估計(jì)原理
1.2 實(shí)例分析
已知經(jīng)驗(yàn)閾值:電壓10.8 V,電流0.09 A,離位距離150 m。以洋山港主航道的Y4#燈浮標(biāo)連續(xù)60天凌晨3時(shí)的航標(biāo)遙測(cè)數(shù)據(jù)為例(如表1),檢驗(yàn)經(jīng)驗(yàn)閾值是否有效,是否具有普適性。
電壓的概率密度分布如圖1所示。對(duì)電壓經(jīng)驗(yàn)閾值構(gòu)造區(qū)間為(0,10.8],計(jì)算出電壓小于或等于10.8 V的概率為0,表明在凌晨3時(shí),以“10.8 V”作為電壓閾值無(wú)法有效識(shí)別異常模式,應(yīng)當(dāng)增大閾值。當(dāng)閾值為“13.2 V”時(shí),區(qū)間(0,13.2]的概率為0.0651,表明在該時(shí)段,以“13.2 V”作為閾值識(shí)別異常模式的效率為6.51%,識(shí)別頻繁模式的效率為93.49%。
電流的概率密度分布如圖2所示。對(duì)電流經(jīng)驗(yàn)閾值構(gòu)造區(qū)間為[0,0.09],計(jì)算出電流小于或等于0.09 A的概率為0.0506,表明在凌晨3時(shí),以“0.09 A”作為電流閾值,識(shí)別異常模式的效率為5.06%,識(shí)別頻繁模式的效率為94.94%,電流經(jīng)驗(yàn)閾值有效。
離位距離的概率密度分布如圖3所示。對(duì)離位距離經(jīng)驗(yàn)閾值構(gòu)造區(qū)間為[150,+∞),計(jì)算出離位距離大于或等于150 m的概率為0,表明在凌晨3時(shí),以“150 m”作為離位距離閾值,無(wú)法有效識(shí)別異常模式,應(yīng)當(dāng)減小閾值。當(dāng)閾值為“75 m”時(shí),區(qū)間[75,+∞)的概率為0.0436, 表明在該時(shí)段,以“75 m”作為閾值識(shí)別異常模式的效率為4.36%,識(shí)別頻繁模式的效率為95.64%。
以上實(shí)驗(yàn)表明:
(1)概率可以準(zhǔn)確度量閾值的模式識(shí)別效率,可以用來(lái)檢驗(yàn)經(jīng)驗(yàn)閾值是否有效;
(2)經(jīng)驗(yàn)閾值不具有普適性;
(3)利用概率可以找到合適的閾值。
2 模式識(shí)別
2.1 基于概率的模式識(shí)別原理
基于概率的模式識(shí)別的思路是:以理論概率作為閾值,將概率小于理論概率的樣本單元作為異常模式,而概率大于理論概率的樣本單元作為頻繁模式。模式識(shí)別流程是:第一步,對(duì)樣本容量為n的樣本估計(jì)概率密度函數(shù);第二步,以新觀(guān)測(cè)值為中心構(gòu)造區(qū)間;第三步,積分計(jì)算區(qū)間的概率;第四步,計(jì)算理論概率作為閾值,將區(qū)間的概率與閾值進(jìn)行比較和分類(lèi)。
區(qū)間長(zhǎng)度應(yīng)當(dāng)根據(jù)樣本數(shù)據(jù)精度來(lái)設(shè)置,假設(shè)新觀(guān)測(cè)值為xi,樣本數(shù)據(jù)的精度為b,那么區(qū)間為:[xi-(b/2) , xi+(b/2)]。閾值a的計(jì)算公式為:a=b/R,R表示樣本數(shù)據(jù)的極差,即:R=max(x)- min(x)。閾值的本質(zhì)是:將樣本的值域等間隔劃分為m個(gè)區(qū)間,區(qū)間長(zhǎng)度為b,樣本單元落入某一區(qū)間的理論概率,即:m=R/b,a=1/m=b/R。
2.2實(shí)例分析
以洋山港主航道Y4#燈浮標(biāo)“12/31 3:08”的航標(biāo)遙測(cè)數(shù)據(jù)為例(電壓13.228 V,電流0.098 A,離位距離43.6 m)。
電壓的數(shù)據(jù)精度為0.001,樣本數(shù)據(jù)的極差為0.08。因此,閾值為0.0125。新觀(guān)測(cè)值13.228的區(qū)間為[13.2275,13.2285],區(qū)間的概率為0.0171,大于閾值,為頻繁模式。
電流的數(shù)據(jù)精度為0.001,樣本數(shù)據(jù)的極差為0.08。因此,閾值為0.0125。新觀(guān)測(cè)值0.098的區(qū)間為[0.0975, 0.0985],區(qū)間的概率為0.0860,大于閾值,為頻繁模式。
離位距離的數(shù)據(jù)精度為0.1,樣本數(shù)據(jù)的極差為63.2。因此,閾值為0.0016。新觀(guān)測(cè)值43.6的區(qū)間為[43.55, 43.65],區(qū)間的概率為0.0013,小于閾值,為異常模式。
以上實(shí)驗(yàn)可以得出結(jié)論:
(1)以概率作為閾值,使閾值成為一種客觀(guān)的指標(biāo),具備普適性;
(2)基于概率的模式識(shí)別模型能夠有效識(shí)別頻繁模式和異常模式。
2.3 與傳統(tǒng)方法比較
傳統(tǒng)方法的優(yōu)點(diǎn)是:直接進(jìn)行數(shù)值對(duì)比,計(jì)算量小。缺點(diǎn)是:①閾值不具備普適性,如果閾值設(shè)置不合理就無(wú)法識(shí)別異常模式;②閾值設(shè)置過(guò)程繁瑣,為保證閾值有效,需要先度量閾值的模式識(shí)別效率,找出合適的閾值;③當(dāng)燈器設(shè)備的規(guī)格型號(hào)改變時(shí),就必須重新設(shè)置電壓和電流的閾值;④閾值的模式識(shí)別效率需要定期評(píng)估,需要定期調(diào)整閾值。
新模型的優(yōu)點(diǎn)是:①以概率作為閾值,具有普適性;②閾值設(shè)置簡(jiǎn)單、靈活可控,可以使用理論概率,也可以使用其他概率;③燈器的型號(hào)規(guī)格改變時(shí),無(wú)需重新設(shè)置電壓和電流的閾值;④模型易于解釋?zhuān)撝稻褪悄J阶R(shí)別的效率,對(duì)于給定的觀(guān)測(cè)值,閾值越小,分類(lèi)結(jié)果越偏向頻繁模式,閾值越大,分類(lèi)結(jié)果越偏向異常模式。缺點(diǎn)是:需要計(jì)算概率密度函數(shù)和概率,比傳統(tǒng)方法的計(jì)算量大。
綜上所述,新模型的性能比傳統(tǒng)方法更好,但是計(jì)算量更大。 在航標(biāo)管理上,總是希望發(fā)現(xiàn)航標(biāo)潛在的異常,而且現(xiàn)在的服務(wù)器性能完全能夠滿(mǎn)足新模型的計(jì)算需求。因此,推薦使用新模型。
3 數(shù)值預(yù)測(cè)
3.1基于概率密度的加權(quán)平均算法
3.2 實(shí)例分析
已知“12月31日凌晨3時(shí)”的實(shí)測(cè)數(shù)據(jù):電壓13.228 V、電流0.098 A、航標(biāo)位置(122.28244440 °, 30.54266667 °)。以表1的數(shù)據(jù)為樣本,計(jì)算“12月31日凌晨3時(shí)”的預(yù)測(cè)值及誤差,過(guò)程數(shù)據(jù)如表2所示。
電壓的概率密度是雙峰分布(如圖1),預(yù)測(cè)值為13.2282,誤差為0.0002;電流的概率密度是單峰分布(如圖2),因此權(quán)重為1,預(yù)測(cè)值為0.0983,誤差為0.0003;航標(biāo)位置的概率密度是多峰分布(如圖4),分別對(duì)經(jīng)度和緯度計(jì)算加權(quán)平均數(shù),預(yù)測(cè)值為(122.28278039 °,30.54292107 °),以歐氏距離表示的誤差為0.00042。
3.3 數(shù)值預(yù)測(cè)精度評(píng)估
以洋山港主航道Y4#燈浮標(biāo)12月1日至12月7日各時(shí)段的數(shù)值預(yù)測(cè)為例。實(shí)驗(yàn)組:新算法,對(duì)照組:中位數(shù)。度量指標(biāo):均方誤差,? ? ? ? ? ? ? ? ? ? ? ? ? ? ,xi是預(yù)測(cè)值,yi是實(shí)測(cè)值。如表3所示,各時(shí)段的實(shí)驗(yàn)組MSE都比較小,表明新算法的預(yù)測(cè)精度較高;從各時(shí)段的MSE看,大多數(shù)時(shí)段的實(shí)驗(yàn)組比對(duì)照組小,且MSE之和,實(shí)驗(yàn)組也比對(duì)照組小,表明新算法的預(yù)測(cè)精度優(yōu)于中位數(shù)。
3.4統(tǒng)計(jì)性質(zhì)分析
樣本數(shù)據(jù)的特性對(duì)預(yù)測(cè)精度的影響體現(xiàn)在:樣本數(shù)據(jù)的方差越小,則MSE越小;反之,樣本數(shù)據(jù)的方差越大,則MSE越大。將概率密度峰值轉(zhuǎn)化為權(quán)重,以加權(quán)平均數(shù)作為預(yù)測(cè)值,消減了極端值的影響,使預(yù)測(cè)值趨于“大概率”。概率密度峰值反映的是“常態(tài)”情況下的數(shù)值水平,未來(lái)偶然出現(xiàn)的“非常態(tài)”的實(shí)測(cè)值,將導(dǎo)致短期內(nèi)的MSE變大,但是對(duì)長(zhǎng)期的MSE影響不大。
4 結(jié)論
針對(duì)航標(biāo)運(yùn)行狀態(tài)模式識(shí)別依賴(lài)經(jīng)驗(yàn)閾值的現(xiàn)狀,為檢驗(yàn)經(jīng)驗(yàn)閾值的普適性,提出基于概率的閾值模式識(shí)別效率度量算法,并用于檢驗(yàn)經(jīng)驗(yàn)閾值。經(jīng)檢驗(yàn),經(jīng)驗(yàn)閾值不具備普適性。因而,提出基于概率的模式識(shí)別模型,該模型能夠有效識(shí)別頻繁模式和異常模式,而且比傳統(tǒng)方法的性能更好。為實(shí)現(xiàn)數(shù)值預(yù)測(cè),提出基于概率密度的加權(quán)平均算法,該算法的數(shù)值預(yù)測(cè)精度較高。本文為航標(biāo)運(yùn)行狀態(tài)模式識(shí)別和數(shù)值預(yù)測(cè)提供了新的解決方案。下一步,將研究航標(biāo)漂移、燈器設(shè)備故障導(dǎo)致的“持續(xù)非常態(tài)”情況下的航標(biāo)運(yùn)行狀態(tài)數(shù)值預(yù)測(cè),擬從短期觀(guān)測(cè)數(shù)據(jù)著手,分析數(shù)值變化趨勢(shì),比較和分析線(xiàn)性回歸模型、非線(xiàn)性回歸模型、時(shí)間序列模型的擬合效果和預(yù)測(cè)精度,尋找合適的模型。
參考文獻(xiàn):
[1] 任永功, 高鵬, 張志鵬. 一種利用相關(guān)性度量的不確定數(shù)據(jù)頻繁模式挖掘[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2019, 40(03):623-627.
[2] 吉小洪, 徐愛(ài)萍. 基于TrieMerging機(jī)制數(shù)據(jù)流滑動(dòng)窗口模型的頻繁模式挖掘[J/OL]. 計(jì)算機(jī)應(yīng)用研究:1-7[2020-02-20]. https://doi.org/10.19734/j.issn.1001-3695.2019.01.0006.
[3] 胡江, 趙冬梅, 張旭, 等. 基于最大熵隱馬爾科夫模型的電網(wǎng)故障診斷方法[J]. 電網(wǎng)技術(shù), 2019, 43(09):3368-3375.
[4] 劉玉敏, 劉莉. 基于統(tǒng)計(jì)特征的動(dòng)態(tài)過(guò)程質(zhì)量異常模式識(shí)別[J]. 統(tǒng)計(jì)與決策, 2017(19):32-36.
[5] 宋路杰, 孟凡榮, 袁冠. 基于Markov模型與軌跡相似度的移動(dòng)對(duì)象位置預(yù)測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(01):39-43+65.
[6] 喬少杰, 金琨, 韓楠, 等. 一種基于高斯混合模型的軌跡預(yù)測(cè)算法[J]. 軟件學(xué)報(bào), 2015, 26(05):1048-1063.
[7] 肖延輝, 王欣, 馮文剛, 等. 基于長(zhǎng)短記憶型卷積神經(jīng)網(wǎng)絡(luò)的犯罪地理位置預(yù)測(cè)方法[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2018, 2(10):15-20.
[8] 關(guān)紹云, 鄭麗坤, 金一寧, 等. 基于高斯核函數(shù)的局部離群點(diǎn)檢測(cè)算法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 35(02):185-190+203.
[9] Andrew Harvey, Vitaliy Oryshchenko. Kernel density estimation for time series data[J]. International Journal of Forecasting, 2012, 28(01):3-14.
[10] Moses Charikar, Paris Siminelakis. Hashing-Based-Estimators for Kernel Density in High Dimensions[C]// 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS). IEEE, 2017.
[11] 馬夢(mèng)知, 范厚明, 黃莒森, 等. 基于非參數(shù)核密度估計(jì)的集裝箱碼頭交通需求預(yù)測(cè)模型[J]. 大連海事大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 45(01):77-84.
[12] 程媛, 遲榮華, 黃少濱, 等. 基于非參數(shù)密度估計(jì)的不確定軌跡預(yù)測(cè)方法[J]. 自動(dòng)化學(xué)報(bào), 2019, 45(04):153-164.