孫政杰 丁勇 李登華
摘 要:大壩監(jiān)測數(shù)據(jù)受環(huán)境等因素影響,往往存在異常數(shù)據(jù),異常數(shù)據(jù)的檢測對于大壩的正常運(yùn)行起著不可或缺的作用,但是傳統(tǒng)異常檢測算法對于大壩監(jiān)測數(shù)據(jù)往往達(dá)不到精度要求。提出了一種基于Prophet-GMM 的異常檢測算法,利用Prophet 算法較好的擬合性能對大壩數(shù)據(jù)進(jìn)行擬合,由擬合數(shù)據(jù)與實(shí)測數(shù)據(jù)求殘差序列,再利用GMM 算法對殘差序列進(jìn)行聚類,從而準(zhǔn)確識別出異常值。結(jié)果表明:Prophet-GMM 法對于不同類型的大壩監(jiān)測數(shù)據(jù)都能準(zhǔn)確識別出異常值,與傳統(tǒng)檢測算法相比,在查準(zhǔn)率、查全率及準(zhǔn)確率3 個(gè)檢測指標(biāo)上,均有較為明顯的提升。
關(guān)鍵詞:Prophet;GMM;大壩監(jiān)測數(shù)據(jù);異常檢測
中圖分類號:TV698.2 文獻(xiàn)標(biāo)志碼:A doi:10.3969/ j.issn.1000-1379.2024.03.024
引用格式:孫政杰,丁勇,李登華.基于Prophet-GMM 的大壩監(jiān)測數(shù)據(jù)異常檢測算法[J].人民黃河,2024,46(3):132-135,142.
0 引言
大壩監(jiān)測數(shù)據(jù)對判定大壩狀態(tài),預(yù)測大壩安全情況起著重要作用。準(zhǔn)確的大壩監(jiān)測數(shù)據(jù)有利于提升大壩安全報(bào)警精確度,及時(shí)預(yù)警并解決問題。近年來,隨著大壩自動化監(jiān)測水平不斷提升,大壩內(nèi)測點(diǎn)的不斷增加導(dǎo)致監(jiān)測數(shù)據(jù)量大幅上升。鑒于自動化儀器本身存在各種誤差,且易受其他因素影響,大壩監(jiān)測數(shù)據(jù)往往存在異常值,因此識別異常值變得尤為重要。目前,針對大壩監(jiān)測數(shù)據(jù)準(zhǔn)確性的提升,普遍采用基于聚類[1-2] 和基于模型[3-4] 的異常檢測方法,然而上述方法無法有效規(guī)避數(shù)據(jù)異常值的影響,異常值檢測效率較低。
鑒于大壩監(jiān)測數(shù)據(jù)本身為時(shí)間序列數(shù)據(jù),由Face?book 開源的Prophet 算法是一種自適應(yīng)擬合數(shù)據(jù)的算法[5-6] ,該算法對于時(shí)序數(shù)據(jù)有良好的適應(yīng)性,對缺失值容忍度較高,擬合速度較快,具有良好的擬合性能[7-8] 。本文在利用Prophet 算法擬合大壩監(jiān)測數(shù)據(jù)后,引入數(shù)學(xué)模型求得殘差序列,再結(jié)合高斯混合模型聚類(GMM)算法[9-10] 對殘差序列進(jìn)行聚類,通過聚類準(zhǔn)確判斷出大壩監(jiān)測數(shù)據(jù)的異常值,對比僅使用將Prophet 算法預(yù)測值上下限[11] 作為異常數(shù)據(jù)識別區(qū)間的方法以及各傳統(tǒng)算法,試驗(yàn)表明異常檢測精度得到有效提升。
2 案例
2.1 大壩監(jiān)測數(shù)據(jù)來源
本文采用某面板堆石壩近10 a 的監(jiān)測數(shù)據(jù)進(jìn)行案例分析,其中包含大壩自動化監(jiān)測系統(tǒng)投入使用后的數(shù)據(jù)。該大壩自動化監(jiān)測系統(tǒng)監(jiān)測頻率為1 次/ d,涵蓋各類測點(diǎn)共計(jì)大約800 個(gè),包括大壩測縫計(jì)、大壩鋼筋應(yīng)力計(jì)、大壩滲壓計(jì)等近20 類不同監(jiān)測儀器。
本試驗(yàn)將大壩監(jiān)測數(shù)據(jù)分為3 類,其中試驗(yàn)?zāi)M序列采用標(biāo)準(zhǔn)正弦波諧波因子的方式模擬以年為周期的大壩周期溫度項(xiàng),其過程線如圖2 所示;周期性序列為對于大壩混凝土面板鋼筋應(yīng)力計(jì)及測縫計(jì)等具有較為顯著的單調(diào)性和年周期性的序列;非周期性序列為對于土壓力計(jì)及大壩滲壓計(jì)等沒有較為明顯的單調(diào)性和年周期性的序列。分別從上述儀器的測點(diǎn)中選取數(shù)據(jù)質(zhì)量較好的10 條序列,通過人工檢查,序列均無明顯較大異常和測量誤差,其過程線見圖3、圖4。
2.2 異常數(shù)據(jù)的添加
為測試算法檢測效果及穩(wěn)定性,采取在每條序列隨機(jī)添加人工誤差的方式,以達(dá)到標(biāo)記異常點(diǎn)位置的目的,并計(jì)算查準(zhǔn)率、查全率及準(zhǔn)確率。誤差的添加方式為:
1)在某個(gè)數(shù)據(jù)點(diǎn)位置獨(dú)立添加誤差;
2)在某幾個(gè)連續(xù)數(shù)據(jù)點(diǎn)位置添加連續(xù)誤差;
3)對數(shù)據(jù)點(diǎn)進(jìn)行獨(dú)立和連續(xù)兩種方式的混合添加。
添加誤差值大小分為:1 倍標(biāo)準(zhǔn)差的小數(shù)值誤差;1~2 倍標(biāo)準(zhǔn)差的中數(shù)值誤差;2~3 倍標(biāo)準(zhǔn)差的大數(shù)值誤差;1~6 倍標(biāo)準(zhǔn)差的混合數(shù)值誤差。誤差值添加數(shù)量分為:2%左右的少量誤差添加;5%左右的中等數(shù)量添加;10%左右的大量添加。
對上述異常數(shù)據(jù)添加方式進(jìn)行多組試驗(yàn)可以很好地反映大壩數(shù)據(jù)存在的異常情況以及實(shí)際情況中的各種突發(fā)狀況,本文將在各類傳感器中?。常?組數(shù)據(jù)進(jìn)行誤差添加以及算法檢測試驗(yàn)。
利用Prophet 算法構(gòu)建該大壩數(shù)據(jù)監(jiān)控模型,由擬合后的數(shù)據(jù)與實(shí)際數(shù)據(jù)求得殘差序列,利用GMM算法對殘差序列進(jìn)行聚類,例如大壩滲壓計(jì)的聚類結(jié)果如圖5 所示。
式中:P、R、A 分別為查準(zhǔn)率、查全率、準(zhǔn)確率,TP 為檢測為正的樣本實(shí)際也為正樣本數(shù)量,FP 為檢測為正的樣本實(shí)際為負(fù)樣本數(shù)量,FN 為檢測為負(fù)的樣本實(shí)際為正樣本數(shù)量,TN 為檢測為負(fù)的樣本實(shí)際也為負(fù)樣本數(shù)量[15] 。
由于Prophet 算法本身可得到預(yù)測值上限及下限,并且可以將此區(qū)間外的數(shù)據(jù)點(diǎn)識別為異常點(diǎn),因此本文也將其作為對比方法。
查準(zhǔn)率也稱精確率,由表1 中Prophet-GMM 算法與其他方法的查準(zhǔn)率可知,由于模擬序列本身是較為理想的序列,因此該算法可以得到很好的效果;對于周期序列而言,查準(zhǔn)率均值大都在0.85 以上,且標(biāo)準(zhǔn)差較小,表明Prophet-GMM 算法對于不同的序列均有較好的適應(yīng)性,對比絕對中位差法和四分位控制法均有較大提升。
查全率也稱召回率,傳統(tǒng)的絕對中位差法和四分位控制法對于實(shí)測序列而言檢測效果較差。針對非周期和周期兩類實(shí)測序列,本文所提出的檢測算法相較于Prophet 算法而言,精確性更高(見表2)。
準(zhǔn)確率主要表示檢測分類正確的樣本占總樣本的比例,是綜合判斷檢測算法整體檢測性能的指標(biāo)。由表3 中3 類序列的準(zhǔn)確率均值及標(biāo)準(zhǔn)差,可以看出Prophet- GMM 算法的檢測準(zhǔn)確率及穩(wěn)定性優(yōu)于Prophet 算法,對于不同周期的實(shí)測序列均能有效地檢測異常。
由上述試驗(yàn)結(jié)果可知,本文算法相較于傳統(tǒng)異常檢測算法及使用預(yù)測最大值上限和最小值下限為檢測區(qū)間的Prophet 算法,在查準(zhǔn)率、查全率、準(zhǔn)確率3 個(gè)指標(biāo)上均有不同幅度提升。
3 結(jié)論
大壩監(jiān)測數(shù)據(jù)受天氣、氣候等因素影響往往具有周期性和非線性的特征,加之受儀器本身誤差的影響,往往會產(chǎn)生突變的極端誤差,對后續(xù)大壩數(shù)據(jù)分析工作造成影響,本文提出基于Prophet-GMM 混合算法識別大壩監(jiān)測數(shù)據(jù)中的異常值,通過多種異常值添加方式添加異常進(jìn)行標(biāo)記來測試算法效果,并進(jìn)行對比試驗(yàn),有以下結(jié)論:
1)Prophet 算法將本身具有的預(yù)測值上限和下限作為異常數(shù)據(jù)識別區(qū)間的異常檢測方法,其穩(wěn)定性受異常數(shù)據(jù)的較大影響,無法達(dá)到滿意的異常識別精度。
2)對于Prophet 模型擬合的數(shù)據(jù)求得的殘差序列進(jìn)行二次處理,使用高斯混合聚類(GMM)算法對殘差數(shù)據(jù)進(jìn)行進(jìn)一步聚類,將偏離的異常值進(jìn)行有效的聚類,求得正常值所在的位置,進(jìn)一步提高了異常檢測識別的精度,同時(shí)相較于其他傳統(tǒng)異常檢測方法有較為明顯的提升。
參考文獻(xiàn):
[1] 陸春光,葉方彬,趙羚,等.基于密度峰值聚類的電力大數(shù)據(jù)異常值檢測算法[J].科學(xué)技術(shù)與工程,2020,20(2):654-658.
[2] 肖勇,鄭楷洪,余忠忠,等.基于三次指數(shù)平滑模型與DB?SCAN 聚類的電量數(shù)據(jù)異常檢測[J].電網(wǎng)技術(shù),2020,44(3):1099-1104.
[3] 楊志東,丁建武,陳廣久,等.基于LightGBM 和LSTM 模型的電力大數(shù)據(jù)異常用電檢測方法研究[J/ OL].電測與儀表,[2022 - 08 - 01]. http:// kns. cnki. net/ kcms/ detail/23.1202.TH.20220713.1958.004.html.
[4] 陳利軍,王暢.基于DBSCAN 的地震電離層擾動異常數(shù)據(jù)檢測方法[J].地震工程學(xué)報(bào),2020,42(2):410-415.
[5] WAN X L,ZOU Y L,WANG J,et al.Prediction of Shale OilProduction Based on Prophet ALGORITHM[J]. Journal ofPhysics:Conference Series,2021,2009(1):1-7.
[6] SAKIUR M T A R,TAKAHIRO H,OZGUR K,et al.A Min?imalistic Approach for Evapotranspiration Estimation Usingthe Prophet Model[J].Hydrological Sciences Journal,2020,65(12):1397-1417.
[7] 李衡,朱理,鄭潔,等.基于Prophet 算法的配電網(wǎng)線路峰值負(fù)荷預(yù)測[J].浙江電力,2022,41(3):20-26.
[8] 周子琪,周世健,陶蕊.基于EWT-Prophet 方法的地表沉降預(yù)測[J].大地測量與地球動力學(xué),2022,42(3):247-252.
[9] 王榮榮.基于遷移學(xué)習(xí)的高斯混合模型聚類算法研究[D].濟(jì)南:濟(jì)南大學(xué),2021:45-50.
[10] 黃詠寧.基于混合高斯模型的面板數(shù)據(jù)聚類研究[D].廣州:華南理工大學(xué),2016:20-24.
[11] 高赫.基于機(jī)器學(xué)習(xí)的連續(xù)式風(fēng)洞馬赫數(shù)控制[D].南京:南京航空航天大學(xué),2020:42-48.
[12] 劉銘基,田雅楠,張亮,等.基于Prophet-ARIMA 模型的民航周轉(zhuǎn)量預(yù)測研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(2):148-153,160.
[13] 吳文培,宋亞林,魏上斐.基于改進(jìn)Prophet 模型的用電量預(yù)測研究[J].計(jì)算機(jī)仿真,2021,38(11):473-478.
[14] 王一妹,劉輝,宋鵬,等.基于高斯混合模型聚類的風(fēng)電場短期功率預(yù)測方法[J].電力系統(tǒng)自動化,2021,45(7):37-43.
[15] 況華,何鑫,何覓,等.基于雙向長短期記憶神經(jīng)網(wǎng)絡(luò)的配網(wǎng)電壓異常數(shù)據(jù)檢測[J].科學(xué)技術(shù)與工程,2021,21(24):10291-10297.
【責(zé)任編輯 簡 群】