亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)隨機(jī)森林的大壩監(jiān)測數(shù)據(jù)質(zhì)量評價算法

        2024-05-20 00:00:00潘宇李登華丁勇
        人民長江 2024年2期
        關(guān)鍵詞:評價質(zhì)量

        摘要:針對大壩安全監(jiān)測數(shù)據(jù)質(zhì)量評價效率低下、智慧化不足等難題,為了滿足大壩高頻率自動化采集的實時數(shù)據(jù)質(zhì)量評價需要,從準(zhǔn)確性、完整性、時效性和連續(xù)性4個方面出發(fā)提出了6項評價因子及由相關(guān)評價規(guī)范構(gòu)成的安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn),通過基于AUC值改進(jìn)的隨機(jī)森林算法建立了大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法,并將該算法應(yīng)用于新疆柳樹溝面板堆石壩多年安全監(jiān)測歷史數(shù)據(jù)評價。結(jié)果表明:通過AUC值改進(jìn)的隨機(jī)森林算法優(yōu)于原始算法,在特征屬性數(shù)量取3時效果最好,測試集的泛化誤差最小僅為0.019 5,平均準(zhǔn)確率穩(wěn)定在96.97%附近,10折交叉驗證平均準(zhǔn)確率達(dá)到97.77%,證明了該算法的可行性。

        關(guān) 鍵 詞:大壩安全監(jiān)測; 數(shù)據(jù)質(zhì)量評價; 隨機(jī)森林算法; 評價因子

        中圖法分類號: TV698.2 文獻(xiàn)標(biāo)志碼: A DOI:10.16232/j.cnki.1001-4179.2024.02.030

        0 引 言

        大壩是水利水電工程的核心,需要保證其長期安全穩(wěn)定運行,為掌握大壩安全運行性態(tài),在大壩上一般會布置數(shù)量不等的安全監(jiān)測儀器[1]。為了確定這些監(jiān)測儀器工作狀態(tài)是否正常,需要定期開展儀器鑒定工作,而儀器的歷史數(shù)據(jù)質(zhì)量評價則是其中的重要組成部分[2]。

        隨著“智慧水利”的逐漸推廣,大壩監(jiān)測數(shù)據(jù)也由傳統(tǒng)的低頻率人工采集轉(zhuǎn)向高頻率自動化采集。傳統(tǒng)的大壩安全監(jiān)測歷史數(shù)據(jù)評價方法以分析測值過程線圖為主,并結(jié)合建筑物實際運行情況進(jìn)行分析評價,但其評價效率低下、受人為影響大等特點與當(dāng)今智能化數(shù)據(jù)處理趨勢相違背。為了及時對大壩自動化采集數(shù)據(jù)進(jìn)行質(zhì)量評價,便于后續(xù)大壩安全監(jiān)測預(yù)警,需要對評價方法進(jìn)行改進(jìn)與創(chuàng)新。隨著近年國內(nèi)外對集成方法和其他新型學(xué)科研究的不斷深入,一些學(xué)者在數(shù)據(jù)質(zhì)量評價方面提出了新的方法。如何金平等[3]使用模糊綜合評價方法,將大壩歷史數(shù)據(jù)質(zhì)量這一定性指標(biāo)轉(zhuǎn)化為隸屬度進(jìn)行計算,通過隸屬度所在區(qū)間進(jìn)行等級賦予。Wang等[4]通過逆向云生成器,將大壩監(jiān)測數(shù)據(jù)轉(zhuǎn)化為云數(shù)字特征值,并給出對應(yīng)的定性評價結(jié)果。Lucas等[5]討論了大壩與橋梁監(jiān)測數(shù)據(jù)質(zhì)量的評估和定義,提出了包括觀察誤差、連貫性、相關(guān)性在內(nèi)的10個維度,豐富了監(jiān)測數(shù)據(jù)的質(zhì)量信息。Curt等[6]使用失效模式和影響分析(FMEA)確定監(jiān)測數(shù)據(jù)對應(yīng)的特點標(biāo)準(zhǔn),隨后使用風(fēng)險評估模型(ELECTRE TRI)構(gòu)建量化數(shù)據(jù)質(zhì)量,并通過數(shù)據(jù)質(zhì)量網(wǎng)格展示結(jié)果。Corinne等[7]介紹了應(yīng)用于大壩評估的CI方法和Irstea方法,兩種方法通過專家定義的數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)來得到相關(guān)評分量表,最后通過多標(biāo)準(zhǔn)聚合方法給出匯總結(jié)果。劉文君等[8]在層次分析法的基礎(chǔ)上,融合了基于異常特征的集成方法,形成了對數(shù)據(jù)質(zhì)量的聯(lián)合判別。郭昊等[9]選取完整性、時效性、連續(xù)性這3個指標(biāo),并通過綜合質(zhì)量評分算法將其結(jié)合起來,給出了數(shù)據(jù)質(zhì)量評分。Subramanian等[10]基于決策樹和多維模型,設(shè)計了一個大數(shù)據(jù)質(zhì)量評估框架。此類研究均針對不同領(lǐng)域的數(shù)據(jù)質(zhì)量進(jìn)行了評價,但應(yīng)用于大壩安全監(jiān)測歷史數(shù)據(jù)評價時還存在一些問題,如使用綜合評分法時評分結(jié)果接近導(dǎo)致難以區(qū)分,使用層次分析法時指標(biāo)權(quán)重難以確定等難題。

        本文以大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量為評價對象,選取數(shù)據(jù)異常率、連續(xù)異常數(shù)據(jù)占比率、歷史數(shù)據(jù)缺失率、連續(xù)缺失數(shù)據(jù)占比率、采集時間異常率、采集時間標(biāo)準(zhǔn)差這6項作為歷史數(shù)據(jù)的評價因子,采用基于AUC值改進(jìn)的隨機(jī)森林算法來建立評價因子到數(shù)據(jù)質(zhì)量等級的對應(yīng)關(guān)系,提出了一種基于改進(jìn)隨機(jī)森林算法的大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法,并通過試驗驗證該算法的實際可行性。

        1 大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方法

        1.1 評價指標(biāo)

        隨機(jī)森林算法可以非常高效地對目標(biāo)進(jìn)行分類,但其算法實現(xiàn)的前提是存在足夠多的數(shù)據(jù)和特征。對于大壩安全監(jiān)測儀器來說,采集到的歷史數(shù)據(jù)往往只有采集時間與監(jiān)測項目數(shù)值,無法直接采用隨機(jī)森林算法進(jìn)行訓(xùn)練和分類,需要對其進(jìn)一步挖掘以得到可以用于隨機(jī)森林算法訓(xùn)練的有效特征。根據(jù)國內(nèi)外學(xué)者對數(shù)據(jù)質(zhì)量評價問題的研究成果,可以從準(zhǔn)確性、完整性、時效性和連續(xù)性等不同方面進(jìn)行質(zhì)量評價[11]。故本文從以上4個方面提出了6項評價因子用于構(gòu)造隨機(jī)森林分類數(shù)據(jù)。

        1.1.1 準(zhǔn)確性指標(biāo)

        準(zhǔn)確性作為數(shù)據(jù)可靠性的衡量指標(biāo),它反映了歷史數(shù)據(jù)與真實值之間的偏差程度,通過計算準(zhǔn)確性的大小可以得到系統(tǒng)誤差和隨機(jī)誤差對數(shù)據(jù)質(zhì)量的影響[12]。這里采用數(shù)據(jù)異常率來反映準(zhǔn)確程度,計算方法可定義為F1=nerrorn×100%(1)式中:nerror為出現(xiàn)錯誤的數(shù)據(jù)個數(shù);n為數(shù)據(jù)樣本內(nèi)的數(shù)據(jù)個數(shù)。其中,nerror主要采用多方法進(jìn)行綜合判定與計算,包括普遍使用的統(tǒng)計學(xué)方法諸如3σ準(zhǔn)則、四分位數(shù),用于剝離周期性與趨勢性的小波分解、模態(tài)分解,使用鄰近的高相關(guān)性儀器數(shù)據(jù)和環(huán)境監(jiān)測量如水位、溫度等進(jìn)行協(xié)同判斷。

        1.1.2 完整性指標(biāo)

        完整性反映了歷史數(shù)據(jù)實際數(shù)量與計劃采集數(shù)量的偏差程度,可以通過計算完整性大小來評價監(jiān)測工作的完成程度[13]。這里采用歷史數(shù)據(jù)缺失率F2來反映數(shù)據(jù)完整程度,計算公式為

        中:na為數(shù)據(jù)集內(nèi)實際數(shù)據(jù)個數(shù);ntrue為該時間段內(nèi)數(shù)據(jù)集應(yīng)有的數(shù)據(jù)個數(shù)。鑒于本文研究的自動化采集數(shù)據(jù)通常使用定時采集,在計算數(shù)據(jù)缺失率前需要根據(jù)對應(yīng)儀器監(jiān)測頻率對數(shù)據(jù)樣本進(jìn)行擴(kuò)展,得到ntrue。

        1.1.3 時效性指標(biāo)

        數(shù)據(jù)時效性評價指標(biāo)可以劃分為基于時間段的正確性、基于時間點的及時性以及時序性[13],在此基礎(chǔ)上使用采集時間異常率來反映基于時間點的及時程度,使用采集時間標(biāo)準(zhǔn)差來反映數(shù)據(jù)采集時間的波動程度。鑒于本文針對大壩自動化采集,其監(jiān)測數(shù)據(jù)采集頻率應(yīng)當(dāng)符合設(shè)備設(shè)定頻次,即其數(shù)據(jù)采集周期已知。采集時間異常率F3的計算公式如下:F3=1-ntn×100%(3)式中:nt為符合數(shù)據(jù)更新時間的數(shù)據(jù)個數(shù)。

        采集時間標(biāo)準(zhǔn)差F4的計算公式為F4=ni=1ti-tm2n×t0(4)式中:ti為第i個數(shù)據(jù)的采集時間;tm為數(shù)據(jù)樣本內(nèi)的采集時間數(shù);n為數(shù)據(jù)樣本內(nèi)的數(shù)據(jù)個數(shù);t0為根據(jù)監(jiān)測頻率得到的時間間隔。

        1.1.4 連續(xù)性指標(biāo)

        儀器、通訊故障、人為誤差以及剔除異常數(shù)據(jù)是造成數(shù)據(jù)缺失[14]的主要原因。為了提高后續(xù)大壩安全監(jiān)測預(yù)警結(jié)果的可靠性,需要對缺失數(shù)據(jù)進(jìn)行填補(bǔ),根據(jù)宋洋[14]對重力壩變形監(jiān)測數(shù)據(jù)的填補(bǔ)研究,發(fā)現(xiàn)連續(xù)性缺失對比不連續(xù)性缺失更加難以填補(bǔ),且填補(bǔ)精度也很低。在此基礎(chǔ)上,本文使用連續(xù)異常數(shù)據(jù)占比率與連續(xù)缺失數(shù)據(jù)占比率來反映異常值和缺失值的連續(xù)程度,以此反映數(shù)據(jù)的修補(bǔ)難易程度。連續(xù)異常數(shù)據(jù)占比率F5的計算公式如下:F5=nEanerror×100%(5)式中:nEa為出現(xiàn)錯誤的數(shù)據(jù)中相鄰的數(shù)據(jù)個數(shù)。

        同理,連續(xù)缺失數(shù)據(jù)占比率F6的計算公式為

        式中:nMa為出現(xiàn)缺失的數(shù)據(jù)中相鄰的數(shù)據(jù)個數(shù)。

        1.2 評價標(biāo)準(zhǔn)

        本文參照DL/T 5259-2010《土石壩安全監(jiān)測技術(shù)規(guī)范》和DL/T 5256-2010《土石壩安全監(jiān)測資料整編規(guī)程》等規(guī)范,將大壩歷史監(jiān)測資料分析分為初步分析和系統(tǒng)分析兩部分。初步分析是在對資料進(jìn)行整理后,采用繪制過程線、分布圖、相關(guān)圖及測值比較等方法對其進(jìn)行分析與檢查。系統(tǒng)分析是在初步分析的基礎(chǔ)上,采用各種算法、模型進(jìn)行定性、定量以及綜合性的分析,并對工作狀態(tài)作出評價[15]。

        大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量的評價參照DL/T 1254-2013《差動電阻式監(jiān)測儀器鑒定技術(shù)規(guī)程》和DL/T 1271-2013《鋼弦式監(jiān)測儀器鑒定技術(shù)規(guī)程》等規(guī)范,將歷史數(shù)據(jù)質(zhì)量劃分為3個等級:A級合格,歷史數(shù)據(jù)變化合理,過程線具有明顯規(guī)律且沒有由于儀器本身造成的系統(tǒng)誤差;B級基本合格,歷史數(shù)據(jù)過程線具有規(guī)律、變化合理,能夠?qū)Τ霈F(xiàn)的系統(tǒng)誤差進(jìn)行修正;C級不合格,歷史數(shù)據(jù)變化混亂無規(guī)律,無法修正頻繁出現(xiàn)的系統(tǒng)誤差,無法對歷史數(shù)據(jù)進(jìn)行分析和使用[2,16]。

        2 基于改進(jìn)隨機(jī)森林模型的大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法 隨機(jī)森林算法是由Breiman[17]和Adele[18]等提出的一種機(jī)器學(xué)習(xí)算法,其基本原理是對原始數(shù)據(jù)集采用bootstrap重采樣的方法獲得不同的樣本集,針對每個樣本集隨機(jī)選擇節(jié)點屬性,并從中選擇最優(yōu)的節(jié)點屬性進(jìn)行分裂以形成基決策樹,在多個無關(guān)聯(lián)的基決策樹中采用多數(shù)結(jié)果法、投票法等綜合分析得到最終結(jié)果[19]。隨機(jī)森林算法具有計算速度快、抗噪聲能力強(qiáng)、分類準(zhǔn)確度高等特點,有鑒于此,本文采用隨機(jī)森林法來建立大壩安全監(jiān)測歷史數(shù)據(jù)評價算法。

        為更好地適配評價算法,提升分類能力,本文對基決策樹組合和多數(shù)投票法這兩部分進(jìn)行了改進(jìn)。在基決策樹組合步驟,通過AUC值來選擇區(qū)分能力較好的基決策樹,將其組合為相對原始隨機(jī)森林模型更加優(yōu)秀的模型。AUC值來自于ROC曲線,該曲線又被稱為接受者操作特征曲線,同樣是用于評估分類器性能好壞的指標(biāo)之一,其曲線下的面積即為AUC值。AUC值的取值范圍為[0,1],越接近1代表分類器性能越好。對隨機(jī)森林模型中的所有決策樹進(jìn)行AUC值計算并按照大小排序后,通過四分位法選擇前75%的決策樹進(jìn)行隨機(jī)森林模型的集成。

        在多數(shù)投票法步驟,為了提升優(yōu)秀基決策樹分類結(jié)果的權(quán)重,保證最終結(jié)果更加合理準(zhǔn)確,本文選擇使用AUC值加權(quán)投票法來代替多數(shù)投票法,即將每棵基決策樹在投票時所代表的票數(shù)1變?yōu)樽陨淼腁UC值,隨后將票數(shù)最多的分類結(jié)果作為最終結(jié)果。即使在基決策樹集成步驟已經(jīng)劃定了75%的范圍,其中依舊會包括一些低分類能力的決策樹,通過AUC值進(jìn)行加權(quán)后可以有效改善這種情況。改進(jìn)后的隨機(jī)森林算法流程如圖1所示。

        基于改進(jìn)隨機(jī)森林的大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法,其核心在于建立安全監(jiān)測數(shù)據(jù)評價因子集到大壩歷史數(shù)據(jù)質(zhì)量等級的對應(yīng)關(guān)系,進(jìn)而通過建立的對應(yīng)關(guān)系對待測數(shù)據(jù)生成評價分類結(jié)果?;诟倪M(jìn)隨機(jī)森林的大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法其具體流程如圖2所示。

        算法基本步驟如下:

        (1) 依據(jù)1.1節(jié)中6項評價因子的計算公式對安全監(jiān)測數(shù)據(jù)集進(jìn)行預(yù)處理,得到安全監(jiān)測數(shù)據(jù)評價因子集,并將其與安全監(jiān)測數(shù)據(jù)集的歷史數(shù)據(jù)質(zhì)量等級一一對應(yīng)。

        (2) 根據(jù)設(shè)定的隨機(jī)森林決策樹棵數(shù)T,對安全監(jiān)測數(shù)據(jù)評價因子集及其對應(yīng)歷史數(shù)據(jù)質(zhì)量等級進(jìn)行bootstrap重采樣,得到T個訓(xùn)練數(shù)據(jù)集。

        (3) 針對T個訓(xùn)練數(shù)據(jù)集,根據(jù)設(shè)定的隨機(jī)森林特征屬性數(shù)量m對特征屬性進(jìn)行m次隨機(jī)選擇,在此基礎(chǔ)上進(jìn)行分裂得到T顆不同的基決策樹。

        (4) 依據(jù)T棵基決策樹對應(yīng)的AUC值進(jìn)行集成,將其組合得到隨機(jī)森林模型,以此建立安全監(jiān)測數(shù)據(jù)評價因子集到大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量等級的對應(yīng)關(guān)系。

        (5) 輸入需要進(jìn)行質(zhì)量評價的監(jiān)測數(shù)據(jù),計算對應(yīng)的評價因子,使用隨機(jī)森林模型對評價因子進(jìn)行分類評價,并通過AUC加權(quán)投票法輸出最終評價等級。

        3 實例驗證

        為了驗證基于隨機(jī)森林的大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價算法的實用性,采用新疆柳樹溝面板堆石壩2015年12月8日至2020年12月8日的安全監(jiān)測歷史數(shù)據(jù)作為樣本數(shù)據(jù)展開分析。該壩壩頂高程1 499.00 m,最大壩高100 m,壩頂長186.38 m,壩頂寬10 m。樣本數(shù)據(jù)共434個,來源于24支面板固定式測斜儀、16支面板脫空儀、132支單向側(cè)縫計、41支滲壓計、97支鋼筋計等儀器,數(shù)據(jù)類型主要為變形監(jiān)測數(shù)據(jù)、滲壓監(jiān)測數(shù)據(jù)和應(yīng)力監(jiān)測數(shù)據(jù),典型測點測值變化過程線如圖3所示。表1給出了經(jīng)過數(shù)據(jù)預(yù)處理后的部分評價因子集樣例。分析過程中,將數(shù)據(jù)以7∶3比例隨機(jī)劃分為訓(xùn)練集與試驗集。

        為了確保與算法預(yù)測結(jié)果進(jìn)行對比的歷史數(shù)據(jù)質(zhì)量評價是合理有效的,本文以O(shè)H-13測點為例進(jìn)行詳細(xì)評價,其測值過程線如圖4所示。

        依據(jù)長江勘測規(guī)設(shè)計研究有限責(zé)任公司對大壩的綜合分析報告和實際情況,OH-13測點部分歷史測值超出量程且存在大量明顯粗差與缺失;自動化數(shù)據(jù)采集系統(tǒng)觀測頻次為1次/d,滿足規(guī)范要求;對該測點進(jìn)行人工檢測發(fā)現(xiàn)其滲壓計測值不穩(wěn)定,短時間連續(xù)測量差值超出規(guī)范,自動化測值與人工差值較大,接近300 m,結(jié)果不合理;數(shù)據(jù)損壞嚴(yán)重,難以修補(bǔ)。綜合上述評價情況,最終將OH-13測點數(shù)據(jù)評價為不合格。

        3.1 特征屬性數(shù)量的最優(yōu)選取

        特征屬性數(shù)量是隨機(jī)森林模型的重要參數(shù),為了得到最優(yōu)的特征屬性數(shù)量參數(shù),使用訓(xùn)練集進(jìn)行了安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價試驗。在測試試驗中,使用10折交叉驗證誤差率作為隨機(jī)森林模型的性能評價標(biāo)準(zhǔn),測試結(jié)果如圖5所示。

        從圖5結(jié)果可以看出,不論是試驗誤差率的穩(wěn)定程度還是最小值,當(dāng)特征屬性數(shù)量為3時都呈現(xiàn)出比較好的結(jié)果。因此后續(xù)試驗的特征屬性數(shù)量固定為3。

        3.2 算法改進(jìn)效果

        為了對比改進(jìn)前后的隨機(jī)森林算法性能,使用部分試驗樣本數(shù)據(jù)進(jìn)行了模型構(gòu)建和準(zhǔn)確率測試,測試結(jié)果如圖6所示。

        如圖6所示,改進(jìn)后的隨機(jī)森林算法在測試集上的準(zhǔn)確率曲線基本位于改進(jìn)前的算法曲線之上,同時改進(jìn)后的算法波動程度更小,穩(wěn)定性更強(qiáng)。

        3.3 評價算法驗證

        為了對比不同參數(shù)設(shè)置下的隨機(jī)森林模型對安全監(jiān)測歷史數(shù)據(jù)質(zhì)量的評價精度,采用包外數(shù)據(jù)(OOB)估計和測試集分類準(zhǔn)確度作為評價隨機(jī)森林算法性能的指標(biāo)。包外數(shù)據(jù)是bootstrap重采樣時沒有被采集到的數(shù)據(jù),其模型測試結(jié)果被稱為包外估計,可以將其作為泛化誤差的無偏估計,用于檢驗?zāi)P偷姆夯芰Γ?0]。

        首先,在試驗算法中輸入訓(xùn)練集,共303個數(shù)據(jù)樣本,并通過bootstrap重抽樣方法,依據(jù)試驗設(shè)定的基決策樹棵數(shù)和特征屬性數(shù)量來生成對應(yīng)數(shù)量的訓(xùn)練樣本集,在此基礎(chǔ)上進(jìn)行分裂,形成基決策樹,最終組合形成基決策樹集合,以多數(shù)投票法原則計算包外數(shù)據(jù)的最終分類結(jié)果,并分析包外數(shù)據(jù)的分類情況和誤差估計大小。隨著模型內(nèi)決策樹棵數(shù)變化,誤差率變化如圖7所示。

        然后,采用已經(jīng)完成訓(xùn)練的隨機(jī)森林模型對含有131個數(shù)據(jù)樣本的測試集進(jìn)行計算,將輸出的樣本數(shù)據(jù)質(zhì)量等級與樣本真實等級進(jìn)行對比,計算測試集的分類結(jié)果準(zhǔn)確率。隨著模型內(nèi)決策樹棵樹變化,準(zhǔn)確率變化如圖8所示。

        依據(jù)圖7~8可知,在決策樹數(shù)量為18以前,包外數(shù)據(jù)的泛化誤差和測試數(shù)據(jù)分類準(zhǔn)確性波動程度較大,但在決策樹棵數(shù)增大到一定數(shù)值后,兩者都呈現(xiàn)出穩(wěn)定趨勢,包外數(shù)據(jù)的泛化誤差穩(wěn)定在0.022 7,測試數(shù)據(jù)的分類準(zhǔn)確率穩(wěn)定在96.97%,體現(xiàn)出了隨機(jī)森林模型在安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方面具有較高的穩(wěn)定性。在隨機(jī)森林模型的有效性方面,包外數(shù)據(jù)的泛化誤差最小值為0.019 5,測試數(shù)據(jù)的平均分類準(zhǔn)確率為96.86%,體現(xiàn)出了隨機(jī)森林模型在安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方面具有較高的有效性和精度。此外,由于經(jīng)過了數(shù)據(jù)預(yù)處理,試驗采用的數(shù)據(jù)集(見表1)為離散型數(shù)據(jù),使得隨機(jī)森林模型在安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方面具有較高的魯棒性,能夠有效抵抗噪音的干擾。

        最后,為了進(jìn)一步驗證隨機(jī)森林模型在安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方面的穩(wěn)定性和泛化能力,使用全部共434個數(shù)據(jù)樣本進(jìn)行10折交叉驗證試驗。試驗結(jié)果如圖9所示。

        由圖9可知,在穩(wěn)定性方面,10折交叉驗證準(zhǔn)確率的波動區(qū)間為97.08%~98.38%,波動標(biāo)準(zhǔn)差為0.002,數(shù)據(jù)整體的波動較小,從另一方面體現(xiàn)出了隨機(jī)森林模型在安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價方面具有較高的穩(wěn)定性。在泛化能力方面,該算法進(jìn)行了200次試驗,且試驗數(shù)據(jù)進(jìn)行了隨機(jī)劃分,平均準(zhǔn)確率達(dá)到97.77%,體現(xiàn)出該算法具有較高的泛化能力。

        4 結(jié) 論

        (1) 本文基于自動化采集的大壩安全監(jiān)測數(shù)據(jù)特征和數(shù)據(jù)質(zhì)量特點,提出了6項評價安全監(jiān)測歷史數(shù)據(jù)質(zhì)量的因子,依據(jù)相關(guān)國家和行業(yè)標(biāo)準(zhǔn)建立了大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)。

        (2) 提出了一種基于AUC值改進(jìn)隨機(jī)森林模型的大壩歷史數(shù)據(jù)質(zhì)量評價算法,基于6項評價因子建立原始數(shù)據(jù)評價因子集到大壩歷史數(shù)據(jù)質(zhì)量等級的對應(yīng)關(guān)系,并通過對應(yīng)關(guān)系生成評價分類結(jié)果,對歷史數(shù)據(jù)進(jìn)行質(zhì)量分級。

        (3) 本文算法泛化誤差最小值僅為0.019 5,測試數(shù)據(jù)分類準(zhǔn)確性穩(wěn)定在96.97%左右,10折交叉驗證平均準(zhǔn)確率達(dá)到97.77%,能夠較好地完成大壩安全監(jiān)測歷史數(shù)據(jù)質(zhì)量評價工作,具有較高的穩(wěn)定性、魯棒性、泛化能力和精度,滿足了大壩安全監(jiān)測數(shù)據(jù)智能化分析的需求。

        參考文獻(xiàn):

        [1]李慶斌,馬睿,胡昱,等.大壩智能建造研究進(jìn)展與發(fā)展趨勢[J].清華大學(xué)學(xué)報(自然科學(xué)版),2022,62(8):1252-1269.

        [2]國家能源局.差動電阻式監(jiān)測儀器鑒定技術(shù)規(guī)程:DL/T 1254-2013[S].北京:中國電力出版社,2013.

        [3]何金平,涂圓圓,逄智堂.大壩安全監(jiān)測系統(tǒng)綜合評價(Ⅲ)評價方法[J].水電自動化與大壩監(jiān)測,2011,35(3):63-66.

        [4]WANG T J,YANG B,YANG H Y.Dam deformation monitoring and data analysis based on cloud model[J].Advanced Materials Research,2012,459:479-82.

        [5]LUCAS A,PALMA D,CALDEIRA M.The quality of monitoring data in civil engineering works[C]∥Proceedings of the 2009 International Conference on Information Quality,ICIQ,2009.

        [6]CURT C,TALON A.Assessment and control of the quality of data used during dam reviews by using expert knowledge and the ELECTRE TRI method[J].Journal of Computing in Civil Engineering,2013,27(1):10-17.

        [7]CORINNE C,RICHARD G.Approach to improving the quality of data used to analyse dams-illustrations by two methods[J].European Journal of Environmental and Civil Engineering,2014,18(1):87-105.

        [8]劉文君,賀馨儀,王彬,等.基于異常檢測集成算法的油色譜在線監(jiān)測數(shù)據(jù)質(zhì)量評價體系[J].電網(wǎng)與清潔能源,2022,38(8):16-23.

        [9]郭昊,李海濱,馮姣,等.基于大數(shù)據(jù)處理的船舶數(shù)據(jù)質(zhì)量評價方法研究[J].計算機(jī)仿真,2022,39(2):298-303.

        [10]SUBRAMANIAN D V,PRADHEEPKUMAR K,DHINAKARAN K,et al.Catur approach to assess the quality of big data using decision tree and multidimensional model[J].Australian Journal of Basic and Applied Sciences,2015,9(23):503-508.

        [11]田仲,李培軍,程芳.通用數(shù)據(jù)質(zhì)量評分系統(tǒng)的研究與設(shè)計[J].標(biāo)準(zhǔn)科學(xué),2016(5):94-99.

        [12]鄭琳,劉艷,崔文林,等.海洋監(jiān)測數(shù)據(jù)質(zhì)量評估研究[J].海洋通報,2014,33(2):228-234.

        [13]中國國家標(biāo)準(zhǔn)化管理委員會.信息技術(shù) 數(shù)據(jù)質(zhì)量評價指標(biāo):GB/T 36344-2018[S].北京:中國標(biāo)準(zhǔn)出版社,2018.

        [14]宋洋.重力壩變形監(jiān)測數(shù)據(jù)缺失值處理方法研究[D].西安:西安理工大學(xué),2021.

        [15]中華人民共和國水利部.土石壩安全監(jiān)測技術(shù)規(guī)范:SL 551-2012[S].北京:中國水利水電出版社,2012.

        [16]國家能源局.鋼弦式監(jiān)測儀器鑒定技術(shù)規(guī)程:DL/T 1271-2013[S].北京:中國電力出版社,2013.

        [17]BREIMAN L.Random Forests[J].Machine Learning,2001,31:106472.

        [18]ADELE C,DAVID R C,JOHN R S.Ensemble Machine Learning[M].Boston:Springer,2012.

        [19]楊瑞君,趙楠,凡耀峰,等.基于隨機(jī)森林模型的城市空氣質(zhì)量評價[J].計算機(jī)工程與設(shè)計,2017,38(11):3151-3156.

        [20]WOLPERT D H,MACREADY W G.An efficient method to estimate bagging′s generalization error[J].Machine Learning,1999,35(1):41-55.

        (編輯:胡旭東)

        Data quality evaluation algorithm on dam monitoring based on improved random forestPAN Yu1,LI Denghua2,3,DING Yong1

        (1.School of Science,Nanjing University of Science and Technology,Nanjing 210094,China; 2.Nanjing Hydraulic Research Institute,Nanjing 210029,China; 3.Key Laboratory of Reservoir Dam Safety,Ministry of Water Resources,Nanjing 210029,China)

        Abstract: Aiming at the problems of low efficiency and insufficient intelligence of data quality evaluation in dam safety monitoring,in order to meet the needs of real-time data quality evaluation of high-frequency automatic acquisition of dams,a quality evaluation criteria of safety monitoring data composed of six evaluation factors and related evaluation criteria from the four aspects of accuracy,integrity,timeliness and repair ability were proposed.And then a quality evaluation algorithm on historical data of dam safety monitoring was established by the improved random forest algorithm based on AUC value.The algorithm was applied to the evaluation of multi-year safety monitoring data of Liushugou concrete face rockfill dam in Xinjiang.The results showed that the random forest algorithm improved by AUC value was better than the original algorithm.When the feature attributes was 3,the effect was the best.The generalization error for the test set could reach 0.019 5,the average accuracy was stable at 96.97%,and the average accuracy of 10-fold cross validation reached 97.77%,which proved the feasibility of the new algorithm.

        Key words: dam safety monitoring;data quality evaluation;random forest algorithm;evaluation factor

        收稿日期:2023-06-12;接受日期:2023-09-08

        基金項目:國家重點研發(fā)計劃項目(2022YFC3005502);國家自然科學(xué)基金項目(51979174);國家自然科學(xué)基金聯(lián)合基金項目(U2040221);中央級公益性科研院所基本科研業(yè)務(wù)費專項資金項目(Y321004)

        作者簡介:潘 宇,男,碩士研究生,主要從事水工結(jié)構(gòu)安全監(jiān)測方面的研究工作。 E-mail:py121898@njust.edu.cn

        通信作者:李登華,男,正高級工程師,博士,主要從事大壩安全評估方面的研究工作。 E-mail:dhli@nhri.cn

        猜你喜歡
        評價質(zhì)量
        “質(zhì)量”知識鞏固
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價再評價
        質(zhì)量守恒定律考什么
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        關(guān)于質(zhì)量的快速Q(mào)&A
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        基于Moodle的學(xué)習(xí)評價
        關(guān)于項目后評價中“專項”后評價的探討
        石器時代與質(zhì)量的最初萌芽
        av在线免费高清观看| 丝袜美腿网站一区二区| 中文字幕日本女优在线观看| 不卡免费在线亚洲av| 国产成人综合日韩精品无码| 亚洲av永久无码天堂网手机版| 亚洲成a人片在线播放观看国产 | 欧美性生交大片免费看app麻豆| 强行无套内谢大学生初次| 日本高清不卡二区| 亚洲精品在线观看一区二区| 成人国产精品一区二区八戒网 | 爆操丝袜美女在线观看| 国产精品激情| 亚洲欧美国产日韩字幕| 国产精品国产三级国产一地| 国产精品福利高清在线| 蜜臀色欲av在线播放国产日韩 | av在线不卡一区二区| 久久97久久97精品免视看| 亚洲a∨无码一区二区| AV无码人妻一区二区三区牛牛| 中文字幕人妻久久久中出| 国产激情久久久久久熟女老人av| 岛国av无码免费无禁网站下载| 手机免费日韩中文字幕| 久久99天堂av亚洲av| 18禁黄久久久aaa片| 一本无码人妻在中文字幕| 美女射精视频在线观看| 国产裸体美女永久免费无遮挡| 醉酒后少妇被疯狂内射视频 | 牛牛本精品99久久精品88m| 加勒比东京热久久综合| 日本av一区二区三区在线| 成人免费毛片aaaaaa片| 国产精品 精品国内自产拍| 在线观看一区二区三区国产| 丰满少妇被粗大猛烈进人高清| 韩国三级中文字幕hd久久精品| 女同性恋亚洲一区二区|