戴雄奇,王博彥,林 峰,常 田
(1.深圳市水務(wù)(集團(tuán))有限公司,廣東深圳518031;2.中國石油化工股份有限公司北京化工研究院,北京100013)
供水管網(wǎng)是城市不可或缺的基礎(chǔ)設(shè)施,具有隱蔽性、變化性大、復(fù)雜度高、材質(zhì)多樣性等特性。爆管事件的頻發(fā),對(duì)人民生活、工業(yè)生產(chǎn)、城市供水安全等帶來較大危害。城市供水管網(wǎng)存在例如管線老化嚴(yán)重、管理水平落后等問題,嚴(yán)重影響供水系統(tǒng)的安全運(yùn)行。爆管事故不僅增加了企業(yè)的供水成本,還會(huì)損壞公共設(shè)施,妨礙交通,影響生活和生產(chǎn)秩序[1]。
管網(wǎng)發(fā)生爆管事故通常是內(nèi)外因綜合作用的結(jié)果,影響因素眾多且復(fù)雜,大體上可分為物理因素(例如管徑、管材、管長(zhǎng)、建設(shè)時(shí)間等)、環(huán)境因素(例如路面狀況、覆蓋面土質(zhì)等)和運(yùn)行狀況(例如水壓、維修記錄等)三大類[1-2]。通過整合供水管網(wǎng)基礎(chǔ)數(shù)據(jù)和運(yùn)營數(shù)據(jù),構(gòu)建供水管網(wǎng)數(shù)據(jù)庫,以大數(shù)據(jù)分析算法為基礎(chǔ)建立爆管預(yù)測(cè)模型,從而對(duì)供水管網(wǎng)爆管率進(jìn)行預(yù)測(cè),并形成完善的供水管網(wǎng)資產(chǎn)優(yōu)化管理體系,有助于為供水管網(wǎng)的更新和改造提供決策依據(jù)[2-3]。
目前,現(xiàn)有的管線評(píng)價(jià)多采用模糊理論、多元線性回歸、層次分析法等方法建立模型,存在主觀性較強(qiáng)、對(duì)數(shù)據(jù)質(zhì)量要求高、適用于特定管網(wǎng)等不足。考慮到多數(shù)供水企業(yè)信息化程度較低,存在歷史數(shù)據(jù)記錄不完整、數(shù)據(jù)準(zhǔn)確率不高、缺乏統(tǒng)一標(biāo)準(zhǔn)等問題[4],這些方法并不適合供水管網(wǎng)爆管模型分析[5-6]。
為了建立一個(gè)對(duì)數(shù)據(jù)質(zhì)量要求低、適用范圍廣、準(zhǔn)確性較高的供水管網(wǎng)爆管率預(yù)測(cè)模型[7],筆者采用機(jī)器學(xué)習(xí)方法,利用隨機(jī)森林算法建立模型,對(duì)城市供水管網(wǎng)爆管率進(jìn)行預(yù)測(cè)。隨機(jī)森林是一種使用自助抽樣方式,隨機(jī)特征子集和采用投票進(jìn)行預(yù)測(cè),由多棵無關(guān)聯(lián)決策樹構(gòu)成的模型系統(tǒng)。決策樹是根據(jù)數(shù)據(jù)的特征構(gòu)造的樹狀結(jié)構(gòu),當(dāng)輸入新的特征時(shí),可以根據(jù)其構(gòu)造好的結(jié)構(gòu)做出一步步判斷,最后得到分類結(jié)果[7-8]。
模型建立的技術(shù)路線和流程見圖1。
圖1 建模路線Fig.1 Modeling routing
從供水管網(wǎng)的基礎(chǔ)數(shù)據(jù)庫中提取管線的基礎(chǔ)信息,包括管材、管線編號(hào)、管長(zhǎng)、管徑、建設(shè)年份、運(yùn)行壓力、地理位置、道路負(fù)荷、雜散電流、土壤腐蝕等;從城市供水管網(wǎng)的爆管數(shù)據(jù)庫中,提取爆管管線編號(hào)、爆管時(shí)間、爆管原因、爆管類型、爆管點(diǎn)坐標(biāo)等信息。對(duì)獲取的數(shù)據(jù)依據(jù)以下原則進(jìn)行預(yù)處理。
2.2.1 數(shù)據(jù)篩選
剔除非自然因素(第三方、人為)導(dǎo)致事故的爆管記錄,修正錄入錯(cuò)誤,剔除明顯異常數(shù)據(jù)。
2.2.2 數(shù)據(jù)庫關(guān)聯(lián)
將供水管網(wǎng)的基礎(chǔ)數(shù)據(jù)庫和爆管數(shù)據(jù)庫按照管線編號(hào)或者空間位置進(jìn)行關(guān)聯(lián),匹配獲得每根管線的歷史爆管信息。
2.2.3 確定影響因子
為保證數(shù)據(jù)的準(zhǔn)確性及完備性,選擇管齡、運(yùn)行壓力、管徑、雜散電流、管材、道路負(fù)荷這6個(gè)基礎(chǔ)屬性作為發(fā)生爆管狀況的影響因子。
2.2.4 數(shù)字編碼
如表1所示,按照因子的數(shù)據(jù)屬性將其劃分為分類變量、連續(xù)變量?jī)深?,將分類變量?shù)字化編碼以便于代入模型運(yùn)算,不同數(shù)字代表不同的數(shù)據(jù)類別。對(duì)于管線的歷史爆管信息,用0表示管線未發(fā)生過爆管,用1表示管線發(fā)生爆管。
表1 分類變量數(shù)字編碼對(duì)照Tab.1 Comparison of numeric encoding of classification variables
表1中,道路負(fù)荷依據(jù)屬性劃分為分類變量,將其數(shù)字化編碼代入模型運(yùn)算。道路負(fù)荷是基于該地區(qū)綜合交通圖來定義每條路段的負(fù)荷,若在某路段下方鋪設(shè)管道,則把道路類型值賦給該管線;設(shè)鐵路、地鐵10 m范圍內(nèi)為雜散電流的影響區(qū)域,若管線安裝在該區(qū)域內(nèi),則認(rèn)為該管道可能會(huì)受到雜散電流的影響。預(yù)處理后的數(shù)據(jù)集示例如表2所示。
表2 管線數(shù)據(jù)集示例Tab.2 Sample pipeline data sets
應(yīng)用R軟件建立模型,采用其中的Random Forest功能包。采用正、負(fù)樣本兩種方式選取樣本,樣本量比例為1 ∶1,即隨機(jī)選取1000個(gè)爆管數(shù)據(jù)(正樣本)和等量的未發(fā)生爆管的管線數(shù)據(jù)(負(fù)樣本)。在模型訓(xùn)練使用的輸入?yún)?shù)中,將管齡、運(yùn)行壓力、管徑、雜散電流、管材、道路負(fù)荷6個(gè)影響因子定為自變量,管線是否發(fā)生爆管設(shè)為因變量。模型的輸出結(jié)果為管線發(fā)生爆管的概率,是介于[0,1]之間的數(shù)值。
在校驗(yàn)?zāi)P途葧r(shí),通常采用接收靈敏度曲線(receiver-operating characteristic,ROC)和曲線下面積(area under curve,AUC)來表示。AUC值越趨近于1,模型效果越好。當(dāng)AUC值在0.5~0.7時(shí),準(zhǔn)確度較低;當(dāng)AUC值在0.7~0.9時(shí),準(zhǔn)確性較好;當(dāng)AUC>0.9時(shí),準(zhǔn)確性很高。
為了更加全面、客觀地評(píng)價(jià)模型效果,采用ROC曲線綜合檢驗(yàn)?zāi)P偷木群头€(wěn)定性,如圖3所示,圖中粗線表示檢驗(yàn)結(jié)果和其變化范圍。研究中,AUC平均值達(dá)0.85,模型準(zhǔn)確性較為理想;箱線圖顯示,ROC曲線的變化幅度非常小,分布較為聚集,模型相對(duì)穩(wěn)定,不易因樣本集隨機(jī)選取的變化產(chǎn)生影響。因此整體來看,模型的效果較好。
圖2 ROC曲線Fig.2 ROC curve
測(cè)評(píng)效果較好的模型可應(yīng)用于其他研究區(qū)域。當(dāng)利用數(shù)值表示分類變量(0代表未發(fā)生爆管,1代表發(fā)生爆管)作為因變量建立隨機(jī)森林模型時(shí),預(yù)測(cè)結(jié)果可得到發(fā)生/未發(fā)生爆管的概率,見表3。
表3 預(yù)測(cè)結(jié)果Tab.3 Prediction results
表3中最后1列數(shù)據(jù)為管網(wǎng)發(fā)生爆管的概率,倒數(shù)第2列表示管線不會(huì)發(fā)生爆管的概率。發(fā)生爆管的概率越趨近1,管網(wǎng)狀況越差;概率越接近0,管網(wǎng)的健康度越高。
為了使管網(wǎng)爆管率預(yù)測(cè)結(jié)果直觀清晰,采用等間隔分類法,將狀況評(píng)估結(jié)果分為健康(0~0.2)、較好(0.2~0.4)、一般(0.4~0.6)、較差(0.6~0.8)和危險(xiǎn)(0.8~1)5個(gè)等級(jí)。
在ArcGIS中用不同的顏色展示管線健康狀態(tài)分級(jí)結(jié)果,繪制出管網(wǎng)健康狀態(tài)專題圖,研究中隨機(jī)森林模型評(píng)估專題圖與實(shí)際情況的對(duì)比如圖4、圖5所示。兩者的相似度較高,這表明所建立的隨機(jī)森林模型的預(yù)測(cè)效果較好。
圖3 資產(chǎn)狀況評(píng)估Fig.3 Assessment of asset status
圖4 資產(chǎn)實(shí)際狀況Fig.4 Status of asset
管線爆管的影響因子的重要程度,可通過圖形的方式分析對(duì)比得出。衡量因子重要性的參數(shù)有2個(gè):一是平均精度下降(mean decrease accuracy),對(duì)1個(gè)因子隨機(jī)賦值,記錄此時(shí)模型預(yù)測(cè)準(zhǔn)確度的減小幅度,幅度越大則表明該因子越重要;二是平均基尼指數(shù)下降(mean decrease Gini),利用基尼指數(shù)記錄因子對(duì)決策樹的節(jié)點(diǎn)不純度的降低程度產(chǎn)生的影響,值越大則反映出該因子越重要。其中,2種參數(shù)對(duì)比得出的因子重要性會(huì)略有差距,但差距很小,不會(huì)影響對(duì)結(jié)果的判斷。
分別用上述2類方法對(duì)6個(gè)影響因子進(jìn)行重要性評(píng)價(jià),如圖5所示。結(jié)果表明運(yùn)用2種方法得出的因子重要性的排序結(jié)果基本一致,其中運(yùn)行壓力、管齡是發(fā)生爆管的主要影響因子,雜散電流對(duì)爆管的影響程度最小。通過因子的重要性排序,剔除影響較小的自變量,可以優(yōu)化爆管模型;同時(shí)篩選出重要性因子,在數(shù)據(jù)收集工作中可將其作為重要指標(biāo),提升數(shù)據(jù)質(zhì)量。
圖5 因子重要性評(píng)價(jià)Fig.5 Importance evaluation of factors
供水企業(yè)可根據(jù)模型預(yù)測(cè)結(jié)果制定管線更新改造優(yōu)先次序和維修養(yǎng)護(hù)計(jì)劃,利用爆管預(yù)測(cè)圖對(duì)高爆管率的區(qū)域安排重點(diǎn)巡檢,并重點(diǎn)監(jiān)測(cè)管齡和運(yùn)行壓力這2個(gè)影響因子,實(shí)現(xiàn)供水企業(yè)對(duì)供水管網(wǎng)更新改造資金優(yōu)化,且做到爆管提前預(yù)警、科學(xué)防范,為供水管網(wǎng)科學(xué)化、智能化管理夯實(shí)基礎(chǔ)。