張行,凌嘉瞳,劉思敏,董紹華
1 中國(guó)石油大學(xué)(北京)管道技術(shù)與安全研究中心,北京 102249
2 中油國(guó)際管道公司,北京 102206
第三方破壞是管道線路安全面臨的主要風(fēng)險(xiǎn)之一,我國(guó)2001 年至2020 年由第三方破壞引起的管道事故占事故總量的30%至40%。國(guó)內(nèi)外管道安全研究領(lǐng)域?qū)W者多年來一直致力于油氣管道第三方破壞事故風(fēng)險(xiǎn)的研究,重點(diǎn)開展了基于不確定性的第三方破壞事故可能性分析、第三方威脅事件監(jiān)測(cè)預(yù)警、第三方破壞事故后果模擬等研究工作[1-3]。由于油氣管網(wǎng)線路點(diǎn)多線長(zhǎng)、人文地質(zhì)環(huán)境復(fù)雜,部分地區(qū)居民并未正確認(rèn)識(shí)破壞管道的危險(xiǎn)后果,仍在管道周邊實(shí)施占?jí)骸㈤_挖等活動(dòng),或受利益驅(qū)使開展盜油盜氣、破壞管道重要設(shè)施等違法活動(dòng);加之各地區(qū)工業(yè)化發(fā)展需求使得地面施工日漸頻繁,各施工企業(yè)與管道運(yùn)營(yíng)企業(yè)之間缺乏溝通,因非管道企業(yè)施工造成管道破壞的事故時(shí)有發(fā)生,故管道保護(hù)工作仍面臨巨大挑戰(zhàn)[4-5]。
隨著信息化技術(shù)的發(fā)展,龐大的手機(jī)用戶群提供了大量表示其時(shí)空出行序列的手機(jī)位置數(shù)據(jù),已經(jīng)成為當(dāng)前用來感知個(gè)人或群體活動(dòng)規(guī)律的重要資源,在生活服務(wù)領(lǐng)域中得到了廣泛的應(yīng)用[6-8]。例如根據(jù)居民位置信息可為廣告投放篩選出最合適的位置,通過獲取用戶位置信息向其推薦附近熱門商戶和服務(wù)等?;谖恢眯畔⒌漠惓\壽E作為表征用戶異常行為的重要因素之一,使軌跡異常檢測(cè)成為了當(dāng)前位置信息相關(guān)的研究熱點(diǎn)。異常檢測(cè)算法已經(jīng)廣泛應(yīng)用于交通領(lǐng)域,例如在同一片海域中識(shí)別含異常軌跡的船只[9];基于出租車行駛軌跡發(fā)現(xiàn)繞路欺詐行為,利用車輛GPS定位數(shù)據(jù)對(duì)行駛道路擁堵狀態(tài)進(jìn)行判斷等[10]。
為解決當(dāng)前第三方破壞識(shí)別中存在的實(shí)時(shí)性不足、監(jiān)測(cè)范圍小、數(shù)據(jù)匱乏、活動(dòng)預(yù)測(cè)難、不確定性強(qiáng)的問題,以位置數(shù)據(jù)異常軌跡研究為基礎(chǔ),將位置數(shù)據(jù)引入到管道第三方破壞防范領(lǐng)域,對(duì)打孔盜油、私人挖掘、工程建設(shè)類型第三方破壞識(shí)別展開研究。提出從位置數(shù)據(jù)中挖掘管道附近用戶的行為模式,提取用戶的活動(dòng)規(guī)律,為管道第三方破壞活動(dòng)預(yù)警提供新思路。
用于識(shí)別管道第三方破壞行為的移動(dòng)設(shè)備位置信息不涉及用戶隱私,將采取隱藏用戶真實(shí)標(biāo)識(shí)信息的保密措施,通過與通信公司簽訂數(shù)據(jù)使用協(xié)議,說明數(shù)據(jù)使用具體用途并提交技術(shù)可行性方案,向當(dāng)?shù)毓矙C(jī)關(guān)備案,保證位置數(shù)據(jù)使用的合法性。位置數(shù)據(jù)采集方式可通過手機(jī)應(yīng)用程序與運(yùn)營(yíng)商數(shù)據(jù)采集等多種方式,多樣的數(shù)據(jù)來源保障了管道附近位置信息獲取的可行性。
本文手機(jī)定位數(shù)據(jù)來源于移動(dòng)通信網(wǎng)絡(luò)與手機(jī)終端的交互,該交互過程可分為非周期性和周期性位置更新[11]。在數(shù)據(jù)的采集、存儲(chǔ)過程中,由于外部自然、人為環(huán)境的干擾和移動(dòng)通信網(wǎng)絡(luò)自身存在的缺陷會(huì)導(dǎo)致定位數(shù)據(jù)中存在著大量“噪聲”數(shù)據(jù)[12],會(huì)對(duì)定位數(shù)據(jù)的分析結(jié)果產(chǎn)生極大的影響。本文對(duì)收集的定位數(shù)據(jù)預(yù)處理操作如下:對(duì)字段缺失或取值不在正常范圍內(nèi)的無效數(shù)據(jù)進(jìn)行刪除;對(duì)漂移數(shù)據(jù)進(jìn)行糾正或平滑處理;通過對(duì)時(shí)間間隔的設(shè)定進(jìn)行時(shí)間分片,對(duì)定位數(shù)據(jù)進(jìn)行等時(shí)間間隔化處理,使得每條位置數(shù)據(jù)在時(shí)間維度上代表的意義相同,為后續(xù)基于聚類算法識(shí)別定位數(shù)據(jù)中停留點(diǎn)提供數(shù)據(jù)基礎(chǔ)。
對(duì)于油氣管道領(lǐng)域,管道路由走向指出了管道位置的分布情況,管道附近用戶位置數(shù)據(jù)標(biāo)記了用戶與管道位置的關(guān)系,軌跡停留點(diǎn)識(shí)別有助于挖掘位置數(shù)據(jù)中與用戶日常行為特征有關(guān)的重要信息。對(duì)用戶軌跡中的停留點(diǎn)進(jìn)行提取、處理與分析,可在一定程度上對(duì)用戶活動(dòng)規(guī)律進(jìn)行重新刻畫[13-14]。在與管道相關(guān)的私人挖掘、工程建設(shè)、打孔盜油等第三方破壞活動(dòng)中,由于破壞活動(dòng)的實(shí)施過程需花費(fèi)一定時(shí)間,其部分移動(dòng)軌跡一定會(huì)表現(xiàn)出停留或在一定區(qū)域內(nèi)移動(dòng)的狀態(tài),故管道附近用戶的停留點(diǎn)提取是識(shí)別管道異常第三方活動(dòng)的首要研究?jī)?nèi)容,本文將停留點(diǎn)定義為用戶在管道或光纖兩側(cè)一定范圍內(nèi)停留時(shí)間超過給定時(shí)間閾值的位置。
在對(duì)手機(jī)位置數(shù)據(jù)進(jìn)行預(yù)處理后,得到按時(shí)間排序的等時(shí)間間隔定位數(shù)據(jù),手機(jī)用戶在某個(gè)地點(diǎn)停留時(shí)間的長(zhǎng)短可以根據(jù)定位軌跡點(diǎn)在空間上的密度計(jì)算得出,但如果僅以空間密度作為唯一依據(jù)進(jìn)行停留點(diǎn)篩選,可能將處于不同時(shí)間段但距離相近點(diǎn)聚集在一起,造成停留點(diǎn)的誤識(shí)別。因此本文利用一種基于點(diǎn)排序的時(shí)空聚類算法識(shí)別停留點(diǎn)[15-16],首先根據(jù)位置數(shù)據(jù)的密度在空間層上對(duì)軌跡點(diǎn)進(jìn)行聚類,再結(jié)合停留點(diǎn)判別時(shí)間閾值約束條件,初步實(shí)現(xiàn)管道附近區(qū)域手機(jī)用戶停留點(diǎn)的獲取。
在基于點(diǎn)排序的時(shí)空聚類算法進(jìn)行停留點(diǎn)識(shí)別時(shí),將所采集位置數(shù)據(jù)用于創(chuàng)建初始樣本集D;創(chuàng)建有序隊(duì)列Q用于保存核心對(duì)象及其對(duì)應(yīng)的直接密度可達(dá)對(duì)象,隊(duì)列中元素按可達(dá)距離順序從小到大依次進(jìn)行排列;同時(shí)創(chuàng)建結(jié)果隊(duì)列O用于存儲(chǔ)已完成訪問處理的樣本點(diǎn)。基于時(shí)空聚類方法的停留點(diǎn)識(shí)別步驟如下:首先,從樣本集D中隨機(jī)選取一個(gè)核心對(duì)象樣本點(diǎn)作為研究對(duì)象存入結(jié)果隊(duì)列O中,同時(shí)搜索該樣本點(diǎn)給定鄰域半徑內(nèi)所有直接密度可達(dá)對(duì)象,將所有對(duì)象按要求規(guī)則放入有序隊(duì)列Q中,此時(shí)可達(dá)距離最小的元素排在隊(duì)首。其次,從有序隊(duì)列Q中取出樣本點(diǎn),將其標(biāo)記為已訪問樣本點(diǎn)后保存至結(jié)果隊(duì)列O中,并對(duì)該點(diǎn)進(jìn)行核心對(duì)象判別,若該樣本點(diǎn)為核心對(duì)象,則繼續(xù)搜索其給定鄰域半徑內(nèi)直接密度可達(dá)點(diǎn)并存儲(chǔ)到有序隊(duì)列Q中,每次插入新樣本點(diǎn)到有序隊(duì)列Q中都按可達(dá)距離排序進(jìn)行位置更新;按照以上步驟對(duì)樣本集D中所有數(shù)據(jù)進(jìn)行處理。為進(jìn)一步完成結(jié)果隊(duì)列O中的樣本點(diǎn)聚類,依次取出結(jié)果隊(duì)列O中樣本點(diǎn)p進(jìn)行判別。首先進(jìn)行樣本點(diǎn)p可達(dá)距離與給定半徑ε之間的比較,若樣本點(diǎn)p可達(dá)距離在給定半徑ε范圍內(nèi),則將該點(diǎn)劃分到當(dāng)前點(diǎn)簇中,否則進(jìn)入下一步判別;第二階段判別以樣本點(diǎn)p核心距離與給定半徑ε之間的大小關(guān)系為判斷依據(jù),若樣本點(diǎn)p核心距離大于給定半徑ε,則將該點(diǎn)判斷為噪聲,反之,若樣本點(diǎn)p核心距離不大于給定半徑ε,則將該點(diǎn)劃分到新的聚類中。按照上述判斷流程,遍歷結(jié)果隊(duì)列O中所有樣本點(diǎn)。最后,按位置數(shù)據(jù)中時(shí)間要素對(duì)樣本數(shù)據(jù)進(jìn)行排序更新,生成以位置數(shù)據(jù)時(shí)間戳為橫軸,樣本數(shù)據(jù)可達(dá)距離為縱軸的排序圖。
提取管段附近某一時(shí)段手機(jī)定位數(shù)據(jù)進(jìn)行停留點(diǎn)識(shí)別與分析,表1 列出了預(yù)處理后某手機(jī)用戶的定位數(shù)據(jù)。其中,用戶識(shí)別碼是經(jīng)脫敏處理后的用戶標(biāo)識(shí)碼,表示用戶身份信息,具有唯一性;時(shí)間戳指獲取位置時(shí)的時(shí)間信息,已完成等時(shí)間間隔處理,同一用戶兩條位置數(shù)據(jù)間的時(shí)間間隔為2 min,即120 s;經(jīng)度、緯度是位置數(shù)據(jù)中直接獲取到的信息,為方便距離計(jì)算,將位置數(shù)據(jù)中經(jīng)度、緯度分別轉(zhuǎn)換為投影坐標(biāo)下的墨卡托經(jīng)緯度。
表1 定位數(shù)據(jù)Table 1 List of location data
結(jié)合第三方破壞停留時(shí)間特征,在本停留點(diǎn)識(shí)別中約束條件設(shè)置如下:時(shí)間鄰域設(shè)為1800 s,距離鄰域設(shè)為3 m,最小鄰域點(diǎn)數(shù)MinPts設(shè)為15,基于該參數(shù)取值進(jìn)行停留點(diǎn)識(shí)別,可達(dá)距離排序圖如圖1 所示。
圖1 可達(dá)距離排序圖Fig. 1 Reachable distance sorting graph
從可達(dá)距離排序圖可知,樣本點(diǎn)最大可達(dá)距離10.2 m,大部分樣本點(diǎn)可達(dá)距離集中在1 m附近,當(dāng)距離鄰域設(shè)定為3 m時(shí),該數(shù)據(jù)集共識(shí)別出簇稠密區(qū)A、B、C、D共4 個(gè)停留點(diǎn)。從時(shí)間戳信息中可以判斷停留時(shí)間由長(zhǎng)到短依次為A點(diǎn)、D點(diǎn)、B點(diǎn)、C點(diǎn)??蛇_(dá)距離排序圖在原位置數(shù)據(jù)中的聚類結(jié)果如圖2 所示。
圖2 聚類結(jié)果圖Fig. 2 Clustering result graph
基于由于第三方破壞行為特點(diǎn)的多樣性,難以對(duì)異常行為軌跡的移動(dòng)特征進(jìn)行具體的總結(jié)歸納,本文提出利用管道附近移動(dòng)對(duì)象之間的關(guān)聯(lián)性對(duì)異常軌跡進(jìn)行識(shí)別。位置特征是軌跡的基本特征之一,包括軌跡分段起始點(diǎn)經(jīng)緯度,軌跡數(shù)據(jù)反映了移動(dòng)對(duì)象的位置活動(dòng)規(guī)律,標(biāo)記了第三方用戶在監(jiān)測(cè)范圍內(nèi)的空間位置變化情況,通過位置信息可獲取軌跡分段在當(dāng)前局部空間中的其他近鄰軌跡[17]。第三方人員在管道附近區(qū)域的正?;顒?dòng)普遍具有周期性與規(guī)律性,如果一個(gè)對(duì)象與鄰域內(nèi)的對(duì)象都發(fā)生了偏離,則該對(duì)象也一定偏離距離它更遠(yuǎn)的對(duì)象,換言之,一個(gè)基本單元的空間特征往往能被鄰域內(nèi)的基本單元所反映。各軌跡分段按位置特征查找鄰域,軌跡分段tfi的局部空間近鄰包括所有與tfi距離不超過給定距離閾值d的軌跡分段集合。
式中,N(tfi)表示軌跡分段tfi的近鄰軌跡分段集合,DiffS(tfi, tfj)表示軌跡分段tfi與tfj兩條軌跡之間空間距離,具體描述為軌跡段間垂直、水平、角度距離的綜合加權(quán)。
異常軌跡通常被描述為違反某類既定規(guī)則的事件,或是表現(xiàn)出不同于大多數(shù)對(duì)象的行為。在不同應(yīng)用場(chǎng)景中,用戶的異常軌跡通常被描述為軌跡異常、地點(diǎn)異常、行動(dòng)異常等[18-19]。通過對(duì)管道附近行人移動(dòng)特征的研究與分析,要實(shí)現(xiàn)對(duì)第三方破壞行為的早期預(yù)警,找出第三方破壞的跡象和正在實(shí)施的第三方破壞行為,準(zhǔn)確識(shí)別第三方異常軌跡是關(guān)鍵。將相鄰區(qū)域內(nèi)移動(dòng)軌跡進(jìn)行比較,若某一軌跡與大多數(shù)第三方運(yùn)動(dòng)軌跡相似,則認(rèn)為其為正?;顒?dòng)行為,反之判斷為異常行為活動(dòng)。
提取軌跡的速度、加速度、轉(zhuǎn)角作為判斷異常軌跡移動(dòng)特征。速度特征作為移動(dòng)對(duì)象的固有屬性之一,表示移動(dòng)對(duì)象運(yùn)動(dòng)的快慢程度,在第三方進(jìn)行異?;顒?dòng)時(shí),相應(yīng)軌跡通常表現(xiàn)為停留或是以極小的速度移動(dòng),利用軌跡特征點(diǎn)中的地理位置標(biāo)記和時(shí)間標(biāo)記來計(jì)算手機(jī)用戶速度,方向即沿特征點(diǎn)連線方向。加速度特征是移動(dòng)對(duì)象的內(nèi)在屬性之一,表示移動(dòng)對(duì)象速度的變化情況,因?yàn)楫惓P袨榈某霈F(xiàn)一般可表現(xiàn)為速度的突變,包括速率和方向,所以加速度是判斷異常軌跡的重要因素。轉(zhuǎn)角特征表示移動(dòng)對(duì)象運(yùn)動(dòng)方向的變化量,由目標(biāo)特征點(diǎn)與緊鄰前、后時(shí)刻特征點(diǎn)連線所構(gòu)成的角度,軌跡轉(zhuǎn)角的異常變化一定程度上反映了受外界擾動(dòng)或影響情況,第三方異常行為軌跡與正常行為軌跡存在的位置偏移現(xiàn)象可用轉(zhuǎn)角特征表示。依據(jù)移動(dòng)特征計(jì)算軌跡分段行為差異度,尋找出在軌跡鄰域內(nèi)發(fā)生移動(dòng)偏移的軌跡分段。
根據(jù)不同移動(dòng)特征對(duì)異常軌跡識(shí)別的重要程度分別賦予恰當(dāng)?shù)臋?quán)重并進(jìn)行加權(quán)處理。
DiffD(tfi,tfj)表 示 軌 跡 分 段tfi和tfj的 行 為 差 異 度,以ω1, …… ,ωM分別表示軌跡數(shù)據(jù)每個(gè)特征的權(quán)重,disl(tfi,tfj)表示任意兩條軌跡分段tfi和tfj在特征l上的距離。
為了計(jì)算軌跡分段的異常程度,將軌跡異常因子(Trajectory Anomaly Factor,TAF)用于表示軌跡分段在其軌跡鄰域內(nèi)移動(dòng)的異常程度。由于同一用戶軌跡會(huì)根據(jù)不同特征點(diǎn)被劃分為多個(gè)軌跡分段,所以在計(jì)算某一用戶軌跡異常因子時(shí),選取最大異常因子作為該用戶最終軌跡行為差異度。
式中,TAF(tfi) 為軌跡分段tfi的軌跡異常因子,DiffD(tfi,tfj)為軌跡分段tfi和tfj的行 為差 異度,|NTC(tfi)|為軌跡分段tfi鄰域內(nèi)軌跡分段個(gè)數(shù)。
決策樹是基于有監(jiān)督學(xué)習(xí)進(jìn)行分類的方法,能夠從給定的帶有特征和屬性標(biāo)簽的樣本中分析特征與屬性間的映射關(guān)系,并以樹狀圖的結(jié)構(gòu)形式呈現(xiàn)決策規(guī)則,實(shí)現(xiàn)對(duì)新樣本的正確分類[20]?;跉v史破壞數(shù)據(jù)先驗(yàn)信息,建立異?;顒?dòng)識(shí)別決策樹,將第三方人員的行為與管道風(fēng)險(xiǎn)特征結(jié)合,對(duì)軌跡行為差異度大的異常活動(dòng)進(jìn)行第三方破壞類型的判斷。
管線監(jiān)測(cè)范圍內(nèi)待識(shí)別的破壞行為與歷史破壞行為通常具有相似性,且第三方人員的破壞行為與管道風(fēng)險(xiǎn)因素之間存在相關(guān)性,本文采用基于數(shù)據(jù)驅(qū)動(dòng)的方法挖掘第三方人員行為特征。通過第三方破壞風(fēng)險(xiǎn)因素識(shí)別與相關(guān)信息收集,將管道風(fēng)險(xiǎn)特征與第三方人員的行為特征作為管道第三方異常活動(dòng)識(shí)別決策樹模型輸入特征[21]。時(shí)間和人數(shù)特征按實(shí)際數(shù)值給出,其余各特征參數(shù)對(duì)應(yīng)下表內(nèi)容給出。
通過建立一種基于決策樹的管道第三方異?;顒?dòng)識(shí)別方法,挖掘管道風(fēng)險(xiǎn)特征、第三方活動(dòng)特征與第三方破壞類型的潛在關(guān)系。利用開源python語(yǔ)言sklearn機(jī)器學(xué)習(xí)工具包,調(diào)用tree模塊,對(duì)模型對(duì)象進(jìn)行實(shí)例化、訓(xùn)練、測(cè)試,完成一棵完整決策樹的建立。模型建立步驟如下:
(1)確定輸入與輸出。將第三方活動(dòng)時(shí)間、人數(shù)、位置、當(dāng)?shù)亟?jīng)濟(jì)水平、公眾宣傳效果、巡線質(zhì)量、安全標(biāo)志、人員活動(dòng)頻率共8 個(gè)因素作為輸入特征,第三方破壞類型作為標(biāo)簽,根據(jù)歷史數(shù)據(jù)建立模型,挖掘各類特征與第三方破壞的關(guān)系。
(2)確定最佳節(jié)點(diǎn)和最佳的分枝。純度用于衡量節(jié)點(diǎn)處各類標(biāo)簽所占比例,在決策樹模型中以不純度作為衡量最佳節(jié)點(diǎn)與分枝的指標(biāo),較低的不純度值表明決策樹對(duì)訓(xùn)練集的擬合效果越好。在異?;顒?dòng)識(shí)別模
型中引入信息熵和基尼系數(shù)作為衡量指標(biāo)分別對(duì)節(jié)點(diǎn)不純度進(jìn)行了計(jì)算,結(jié)果表明兩種不純度指標(biāo)下的模型準(zhǔn)確率大小基本相同,最終選擇信息熵作為衡量指標(biāo)。
表2 特征值表示Table 2 Characteristic value description
表3 當(dāng)?shù)亟?jīng)濟(jì)水平Table 3 Economic level description
表4 公眾宣傳效果Table 4 Publicity effect description
表5 巡線質(zhì)量Table 5 Line inspection quality description
式中,Entropy為信息熵,c為葉子節(jié)點(diǎn)上標(biāo)簽類別的個(gè)數(shù),t為決策樹節(jié)點(diǎn),i為標(biāo)簽分類,p(i|t)為標(biāo)簽分類i在節(jié)點(diǎn)t中的占比,Gini為基尼系數(shù),該模型中的信息熵值是父節(jié)點(diǎn)信息熵與子節(jié)點(diǎn)信息熵之差。
(3)確定最大深度值。為使模型具有更好的泛化性,減輕過擬合對(duì)結(jié)果的影響,應(yīng)對(duì)決策樹進(jìn)行剪枝操作。設(shè)置樹的最大深度值(max_depth)是限制過擬合的有效方式,通過計(jì)算不同深度下的模型擬合效果以確定最佳決策樹深度值。結(jié)果表明,當(dāng)決策樹最大深度為4時(shí)模型準(zhǔn)確率達(dá)到最大值,當(dāng)深度小于4 時(shí)決策樹欠擬合且未能覆蓋重要特征;當(dāng)深度大于4 時(shí),多余的分枝使得模型過擬合,不僅增大了模型計(jì)算負(fù)擔(dān),而且降低了模型準(zhǔn)確率。因此,確定max_depth為4。
圖3 不同深度決策樹準(zhǔn)確率Fig. 3 Accuracy of decision trees with different depths
(4)決策樹剪枝策略優(yōu)化。設(shè)置最小葉子節(jié)點(diǎn)樣本數(shù)(min_samples_leaf,msl)與最小劃分樣本數(shù)(min_samples_split,mss)值對(duì)決策樹進(jìn)行優(yōu)化,最小葉子節(jié)點(diǎn)樣本數(shù)msl表示在分枝后的任一子節(jié)點(diǎn)都必須包含至少msl個(gè)訓(xùn)練樣本;最小劃分樣本數(shù)mss表示當(dāng)節(jié)點(diǎn)包含至少mss個(gè)訓(xùn)練樣本時(shí)才允許被分枝。為尋找基于決策樹的異?;顒?dòng)識(shí)別模型中最小葉子節(jié)點(diǎn)樣本數(shù)與最小劃分樣本數(shù)的最佳組合,對(duì)0~50 之間的數(shù)字組合進(jìn)行遍歷,最終得出當(dāng)最小葉子節(jié)點(diǎn)樣本數(shù)為2,最小劃分樣本數(shù)為4 時(shí)模型準(zhǔn)確率最高。
將所收集到第三方破壞歷史特征數(shù)據(jù)7/10 劃分為訓(xùn)練集,3/10 劃分為測(cè)試集,按照決策樹建立步驟,由訓(xùn)練集數(shù)據(jù)所建立的異?;顒?dòng)識(shí)別決策樹如圖5 所示,該決策樹的結(jié)構(gòu)表明了根據(jù)各類特征對(duì)第三方異?;顒?dòng)類型進(jìn)行判斷的過程,用測(cè)試集對(duì)模型準(zhǔn)確率進(jìn)行測(cè)試,該識(shí)別模型準(zhǔn)確率為90.9%。
異?;顒?dòng)類型判斷決策圖如圖4 所示,為5 層決策樹,第一層首先對(duì)巡線質(zhì)量特征進(jìn)行判斷,比較其對(duì)應(yīng)特征值與68.203 的大小關(guān)系并進(jìn)入決策樹第二層,對(duì)時(shí)間和位置特征進(jìn)行判斷,以此類推,直到判斷出最終的活動(dòng)類型。在該決策樹中,entropy為不純度指標(biāo),samples值表示樣本個(gè)數(shù),value值表示屬于不同類型破壞樣本個(gè)數(shù),如value=(10,41,35,14)表示屬于打孔盜油類別樣本數(shù)為10 個(gè),屬于私人挖掘類別樣本數(shù)為41 個(gè),屬于工程破壞類別樣本數(shù)為35個(gè),屬于其他類別樣本數(shù)為14 個(gè);class代表最終分類結(jié)果,不同種顏色代表所屬不同的破壞類型,其中兩個(gè)分類結(jié)果為打孔盜油的白色方框不純度指標(biāo)為1,難以進(jìn)行判斷,其分類結(jié)果不準(zhǔn)確。
圖4 異?;顒?dòng)類型判斷決策圖Fig. 4 Abnormal activity type decision diagram
對(duì)不同類型的第三方破壞活動(dòng)判別特征分別如下,打孔盜油破壞的判別含巡線質(zhì)量、時(shí)間、經(jīng)濟(jì)水平、位置、人員活動(dòng)頻率共5 個(gè)特征,私人挖掘破壞含巡線質(zhì)量、時(shí)間、經(jīng)濟(jì)水平共3 個(gè)特征,工程破壞含巡線質(zhì)量、位置、人數(shù)共3 個(gè)特征。各類特征的重要程度如表6 所示,權(quán)重越大,對(duì)應(yīng)特征對(duì)模型貢獻(xiàn)度越大,所提取的8 個(gè)特征因素中,公眾宣傳效果和安全標(biāo)志在該模型中對(duì)第三方破壞類型的判斷無影響,其余6 個(gè)影響因素對(duì)破壞類型判斷的影響權(quán)重依次為:巡線質(zhì)量、時(shí)間、經(jīng)濟(jì)水平、人數(shù)、位置、人員活動(dòng)頻率。
表6 各特征權(quán)重Table 6 Feature weight
在該模型中,決策樹各分枝判斷依據(jù)及模型的準(zhǔn)確率將根據(jù)數(shù)據(jù)量的變化有所更新,當(dāng)有更多的歷史數(shù)據(jù)作為訓(xùn)練集輸入到模型中時(shí),需要重新調(diào)整各特征參數(shù),并對(duì)模型進(jìn)行優(yōu)化。
(1)通過對(duì)某長(zhǎng)輸管段附近第三方活動(dòng)進(jìn)行監(jiān)測(cè),基于時(shí)空聚類法提取異常停留點(diǎn),得到了停留點(diǎn)識(shí)別決策圖與聚類圖,直觀地反映了管道附近用戶移動(dòng)規(guī)律。
(2)結(jié)合軌跡位置特征與速度、加速度、轉(zhuǎn)角多個(gè)移動(dòng)特征的軌跡行為差異度計(jì)算,綜合體現(xiàn)了軌跡分段在其鄰域內(nèi)移動(dòng)的異常程度,為管道監(jiān)測(cè)范圍內(nèi)第三方異常軌跡的識(shí)別提供重要依據(jù)。
(3)針對(duì)差異度值較大的用戶軌跡,基于管道第三方破壞行為識(shí)別決策樹模型挖掘第三方風(fēng)險(xiǎn)特征與第三方破壞行為的潛在關(guān)系,有助于及時(shí)發(fā)現(xiàn)私人挖掘、工程破壞和打孔盜油等第三方管道破壞活動(dòng),實(shí)現(xiàn)第三方破壞智能防范。