王明輝
摘 要:高速鐵路網(wǎng)的主要供電設(shè)備接觸網(wǎng),是沿鋼軌上空呈“之”字形架設(shè)的特殊輸電系統(tǒng)。對高速電氣化鐵路接觸網(wǎng),缺陷的檢測顯得是十分重要,隨著檢測設(shè)備的不斷更新,缺陷檢測準(zhǔn)確度逐漸提高,數(shù)據(jù)量越來越大,研究缺陷檢測數(shù)據(jù)顯得尤為重要。本文主要利用數(shù)據(jù)挖掘技術(shù)中的聚類分析法,將缺陷數(shù)據(jù)按照線路分布的密集程度進(jìn)行聚類,然后將聚類結(jié)果進(jìn)行可視化,并且通過分析聚類結(jié)果數(shù)據(jù),給出合理可行的缺陷預(yù)警方案和線路檢修建議。為了驗證方案的可行性,選取沈陽鐵路局的部分缺陷檢測數(shù)據(jù)作為本次方案的測試樣本。經(jīng)過數(shù)據(jù)預(yù)處理和方案測試發(fā)現(xiàn):吊弦類缺陷聚類高發(fā)區(qū)域占比約為78%,一二級燃弧類缺陷聚類高發(fā)區(qū)域占比約為71%,高發(fā)時段為4-9月。實驗結(jié)果表明不同類型的缺陷熱點區(qū)域分布的時段與區(qū)域不同。
關(guān)鍵詞:接觸網(wǎng);缺陷;數(shù)據(jù)挖掘;聚類分析法
中圖分類號:BT
文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2020.19.093
0 引言
作為鐵路運輸牽引供電系統(tǒng)的重要組成部分的接觸網(wǎng),其動態(tài)設(shè)備質(zhì)量情況直接影響到牽引供電的質(zhì)量,對接觸網(wǎng)運行狀態(tài)的實時監(jiān)測是保證鐵路安全運輸?shù)闹匾侄?。如今,接觸網(wǎng)動態(tài)監(jiān)測設(shè)備(6C系統(tǒng))能夠完成接觸網(wǎng)的各項數(shù)據(jù)檢測,所有基礎(chǔ)數(shù)據(jù)和報警數(shù)據(jù)均被收集入庫長期存放,隨著時間的推移,數(shù)據(jù)庫中的檢測基礎(chǔ)數(shù)據(jù)和缺陷數(shù)據(jù)越來越多,但對數(shù)據(jù)資源的利用率不是很高。目前,國內(nèi)主流方向都是關(guān)于如何提高線路設(shè)備缺陷識別或者機(jī)車運行異常檢測準(zhǔn)確度作研究和測試,設(shè)計出了針對不同零部件的缺陷識別方法,效果顯著。隨著大數(shù)據(jù)時代的到來,為了讓現(xiàn)有的檢測數(shù)據(jù)的作用不再局限于傳統(tǒng)的數(shù)據(jù)統(tǒng)計層面,本文利用數(shù)據(jù)挖掘技術(shù)對燃弧、吊弦缺陷進(jìn)行了深入研究。
數(shù)據(jù)挖掘作為當(dāng)今智能系統(tǒng)理論技術(shù)的重要組成部分,它包括了人工智能、神經(jīng)網(wǎng)絡(luò)、模式識別、數(shù)理統(tǒng)計等先進(jìn)技術(shù),從大量數(shù)據(jù)中通過相關(guān)算法搜索隱藏于其中的有價值和隱秘信息的過程。本文就是通過數(shù)據(jù)挖掘技術(shù)從大量接觸網(wǎng)的檢測數(shù)據(jù)中尋找數(shù)據(jù)間的特性,全方位分析檢測的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,爭取為鐵路局的檢修計劃提供切實可行的建議。首先,本文對檢測的原始數(shù)據(jù)進(jìn)行預(yù)處理,為數(shù)據(jù)挖掘過程做好前提準(zhǔn)備;然后,利用聚類算法模型把預(yù)處理后的數(shù)據(jù)進(jìn)行分析計算;最后,將聚類結(jié)果進(jìn)行可視化,并給出預(yù)警方案。
1 高速鐵路網(wǎng)供電系統(tǒng)缺陷檢測現(xiàn)狀
隨著我國國民經(jīng)濟(jì)的日益發(fā)展,我國在新的歷史背景下提出了新時代交通強國戰(zhàn)略,國家提出2020-2035基本建成交通強國,2035-2050全面建成交通強國,高速鐵路作為公共交通中的重要組成部分,也面臨著新的規(guī)劃建設(shè)任務(wù);我國規(guī)劃在2030年,高鐵線網(wǎng)由原來的四橫四縱形成八橫八縱,整個高鐵路網(wǎng)達(dá)到4.5萬公里。
但隨著高鐵線網(wǎng)的高速度高密度運行的同時,接觸網(wǎng)的安全可靠運行是整個電氣化鐵路安全可靠運行的關(guān)鍵。當(dāng)前國內(nèi)接觸網(wǎng)的檢修模式采取周期修與狀態(tài)修相結(jié)合的方式組織作業(yè),其作業(yè)主體仍以車間及工班為最小作業(yè)單元。該種作業(yè)模式安全風(fēng)險點多、作業(yè)效率低、占用人力物力資源大、個人素質(zhì)要求高、作業(yè)效果差強人意,已經(jīng)不能滿足鐵路快速發(fā)展的需要。
目前,接觸網(wǎng)檢測監(jiān)測數(shù)據(jù)主要是通過對各個檢測參數(shù)的閾值判斷,發(fā)現(xiàn)相關(guān)接觸網(wǎng)等設(shè)備的局部缺陷,通過相關(guān)平臺反饋給用戶進(jìn)行后續(xù)工作,所以,對于檢測數(shù)據(jù)的利用率還是很低。如何利用并發(fā)揮好已有設(shè)備檢測數(shù)據(jù)的價值,成為整個鐵路行業(yè)的主題。
且隨著高速鐵路施工質(zhì)量的逐步提高,眾多高速鐵路接觸網(wǎng)只能檢測出少量或局部的有效缺陷。在鐵路維修作業(yè)中過度依賴人工操作,如果對維護(hù)區(qū)域沒有主次之分,那么對于整個線路檢修計劃來說,必定會耗費很多人力物力等資源。因此,如何利用好現(xiàn)有的海量缺陷檢測數(shù)據(jù),實現(xiàn)接觸網(wǎng)熱點缺陷區(qū)域預(yù)測,從而節(jié)約檢修成本是本次的研究重點。2012年,田國保利用數(shù)據(jù)挖掘技術(shù)及回歸分析找到了接觸網(wǎng)動態(tài)參數(shù)間的關(guān)系,通過實踐找了設(shè)備運行的規(guī)律。
2 基于聚類分析的算法實現(xiàn)原理
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的且具有潛在價值的信息的過程。而時空聚類算法分析主要是從具有時間和位置信息的數(shù)據(jù)庫中發(fā)現(xiàn)具有相似特征的時空實體(即時空簇),也是基于傳統(tǒng)的聚類分析從空間域到時空域的進(jìn)一步擴(kuò)展。目前,時空聚類在全球氣候變化、公共衛(wèi)生安全、地震檢測分析以及犯罪熱點分析等領(lǐng)域具有重要應(yīng)用價值,有助于更好地發(fā)現(xiàn)和分析地理現(xiàn)象發(fā)展變化的趨勢、規(guī)律與本質(zhì)特征。現(xiàn)有的時空聚類方法主要包括時空掃描統(tǒng)計方法、基于密度的方法以及基于時空距離的方法。
本文主要采用ST-DBSCAN時空聚類算法實現(xiàn)高速鐵路網(wǎng)供電系統(tǒng)熱點缺陷區(qū)域信息挖掘。ST-DBSCAN算法中有三個參數(shù):minPts、eps、delta_t。其中minPts表示形成簇的最小點個數(shù),eps表示形成簇的時空點距離,delta_t表示形成簇的最大時間。ST-DBSCAN算法的基本思想是:通過循環(huán)判斷時空核心對象c以eps為半徑,delta_t時間差內(nèi)點的個數(shù)是否大于等于minPts,如果大于則形成簇,反之則對下一個時空對象進(jìn)行聚類,直到所有的時空對象都?xì)w在某個簇中,或被標(biāo)記為時空孤立點,則聚類結(jié)束。
利用ST-DBSCAN算法模型進(jìn)行線路缺陷高危爆發(fā)區(qū)域信息挖掘的過程中,涉及三個重要的閾值參數(shù),即空間距離閾值sptial_threshold、時間距離閾值temporal_threshold和時空對象量閾值minPts,這三個參數(shù)主要根據(jù)實際業(yè)務(wù)需求進(jìn)行篩選設(shè)置。
2.1 模型閾值設(shè)定規(guī)則
該模型將線路上“已確認(rèn)”的缺陷作為時空對象,然后通過繪制距離頻數(shù)柱狀圖來查找時間與空間閾值,方便設(shè)定盡可能滿足需求的閾值,具體步驟如下:
步驟1:計算缺陷時空對象事務(wù)集中兩兩時空對象在時間維度(或空間維度)下的時間(或空間)距離大小值。
步驟2:計算上步所得的各個距離大小值出現(xiàn)的頻數(shù)。
步驟3:將上步所得的頻數(shù)值對應(yīng)縱坐標(biāo),距離大小值對應(yīng)橫坐標(biāo),繪制出時空對象距離頻數(shù)柱狀圖,找出柱狀圖中最大距離頻數(shù)值所對應(yīng)的點,該點的時間(或空間)距離大小值便可作為該維度下的閾值,即時間閾值temporal_threshold(或空間閾值sptial_threshold)。
步驟4:計算時空對象量閾值minPts,計算公式如下:
2.2 算法實現(xiàn)過程
具體實現(xiàn)步驟如下:
步驟1:從基礎(chǔ)數(shù)據(jù)庫中獲取目標(biāo)數(shù)據(jù),數(shù)據(jù)必須含有參數(shù)經(jīng)度x,緯度y,時間t,由此構(gòu)成滿足條件的時空對象數(shù)據(jù),每條完整的基礎(chǔ)數(shù)據(jù)記為一個時空對象點Ci={idi,xi,yi,ti},i(1in)表示時空對象序號,從而組成對象集合DC。
步驟2:選取任意對象點Ci,(Ci∈DC),判讀其是否屬于現(xiàn)有簇中,如果該點已有歸屬簇,則選取下一個對象點Ci+1,否則進(jìn)行下一步操作。
步驟3:判斷對象點Ci是否為時空核心對象,是核心對象則進(jìn)行下一步操作,否則就返回步驟2,重新選擇新的對象點。
步驟4:搜索時空核心對象點Ci的所有時空相鄰對象點Ei,如果Ei不屬于任何已經(jīng)存在的簇,那么就將Ei放入新簇中,反之Ei已有歸屬簇則不進(jìn)行操作。
步驟5:判斷步驟4中放入的對象點Ei是否為新簇中的時空核心對象,如果不是核心對象,則將其標(biāo)記為邊緣時空對象不再進(jìn)行下步操作,如果是核心對象則重復(fù)步驟4。
步驟6:重復(fù)上述步驟2到步驟5的操作,直到DC中所有對象都屬于某個簇,或為時空孤立點截止。
步驟7:將上述得到的所有簇標(biāo)簽存放到新建數(shù)據(jù)的對應(yīng)字段中,方便后續(xù)的結(jié)果分析。
3 基于聚類分析的熱點缺陷區(qū)域研究
目前,鐵路供電系統(tǒng)中的各種檢測監(jiān)測設(shè)備對接觸網(wǎng)的運行狀態(tài)實現(xiàn)了全線路實時監(jiān)測、精確定位、缺陷報警監(jiān)控、數(shù)據(jù)集中的存儲、信息共享等功能,而相關(guān)配套的智能分析系統(tǒng)可以通過綜合各種數(shù)據(jù),比如(車型、導(dǎo)高值、拉出值、線路、區(qū)站、行別、經(jīng)緯度、時間、缺陷類型、缺陷級別等),實現(xiàn)供電設(shè)備缺陷的智能識別和預(yù)警。隨著設(shè)備不斷采集數(shù)據(jù)和系統(tǒng)結(jié)果計算,使得現(xiàn)在積累了大量有關(guān)接觸網(wǎng)缺陷相關(guān)的線路基礎(chǔ)數(shù)據(jù),亟待深入挖掘有用信息,讓基礎(chǔ)數(shù)據(jù)變得更有價值。
線路上缺陷的發(fā)生,在時間和位置上存在一定的規(guī)律性,為了挖掘缺陷在時空上的特性,本文利用時空聚類方法設(shè)計出的高速鐵路網(wǎng)供電系統(tǒng)發(fā)生缺陷的熱點區(qū)域分析的時空模型,該模型可以展現(xiàn)線路整體時間段內(nèi)(年、月)缺陷熱點爆發(fā)趨勢,根據(jù)趨勢提出預(yù)警方案,對第二年的工作鐵路的檢修計劃有一定的指導(dǎo)意義。此次挖掘主要實現(xiàn)方案如圖1。
(1)數(shù)據(jù)清洗。由于基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)存在字段為空,存儲內(nèi)容格式不統(tǒng)一、經(jīng)緯度不準(zhǔn)等問題,需要將這些數(shù)據(jù)進(jìn)行清洗,保證目標(biāo)數(shù)據(jù)的完整性。
(2)數(shù)據(jù)處理。對清洗后的數(shù)據(jù)進(jìn)行處理,調(diào)準(zhǔn)經(jīng)緯度,對時間項進(jìn)行格式轉(zhuǎn)化,篩選出模型計算需要的有用字段,組成新的數(shù)據(jù)集。
(3)分析計算。首先,計算出模型的空間閾值(以米為單位)、時間閾值(以天為單位),以及調(diào)整minPts的值。然后,調(diào)用ST-DBSCAN算法模型進(jìn)行數(shù)據(jù)挖掘計算。最后,聚類結(jié)果中cluster值為“-1”表示離散點,非“-1”表示缺陷熱點。
(4)結(jié)果可視化。將所有聚類結(jié)果,根據(jù)類別利用三維圖像可視化展示。
(5)根據(jù)該線路熱點區(qū)域聚類分布情況,給出缺陷的預(yù)警方案。
4 運行檢測實驗結(jié)果
要滿足時空聚類條件,需要選取缺陷較為密集的位置進(jìn)行挖掘,稀疏類的缺陷無法進(jìn)行時空分析。本次實驗樣本主要選取2019年以前沈陽鐵路局管理區(qū)域內(nèi)的燃弧類、吊弦類一二類缺陷數(shù)據(jù)。
4.1 燃弧類缺陷結(jié)果分析
本次實驗測試選取了2019年沈陽鐵路局-秦沈線-錦州供電段內(nèi)6000條列車上行一二類燃弧缺陷數(shù)據(jù)作為模型演示樣本,經(jīng)過數(shù)據(jù)清洗剩余5102條有限缺陷數(shù)據(jù),由于不同區(qū)站上燃弧缺陷聚類結(jié)果顯著,分布范圍較廣(見表1),為了表示不同區(qū)站上缺陷熱點分布情況,因此本次將用不同顏色的點進(jìn)行可視化,演示結(jié)果如圖2所示。
圖2中黑色點表示缺陷熱點分散點,其它顏色點的集群表示缺陷的熱點簇。從時間維度分析,燃弧類缺陷高發(fā)段主要出現(xiàn)在4-9月份(詳情見表2)。
以盤錦北站-錦州南站區(qū)站上的分布情況為例,進(jìn)行聚類結(jié)果分析:
圖中X坐標(biāo)軸為地理緯度,Y為經(jīng)度,Z為時間軸(分為12個月)。盤錦北站-錦州南站區(qū)站燃弧缺陷熱點聚集區(qū)為:圖2中黃-A區(qū)域(1-2月份)、黃-B區(qū)域(4-9月份)、黃-C區(qū)域(10-12月份)、黃-D區(qū)域(10月份)。
該區(qū)段上燃弧缺陷較少發(fā)生區(qū)域為:3月份。
4.2 吊弦類缺陷結(jié)果分析
為了測試不同線路熱點區(qū)域缺陷分布情況,實驗選取了2019年以前沈陽鐵路局2000條吊弦數(shù)據(jù)作為模型演示樣本,經(jīng)過數(shù)據(jù)清洗剩余1958條有效缺陷數(shù)據(jù),為了區(qū)分不同線路缺陷高發(fā)區(qū),用不同顏色的點表示不同線路缺陷的熱點高發(fā)區(qū)(見表3),演示結(jié)果如圖4所示。
圖4中黑色點表示缺陷熱點分散點,紅色集群表示丹大快速線上的缺陷熱點簇,橘色集群表示秦沈線上的缺陷熱點簇,粉色集群表示長琿城際上的缺陷熱點簇,綠色點集群表示沈丹客專線上的缺陷熱點簇,灰色表示其他線上的熱點簇。
以長琿城際的分布情況為例,進(jìn)行聚類結(jié)果分析:
長琿城際線上吊弦缺陷熱點聚集區(qū)為:圖5中黃-A區(qū)域(1-3月份)、黃-B區(qū)域(2-5月份)、黃-C區(qū)域(5-8月份)、黃-D區(qū)域(11-12月份)。
該線路上吊弦缺陷較少發(fā)生區(qū)域為:墨綠-A區(qū)域(2-5月份)、墨綠-B區(qū)域(10-12月份)。
4.3 缺陷預(yù)警方案
此次缺陷熱點預(yù)警方案主要針對樣本數(shù)據(jù),對來年發(fā)生相關(guān)缺陷的時間-地理位置預(yù)警:首先,將設(shè)備缺陷預(yù)警分為三級:一級預(yù)警為缺陷較密集狀態(tài),即熱點趨勢;二級預(yù)警為缺陷密度平均狀態(tài);三級預(yù)警為缺陷較稀疏狀態(tài)。然后,根據(jù)不同的時間段,給用戶推送針對不同區(qū)域的預(yù)警信息及方案,情況如下:
(1)一級預(yù)警:在熱點時間段內(nèi)提示用戶,對各熱點區(qū)域增加日常檢修頻數(shù),預(yù)防設(shè)備損壞。
(2)二級預(yù)警:在缺陷平均時間、區(qū)域內(nèi)提示用戶,進(jìn)行正常的日常檢修。
(3)三級預(yù)警:在缺陷較少時間、區(qū)域內(nèi)提示用戶,減少日常檢修頻數(shù),降低人工成本,提高檢修效率。
5 結(jié)論
為了提高現(xiàn)有缺陷檢測數(shù)據(jù)的利用率,提高線路檢測數(shù)據(jù)的利用率,本文提出了一種基于聚類算法分析的高速鐵路供電系統(tǒng)接觸網(wǎng)缺陷熱點區(qū)域分布的挖掘模型方案,這種方案將利用時間、空間、線路發(fā)生的缺陷三種參數(shù)作為聚類的核心參數(shù)進(jìn)行分析計算,得出線路的缺陷熱點區(qū)域分布圖,然后結(jié)合聚類結(jié)果分析給出比較合理的預(yù)警方案。所得預(yù)警方案在實際檢修中有較強的指導(dǎo)意義。
參考文獻(xiàn)
[1]王璟,張于峰.高速鐵路牽引供電系統(tǒng)健康管理及故障預(yù)警體系[J].中國高新科技,2019,(14):81-83.
[2]史冬雪.6C系統(tǒng)保障高鐵供電設(shè)備安全[J].世界軌道交通,2012,(9):22-23.
[3]陳海波.高速鐵路接觸網(wǎng)檢測技術(shù)分析[J].建材與裝飾,2018,(4):278-279.
[4]王達(dá),崔蕊.數(shù)據(jù)平滑技術(shù)綜述[J].電腦知識與技術(shù),2009,5(17):4507-4509.
[5]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:水利水電出版社,2003.
[6]韋勝,高湛.中國高鐵網(wǎng)絡(luò)空間分布格局及其發(fā)展變化研究[C].2018年中國城市交通規(guī)劃年會論文集,2018:579-591.
[7]王藝錚.談中國高鐵的發(fā)展[J].智富時代,2019,(3):40-40.
[8]程學(xué)慶,李月,楊濤,等.高速鐵路供電系統(tǒng)安全風(fēng)險研究[J].鐵道科學(xué)與工程學(xué)報,2016,13(2):233-237.
[9]田國保.基于數(shù)據(jù)挖掘的接觸網(wǎng)檢測數(shù)據(jù)處理方法研究[J].科技創(chuàng)新與應(yīng)用,2012,(13):81-82.
[10]唐建波,鄧敏,劉啟亮.時空事件聚類分析方法研究[J].地理信息世界,2013,20(1):38-45.
[11]Thakur, Sidharth, et al. SUMMARY VISUALIZATIONS FOR COASTAL SPATIAL-TEMPORAL DYNAMICS[J]. International Journal for Uncertainty Quantification,2013,3(3):241-253.
[12]Birant D, Kut A. ST-DBSCAN: An algorithm for clustering spatial–temporal data[J]. Data & Knowledge Engineering,2007,60(1):208-221.