龍 芳,楊 揚(yáng)
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756)
鐵路車站信號(hào)平面布置圖反應(yīng)了車站內(nèi)信號(hào)設(shè)備的屬性、位置、邏輯及各種約束關(guān)系,是車站計(jì)算機(jī)聯(lián)鎖系統(tǒng)開發(fā)、施工、運(yùn)營(yíng)維護(hù)的重要依據(jù)。不同鐵路設(shè)計(jì)單位的設(shè)計(jì)人員采用AutoCAD 設(shè)計(jì)的車站信號(hào)平面布置圖,數(shù)據(jù)格式差異大,使得在計(jì)算機(jī)聯(lián)鎖系統(tǒng)開發(fā)和車站信號(hào)相關(guān)應(yīng)用中無法直接利用圖紙數(shù)據(jù),須再次人工編制數(shù)據(jù)或通過輔助軟件得到站場(chǎng)數(shù)據(jù),影響信號(hào)設(shè)計(jì)軟件面向車站信號(hào)平面布置圖的通用性。
為解決上述問題,研究人員進(jìn)行了多種嘗試。文獻(xiàn)[1—3]提出從站前到站后、由功能模塊拼接的一體化系統(tǒng)軟件平臺(tái),解決內(nèi)部數(shù)據(jù)不規(guī)范、不統(tǒng)一的問題;文獻(xiàn)[4—6]中提出用MFC[4]、LISP[5]、ARX[6]等工具在程序中實(shí)現(xiàn)信號(hào)圖元的規(guī)范化設(shè)計(jì),豐富了圖紙中圖元的信息,降低反復(fù)讀圖的次數(shù);文獻(xiàn)[7—8]使用規(guī)則算法等識(shí)別規(guī)范中圖形符號(hào)的共性,達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的,解決了簡(jiǎn)易車站的信息識(shí)別;文獻(xiàn)[9]使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)上位機(jī)中站場(chǎng)的基本信息讀取,但站場(chǎng)平面布置圖難以滿足圖像識(shí)別的分辨率要求。
隨著信息技術(shù)的快速發(fā)展,對(duì)數(shù)據(jù)資源分析利用的數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用于各個(gè)領(lǐng)域[10-12]。本文以AtuoCAD 圖紙中的圖形數(shù)據(jù)作為研究對(duì)象,利用數(shù)據(jù)挖掘中的聚類和分類技術(shù)代替人工歸納推理規(guī)則,實(shí)現(xiàn)鐵路車站信號(hào)平面布置圖中圖例的目標(biāo)檢測(cè)與分類識(shí)別,結(jié)合專業(yè)知識(shí),輸出符合需求的、規(guī)范化的車站信號(hào)平面布置圖通用數(shù)據(jù),為信號(hào)設(shè)計(jì)軟件提供數(shù)據(jù)輸入接口。
車站信號(hào)平面布置圖由信號(hào)機(jī)、軌道電路及信號(hào)固定設(shè)備、站場(chǎng)固定設(shè)備等構(gòu)成。如圖1所示,SⅠ、SⅡ?yàn)槌稣拘盘?hào)機(jī),D9、D11 為調(diào)車信號(hào)機(jī),425、473 為警沖標(biāo),478 為超限絕緣,5、7、9、11為道岔。
圖1 車站信號(hào)平面布置示意
設(shè)計(jì)人員在AutoCAD 中設(shè)計(jì)信號(hào)圖元時(shí)有不同的畫法。警沖標(biāo)樣式不同,如圖2(a)所示,分別由雙圓單線、單圓單線、單圓實(shí)心填充加雙折線構(gòu)成;紅燈的填充方法不同,如圖2(b)所示,分別由弧形多段線增加寬度變?yōu)樘畛?、圓形實(shí)心填充、圓形斜線填充構(gòu)成;調(diào)車信號(hào)機(jī)的格式不同,如圖2(c)所示,分別由直線圓填充零散圖形、調(diào)車信號(hào)機(jī)定義塊格式組成,其中,定義塊是組合圖形類型。盡管信號(hào)圖元在圖像上的區(qū)別不明顯,但其在AutoCAD 中的格式截然不同,影響布置圖中信號(hào)圖例信息的提取。
圖2 信號(hào)圖例同構(gòu)混亂與格式混亂示例
本文梳理識(shí)別過程中車站信號(hào)平面布置圖數(shù)據(jù)的信息含義,總結(jié)出信息提取流程,如圖3所示。
圖3 車站信號(hào)平面布置圖數(shù)據(jù)信息提取流程
(1)圖形數(shù)據(jù)讀取。從AutoCAD 的數(shù)據(jù)交換DXF 格式[13]的組碼中解析出圖例數(shù)據(jù),判斷圖例是否為組合數(shù)據(jù),若是則讀取圖例組合塊數(shù)據(jù),若否則讀取圓、圓弧、直線、多段線、填充和文字等基本圖形數(shù)據(jù)。
(2)基本圖形預(yù)處理。通過遞歸方式讀取組合塊格式中的圖形數(shù)據(jù),省去聚類的步驟。圖形數(shù)據(jù)中多段線分解成直線、填充,圓弧合并成圓,消除格式混亂。去除長(zhǎng)度超過閾值以上的圓弧和直線,提取目標(biāo)圖形數(shù)據(jù)。
(3)圖形數(shù)據(jù)聚類。將交叉、包含、相切、相離的圖形關(guān)系轉(zhuǎn)換為數(shù)據(jù)位置距離關(guān)系,使用聚類算法對(duì)圖形數(shù)據(jù)進(jìn)行可達(dá)性聚類,形成圖形組。
(4)圖形組分類。以圖形組的數(shù)量關(guān)系、尺寸關(guān)系、連接關(guān)系為提取特征,在標(biāo)準(zhǔn)庫下訓(xùn)練出對(duì)圖例分類的算法,對(duì)待識(shí)別的圖紙進(jìn)行應(yīng)用檢驗(yàn)。同構(gòu)混亂的信號(hào)圖例,特征不同分類標(biāo)記相同,達(dá)到消除同構(gòu)混亂的目的。
結(jié)合鐵路信號(hào)專業(yè)知識(shí)構(gòu)建科學(xué)、客觀、與圖形意義相結(jié)合的模型分類與編碼。根據(jù)《鐵路工程制圖圖形符號(hào)標(biāo)準(zhǔn):TB/T 10059—2015》[14]總結(jié)出信號(hào)平面布置所需識(shí)別的信號(hào)設(shè)備及其編碼,如表1所示。其中,英文縮寫為燈光顏色——綠(L)、紅(R)、黃(U)、白(B)、藍(lán)(E)、空燈位(X),分類編碼的3 個(gè)數(shù)字分別表示一級(jí)、二級(jí)、三級(jí)分類。
表1 信號(hào)圖例分類與編碼
聚類是對(duì)圖紙中信號(hào)設(shè)備的目標(biāo)檢測(cè),將感興趣區(qū)域縮小為信號(hào)設(shè)備的大小。聚類算法針對(duì)一維文字?jǐn)?shù)據(jù)應(yīng)用較多,而圖形數(shù)據(jù)是二維圖形的抽象表達(dá),因此,需針對(duì)圖形數(shù)據(jù)特征對(duì)聚類算法作出改進(jìn)。
圖形圖元數(shù)據(jù)定義如下,圓(Circle)由圓心(cx,cy)和半徑cr組成;直線(Line)由兩端點(diǎn)(x1,y1) (x2,y2)組成;填充(Hatch)由邊緣(edge1,edge2,···)和填充類型(htype)組成;文字(Text)由坐標(biāo)(x1,y1)、內(nèi)容(content)和字號(hào)(fontsize)組成。根據(jù)圖形數(shù)據(jù)二維空間中的圖形含義,使用矩形可變?chǔ)亦徲騕15]可更好地描述其在空間中的位置。由此,改進(jìn)密度聚類算法DBSCAN,提出基于圖形數(shù)據(jù)的RV-DBSCAN 算法,其定義如下。
(1)σ鄰域
σ 鄰域是聚類的有效范圍區(qū)域,以圖元Circle,Line,Hatch,Text 的最小外接矩形(xmax,xmin,ymax,ymin)區(qū)域作為矩形σ鄰域,各圖元矩形鄰域具體定義如表2所示。
表2 圖形圖元矩形σ 鄰域
(2)直接密度可達(dá)
如果圖形數(shù)據(jù)Di與Dj鄰域存在交叉,則認(rèn)為Di與Dj相互密度可達(dá)。即滿足N(Di)={Dj<σ|?(xjmax<ximin)∪(xjmin<ximax)∪(yjmax< yimin)∪(yjmin<yimax)}
(3)密度可達(dá)
如果圖形數(shù)據(jù)Di與Dj間存在樣本圖形數(shù)據(jù)序列(D1,D2,···,Dt) 直接密度可達(dá),稱Di由Dj密度可達(dá)。
(4)RV-DBSCAN 算法流程
步驟1:輸入圖元矩形鄰域數(shù)據(jù)Circle,Line,Hatch,Text;
步驟2:依據(jù)直接密度可達(dá)定義,判斷鄰域交叉,獲取直接密度可達(dá)標(biāo)志矩陣;
步驟3:依據(jù)密度可達(dá)定義,對(duì)可達(dá)標(biāo)志矩陣遞歸,獲取密度可達(dá)集合;
步驟4:刪除密度可達(dá)集合中重復(fù)的元素;
步驟5:輸出圖形數(shù)據(jù)聚類組序號(hào)。
特征屬性是決策樹分類計(jì)算信息增益的對(duì)象,是識(shí)別圖形符號(hào)的關(guān)鍵。圖例的二維圖形的特征映射在一維是基本圖形種類和基本圖形相對(duì)位置。合并統(tǒng)計(jì)特征種類與連接關(guān)系可提升識(shí)別效率,將部分種類關(guān)系與連接關(guān)系合并得到表3,作為決策樹的圖形特征。其中,R為信號(hào)機(jī)大圓半徑。
表3 圖形拓?fù)涮卣鲗傩?/p>
C4.5 決策樹使用信息增益率進(jìn)行特征偏向選擇,降低決策樹分支過擬合的概率。設(shè)樣本集為S={S1,S2,···,Sn},劃分為標(biāo)簽集X={X1,X2,···,Xi},其中,每個(gè)樣本Sj包含m項(xiàng)的屬性向量(A1,A2,···,Am)T,每個(gè)屬性向量有k個(gè)不同的屬性取值{V1,V2,···,Vk},其信息熵為{P1,P2,···,Pk}。利用樣本集訓(xùn)練決策樹的流程如下。
(1)計(jì)算屬性取值的信息熵Info(S)和屬性向量的信息熵InfoA(S)
(2)計(jì)算屬性向量的信息增益Gain(A)和分割信息熵SplitA(S)
(3)計(jì)算屬性向量的信息增益率GainRate(A)
選取信息增益率最大的屬性作為當(dāng)前樹節(jié)點(diǎn),重復(fù)(1)~(3),直到?jīng)Q策樹達(dá)到最大深度或完全分類時(shí),即停止生長(zhǎng)。
好的決策樹具有合適的深度及合適的分叉數(shù)量,組合決策樹[16]利用現(xiàn)有分類自頂向下搭建組合框架,達(dá)到?jīng)Q策樹的平衡狀態(tài)?;?.1 節(jié)劃分的圖例分類,對(duì)形狀特征進(jìn)行微調(diào),得到組合決策樹,如圖4所示。其中,每個(gè)樹節(jié)點(diǎn)采用C4.5 決策樹進(jìn)行分類。
圖4 圖例分類組合決策樹
以組合決策樹中樹節(jié)點(diǎn)2-4 舉例,對(duì)特征屬性進(jìn)行C4.5 決策樹的訓(xùn)練和校驗(yàn)得到穩(wěn)定的決策樹。如圖5所示,實(shí)線框?yàn)樘卣鲗傩耘袆e,灰色虛線框?yàn)榉诸惤M別,屬性閾值由決策樹根據(jù)信息增益分組計(jì)算可得,左分支條件為真,右分支條件為假。
圖5 樹節(jié)點(diǎn)2-4 分類決策樹
在混淆矩陣中,將真實(shí)標(biāo)簽組分為真類(true)和假類(false),預(yù)測(cè)標(biāo)簽組分為正類(positive)和負(fù)類(negative)。TP為真正例的數(shù)量,即屬于某圖例的圖形數(shù)據(jù)在真實(shí)標(biāo)簽組和預(yù)測(cè)標(biāo)簽組中;FP為假正例的數(shù)量,即屬于某圖例的圖形數(shù)據(jù)在真實(shí)標(biāo)簽組中,而不在預(yù)測(cè)標(biāo)簽組中;FN是假負(fù)例的數(shù)量,即屬于某圖例的圖形數(shù)據(jù)在預(yù)測(cè)標(biāo)簽組中,而不在真實(shí)標(biāo)簽組中;TN是真負(fù)例的數(shù)量,即屬于某圖例的圖形數(shù)據(jù)不在預(yù)測(cè)標(biāo)簽組中,也不在真實(shí)標(biāo)簽組中。
聚類算法將準(zhǔn)確度和召回率的幾何平均值(FMI)作為評(píng)價(jià)指標(biāo),其公式為
分類算法將預(yù)測(cè)正確的樣本數(shù)量占總量的準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo),其公式為
本文依據(jù)不同車站規(guī)模和業(yè)務(wù)性質(zhì),搜集信號(hào)平面布置圖和車站信號(hào)圖例,對(duì)4 張普通車站和4 張高速鐵路車站信號(hào)平面布置圖進(jìn)行測(cè)試。測(cè)試圖紙難度從易到難:股道數(shù)量為4~20 條、信號(hào)設(shè)備數(shù)量為100~800 例、圖形數(shù)據(jù)量為600~8 000 項(xiàng),涵蓋不同信號(hào)設(shè)計(jì)單位畫法,充分考慮圖紙差異問題。
依據(jù)信號(hào)平面布置信息提取流程,在完成信號(hào)平面布置圖圖形數(shù)據(jù)讀取和預(yù)處理的情況下,對(duì)圖形圖元進(jìn)行鄰域構(gòu)建,并完成聚類。
本文選取DBSCAN、OPTICS、CLIQUE、RVDBSCAN 4 種聚類算法對(duì)相同圖形數(shù)據(jù)進(jìn)行聚類。聚類圖形結(jié)果如圖6所示,DBSCAN 算法由于圓形鄰域不能對(duì)任意圖形數(shù)據(jù)形狀起到良好聚類,固定距離使得疏松密集程度不同的圖紙需要不斷調(diào)整鄰域半徑,對(duì)密度變化的適應(yīng)性較差;OPTICS 改進(jìn)了固定聚類鄰域,做到了可變距離,但對(duì)扁平數(shù)據(jù)聚類不靈敏;CLIQUE 改進(jìn)了固定距離和圓形鄰域,但結(jié)果受網(wǎng)格劃分參數(shù)影響較大,需根據(jù)圖紙大小調(diào)整網(wǎng)格參數(shù);RV-DBSCAN 的聚類效果最好。
圖6 聚類算法圖形結(jié)果示例
算法聚類數(shù)據(jù)結(jié)果如表4所示,DBSCAN、OPTICS、CLIQUE、RV-DBSCAN 的FMI 評(píng)分分別為0.899 6、0.939 5、0.956 8、0.986 0??芍猂V-DBSCAN聚類算法效果最佳,其真正例、假正例、假負(fù)例的個(gè)數(shù)情況都優(yōu)于其他聚類算法。由于聚類為非監(jiān)督學(xué)習(xí)算法,真負(fù)例的情況往往不在考慮范圍內(nèi),因此不列出。
表4 聚類算法數(shù)據(jù)結(jié)果
聚類是將圖形數(shù)據(jù)形成圖形組,聚類結(jié)果是對(duì)圖形數(shù)據(jù)分組的正確性判斷。分類是對(duì)圖形組進(jìn)行設(shè)備分類,分類結(jié)果是對(duì)圖形組分類編碼的正確性判斷。對(duì)分類圖形組進(jìn)行分類識(shí)別,對(duì)比預(yù)測(cè)結(jié)果與標(biāo)記結(jié)果得到正確分類個(gè)數(shù)和正判率。
如表5所示,組合決策樹、單決策樹、K-最近鄰算法(KNN,K-Nearest Neighbor)、支持向量機(jī)(SVM,Support Vector Machine)模型總體正判率分別為95.64%、92.16%、83.88%、86.71%??梢姡瑳Q策樹分類模型整體優(yōu)于KNN 和SVM 分類模型,且組合決策樹模型的分類效果優(yōu)于單決策樹模型。
表5 分類算法結(jié)果
組合決策樹通過專家知識(shí)形成層級(jí)的決策樹節(jié)點(diǎn),與表1的三級(jí)分類編碼對(duì)應(yīng),避免因測(cè)試案例不足,傾向非關(guān)鍵特征。而在組合決策樹的分級(jí)分類結(jié)果中,信號(hào)固定設(shè)備和站場(chǎng)固定設(shè)備在二級(jí)分類中錯(cuò)誤明顯,信號(hào)機(jī)則在三級(jí)分類中正判率最低,說明可進(jìn)一步調(diào)整組合決策樹的模型達(dá)到整體最優(yōu)。
車站內(nèi)信號(hào)、道岔、進(jìn)路間的相互制約關(guān)系稱為聯(lián)鎖,記錄該關(guān)系的圖表稱為聯(lián)鎖表。聯(lián)鎖表中包含方向欄、進(jìn)路欄、道岔欄、軌道區(qū)段欄等。可從車站信號(hào)平面布置圖中提取數(shù)據(jù)生成聯(lián)鎖表,所需數(shù)據(jù)的格式如表6所示。
表6 生成聯(lián)鎖表所需數(shù)據(jù)格式
圖形數(shù)據(jù)邏輯構(gòu)建與生成聯(lián)鎖表應(yīng)用流程如下。
(1)預(yù)測(cè)圖形組分類依據(jù)圖例編碼對(duì)應(yīng)給出信號(hào)設(shè)備的類型;
(2)將信號(hào)機(jī)、超限絕緣、盡頭絕緣等合并為絕緣節(jié)類型分割軌道電路;
(3)軌道電路中存在道岔的為有岔區(qū)段,反之為無岔區(qū)段;
(4)識(shí)別的信號(hào)圖例與生成的軌道電路設(shè)備數(shù)據(jù)導(dǎo)入信號(hào)設(shè)計(jì)軟件中,生成聯(lián)鎖表。
本文提出一種基于數(shù)據(jù)挖掘的方法對(duì)車站信號(hào)平面布置圖進(jìn)行圖紙端到信號(hào)設(shè)計(jì)軟件端的信息標(biāo)準(zhǔn)化、規(guī)范化提取。
(1)提出可變距離矩形鄰域的RV-DBSCAN 密度聚類算法,對(duì)圖形數(shù)據(jù)進(jìn)行聚類,形成圖形組,達(dá)到目標(biāo)檢測(cè)的目的。該聚類算法FMI 評(píng)分為0.986 0。
(2)選取圖形種類和連接關(guān)系作為特征,使用組合決策樹對(duì)圖形組進(jìn)行分類識(shí)別,實(shí)現(xiàn)對(duì)設(shè)備的分類。分類算法準(zhǔn)確率達(dá)到95.64%。
(3)通過對(duì)車站信號(hào)平面布置圖中圖形數(shù)據(jù)的數(shù)據(jù)挖掘,實(shí)現(xiàn)了車站信號(hào)平面布置圖信息提取的數(shù)據(jù)標(biāo)準(zhǔn)化,達(dá)到提高各設(shè)計(jì)環(huán)節(jié)的設(shè)計(jì)效率的目的。
值得注意的是,設(shè)計(jì)帶來的格式混亂和同構(gòu)混亂在標(biāo)準(zhǔn)庫中不能窮舉,使得識(shí)別率存在不可預(yù)料的誤差,圖形聚類在信號(hào)設(shè)備圖例距離小于設(shè)定的σ 鄰域時(shí)也不能有效識(shí)別。下一階段,可進(jìn)一步提高數(shù)據(jù)挖掘識(shí)別圖紙的通用性,如適用不同數(shù)據(jù)格式軟件應(yīng)用,根據(jù)信號(hào)設(shè)備位置構(gòu)建區(qū)間、城軌和車輛段的軌道電路邏輯,為多類信號(hào)軟件提供信息讀取服務(wù)。