亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)挖掘的鐵路車站信號(hào)平面布置圖信息提取

2023-01-16 13:25:58龍芳，楊揚(yáng)

鐵路計(jì)算機(jī)應(yīng)用 2022年12期

龍芳，楊揚(yáng)

（西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院，成都 611756）

鐵路車站信號(hào)平面布置圖反應(yīng)了車站內(nèi)信號(hào)設(shè)備的屬性、位置、邏輯及各種約束關(guān)系，是車站計(jì)算機(jī)聯(lián)鎖系統(tǒng)開發(fā)、施工、運(yùn)營(yíng)維護(hù)的重要依據(jù)。不同鐵路設(shè)計(jì)單位的設(shè)計(jì)人員采用AutoCAD 設(shè)計(jì)的車站信號(hào)平面布置圖，數(shù)據(jù)格式差異大，使得在計(jì)算機(jī)聯(lián)鎖系統(tǒng)開發(fā)和車站信號(hào)相關(guān)應(yīng)用中無法直接利用圖紙數(shù)據(jù)，須再次人工編制數(shù)據(jù)或通過輔助軟件得到站場(chǎng)數(shù)據(jù)，影響信號(hào)設(shè)計(jì)軟件面向車站信號(hào)平面布置圖的通用性。

為解決上述問題，研究人員進(jìn)行了多種嘗試。文獻(xiàn)[1—3]提出從站前到站后、由功能模塊拼接的一體化系統(tǒng)軟件平臺(tái)，解決內(nèi)部數(shù)據(jù)不規(guī)范、不統(tǒng)一的問題；文獻(xiàn)[4—6]中提出用MFC[4]、LISP[5]、ARX[6]等工具在程序中實(shí)現(xiàn)信號(hào)圖元的規(guī)范化設(shè)計(jì)，豐富了圖紙中圖元的信息，降低反復(fù)讀圖的次數(shù)；文獻(xiàn)[7—8]使用規(guī)則算法等識(shí)別規(guī)范中圖形符號(hào)的共性，達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的，解決了簡(jiǎn)易車站的信息識(shí)別；文獻(xiàn)[9]使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)上位機(jī)中站場(chǎng)的基本信息讀取，但站場(chǎng)平面布置圖難以滿足圖像識(shí)別的分辨率要求。

隨著信息技術(shù)的快速發(fā)展，對(duì)數(shù)據(jù)資源分析利用的數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用于各個(gè)領(lǐng)域[10-12]。本文以AtuoCAD 圖紙中的圖形數(shù)據(jù)作為研究對(duì)象，利用數(shù)據(jù)挖掘中的聚類和分類技術(shù)代替人工歸納推理規(guī)則，實(shí)現(xiàn)鐵路車站信號(hào)平面布置圖中圖例的目標(biāo)檢測(cè)與分類識(shí)別，結(jié)合專業(yè)知識(shí)，輸出符合需求的、規(guī)范化的車站信號(hào)平面布置圖通用數(shù)據(jù)，為信號(hào)設(shè)計(jì)軟件提供數(shù)據(jù)輸入接口。

1 問題分析與識(shí)別流程

1.1 車站信號(hào)平面布置問題分析

車站信號(hào)平面布置圖由信號(hào)機(jī)、軌道電路及信號(hào)固定設(shè)備、站場(chǎng)固定設(shè)備等構(gòu)成。如圖1所示，SⅠ、SⅡ?yàn)槌稣拘盘?hào)機(jī)，D9、D11 為調(diào)車信號(hào)機(jī)，425、473 為警沖標(biāo)，478 為超限絕緣，5、7、9、11為道岔。

圖1 車站信號(hào)平面布置示意

設(shè)計(jì)人員在AutoCAD 中設(shè)計(jì)信號(hào)圖元時(shí)有不同的畫法。警沖標(biāo)樣式不同，如圖2（a）所示，分別由雙圓單線、單圓單線、單圓實(shí)心填充加雙折線構(gòu)成；紅燈的填充方法不同，如圖2（b）所示，分別由弧形多段線增加寬度變?yōu)樘畛?、圓形實(shí)心填充、圓形斜線填充構(gòu)成；調(diào)車信號(hào)機(jī)的格式不同，如圖2（c）所示，分別由直線圓填充零散圖形、調(diào)車信號(hào)機(jī)定義塊格式組成，其中，定義塊是組合圖形類型。盡管信號(hào)圖元在圖像上的區(qū)別不明顯，但其在AutoCAD 中的格式截然不同，影響布置圖中信號(hào)圖例信息的提取。

圖2 信號(hào)圖例同構(gòu)混亂與格式混亂示例

1.2 車站信號(hào)平面布置圖信息提取流程

本文梳理識(shí)別過程中車站信號(hào)平面布置圖數(shù)據(jù)的信息含義，總結(jié)出信息提取流程，如圖3所示。

圖3 車站信號(hào)平面布置圖數(shù)據(jù)信息提取流程

（1）圖形數(shù)據(jù)讀取。從AutoCAD 的數(shù)據(jù)交換DXF 格式[13]的組碼中解析出圖例數(shù)據(jù)，判斷圖例是否為組合數(shù)據(jù)，若是則讀取圖例組合塊數(shù)據(jù)，若否則讀取圓、圓弧、直線、多段線、填充和文字等基本圖形數(shù)據(jù)。

（2）基本圖形預(yù)處理。通過遞歸方式讀取組合塊格式中的圖形數(shù)據(jù)，省去聚類的步驟。圖形數(shù)據(jù)中多段線分解成直線、填充，圓弧合并成圓，消除格式混亂。去除長(zhǎng)度超過閾值以上的圓弧和直線，提取目標(biāo)圖形數(shù)據(jù)。

（3）圖形數(shù)據(jù)聚類。將交叉、包含、相切、相離的圖形關(guān)系轉(zhuǎn)換為數(shù)據(jù)位置距離關(guān)系，使用聚類算法對(duì)圖形數(shù)據(jù)進(jìn)行可達(dá)性聚類，形成圖形組。

（4）圖形組分類。以圖形組的數(shù)量關(guān)系、尺寸關(guān)系、連接關(guān)系為提取特征，在標(biāo)準(zhǔn)庫下訓(xùn)練出對(duì)圖例分類的算法，對(duì)待識(shí)別的圖紙進(jìn)行應(yīng)用檢驗(yàn)。同構(gòu)混亂的信號(hào)圖例，特征不同分類標(biāo)記相同，達(dá)到消除同構(gòu)混亂的目的。

2 信號(hào)平面布置圖圖例提取建模

2.1 圖例模型分類編碼

結(jié)合鐵路信號(hào)專業(yè)知識(shí)構(gòu)建科學(xué)、客觀、與圖形意義相結(jié)合的模型分類與編碼。根據(jù)《鐵路工程制圖圖形符號(hào)標(biāo)準(zhǔn)：TB/T 10059—2015》[14]總結(jié)出信號(hào)平面布置所需識(shí)別的信號(hào)設(shè)備及其編碼，如表1所示。其中，英文縮寫為燈光顏色——綠（L）、紅（R）、黃（U）、白（B）、藍(lán)（E）、空燈位（X），分類編碼的3 個(gè)數(shù)字分別表示一級(jí)、二級(jí)、三級(jí)分類。

表1 信號(hào)圖例分類與編碼

2.2 RV-DBSCAN 的圖形數(shù)據(jù)聚類

聚類是對(duì)圖紙中信號(hào)設(shè)備的目標(biāo)檢測(cè)，將感興趣區(qū)域縮小為信號(hào)設(shè)備的大小。聚類算法針對(duì)一維文字?jǐn)?shù)據(jù)應(yīng)用較多，而圖形數(shù)據(jù)是二維圖形的抽象表達(dá)，因此，需針對(duì)圖形數(shù)據(jù)特征對(duì)聚類算法作出改進(jìn)。

圖形圖元數(shù)據(jù)定義如下，圓（Circle）由圓心（cx,cy）和半徑cr組成；直線（Line）由兩端點(diǎn)(x1,y1) (x2,y2）組成；填充（Hatch）由邊緣（edge1,edge2,···）和填充類型（htype）組成；文字（Text）由坐標(biāo)(x1,y1)、內(nèi)容（content）和字號(hào)（fontsize）組成。根據(jù)圖形數(shù)據(jù)二維空間中的圖形含義，使用矩形可變?chǔ)亦徲騕15]可更好地描述其在空間中的位置。由此，改進(jìn)密度聚類算法DBSCAN，提出基于圖形數(shù)據(jù)的RV-DBSCAN 算法，其定義如下。

（1）σ鄰域

σ 鄰域是聚類的有效范圍區(qū)域，以圖元Circle，Line，Hatch，Text 的最小外接矩形（xmax,xmin,ymax,ymin）區(qū)域作為矩形σ鄰域，各圖元矩形鄰域具體定義如表2所示。

表2 圖形圖元矩形σ 鄰域

（2）直接密度可達(dá)

如果圖形數(shù)據(jù)Di與Dj鄰域存在交叉，則認(rèn)為Di與Dj相互密度可達(dá)。即滿足N(Di)={Dj＜σ|?(xjmax＜ximin)∪(xjmin＜ximax)∪(yjmax＜ yimin)∪(yjmin＜yimax)}

（3）密度可達(dá)

如果圖形數(shù)據(jù)Di與Dj間存在樣本圖形數(shù)據(jù)序列(D1,D2,···,Dt) 直接密度可達(dá)，稱Di由Dj密度可達(dá)。

（4）RV-DBSCAN 算法流程

步驟1：輸入圖元矩形鄰域數(shù)據(jù)Circle,Line,Hatch,Text；

步驟2：依據(jù)直接密度可達(dá)定義，判斷鄰域交叉，獲取直接密度可達(dá)標(biāo)志矩陣；

步驟3：依據(jù)密度可達(dá)定義，對(duì)可達(dá)標(biāo)志矩陣遞歸，獲取密度可達(dá)集合；

步驟4：刪除密度可達(dá)集合中重復(fù)的元素；

步驟5：輸出圖形數(shù)據(jù)聚類組序號(hào)。

2.3 特征屬性選擇與C4.5 決策樹原理

特征屬性是決策樹分類計(jì)算信息增益的對(duì)象，是識(shí)別圖形符號(hào)的關(guān)鍵。圖例的二維圖形的特征映射在一維是基本圖形種類和基本圖形相對(duì)位置。合并統(tǒng)計(jì)特征種類與連接關(guān)系可提升識(shí)別效率，將部分種類關(guān)系與連接關(guān)系合并得到表3，作為決策樹的圖形特征。其中，R為信號(hào)機(jī)大圓半徑。

表3 圖形拓?fù)涮卣鲗傩?/p>

C4.5 決策樹使用信息增益率進(jìn)行特征偏向選擇，降低決策樹分支過擬合的概率。設(shè)樣本集為S={S1,S2,···,Sn}，劃分為標(biāo)簽集X={X1,X2,···,Xi}，其中，每個(gè)樣本Sj包含m項(xiàng)的屬性向量(A1,A2,···,Am)T，每個(gè)屬性向量有k個(gè)不同的屬性取值{V1,V2,···,Vk}，其信息熵為{P1,P2,···,Pk}。利用樣本集訓(xùn)練決策樹的流程如下。

（1）計(jì)算屬性取值的信息熵Info(S)和屬性向量的信息熵InfoA(S)

（2）計(jì)算屬性向量的信息增益Gain(A)和分割信息熵SplitA(S)

（3）計(jì)算屬性向量的信息增益率GainRate(A)

選取信息增益率最大的屬性作為當(dāng)前樹節(jié)點(diǎn)，重復(fù)（1）～（3），直到?jīng)Q策樹達(dá)到最大深度或完全分類時(shí)，即停止生長(zhǎng)。

2.4 組合決策樹對(duì)圖形組的分類識(shí)別

好的決策樹具有合適的深度及合適的分叉數(shù)量，組合決策樹[16]利用現(xiàn)有分類自頂向下搭建組合框架，達(dá)到?jīng)Q策樹的平衡狀態(tài)?；?.1 節(jié)劃分的圖例分類，對(duì)形狀特征進(jìn)行微調(diào)，得到組合決策樹，如圖4所示。其中，每個(gè)樹節(jié)點(diǎn)采用C4.5 決策樹進(jìn)行分類。

圖4 圖例分類組合決策樹

以組合決策樹中樹節(jié)點(diǎn)2-4 舉例，對(duì)特征屬性進(jìn)行C4.5 決策樹的訓(xùn)練和校驗(yàn)得到穩(wěn)定的決策樹。如圖5所示，實(shí)線框?yàn)樘卣鲗傩耘袆e，灰色虛線框?yàn)榉诸惤M別，屬性閾值由決策樹根據(jù)信息增益分組計(jì)算可得，左分支條件為真，右分支條件為假。

圖5 樹節(jié)點(diǎn)2-4 分類決策樹

2.5 評(píng)價(jià)指標(biāo)

在混淆矩陣中，將真實(shí)標(biāo)簽組分為真類（true）和假類（false），預(yù)測(cè)標(biāo)簽組分為正類（positive）和負(fù)類（negative）。TP為真正例的數(shù)量，即屬于某圖例的圖形數(shù)據(jù)在真實(shí)標(biāo)簽組和預(yù)測(cè)標(biāo)簽組中；FP為假正例的數(shù)量,即屬于某圖例的圖形數(shù)據(jù)在真實(shí)標(biāo)簽組中，而不在預(yù)測(cè)標(biāo)簽組中；FN是假負(fù)例的數(shù)量，即屬于某圖例的圖形數(shù)據(jù)在預(yù)測(cè)標(biāo)簽組中，而不在真實(shí)標(biāo)簽組中；TN是真負(fù)例的數(shù)量，即屬于某圖例的圖形數(shù)據(jù)不在預(yù)測(cè)標(biāo)簽組中，也不在真實(shí)標(biāo)簽組中。

聚類算法將準(zhǔn)確度和召回率的幾何平均值（FMI）作為評(píng)價(jià)指標(biāo)，其公式為

分類算法將預(yù)測(cè)正確的樣本數(shù)量占總量的準(zhǔn)確率（Accuracy）作為評(píng)價(jià)指標(biāo)，其公式為

3 信號(hào)平面布置圖信息提取實(shí)例分析

3.1 測(cè)試布置圖簡(jiǎn)述

本文依據(jù)不同車站規(guī)模和業(yè)務(wù)性質(zhì)，搜集信號(hào)平面布置圖和車站信號(hào)圖例，對(duì)4 張普通車站和4 張高速鐵路車站信號(hào)平面布置圖進(jìn)行測(cè)試。測(cè)試圖紙難度從易到難：股道數(shù)量為4～20 條、信號(hào)設(shè)備數(shù)量為100～800 例、圖形數(shù)據(jù)量為600～8 000 項(xiàng)，涵蓋不同信號(hào)設(shè)計(jì)單位畫法，充分考慮圖紙差異問題。

3.2 聚類結(jié)果分析

依據(jù)信號(hào)平面布置信息提取流程，在完成信號(hào)平面布置圖圖形數(shù)據(jù)讀取和預(yù)處理的情況下，對(duì)圖形圖元進(jìn)行鄰域構(gòu)建，并完成聚類。

本文選取DBSCAN、OPTICS、CLIQUE、RVDBSCAN 4 種聚類算法對(duì)相同圖形數(shù)據(jù)進(jìn)行聚類。聚類圖形結(jié)果如圖6所示，DBSCAN 算法由于圓形鄰域不能對(duì)任意圖形數(shù)據(jù)形狀起到良好聚類，固定距離使得疏松密集程度不同的圖紙需要不斷調(diào)整鄰域半徑，對(duì)密度變化的適應(yīng)性較差；OPTICS 改進(jìn)了固定聚類鄰域，做到了可變距離，但對(duì)扁平數(shù)據(jù)聚類不靈敏；CLIQUE 改進(jìn)了固定距離和圓形鄰域，但結(jié)果受網(wǎng)格劃分參數(shù)影響較大，需根據(jù)圖紙大小調(diào)整網(wǎng)格參數(shù)；RV-DBSCAN 的聚類效果最好。

圖6 聚類算法圖形結(jié)果示例

算法聚類數(shù)據(jù)結(jié)果如表4所示，DBSCAN、OPTICS、CLIQUE、RV-DBSCAN 的FMI 評(píng)分分別為0.899 6、0.939 5、0.956 8、0.986 0?？芍猂V-DBSCAN聚類算法效果最佳，其真正例、假正例、假負(fù)例的個(gè)數(shù)情況都優(yōu)于其他聚類算法。由于聚類為非監(jiān)督學(xué)習(xí)算法，真負(fù)例的情況往往不在考慮范圍內(nèi)，因此不列出。

表4 聚類算法數(shù)據(jù)結(jié)果

3.3 分類結(jié)果分析

聚類是將圖形數(shù)據(jù)形成圖形組，聚類結(jié)果是對(duì)圖形數(shù)據(jù)分組的正確性判斷。分類是對(duì)圖形組進(jìn)行設(shè)備分類，分類結(jié)果是對(duì)圖形組分類編碼的正確性判斷。對(duì)分類圖形組進(jìn)行分類識(shí)別，對(duì)比預(yù)測(cè)結(jié)果與標(biāo)記結(jié)果得到正確分類個(gè)數(shù)和正判率。

如表5所示，組合決策樹、單決策樹、K-最近鄰算法（KNN，K-Nearest Neighbor）、支持向量機(jī)（SVM，Support Vector Machine）模型總體正判率分別為95.64%、92.16%、83.88%、86.71%?？梢姡瑳Q策樹分類模型整體優(yōu)于KNN 和SVM 分類模型，且組合決策樹模型的分類效果優(yōu)于單決策樹模型。

表5 分類算法結(jié)果

組合決策樹通過專家知識(shí)形成層級(jí)的決策樹節(jié)點(diǎn)，與表1的三級(jí)分類編碼對(duì)應(yīng)，避免因測(cè)試案例不足，傾向非關(guān)鍵特征。而在組合決策樹的分級(jí)分類結(jié)果中，信號(hào)固定設(shè)備和站場(chǎng)固定設(shè)備在二級(jí)分類中錯(cuò)誤明顯，信號(hào)機(jī)則在三級(jí)分類中正判率最低，說明可進(jìn)一步調(diào)整組合決策樹的模型達(dá)到整體最優(yōu)。

3.4 車站信號(hào)平面布置圖數(shù)據(jù)提取應(yīng)用

車站內(nèi)信號(hào)、道岔、進(jìn)路間的相互制約關(guān)系稱為聯(lián)鎖，記錄該關(guān)系的圖表稱為聯(lián)鎖表。聯(lián)鎖表中包含方向欄、進(jìn)路欄、道岔欄、軌道區(qū)段欄等。可從車站信號(hào)平面布置圖中提取數(shù)據(jù)生成聯(lián)鎖表，所需數(shù)據(jù)的格式如表6所示。

表6 生成聯(lián)鎖表所需數(shù)據(jù)格式

圖形數(shù)據(jù)邏輯構(gòu)建與生成聯(lián)鎖表應(yīng)用流程如下。

（1）預(yù)測(cè)圖形組分類依據(jù)圖例編碼對(duì)應(yīng)給出信號(hào)設(shè)備的類型；

（2）將信號(hào)機(jī)、超限絕緣、盡頭絕緣等合并為絕緣節(jié)類型分割軌道電路；

（3）軌道電路中存在道岔的為有岔區(qū)段，反之為無岔區(qū)段；

（4）識(shí)別的信號(hào)圖例與生成的軌道電路設(shè)備數(shù)據(jù)導(dǎo)入信號(hào)設(shè)計(jì)軟件中，生成聯(lián)鎖表。

4 結(jié)束語

本文提出一種基于數(shù)據(jù)挖掘的方法對(duì)車站信號(hào)平面布置圖進(jìn)行圖紙端到信號(hào)設(shè)計(jì)軟件端的信息標(biāo)準(zhǔn)化、規(guī)范化提取。

（1）提出可變距離矩形鄰域的RV-DBSCAN 密度聚類算法，對(duì)圖形數(shù)據(jù)進(jìn)行聚類，形成圖形組，達(dá)到目標(biāo)檢測(cè)的目的。該聚類算法FMI 評(píng)分為0.986 0。

（2）選取圖形種類和連接關(guān)系作為特征，使用組合決策樹對(duì)圖形組進(jìn)行分類識(shí)別，實(shí)現(xiàn)對(duì)設(shè)備的分類。分類算法準(zhǔn)確率達(dá)到95.64%。

（3）通過對(duì)車站信號(hào)平面布置圖中圖形數(shù)據(jù)的數(shù)據(jù)挖掘，實(shí)現(xiàn)了車站信號(hào)平面布置圖信息提取的數(shù)據(jù)標(biāo)準(zhǔn)化，達(dá)到提高各設(shè)計(jì)環(huán)節(jié)的設(shè)計(jì)效率的目的。

值得注意的是，設(shè)計(jì)帶來的格式混亂和同構(gòu)混亂在標(biāo)準(zhǔn)庫中不能窮舉，使得識(shí)別率存在不可預(yù)料的誤差，圖形聚類在信號(hào)設(shè)備圖例距離小于設(shè)定的σ 鄰域時(shí)也不能有效識(shí)別。下一階段，可進(jìn)一步提高數(shù)據(jù)挖掘識(shí)別圖紙的通用性，如適用不同數(shù)據(jù)格式軟件應(yīng)用，根據(jù)信號(hào)設(shè)備位置構(gòu)建區(qū)間、城軌和車輛段的軌道電路邏輯，為多類信號(hào)軟件提供信息讀取服務(wù)。