胡小溪,牛 儒,唐 濤
(北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100044)
在大數(shù)據(jù)和人工智能的推動(dòng)下,基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷[1-2]得到了較快發(fā)展,文本數(shù)據(jù)驅(qū)動(dòng)是其重要分支之一。文本故障數(shù)據(jù)大量存在于工業(yè)界中,是一種以自然語言描述方式存在的非結(jié)構(gòu)化數(shù)據(jù),蘊(yùn)含大量的故障信息,基于文本數(shù)據(jù)驅(qū)動(dòng)的故障診斷在近年逐漸發(fā)展起來[3-4]。但工業(yè)界的故障文本記錄仍采取人工記錄方式,大量故障記錄存在模糊性和不規(guī)范性,使故障診斷網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)目造成不必要的增多,網(wǎng)絡(luò)復(fù)雜性增大,直接進(jìn)行故障診斷可能丟失重要信息,造成正確率下降。因此實(shí)現(xiàn)故障的文本預(yù)處理具有重要意義。
故障文本預(yù)處理包括分詞與特征提取[5]。在分詞方面,文獻(xiàn)[6-7]采用基于詞庫匹配的分詞方法實(shí)現(xiàn)了對(duì)故障記錄的識(shí)別,該方法實(shí)現(xiàn)相對(duì)簡(jiǎn)單、效率較高,但文本識(shí)別過程受詞庫約束較大,需要耗費(fèi)大量人力維護(hù)詞庫,且無法徹底解決多詞同義現(xiàn)象。在特征提取方面,常見的方法包括詞頻-逆文檔頻率[8](Term Frequency-Inverse Document Frequency, TF-IDF)、Chi-square分布檢驗(yàn)[9]、信息增益、互信息等,其中TF-IDF和Chi-square分布檢驗(yàn)簡(jiǎn)單有效,應(yīng)用較為廣泛。
針對(duì)某線路信號(hào)設(shè)備故障記錄的特點(diǎn),本文提出了一種基于詞項(xiàng)和語義融合的軌道交通信號(hào)故障文本自動(dòng)預(yù)處理方法。針對(duì)各軌道交通線路設(shè)備故障記錄的獨(dú)特性、既有的軌道交通詞庫的不全面性,采用統(tǒng)計(jì)學(xué)習(xí)方法Viterbi-HMM模型[10-11]學(xué)習(xí)詞語的切分規(guī)律,用字與字間的共現(xiàn)概率識(shí)別新詞,形成線路專用信號(hào)故障詞庫,以簡(jiǎn)化線路專用詞庫的人工維護(hù)量。針對(duì)自然語言的模糊性問題,分別采用K-means算法和LDA算法在詞項(xiàng)空間和語義空間上聚類,在保留完整語義信息的前提下將故障記錄按照關(guān)鍵詞聚合成類。針對(duì)故障記錄的不規(guī)范、冗余信息問題,進(jìn)一步基于Chi-square分布檢驗(yàn)和主題-詞項(xiàng)分布分別獲取故障記錄在詞項(xiàng)空間和語義空間的特征信息,去除特征噪聲。最后,利用K最近鄰算法[12]將故障的詞袋形式映射到統(tǒng)一專家模板,實(shí)現(xiàn)故障記錄的糾錯(cuò)和統(tǒng)一化。以某地鐵線信號(hào)設(shè)備故障記錄為例,展示了該方法的處理過程,并基于試驗(yàn)結(jié)果討論本方法的有效性與精度。
地鐵信號(hào)系統(tǒng)復(fù)雜,子系統(tǒng)間耦合緊密,服務(wù)于司機(jī)、綜控、調(diào)度等多個(gè)專業(yè)。信號(hào)設(shè)備的工作狀態(tài)主要通過這些設(shè)備進(jìn)行反饋并人工記錄。通常,需記錄下故障現(xiàn)象內(nèi)容、故障原因和處置措施。但是,不同工種、不同資質(zhì)的人員對(duì)故障的理解和描述習(xí)慣不同、故障管理未落實(shí),導(dǎo)致大量記錄歸類混亂、描述不規(guī)范。在故障情況下,由于地鐵運(yùn)營(yíng)壓力較大,設(shè)備使用人員需要第一時(shí)間先行恢復(fù)系統(tǒng),記錄故障的時(shí)間有限甚至需要事后補(bǔ)錄。因此,故障記錄中“故障內(nèi)容”字段往往偏短、特征信息較少。如表1中展示的某地鐵線信號(hào)設(shè)備部分故障記錄(未列出的字段對(duì)本研究沒有意義),很多“故障內(nèi)容”明顯短于“故障原因”。
表1 某地鐵線信號(hào)設(shè)備故障記錄(部分)
在故障處理過程中,信號(hào)人員需要根據(jù)現(xiàn)象進(jìn)行故障定位,因此在“故障原因/處理措施”字段也會(huì)包含部分調(diào)查過程中的故障現(xiàn)象。例如,表1中的記錄3,相比于“故障內(nèi)容”字段,“故障原因”字段包含更為詳細(xì)的故障現(xiàn)象。其次,由于存在記錄人員的個(gè)體差別,“故障原因”字段的文本長(zhǎng)度、詳細(xì)程度、涵蓋內(nèi)容都可能存在較大差異。例如,表1中記錄1和記錄3屬于同一類故障模式,即軌道電路的接收盤故障導(dǎo)致紅光帶,但“故障原因”字段的文本差異顯著。另外,“故障原因”與“處理措施”記錄在同一段文本中,而某些處置信息對(duì)于故障診斷價(jià)值不大。例如,表1中記錄2包含晚間復(fù)查工作內(nèi)容及參數(shù)數(shù)值,規(guī)定工序與正常參數(shù)值對(duì)故障診斷沒有作用,需要過濾這些冗余信息。
此外,地鐵信號(hào)系統(tǒng)采取先進(jìn)技術(shù)設(shè)備,其供應(yīng)商來自不同的國(guó)家、不同的廠商,設(shè)備命名方式和英文縮寫不統(tǒng)一。因此,不同線路的故障記錄存在一定的線間差異,包含大量的線路專有信息。再加上自然語言不可避免地存在模糊性、歧義性問題,使得歷史故障記錄無法直接使用,必須經(jīng)過預(yù)處理,但人工處理不僅工作量巨大而且極易出錯(cuò)。
基于詞項(xiàng)和語義融合的地鐵信號(hào)設(shè)備故障記錄自動(dòng)預(yù)處理見圖1,共分為4部分。
圖1 基于詞項(xiàng)和語義融合的地鐵信號(hào)設(shè)備故障記錄自動(dòng)預(yù)處理流程
(1) 構(gòu)建線路信號(hào)專用詞庫。在軌道交通信號(hào)通用詞庫的基礎(chǔ)上,以原始故障文本為輸入,識(shí)別特定線路設(shè)備故障描述的專有詞匯,其作為新詞與通用詞庫融合,形成面向線路的信號(hào)專用詞庫。
(2) 詞項(xiàng)空間的聚類和特征提取。基于線路信號(hào)專用詞庫完成故障記錄的分詞,統(tǒng)計(jì)得到文檔-詞項(xiàng)矩陣(Document-Term Matrix, DTM)。再對(duì)DTM進(jìn)行聚類和特征提取,從而形成故障記錄的詞項(xiàng)類和特征降噪。
(3) 語義空間的聚類和特征提取。為了避免丟失語義上的關(guān)鍵詞,采用LDA對(duì)DTM進(jìn)行語義聚類與特征提取。通過在詞項(xiàng)層和語義層的聚類和特征提取,融合兩個(gè)空間,獲取融合特征作為故障記錄的關(guān)鍵詞,得到故障記錄關(guān)鍵詞的詞袋形式。
(4) 融合特征與專家模板的匹配。用詞項(xiàng)、語義融合關(guān)鍵詞代表故障記錄,基于KNN算法,匹配專家模板的DTM,對(duì)故障記錄進(jìn)行分類,得到故障記錄的標(biāo)準(zhǔn)化描述,實(shí)現(xiàn)自動(dòng)化預(yù)處理。
HMM是一種特殊的馬爾可夫鏈,它的狀態(tài)是隱含的(不能直接觀測(cè)),需要通過觀測(cè)量序列推測(cè)其隱含狀態(tài)。觀測(cè)向量在狀態(tài)變量的影響下表現(xiàn)出某種概率密度分布,因此HMM是一個(gè)雙重隨機(jī)過程,被大量應(yīng)用在模式識(shí)別、語音識(shí)別等領(lǐng)域。本文將HMM用于新詞識(shí)別,即識(shí)別出句子中的詞,并且是既有詞庫中不存在的詞。
故障記錄由句子組成,句子由詞組成,詞由字組成。句子要分割成詞,則組成詞的字隱含著一個(gè)表示其自身在詞中位置的不可觀測(cè)參數(shù),該隱含參數(shù)的取值為Begin(起始字),End(結(jié)束字),Middle(中間字),Single(單字成詞)??捎^測(cè)值為已知的故障記錄(字序列)。因此,可以將句子的生成過程看作是一個(gè)隱含參數(shù)序列產(chǎn)生的一個(gè)可觀測(cè)參數(shù)序列。
HMM在新詞識(shí)別中被表示成為一個(gè)五元組λ={S,W,T,E,π},其狀態(tài)遷移圖見圖2。其中,S為狀態(tài)值集合,內(nèi)有四個(gè)元素S={Begin,End,Middle,Single},分別表示故障記錄中的每個(gè)字i(1≤i≤M)在詞語中的位置si,M為故障記錄總字?jǐn)?shù)。W={wj|wj∈W,1≤j≤N}為觀測(cè)值集合(字集合),wj為記錄形成的字集合中的第j個(gè)字,字集合的總字?jǐn)?shù)為N。T=(tm,n)4×4為轉(zhuǎn)移概率矩陣,每個(gè)元素tm,n=P(si=n|si-1=m)表示狀態(tài)值由m轉(zhuǎn)移至n的概率。E=(em,j)4×N為混淆矩陣,每個(gè)元素em,j=P(wj|si=m)表示由狀態(tài)值m輸出字wj的概率。π=(πm)1×4為初始狀態(tài)概率分布,每個(gè)元素πm=P(s1=m)表示文本記錄中首字的狀態(tài)值為m的概率,以上的m,n=1,2,3,4。
圖2 HMM的狀態(tài)遷移圖
基于HMM的新詞識(shí)別可以看作HMM解碼問題:給定W,T,E,π,利用Viterbi算法求解求解S,生成最有可能的狀態(tài)值序列。再將文本從字狀態(tài)值為Begin和End處斷開,則文本分裂成詞。統(tǒng)計(jì)詞項(xiàng),去除無意義詞項(xiàng),不存在于既有通用信號(hào)詞庫中的詞項(xiàng)為新詞,作為線路信號(hào)專有詞庫。
故障記錄的聚類可將相似的記錄聚集在同一個(gè)簇中,生成類標(biāo)記,使整個(gè)文本集的數(shù)量降至簇的個(gè)數(shù)進(jìn)行處理。故障記錄的聚類流程見圖3。其中,類1、類2分別表示故障記錄在詞項(xiàng)空間、語義空間的類別。詞項(xiàng)層的聚類采用基于向量空間模型[13](Vector Space Model,VSM)的K-means,語義層的聚類采用Gibbs-LDA。由于故障記錄的故障類別不確定,故障類別總數(shù)未知,需確定故障類別數(shù)目的大致范圍,即聚類數(shù)目K。
圖3 故障記錄的聚類
2.2.1 詞項(xiàng)空間的聚類和特征提取
K-means是基于距離的硬聚類,采用距離作為基于向量空間的文檔-詞項(xiàng)向量的相似性評(píng)價(jià)指標(biāo),將相似度高的故障記錄聚在一個(gè)類中。輪廓系數(shù)[14]結(jié)合了聚類的內(nèi)聚度和分離度,因此選取輪廓系數(shù)評(píng)估聚類的效果,以判斷K-means的聚類數(shù)目K1。該值處于[-1,1]之間,值越大表示聚類效果越好,計(jì)算公式為
(1)
式中:a(k)為第k條故障記錄的VSM向量到其他同類別故障記錄的VSM向量的距離平均值,反映了故障記錄k的類內(nèi)的內(nèi)聚度;b(k)為第k條故障記錄的VSM向量與任意一個(gè)非同類別的類中所有故障記錄的VSM向量的距離平均值的最小值,反映了故障記錄k的類間分離度;Q為故障記錄總數(shù)。
在文本處理中,通常利用Chi-square統(tǒng)計(jì)判斷一個(gè)詞是否與既定的類別獨(dú)立[15]。若獨(dú)立,則說明該詞不屬于該類;若不獨(dú)立,則說明該詞屬于該類。Chi-square值表示各類文檔與詞庫中的每個(gè)詞的相關(guān)程度,計(jì)算公式為
(2)
式中:v為特定線路設(shè)備詞庫中的任意詞;c為類標(biāo)記1中類的任意編號(hào);A為類標(biāo)記1為c且包含詞v的故障記錄的數(shù)量;B為類標(biāo)記1不為c且包含詞v的故障記錄的數(shù)量;C為類標(biāo)記1為c且不包含詞v的故障記錄的數(shù)量;D為類標(biāo)記1不為c且不包含詞v的故障記錄的數(shù)量。
故障記錄向量空間模型表示的維度較高,其中含有一些非重要信息。特征提取可以提取表征故障記錄類的特征詞,以降低故障記錄在詞項(xiàng)空間上的向量維度,去除次要信息。為了提取故障記錄在詞項(xiàng)空間上的特征詞,采用Chi-square分布檢驗(yàn)確定特征詞。
由于文檔-詞項(xiàng)向量是故障記錄在詞項(xiàng)空間上的表示,維度高,所以K-means聚類粒度較細(xì),但無法表示語義。因此在詞項(xiàng)空間聚類的基礎(chǔ)上,結(jié)合語義聚類,采取LDA進(jìn)行語義聚類,識(shí)別故障記錄的語義。
2.2.2 語義空間的聚類和特征提取
LDA是在潛在語義索引[16](Probabilistic Latent Semantic Indexing, PLSI)中引入貝葉斯先驗(yàn)概率形成的主題模型,可用于語義識(shí)別?;贕ibbs采樣求解的LDA能解決基于EM算法求解的PLSI的過擬合問題。本文采用Gibbs-LDA訓(xùn)練故障記錄集,得到文檔-主題矩陣與主題-詞項(xiàng)矩陣。從輸入輸出形式上,LDA可以看作是一種矩陣分解,輸入DTM,輸出文檔-主題矩陣與主題-詞項(xiàng)矩陣,識(shí)別隱含的主題變量,見圖4,其中T為詞庫詞項(xiàng)總數(shù),文檔-主題分布可以看作是故障記錄的軟聚類,主題-詞項(xiàng)矩陣能給出文檔在語義空間上的特征詞,其作為詞項(xiàng)空間的特征詞在語義上的補(bǔ)充。
圖4 LDA的矩陣分解形式
在LDA主題模型中,主題數(shù)K2需要確定重要輸入?yún)?shù),Rajkumar Arun等[17]提出了基于SVD與KL-Divergence的LDA最優(yōu)主題數(shù)確定方法,文獻(xiàn)[18]提出了最大化P(Q|K2)最優(yōu)主題數(shù)確定方法,均可以進(jìn)行主題數(shù)的確定。其中,需要最大化Griffiths2004指標(biāo)[18],最小化Arun2010的指標(biāo)[17]。
在語義空間中,主題-詞項(xiàng)矩陣反映了故障記錄集主題的詞項(xiàng)概率分布,詞項(xiàng)的概率值表征了詞項(xiàng)在主題內(nèi)的重要程度。清除主題內(nèi)詞項(xiàng)概率與主題內(nèi)最大詞項(xiàng)概率相差10倍及以上的詞項(xiàng),得到清除次要特征詞項(xiàng)的主題-詞項(xiàng)矩陣,其作為語義層上的特征詞,完成語義空間的特征值提取。
類標(biāo)記1反映了故障記錄在詞項(xiàng)空間上相似記錄的集群,類標(biāo)記2反映故障記錄在語義空間上相似記錄的集群。融合兩個(gè)空間上的類標(biāo)記和特征詞,得到故障記錄在詞項(xiàng)-語義融合空間上相似記錄的集群(類標(biāo)記3)和詞袋形式的特征詞。當(dāng)且僅當(dāng)兩個(gè)故障記錄的兩個(gè)類標(biāo)記相等,這兩個(gè)故障記錄在融合空間上才屬于同一個(gè)集群。將專家給出的故障描述模板進(jìn)行分詞,作為KNN的既有鄰近數(shù)據(jù),進(jìn)行故障記錄的分類,得到致因的統(tǒng)一化描述,流程見圖5。
圖5 特征詞融合及KNN流程
本文采用某地鐵線2015—2017年的地面信號(hào)設(shè)備365條故障記錄為例,對(duì)所提出方法進(jìn)行驗(yàn)證試驗(yàn)。
Step1生成該線路的信號(hào)專用詞庫并結(jié)構(gòu)化故障記錄。圖6展示了新詞識(shí)別、該線路信號(hào)專用詞庫的生成和故障記錄分詞結(jié)構(gòu)化的流程。例如,信號(hào)通用詞庫中對(duì)軌道電路的發(fā)送、接收設(shè)備僅有“發(fā)送器”“接收器”的表述名詞,對(duì)車站級(jí)的列車自動(dòng)監(jiān)控系統(tǒng)僅有“車站ATS分機(jī)”這些通用的術(shù)語表述。通過HMM可以識(shí)別出該線路的故障記錄中專有名詞術(shù)語“發(fā)送盤”“接收盤”“RPU”等。利用得到該線路的信號(hào)專用詞庫進(jìn)行分詞,統(tǒng)計(jì)每條記錄中詞庫各詞出現(xiàn)的頻數(shù),形成DTM矩陣,并進(jìn)行TF-IDF權(quán)重加權(quán)。其中,需要過濾的冗余信息不加入詞庫。
圖6 新詞識(shí)別、該線路信號(hào)專用詞庫的生成和故障記錄分詞結(jié)構(gòu)化的流程
Step2詞項(xiàng)空間的聚類和特征提取。按照式(1),計(jì)算輪廓系數(shù)與詞項(xiàng)空間聚類數(shù)目K1的關(guān)系,見圖7。輪廓系數(shù)越大表示聚類效果越好,因此取輪廓系數(shù)最大值對(duì)應(yīng)的聚類數(shù)目K1=159。以表1展示的故障記錄為例,使用Chi-square分布檢驗(yàn)提取故障記錄的詞項(xiàng)層的特征。表2展示了由詞項(xiàng)層K-means聚類獲取的類標(biāo)記1和通過Chi-square檢驗(yàn)提取的詞項(xiàng)層特征詞項(xiàng)(按Chi-square值降序排列,未列出的詞的Chi-square值過小)。其中,詞項(xiàng)層的第3類和第68類故障記錄與接收盤故障導(dǎo)致的紅光帶相關(guān),詞項(xiàng)層的第37類故障記錄與信號(hào)機(jī)燈絲轉(zhuǎn)換繼電器故障相關(guān)。
表2 詞項(xiàng)層聚類的文本類別及特征詞
圖7 輪廓系數(shù)與聚類數(shù)目的曲線
Step3語義空間的聚類和特征提取。語義空間的聚類數(shù)目K2(主題數(shù))與兩種優(yōu)化判斷指標(biāo)的關(guān)系如見圖8,G-A為Griffith2004指標(biāo)與Arun2010的差值。為了使Griffiths2004指標(biāo)最大化且Arun2010的指標(biāo)最小化,取G-A最大值時(shí)的K2作為最優(yōu)主題個(gè)數(shù),故K2=96。
圖8 主題個(gè)數(shù)K2與2種優(yōu)化方法的判斷指標(biāo)關(guān)系
文檔-主題矩陣將故障記錄轉(zhuǎn)換至主題空間,取文檔-主題矩陣各行的最大值對(duì)應(yīng)的主題為相應(yīng)的故障記錄在語義空間的類別。將清除次要特征詞項(xiàng)的主題-詞項(xiàng)矩陣作為語義層上的特征詞,表3展示了表1中故障記錄的語義層類別及特征詞項(xiàng)。由表3可知,語義層的第21類故障記錄與接收盤故障導(dǎo)致的紅光帶相關(guān),語義層的第19類故障記錄與信號(hào)機(jī)紅燈故障相關(guān)。
表3 語義層聚類的文本類別及特征詞
Step4融合特征與專家模板的匹配。結(jié)合表2和表3,融合詞項(xiàng)和語義空間上的特征詞,得到表1中的故障記錄在融合空間上的關(guān)鍵詞的詞袋形式。結(jié)合專家模板進(jìn)行KNN分類,得到致因的統(tǒng)一化描述如表4所示。
表1中故障記錄的試驗(yàn)過程和結(jié)果展示見表2~表4。其中,故障記錄1和記錄3被統(tǒng)一成相同的致因描述,去除了致因描述中的冗余信息,解決了致因記錄的不規(guī)范和模糊性問題。對(duì)于,故障記錄5和記錄6,其融合空間上的關(guān)鍵詞僅相差“全部”詞項(xiàng),導(dǎo)致故障5和故障6被統(tǒng)一精確地歸類成不同的致因描述。
表4 故障文本的詞項(xiàng)空間、語義空間、融合空間上的類編號(hào)、關(guān)鍵詞及統(tǒng)一的故障原因描述
對(duì)于故障記錄7,在提取詞項(xiàng)空間的特征時(shí),“大屏”的Chi-square值較低,被認(rèn)為無法表征該故障記錄所在的類。若僅用詞項(xiàng)空間的特征詞作為新的觀測(cè)進(jìn)行KNN分類,則由于丟失了“大屏”一詞,進(jìn)行分類后,被歸類成“中心調(diào)度員工作站軟件卡滯”,錯(cuò)誤地表達(dá)了故障記錄的原意。在語義空間上提取特征時(shí),LDA產(chǎn)生的主題-詞項(xiàng)分布內(nèi)“大屏”一詞概率較高,“大屏”詞項(xiàng)被認(rèn)為可以表征該故障記錄所在的類。融合兩個(gè)空間的特征詞,獲取更為全面的特征詞,可以不丟失故障記錄的原意,得到融合空間中關(guān)鍵詞的詞袋形式“卡滯、軟件、大屏、全部、工作站、脫機(jī)、調(diào)度員、顯示”。在自動(dòng)化預(yù)處理中,只要故障記錄在融合空間的關(guān)鍵詞的詞袋形式相同,即被認(rèn)為是相同的故障記錄,具有相同的故障原因。結(jié)合專家模板進(jìn)行分詞,作KNN分類,詞袋形式被統(tǒng)一為“中心大屏軟件卡滯/死機(jī)”。
文本預(yù)處理的效果通常采用精確率P(查準(zhǔn)率,Precision)、召回率R(查全率,Recall)、綜合分類率F1(F1測(cè)試值,F(xiàn)1-score)指標(biāo)[19-21]進(jìn)行衡量,計(jì)算公式為
(3)
(4)
(5)
式中:ρ=P/R為精確率和召回率的重要性加權(quán)系數(shù)。在本試驗(yàn)中,精確率和召回率同等重要,即ρ=1。
由于F1是P和R的綜合反映,本文通過F1值說明該方法的有效性和準(zhǔn)確性,F(xiàn)1值越大表明效果越好。按照式(3)~式(5)計(jì)算相應(yīng)指標(biāo),同時(shí),為了驗(yàn)證所提出方法的有效性,利用AN-BP計(jì)算在3種特征空間下的預(yù)處理F1,見圖9。
圖9 預(yù)處理F1指標(biāo)統(tǒng)計(jì)
由圖9可知,第一,針對(duì)相同的分類器,單獨(dú)采用詞項(xiàng)空間的特征作預(yù)處理的效果比單獨(dú)采用語義空間的特征效果好,采用融合空間作預(yù)處理的效果比僅使用一種空間的特征效果好。原因可以從圖7、圖8和表2、表3中得出:K-means的聚類粒度比LDA的聚類粒度細(xì)。由于K-means是基于詞項(xiàng)向量的聚類,詞項(xiàng)向量的每個(gè)維度均為詞項(xiàng)屬性。信號(hào)領(lǐng)域內(nèi)同義詞較多,如同種設(shè)備名稱的術(shù)語、縮寫、別稱。再加上故障記錄描述的模糊性,相同含義的詞項(xiàng)占據(jù)多個(gè)維度,使故障記錄類別數(shù)K1無意義地增大。因此詞項(xiàng)空間中每個(gè)簇的故障記錄數(shù)目較少,使得詞項(xiàng)空間的Chi-square特征提取較全面。但詞項(xiàng)空間特征無法描述故障記錄的語義,在一些故障記錄中無法較好地提取特征。LDA是語義空間的聚類,通過評(píng)估詞項(xiàng)間的共現(xiàn),將共現(xiàn)頻率高的詞項(xiàng)聚合,以識(shí)別故障記錄集的主題和主題的詞項(xiàng),同時(shí)可以識(shí)別多義詞和同義詞。導(dǎo)致LDA的聚類粒度粗于K-means,從而使故障記錄集進(jìn)行更有效的降維。這使得在提取語義空間每個(gè)類的特征時(shí),主題-詞項(xiàng)分布中故障現(xiàn)象詞項(xiàng)的概率偏高、致因詞項(xiàng)的概率偏低,因此僅以語義空間特征的效果不如詞項(xiàng)空間特征的效果好。但是由于LDA的語義識(shí)別優(yōu)勢(shì),LDA彌補(bǔ)了故障記錄在詞項(xiàng)空間上部分簇不能很好地提取特征詞項(xiàng)的缺點(diǎn)。第二,相比BP,KNN略微提高了車站ATS相關(guān)故障和中心ATS相關(guān)故障的診斷準(zhǔn)確率。以上兩點(diǎn)反映了在分類問題中,通常采用更好的算法提高特征提取的性能,使特征提取的信息更能表征原始數(shù)據(jù),而非通過使用更優(yōu)的分類器去提高分類準(zhǔn)確率。因此采取融合特征可以更好地進(jìn)行故障記錄預(yù)處理。
本文以某地鐵線信號(hào)設(shè)備故障記錄為數(shù)據(jù),提出了基于詞項(xiàng)和語義融合的地鐵信號(hào)設(shè)備故障記錄處理方法。本文采用HMM識(shí)別特定線路設(shè)備故障描述的專有詞匯,以解決基于字符串匹配的分詞的缺陷。針對(duì)故障原因描述的模糊性,通過細(xì)粒度聚類K-means與Chi-square分布提取詞項(xiàng)層的特征詞。結(jié)合粗粒度聚類LDA提取語義層的特征詞,以獲得融合層的故障記錄的詞袋描述。結(jié)合專家模板和KNN分類,將故障記錄進(jìn)行歸類,以獲取故障致因的統(tǒng)一描述,實(shí)現(xiàn)故障記錄的自動(dòng)化預(yù)處理。應(yīng)用該方法對(duì)該某地鐵線路地面信號(hào)故障記錄進(jìn)行了預(yù)處理,宏平均F1值達(dá)95.56%,說明了該方法的有效性與準(zhǔn)確性。