亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于頻繁模式挖掘的接觸網(wǎng)故障關(guān)聯(lián)規(guī)則推薦模型

        2021-05-10 07:41:20宇占軍
        電氣化鐵道 2021年2期
        關(guān)鍵詞:項(xiàng)集事務(wù)接觸網(wǎng)

        宇占軍

        0 引言

        近年來,我國(guó)電氣化鐵路飛速發(fā)展,成為支撐國(guó)民經(jīng)濟(jì)的重要基礎(chǔ),為民眾日常出行提供了便利。截至2019年年底,我國(guó)鐵路營(yíng)業(yè)里程已達(dá)13.9萬公里[1]。接觸網(wǎng)作為電氣化鐵路牽引供電系統(tǒng)的重要組成部分,是電力機(jī)車的動(dòng)力來源,其服役安全是保障鐵路高效運(yùn)行的關(guān)鍵[2]。然而,接觸網(wǎng)是一種沿路軌架設(shè)的特殊供電線路,無備用且結(jié)構(gòu)復(fù)雜,工作環(huán)境惡劣[3],隨著服役時(shí)間的增加,接觸網(wǎng)性能勢(shì)必逐漸退化,發(fā)生故障的可能性逐漸提高。因此,如何有針對(duì)性地對(duì)接觸網(wǎng)進(jìn)行維修是目前亟需解決的問題。

        在接觸網(wǎng)系統(tǒng)中,故障之間并不是完全互相獨(dú)立的隨機(jī)事件,其通常存在著關(guān)聯(lián)性,即一個(gè)故障的發(fā)生往往會(huì)誘發(fā)另一個(gè)故障。隨著檢測(cè)監(jiān)測(cè)與診斷評(píng)估技術(shù)的不斷提升,各鐵路局建立的接觸網(wǎng)故障數(shù)據(jù)庫(kù)中積累了大量的相關(guān)數(shù)據(jù),其包含了由6C系統(tǒng)檢測(cè)到的故障和人工定期巡檢得到的數(shù)據(jù),這為從數(shù)據(jù)挖掘角度進(jìn)行相關(guān)研究提供了較好的數(shù)據(jù)支持。

        頻繁模式挖掘(Frequent Itemset Mining,F(xiàn)IM)是關(guān)聯(lián)分析技術(shù)的一種,其通過挖掘數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的模式,進(jìn)而探究模式之間的關(guān)聯(lián)性。FIM技術(shù)最早由Agrawal R.于1993年提出[4],目前已廣泛應(yīng)用于醫(yī)療、工業(yè)、交通等領(lǐng)域[5~7]。其核心是通過掃描數(shù)據(jù)庫(kù)生成潛在的候選模式,并根據(jù)設(shè)定的閾值驗(yàn)證其最終是否頻繁。其中,向下封閉原則[8](Downward Closure Property)對(duì)某些模式進(jìn)行了預(yù)篩選,減少了需要驗(yàn)證模式的數(shù)量,從而提升算法效率。

        目前,已經(jīng)有學(xué)者將頻繁模式挖掘應(yīng)用于接觸網(wǎng)故障數(shù)據(jù)分析,并得到了一些實(shí)用的關(guān)聯(lián)規(guī)則。文獻(xiàn)[9]根據(jù)逐條記錄的接觸網(wǎng)故障數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)上存在的稀疏性提出了多維信息分類模型,實(shí)現(xiàn)了對(duì)故障數(shù)據(jù)的有效聚類,完成了條目數(shù)據(jù)結(jié)構(gòu)向事務(wù)型數(shù)據(jù)庫(kù)(Transaction Database)的轉(zhuǎn)變。但由于其在時(shí)間維度上對(duì)數(shù)據(jù)的劃分僅依據(jù)自然年月,會(huì)破壞某些數(shù)據(jù)間的內(nèi)在聯(lián)系,從而使得到的關(guān)聯(lián)規(guī)則失去作用。文獻(xiàn)[10]基于挖掘得到的關(guān)聯(lián)規(guī)則建立了故障關(guān)系網(wǎng)絡(luò),并采用復(fù)雜網(wǎng)絡(luò)中的指標(biāo)對(duì)規(guī)則進(jìn)行使用。上述方法在規(guī)則數(shù)量較少時(shí)才能方便運(yùn)用,當(dāng)規(guī)則數(shù)量增加后,整個(gè)網(wǎng)絡(luò)會(huì)變得過于復(fù)雜,從而降低了對(duì)規(guī)則使用的效率。

        本文基于Apriori算法框架,提出根據(jù)實(shí)際故障維修周期劃分故障數(shù)據(jù)的分類模型,保證數(shù)據(jù)間既有的關(guān)聯(lián)性不被破壞;并采用熵權(quán)法對(duì)挖掘算法常用的幾個(gè)參數(shù)進(jìn)行綜合評(píng)價(jià),得到對(duì)可能出現(xiàn)大量關(guān)聯(lián)規(guī)則的快速推薦模型。此外,為了避免多次掃描數(shù)據(jù)庫(kù),提高算法效率,應(yīng)用布爾映射矩陣,僅需單次掃描數(shù)據(jù)庫(kù)即可實(shí)現(xiàn)挖掘算法。

        1 相關(guān)基礎(chǔ)

        1.1 基本概念

        假設(shè)有一組項(xiàng)目集合I= {i1,i2, …in},集合I的任意非空子集被稱為項(xiàng)集,記為X,通常項(xiàng)集X中包含的項(xiàng)目個(gè)數(shù)被稱為項(xiàng)集的長(zhǎng)度,同時(shí)項(xiàng)集也根據(jù)其長(zhǎng)度k被稱為k階項(xiàng)集。事務(wù)記錄通常用一個(gè)二元組〈tid,X〉來表示,其中tid是該事務(wù)記錄的唯一標(biāo)識(shí)。所有的事務(wù)記錄共同組成了事務(wù)數(shù)據(jù)庫(kù),記為TDB,如表1所示。對(duì)于一個(gè)項(xiàng)集X和一條事務(wù)記錄〈tid,Y〉而言,如果X?Y,則稱項(xiàng)集X被包含在該事務(wù)記錄中。

        表1 事務(wù)型數(shù)據(jù)庫(kù)

        1.2 相關(guān)參數(shù)

        在挖掘關(guān)聯(lián)規(guī)則的過程中,需要設(shè)置支持度和置信度的閾值,在有些研究中,還需要涉及提升度和相似度等參數(shù)。這些參數(shù)的定義如下:

        定義1(支持度):對(duì)于一個(gè)給定的事務(wù)型數(shù)據(jù)庫(kù)TDB,項(xiàng)集X的支持度(記為sup(X))為數(shù)據(jù)庫(kù)中包含項(xiàng)集X的事務(wù)記錄數(shù)占比,反映了項(xiàng)集X在數(shù)據(jù)庫(kù)中出現(xiàn)的頻繁程度,其計(jì)算式為

        定義2(置信度):置信度是評(píng)價(jià)關(guān)聯(lián)規(guī)則可信程度的指標(biāo)。對(duì)于生成的關(guān)聯(lián)規(guī)則“A→B”,其置信度(記為conf(A→B))為在項(xiàng)集A發(fā)生的條件下,項(xiàng)集B發(fā)生的條件概率。其具體計(jì)算式為

        定義3(提升度):提升度(記為lift(A→B))是描述項(xiàng)集A對(duì)項(xiàng)集B影響程度的參數(shù),其反映了在項(xiàng)集A發(fā)生的條件下,項(xiàng)集B發(fā)生的條件概率與非條件概率的提升情況。當(dāng)提升度大于1時(shí),說明項(xiàng)集A的發(fā)生對(duì)項(xiàng)集B有促進(jìn)作用。其計(jì)算式為

        定義4(相似度):相似度能夠反映2個(gè)研究對(duì)象之間的相似程度,有著多種計(jì)算方式,其中以余弦相似度最為常用。將項(xiàng)集A和B在每個(gè)事務(wù)記錄中出現(xiàn)與否的情況用向量表示,則可計(jì)算出其相似度,即

        1.3 A priori算法框架

        目前,頻繁模式挖掘算法可以根據(jù)算法框架分為3大類,Apriori算法框架[11]則是其中之一,通過對(duì)數(shù)據(jù)庫(kù)進(jìn)行廣度優(yōu)先遍歷,以實(shí)現(xiàn)整個(gè)算法。算法具體過程如下:算法將整個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)和設(shè)置的最小閾值(支持度和置信度)作為參數(shù);數(shù)據(jù)庫(kù)中出現(xiàn)的項(xiàng)目均被視為1階候選項(xiàng)集,通過掃描數(shù)據(jù)庫(kù)對(duì)候選集的頻繁程度進(jìn)行評(píng)估,算法刪去了不符合閾值的項(xiàng)集,并根據(jù)先驗(yàn)規(guī)則[4]合并生成2階候選項(xiàng)集;通過再一次掃描數(shù)據(jù)庫(kù),對(duì)當(dāng)前候選項(xiàng)集進(jìn)行驗(yàn)證,根據(jù)剩余的頻繁項(xiàng)集生成高階候選集;該過程被不斷重復(fù),直至無法生成候選集,此時(shí)所有滿足閾值的頻繁模式均被遍歷并驗(yàn)證。

        2 模型構(gòu)建

        2.1 基于維修周期的故障分類模型

        文獻(xiàn)[9]提出的多維信息分類模型通過靈活地選擇時(shí)間和空間尺度,有效地實(shí)現(xiàn)了對(duì)故障數(shù)據(jù)的聚類和事務(wù)型數(shù)據(jù)庫(kù)的構(gòu)建,但由于時(shí)間尺度的劃分過于刻板,破壞了故障數(shù)據(jù)間原本的內(nèi)在聯(lián)系。為了解決這一問題,本文提出基于維修周期的故障分類模型。

        對(duì)于同一空間尺度下的故障數(shù)據(jù),可按其檢測(cè)時(shí)間順序排列成對(duì)應(yīng)的時(shí)間序列。為保證構(gòu)建的事務(wù)型數(shù)據(jù)庫(kù)中每一條事務(wù)記錄的項(xiàng)目享有共同的物理和邏輯聯(lián)系,對(duì)于接觸網(wǎng)系統(tǒng)來說,只有發(fā)生在同一維修周期內(nèi)的故障數(shù)據(jù)才具有這種特性。圖1展示了基于維修周期的故障分類模型示意圖,在由故障數(shù)據(jù)構(gòu)成的時(shí)間序列下方增加了維修記錄管理的序列,并將其作為劃分故障數(shù)據(jù)的依據(jù)。

        圖1 基于維修周期的故障分類模型示意圖

        維修記錄管理的序列作為無限時(shí)間序列,可以根據(jù)其序列上的n個(gè)結(jié)點(diǎn),將其劃分成對(duì)應(yīng)的區(qū)間,記為IM= {(ti-1,ti)|i≤n}。同時(shí),故障序列上的數(shù)據(jù)IF= {fm|m≥1}將根據(jù)IM生成事務(wù)記錄,記為Ts={∪fm|fm∈IF,fm∈(ts-1,ts)}。借助這一分類模型,可以在生成事務(wù)型數(shù)據(jù)庫(kù)時(shí)良好地保留故障數(shù)據(jù)間的內(nèi)在聯(lián)系。

        2.2 布爾映射矩陣

        Apriori算法框架在每次驗(yàn)證當(dāng)前階數(shù)的候選集時(shí)需要掃描一次數(shù)據(jù)庫(kù),多次掃描數(shù)據(jù)庫(kù)將耗費(fèi)大量運(yùn)算成本,為了避免這種重復(fù)掃描,本文提出采用布爾映射矩陣存儲(chǔ)事務(wù)型數(shù)據(jù)庫(kù)的數(shù)據(jù),并對(duì)候選集進(jìn)行批量計(jì)算。

        定義5(布爾映射矩陣):矩陣中的元素根據(jù)其行列所對(duì)應(yīng)的信息,用“1”或“0”表示是否出現(xiàn)的具有映射關(guān)系的矩陣稱為布爾映射矩陣。

        對(duì)于挖掘接觸網(wǎng)的頻繁模式而言,矩陣的每一行對(duì)應(yīng)事務(wù)型數(shù)據(jù)庫(kù)中的每一條事務(wù)記錄,矩陣的每一列對(duì)應(yīng)一個(gè)項(xiàng)目或項(xiàng)集。矩陣內(nèi)的元素確定規(guī)則如下:

        性質(zhì)1(列交運(yùn)算):設(shè)矩陣Am×n為事務(wù)型數(shù)據(jù)庫(kù)TDB的布爾映射矩陣,AT×A=Bn×n,則矩陣B稱為矩陣A的列交矩陣。矩陣B的主對(duì)角線上的元素反映了各項(xiàng)目在數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),則每個(gè)項(xiàng)目的支持度可表示為

        2.3 基于熵權(quán)法的推薦模型

        頻繁模式挖掘算法往往伴隨著大量關(guān)聯(lián)規(guī)則的返回,文獻(xiàn)[10]采用復(fù)雜網(wǎng)絡(luò)的知識(shí)對(duì)返回的關(guān)聯(lián)規(guī)則進(jìn)行了推薦,但隨著規(guī)則數(shù)量的增加,網(wǎng)絡(luò)的復(fù)雜度明顯增加,大幅降低了對(duì)規(guī)則使用的效率。為了解決該問題,本文提出基于熵權(quán)法的推薦模型。熵權(quán)法[12,13]可以通過選取多個(gè)評(píng)價(jià)指標(biāo),利用數(shù)據(jù)中包含的有效信息量的大小來衡量各個(gè)指標(biāo)對(duì)最終評(píng)價(jià)結(jié)果的影響。

        熵權(quán)法的基本原理如下:假設(shè)有m個(gè)評(píng)價(jià)對(duì)象,選取了n個(gè)評(píng)價(jià)指標(biāo),所有數(shù)據(jù)構(gòu)成的初始矩陣記為Xm×n;首先對(duì)各個(gè)指標(biāo)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成評(píng)價(jià)矩陣Y= [yij]m×n, 其中yij為第i個(gè)評(píng)價(jià)對(duì)象的第j個(gè)指標(biāo)的歸一化結(jié)果;然后計(jì)算同一個(gè)評(píng)價(jià)指標(biāo)數(shù)據(jù)的信息熵Ej,其定義式為

        其中,當(dāng)pij= 0時(shí),習(xí)慣認(rèn)為pijlnpij= 0。

        從而,通過信息熵可以計(jì)算出各個(gè)評(píng)價(jià)指標(biāo)所對(duì)應(yīng)的權(quán)重Wj,即

        最終,根據(jù)指標(biāo)的權(quán)重計(jì)算出每一條關(guān)聯(lián)規(guī)則的評(píng)分Zi,并按降序推薦關(guān)聯(lián)規(guī)則。評(píng)分的計(jì)算式為

        3 算例研究

        為了驗(yàn)證本文提出推薦模型的正確性,本節(jié)對(duì)某鐵路局接觸網(wǎng)故障數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行頻繁模式挖掘,時(shí)間跨度為2016年1月—2018年4月,共計(jì)22 749條接觸網(wǎng)故障數(shù)據(jù)。

        在選擇空間尺度為線路后,依據(jù)維修記錄管理序列與同一空間尺度下的故障序列,將這些故障數(shù)據(jù)劃分為137條事務(wù)記錄,并將閾值設(shè)置為(25%,80%),即表示在事務(wù)型數(shù)據(jù)庫(kù)中有25%的事務(wù)記錄含有的項(xiàng)集被視為了頻繁模式,且在這些頻繁模式生成的關(guān)聯(lián)規(guī)則中,只有置信度大于80%的規(guī)則(強(qiáng)關(guān)聯(lián)規(guī)則)才被保留下來。最終,在該閾值設(shè)定下,頻繁模式挖掘算法共挖掘得到689條強(qiáng)關(guān)聯(lián)規(guī)則。這個(gè)數(shù)量的關(guān)聯(lián)規(guī)則如果通過復(fù)雜網(wǎng)絡(luò)理論對(duì)其進(jìn)行推薦,整個(gè)過程將十分復(fù)雜。采用本文提出的基于熵權(quán)法的推薦模型,則可以輕松得到支持度(sup)、置信度(conf)、提升度(lift)、相似度(sim)4個(gè)評(píng)價(jià)指標(biāo)的權(quán)重,如表2所示。可見,支持度的權(quán)重最高,貢獻(xiàn)程度接近60%,其余3個(gè)指標(biāo)的權(quán)重都在10%以上。

        表2 基于熵權(quán)法的關(guān)聯(lián)規(guī)則評(píng)價(jià)指標(biāo)權(quán)重

        表3展示了部分關(guān)聯(lián)規(guī)則的推薦評(píng)分結(jié)果,表4給出了表3中涉及的故障項(xiàng)目和故障部件(類型)的對(duì)應(yīng)關(guān)系??梢钥闯?,本文提出的模型可以有梯度地對(duì)挖掘出的規(guī)則進(jìn)行評(píng)分和推薦。用戶可以根據(jù)自身的需求,對(duì)期望推薦的關(guān)聯(lián)規(guī)則數(shù)量進(jìn)行推薦,當(dāng)推薦數(shù)量設(shè)置為10時(shí),則排序前10的關(guān)聯(lián)規(guī)則將被推薦給用戶。

        表3 部分關(guān)聯(lián)規(guī)則的推薦評(píng)分結(jié)果

        表4 故障項(xiàng)目和故障部件(類型)對(duì)照

        圖2展示了對(duì)689條關(guān)聯(lián)規(guī)則構(gòu)建故障關(guān)系網(wǎng)絡(luò)的結(jié)果??梢钥闯?,得到的網(wǎng)絡(luò)十分復(fù)雜,涉及的結(jié)點(diǎn)數(shù)量眾多,這對(duì)分析網(wǎng)絡(luò)中各結(jié)點(diǎn)的中心度等必要信息造成了極大的影響,且很難對(duì)每一條關(guān)聯(lián)規(guī)則分析其值得推薦的程度。

        通過查看關(guān)聯(lián)規(guī)則的評(píng)分結(jié)果可知,故障項(xiàng)目A(支持裝置)容易引發(fā)故障項(xiàng)目B(定位裝置),是最值得推薦的關(guān)聯(lián)規(guī)則。其次,故障項(xiàng)目D(環(huán)境管理)會(huì)誘發(fā)故障項(xiàng)目E(接觸線)、故障項(xiàng)目F(平腕臂底座)極可能造成故障項(xiàng)目B(定位裝置)等也是十分值得關(guān)注的關(guān)聯(lián)規(guī)則。

        圖2 689條關(guān)聯(lián)規(guī)則挖掘結(jié)果構(gòu)建的復(fù)雜網(wǎng)絡(luò)

        根據(jù)最終推薦的多條關(guān)聯(lián)規(guī)則,對(duì)于算例研究中使用的故障數(shù)據(jù),可以為該地區(qū)接觸網(wǎng)運(yùn)營(yíng)維護(hù)提出如下建議:(1)支持裝置故障和定位裝置故障是2個(gè)頻繁發(fā)生且會(huì)互相誘發(fā)的故障,需要對(duì)其進(jìn)行嚴(yán)格防護(hù)和縮短維修周期;(2)除支持裝置外,接觸線故障、平腕臂底座故障等也容易誘發(fā)定位裝置的故障,需要對(duì)上述多個(gè)故障進(jìn)行監(jiān)測(cè),以防止定位裝置頻繁發(fā)生故障;(3)周遭環(huán)境和異物容易引發(fā)接觸線故障,需要增加線網(wǎng)周圍的巡查力度和對(duì)植被的修剪頻次。

        4 結(jié)論

        本文針對(duì)近年來爆發(fā)式增長(zhǎng)的接觸網(wǎng)故障數(shù)據(jù),提出采用頻繁模式挖掘技術(shù)對(duì)其進(jìn)行關(guān)聯(lián)性分析。在現(xiàn)有多維信息分類模型的基礎(chǔ)上,提出了維修周期故障分類的方法,實(shí)現(xiàn)了在生成事務(wù)型數(shù)據(jù)庫(kù)時(shí)對(duì)故障數(shù)據(jù)內(nèi)在聯(lián)系的良好保留。針對(duì)Apriori算法框架在挖掘時(shí)需要多次掃描數(shù)據(jù)庫(kù)的問題,提出了應(yīng)用布爾映射矩陣的列交運(yùn)算,實(shí)現(xiàn)了僅需對(duì)數(shù)據(jù)庫(kù)進(jìn)行單次掃描即可實(shí)現(xiàn)對(duì)候選集進(jìn)行批量閾值驗(yàn)證。針對(duì)挖掘算法返回的大量關(guān)聯(lián)規(guī)則,提出了用熵權(quán)法對(duì)各條規(guī)則進(jìn)行評(píng)價(jià)打分,實(shí)現(xiàn)了對(duì)規(guī)則的有梯度推薦,相較原本基于復(fù)雜網(wǎng)絡(luò)的規(guī)則使用,熵權(quán)法對(duì)大規(guī)模關(guān)聯(lián)規(guī)則有著更好的實(shí)用性。

        猜你喜歡
        項(xiàng)集事務(wù)接觸網(wǎng)
        “事物”與“事務(wù)”
        基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        為開通打下基礎(chǔ)!這條國(guó)際鐵路完成接觸網(wǎng)平推驗(yàn)收
        河湖事務(wù)
        接觸網(wǎng)設(shè)備“運(yùn)、檢、修”分離改革的探討
        高速鐵路接觸網(wǎng)研究進(jìn)展
        接觸網(wǎng)避雷器接地系統(tǒng)分析
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
        国产免费久久精品99re丫y| 亚洲精品~无码抽插| 国产精品亚洲一区二区在线观看 | 亚洲av永久无码精品漫画| 亚洲精品国产成人| 国产精品美女黄色av| 国产成人av三级三级三级在线 | 日本黄色高清视频久久| 免费国产自拍在线观看| 精品国产一区二区三区av片| 国产白丝网站精品污在线入口| 色se在线中文字幕视频| 亚洲综合精品中文字幕| 曝光无码有码视频专区| 欧美中文字幕在线看| 国产一级黄色片一区二区| 成人国成人国产suv| 色一乱一伦一图一区二区精品| 亚洲人成绝费网站色www| 亚洲最大一区二区在线观看| 最新国产福利在线观看精品| 亚洲精品不卡电影| 亚洲视频中文字幕更新| 在线视频观看国产色网| 国产麻豆剧传媒精品国产av| 精品综合久久久久久8888| 亚洲精品在线97中文字幕| 欧美综合天天夜夜久久| y111111少妇影院无码| 一本久久a久久精品综合| 国产乱人伦偷精品视频免观看| 国产成年无码v片在线| 老熟女熟妇嗷嗷叫91| 国产一品二品三区在线观看| 色狠狠色噜噜av天堂一区| 欧美视频在线观看一区二区| 亚洲av成人久久精品| а天堂中文在线官网在线| 国农村精品国产自线拍| 亚洲国产色图在线视频| 国产精品亚洲av无人区一区香蕉|