亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向故障短文本的改進(jìn)圖節(jié)點(diǎn)嵌入與聚類方法

        2024-01-13 02:06:26邱競(jìng)雄孫林夫
        關(guān)鍵詞:故障方法

        邱競(jìng)雄,孫林夫+,韓 敏

        (1.西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,四川 成都 610031;2.四川省制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)重點(diǎn)實(shí)驗(yàn)室,四川 成都 610031)

        0 引言

        隨著信息技術(shù)的普及和發(fā)展,大數(shù)據(jù)分析技術(shù)在汽車行業(yè)等傳統(tǒng)制造業(yè)中正發(fā)揮越來越重要的作用。汽車產(chǎn)業(yè)中,車輛及其零部件的供銷存過程中會(huì)產(chǎn)生數(shù)量龐大的業(yè)務(wù)數(shù)據(jù),對(duì)其進(jìn)行有效的價(jià)值挖掘有助于推動(dòng)汽車服務(wù)行業(yè)數(shù)據(jù)化、智能化[1]。針對(duì)汽車維修服務(wù)過程中產(chǎn)生的大量記錄汽車零部件故障現(xiàn)象、故障原因等的中文短文本數(shù)據(jù)進(jìn)行分類,是實(shí)現(xiàn)故障診斷、案例推薦等服務(wù)應(yīng)用的必要工作之一[2-5]。

        文本數(shù)據(jù)分類方法通??煞譃橛斜O(jiān)督分類及無監(jiān)督聚類,有監(jiān)督分類一般具有固定的分類體系,無法挖掘文本數(shù)據(jù)中的潛在信息。聚類方法可通過數(shù)據(jù)特征劃分?jǐn)?shù)據(jù)形成不同的簇類,獲取數(shù)據(jù)潛在信息。現(xiàn)有文本聚類方法多是針對(duì)獨(dú)立的句子級(jí)短文本本身[6-9],忽略了不同文本句子間的詞匯關(guān)聯(lián),缺少對(duì)各條文本中不同特征實(shí)體的聚類,無法獲取各類實(shí)體的潛在聚類標(biāo)簽。針對(duì)該問題,部分學(xué)者將獨(dú)立的短文本轉(zhuǎn)化為文檔級(jí)的整合數(shù)據(jù),再進(jìn)行文檔級(jí)的聚類研究[10-11],但如此又會(huì)失去各個(gè)實(shí)體的句子級(jí)關(guān)系特征。本文通過將句子級(jí)文本數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu),并在圖結(jié)構(gòu)基礎(chǔ)上進(jìn)行實(shí)體特征表示及聚類,以此同時(shí)保留實(shí)體的句子、文檔級(jí)特征。

        另一方面,在真實(shí)的汽車故障數(shù)據(jù)中,有的故障件實(shí)體對(duì)應(yīng)的解決方案實(shí)體有數(shù)十種,有的只有數(shù)種甚至一種。在數(shù)據(jù)對(duì)應(yīng)的圖結(jié)構(gòu)中,該現(xiàn)象表現(xiàn)為圖節(jié)點(diǎn)度值(與該節(jié)點(diǎn)直接相連的節(jié)點(diǎn)數(shù)量)大小不一,度值大的節(jié)點(diǎn)會(huì)產(chǎn)生較為強(qiáng)烈的噪音,干擾度值小的節(jié)點(diǎn)與其它節(jié)點(diǎn)建立關(guān)聯(lián),進(jìn)而影響節(jié)點(diǎn)全局結(jié)構(gòu)特征的建立。

        針對(duì)上述問題,本文提出一種面向故障短文本的改進(jìn)圖節(jié)點(diǎn)嵌入與聚類方法(improved Graph Node Embedding and Clustering method for Fault Short Text, GNEC_FST),改進(jìn)了已有的圖節(jié)點(diǎn)隨機(jī)游走方法,用以體現(xiàn)度值差異對(duì)節(jié)點(diǎn)結(jié)構(gòu)特征的影響,通過將節(jié)點(diǎn)的結(jié)構(gòu)特征與鄰域關(guān)系特征融合形成新的節(jié)點(diǎn)表示向量,并基于該節(jié)點(diǎn)表示向量進(jìn)行聚類。本文主要貢獻(xiàn)包括4個(gè)方面:

        (1)提出面向故障短文本的圖節(jié)點(diǎn)嵌入與聚類方法,在圖結(jié)構(gòu)度值差異較大的數(shù)據(jù)集中,該方法可獲取更加有效的實(shí)體節(jié)點(diǎn)聚類標(biāo)簽。

        (2)創(chuàng)新區(qū)分同一窗口下不同距離的詞匯間關(guān)聯(lián)的權(quán)重計(jì)算方法;針對(duì)所構(gòu)建的圖結(jié)構(gòu)具有度值分布較分散、度值大節(jié)點(diǎn)噪音大的問題,設(shè)計(jì)了度值差異影響參數(shù)用于改進(jìn)節(jié)點(diǎn)轉(zhuǎn)移概率計(jì)算方法,從而有效獲取度值差異較大節(jié)點(diǎn)間的關(guān)聯(lián)特征;同時(shí),本文將所獲取的節(jié)點(diǎn)結(jié)構(gòu)嵌入向量與關(guān)系特征向量進(jìn)行融合,從而在嵌入向量中表達(dá)具有相似鄰居節(jié)點(diǎn)的同類節(jié)點(diǎn)之間的相似性。

        (3)加入備選節(jié)點(diǎn)數(shù)改進(jìn)局部密度計(jì)算方法,針對(duì)不同的數(shù)據(jù)集特點(diǎn)及規(guī)模,可按需求選取鄰域節(jié)點(diǎn)更加緊密或稀疏的節(jié)點(diǎn)作為初始聚類中心,緩解了截?cái)嗑嚯x的敏感性,提高了方法的適應(yīng)性。

        (4)利用公開數(shù)據(jù)集及真實(shí)數(shù)據(jù)集對(duì)所提方法進(jìn)行參數(shù)分析和性能評(píng)估,結(jié)果表明該方法可獲取更加精準(zhǔn)有效的節(jié)點(diǎn)聚類結(jié)果。

        1 相關(guān)工作

        將短文本集轉(zhuǎn)化為圖結(jié)構(gòu),通過圖表示方法獲取詞匯及關(guān)系的嵌入表示向量,再對(duì)嵌入表示向量進(jìn)行聚類,這個(gè)過程中本文主要研究圖嵌入方法、局部密度計(jì)算方法兩個(gè)方面的相關(guān)工作內(nèi)容。

        (1)基于隨機(jī)游走的圖嵌入方法

        圖嵌入(Graph Embedding, GE)方法的目標(biāo)是將圖的組成單元映射到低維特征向量,并嘗試保留節(jié)點(diǎn)之間的連接強(qiáng)度,用向量的方式表示圖結(jié)構(gòu)及其特征,為聚類等下游問題提供特征數(shù)據(jù)。現(xiàn)有的圖嵌入方法可分為基于隨機(jī)游走[12]、矩陣分解[13-14]、深度學(xué)習(xí)[15-16]等方面的方法。其中,基于隨機(jī)游走的方法優(yōu)化節(jié)點(diǎn)嵌入向量的方式是使隨機(jī)游走中共現(xiàn)的節(jié)點(diǎn)具有更相似的表示,其方法簡(jiǎn)單有效,是獲取關(guān)系型數(shù)據(jù)圖結(jié)構(gòu)嵌入向量的可靠選擇。現(xiàn)有的隨機(jī)游走方法大多數(shù)是基于Deepwalk[12]進(jìn)行改進(jìn)的,主要可以按照改進(jìn)隨機(jī)游走采樣方法、改變所保留的鄰近度進(jìn)行區(qū)分。

        改進(jìn)隨機(jī)游走采樣方法的現(xiàn)有研究中,Constrained DeepWalk[17]采用了邊權(quán)重采樣的方法,通過非概率的方式將節(jié)點(diǎn)間邊權(quán)重的特征直接融入到嵌入向量中,其方法在應(yīng)對(duì)邊權(quán)重差異大的圖結(jié)構(gòu)中有較好效果。Node2vec[18]方法中設(shè)計(jì)了搜索偏差參數(shù),通過調(diào)節(jié)該參數(shù),可以使嵌入向量?jī)A向于表達(dá)不同的特性,在廣度優(yōu)先和深度優(yōu)先圖搜索之間進(jìn)行權(quán)衡,但是其方法難以體現(xiàn)不同度值分布的圖結(jié)構(gòu)中的節(jié)點(diǎn)差異。Planetoid方法[19]則按標(biāo)簽和結(jié)構(gòu)對(duì)節(jié)點(diǎn)對(duì)進(jìn)行采樣,且保留了標(biāo)簽的鄰近度值,是一種半監(jiān)督方法,用于應(yīng)對(duì)帶標(biāo)簽的圖節(jié)點(diǎn),不適用于無監(jiān)督圖節(jié)點(diǎn)。NBNE方法[20]中對(duì)目標(biāo)節(jié)點(diǎn)的直接鄰居節(jié)點(diǎn)進(jìn)行采樣,該文獻(xiàn)是針對(duì)超大型圖結(jié)構(gòu)進(jìn)行的改進(jìn),其方法在圖中節(jié)點(diǎn)數(shù)大于1 000時(shí)表現(xiàn)好于Deepwalk和Node2vec。WANG等[21]提出的方法使用了元路徑指導(dǎo)的隨機(jī)游走進(jìn)行采樣,且首次利用了節(jié)點(diǎn)在雙曲空間中的距離作為相似度度量,該方法是當(dāng)前研究中基于隨機(jī)游走的圖嵌入方法中表現(xiàn)最好的之一。

        改變所保留的鄰近度的方法中,ZHANG等的[22]方法通過保留節(jié)點(diǎn)的文本、圖像描述性標(biāo)簽的鄰近度來獲取更加精確的節(jié)點(diǎn)特征嵌入向量,其方法也是半監(jiān)督方法,適用于有充足數(shù)據(jù)基礎(chǔ)的圖嵌入場(chǎng)景。GenVector方法[23]通過保留同一類別實(shí)體兩兩之間的鄰近度來強(qiáng)化同類實(shí)體之間的關(guān)聯(lián),在一定程度上緩解游走對(duì)同類型實(shí)體間相似度的削弱,其方法在多模態(tài)數(shù)據(jù)場(chǎng)景中適用性更高。ProxEmbed方法[24]中則先將各節(jié)點(diǎn)按照相似度評(píng)分進(jìn)行排名,然后基于此構(gòu)建鄰近度特征融入到節(jié)點(diǎn)的鄰近度矩陣中。DeepCas[25]中基于信息流預(yù)測(cè)方面的技術(shù)構(gòu)建了基于馬爾可夫鏈的隨機(jī)游走策略,并將由此策略獲取的信息級(jí)聯(lián)序列也加入到鄰近度的計(jì)算中,其獲得的嵌入向量中包含了時(shí)效性特征,可用于涉及時(shí)效性的圖結(jié)構(gòu)數(shù)據(jù)嵌入場(chǎng)景中。

        隨機(jī)游走直接獲取的表示向量需要進(jìn)行降維處理,該過程一般采用深度學(xué)習(xí)方法。當(dāng)前研究中,多數(shù)方法采用的是SkipGram加分層softmax的方式[12,22-23],也有部分研究采用SkipGram加負(fù)采樣[18-19]、LSTM[24]或GRU[25]等方法,其區(qū)別在于,基于SkipGram的方法只能進(jìn)行嵌入單個(gè)節(jié)點(diǎn),而基于LSTM或GRU的方法可以嵌入句子級(jí)的節(jié)點(diǎn)集或信息級(jí)的路徑節(jié)點(diǎn)集。

        (2)局部密度計(jì)算方法

        局部密度是基于密度的聚類方法中的概念[26],局部密度計(jì)算是基于密度的聚類算法中一個(gè)關(guān)鍵步驟[27],為有效提高處理交叉數(shù)據(jù)集和密度不均數(shù)據(jù)集的聚類精度,很多方法都考慮了數(shù)據(jù)集分布的局部信息以消除對(duì)截?cái)嗑嚯x的依賴?,F(xiàn)有研究可按照針對(duì)參數(shù)敏感性、不同模態(tài)數(shù)據(jù)、數(shù)據(jù)密度特性等方面進(jìn)行分類。

        在針對(duì)參數(shù)敏感性方面,ADPC_KNN算法[28]能更大地?cái)U(kuò)展核心對(duì)象與邊界對(duì)象的密度差異,其算法只需一個(gè)參數(shù),且相較一般DPC算法更加健壯(Robustness)。STClu算法[29]中,用基于密度指標(biāo)的外部統(tǒng)計(jì)測(cè)試來識(shí)別簇中心,降低了參數(shù)的敏感性。在針對(duì)不同模態(tài)數(shù)據(jù)上,SEYEDI等[30]提出一種DPC-DLP算法,利用K鄰近重新定義局部密度的計(jì)算方法,該方法在處理圖像、基因方面的較高維數(shù)據(jù)時(shí)具有更好的效果。在針對(duì)數(shù)據(jù)密度特性方面,DPC-KNN算法[31]傾向于處理密度不均勻數(shù)據(jù)集,FKNN-DPC算法[32]傾向于處理任意形狀或規(guī)模的數(shù)據(jù)集,SNN-DPC算法[33]則傾向于處理多尺度、交叉纏繞和變化密度的數(shù)據(jù)集。

        2 面向故障短文本的改進(jìn)圖節(jié)點(diǎn)嵌入與聚類方法

        面向故障短文本的圖節(jié)點(diǎn)嵌入與聚類方法基本流程主要包括4個(gè)步驟,如圖1所示。

        ①基于權(quán)重計(jì)算方法構(gòu)建圖結(jié)構(gòu),用以表示短文本中的實(shí)體、行為及實(shí)體行為間的關(guān)系;②通過改進(jìn)的隨機(jī)游走方法獲取圖中節(jié)點(diǎn)表示序列,訓(xùn)練該表示序列獲取節(jié)點(diǎn)結(jié)構(gòu)特征;③將所得的節(jié)點(diǎn)結(jié)構(gòu)特征與節(jié)點(diǎn)關(guān)系特征融合;④對(duì)融合所得的節(jié)點(diǎn)表示向量集計(jì)算局部密度并選取初始聚類中心進(jìn)行聚類。

        2.1 區(qū)分同一窗口下不同距離的詞匯間關(guān)聯(lián)的權(quán)重計(jì)算

        基于短文本集D,采用滑動(dòng)窗口方法構(gòu)建可拓展的帶權(quán)無向圖,窗口寬度width的取值取決于短文本的平均長(zhǎng)度,圖結(jié)構(gòu)G=(V,E,W),其中V={vi|i=1,2,…,n}表示節(jié)點(diǎn)集;E={eij|vi∈V,vj∈V,i≠j}表示邊集;W={wij|eij∈E}表示每條邊上對(duì)應(yīng)的權(quán)重值集合。

        傳統(tǒng)的方法[34]中,權(quán)重的取值一般是文本詞匯的“同窗”次數(shù),如某文檔中,一定width下,“發(fā)動(dòng)機(jī)”與“冒煙”兩個(gè)詞匯在同一窗口內(nèi)出現(xiàn)的次數(shù)為5,則這兩個(gè)節(jié)點(diǎn)間的邊上的權(quán)重為5。但在這種方法下,一定窗口范圍內(nèi)所有詞與當(dāng)前窗口中心詞的關(guān)聯(lián)度都一樣,沒有合理體現(xiàn)詞匯之間的距離。為了區(qū)分同一窗口下的詞匯關(guān)聯(lián)度,同時(shí)保證上下文相關(guān)性,本文中設(shè)計(jì)的權(quán)重計(jì)算方法為:

        (1)

        式中:x為當(dāng)前窗口下目標(biāo)詞與中心詞的距離;u為設(shè)定的滑動(dòng)窗口寬度;t為文檔中短文本句子條數(shù);woij為傳統(tǒng)方法計(jì)算的權(quán)重值,

        (2)

        各條文本中,兩個(gè)相同詞匯間的距離可能不同,式(1)可以表達(dá)出這種不同,然后累加各條文本中相同詞匯間的權(quán)重,最終形成文檔級(jí)的詞匯間(邊)權(quán)重。

        2.2 面向度值差異的節(jié)點(diǎn)結(jié)構(gòu)特征獲取

        2.2.1 隨機(jī)游走

        隨機(jī)游走是一種通過定義在節(jié)點(diǎn)之間移動(dòng)的方法,從而形成游走路線,再通過路線確定嵌入向量的圖嵌入方法。隨機(jī)游走的概率定義如式(3)所示,使用ci表示游走過程中第i個(gè)節(jié)點(diǎn),初始節(jié)點(diǎn)co=u,則由節(jié)點(diǎn)ci-1轉(zhuǎn)移到節(jié)點(diǎn)ci的概率計(jì)算方式如下:

        (3)

        式中:πv,x表示節(jié)點(diǎn)v和x之間的非規(guī)范轉(zhuǎn)移概率;z表示歸一化常數(shù)。

        通過改變非規(guī)范轉(zhuǎn)移概率πv,x的定義,可以構(gòu)建出不同的游走方法,從而展現(xiàn)不同的圖結(jié)構(gòu)特性。Node2vec[17]中提出了搜索偏差α這一參數(shù)用于確定非規(guī)范轉(zhuǎn)移概率πv,x,

        πv,x=αpq(t,x)·wvx。

        (4)

        式中:wvx表示邊evx上的權(quán)重,由式(1)確定;搜索偏差αpq(t,x)由式(5)確定:

        (5)

        式中:dtx表示節(jié)點(diǎn)t到節(jié)點(diǎn)x的最短距離,此處的節(jié)點(diǎn)t表示游走路線上當(dāng)前所在節(jié)點(diǎn)v的前一個(gè)節(jié)點(diǎn),而節(jié)點(diǎn)x表示與當(dāng)前節(jié)點(diǎn)v直接相連的節(jié)點(diǎn),其數(shù)量為節(jié)點(diǎn)v的度數(shù)。因此,dtx取值范圍為{0,1,2}。

        參數(shù)p控制游走過程中回到上一節(jié)點(diǎn)的可能性,值越小,游走回上一節(jié)點(diǎn)的可能性越高。參數(shù)q控制游走趨向于“遠(yuǎn)離”當(dāng)前節(jié)點(diǎn)的可能性,當(dāng)q<1時(shí),表示趨向于“遠(yuǎn)離”;當(dāng)q>1時(shí),表示游走趨向于當(dāng)前節(jié)點(diǎn)附近。參數(shù)p、q的作用,本質(zhì)上是根據(jù)當(dāng)前節(jié)點(diǎn)與周圍節(jié)點(diǎn)之間的距離調(diào)整這些節(jié)點(diǎn)之間邊上的權(quán)重。

        2.2.2 面向度值差異的搜索偏差改進(jìn)

        故障數(shù)據(jù)圖結(jié)構(gòu)中節(jié)點(diǎn)度值差異較大,度值大的節(jié)點(diǎn)會(huì)產(chǎn)生嚴(yán)重的噪音干擾度值小的節(jié)點(diǎn)與其它節(jié)點(diǎn)建立關(guān)聯(lián)。為了改進(jìn)非規(guī)范轉(zhuǎn)移概率對(duì)邊權(quán)重的依賴性,進(jìn)而改善圖中度值大的節(jié)點(diǎn)噪音大的問題,本文改進(jìn)了搜索偏差的計(jì)算方法,如式(6)所示。

        (6)

        利用式(6),從當(dāng)前節(jié)點(diǎn)v轉(zhuǎn)移到目標(biāo)節(jié)點(diǎn)x的概率可基于當(dāng)前節(jié)點(diǎn)及目標(biāo)節(jié)點(diǎn)的度值、度值差異影響參數(shù)τ進(jìn)行調(diào)整。其中dgv和dgx分別表示當(dāng)前節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的度值,當(dāng)dgv>dgx時(shí),該式可提高轉(zhuǎn)移到目標(biāo)節(jié)點(diǎn)的概率,反之則會(huì)降低該概率。而參數(shù)τ用于調(diào)整度值差異對(duì)轉(zhuǎn)移概率的影響程度,τ的取值根據(jù)整個(gè)圖結(jié)構(gòu)的度值分布情況確定。當(dāng)τ取值較小時(shí),所構(gòu)建的游走路線傾向于在度值較高的節(jié)點(diǎn)周圍;當(dāng)τ取值較大時(shí),所構(gòu)建的游走路線傾向于前往度值較低的節(jié)點(diǎn)附近?;趫D中所有n個(gè)節(jié)點(diǎn)的度值(dg1,dg2,…,dgn),當(dāng)前圖的度值分布情況表達(dá)式如式(7)所示。

        (7)

        基于上述方法對(duì)每個(gè)節(jié)點(diǎn)形成游走路線,可以得到圖結(jié)構(gòu)下各節(jié)點(diǎn)的表示序列,但當(dāng)前節(jié)點(diǎn)表示向量為獨(dú)熱向量的形式,其維度n為全圖節(jié)點(diǎn)個(gè)數(shù),維度太高且訓(xùn)練速度極慢??紤]到進(jìn)行的是節(jié)點(diǎn)的嵌入,本文采用SkipGram方法對(duì)所有節(jié)點(diǎn)表示向量進(jìn)行訓(xùn)練降維,訓(xùn)練過程中采用負(fù)采樣方法進(jìn)行樣本的權(quán)重更新,負(fù)采樣方法因只更新部分邊權(quán)重,可大幅提高訓(xùn)練速度。

        2.3 節(jié)點(diǎn)結(jié)構(gòu)特征與關(guān)系特征的融合

        在2.2節(jié)獲取各個(gè)節(jié)點(diǎn)的結(jié)構(gòu)特征的過程中,將節(jié)點(diǎn)之間的關(guān)系以權(quán)重的方式融入到了圖的邊中,但是這種方式會(huì)在強(qiáng)化直接相連節(jié)點(diǎn)之間關(guān)聯(lián)的同時(shí)削弱同類型的實(shí)體節(jié)點(diǎn)之間的相似性表示,如4個(gè)實(shí)體節(jié)點(diǎn)“發(fā)動(dòng)機(jī)”、“噴油器”、“冒煙”、“噪音”中,前兩者分別與后兩者直接相連,他們的關(guān)聯(lián)會(huì)被強(qiáng)化,但實(shí)際上前兩個(gè)實(shí)體都是一類故障件實(shí)體,他們之間的相似性不應(yīng)被削弱。本文通過節(jié)點(diǎn)關(guān)系特征的相似性來表示具有相似鄰居節(jié)點(diǎn)的同類節(jié)點(diǎn)之間的相似性,因此將結(jié)構(gòu)特征與關(guān)系特征進(jìn)行融合。

        本文采用鄰接矩陣作為關(guān)系特征矩陣,但鄰接矩陣是n×n的矩陣,而節(jié)點(diǎn)結(jié)構(gòu)特征矩陣是n×d,因此將節(jié)點(diǎn)特征與關(guān)系特征的融合過程分為映射與融合兩個(gè)步驟。

        (1)映射 第一步是將關(guān)系特征向量空間映射到結(jié)構(gòu)特征向量空間,這樣可以避免不同空間融合帶來的誤差,這一步中,對(duì)以下3種方法進(jìn)行了比較:

        1)比例函數(shù):直接采用簡(jiǎn)單的比例函數(shù)進(jìn)行映射,fmap=A·x。

        2)線性函數(shù):映射函數(shù)是線性函數(shù)fmap=A·x+b。

        3)多層感知器MLP:映射函數(shù)定義為一個(gè)多層感知器,其激活函數(shù)是ReLU。

        用于訓(xùn)練映射函數(shù)的損失函數(shù)為:

        (8)

        采用梯度下降法進(jìn)行求解,其中:n表示節(jié)點(diǎn)個(gè)數(shù);θ表示映射函數(shù)的參數(shù):ai表示節(jié)點(diǎn)vi的關(guān)系特征向量;xi表示節(jié)點(diǎn)vi的結(jié)構(gòu)特征向量。

        處理階段主要是對(duì)以上3個(gè)階段進(jìn)行總結(jié)和分析,同時(shí)也貫徹于前3個(gè)階段。通過科室?guī)Ы探M長(zhǎng)對(duì)帶教老師和實(shí)習(xí)同學(xué)的定期檢查和考核,對(duì)檢查的結(jié)果進(jìn)行處理,對(duì)帶教過程中做的好的方面進(jìn)行肯定并標(biāo)注化,以指導(dǎo)日后的帶教工作;對(duì)帶教過程中遇到的問題及時(shí)進(jìn)行分析,組織帶教老師、實(shí)習(xí)同學(xué)共同進(jìn)行討論,尋找解決方案,并在下一個(gè)PDCA循環(huán)中進(jìn)行改進(jìn)。

        基于上述方法,獲得了新的節(jié)點(diǎn)表示向量yi作為聚類算法的輸入。

        2.4 加入備選節(jié)點(diǎn)個(gè)數(shù)的局部密度計(jì)算方法

        獲取各節(jié)點(diǎn)的嵌入向量之后,將進(jìn)行初始聚類中心的選取??紤]到故障短文本數(shù)據(jù)中的關(guān)鍵詞特性,由該類短文本構(gòu)建的嵌入向量節(jié)點(diǎn)的可能性分布情況如圖2所示,兩種分布情況中,截距范圍內(nèi)節(jié)點(diǎn)個(gè)數(shù)相同,但節(jié)點(diǎn)主要分布情況不同,可能導(dǎo)致零部件關(guān)鍵詞與故障現(xiàn)象關(guān)鍵詞等各自形成不同簇,難以達(dá)到全局聚類目標(biāo),因此其指標(biāo)結(jié)果應(yīng)有所區(qū)分。針對(duì)該問題,采用下述方法改進(jìn)局部密度的計(jì)算。

        計(jì)算獲取當(dāng)前圖中各節(jié)點(diǎn)距離矩陣H后,為各個(gè)節(jié)點(diǎn)計(jì)算其局部密度指標(biāo)ρi和相對(duì)最小距離指標(biāo)γi,其中

        (9)

        式中:dij表示節(jié)點(diǎn)i,j之間的歐式距離;dc表示截?cái)嗑嚯x,考慮到本文所構(gòu)建的圖中節(jié)點(diǎn)個(gè)數(shù),dc取值為所有dij由小到大排列時(shí)占4%位置的值;mi表示節(jié)點(diǎn)i截?cái)嗑嚯x內(nèi)的鄰居節(jié)點(diǎn)個(gè)數(shù)。

        對(duì)所有mi值由大到小排序,取前σ個(gè)對(duì)應(yīng)的節(jié)點(diǎn)作為備選節(jié)點(diǎn),根據(jù)式(9)求各備選節(jié)點(diǎn)的ρi值。此處我們?cè)O(shè)備選節(jié)點(diǎn)個(gè)數(shù)為σ,σ值可根據(jù)數(shù)據(jù)規(guī)模確定,且K≤σ≤n-1,其中n為圖中節(jié)點(diǎn)總數(shù)。通過設(shè)置備選節(jié)點(diǎn)個(gè)數(shù),可以緩解截?cái)嗑嚯x參數(shù)的敏感性。

        最小距離指標(biāo)γi計(jì)算方法采用原方法:

        (10)

        基于上述兩指標(biāo)計(jì)算θi=ρi×γi,選擇θi最大的K個(gè)節(jié)點(diǎn)作為初始中心。

        2.5 整體方法偽代碼

        本文提出面向故障短文本的改進(jìn)圖節(jié)點(diǎn)嵌入與聚類方法流程如算法1和算法2所示。

        算法1改進(jìn)隨機(jī)游走方法獲取圖節(jié)點(diǎn)嵌入向量。

        輸入:圖結(jié)構(gòu)G=(V,E,W),全節(jié)點(diǎn)采樣次數(shù)r,節(jié)點(diǎn)表示序列長(zhǎng)度l,詞向量上下文最大距離b,嵌入向量維度d,Return參數(shù)p,In_out參數(shù)q,度差異影響參數(shù)τ;

        輸出:節(jié)點(diǎn)嵌入表示向量集合:y_embs。

        1.利用公式(3)、(4)、(6)基于圖結(jié)構(gòu)參數(shù)G=(V,E,W)中的權(quán)重W獲取轉(zhuǎn)移概率P;

        2.初始化節(jié)點(diǎn)表示序列集合walks為空;

        3.對(duì)采樣次數(shù)iter=1 tor:

        對(duì)每個(gè)節(jié)點(diǎn)v∈V:

        初始化當(dāng)前節(jié)點(diǎn)表示序列walk為空;

        設(shè)置初始節(jié)點(diǎn)v,并將節(jié)點(diǎn)v加入walk,使walk=[v];

        當(dāng)walk長(zhǎng)度低于所設(shè)節(jié)點(diǎn)表示序列長(zhǎng)度l時(shí):

        依據(jù)當(dāng)前節(jié)點(diǎn)的前一節(jié)點(diǎn)與附近節(jié)點(diǎn)的最近距離情況及涉及節(jié)點(diǎn)的度值情況確定從當(dāng)前節(jié)點(diǎn)轉(zhuǎn)移到各個(gè)鄰居節(jié)點(diǎn)的概率;

        依據(jù)概率將某個(gè)鄰居節(jié)點(diǎn)添加到walk;

        將當(dāng)前節(jié)點(diǎn)的walk加入walks;

        4.對(duì)walks采用SkipGram+負(fù)采樣方法進(jìn)行降維,獲得維度為d的結(jié)構(gòu)嵌入向量集合St_embs.

        5.采用公式(8)訓(xùn)練映射函數(shù),獲取融合后的嵌入表示向量集y_embs。

        算法2改進(jìn)局部密度計(jì)算方法。

        輸入:每個(gè)節(jié)點(diǎn)的嵌入表示向量集合y_embs,備選節(jié)點(diǎn)個(gè)數(shù)σ,預(yù)設(shè)聚類簇?cái)?shù)目K,聚類迭代次數(shù)tmp;

        輸出:聚類結(jié)果C。

        1.根據(jù)y_embs構(gòu)建距離矩陣H,并基于此確定截?cái)嗑嚯xdc;

        2.對(duì)每個(gè)節(jié)點(diǎn)vi∈V,分別求截?cái)嗑嚯x內(nèi)鄰居節(jié)點(diǎn)個(gè)數(shù)mi;

        3.對(duì)所有m值由大到小進(jìn)行排序,選取前σ個(gè)對(duì)應(yīng)的節(jié)點(diǎn),對(duì)每個(gè)節(jié)點(diǎn)vi利用公式(9)、(10)求局部密度ρi及最小距離指標(biāo)γi,然后分別求θi=ρi×γi;

        4.對(duì)所有節(jié)點(diǎn)的θi值排序,選取最大的前K個(gè)θi對(duì)應(yīng)的節(jié)點(diǎn)作為初始聚類中心;

        5.初始化K個(gè)簇,分別包含一個(gè)初始中心節(jié)點(diǎn);

        6.當(dāng)?shù)螖?shù)clu_iter小于tmp時(shí):

        計(jì)算其余所有節(jié)點(diǎn)到K個(gè)中心節(jié)點(diǎn)的距離,并將其分配到距離最近的中心所在的簇內(nèi),形成新的K個(gè)簇,記錄當(dāng)前簇中心節(jié)點(diǎn)為vi1至vik;

        重新計(jì)算每個(gè)簇的中心位置,并分別與前一次的中心位置對(duì)比,若距離不等于0,則clu_iter+1;若距離等于0,則結(jié)束循環(huán);

        7.驗(yàn)證算法收斂性并返回K個(gè)簇。

        3 實(shí)驗(yàn)及結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為驗(yàn)證本文中所提GNEC_FST方法中圖嵌入與聚類的效果,所采用的公開數(shù)據(jù)集是github上中文文本數(shù)據(jù)項(xiàng)目中一個(gè)短文本數(shù)據(jù)集toutiao_cat_data(ttc_data)。該數(shù)據(jù)集共包含約38萬條短文本,共15類,本文中隨機(jī)選取約1 900條進(jìn)行所提方法的有效性驗(yàn)證。

        真實(shí)文本數(shù)據(jù)來源是汽車產(chǎn)業(yè)云服務(wù)平臺(tái)[33]中的業(yè)務(wù)系統(tǒng)上提取的汽車故障文本數(shù)據(jù),選取其中涉及發(fā)動(dòng)機(jī)部件的數(shù)據(jù),共選取5 903條短文本用于實(shí)驗(yàn)分析,數(shù)據(jù)中各不同機(jī)構(gòu)/系統(tǒng)下的文本條數(shù)、預(yù)設(shè)主題數(shù)、平均長(zhǎng)度等相關(guān)信息如表1所示,故障體系如圖3所示。

        表1 真實(shí)業(yè)務(wù)數(shù)據(jù)信息統(tǒng)計(jì)表

        3.2 參數(shù)分析

        本文對(duì)度值差異影響參數(shù)τ和備選節(jié)點(diǎn)參數(shù)σ進(jìn)行了選取分析。評(píng)價(jià)指標(biāo)為輪廓系數(shù)及CH分?jǐn)?shù),輪廓系數(shù)取值范圍為(-1,1),輪廓系數(shù)越接近1,表示聚類結(jié)果越好;反之,應(yīng)極力避免輪廓系數(shù)為負(fù)值。CH分?jǐn)?shù)方法評(píng)價(jià)目標(biāo)是用盡量少的類別數(shù)聚類盡量多的樣本數(shù),其取值越大,表示聚類結(jié)果越好。

        3.2.1 度值差異影響參數(shù)τ選取分析

        度值差異影響參數(shù)τ的取值可以影響游走路線的趨勢(shì),從而影響最終形成的嵌入向量。根據(jù)前文中式(7)求取ξ,獲得整個(gè)圖的節(jié)點(diǎn)度值分布情況,0≤ξ

        故障短文本構(gòu)建的圖結(jié)構(gòu)中,關(guān)于某個(gè)故障部件的全部故障信息節(jié)點(diǎn)通常分布較分散,為了充分避免大度值節(jié)點(diǎn)的噪音,體現(xiàn)小度值節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系,本文中τ取值為[1,8]范圍內(nèi)取16個(gè)點(diǎn),分別對(duì)發(fā)動(dòng)機(jī)部件的4組數(shù)據(jù)集1、2、4、5獲取嵌入向量并聚類,根據(jù)結(jié)果對(duì)比輪廓系數(shù)及CH分?jǐn)?shù)。

        如圖4所示,數(shù)據(jù)集1中,隨著τ值提高,結(jié)果表現(xiàn)逐步變好,超過3.5時(shí)逐步降低,而后在取值超過5.5后又會(huì)有提升,而后再次降低;同樣其他數(shù)據(jù)集中,τ的取值對(duì)結(jié)果的影響亦存在起伏。整體而言,度值差異影響參數(shù)在不同取值下,所得到的輪廓系數(shù)及CH分?jǐn)?shù)的值曲線形似“M”型。同時(shí),在不同數(shù)據(jù)集下,其形態(tài)變化呈現(xiàn)不同的平滑程度,這是由于各個(gè)數(shù)據(jù)集規(guī)模不同導(dǎo)致其對(duì)應(yīng)的所有節(jié)點(diǎn)的度值分布連續(xù)性不同,如數(shù)據(jù)集4規(guī)模較小,這種變化起伏則更大;反之,數(shù)據(jù)集5中數(shù)據(jù)規(guī)模較大,所有節(jié)點(diǎn)的度值分布更加具有連續(xù)性,ξ值因此變小,即每種度值的節(jié)點(diǎn)數(shù)差異相對(duì)較小,則其相應(yīng)的變化起伏則較平滑。通過上述分析可知,τ的取值會(huì)對(duì)聚類結(jié)果的影響有明顯的起伏,但可以明確地找出有較好表現(xiàn)的取值。因此,通過加入度值差異影響參數(shù)來改進(jìn)搜索偏差的計(jì)算方法,可以有效提高節(jié)點(diǎn)的聚類表現(xiàn)。

        3.2.2 備選節(jié)點(diǎn)個(gè)數(shù)σ選取分析

        備選節(jié)點(diǎn)個(gè)數(shù)σ用于確定聚類初始中心,備選節(jié)點(diǎn)個(gè)數(shù)越大,越有可能選到附近節(jié)點(diǎn)更緊密的節(jié)點(diǎn)作為初識(shí)中心??紤]對(duì)各數(shù)據(jù)集需設(shè)置不同的K值,此處我們選擇了K值相同的數(shù)據(jù)集2和數(shù)據(jù)集5進(jìn)行分析,基于各個(gè)數(shù)據(jù)集所構(gòu)建的圖中總的節(jié)點(diǎn)數(shù)量,選取備選節(jié)點(diǎn)個(gè)數(shù)σ值取值范圍為K≤σ≤2K,即5≤σ≤10,分析結(jié)果如表2所示。

        表2 不同σ取值對(duì)初始中心選取的結(jié)果對(duì)比

        由表3的結(jié)果對(duì)比可以看出,在備選節(jié)點(diǎn)個(gè)數(shù)σ的影響下,所選取的聚類中心能明顯提高聚類的結(jié)果表現(xiàn),并且,隨著σ值的增大,其輪廓系數(shù)更高。但是另一方面,隨著σ值的提高,所消耗的運(yùn)行時(shí)間會(huì)明顯增多,因此,可以基于數(shù)據(jù)規(guī)模針對(duì)性地選擇σ的取值以平衡時(shí)間消耗及結(jié)果表現(xiàn)。

        表3 方法參數(shù)設(shè)置

        另外,時(shí)間復(fù)雜度方面,由2.4節(jié)第4段中陳述以及2.5節(jié)中算法2步驟3可知,備選節(jié)點(diǎn)數(shù)量的選擇直接影響的參數(shù)為局部密度指標(biāo)ρ,該參數(shù)的計(jì)算時(shí)間復(fù)雜度主要包括兩部分:①備選節(jié)點(diǎn)數(shù)量σ取值范圍:K≤σ≤n-1;②單個(gè)節(jié)點(diǎn)ρ值的計(jì)算時(shí)間復(fù)雜度為O(1)。因此,對(duì)σ個(gè)節(jié)點(diǎn)計(jì)算ρ的時(shí)間復(fù)雜度為O(n)。

        3.3 方法性能評(píng)估

        對(duì)方法性能的評(píng)價(jià)指標(biāo)為聚類準(zhǔn)確率ACC和標(biāo)準(zhǔn)化互信息值NMI,結(jié)果取值范圍均為[0,1],其值越接近1,則表示聚類結(jié)果越好;反之,越接近0則表示聚類結(jié)果越差。

        3.3.1 對(duì)比方法

        本文中進(jìn)行對(duì)比方法包括:①Node2vec[14]+LD[28];②HHINE[34]+LD;③改進(jìn)圖嵌入方法+LD;④Node2vec+ILD;⑤HHINE +ILD;⑥本文所提方法:GNEC_FST。選用上述方法,主要考慮到:Node2vec方法是最經(jīng)典的基于游走的圖嵌入方法之一,且本文面向度值差異的搜索偏差計(jì)算方法是基于其方法改進(jìn)的;HHINE是當(dāng)前基于隨機(jī)游走的圖節(jié)點(diǎn)嵌入方法中表現(xiàn)最好的方法之一;本文的另一個(gè)改進(jìn)點(diǎn)是局部密度計(jì)算方法,選擇與經(jīng)典的局部密度計(jì)算方法對(duì)比,所有方法的最終獲取聚類結(jié)果的方法都是K-Means,因其是圖節(jié)點(diǎn)聚類研究中最常用的獲取聚類結(jié)果的方法。

        本文所提方法中部分關(guān)鍵參數(shù)的取值情況如表3所示,其中后3種參數(shù)的取值分別依次對(duì)應(yīng)6個(gè)數(shù)據(jù)集。

        3.3.2 方法性能評(píng)估

        基于1個(gè)公開數(shù)據(jù)集ttc_data和5個(gè)汽車產(chǎn)業(yè)真實(shí)業(yè)務(wù)數(shù)據(jù),結(jié)合圖3中的發(fā)動(dòng)機(jī)部件故障分類體系,本文方法的性能評(píng)估基于聚類準(zhǔn)確率ACC、和標(biāo)準(zhǔn)化互信息值NMI兩個(gè)評(píng)價(jià)指標(biāo)進(jìn)行。性能評(píng)估結(jié)果如表4中所示。

        表4 在6個(gè)數(shù)據(jù)集上的方法性能評(píng)估結(jié)果

        對(duì)表4中的性能評(píng)估結(jié)果進(jìn)行分析可知:①圖節(jié)點(diǎn)嵌入方法的改進(jìn)對(duì)圖節(jié)點(diǎn)聚類結(jié)果精度的提升較大,而局部密度方面的改進(jìn)對(duì)聚類結(jié)果的影響較小;②在故障領(lǐng)域這類數(shù)據(jù)節(jié)點(diǎn)度值差異較大的領(lǐng)域中,GNEC_FST方法表現(xiàn)明顯好于其他方法。

        圖5展示了各方法不同視角下ACC值的對(duì)比結(jié)果。圖5a顯示了各個(gè)方法針對(duì)不同數(shù)據(jù)集的結(jié)果,灰色表示ttc_data數(shù)據(jù)集的結(jié)果,黑色表示故障數(shù)據(jù)下的結(jié)果平均值,各個(gè)方法在tcc_data這種常識(shí)性數(shù)據(jù)集中表現(xiàn)區(qū)別不大,在汽車故障業(yè)務(wù)數(shù)據(jù)集中則明顯是GNEC_FST方法表現(xiàn)最好;圖5b中3組并列的柱形分別顯示了在3種嵌入方法下,兩種不同密度計(jì)算方法的結(jié)果區(qū)分;圖5c中兩組并列的柱形則顯示了不同局部密度方法下,3種不同嵌入方法的結(jié)果對(duì)比??梢钥闯?面向故障數(shù)據(jù)集時(shí),嵌入方法的不同對(duì)結(jié)果的改進(jìn)更明顯。

        4 結(jié)束語

        為有效挖掘故障短文本中跨文本的詞匯間關(guān)聯(lián),構(gòu)建故障實(shí)體節(jié)點(diǎn)的全局特征表示,從而獲取故障實(shí)體節(jié)點(diǎn)聚類標(biāo)簽,本文提出了一種面向故障短文本的圖節(jié)點(diǎn)嵌入與聚類方法,該方法在面向故障短文本的圖節(jié)點(diǎn)嵌入與聚類上有更優(yōu)的性能,但是本文構(gòu)建的圖結(jié)構(gòu)是無向圖,而故障實(shí)體間的關(guān)系還有許多是有向的,本文在這方面還需進(jìn)一步研究。本文通過構(gòu)建圖結(jié)構(gòu)表達(dá)故障短文本中的詞匯間關(guān)聯(lián)性,未來,隨著數(shù)據(jù)規(guī)模的增加,大型圖結(jié)構(gòu)可以拓展形成汽車維修知識(shí)庫等,有利于進(jìn)行長(zhǎng)期動(dòng)態(tài)的知識(shí)發(fā)掘工作。另一方面,可以繼續(xù)研究節(jié)點(diǎn)-邊的特征表示問題,將其拓展到故障預(yù)測(cè)、知識(shí)庫補(bǔ)全等方面的研究應(yīng)用中。

        猜你喜歡
        故障方法
        故障一點(diǎn)通
        學(xué)習(xí)方法
        可能是方法不對(duì)
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        故障一點(diǎn)通
        故障一點(diǎn)通
        亚洲国产精品中文字幕日韩| 国产成人综合亚洲看片| 曝光无码有码视频专区| 精品国产亚洲一区二区在线3d | 国产精品一区二区三区播放| 少妇人妻中文字幕hd| 黑人玩弄人妻中文在线| 精品国产亚欧无码久久久| 日本久久黄色高清视频| 色呦呦九九七七国产精品| 97高清国语自产拍| 国产一毛片| 亚洲影院在线观看av| 国产亚洲自拍日本亚洲| 粗壮挺进人妻水蜜桃成熟漫画| 亚洲a∨天堂男人无码| 亚洲一区二区三区av色婷婷| 成人性生交大片免费入口| 人妻聚色窝窝人体www一区| 日本亚洲欧美高清专区| 人成视频在线观看免费播放| 在线精品首页中文字幕亚洲| 久久99精品九九九久久婷婷| 国产网站视频| 中文字幕一区二区区免| 免费a级毛片高清在钱| av香港经典三级级 在线| 久久夜色精品国产亚洲噜噜| av毛片亚洲高清一区二区| 免费欧洲毛片a级视频老妇女| 免费人成视频在线观看视频| 一本色道久久综合亚洲精品蜜臀| 久久精品亚洲成在人线av乱码| 午夜福利一区二区三区在线观看| 欧美成人久久久免费播放| 激情网色图区蜜桃av| 中文字幕人妻丝袜成熟乱| 牛鞭伸入女人下身的真视频| 无码久久精品蜜桃| av日韩高清一区二区| 亚洲欧美一区二区三区在线|