亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于故障模式的裝備質(zhì)量問題文本分類方法

        2021-09-23 05:54:48費清春史瑩瑩曾慶國
        關(guān)鍵詞:卡德特征向量裝備

        費清春,史瑩瑩,曾慶國

        (1.南京電子技術(shù)研究所,江蘇 南京210039;2.工業(yè)和信息化部電子第五研究所,廣東 廣州511300)

        0 引言

        隨著計算機技術(shù)的快速發(fā)展,企業(yè)建立了產(chǎn)品質(zhì)量問題處理信息系統(tǒng),存儲了大量的產(chǎn)品質(zhì)量問題處理歷史記錄。產(chǎn)品質(zhì)量改進通常是建立在產(chǎn)品質(zhì)量問題數(shù)據(jù)分析的基礎(chǔ)上,將質(zhì)量問題快速、準確地自動歸類為不同的故障模式,對于促進企業(yè)識別質(zhì)量問題關(guān)鍵因素,推動產(chǎn)品質(zhì)量改進具有十分重要的現(xiàn)實意義。如何將成千上萬,甚至是幾十萬條質(zhì)量問題數(shù)據(jù)按照故障模式自動分類,單憑專家篩選、甄別和分類,是一個巨量的、難以短時間完成的任務(wù),成為了亟需解決的實際問題。以關(guān)鍵詞檢索等自動化程度較低的人機協(xié)作模式開展質(zhì)量問題分類,結(jié)果存在大量的誤報和漏報,不能滿足實際使用的需要。

        運用大數(shù)據(jù)技術(shù),分析挖掘產(chǎn)品質(zhì)量問題數(shù)據(jù),能夠為產(chǎn)品質(zhì)量改進的技術(shù)創(chuàng)新提供有效的技術(shù)支持[1]。當前,計算機領(lǐng)域已形成了中文分詞、文本挖掘等自然語言處理技術(shù),在此背景下,本文重點聚焦裝備質(zhì)量問題文本數(shù)據(jù)的故障模式自動分類方法展開研究。

        1 相關(guān)研究

        在計算機文本挖掘方面,Kenter等人[2]合并由相同算法、語料庫、參數(shù)設(shè)置得到的不同維度詞向量,訓練出分類模型,并利用此分類模型計算短文本問題之間的相似度;Kusner等人[3]基于詞與詞之間的最小移動距離,求解問題文本之間的文檔相似度;孟繁宇[4]則將基于檢索詞的摘要提取問題轉(zhuǎn)化為文本聚類問題,利用提取式摘要抽取方法,對文檔的主要特征進行向量化抽取和去冗余等操作。

        針對裝備故障和失效等質(zhì)量問題分類方法研究,張計晨[5]圍繞天氣雷達運行工作原理,分析雷達發(fā)射系統(tǒng)故障觸發(fā)機理,形成發(fā)射系統(tǒng)故障分類模型。龔俊杰[6]提出航空產(chǎn)品質(zhì)量問題的三維分類模型,從“過程-問題-性質(zhì)”三個維度對質(zhì)量問題的不同分析類別進行定義,再通過每一維度的層次分類,實現(xiàn)對問題的全面分類管理。李擎等人[7]提出基于層疊隱馬爾可夫的設(shè)備質(zhì)量風險隱患識別模型,在此基礎(chǔ)上統(tǒng)計每類質(zhì)量問題的出現(xiàn)頻度,實現(xiàn)對基于風險等級的質(zhì)量問題管理方案。謝榮琦[8]則將數(shù)據(jù)挖掘中的特征聚類算法引入質(zhì)量特性識別過程中,并與過濾型特征算法相結(jié)合,構(gòu)造面向復雜產(chǎn)品關(guān)鍵質(zhì)量特征的問題識別模型。張青等人[9]提出基于主題擴展的領(lǐng)域問題分類方法,給出了評價分類的指標。Liu等人[10]提出了一種基于樸素貝葉斯的分類算法,通過計算描述文本的統(tǒng)計學特征進行分類。洪晟等人[11-15]針對雷達電源系統(tǒng)健康分級分類、車載離子電池的健康狀況評價等方面,開展特征數(shù)據(jù)訓練,并引入長-短期記憶網(wǎng)絡(luò)預測和判別健康狀態(tài),在互相依存網(wǎng)絡(luò)中開展故障關(guān)聯(lián)分類分析、級聯(lián)失效分類分析等。

        上述研究文獻啟發(fā)了筆者通過文本之間的相似度判斷問題分類的思路,相對于從裝備實時監(jiān)測狀態(tài)判定故障模式,本文從自然語言處理的角度,提出一種基于文本特征抽取和相似度計算的裝備質(zhì)量問題自動分類方法,為解決此類問題提供了一個新的路徑。

        2 裝備質(zhì)量問題文本分類基本定義

        定義1裝備質(zhì)量問題文本表示為6元集合P,如式(1)所示:

        其中,pi表示質(zhì)量問題的特定數(shù)據(jù)項。p1表示質(zhì)量問題唯一編號;p2表示質(zhì)量問題發(fā)生的部位;p3表示質(zhì)量問題現(xiàn)象文本;p4表示質(zhì)量問題原因文本;p5表示質(zhì)量問題糾正文本;p6表示質(zhì)量問題糾正措施文本。

        定義2裝備質(zhì)量問題故障模式表示為3元集合F,如式(2)所示:

        式中,fi表示裝備質(zhì)量問題故障模式的特定數(shù)據(jù)項。其中,f1表示故障模式唯一編號;f2表示故障模式名稱;f3表示故障模式文本描述。

        定義3裝備質(zhì)量問題分類的結(jié)果表示為裝備質(zhì)量問題文本集P到裝備故障模式集F的一個映射關(guān)系ζP→F。假設(shè)?xi∈P均有且僅有一個yi∈F與之對應(yīng),即一個質(zhì)量問題與一個故障模式存在唯一映射關(guān)系。

        3 裝備質(zhì)量問題文本分類方法

        3.1 質(zhì)量問題文本分類框架與流程

        本文提出了質(zhì)量問題文本分類的框架,如圖1所示。數(shù)據(jù)預處理對質(zhì)量問題和故障模式文本進行中文分詞等;數(shù)據(jù)特征提取對質(zhì)量問題和故障模式文本提取有用的特征;相似度計算獲得質(zhì)量問題與故障模式的文本相似性;分類判定用以建立質(zhì)量問題文本與故障模式文本的映射關(guān)系;指標評價完成評估質(zhì)量問題分類方法的性能。

        圖1 裝備質(zhì)量問題文本分類框架圖

        基于故障模式的裝備質(zhì)量問題文本自動分類方法包含3個核心部分:(1)文本特征向量構(gòu)造:利用中文分詞技術(shù)分別將質(zhì)量問題和故障模式文本切詞,生成關(guān)鍵詞特征向量;(2)質(zhì)量問題特征向量相似度計算:進行質(zhì)量問題文本與故障模式文本的特征向量之間的相似度計算;(3)質(zhì)量問題故障模式判別:依據(jù)相似度閾值,自動判定質(zhì)量問題歸屬的故障模式種類。裝備質(zhì)量問題文本分類方法的主要流程如圖2所示。

        圖2 裝備質(zhì)量問題文本分類流程圖

        3.2 質(zhì)量問題文本特征向量構(gòu)造

        在建立映射關(guān)系ζP→F的過程中,需要同時考慮質(zhì)量問題文本的多維度信息pi和故障模式文本F中的多維度信息fi,最大程度地利用多元語義特征,具體步驟包括:

        (1)提取裝備質(zhì)量問題文本的語義特征,構(gòu)造質(zhì)量問題文本特征向量,創(chuàng)建字符串s=p1+p2+p3+p4+p5+p6,對s進行中文分詞并構(gòu)建單詞集合X。

        (2)提取故障模式文本的語義特征,創(chuàng)建字符串f=f1+f2+f3,對f進行中文分詞并構(gòu)建單詞集合Y,X和Y合并為詞典Z,詞典Z中單詞的總數(shù)為n。

        (3)建立質(zhì)量問題文本的特征向量,記為v,向量空間長度為n;建立故障模式的特征向量,記為w,向量空間長度為n。

        (4)對照文本在Z中查字典,按照獨熱編碼方式,完成v和w特征向量賦值。

        3.3 質(zhì)量問題特征向量相似度計算

        裝備質(zhì)量問題文本與質(zhì)量問題故障模式文本的相似度記為a,相似度計算的常用方法包括杰卡德相似系數(shù)(Jaccard Similarity Coefficient)、余弦相似度(Cosine Similarity)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)等。

        (1)杰卡德相似系數(shù)通過測量兩個有限樣本集合之間的重疊,計算它們之間的相似性。給定一個裝備質(zhì)量問題文本分詞集合X,一個故障模式的分詞集合Y,則杰卡德相似系數(shù)表示為:

        (2)余弦相似度通過計算質(zhì)量問題文本的特征向量v和故障模式的特征向量w的夾角余弦值來評估它們的相似度。給定一個質(zhì)量問題特征向量v,一個故障模式的特征向量w,則余弦相似度表示為:

        其中,vi和wi分別表示為裝備質(zhì)量問題文本和故障模式的特征向量中第i維特征值,a是它們之間的余弦相似度。

        (3)通過計算裝備質(zhì)量問題文本的特征向量v和故障模式的特征向量w,得到皮爾遜相關(guān)系數(shù),表示為:

        其中,vi和wi分別表示為裝備質(zhì)量問題文本和故障模式的特征向量中第i維特征值,和分別表示為裝備質(zhì)量問題文本和故障模式的特征向量平均值,a是它們之間的皮爾遜相關(guān)系數(shù)。

        3.4 質(zhì)量問題故障模式判別

        在建立映射關(guān)系ζP→F的過程中,相似度a的值域為[0,1],在此范圍內(nèi)設(shè)置k作為質(zhì)量問題分類故障模式的閾值。一個裝備質(zhì)量問題與所有故障模式文本均進行了相似度計算,假設(shè)與第i個故障模式的相似度最高,記為ai:

        (1)當ai≥k時,則映射關(guān)系成立,即判定裝備質(zhì)量問題分類至第i個故障模式;

        (2)當ai<k時,則映射關(guān)系不成立,即判定裝備質(zhì)量問題暫無映射的故障模式。

        4 實驗結(jié)果與分析

        4.1 實驗數(shù)據(jù)集

        以某企業(yè)313項裝備質(zhì)量問題文本和6類故障模式文本數(shù)據(jù)開展實驗對比與分析。其中,裝備質(zhì)量問題文本包括編號、部位、現(xiàn)象、原因、糾正和糾正措施等維度的短文本,而6類故障模式包括編號、名稱和內(nèi)容等維度短文本。

        例如,一個裝備質(zhì)量問題文本編號為Q0001,現(xiàn)象為“雷達掃描線不轉(zhuǎn)動,目標無法顯示”,部位為“數(shù)據(jù)處理分析”,原因為“數(shù)據(jù)處理死機”,糾正為“重新安裝升級后的軟件”,糾正措施為“修改代碼完善非法數(shù)據(jù)驗證,提高容錯性”。與之對應(yīng)的裝備故障模式編號為F001,故障模式名稱為“雷達無法探測目標”,故障內(nèi)容描述為“數(shù)據(jù)處理軟件死機”。故障模式類別及其對應(yīng)的裝備質(zhì)量問題文本數(shù)如表1所示。

        表1 裝備質(zhì)量問題樣本分類分布(個)

        4.2 評價指標[9]

        為了評價基于故障模式的裝備質(zhì)量問題分類方法的性能,采用準確率P、召回率R和F1指標(F1-score)作為實驗評價指標。其中,準確率P反映了已分類結(jié)果的正確性,計算如式(6)所示。召回率R是已正確分類占所有應(yīng)該正確分類的比例,計算如式(7)所示。F1同時兼顧了準確率P和召回率R兩個方面的評價指標,它是準確率和召回率的調(diào)和平均數(shù),計算如式(8)所示。

        4.3 實驗設(shè)計

        為了有效驗證本文提出的裝備質(zhì)量問題文本分類方法的有效性,設(shè)計了3個實驗開展分類有效性的比對研究。

        實驗1:在相同的相似度閾值k下,按照杰卡德相似系數(shù)、余弦相似度和皮爾遜相關(guān)系數(shù)3種相似度計算方式,開展裝備質(zhì)量問題文本自動分類實驗,選出性能最優(yōu)的相似度算法,并開展相關(guān)結(jié)果分析。

        實驗2:按照實驗1優(yōu)選的相似度算法,開展裝備質(zhì)量問題文本分類實驗,針對在不同的相似度閾值k下的各項指標,選出性能最優(yōu)的相似度閾值k。

        實驗3:按照實驗1優(yōu)選的相似度算法,實驗2優(yōu)選的相似度閾值k,開展裝備質(zhì)量問題文本分類實驗,依據(jù)在6個類別上的評價指標,分析目前存在的差距和改進方向。

        4.4 實驗結(jié)果

        在實驗1中,針對313項裝備質(zhì)量問題文本,按照杰卡德相似系數(shù)、余弦相似度和皮爾遜相關(guān)系數(shù)3種不同方式計算相似度a,統(tǒng)一設(shè)置相似度閾值k=0.01,實驗1的性能指標結(jié)果如表2所示。

        表2 實驗1的性能測試指標結(jié)果(%)

        在實驗2中,按照杰卡德相似系數(shù)計算相似度a,設(shè)置相似度閾值k分別為0.01、0.1、0.2和0.3,實驗2的性能指標結(jié)果如表3所示。

        表3 實驗2的性能測試指標結(jié)果(%)

        在實驗3中,采用杰卡德系數(shù)計算相似度a,設(shè)置相似度閾k=0.01,在6種故障模式類別下,開展實驗比對,實驗3的性能指標如表4所示。

        表4 實驗3的性能測試指標結(jié)果(%)

        4.5 結(jié)果分析

        實驗1結(jié)果表明,采用杰卡德相似系數(shù)在準確率、召回率和F1值3項評價指標上均優(yōu)于余弦相似度和皮爾遜相關(guān)系數(shù)。相似度計算方式優(yōu)選杰卡德系數(shù)。

        實驗2結(jié)果表明,采用杰卡德相似系數(shù),隨著閾值k逐步增加,準確率隨之上升,而召回率則隨之下降,準確率的提升會帶來裝備質(zhì)量問題文本分類中漏報的風險,因此在[0.01,0.4]范圍內(nèi),相似度閾值k最優(yōu)為0.01。

        實驗3結(jié)果表明,采用杰卡德相似系數(shù)計算相似度,設(shè)置相似度閾值k=0.01時,在所有測試樣本集上進行裝備質(zhì)量問題文本分類,整體上取得了較好的總體性能,然而,在6個故障模式類別之間性能差距較大,例如在故障模式類別2和故障模式類別4上的分類準確率和召回率具有顯著差異性。因此,需要深度挖掘不同類別的質(zhì)量問題文本特征,改進故障模式判別方式,均衡不同類別的分類差異,進一步優(yōu)化分類效果。

        5 結(jié)論

        本文針對當前裝備質(zhì)量問題文本的分類方法自動化程度較低,提出了一種基于文本特征提取和相似度計算的分類方法,實現(xiàn)裝備質(zhì)量問題文本與故障模式的自動和有效分類,減少了對專業(yè)人員的依賴,極大地降低了分類中的人工工作量,推動了產(chǎn)品質(zhì)量改進的效率。

        在未來工作中,針對裝備質(zhì)量問題文本分類性能尚存在的差距,將采用深度學習模型挖掘質(zhì)量數(shù)據(jù)的隱藏語義特征,進一步提升裝備質(zhì)量問題文本特征提取效果,并拓展故障模式庫的廣度和深度,優(yōu)化裝備質(zhì)量問題文本分類的各項性能。

        猜你喜歡
        卡德特征向量裝備
        二年制職教本科線性代數(shù)課程的幾何化教學設(shè)計——以特征值和特征向量為例
        好裝備這樣造
        港警新裝備
        克羅內(nèi)克積的特征向量
        防曬裝備折起來
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        想要什么禮物
        妻子想要的禮物
        故事會(2016年6期)2016-03-23 21:59:01
        妻子想要的禮物
        中外文摘(2015年3期)2015-11-22 23:36:25
        亚洲av日韩av女同同性| 手机在线免费看av网站| 91亚洲免费在线观看视频| 日本丰满老妇bbw| 日韩免费无码一区二区三区 | 欧美激情五月| 久久这里只有精品黄色| 亚洲高清国产一区二区| 国产乱国产乱老熟300部视频| 亚洲欲色欲香天天综合网| 扒开非洲女人大荫蒂视频| 成人国产激情自拍视频 | 少妇被粗大的猛进69视频| 亚洲色欲色欲www成人网| 成人免费av高清在线| 国产免费爽爽视频在线观看| 99久久久无码国产精品9| 久久亚洲精品一区二区| 亚洲日本国产精品久久| 国产中文欧美日韩在线| 久久国产精品视频影院| 精品国产av一区二区三区| 国产日产亚洲系列最新| 午夜无码片在线观看影院| 蜜桃av无码免费看永久| 亚洲av少妇高潮喷水在线| 色拍自拍亚洲综合图区| 亚州精品无码人妻久久| 亚洲熟女av一区少妇| 国产精品乱码人妻一区二区三区| 午夜福利视频合集1000| 强d漂亮少妇高潮在线观看| 91久久国产香蕉视频| 人妻少妇精品视频无码专区| 久久久久国产亚洲AV麻豆| 日韩一二三四区在线观看| 国产免费a∨片在线软件| 久久国产偷| 国产成人高清亚洲一区二区| 久久精品国产亚洲av无码偷窥| 亚洲精品无码国模|