王雅琳 鄒江楓 王 凱* 袁小鋒 謝勝利
①(中南大學自動化學院 長沙 410083)
②(廣東工業(yè)大學 廣州 510006)
注塑成型因生產(chǎn)周期短、自動化程度高等優(yōu)勢,普遍應用于各類復雜塑料制品的批量生產(chǎn)。然而,由于模具、環(huán)境等多重因素的共同影響,注塑過程容易在產(chǎn)品外觀、尺寸等方面出現(xiàn)問題[1]。為此,如何根據(jù)產(chǎn)品表觀分析缺陷成因,并提出合理解決方案受到了國內(nèi)外學者的廣泛關注,是注塑行業(yè)提質(zhì)增效的關鍵。
一般而言,注塑制品的缺陷診斷方法可分為人工檢測、試驗設計、深度學習和專家系統(tǒng)4類[2,3]。其中人工檢測法[4]需依賴大量經(jīng)驗知識,不利于實際生產(chǎn)的快速運用。在此背景下,試驗設計法被提出,其主要思想是通過結(jié)合仿真模擬和數(shù)值分析等[5–7]技術,來指導優(yōu)化工藝參數(shù),但仍要求操作人員具備一定的機理建模水平。而純數(shù)據(jù)驅(qū)動的深度學習技術借助各類神經(jīng)網(wǎng)絡[8,9],可以避免復雜的機理建模問題,實現(xiàn)制品圖像的深層特征提取和缺陷診斷。然而,工業(yè)過程的監(jiān)測數(shù)據(jù)并不總是完全可信的,因此為避免低質(zhì)量數(shù)據(jù)的影響,文獻[10]結(jié)合生產(chǎn)經(jīng)驗建立專家系統(tǒng),但維護成本高昂、可移植性差等問題還未得到解決。
相較于人工檢測和專家系統(tǒng),知識圖譜技術在靈活性、精確度及更新能力等方面優(yōu)勢顯著[11–13],為注塑制品的缺陷溯因分析提供了新的可行思路。其中注塑本體是知識圖譜的一類通用概念模型,核心思想是將復雜領域經(jīng)驗分解為多條本征知識[14],用以指導各種實體、關系及其屬性的抽取,進而形成具有領域特色的知識圖譜。其既可以借助專家經(jīng)驗設計(自頂向下),也可以從開源數(shù)據(jù)中提煉(自底向上)。此外,基于敘詞表[15]和已有本體[16]等半自動本體構(gòu)建方法也相繼被提出,但注塑領域無可復用的專業(yè)詞庫和本體結(jié)構(gòu)。本體的自動構(gòu)建[17]則通常需要復雜的語言處理模型來分析語義,開發(fā)周期長且準確率難以保障。因此基于上述分析,手工構(gòu)建本體不失為一種可靠并有效的選擇,然而,如何定義領域本體以減少歧義并實現(xiàn)正確推理[18],仍是工業(yè)知識圖譜構(gòu)建的首要挑戰(zhàn)。
構(gòu)建好的領域本體再用于指導多源網(wǎng)頁的知識抽取,主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化3種數(shù)據(jù)形式。一般而言,結(jié)構(gòu)化數(shù)據(jù)易于抽取,但難以獲?。话虢Y(jié)構(gòu)化網(wǎng)頁常采用爬蟲技術提取,但大部分注塑網(wǎng)站結(jié)構(gòu)化程度不高,往往以純文本形式存在,直接采用爬蟲技術只能抽取到少量實體及其關系[19];而將其視為非結(jié)構(gòu)化文本,通用做法是利用專家標注好的語料來訓練得到實體識別、關系抽取等監(jiān)督模型。例如,早期的有條件隨機場(Conditional Random Field, CRF)[20]和支持向量機(Support Vector Machine, SVM)[21]等經(jīng)典機器學習模型,但其較大程度依賴特征工程。因此,文獻[22]針對這一問題,提出結(jié)合雙向長短期記憶網(wǎng)絡(Bi-directional Long Short-Term Memory, Bi-LSTM)和CRF的方法。另外,文獻[23]還研究了實體識別與關系抽取的聯(lián)合學習模型。顯然,上述方法均離不開代價高昂的標注數(shù)據(jù),且由于各個領域的專業(yè)詞匯相差甚遠,嚴重導致注塑知識抽取模型的準確性難以保證。
因此為避免對專家標注和領域詞典的過度依賴,充分利用先驗信息是一種有效的途徑,文獻[24]提出基于觸發(fā)詞的網(wǎng)絡模型,所謂觸發(fā)詞是指由文本中的知識標記和分隔元素等結(jié)構(gòu)信息整合而來的通用句式或詞組。其主要優(yōu)勢是不需要大量的標記數(shù)據(jù),且成本效益更高,但觸發(fā)詞的手工構(gòu)建仍存在挑戰(zhàn)。同時本體結(jié)構(gòu)中蘊含的邏輯信息在知識抽取中鮮有被利用[25],且通常未考慮冗余知識的對齊問題,工業(yè)知識的抽取質(zhì)量有待進一步提升。
受上述模型的啟發(fā),本文提出一種基于本體引導的注塑知識圖譜構(gòu)建方法,在構(gòu)建注塑本體的基礎上,引導注塑知識的自動抽取。本文主要貢獻為:(1)綜合專家經(jīng)驗知識和實際網(wǎng)頁數(shù)據(jù),實現(xiàn)了以缺陷-表觀-原因-方案為導向的注塑本體設計,有助于填補目前工業(yè)本體的領域空白。(2)將本體信息引入觸發(fā)詞庫的生成中,既能保障知識的準確觸發(fā),也無需大量標注語料。(3)將冗余實體的判別轉(zhuǎn)化為實體及其屬性的兩級對齊,進一步提升了知識圖譜的精簡性。
知識圖譜旨在描述客觀世界的實體概念及其關系,主要分為“實體-屬性-屬性值”和“實體-關系-實體”兩種知識類型。然而,注塑過程屬專業(yè)領域,既缺乏專業(yè)注塑語料集,也缺乏可借鑒的較為成熟的注塑知識圖譜,因此為構(gòu)建面向缺陷診斷的注塑知識圖譜,首先需設計指導注塑知識挖掘的本體。一般而言,本體定義[26]為
其中,O表示注塑本體,C為實際概念,P為概念屬性,R表示概念間的關系,I為某概念實例。
注塑本體構(gòu)建完成后,可在其引導下進一步挖掘網(wǎng)頁中的注塑知識。具體地,首先將本體中的概念、屬性等各項文本統(tǒng)一整合成關鍵字集合K,以指導注塑網(wǎng)頁的搜集,然而,由于網(wǎng)頁來源不同,可能包含大量與注塑應用無關的信息,需再經(jīng)PR指標篩選形成最終的網(wǎng)頁集。另外,由于注塑過程語料稀缺,缺乏重要的標注數(shù)據(jù),基于有監(jiān)督的知識抽取模型無法直接使用。又考慮到注塑缺陷診斷為專用領域,其有用知識必定包含一些標識性詞語,如“方案”“缺陷”等。為此,本文在本體引導下設計觸發(fā)詞對篩選后的注塑網(wǎng)頁進行片段分割,以提取包含觸發(fā)詞的實體關系。
一旦網(wǎng)頁知識被遍歷抽取完成后,可根據(jù)實體及關系構(gòu)建領域知識圖譜。然而,由于網(wǎng)頁來源眾多,挖掘的網(wǎng)頁必定包含眾多重復或相似實體,因此還需對冗余知識進行處理,即實體對齊。過去大部分研究很少利用到知識圖譜中的“實體-屬性-屬性值”3元組信息,為此本文基于兩級對齊策略綜合考慮實體和屬性的相似度來實現(xiàn)知識融合。
最后,融合后的知識3元組再存入Neo4j圖數(shù)據(jù)庫中,形成注塑知識圖譜ζ= (ε,τ,s), 其中ε,τ,s分別為實體、關系和3元組集合,且對于每個3元組(h,r,t)∈s,頭尾實體h,t ∈ε,關系r∈τ。
總體而言,基于本體引導的注塑知識圖譜構(gòu)建框架如圖1所示,主要包括注塑本體設計、知識3元組抽取模型、兩級知識融合和知識圖譜應用4部分,以下將詳細闡述各個環(huán)節(jié)的技術細節(jié)。
圖1 注塑知識圖譜構(gòu)建框架圖
考慮注塑領域中所要抽取的知識范圍明確,更適合基于專家經(jīng)驗的自頂向下方式。但隨著網(wǎng)頁數(shù)據(jù)的不斷積累,原來的本體結(jié)構(gòu)被發(fā)現(xiàn)并不完善,還需根據(jù)數(shù)據(jù)特點完善數(shù)據(jù)模型,所以本文采用一種雙向的注塑本體設計方法,主要包括基于頂層經(jīng)驗的本體向下定義和基于底層數(shù)據(jù)的本體向上完善。具體設計過程包括以下步驟:
步驟1 明確知識父類:根據(jù)缺陷原因分析和解決方案查詢等需求,確定頂層知識父類,包括“注塑缺陷”“表現(xiàn)狀態(tài)”“產(chǎn)生原因”和“解決方案”等,即圖2灰色矩形框所示。
步驟2 細化知識子類:父類不斷進行細化添加子類,以形成結(jié)構(gòu)良好的概念層次,即式(1)中的C,圖2中白色圓角矩形框表示子類。
步驟3 建立類間關系:式(1)中的R用來描述概念之間的關系,方便注塑知識的自動檢索和查詢推理。圖2中“r:”表示類間關系。
步驟4 定義各類屬性:式(1)中的P用來描述概念的具體性質(zhì),以獲取更加完整全面的概念全貌。圖2中“p:”表示各類屬性。
步驟5 給出具體實例:式(1)中的I表示子類的具體實例,即圖2中灰色圓角矩陣所示。
圖2 注塑缺陷診斷本體概況(部分)
步驟6 本體反饋完善:自上而下構(gòu)建的(C1,P1,R1,I1)指導搜集網(wǎng)頁,再根據(jù)實際網(wǎng)頁提煉新 增(C2,P2,R2,I2), 形成最終本體(C,P,R,I)。
構(gòu)建好領域本體后,可進一步引導網(wǎng)頁知識的抽取。整體架構(gòu)如圖3所示,主要包含網(wǎng)頁評估、知識抽取和實體對齊3個步驟。首先,基于本體的關鍵字集合可收集豐富的網(wǎng)頁數(shù)據(jù),并評估網(wǎng)頁的置信度進行篩選;再將其與本體結(jié)構(gòu)結(jié)合,以對其內(nèi)容進行解析,生成屬性觸發(fā)詞和關系觸發(fā)詞,提取注塑知識3元組;最后再進行知識歸并。
圖3 基于本體引導的領域知識發(fā)現(xiàn)方法
其中網(wǎng)頁采用P R 指標評估,P R值是可查詢的標識網(wǎng)頁質(zhì)量的重要標準。其分為10個等級,PR等級越高,表示可參考價值越大。一般來說,PR級別達到4,網(wǎng)頁的質(zhì)量就有所保證,依據(jù)該經(jīng)驗,當P R<4時,則剔除。
最終形成的網(wǎng)頁集合普遍呈現(xiàn)出結(jié)構(gòu)化程度低、內(nèi)容分布零散等特點,采用傳統(tǒng)的爬蟲方法難以提取,為此本文開發(fā)出注塑領域基于觸發(fā)詞的語料知識抽取方法。針對“實體-屬性-屬性值”和“實體-關系-實體”兩種3元組形式,可將觸發(fā)方式分為屬性觸發(fā)和關系觸發(fā)兩類。如圖4所示,對于注塑缺陷診斷,依據(jù)中文習慣,其屬性觸發(fā)詞包括“俗稱”“別名”等;同樣地,針對關系觸發(fā),其觸發(fā)詞包括“辦法”“原因”等。
圖4 基于觸發(fā)詞的語料知識抽取方法
基于上述分析和舉例,容易發(fā)現(xiàn)設計的本體父類、子類及關系中包含了大部分觸發(fā)詞。實際上,由于模型是采用本體結(jié)構(gòu)來指導網(wǎng)頁的搜集篩選,自然地,網(wǎng)頁文本也會反映本體結(jié)構(gòu)中的概念特性,但其蘊含的邏輯知識和推理能力在信息抽取卻很少被利用。因此該文提出將本體信息引入到網(wǎng)頁文本的解析過程,完成屬性和關系觸發(fā)詞的生成,進而實現(xiàn)注塑知識的抽取。具體地,對本體的關鍵字集合進行屬性和關系分類,初始化屬性觸發(fā)詞庫和關系觸發(fā)詞庫。由于本體中包含的觸發(fā)詞有限,可再結(jié)合專家經(jīng)驗對觸發(fā)詞進行補充,也可通過觀察部分PR值高的網(wǎng)頁,進一步補充觸發(fā)詞。一旦確定屬性和關系觸發(fā)詞后,則“實體-屬性-屬性值”和“實體-關系-實體”3元組就可通過分詞等方式進行抽取。
知識抽取完成后,可形成相應的知識圖譜。此時的知識圖譜具有兩個特點,一是絕大部分實體具有多重屬性,極少量實體不具備屬性;二是存在大量相似實體,如“填充不足”與“填充不滿”可被認為是相似實體。若不進行相似實體歸并,即實體對齊,則知識圖譜的查詢、推斷等應用效率將顯著降級。同時由于實體的相似性本質(zhì)上在于其屬性的相似性,因此,可通過利用實體的各重屬性來判斷兩實體是否相似。然而,實體的屬性值可能包含詞組等短文本,如名稱屬性、等級屬性等;而部分屬性值包含具有明顯語義信息的長文本,如定義屬性。為此,本文針對短文本和長文本同時存在的情況,提出了基于屬性相似度的兩級對齊方法,以綜合提升冗余實體的發(fā)現(xiàn)率。圖5描述了算法的整體架構(gòu)。
圖5 基于多重屬性的兩級實體對齊架構(gòu)
首先針對缺陷俗稱、別名等短文本屬性進行實體的相似度評估,由于是短文本,可直接比對字符串,當存在某一屬性值重合時,即判斷為同一實體,結(jié)束該對實體的歸并過程。若未發(fā)現(xiàn)短文本屬性值重合,進一步比對兩實體的長文本。由于長文本包含豐富的語義信息,需定義基于語義的相似度,為此,首先定義注塑語料庫Z,語料庫要求能完全涵蓋所收集的3元組中的詞組,可采用網(wǎng)絡爬蟲進行搜集,并通過文本清洗、中文分詞、去除無關詞等操作,最終形成包含N個詞組的注塑過程詞匯表V={vi},i=1,2,...,N。其中,////為l2范數(shù),余弦相似度越大,表示兩者間的語義越接近,越有可能為相同實體。本文選取0.9為閾值,進行相似實體歸并,即將對齊的實體的關系鏈接至保留實體中,對齊實體相對于保留實體的額外屬性知識則歸并至保留實體中。
實驗選取9個高質(zhì)量注塑網(wǎng)頁進行知識抽取,最終存儲并構(gòu)建了648條知識3元組,其中包括注塑缺陷、產(chǎn)生原因和解決方案3類實體、“導致”和“作用于”這2大關系以及注塑缺陷實體的多重屬性。詳細的評估結(jié)果如表1所示。
然而基于多源網(wǎng)頁抽取的知識并不總是完全準確的,只有經(jīng)書籍、專家多方評判置信度方能存為圖譜知識,具體可劃分為書籍重合、新增、爭議和錯誤知識4大類。知識評估時,本文默認與書籍重合的3元組為準確知識;書籍中不存在的3元組,經(jīng)過先驗知識和網(wǎng)絡資源多方評估,若準確便納入新增知識;與書籍矛盾的則歸為錯誤知識;無法判斷的則歸入爭議知識。同時,整個評估過程我們借助專家經(jīng)驗來完成,表1給出了3位不同專家進行知識置信度評估后的結(jié)果。
表1 注塑知識3元組的置信度評估
與文獻[1]的43類注塑缺陷相比較,本文共抽取到了136個注塑缺陷實體,新增了許多書籍中沒有的實體表述,體現(xiàn)了本文基于網(wǎng)頁獲取知識的多樣性和可取性;其次針對抽取到的注塑缺陷實體及其屬性,正確率高達98%,只是存在相同實體表述不一的情形;另外三者針對原因和方案3元組的準確率評估均超過90%,知識3元組(包括實體屬性和關系3元組)的置信度評估均超過95%,表明了所提抽取方法的有效性。
為了進一步驗證本文知識抽取方法的優(yōu)勢,傳統(tǒng)單一的爬蟲方案和經(jīng)典Bi-LSTM+CRF的監(jiān)督類模型[29]也被應用于該節(jié)的注塑知識抽取中。其中基于爬蟲的知識抽取通過分析網(wǎng)站的HTML代碼,進而使用對應表達式提取目標實體;基于深度學習的BiLSTM+CRF模型則事先針對抽取到的9個網(wǎng)站文本進行實體的BIO標注(B和I表示實體開端和中間、O表示非實體),再采用其中6個網(wǎng)頁的標注數(shù)據(jù)進行訓練,剩余的3個網(wǎng)頁用于知識抽取效果的檢驗。
圖6給出了3種知識抽取方案的各類實體抽取數(shù)目和準確率,其中BiLSTM+CRF模型的實體抽取準確率用序列標注準確率衡量,其余方法與標注結(jié)果相比較得出??梢钥闯鰝鹘y(tǒng)爬蟲方案受網(wǎng)頁代碼層次的制約,只抽取到了少量實體;而BiLSTM+CRF模型的準確率高達77%,但往往因某個標注錯誤導致整體抽取實體數(shù)大大降低,更適用于非結(jié)構(gòu)化知識的抽??;而相比其他兩類方案,本文所提的基于本體引導的知識觸發(fā)抽取方法能夠在無需標注語料的前提下,顯著提升注塑實體抽取的準確率,有利于后續(xù)標注集的快速構(gòu)建。
圖6 采用不同知識抽取方案的效果對比
圖7給出了知識3元組(表述不重復)隨抽取網(wǎng)頁數(shù)目的增長曲線。當注塑網(wǎng)頁的代碼層次不高,但其文本內(nèi)容有組織時,本文方法能確保無標注語料下的知識抽取效果,且隨著抽取網(wǎng)頁數(shù)量的增加,實體及3元組知識的完備性和規(guī)模也在不斷提升。
圖7 知識3元組隨抽取網(wǎng)頁數(shù)目的增長曲線
知識抽取完成后,為了避免不同表述的同一實體共存于圖譜中,導致圖譜存在冗余信息,本文采用了一種基于多重屬性的兩級實體對齊算法,在精簡知識的同時,也能同步完善補充實體的屬性描述。
知識融合效果對比如圖8所示。為了驗證所提方法的優(yōu)越性,本文將所提的兩級實體對齊方法(Double alignment based on Double properties,DD算法)與僅使用實體名稱和單一的字符串(Single alignment based on Single property, SS)對比,基于實體名稱的兩級對齊(Double alignment basedon Single property, DS),以及使用多重屬性的字符串(Single alignment based on Double properties,SD)方法進行比較。不難發(fā)現(xiàn),本文所提DD方法能夠提高缺陷實體的冗余發(fā)現(xiàn)數(shù)目。另外,由于產(chǎn)生原因和解決方案不存在定義等屬性,本文只采用SS和SD兩種算法驗證,實驗證明,兩級實體對齊算法有效提升了冗余知識的發(fā)現(xiàn)效果。
圖8 采用不同知識融合方案的效果對比
圖9和圖10給出了實體對齊前后的可視化結(jié)果,可以看出對齊后的注塑知識圖譜更加具有組織性和精簡性,反映了本文所提實體對齊方法的有效性。同時精簡后的知識圖譜再應用于制品缺陷溯因,輸入缺陷表觀等先驗條件,可查詢得出具體缺陷類型、產(chǎn)生原因以及合理的解決方案。
圖9 實體對齊前的知識圖譜可視化示例結(jié)果
圖10 實體對齊后的知識圖譜可視化示例結(jié)果
針對現(xiàn)有爬蟲抽取方案所需結(jié)構(gòu)化注塑網(wǎng)址匱乏、監(jiān)督類知識挖掘模型缺乏標注語料集,人工開發(fā)周期長等問題,本文提出一種基于本體引導的工業(yè)知識圖譜構(gòu)建方法。首先,基于注塑過程實際需求和專家經(jīng)驗設計構(gòu)建注塑本體層,進而實現(xiàn)文本知識的解析抽取;其次利用實體屬性相似度對冗余重復實體進行兩級對齊,精簡知識圖譜;最后基于實體對齊后的知識圖譜,實現(xiàn)注塑過程表面缺陷的診斷及優(yōu)化應用。實驗結(jié)果表明,與專業(yè)書籍對比,所構(gòu)建圖譜知識錯誤率不超過5%,可以準確診斷缺陷類型及原因,快速給出解決方案,是注塑過程專用領域圖譜構(gòu)建的一種新的實踐。