花 豹,周 彬,顧星海,鮑勁松
(東華大學(xué) 機械工程學(xué)院,上海 201620)
機械工藝規(guī)劃是一種需要依靠先驗知識的重用設(shè)計過程,它所制定的加工工藝規(guī)程蘊含大量的工藝知識。據(jù)統(tǒng)計,約40%的新產(chǎn)品會重用相似產(chǎn)品的加工工藝規(guī)程,約40%會對相似產(chǎn)品的加工工藝進行一定修改,只有20%需要全新的工藝設(shè)計[1]。因此,有效、準(zhǔn)確地度量不同工藝規(guī)程的相似工藝,用以工藝重用,對于縮短產(chǎn)品工藝設(shè)計周期具有重要意義。但大部分工藝規(guī)程都以表格形式記錄,以非結(jié)構(gòu)化文檔圖像為載體。這使得工藝表格的內(nèi)容呈現(xiàn)出復(fù)雜、多樣的特點,且文字不可直接編輯和利用。此外,工程師在重新設(shè)計新產(chǎn)品的工藝表格之前,會從已有成功實例中人工尋找相似的工藝表格[2],但人工評判不同工藝表格的相似工藝往往帶有主觀因素,無法完全涵蓋語義信息,不準(zhǔn)確且效率低,嚴(yán)重影響設(shè)計效果。目前,在工藝重用中,尚缺乏有效評估相似工藝規(guī)程的相關(guān)研究。
挖掘工藝表格中的語義信息,進而評估不同表格實例的相似工藝正成為一個熱點研究。首先需要提取表格信息,將不可編輯的字符轉(zhuǎn)換成可編輯的形式。目前,表格信息提取研究大多基于表格檢測與光學(xué)字符識別(Optical Character Recognition, OCR)[3-5]文字識別技術(shù)。表格檢測是為了定位表格區(qū)域,排除其他非表格元素的干擾,然后利用成熟的OCR技術(shù)識別表格文本。AMARNATH等[6]提出表格框線檢測的方法,定位表格區(qū)域,用于手寫文檔圖像的表格信息提取;呂志剛等[7]提出融合局部圖像特征的表格檢測算法,應(yīng)用于OCR信息識別軟件;MILOSEVIC等人[8]提出模板匹配的方法識別表格及其單元格,用以提取表格信息。但上述方法都基于啟發(fā)式規(guī)則,泛化性較差,因此為了提高泛化性,不少學(xué)者傾向于采用深度學(xué)習(xí)的方法。GILANI等[9]采用Faster R-CNN(faster region-based convolution neural networks)檢測文檔中表格區(qū)域;SUN等[10]則在文獻[9]的研究基礎(chǔ)上增加表格框角點定位的方法,用以提升表格檢測精度。而定位表格區(qū)域是為了排除非表格元素干擾,從而保證OCR技術(shù)提取表格文本的效果。
提取表格信息之后,需要進行不同表格工藝信息的相似性度量,為工藝知識重用提供支撐。目前,工藝相似性度量方法可大致分為:
(1)基于傳統(tǒng)的方法。常智勇等[11]基于編輯距離計算加工意圖字符串間的相似性,用于工藝重用;李秀玲等[12]通過向量空間模型將工藝實例向量化表示后,基于奇異值分解和二范數(shù)計算工藝實例間的相似度,用于合并相似的工藝知識;萬姍等[13]基于本體概念度量數(shù)控維修案例間的相似性,用于重用歷史維護案例知識,提高維護服務(wù)效率。但傳統(tǒng)方法都無法處理工藝信息間的聯(lián)系及其深層語義。
(2)基于深度學(xué)習(xí)的方法,又可分為基于文本向量和基于圖譜向量兩種方法。基于文本向量的方法是在詞向量的基礎(chǔ)上,通過訓(xùn)練將文本表示成向量并計算距離以表征語義相似度[14]。陳治宇等[15]基于Word2vec將裝配工藝語素嵌入成詞向量計算距離得到詞與詞的相似度,用于裝配工藝文檔詞素分類。但對于工藝表格而言,只將提取的文本映射成向量以度量相似性,會因缺失工藝表格特有的語義與結(jié)構(gòu)特點,導(dǎo)致結(jié)果不準(zhǔn)確。基于圖譜向量的方法是將信息構(gòu)建成圖譜,根據(jù)圖譜節(jié)點間的連接關(guān)系,通過訓(xùn)練將圖譜表示成向量服務(wù)于下游任務(wù)[16-17]。例如TransE[18]系列模型和GraphSAGE[19]、Graph2vec[20]等圖神經(jīng)網(wǎng)絡(luò)模型,但TransE系列模型將圖譜分解為互不相關(guān)三元組的有限集合,僅關(guān)注單條三元組信息的嵌入表示,對圖譜上下文信息的編碼能力較弱,因此無法用于全局語義相關(guān)的工藝表格。Graph2vec利用子圖的有序結(jié)構(gòu)表示圖譜的結(jié)構(gòu)特征,可以彌補TransE的缺陷,但是它僅能提取網(wǎng)絡(luò)的結(jié)構(gòu)特征,無法提取節(jié)點的屬性。而GraphSAGE通過鄰居采樣和聚合操作可以學(xué)習(xí)圖譜中節(jié)點的嵌入表示,但它只考慮局部拓撲結(jié)構(gòu),無法擴展到全局結(jié)構(gòu),因此會損失具有強剛性結(jié)構(gòu)特點的工藝表格的大量結(jié)構(gòu)信息[21]。
綜上所述,現(xiàn)有方法主要由于無法有效提取工藝表格的各種特征,導(dǎo)致不適用于度量工藝表格的相似性。因此,本文以PDF格式及圖像存檔的工藝表格文檔為研究對象,首先分析了工藝表格的結(jié)構(gòu)與語義特征,為了提升工藝表格檢測精度,提出了改進的Mask R-CNN網(wǎng)絡(luò)精準(zhǔn)定位工藝表格區(qū)域并利用OCR識別其文本信息;然后針對其中的關(guān)鍵單元文本,構(gòu)建了具有工藝表格結(jié)構(gòu)特性與語義關(guān)系的圖網(wǎng)絡(luò)模型,以圖結(jié)構(gòu)的形式表示工藝表格,并作為特征提取算法的輸入。接著,結(jié)合Graph2vec和GraphSAGE各自優(yōu)點,提出圖神經(jīng)網(wǎng)絡(luò)組合算法用以分別提取圖網(wǎng)絡(luò)模型的結(jié)構(gòu)特征和節(jié)點屬性,并以向量形式呈現(xiàn);最后基于提取的特征向量,驅(qū)動提出的一種聯(lián)合相似度綜合評估方法, 用以支撐工藝表格的相似性度量。
本章首先分析工藝表格的關(guān)鍵單元及其結(jié)構(gòu)特性與語義關(guān)系,用于構(gòu)建圖網(wǎng)絡(luò)模型中的邊。之后提出改進的Mask R-CNN(mask region-based convolution neural networks)網(wǎng)絡(luò)定位表格區(qū)域,用以排除非表格元素干擾;最后采用PaddleOCR模型識別表格文本,獲得單元格文本框的位置信息與文本信息,用于構(gòu)建圖網(wǎng)絡(luò)模型中的節(jié)點。
雖然不同企業(yè)制定的工藝表格結(jié)構(gòu)和形式各不相同,但為起到在實際操作中的工藝指導(dǎo)作用,其基本組成要素(要素是工藝表格中屬性值與屬性組合成的鍵值對信息)大致相同,且工藝設(shè)計主要需要對象、資源和工藝等信息,其中的某些信息對它來說并不需要。例如簽字、備注、審核等與具體工藝信息無關(guān)的內(nèi)容,而工時單元是加工實時動態(tài)信息,缺乏工藝設(shè)計價值。因此,只需提取其中的關(guān)鍵單元(單元由要素構(gòu)成,即具有同類性質(zhì)的鍵值對集合),即工序、毛坯、零件、產(chǎn)品單元。其中:①工序單元指由工序號、工序名稱、工序內(nèi)容等用于描述零件加工工序信息的工藝表格規(guī)范組成部分,其內(nèi)容占比最高;②毛坯單元指由材料牌號、毛坯種類、毛坯外形尺寸等用于描述加工原材料信息的工藝表格規(guī)范組成部分;③零件單元指由零件圖號、零件名稱等用于描述零件層面的屬性信息的工藝表格規(guī)范組成部分;④產(chǎn)品單元指由產(chǎn)品名稱、產(chǎn)品型號等用于描述產(chǎn)品層面的屬性信息的工藝表格規(guī)范組成部分。此外,各個關(guān)鍵單元還具有各種結(jié)構(gòu)特性與語義關(guān)系,如圖1所示。
結(jié)構(gòu)特性指關(guān)鍵單元所包含單元格的位置特征。其中:①工序單元的屬性單元格同行,其屬性值單元格同列,且一個屬性單元格下方排列著多個屬性值單元格;②產(chǎn)品單元與零件單元具有相似對稱性,屬性及屬性值單元格的縱向、橫向坐標(biāo)分別對應(yīng)相同,且屬性單元格列于屬性值單元格之前;③毛坯單元的屬性及屬性值單元格的縱向坐標(biāo)相同,且相鄰、交替,屬性單元格列于屬性值單元格之前。
語義關(guān)系指不同單元格文本的鍵值、屬性、層次和約束關(guān)系。其中:①鍵值關(guān)系指屬性值單元格文本是值,屬性單元格文本是鍵,相互映射。②屬性關(guān)系指屬性單元格包含于關(guān)鍵單元中,例如毛坯單元包含材料牌號、毛坯種類等屬性單元格。③層次關(guān)系包括結(jié)構(gòu)層次和順序?qū)哟?。結(jié)構(gòu)層次指關(guān)鍵單元間的語義邏輯關(guān)系,例如產(chǎn)品單元是零件單元的上結(jié)構(gòu)層次、工序單元是毛坯單元的下結(jié)構(gòu)層次等。順序?qū)哟沃腹ば騿卧忻啃斜硎疽坏拦ば颍姸喙ば蜷g有加工順序關(guān)系。④約束關(guān)系指一些屬性值單元格的制定受制于某些屬性值單元格的內(nèi)容,例如工序內(nèi)容直接影響工段、設(shè)備等單元格制定。綜上所述,從結(jié)構(gòu)特性上反映出表格結(jié)構(gòu)特點,從語義關(guān)系上反映出工藝的層次性、語義關(guān)聯(lián)等特點,是后續(xù)構(gòu)建圖網(wǎng)絡(luò)模型中邊的依據(jù)。
為了獲得關(guān)鍵單元的文本信息,需要定位表格區(qū)域,降低由其他非表格元素混入帶來的干擾。目前,表格定位的研究方法可分為傳統(tǒng)圖像處理與深度學(xué)習(xí)兩個方向。傳統(tǒng)圖像處理無法實現(xiàn)自適應(yīng)的表格區(qū)域檢測,而深度學(xué)習(xí)的方法克服了自適應(yīng)文檔表格的識別問題。例如Faster R-CNN[9]、Mask R-CNN[26]、YOLO[27]等,但是它們只能處理文檔中的簡單表格,不適用于結(jié)構(gòu)復(fù)雜,邊界特征不突出的工藝表格,并且表格檢測準(zhǔn)確率還有大量的提升空間。因此,本文設(shè)計了一種改進的Mask R-CNN網(wǎng)絡(luò)用于工藝表格檢測并提高精度。如圖2所示。首先采用Mask R-CNN網(wǎng)絡(luò)[22]檢測表格區(qū)域。因為Mask R-CNN實現(xiàn)了像素級別的精度對齊。具體而言,Mask R-CNN使用區(qū)域特征聚集(RolAlign)代替了Faster R-CNN的區(qū)域特征池化(RoIPooling)提取感興趣區(qū)域(Region of Interest, ROI)的特征。RoIPooling使用取整量化,導(dǎo)致Feature map(特征圖)的ROI存在尺度誤差;RolAlign不使用取整量化,而采用雙線性插值獲取浮點數(shù)坐標(biāo)在像素點上的圖像數(shù)值,從而將整個特征聚集過程轉(zhuǎn)化為一個連續(xù)的操作。
其次,由于Mask R-CNN網(wǎng)絡(luò)通常用于自然圖像的物體檢測,為了使其能夠兼容非常規(guī)物體的表格,本文對表格圖像分別做歐幾里得、線性和最大距離變換并合并結(jié)果[9],用以計算文檔圖像中文本區(qū)域和空白區(qū)域間的距離,更好地突出表格區(qū)域,使其貼近自然圖像。
然后,為了保證檢測框的精準(zhǔn)預(yù)測,本文采用Confluence算法[23]替換Mask R-CNN中的優(yōu)選目標(biāo)框操作—非極大抑制(Non Maximum Suppression, NMS)算法[24]。因為NMS算法取IOU值(交并比,即兩個框的相交部分面積/相并部分面積)最高的目標(biāo)框,去除低值框,但當(dāng)IOU值最高的目標(biāo)框不是最優(yōu)時,它返回次優(yōu)目標(biāo)框,所以結(jié)果并不是最優(yōu)。而Confluence算法通過曼哈頓距離來度量目標(biāo)框間的交匯度,然后通過置信度加權(quán)得到最優(yōu)框,最后通過和最優(yōu)框的交匯程度去掉其他假陽性框。該方法不僅不依賴于IOU值消除誤檢,還可刪除附近的高重復(fù)框,效果好于NMS算法。
最后,本文將角點定位的方法遷移到Mask R-CNN網(wǎng)絡(luò)中,進一步提升表格檢測精度。角點定位指在檢測表格框的同時檢測表格的4個角點并劃分為角點組,若同行角點的縱坐標(biāo)或同列角點的橫坐標(biāo)差值超過設(shè)定閾值則被過濾。對檢測框的4個角點坐標(biāo)與角點組的4個角點坐標(biāo)做算術(shù)平均數(shù),得到新的4個角點坐標(biāo)用于調(diào)節(jié)檢測框,從而提升表格檢測精度。
檢測出表格區(qū)域后,本文利用Paddle OCR[25]模型識別表格文本,增大字段閾值(即判斷為同一字段的字符間距離),使得一個單元格中的所有字符劃分為一個文本框字段,最后獲得文本框的位置信息和文本信息,用于后續(xù)圖網(wǎng)絡(luò)建模。
上述提取工藝表格文本信息是為了挖掘語義特征、度量工藝相似性。依據(jù)1.1節(jié),關(guān)鍵單元的工藝信息具有語義關(guān)聯(lián)、結(jié)構(gòu)層次等特點,適合于用圖結(jié)構(gòu)的數(shù)據(jù)描述。因此,本文對關(guān)鍵單元的工藝信息進行圖網(wǎng)絡(luò)建模,同時,為了高效地提取圖網(wǎng)絡(luò)模型特征度量工藝表格的相似性,本文結(jié)合Graph2vec和GraphSAGE各自優(yōu)點,提出一種圖神經(jīng)網(wǎng)絡(luò)組合算法分別提取其網(wǎng)絡(luò)拓撲結(jié)構(gòu)與節(jié)點屬性特征并以低維實值向量形式表達,支撐提出的聯(lián)合相似度綜合計算工藝表格相似性的方法。
對關(guān)鍵單元的工藝信息進行圖網(wǎng)絡(luò)建模時,為了保留工藝表格的結(jié)構(gòu)特性與語義關(guān)系,本文提出分別構(gòu)建結(jié)構(gòu)特性的圖網(wǎng)絡(luò)與語義關(guān)系的圖網(wǎng)絡(luò)。
(1)依據(jù)結(jié)構(gòu)特性的圖網(wǎng)絡(luò)建模是指融合了關(guān)鍵單元文本的結(jié)構(gòu)及位置特征。如圖3a所示,將每個關(guān)鍵單元文本框看作一個節(jié)點v,文本框與其鄰居文本框間的垂直與水平關(guān)系看作節(jié)點間的關(guān)系邊E,依據(jù)文本框位置,構(gòu)建無向圖GStru_char=V,R,其中:V表示節(jié)點集合,R表示邊E的關(guān)系集合,R=E×{垂直關(guān)系,水平關(guān)系}。節(jié)點屬性包括文本框的位置屬性與文本屬性,位置屬性是將文本框的絕對位置轉(zhuǎn)化為相對位置;文本屬性是文本框的文本信息經(jīng)BERT(bidirectional encoder representation from transformers)模型轉(zhuǎn)換為文本向量。
(2)依據(jù)語義關(guān)系的圖網(wǎng)絡(luò)建模是指融合了工藝信息間的語義關(guān)聯(lián)特征。如圖3b所示,它不僅將每個關(guān)鍵單元文本框作為一個節(jié)點v,還將4個關(guān)鍵單元以及每道工序看作一個邏輯節(jié)點。依據(jù)1.1節(jié)的4種語義關(guān)系確定邊E,構(gòu)建混合圖網(wǎng)絡(luò)GSema_rela=V,R,其中:V表示節(jié)點集合,R表示邊E的關(guān)系集合,R=E×{鍵值關(guān)系(無向邊),屬性關(guān)系(無向邊),層次關(guān)系(有向邊),約束關(guān)系(有向邊)}。節(jié)點屬性僅具有與結(jié)構(gòu)特性圖網(wǎng)絡(luò)相同的文本屬性。
由于工藝信息具有相對重要性,需要設(shè)定節(jié)點權(quán)重Wv和邊權(quán)重WE,設(shè)定依據(jù)有3條:
(1)各個邊權(quán)重WE相等:W鍵值=W屬性=W層次=W約束,W水平=W垂直。其中W鍵值,W屬性,W層次,W約束分別表示具有鍵值、屬性、層次、約束關(guān)系的邊權(quán)重;W水平,W垂直分別表示水平、垂直關(guān)系的邊權(quán)重。
(2)工藝表格著重描述的是零件的加工工藝,而毛坯是零件加工的基礎(chǔ),工序單元蘊含信息量又大于毛坯單元。因此,產(chǎn)品、零件、毛坯、工序單元中各個節(jié)點權(quán)重Wv關(guān)系為:W工序>W毛坯>W零件>W產(chǎn)品。其中W工序,W毛坯,W零件,W產(chǎn)品分別表示工序、毛坯、零件、產(chǎn)品單元中的各個單元格文本框表示的節(jié)點權(quán)重。
(3)約束關(guān)系使得某些節(jié)點的重要性大于其他節(jié)點,而具有約束關(guān)系的節(jié)點必有鍵值關(guān)系。因此為了增加特征提取時重要節(jié)點的信息傳輸概率,增大約束方節(jié)點的鍵值關(guān)系的邊權(quán)重:
(1)
本文基于層次分析法(Analytic Hierarchy Process, AHP)[26]構(gòu)建層次模型計算節(jié)點與邊的權(quán)重,采用1~9分標(biāo)度法,如表1所示。
表1 工藝表格圖網(wǎng)絡(luò)的節(jié)點或邊權(quán)重標(biāo)度
依據(jù)標(biāo)度法構(gòu)造判斷矩陣B,并計算特征根和特征向量:
BW=λmax。
(2)
其中:λmax為B的最大特征根;W為對應(yīng)于的正規(guī)化特征向量,其各個分量即為權(quán)值。
最后檢驗矩陣的一致性,計算它的一致性指標(biāo)CI,并查詢隨機一致性指標(biāo)RI,計算不一致性指標(biāo)CR,公式如下:
(3)
(4)
其中n為指標(biāo)個數(shù)。若CR在允許范圍內(nèi),則權(quán)重有效,否則返回修改判斷矩陣,直至通過。
依據(jù)上述圖網(wǎng)絡(luò)建模方法,可以對工藝表格關(guān)鍵單元中的文本信息分別構(gòu)建結(jié)構(gòu)特性圖網(wǎng)絡(luò)集合和語義關(guān)系圖網(wǎng)絡(luò)集合。
為了高效提取圖網(wǎng)絡(luò)模型的結(jié)構(gòu)特征與節(jié)點屬性,用以評估工藝表格相似性,本文提出將Graph2vec提取結(jié)構(gòu)特征時可擴展全局結(jié)構(gòu)的優(yōu)點與GraphSAGE提取節(jié)點屬性時融合局部拓撲結(jié)構(gòu)、聚合鄰居信息、可擴充節(jié)點屬性的語義豐富性的優(yōu)點相結(jié)合,彌補Graph2vec無法提取節(jié)點屬性與GraphSAGE無法擴展全局結(jié)構(gòu)的缺點,形成一種有效適用于工藝表格特征提取的圖神經(jīng)網(wǎng)絡(luò)組合算法,為工藝表格相似性的度量提供數(shù)據(jù)支撐。
2.2.1 結(jié)構(gòu)特征提取
Graph2vec用于提取網(wǎng)絡(luò)結(jié)構(gòu),具有較好的全局及局部結(jié)構(gòu)提取能力。其原理為首先通過對所有圖網(wǎng)絡(luò)模型中的所有節(jié)點進行有根子圖采樣,獲得總有根子圖集合。有根子圖定義:每次循環(huán)遍歷圖中各個節(jié)點時,以當(dāng)前節(jié)點作為根節(jié)點,沿著與之相連的各個路徑分別進行不同深度的節(jié)點采樣,而得到的子圖網(wǎng)絡(luò)。然后最大化地隨機預(yù)測每個圖網(wǎng)絡(luò)的有根子圖出現(xiàn)在子圖集合中的概率,得到每個圖網(wǎng)絡(luò)的結(jié)構(gòu)特征向量,若兩個圖網(wǎng)絡(luò)結(jié)構(gòu)特征相似,則其有根子圖往往也相似。其過程如圖4所示。
算法1有根子圖采樣GetWLSubGraph(v,G,d)。
輸入:v表示子圖的根節(jié)點。G=(N;E;λ)表示要抽取子圖的圖網(wǎng)絡(luò),d表示抽取子圖時被遍歷節(jié)點的度,E表示圖網(wǎng)絡(luò)中的邊集合,N表示圖網(wǎng)絡(luò)中的節(jié)點集合。
/*子圖集合初始化*/
/*深度d=0時退出遞歸*/
(2)if d=0 then
(4)else
(5) Nn:={n′|(n,n′)∈E}
/*遞歸遍歷*/
/*合并遞歸遍歷的結(jié)果*/
/*將圖G中以n為根節(jié)點的深度為d-1的有根子圖與排序列表進行連接*/
(10)end
(5)
(6)
(3)最后修正輸出的圖網(wǎng)絡(luò)向量表示矩陣:Φ=Φ-α(?J∕?Φ),α為學(xué)習(xí)率,Φ為輸出圖網(wǎng)絡(luò)集合的向量表示矩陣,其中每列表示每個圖網(wǎng)絡(luò)的結(jié)構(gòu)向量表示V結(jié)構(gòu)=Φi,其中,i表示第i列,即第i個圖網(wǎng)絡(luò)的結(jié)構(gòu)特征向量。具體過程見算法2偽代碼。
算法2結(jié)構(gòu)特征提取Graph2vec(G,D,σ,e,a)。
輸入:子圖集合G={G1,G2,…,Gn};子圖采樣的最大深度D,依據(jù)此參數(shù)會生成subgG,嵌入維度σ,迭代次數(shù)e,學(xué)習(xí)率a。
輸出:所有圖網(wǎng)絡(luò)的向量表示矩陣Φ∈R|G|×σ。
/*隨機初始化矩陣*/
(1)Initialize Φ∈R|G|×σ;
/*迭代*/
(2)for k=1 to e do
/*隨機排序所有圖*/
(3) list=SHUFFLE(G);
/*初始化*/
(4) for each Gi∈list do
(5) for each n∈Nido
(6) for d=0 to D do
/*修正Φ*/
(9) Φ=Φ-a(?J∕?Φ);
/*返回向量表示矩陣*/
(10)return Φ;
(11)end;
2.2.2 節(jié)點屬性提取
Graph2vec雖有效提取了網(wǎng)絡(luò)的結(jié)構(gòu)特征,但無法提取節(jié)點的屬性特征;而GraphSAGE是一種可以利用鄰居節(jié)點的屬性信息高效產(chǎn)生目標(biāo)節(jié)點屬性特征的歸納式學(xué)習(xí)框架,非常適合提取網(wǎng)絡(luò)節(jié)點的屬性特征。其原理是結(jié)合目標(biāo)節(jié)點的局部結(jié)構(gòu),通過節(jié)點鏈接進行多層鄰居節(jié)點采樣,最后通過多層聚合函數(shù)不斷融合鄰居節(jié)點的信息,以獲得目標(biāo)節(jié)點的屬性信息,其過程如圖5所示。
(1)首先,圖網(wǎng)絡(luò)表示為G(V,E),每個節(jié)點表示為v,兩節(jié)點間的層數(shù)表示為k,對圖網(wǎng)絡(luò)中的目標(biāo)節(jié)點的鄰居節(jié)點進行k層采樣,作為待聚合信息的節(jié)點。
(7)
(3)最后,對所有節(jié)點屬性的特征向量進行加權(quán)平均,結(jié)果作為整個工藝表格圖網(wǎng)絡(luò)的節(jié)點屬性特征表示V屬性。具體計算見算法3偽代碼。
(8)
(9)
需要對聚合函數(shù)中的參數(shù)進行學(xué)習(xí)。本文采用無監(jiān)督學(xué)習(xí)損失函數(shù),它傾向于使得相鄰的節(jié)點有相似的表示,使相互遠離的節(jié)點表示差異變大,公式為:
(10)
式中:zu表示節(jié)點u通過GraphSAGE生成的向量表示,節(jié)點v是節(jié)點u的固定長度隨機游走到達的鄰居節(jié)點,σ為激活函數(shù),Pn是負采樣的概率分布,Q是負樣本的數(shù)目,vn是負樣本,E是期望。負采樣是指采樣里距離目標(biāo)節(jié)點zu較遠的節(jié)點。
算法3節(jié)點屬性提取。
輸出:所有節(jié)點向量表示V屬性。
/*節(jié)點特征初始化*/
/*遍歷節(jié)點,鄰居采樣,聚合信息*/
(2)for k=1,…,K do
(3) for v∈V do
/*有權(quán)聚合與拼接*/
(6) end
/*生成目標(biāo)節(jié)點的屬性特征向量*/
(8)end
/*所有節(jié)點生成的屬性特征向量加權(quán)平均*/
(10)end
通過結(jié)構(gòu)特征提取與節(jié)點屬性提取分別得到圖網(wǎng)絡(luò)模型的結(jié)構(gòu)特征向量與節(jié)點屬性特征向量,之后采用余弦相似度各自計算相似度。但是孤立評價相似性無法相互協(xié)調(diào)結(jié)果,且邊、節(jié)點數(shù)量及其屬性維度往往不平衡,需要調(diào)節(jié)結(jié)構(gòu)與屬性相似度。因此,本文提出一種聯(lián)合相似度綜合評估兩者,并設(shè)定閾值T,聯(lián)合相似度定義如下:
Sim=λsim結(jié)構(gòu)+(1-λ)sim屬性。
(11)
其中:0<λ<1;sim結(jié)構(gòu)、sim屬性分別表示結(jié)構(gòu)特征余弦相似度與節(jié)點屬性余弦相似度;Sim表示聯(lián)合相似度。若聯(lián)合相似度超過閾值,比較的兩張工藝表格相似,反之,則不相似。
3.1.1 實驗準(zhǔn)備
本文以變速箱軸承座工藝表格實例作為實驗對象共500張,利用旋轉(zhuǎn)、縮放等方法擴充至1 000張,按照8∶2的比例劃分訓(xùn)練集與測試集,用于訓(xùn)練改進的Mask R-CNN網(wǎng)絡(luò)。需要說明的是工藝表格不僅針對機械制造工藝,還適用其他領(lǐng)域,如紡織服裝生產(chǎn)工藝等。實驗環(huán)境配置參數(shù):Intel(R)Core(TM)i5-10400F @2.90 GHz CPU、NVIDIA GeForce RTX2060顯卡、Win10操作系統(tǒng)。
3.1.2 實驗結(jié)果
訓(xùn)練參數(shù)設(shè)置:批量訓(xùn)練尺寸取16,初始學(xué)習(xí)率取0.001,權(quán)重衰減系數(shù)取0.000 5,迭代次數(shù)epoch取500,參數(shù)更新方法采用梯度下降法。經(jīng)過訓(xùn)練獲得損失函數(shù)和精確度在訓(xùn)練集和測試集上隨迭代次數(shù)收斂的曲線如圖6所示。
迭代200次左右,loss值基本不再下降,在測試集上的精度值最優(yōu)為98.47%。為了體現(xiàn)改進方法的優(yōu)勢,圖7給出了所提方法中改進策略的表格處理效果對比。
圖7a為距離變換后突顯的表格區(qū)域;圖7b表明角點定位微調(diào)的檢測框精度更高;圖7c表明Confluence算法保留的候選框沒有非表格元素干擾,效果優(yōu)于NMS算法;圖7d表明ROI Align比ROI Pooling在提取ROI特征時誤差更小。
為了驗證本文改進的Mask R-CNN的有效性,與表格檢測領(lǐng)域的其他常用方法進行比較,使用精確率(P)、召回率(R)和F1值作為評價指標(biāo),實驗結(jié)果如表2所示。
表2 改進方法與其他方法對比
Mask R-CNN(NMS)比Faster R-CNN(NMS)的精確率高4%左右,F(xiàn)aster R-CNN(NMS+corner)比未引入角點定位的Faster R-CNN(NMS)的精確率高4%左右,表明本文改進策略的有效性,而與未改進的Mask R-CNN相比,本文改進的Mask R-CNN的精確率提升約5%,與加入角點定位的Faster R-CNN相比精確率提升約4%,結(jié)果表明本文改進的Mask R-CNN表格檢測方法效果有所提升。
3.2.1 圖網(wǎng)絡(luò)建模及評價指標(biāo)
本文事先以專家經(jīng)驗在500份工藝表格數(shù)據(jù)集中確定了125個相似對和125個非相似對,即具有相似和非相似工藝的工藝表格,為防止數(shù)據(jù)冗余,每張工藝表格僅允許被劃分為一個相似對或非相似對。在對其進行表格檢測和OCR識別之后,獲得單元格文本框,針對其中關(guān)鍵單元的文本框分別構(gòu)建結(jié)構(gòu)特性圖網(wǎng)絡(luò)和語義關(guān)系圖網(wǎng)絡(luò)數(shù)據(jù)集,按照8∶2的比例劃分訓(xùn)練集與測試集。表3為本文研究的表格樣本的特征分析。表4為本文圖網(wǎng)絡(luò)數(shù)據(jù)集的統(tǒng)計情況。
表3 表格樣本特征分析
表4 圖網(wǎng)絡(luò)數(shù)據(jù)集節(jié)點與關(guān)系統(tǒng)計
其中對于權(quán)重計算,首先依據(jù)表(1)構(gòu)造4種單元節(jié)點權(quán)重的判斷矩陣,如表5所示。
表5 四種單元節(jié)點權(quán)重的判斷矩陣
本文以AUC(area under curve)[28]為評價指標(biāo),它是由預(yù)測的ROC曲線和橫坐標(biāo)包圍面積計算得來的,用以衡量一個二分類模型性能的好壞,AUC值越大表示相似對與非相似對的分類效果越好,實質(zhì)是工藝表格特征提取能力越強,使得相似性推理效果越好。本文以SN205滾動軸承座工藝表格為樣例分別建模結(jié)構(gòu)特性與語義關(guān)系的圖網(wǎng)絡(luò),如圖8和圖9所示。
3.2.2 實驗結(jié)果
在Graph2vec實驗中,使用隨機梯度下降算法來學(xué)習(xí)模型參數(shù),初始學(xué)習(xí)率為0.001,負采樣率設(shè)置為0.000 1,訓(xùn)練批次設(shè)置為16,epoch設(shè)置為50,嵌入維度設(shè)置為1 024。Graph2vec使用隨機梯度下降優(yōu)化算法2第8、9兩行的參數(shù),使用反向傳播算法估算導(dǎo)數(shù),依據(jù)經(jīng)驗調(diào)整學(xué)習(xí)率a,由于訓(xùn)練過程中整個子圖集合規(guī)模較大,本文采用負采樣方法提高效率,即在訓(xùn)練時,選擇不屬于子圖集Gi的k個子圖樣本c′={subg1,subg2,…,subgk},c′subgG,k<<|subgG|,c∩c′={},每個負樣本都不存在于需要表示學(xué)習(xí)的圖Gi中,而是存在于子圖總集合中,在訓(xùn)練時只更新負樣本的向量表示而不是整個子圖集合,達到簡化樣本規(guī)模的目的。
在GraphSAGE實驗中,使用Adam優(yōu)化器來學(xué)習(xí)模型參數(shù),初始學(xué)習(xí)率為0.001,負采樣率設(shè)置為0.000 1,訓(xùn)練批次設(shè)置為16,epoch設(shè)置為50,嵌入維度設(shè)置為256,聚合層數(shù)設(shè)置為2。GraphSAGE采用無監(jiān)督學(xué)習(xí)方式訓(xùn)練聚合函數(shù)從節(jié)點的鄰域聚合鄰域節(jié)點的特征信息,通過前向傳播得到目標(biāo)節(jié)點的向量表示,然后使用Adam梯度下降進行反向傳播優(yōu)化式(7)聚合函數(shù)內(nèi)的參數(shù)。
本文分別使用Graph2vec和GraphSAGE提取圖網(wǎng)絡(luò)模型的結(jié)構(gòu)特征向量和節(jié)點屬性向量,之后將兩者作為聯(lián)合相似度評估方法式(11)的輸入,計算出相似度大小,再根據(jù)設(shè)定的閾值評估相似對與非相似對。該過程如式(12)所示。
Sim=λsim屬性+(1-λ)sim結(jié)構(gòu)。
(12)
式中:sim屬性、sim結(jié)構(gòu)分別為兩個工藝表格的屬性與結(jié)構(gòu)相似度值;V結(jié)構(gòu)、V屬性分別為工藝表格的結(jié)構(gòu)與屬性向量;Sim為聯(lián)合相似度;λ一般設(shè)為0.5。
相似對的數(shù)量取決于聯(lián)合相似度閾值T的設(shè)置,較大的閾值可以獲得相似性大的相似對,而較小的閾值設(shè)定可以得到相似程度不同的相似對,通過設(shè)置不同的閾值挖掘相似對,可以發(fā)現(xiàn)適用于兩種數(shù)據(jù)集的閾值大小[29]。本文比較了不同閾值T對AUC的影響,實驗結(jié)果如圖10所示。由結(jié)果可知,結(jié)構(gòu)特性圖網(wǎng)絡(luò)、語義關(guān)系圖網(wǎng)絡(luò)的最優(yōu)閾值分別為75%、85%。
為了驗證本文方法的有效性,與文本嵌入Word2vec[30]及BERT進行對比[31]。同時,為了研究哪種圖網(wǎng)絡(luò)最能真實反映工藝表格的工藝信息,本文對兩種圖網(wǎng)絡(luò)數(shù)據(jù)進行了對比實驗,均使用最優(yōu)閾值來評判相似對與非相似對。圖11為在測試集上的AUC隨著迭代次數(shù)的增加,各個模型推理性能的變化曲線。
各模型在30個epoch后基本達到最優(yōu)且趨于穩(wěn)定,且本文方法的性能相較于其他方法最優(yōu)。各模型最優(yōu)性能時的AUC結(jié)果如表6所示。
表6 最優(yōu)性能的各模型AUC對比
Graph2vec與GraphSAGE的消融實驗是分別提取特征向量后直接利用余弦相似度值評估相似對,目的是探究各自影響。Word2vec與BERT的對比實驗是以單元文本框為對象,以產(chǎn)品、零件、毛坯、工序單元為整體,將單元格文本嵌入成向量后,按列加和取平均向量作為各個單元文本的向量,以余弦相似度推理相似性。
(13)
(14)
如圖12所示為工序單元的文本嵌入。它未保留表格特性,只考慮節(jié)點的文本屬性,因此,表5中兩種圖網(wǎng)絡(luò)數(shù)據(jù)的結(jié)果相同。
含有GraphSAGE的結(jié)果中,語義關(guān)系圖網(wǎng)絡(luò)的AUC比結(jié)構(gòu)特性圖網(wǎng)絡(luò)的AUC平均多9%左右,而在僅有Graph2vec的結(jié)果中,兩者相差不多,原因在于語義關(guān)系圖網(wǎng)絡(luò)含有豐富的語義邏輯,不但蘊含工藝表格的語義關(guān)系與文本信息,不受文本框位置的限制,而且語義關(guān)系也能如結(jié)構(gòu)特性一樣還原表格結(jié)構(gòu),結(jié)果表明語義關(guān)系圖網(wǎng)絡(luò)比結(jié)構(gòu)特性圖網(wǎng)絡(luò)更能反映工藝表格的工藝信息。在僅有Graph2vec與僅有GraphSAGE的結(jié)果中,GrpahSAGE的AUC比Graph2vec的AUC平均多70%左右,原因在于Graph2vec僅能提取圖網(wǎng)絡(luò)的結(jié)構(gòu)特征,而評判相似對的重要因素在于工藝表格的文本語義,結(jié)構(gòu)特征無法反映工藝信息,而GraphSAGE不但可以提取大量的節(jié)點屬性特征,而且鄰居采樣時結(jié)合了局部拓撲結(jié)構(gòu),既提取了節(jié)點屬性,又提取了局部結(jié)構(gòu)特征,因此效果要好于Graph2vec。除此之外,本文方法的AUC也是明顯高于Word2vec、BERT的AUC,原因在于Word2vec、BERT未能保留工藝表格特性,無法提取包含語義關(guān)系的工藝表格特征,結(jié)果驗證了本文方法的有效性。
3.2.3 實例驗證
為了驗證在語義關(guān)系圖網(wǎng)絡(luò)下,本文所提方法的可行性,將新編制SN205滾動軸承座的工藝表格與已有SN305滾動軸承座、SNK205滾動軸承座、SNK305滾動軸承座、H4050滑動軸承座的工藝表格實例進行工藝復(fù)用,其中,英文代號表示軸承座等徑孔型號,同型號下數(shù)字代號越大表明軸承座各方面尺寸越大。先通過1.2節(jié)表格檢測去除干擾信息并進行OCR識別表格,得到單元文本框,再依據(jù)2.1節(jié)構(gòu)建5個語義關(guān)系圖網(wǎng)絡(luò)模型,如圖13為其中兩個實例的示意圖。之后利用本文方法分別提取結(jié)構(gòu)特征與節(jié)點屬性,獲得結(jié)構(gòu)向量與屬性向量,最后以熱力圖呈現(xiàn)計算的聯(lián)合相似度,如圖14所示。SN205滾動軸承座的工藝表格與SN305滾動軸承座、SNK205滾動軸承座、SNK305滾動軸承座、H4050滑動軸承座的實例的相似度對應(yīng)分別為98%、90%、85%、67%,依據(jù)圖10得到的語義關(guān)系圖網(wǎng)絡(luò)最佳相似對評估閾值P=85%,前3個相似度超過了閾值,表明與SN205滾動軸承座的工藝表格都具有相似工藝,其中與SN305滾動軸承座的工藝表格相似程度最高,可作為工藝重用設(shè)計的最佳選擇,結(jié)果驗證了該方法的可行性。
針對由于工藝表格結(jié)構(gòu)復(fù)雜、工藝信息量大等特點,從而難以有效描述工藝表格中的復(fù)雜結(jié)構(gòu)與豐富信息,導(dǎo)致人工度量工藝表格相似性的精度差、效率低的問題,本文提出一種面向工藝表格的圖神經(jīng)網(wǎng)絡(luò)組合算法提取其特征信息,用以度量工藝表格相似性。本文所提方法的創(chuàng)新點如下:
(1)為了準(zhǔn)確地檢測表格,提出一種改進的Mask R-CNN方法,先利用距離變換增大表格區(qū)域特征,然后利用Confluence算法替換Mask R-CNN中NMS算法改進目標(biāo)框擇優(yōu)效果,最后利用角點定位微調(diào)輸出檢測框的精度。實驗結(jié)果表明,所改進的Mask R-CNN精確率提升約5%~7%左右。之后利用OCR技術(shù)提取檢測的工藝表格文本信息。
(2)為了完備地描述工藝表格特性,將其劃分成結(jié)構(gòu)特性和語義關(guān)系兩部分,進而,創(chuàng)新性地對關(guān)鍵單元的工藝信息設(shè)計了結(jié)構(gòu)特性與語義關(guān)系圖網(wǎng)絡(luò)模型,為了提取模型的特征用以相似性度量,提出了Graph2vec與GraphSAGE圖神經(jīng)網(wǎng)絡(luò)組合算法,提取工藝表格圖網(wǎng)絡(luò)的結(jié)構(gòu)特征與節(jié)點屬性,用以驅(qū)動設(shè)計的聯(lián)合相似度評估方法匹配相似的工藝表格。實驗結(jié)果表明該方法的AUC最優(yōu)可達97.41%左右,比文本嵌入方法的AUC平均多24%左右,表明了提取工藝表格特征的有效性。以實例驗證了該方法計算相似的工藝表格,用以工藝重用設(shè)計的可行性。
但是該方法并不是端到端的,且維度、樣本量等對效果有一定影響。后續(xù)將研究結(jié)構(gòu)特征與節(jié)點屬性相互融合以實現(xiàn)端到端的相似性計算,并探究維度、數(shù)據(jù)集大小等對其有效性的影響。