邱雪,單世民*,魏宏夔,王愷,楊念順
(1.大連理工大學 遼寧省泛在網(wǎng)絡與服務軟件重點實驗室,遼寧 大連 116620;2.北京電子工程總體研究所 復雜產(chǎn)品智能制造系統(tǒng)技術國家重點實驗室,北京 100854)
隨著科技水平的快速發(fā)展,工業(yè)制造領域中的復雜產(chǎn)品在功能、構型和性能指標方面的數(shù)量種類及復雜程度也在快速提升。傳統(tǒng)的復雜產(chǎn)品需求分析方式難以滿足客戶的快速響應要求,難以保持和提升復雜產(chǎn)品研發(fā)企業(yè)的市場競爭力。構造復雜產(chǎn)品的指標參數(shù)知識圖譜,可以輔助企業(yè)產(chǎn)品研發(fā)人員對已有產(chǎn)品數(shù)據(jù)進行快速統(tǒng)計分析。同時,利用前沿的圖譜表示推理算法[1],可以為新產(chǎn)品的指標參數(shù)需求提供有效的預測推理。
知識表示學習方法是近年來人工智能和知識圖譜領域的研究熱點。通過將知識圖譜中的實體和關系表示為低維向量空間中的稠密向量,知識表示學習已經(jīng)被應用于知識圖譜補全[2]、關系鏈接預測[3]和一系列知識圖譜下游任務之中[4]。然而,現(xiàn)有的表示學習方法所應用的知識圖譜,只關注實體-關系之間的離散型關聯(lián),而不考慮數(shù)值型屬性。對于產(chǎn)品指標知識圖譜,大多數(shù)產(chǎn)品指標參數(shù)屬于數(shù)值型數(shù)據(jù)。當一類產(chǎn)品指標的數(shù)值足夠精確,同時不同產(chǎn)品指標變化幅度較大時,會導致相似數(shù)值被表達成大量相互獨立的離散實體。這些實體不僅會耗費大量的訓練參數(shù),還會對模型預測精度產(chǎn)生負面影響。
針對產(chǎn)品指標知識圖譜的數(shù)據(jù)特性和業(yè)務需求,本文在已有知識表示學習方法的基礎上,重點研究針對數(shù)值型指標的表示學習技術。首先,考慮到產(chǎn)品指標圖譜的數(shù)據(jù)特點,本文從產(chǎn)品指標數(shù)據(jù)中抽取產(chǎn)品指標圖譜數(shù)據(jù),將產(chǎn)品間關聯(lián)關系和產(chǎn)品的指標參數(shù)分別用三元組的形式存儲起來,作為知識表示學習算法的實驗數(shù)據(jù)集。其次,本文創(chuàng)新性地研究數(shù)值型指標參數(shù)的分布式表示方法。設計產(chǎn)品數(shù)值型指標的離散化區(qū)間劃分策略,通過大量的仿真實驗驗證了數(shù)值型指標表示方法中的關鍵要素,即區(qū)間數(shù)量和劃分方法。再次,針對關系三元組和指標三元組的語義差異,探索全新的聯(lián)合學習訓練方案。本文提出了四種訓練方案,包括單獨學習、合并學習、依次學習和交替學習,以探索指標三元組的有效知識表示學習方法。
本文在五個前沿知識表示學習算法上進行了 試 驗 ,包 括 TransE[5],DistMult[6],Com?plEx[7],ConvE[8]和 RotatE[9]。實驗結果表明,RotatE模型的鏈接預測功能總體上占據(jù)優(yōu)勢,在關系三元組和指標三元組預測上均表現(xiàn)出優(yōu)異的性能。對于細粒度區(qū)間劃分的指標參數(shù)預測任務,ConvE方法相比其他知識表示學習模型更為適合。合并學習方案可以同時保證關系三元組和指標三元組的預測精度,而依次學習方案可以達到更高的指標預測精度。針對產(chǎn)品指標知識圖譜的推理需求,需要權衡預測精度和區(qū)間個數(shù)的設置,以期保證高準確率的前提下,實現(xiàn)適當區(qū)間精度的指標參數(shù)預測,為后續(xù)的產(chǎn)品指標關聯(lián)預測和產(chǎn)品方案生成奠定基礎。
知識圖譜嵌入(KGE)將實體和關系表示為嵌入空間內的向量或矩陣,是語義網(wǎng)絡和機器學習領域中的一個新興主題。根據(jù)模型架構,最近的KGE方法可以大致分為三類[10],包括向量距離模型、矩陣分解模型和神經(jīng)網(wǎng)絡模型。
以TransE[5]模型為代表的向量距離模型,將關系視為頭尾實體之間的平移操作,通過計算實體向量之間的距離來評估三元組為真的概率。為了解決TransE的缺陷,后續(xù)相繼提出了TransH[11]、TransR[12]和 TransD[13]等變體。同時,矩陣分解方法是知識表示學習的另一個重要途徑,其中代表性的方法是RESACL[14]模型。DistMult[6]模型是 RESACL 模型的簡化版本,將每個關系的投影矩陣改為關系向量表示,再將向量轉化為對角矩陣,用于整合頭尾實體向量。ComplEx模型[7]使用復數(shù)向量表示空間來提高非對稱關系的表示性能。最新模型RotatE[9]將TransE模型的平移操作改為旋轉操作,通過將關系向量表示為實體向量間的旋轉變換,得到了遠超TransE模型的推理效果。隨著深度學習的發(fā)展,神經(jīng)網(wǎng)絡模型在最近的KGE研究中取得了卓越的性能,例如ConvE[8]和ConvKB[15],引入了深度神經(jīng)網(wǎng)絡并通過向量語義匹配對三元組打分。其中,ConvE模型重塑并連接了實體和關系嵌入,并利用多層卷積網(wǎng)絡模型進行鏈接預測,在保證計算效率的同時提高表征精度。
針對知識圖譜中的數(shù)值型數(shù)據(jù)問題,Alber?to等[16]提出了一種結合潛在特征、關系特征和數(shù)值特征的知識表示學習方法,但他們針對的是常識知識圖譜中的數(shù)據(jù)稀疏問題,將少量數(shù)值特征的差異分布擬合到稀疏圖譜數(shù)據(jù)中。而本文工作的問題場景和研究目標與其不同。首先在產(chǎn)品指標知識圖譜中,大部分三元組包含數(shù)值型信息,且不同指標的數(shù)值分布有明顯差異。不同于以往研究針對離散型關系三元組的預測,本文重點是實現(xiàn)數(shù)值型指標的準確預測,為此提出了數(shù)值離散化方法和聯(lián)合訓練策略。
本文在已有知識表示學習方法的基礎上,重點研究針對數(shù)值型指標的表示學習技術。數(shù)值型指標向量表示方法通過將數(shù)值型指標進行有效的離散化處理,使得知識表示學習模型能夠有效學習指標參數(shù)的向量化表示。另外,本文提出了關系-指標三元組聯(lián)合學習方法,針對產(chǎn)品指標圖譜的實際需求,探索有效的產(chǎn)品指標知識圖譜的表示學習訓練方案。
如何對數(shù)值型指標實體進行向量表示,從而有效地應用于知識表示學習方法,是本文的研究重點之一。針對這一問題,本文提出了數(shù)值型指標的向量表示方法,其核心思路是將不同類型的數(shù)值型指標進行有效的離散化處理,使得知識表示學習方法能夠有效學習數(shù)值型指標的分布式向量。指標離散化區(qū)間劃分取決于兩個因素,區(qū)間個數(shù)和劃分方法。前者決定了最終該指標會被離散化為多少個同等類別,后者決定了對滿足一定數(shù)據(jù)分布的數(shù)值參數(shù)如何進行等量劃分。同時,這兩個因素對知識表示學習方法性能的影響也是未知的,因此需要在實驗中進一步驗證。
對于區(qū)間個數(shù)因素,我們選擇了五種選項,分別為5,10,20,50和100。直觀上講,過多和過少的區(qū)間劃分都會對知識表示學習模型的準確度造成影響。首先,過少的區(qū)間使得最終分類類別數(shù)量小,雖然相對準確度會提高,但導致預測結果過于粗略,缺少實用價值。另一方面,過多的區(qū)間劃分會增大最終分類的難度,降低模型預測的準確率。區(qū)間劃分過細也會導致相似實體的指標參數(shù)無法建立關聯(lián),從而難以學到圖譜中的隱含規(guī)律。
對于劃分方法因素,本文選擇了兩種不同的方法,分別是基于數(shù)值的等量劃分(Uniform)和基于頻度的等量劃分(Scale)。首先,Uniform方法在給定前期統(tǒng)計的指標數(shù)據(jù)m的最大值mmax和最小值mmin后,直接將最值區(qū)間均分為N份(其中N為預設的區(qū)間個數(shù))。每個劃分區(qū)間的長度n=(mmax?mmin)/N,每個區(qū)間的數(shù)值間距是基本相等的。使用Uniform劃分方法進行劃分后,劃分區(qū)間的集合Z_U可以表示為:
其次,Scale方法是考慮已知指標參數(shù)的分布情況,保證每個區(qū)間內的指標參數(shù)數(shù)量相同。當N=4時,Scale方法相當于統(tǒng)計四分位數(shù),利用四分位數(shù)和均值將整個取值空間劃分為4份。則每個劃分區(qū)間的數(shù)值個數(shù)為l,即l=L/N,其中L表示整體樣本數(shù)量。使用Scale劃分方法進行劃分后,劃分區(qū)間的集合Z_S可以表示為:
比較兩種劃分方法可以看出,Uniform方法適用于數(shù)值分布較均勻,且取值范圍較小的情況;而Scale方法更適合數(shù)據(jù)分布不均勻,取值范圍較大的指標參數(shù)。在給定區(qū)間劃分之后,我們將原本的數(shù)值型指標參數(shù)轉化為對應的離散型指標類別。具體的,給定一個數(shù)值型參數(shù),程序從小到大遍歷該指標的劃分區(qū)間。當該參數(shù)滿足某個區(qū)間的取值條件時,該參數(shù)便確定為對應的離散類型,不同的離散型指標類型在知識表示學習方法中將對應不同的分布式表示向量。
設?和?表示實體和關系的集合,知識圖譜G是 事 實 三 元 組 (eh,r,et)的 集 合 ,其 中eh,et∈?,r∈?。Ne和Nr分別表示實體和關系的 數(shù) 量 ,給 定 一 個 e-r查 詢q=(ein,r),其 中ein∈?和r∈?,鏈接預測任務是找到emiss∈?,使得 (ein,r,emiss)或 (emiss,r,ein)屬于知識圖譜G。知識圖譜嵌入(KGE)旨在將每個實體e∈?和每個關系r∈?表示為d維連續(xù)向量。大多數(shù)KGE模型都采用負采樣損失作為訓練目標,使得每個正確三元組t的得分都小于隨機生成的負樣本三元組。T表示正樣本三元組集合,T'表示負樣本三元組集合。以最大間隔損失為例,損失函數(shù)定義為:
其中?(t)是模型的得分函數(shù),而γ>0是邊界值參數(shù)。
以往的知識表示學習方法將知識圖譜中的實體默認為相互獨立的離散型要素,將每個離散型實體表示為一個低維連續(xù)向量。對于產(chǎn)品指標知識圖譜,通過上述離散化方法將數(shù)值型指標參數(shù)轉化為離散實體,使得數(shù)值型指標實體可以直接輸入到現(xiàn)有知識表示學習模型中。然而,“產(chǎn)品-指標-參數(shù)”形式的三元組和以往圖譜中“實體-關系-實體”三元組在語義層面上是有所差異的。為了便于區(qū)分,本文將前者稱之為離散型關系三元組,后者稱之為數(shù)值型指標三元組。
本文的核心研究目標是對產(chǎn)品的指標體系進行預測和推理,因此數(shù)值型指標三元組是研究的重點。但是,其他離散型關系三元組的作用不容忽視,不同于指標參數(shù)這種底層數(shù)據(jù),產(chǎn)品指標圖譜中的離散型關系三元組一般存儲有產(chǎn)品的高層類別劃分,能夠反映產(chǎn)品之間的層次結構和關聯(lián)關系。因此,如何實現(xiàn)關系三元組和指標三元組的聯(lián)合學習是本研究方案中的重點。為此設計了四種類型的訓練方案:單獨學習、合并學習、交替學習和依次學習,以此來探究有效的產(chǎn)品指標圖譜的知識表示訓練方法。知識表示學習的基本模型圖以及關系-指標三元組聯(lián)合學習方法如圖1所示。
圖1 知識表示學習基本框架(a)及關系-指標三元組聯(lián)合學習方法(b-e)(b)合并學習;(c)交替學習;(d)單獨學習;(e)依次學習Fig.1 Basic framework of knowledge representation learning(a)and relational-index triple joint learning methods(b-e)(b)Merge learning;(c)Alternating learning;(d)Single learning;(e)Sequential learning
●單獨學習:將關系三元組和指標三元組分割為兩個圖譜子圖,分別輸入到知識表示學習模型中訓練。
●合并學習:將關系三元組和指標三元組合為一個完整圖譜,輸入到知識表示學習模型中訓練。
●交替學習:對于同一個知識表示學習模型,交替使用關系三元組和指標三元組進行訓練。
●依次學習:對于同一個知識表示學習模型,先用關系三元組訓練若干輪再輸入指標三元組進行訓練。
對于每個訓練方案,本文選擇了五種不同的前沿知識表示學習模型進行訓練,包括TransE,DistMult,ComplEx,ConvE 和 RotatE。上述模型的得分函數(shù)和損失函數(shù)如表1所示。
綜上所述,本文通過提出多種數(shù)值型指標的向量表示方法和關系-指標三元組聯(lián)合訓練方案,探索有效的產(chǎn)品指標知識表示學習方法,從而為后續(xù)的產(chǎn)品指標關聯(lián)預測和產(chǎn)品方案生成奠定基礎。
為了驗證提出的模型框架,本文構建了復雜產(chǎn)品指標圖譜數(shù)據(jù)集進行實驗測試。不同于以往的知識表示學習圖譜數(shù)據(jù)集,復雜產(chǎn)品指標圖譜數(shù)據(jù)集包含離散型關系三元組和數(shù)值型指標三元組兩部分,基本數(shù)據(jù)統(tǒng)計參數(shù)如下。
● 實體數(shù):2 971,離散型關系數(shù):12,數(shù)值型關系數(shù):48;
●關系三元組個數(shù):訓練集8 270,驗證集640,測試集646;
●指標三元組個數(shù):訓練集12 701,驗證集703,測試集704。
知識表示學習模型的主要評測任務是知識圖譜鏈接預測任務,即給定三元組中的實體-關系兩項,來預測缺失的另一個實體。通過使用訓練集三元組來訓練知識表示學習模型,學習每個實體向量對應的連續(xù)值參數(shù),然后通過驗證集評測性能來調整模型超參數(shù),最后用測試集來評估模型的預測性能。知識表示學習模型的鏈接預測任務具有多種性能評估指標,具體包括:
(1)平均排名(MR):指目標實體在最終預測序列中的排名的均值;
(2)平均排名倒數(shù)(MRR):指目標實體排名的倒數(shù)的均值;
(3)前N項命中率(Hits@N):指目標實體排在前N項的百分比。
一般來說,越低的MR值和越高的MRR、Hits@N值表明模型的預測性能越好,準確率越高。
本文采用的知識圖譜數(shù)據(jù)集針對復雜產(chǎn)品制造領域構建而成。由于該領域數(shù)據(jù)具有敏感度高、機密性高的特點,最終選擇《某型號裝備數(shù)據(jù)大全(第三版)》作為數(shù)據(jù)源。本節(jié)簡要介紹針對復雜產(chǎn)品指標數(shù)據(jù)的數(shù)據(jù)采集和圖譜構建過程。
由于數(shù)據(jù)源是不可編輯的PDF掃描文件,從時間成本與人工成本的角度出發(fā),本文采用自動化提取PDF掃描文件信息的方法。通過光學字符識別(OCR)技術,從PDF掃描文件中識得復雜產(chǎn)品指標數(shù)據(jù),保存到Excel表格文件中。但提取出來的數(shù)據(jù)存在明顯噪音,典型錯誤包括:某些數(shù)學符號無法識別,數(shù)值型數(shù)據(jù)小數(shù)點遺漏,數(shù)值型數(shù)據(jù)留有空格和涉及特殊字符的產(chǎn)品名稱識別失敗等。
為保證提取的指標數(shù)據(jù)信息與原始數(shù)據(jù)一致,我們對Excel數(shù)據(jù)內容進行人工校驗,修改錯誤信息,并進行了一系列復雜產(chǎn)品指標的數(shù)據(jù)清洗工作,主要包括復雜表頭拆分、添加復雜產(chǎn)品類別信息、數(shù)值型結構指標數(shù)據(jù)格式統(tǒng)一、文本型結構指標數(shù)據(jù)分類等。經(jīng)過上述預處理后的數(shù)據(jù)均為結構化數(shù)據(jù),按照預先定義的復雜產(chǎn)品本體結構,以“產(chǎn)品-關系-實體”和“產(chǎn)品-指標-數(shù)值”的形式,將結構化數(shù)據(jù)轉化為圖譜三元組形式,用作后續(xù)知識表示學習模型的實驗數(shù)據(jù)集。
表1 五個經(jīng)過預訓練的KGE模型的得分函數(shù)和損失函數(shù)Table 1 Score function and loss function of five pre-trained KGE models
本文采用了五種前沿的知識表示學習模型測試其在產(chǎn)品指標圖譜上的鏈接預測性能。為了保證實驗的公平性,在訓練階段統(tǒng)一采用合并學習方案,在測試階段分別對兩部分測試集進行單獨評測,指標劃分方法采用Scale方法,區(qū)間大小設置為10。鏈接預測任務的實驗結果如表2所示。
從表2看出,五種知識表示模型在兩個三元組子圖上,均表示出較高的預測精度。在產(chǎn)品關系三元組上,RotatE和ComplEx模型優(yōu)于其他三種模型。尤其在Hits@1指標上,兩模型準確度均超過了50%。相比之下,TransE的預測性能最弱。相似的趨勢同樣反映在產(chǎn)品指標三元組上,RotatE模型在Hits@1指標上優(yōu)于其他模型,而ConvE模型在Hits@3和Hits@10指標上達到最佳。結合兩部分三元組子圖的預測結果可以看出,RotatE模型總體上占據(jù)優(yōu)勢,在關系三元組和指標三元組的預測結果上均表現(xiàn)出優(yōu)異的性能。同時,對比關系三元組和指標三元組的預測結果可以看出,指標三元組的預測準確率明顯優(yōu)于關系三元組,這意味著知識表示學習模型有能力針對產(chǎn)品指標參數(shù)進行一定的預測和推理。
上述實驗中將關系三元組和指標三元組共同訓練,相當于訓練方案中的“合并學習方案”。本文進一步分析了不同訓練方案對三元組預測精度的影響,以期找出最優(yōu)的三元組訓練方案。本文對四種訓練方案下的知識表示模型分別進行了訓練評估,實驗結果如圖2所示。
圖2 不同訓練學習方案下的模型性能Fig.2 Performance of models under different training and learning schemes
首先,比較單獨學習和合并學習方案可以看出,合并學習方案的關系、指標三元組預測精度明顯優(yōu)于單獨學習方案。這一差異在ConvE和RotatE模型的結果中尤為顯著。原因可能在于,兩類三元組混合后,豐富了產(chǎn)品指標圖譜的數(shù)據(jù)信息,使得一些原本稀疏的實體得到了更充分的向量表示學習,因而預測準確率有所提升。此外,合并學習和交替學習方案的模型性能幾乎一致。在此基礎上,從實際訓練成本上考慮,合并學習方案相對更優(yōu)。
依次學習方案的預測性能和其他方案有明顯的差異,尤其體現(xiàn)在ConvE和RotatE模型上。先訓練的關系三元組的預測性能被大幅度削弱,同時后訓練的指標三元組性能卻被進一步提升,甚至超越了其他三種方案的指標三元組預測性能。分析原因可能為,預先對關系三元組的訓練相當于對圖譜進行了更為準確的初始化,使得產(chǎn)品實體在初始階段就具備一定的聚類特征,從而更有利于指標三元組的訓練。
綜上所述,針對產(chǎn)品指標圖譜的推理需求,可以采取不同的訓練方案。當同時需要確保關系三元組和指標三元組的預測精度時,可以采用合并學習方案。當追求更高的指標三元組的預測精度時,則依次學習方案更為適合。
針對數(shù)值型指標三元組的預處理方法,本文進行了詳細的實驗探究。為了將數(shù)值型指標轉化為有限個離散型實體,采用Scale和Uniform兩種劃分方法和多種區(qū)間個數(shù),分別對數(shù)值型指標三元組進行預處理,然后在知識表示學習模型上比較預測性能。實驗結果如圖3所示。
表2 多種模型在產(chǎn)品關系三元組和指標三元組上的鏈接預測性能Table 2 Performance of link prediction to various models on product relational triples and index triples
首先,從區(qū)間個數(shù)角度來看,隨著區(qū)間個數(shù)的增多,三種知識表示學習模型的預測性能都呈現(xiàn)出下降趨勢。這是由于當區(qū)間劃分過細時,模型需要區(qū)分的相似實體數(shù)量明顯增多。因此,在產(chǎn)品指標預測的實際應用中,需要權衡區(qū)間個數(shù)的設置,以期保證高準確率的前提下,實現(xiàn)適合精度的指標參數(shù)預測。
其次,從劃分方法的角度來比較,Uniform方法在三個模型的不同區(qū)間個數(shù)條件下基本優(yōu)于Scale方法。尤其體現(xiàn)在區(qū)間個數(shù)為100時,Uniform方法的Hits@10指標比Scale方法高出5%。這表明基于數(shù)值的區(qū)間劃分方法,更適合產(chǎn)品指標圖譜的參數(shù)離散化處理。分析原因可能是,Scale方法對取值范圍進行均分,導致不同區(qū)間內的標注樣本數(shù)量不平衡。相比之下,Uniform方法保證了不同離散區(qū)間中的三元組數(shù)量基本一致。
再次,通過比較三種不同類型的知識表示學習模型可以看出,基于轉移距離的TransE模型預測性能明顯較弱,在不同區(qū)間個數(shù)和劃分方法條件下均弱于其他兩種方法。對比基于矩陣分解的ComplEx方法和基于神經(jīng)網(wǎng)絡的ConvE方法可以看出,ConvE方法在區(qū)間個數(shù)較多的情況下,預測性能仍能保持75%以上的較高水準。因此對于細粒度區(qū)間劃分的指標參數(shù)預測任務,ConvE方法相比其他知識表示學習模型更為適合。
本文通過構建知識表示模型,將產(chǎn)品指標圖譜中的實體,關系和指標參數(shù)投影到低維向量空間,實現(xiàn)對實體關系的語義信息表示,挖掘指標參數(shù)之間的潛在關聯(lián),實現(xiàn)產(chǎn)品性能指標的有效預測。本文通過研究數(shù)值型指標參數(shù)的向量表示,對知識圖譜中蘊含的產(chǎn)品-指標-屬性數(shù)據(jù)進行分布式表示,并探索全新的聯(lián)合學習訓練方案,為后續(xù)性能推理和預測算法提供堅實的數(shù)據(jù)基礎。實驗表明RotatE模型的鏈接預測功能總體占據(jù)優(yōu)勢,在關系三元組和指標三元組的預測結果上均表現(xiàn)出優(yōu)異的性能,而基于依次學習訓練方案的ConvE模型更是在Hit@10指標上達到了最優(yōu)的90.27%。針對產(chǎn)品指標圖譜的推理需求,本文可以根據(jù)實際情況采取不同的訓練方案。后續(xù)將在其他領域數(shù)據(jù)集上對本文算法進一步進行測評。