夏 冰,李寶安,呂學(xué)強
(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)
專利文獻具有相對固定的組織結(jié)構(gòu),其組織結(jié)構(gòu)主要包括IPC分類號、標(biāo)題、摘要、說明書、權(quán)利要求書等。其中IPC分類號是國際通用分類號,根據(jù)IPC分類號可以判定專利類別,權(quán)利要求書是發(fā)明或者實用新型專利要求保護的內(nèi)容,是申請專利的核心。專利文獻為保持其新穎性以及避開專利雷區(qū),在用詞方面一般使用獨特或不常用的詞或短語來表達一些常見性的語義,例如用“一種盛水的容器”來表達“水杯”的含義,再例如用“沒有固定停放地點的單車”替代“共享單車”的概念在專利文獻中使用。因此專利文獻相似度計算的準(zhǔn)確與否很大程度上取決于詞語間語義相似度的計算。
根據(jù)研究方法的不同,詞語間的語義相似度的研究大體上可以分為兩大類:基于知識的詞語語義分析和基于統(tǒng)計的詞語語義分析。基于知識的詞語語義分析需要一個龐大而豐富的知識庫[1,2],庫中包含了詞語概念、上下位等邏輯關(guān)系,通過計算不同詞語在知識庫中的語義距離來表示詞語間的相似程度?;诮y(tǒng)計[3,4]的詞語語義分析主要是在概率論,統(tǒng)計論等數(shù)學(xué)理論的基礎(chǔ)上,對大規(guī)模語料進行統(tǒng)計,通過判斷詞語的上下文語境是否相似來判斷詞語之間的相似程度。
文本相似度的計算方法主要包括基于統(tǒng)計、基于語義信息、基于句法結(jié)構(gòu)、基于編輯距離的方法。詞匹配法[5]是基于統(tǒng)計的文本相似度計算方法中最具有代表性的一種方法,此方法簡單的統(tǒng)計了詞語出現(xiàn)重復(fù)率而忽略了詞語間的語義信息。基于語義信息的文本相似度計算方法是通過領(lǐng)域知識庫[6]計算詞之間的語義距離進而得到文本間的距離,或者將文本表示成詞向量[7]的形式,利用向量空間距離計算公式計算文本間的空間距離。基于句法結(jié)構(gòu)[8,9]的文本相似度計算方法主要是通過對文本中句子結(jié)構(gòu)和句子中詞語語法進行分析。基于編輯距離[10]的文本相似度計算方法是計算待檢文本轉(zhuǎn)變?yōu)槟繕?biāo)文本所花費的代價。
本文在總結(jié)前人研究成果的基礎(chǔ)上,提出了根據(jù)專利文獻獨特的結(jié)構(gòu)特點,對IPC分類號、標(biāo)題、摘要、權(quán)利要求書分別賦予不同的權(quán)重,并利用word2vec將詞語表示成詞向量的形式,通過詞向量計算詞語間語義相關(guān)性,進而用改進的余弦相似度公式計算文本相似度。
向量空間模型(VSM)作為最常用的一種文本表示方式,是由Salton等提出,并將此模型成功應(yīng)用于SMART文本檢索系統(tǒng)。向量空間模型是將文本內(nèi)容的處理轉(zhuǎn)化為空間向量的運算,通過空間向量的距離表示文本內(nèi)容的相似程度,直觀易懂。在構(gòu)建向量空間模型的過程中,詞頻-逆文檔頻率(TF-IDF)是使用最廣泛的計算權(quán)重方法。詞匯的TF-IDF值可以用來衡量詞匯在文本中的重要程度,一個詞在某一文本中出現(xiàn)的次數(shù)越多也就是TF值越大(為了降低文本長短不同對TF值的影響一般在計算TF值時需要做歸一化處理),并且在同一語料庫下的其它文本中包含該詞的文本數(shù)越小即IDF值越大,則該詞越能反映該文本的主題。余弦相似度是計算文本相似度的一種重要方法,其宗旨是將文本通過向量空間模型向量化后,計算向量之間的夾角,夾角余弦值越大表示兩個向量夾角越小則兩個文本間相似度越高,當(dāng)兩個向量夾角余弦值為1即兩個向量重合,此時可以粗略認(rèn)為兩個向量表示的文本內(nèi)容是一樣的。通過上述TF-IDF的介紹可知,以TF-IDF值作為權(quán)重計算文本相似度的方法,僅僅是把文本間出現(xiàn)的相同詞匯作為參考指標(biāo),并沒有把詞匯語義信息考慮在內(nèi)。在實際中,只對詞頻進行統(tǒng)計而忽略詞匯間語義信息的文本相似度計算方法是遠遠不夠的。例如一篇描述蘋果的文本和一篇描述香蕉的文本,基于詞頻統(tǒng)計的方式可能就會認(rèn)為這是兩篇完全不相關(guān)的文本。
Word2vec是由Google開發(fā)的一款將詞表示成實數(shù)值向量的高效工具,其中采用的模型有CBOW(連續(xù)詞袋)模型和Skip-Gram模型(通過輸入一個詞向量來預(yù)測相鄰的詞向量)。Word2vec通過訓(xùn)練,可以將文本內(nèi)容的處理簡化成n維空間向量的運算,而向量空間上的相似度又可以表示文本內(nèi)容語義上的相似度。Word2vec的高效性是被研究者廣為稱贊的,一個優(yōu)化的單機版本一天可以訓(xùn)練上千億詞,并且整個訓(xùn)練過程是無監(jiān)督的。Word2vec輸出的詞向量可以用來做許多NLP的相關(guān)工作。Santos等[11]通過word2vec訓(xùn)練得到詞向量,然后通過詞向量串聯(lián)的方式表示文本并最終對文本進行情感分析,Lai S等[12]用word2vec訓(xùn)練的詞向量表示出來的文本用于深度學(xué)習(xí)模型來進行文本分類任務(wù)。雖然上述工作都取得了良好的效果,但是在用詞向量表示文本時,沒有考慮文本本身的結(jié)構(gòu)特點以及在文本不同位置詞本身的重要性不同的問題。
針對上述方法中的不足,本文提出了綜合詞位置和詞匯語義信息的專利文本相似度計算方法。該方法一方面考慮了專利文本獨特的結(jié)構(gòu)特點,將IPC分類號、標(biāo)題、摘要、權(quán)利要求書作為主要研究對象,當(dāng)詞匯處在不同位置時,該詞匯表現(xiàn)出來的重要程度應(yīng)該有所不同。另一方面,將詞表示成向量的形式來替代傳統(tǒng)的詞袋模型,傳統(tǒng)的詞袋模型僅僅是根據(jù)該詞是否在詞袋中出現(xiàn)來將文本表示成向量的形式,詞向量則可以通過計算向量空間距離得到詞匯之間的語義信息,彌補了傳統(tǒng)詞袋模型的不足。利用詞向量間的語義相似度作為權(quán)重改進了余弦相似度公式,并最終通過改進的余弦相似度公式計算專利文本相似度。圖1顯示了本文提出的計算專利文本相似度方法的整個流程,從圖中可以看出該方法主要包括數(shù)據(jù)采集、專利文本預(yù)處理、詞權(quán)重的計算、詞匯間語義信息計算、文本相似度計算5個模塊。
圖1 專利文本相似度計算流程
本文用來訓(xùn)練和測試的專利文本是通過ftp接口從國家知識產(chǎn)權(quán)局批量下載得到的,得到專利文本后需要去除xml標(biāo)簽,提取其中的專利數(shù)據(jù),然后對專利數(shù)據(jù)進行分詞、詞性標(biāo)注、去除停用詞、命名實體識別、新發(fā)現(xiàn)詞等預(yù)處理操作。經(jīng)過對專利數(shù)據(jù)的研究發(fā)現(xiàn),專利文本中關(guān)鍵技術(shù)的描述和核心詞匯一般都是名詞、動詞或名詞性短語,其中W(名詞)>W(名詞性短語)>W(動詞),W代表詞權(quán)重。因此為避免噪音數(shù)據(jù)對改進專利文本相似度計算方法的影響,本文對專利數(shù)據(jù)進行處理時去除了其它詞性的詞匯。
IPC分類號是國際通用專利分類號,如果兩篇專利IPC分類號不一致則兩篇專利隸屬于不同的類別,那么就可假設(shè)它們之間的相似程度極低。權(quán)利要求書揭示了專利文本中需要受到法律保護的范圍,也是申請人在撰寫中篇幅最大描述最多的部分,是專利文本的核心。專利摘要是專利說明書內(nèi)容的概述,它指出了發(fā)明或?qū)嵱眯滦兔Q、主要技術(shù)特征和用途,描述了此專利所屬的技術(shù)領(lǐng)域、需要解決的技術(shù)問題等,因此在重要性上僅次于權(quán)利要求書。專利標(biāo)題是對整篇專利文本的高度概括,它一般僅說明了該專利發(fā)明的名稱,因此在本文介紹的專利文本相似度計算方法上給予較小的權(quán)重。綜上所述,詞匯在專利文本中不同部分出現(xiàn)其權(quán)重大小依次是:W(權(quán)利要求書)>W(摘要)>W(標(biāo)題),雖然IPC分類號中不包含詞匯,但是考慮IPC分類號的特殊性和重要性,在設(shè)置權(quán)重時給IPC分類號設(shè)置最大的權(quán)重。
詞權(quán)重的不同可以通過設(shè)置不同的詞頻基數(shù)來體現(xiàn),例如詞性為動詞的詞匯詞頻數(shù)等于該詞匯出現(xiàn)的實際次數(shù),而詞性為名詞性短語的詞匯詞頻數(shù)等于該詞匯出現(xiàn)的實際次數(shù)的3倍,同理,根據(jù)詞所在位置的不同在計算詞權(quán)重時也采用相同的計算方法。通過詞性和詞位置得到詞權(quán)重后需要再融入TF-IDF算法計算出最終的詞權(quán)重。
分布式詞向量最早是由Hinton提出的,其基本思想是:通過訓(xùn)練將文本中的每一個詞表示成固定長度的向量形式,將所有這些向量放在一起就組成一個詞向量空間,每一個詞即是該空間上的一個點,在空間上引入“距離”的概念,通過計算距離就可得到兩個詞之間的語義關(guān)系。Word2vec是將詞表示成分布式詞向量的一種常用工具,因此本文也是利用word2vec將專利數(shù)據(jù)和其它訓(xùn)練語料進行訓(xùn)練,最后得到維度為50的詞向量文件。在得到詞向量之后,通過余弦相似度公式計算詞向量x和y之間夾角,計算方法如式(1)
(1)
余弦值越大夾角越小,兩個詞向量語義信息越接近。
經(jīng)過以上操作,原始的專利文本數(shù)據(jù)P被轉(zhuǎn)化為向量空間中點的集合(k1,k2,k3,…,kn)T,其中ki為專利文本P的特征詞,n為專利文本P中含有的特征詞個數(shù)。經(jīng)過word2vec模型訓(xùn)練,每個特征詞對應(yīng)向量空間上的一個點,向量空間上的每個點可以表示成一個維度為50的向量形式(d1,d2,d3,…,d50)。雖然每個特征詞可由固定的50維的詞向量表示,但是不同的專利文本包含的特征詞個數(shù)不同,而且特征詞之間沒有明顯對應(yīng)關(guān)系,為解決這兩個問題,本文提出了改進的文本相似度計算方法
C(x,y)=cos(x,y)*W(x)*W(y)
(2)
(3)
其中,C(x,y)為兩個詞匯x和y語義信息計算公式,W(x)代表結(jié)合詞性、詞位置和TF-IDF算法得到的詞匯x的詞權(quán)重,S為兩個專利文本P1,P2的相似度計算公式,IPC1,IPC2分別代表專利文本P1,P2的IPC分類號,K1,K2分別代表專利文本P1,P2的特征詞集合,m,n分別代表特征詞集合K1,K2中的特征詞。根據(jù)式(3)得到的專利文本相似度大于某個閾值t時,則認(rèn)為兩篇專利相似,閾值t需要根據(jù)具體實驗進行設(shè)定。
從式(3)中可以看出如果兩篇專利文本IPC分類號不一致,則它們的相似度可以忽略不計。如果兩篇專利文本屬于同一IPC分類號,則式(3)中分子是由專利文本P1的特征詞分別和專利文本P2中的每個特征詞計算詞匯相似度,分母則是專利文本P1和P2的特征詞和其本身特征詞集合中的每個特征詞進行詞匯相似度的計算。通過公式可以看出無論兩篇專利文本特征詞數(shù)量是否一樣,最終都是將兩篇專利文本特征詞集合中的所有特征詞計算一遍詞匯相似度,而且這種計算方法也避免了一篇專利文本中的所有特征詞只與另外一篇文本中的某個或者少數(shù)特征詞有對應(yīng)關(guān)系。
本文所使用的專利文本是從國家知識產(chǎn)權(quán)局提供的ftp接口下載得到的,由于word2vec訓(xùn)練詞向量需要大量的語料,因此本文在訓(xùn)練過程中主要使用了118 931篇經(jīng)過預(yù)處理的專利文本和維基百科作為語料,并且最終得到281 345條維度為50的詞向量。
鑒于專利文本數(shù)量較大而且實驗中的專利文本都是經(jīng)過國家知識產(chǎn)權(quán)局審核且授權(quán)過的,因此可以大致認(rèn)為這些專利文本之間的相似度較低。本文在實驗開始前預(yù)先選好待比對的專利文本,通過人工修改(上下位關(guān)系詞替換,同義詞替換等)構(gòu)造相似專利文本。在選擇待比對的專利文本時,選擇IPC分類號為H04(電通信技術(shù))領(lǐng)域下面的5個小類,具體見表1,其中主題相關(guān)專利為同一IPC小類下面的專利數(shù)量。
表1 相關(guān)實驗數(shù)據(jù)
本文使用了自然語言處理領(lǐng)域常用的評價指標(biāo)準(zhǔn)確率和召回率作為評價標(biāo)準(zhǔn),結(jié)合表1中的數(shù)據(jù),計算準(zhǔn)確率和召回率時分別計算每一個IPC小類的準(zhǔn)確率Pi和召回率Ri,i∈(1,5),最后得到平均準(zhǔn)確率P和平均召回率R。準(zhǔn)確率Pi和召回率Ri的具體計算公式如式(4)和式(5)
(4)
(5)
在實驗過程中,利用本文提出的方法與其它兩種文本相似度計算方法作對比來驗證本文提出方法的有效性,第一種方法是只利用詞向量而不考慮專利文本結(jié)構(gòu)特點計算文本相似度,第二種方法是只考慮專利文本結(jié)構(gòu)特點而不使用詞向量計算文本相似度。針對表1中的5組實驗數(shù)據(jù)得到的文本相似度計算結(jié)果見表2。
表2 本文方法與該方法單獨特征項對比實驗結(jié)果
從計算結(jié)果可以看出,本文提出的方法從整體尤其是準(zhǔn)確率要遠優(yōu)于只使用詞向量或只考慮專利文本結(jié)構(gòu)特點的方法,而且不同方法不同實驗數(shù)據(jù)判定兩篇專利文本是否相似的閾值t也有所不同,這也說明了,判斷兩篇專利文本是否相似不能只取決于相似度值的大小,而是應(yīng)該通過相對值的大小來決定的。表2實驗結(jié)果是從本文提出的方法與該方法中單獨特征項做對比得到的,表3是本文提出的方法與傳統(tǒng)文本相似度計算方法的比較結(jié)果。
本文提出的方法綜合考慮專利文本的結(jié)構(gòu)特征和詞匯間的語義信息,表3中用于對比的兩種方法雖然都考慮了詞匯間語義關(guān)聯(lián)的問題,但是由于專利文本中含有一些生僻詞和專業(yè)術(shù)語,知網(wǎng)知識庫中包含大多是常用詞匯,因此相似度計算結(jié)果準(zhǔn)確率欠佳,而基于LDA模型的方法沒有考慮專利文本的特殊結(jié)構(gòu)特征。從表3可以看出,本文提出的方法要優(yōu)于基于LDA模型的方法和基于知網(wǎng)的方法,在與基于知網(wǎng)的方法作對比時,只有第二組數(shù)據(jù)的準(zhǔn)確率和召回率稍稍偏低,但從5組數(shù)據(jù)的平均準(zhǔn)確率召回率分析本文提出的方法略優(yōu)于基于知網(wǎng)的方法。綜上所述,本文提出的方法是有效可行的。
表3 本文方法與傳統(tǒng)方法對比實驗結(jié)果
本文提出了一種綜合考慮專利結(jié)構(gòu)特點和詞匯間語義關(guān)系的專利文本相似度計算方法。該方法將IPC分類號、摘要、權(quán)利要求書等專利文本特有的結(jié)構(gòu)融合到文本相似度計算方法當(dāng)中,與一般文本相似度計算方法相比更加具有針對性。本文通過word2vec計算詞匯間的語義關(guān)系,不僅能夠節(jié)省構(gòu)建領(lǐng)域知識庫所需花費的大量時間,而且還能保證較高的準(zhǔn)確率和召回率,同時又克服了傳統(tǒng)詞匹配方法中文本相似度大小主要取決于詞匯重復(fù)率的缺陷。實驗結(jié)果表明,本文提出的方法與傳統(tǒng)方法相比,在準(zhǔn)確率上有較大的提升。
專利文本中生僻詞較多而且通過word2vec計算詞匯間語義關(guān)系需要龐大的語料庫作為支持,因此在今后的工作中還需要繼續(xù)擴充訓(xùn)練語料來提高語義相似度的準(zhǔn)確率,此外,特征詞的準(zhǔn)確與否對于專利文本相似度計算具有至關(guān)重要的作用,因此下一步將以特征詞抽取方法的改進作為研究重點。