劉 偉,楊尚偉,林晨煒,萬(wàn)昀燁,陳善雄
(1.重慶摩托車(chē)(汽車(chē))知識(shí)產(chǎn)權(quán)信息中心,重慶 400023;2.西南大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400715)
近年來(lái),專利數(shù)量增長(zhǎng)幅度較大,一個(gè)可以高效挖掘研究人員所感興趣信息的推薦算法能節(jié)省研究人員大量的時(shí)間。目前,在工業(yè)領(lǐng)域,專利推薦算法主要分為以下幾類:(1)基于內(nèi)容的推薦[1],該推薦算法雖然易于理解,但也有無(wú)法充分利用專利文本內(nèi)容的缺點(diǎn)。(2)基于協(xié)同過(guò)濾的算法[2],其優(yōu)點(diǎn)為能夠挖掘出有相同偏好的數(shù)據(jù)集[3],但在數(shù)據(jù)不足的情況下時(shí)會(huì)面臨著精準(zhǔn)度較低的問(wèn)題。(3)基于模型的推薦算法,它能夠較為有效的解決數(shù)據(jù)稀疏的問(wèn)題,但卻無(wú)法對(duì)廣泛的用戶需求做出實(shí)時(shí)且動(dòng)態(tài)的分析處理。
為了解決上述推薦算法中的問(wèn)題,本文提出了一種基于主題分類與語(yǔ)義相似度的專利推薦算法:通過(guò)神經(jīng)網(wǎng)絡(luò)Bert和DBSCAN聚類方法根據(jù)專利標(biāo)題和摘要獲取專利主題類別集;再結(jié)合SimNet網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建語(yǔ)義相似度匹配模型,并進(jìn)行訓(xùn)練構(gòu)建模型,查找專利間的相關(guān)關(guān)系;最后在構(gòu)建的模型中輸入所述興趣標(biāo)簽,獲取專利文本與所述興趣標(biāo)簽的相似度,并進(jìn)行TOP-K推薦。整體來(lái)看,該算法充分利用專利內(nèi)容和專利間的關(guān)系,提高了專利文本相似度的準(zhǔn)確性,從而做出更為合理的專利推薦。
Bert(Bidirectional Encoder Representation from Transformers)網(wǎng)絡(luò)模型是谷歌于2018年10月提出的一種預(yù)訓(xùn)練語(yǔ)言表示方法,該模型的架構(gòu)是多項(xiàng)雙層的 Transformer編碼器,從而更好地關(guān)聯(lián)字左右兩側(cè)的上下文,并通過(guò)所有層的左、右語(yǔ)境預(yù)訓(xùn)練深度雙向特征。Bert作為第一個(gè)用在預(yù)訓(xùn)練自然語(yǔ)言處理上的無(wú)監(jiān)督、深度雙向系統(tǒng),在自然語(yǔ)言處理的多項(xiàng)任務(wù)中表現(xiàn)卓越。與傳統(tǒng)的詞向量表示模型word2vec,ELMo相比,BRT詞向量能夠根據(jù)上下文信息獲取更為豐富的詞語(yǔ)語(yǔ)義特征,能獲得更好的詞向量表示,較大地提高了如自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)任務(wù)的效果。
TF-IDF(Term Frequency-inverse Document Frequency)是一種針對(duì)關(guān)鍵詞的統(tǒng)計(jì)分析方法,其目的在于評(píng)估一個(gè)詞對(duì)一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)的重要程度[4]。TF-IDF的值與單詞在文本中出現(xiàn)的次數(shù)成正比,與被包含該單詞的語(yǔ)料庫(kù)數(shù)量成反比。這種計(jì)算方式能有效避免常用詞對(duì)關(guān)鍵詞的影響[5],TF-IDF由詞語(yǔ)頻率和逆文檔頻率兩個(gè)統(tǒng)計(jì)量組成。
其中,詞語(yǔ)頻率tf(t,d)和逆文檔頻率idf(t,D)表示為:
其中tft,d為詞語(yǔ)t在文檔d中出現(xiàn)的次數(shù),D為語(yǔ)料庫(kù)整體,nt為語(yǔ)料庫(kù)D中詞語(yǔ)t出現(xiàn)的文檔的個(gè)數(shù),N為語(yǔ)料庫(kù)中的文檔總數(shù)。
TF-IDF定義為詞語(yǔ)頻率和逆文檔頻率的乘積:
由此看出,TF-IDF值越高,代表此詞越能反映該專利文本的特性。
SimNet是一個(gè)計(jì)算短文本相似度的模型,它可以根據(jù)用戶輸入的兩個(gè)文本,計(jì)算出相似度得分。其中,SimNet框架由三部分構(gòu)成:
(1)輸入層。將輸入樣本轉(zhuǎn)化為模型可以處理的向量表示法。
(2)表示層。主要目的在于將孤立的詞向量轉(zhuǎn)換為一個(gè)富有全局信息的句子向量。
(3)匹配層。根據(jù)表示層輸出的兩個(gè)句子向量,通過(guò)計(jì)算余弦相似度,產(chǎn)出匹配得分。
SimNet在深度學(xué)習(xí)框架下對(duì)語(yǔ)義匹配問(wèn)題實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)建模。在語(yǔ)義表示上使用分散式連續(xù)向量的表示方法,實(shí)現(xiàn)將詞語(yǔ)的詞向量表示與句篇的語(yǔ)義表示、語(yǔ)義的向量表示與匹配度計(jì)算、文本對(duì)的匹配度計(jì)算全部統(tǒng)一在一個(gè)整體框架內(nèi),實(shí)現(xiàn)了可完全取代基于字面匹配的策略,其效果往往能顯著超越主題模型類的算法效果。
本文提出了一種基于主題分類和語(yǔ)義相似度的專利推薦算法。該算法通過(guò)自建專利詞典與分詞技術(shù)獲取專利摘要及標(biāo)題的核心詞,并將分詞后的專利數(shù)據(jù)放入訓(xùn)練好的網(wǎng)絡(luò)模型中進(jìn)行分類及相似度計(jì)算,最后通過(guò)專利領(lǐng)域主題數(shù)獲取每個(gè)主題的核心詞分布及排序,在此之下構(gòu)建主題召回列表,以同類下文本相似度進(jìn)行專利推薦,算法的具體流程如下:
(1)通過(guò)用戶的歷史搜索記錄、點(diǎn)擊記錄或設(shè)定的興趣領(lǐng)域構(gòu)建用戶的興趣標(biāo)簽。
(2)通過(guò)詞頻-逆向文件頻率算法對(duì)專利數(shù)據(jù)集中的專利文件提取關(guān)鍵詞,獲取專利關(guān)鍵詞數(shù)據(jù)庫(kù)。使用TF-IDF算法來(lái)處理專利文本,對(duì)于任何一個(gè)專利文本,首先分別統(tǒng)計(jì)所述專利說(shuō)明書(shū)摘要和發(fā)明名稱中所有詞語(yǔ)在各個(gè)專利文本中出現(xiàn)的次數(shù),作為模型的輸入?yún)?shù);其次通過(guò)TF-IDF算法,使用公式(1),(2)進(jìn)行詞語(yǔ)的權(quán)值計(jì)算,權(quán)值越大,證明該詞越能反映專利文本的特性的程度越高;最后根據(jù)權(quán)值由大到小對(duì)詞語(yǔ)進(jìn)行排序,將排序在前列的詞語(yǔ)認(rèn)定為關(guān)鍵詞,即可形成該專利文檔專利關(guān)鍵詞數(shù)據(jù)集。
(3)構(gòu)建專利主題類別集需要將專利文檔中關(guān)鍵詞轉(zhuǎn)換為詞向量。Bert作為一種無(wú)監(jiān)督方法,在無(wú)人工參與的情況下,利用開(kāi)源庫(kù)可對(duì)多個(gè)專利關(guān)鍵詞進(jìn)行詞向量轉(zhuǎn)換,轉(zhuǎn)換內(nèi)容包括利用所述開(kāi)源詞向量庫(kù)査詢每個(gè)專利關(guān)鍵詞對(duì)應(yīng)的詞向量,構(gòu)建關(guān)鍵詞ID映射表、專利關(guān)鍵詞列表和關(guān)鍵詞詞向量映射表。
(4)對(duì)專利關(guān)鍵詞進(jìn)行DBSCAN聚類算法分析處理,構(gòu)建專利主題類別集。在使用Bert模型獲取所有專利關(guān)鍵詞對(duì)應(yīng)的詞向量樣本后,使用DBSCAN聚類算法對(duì)專利文本類別進(jìn)行分析。
(5)采用SimNet網(wǎng)絡(luò)解決文本匹配任務(wù)。SimNet是一個(gè)計(jì)算短文本相似度的模型,可以根據(jù)用戶輸入的兩個(gè)文本,計(jì)算出相似度得分,其中,SimNet網(wǎng)絡(luò)結(jié)構(gòu)采用余弦相似度計(jì)算興趣標(biāo)簽與所述專利主題類別中的所有專利文本的相似度,余弦相似度的計(jì)算公式為:
其中,A,B代表經(jīng)過(guò)表示層后提取的文本向量,Ai,Bi代表向量A和B的各分量。
(6)在訓(xùn)練好的語(yǔ)義相似度匹配模型中輸入興趣標(biāo)簽,在經(jīng)過(guò)表示層的訓(xùn)練擬合之后,使用余弦相似度來(lái)計(jì)算短文本(用戶興趣標(biāo)簽文本)—長(zhǎng)文本(注意領(lǐng)域內(nèi)專利文本及摘要)之間的匹配程度,并根據(jù)相似度的高低對(duì)專利文本進(jìn)行TOP-K推薦。
本文通過(guò)在線檢索的方式獲得實(shí)驗(yàn)所需的專利數(shù)據(jù)。在專利的在線檢索過(guò)程中,一個(gè)合適的專利檢索式是能夠準(zhǔn)確快速的獲得相應(yīng)的專利的最佳方法,針對(duì)專利檢索式的獲取,參考艾楚涵[6]中的專利獲取方法,專利領(lǐng)域?yàn)槲锪黝I(lǐng)域,采取的檢索式為:
TI=(物流 or 運(yùn)輸 or 倉(cāng)儲(chǔ) or 庫(kù)存 or 裝卸 or 搬運(yùn) or 流通加工 or 配送 or 信息平臺(tái) or 郵政 or 分揀 or 保管 or 鐵路 or 公路 or 水運(yùn) or 航空 or 管道 or 貨運(yùn) or 裝運(yùn) or 空運(yùn)……)
在對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,剔除不符合研究領(lǐng)域、重復(fù)的專利數(shù)據(jù)后,針對(duì)分詞方法的選擇,使用當(dāng)下較為流行的分詞開(kāi)源工具對(duì)10篇隨機(jī)選取的專利文本摘要后進(jìn)行測(cè)試,其中準(zhǔn)確率公式如公式(4),采用jieba分詞工具。
根據(jù)分析,對(duì)于DBSCAN算法中最優(yōu)的算法參數(shù)的選定,參考夏云[7]等人在文中提出的確定最佳參數(shù)的算法,確定鄰域半徑ε=120 m,簇最小點(diǎn)數(shù)MinPts=16,Bert預(yù)訓(xùn)練模型的語(yǔ)料文件為google提供的bert-base-chinese,SimNet網(wǎng)絡(luò)結(jié)構(gòu)中使用余弦相似度進(jìn)行計(jì)算。此外,因缺少用戶的搜索歷史,因此篩選出擁有至少10條發(fā)明專利的發(fā)明人,然后提取他們發(fā)明專利標(biāo)題和摘要中的關(guān)鍵詞作為興趣標(biāo)簽,構(gòu)建發(fā)明人集合作為測(cè)試用戶。
在對(duì)據(jù)進(jìn)行預(yù)處理后,對(duì)3種推薦算法的有效性進(jìn)行了測(cè)評(píng):方案1為使用傳統(tǒng)協(xié)同過(guò)濾方法計(jì)算待推薦專利和用戶間的相似度;方案2為利用LDA生成項(xiàng)目主題相似度的協(xié)同過(guò)濾算法LDA- item;方案3為本文提出的基于主題分類與語(yǔ)義相似度的專利推薦,所有方案中均使用了根據(jù)TD-IDF算法得到的詞向量信息。
本文使用了TOP-K推薦的專利中涉及的主題和用戶自身研究主題是否相同來(lái)判斷推薦結(jié)果好壞,將推薦的結(jié)果分為優(yōu)質(zhì)、一般和無(wú)關(guān)3個(gè)等級(jí),并使用發(fā)明人集合作為測(cè)試用戶,推薦結(jié)果好壞判定如下:
其中,p為經(jīng)過(guò)TOP-K推薦后為用戶ui推薦的專利。好的推薦結(jié)果需要用戶的興趣與推薦的專利擁有相同主題;對(duì)于處于不同主題,但是專利間的相似度大于0.1的,視為一般的推薦結(jié)果,其余的則為無(wú)關(guān)推薦(見(jiàn)表1)。
表1 不同方案的推薦結(jié)果
與其他方案相比,本文提出的基于主題分類與語(yǔ)義相似度的專利推薦算法的推薦結(jié)果在3個(gè)等級(jí)上都有明顯的進(jìn)步,其中,傳統(tǒng)協(xié)同過(guò)濾方法的結(jié)果最差。較于LDA- item算法,相關(guān)(優(yōu)質(zhì)推薦與一般推薦之和)的專利推薦準(zhǔn)確率提高了 4.2%,優(yōu)質(zhì)推薦占比提高了7.5個(gè)百分點(diǎn),證明這些專利都能被準(zhǔn)確地推薦給研究領(lǐng)域在同一類別的發(fā)明人;而無(wú)關(guān)推薦的結(jié)果僅為17.4%,在無(wú)法找到領(lǐng)域十分符合的發(fā)明人時(shí),也將專利推薦給研究?jī)?nèi)容更加相近的發(fā)明人。
本文使用詞頻-逆向文件頻率算法對(duì)專利數(shù)據(jù)集中的專利文件提取關(guān)鍵詞,獲取專利關(guān)鍵詞數(shù)據(jù)庫(kù),提高了關(guān)鍵詞與專利文本之間的相關(guān)性,并通過(guò)構(gòu)建專利主題類別集,結(jié)合SimNet網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建語(yǔ)義相似度匹配模型,解決了專利推薦系統(tǒng)冷啟動(dòng)及數(shù)據(jù)稀疏矩陣的問(wèn)題,能夠進(jìn)行專利文本內(nèi)容的語(yǔ)義分析,提高了匹配模型的泛化能力,從而達(dá)到精準(zhǔn)推薦的效果。