李振宇,戰(zhàn)洪飛,余軍合,王 瑞,鄧慧君
1.寧波大學 機械工程與力學學院,浙江 寧波 315211
2.寧波大學 信息科學與工程學院,浙江 寧波 315211
隨著經(jīng)濟全球化的發(fā)展,市場環(huán)境動態(tài)多變,企業(yè)之間的競爭日益激烈。面對激烈的市場競爭,企業(yè)創(chuàng)新設(shè)計能力已成為決定企業(yè)競爭是否占優(yōu)的關(guān)鍵,企業(yè)需要不斷提高自己的創(chuàng)新能力來提升自身的核心競爭力。產(chǎn)品創(chuàng)新設(shè)計是一個創(chuàng)新密集型過程,需要大量的知識和設(shè)計經(jīng)驗[1]。在產(chǎn)品創(chuàng)新設(shè)計過程中,知識重用和重組已被證明是創(chuàng)新的主要來源[2],但如今的知識重用研究主要集中在同一應用領(lǐng)域設(shè)計知識的重用。然而其他應用領(lǐng)域的知識往往更好解決產(chǎn)品創(chuàng)新中的問題,從各種各樣的領(lǐng)域汲取靈感進行創(chuàng)新設(shè)計正成為一種趨勢。因此,研究如何利用多領(lǐng)域知識進行產(chǎn)品創(chuàng)新具有巨大的現(xiàn)實意義。
專利知識包含了各個應用領(lǐng)域最新的技術(shù)和研究成果,許多學者使用詞頻統(tǒng)計、機器學習、深度學習三種方法分析專利中的知識來輔助產(chǎn)品創(chuàng)新設(shè)計。其中基于詞頻統(tǒng)計和機器學習的研究有梁艷紅等人[3]基于發(fā)明問題解決理論(TRIZ)提取專利中產(chǎn)品創(chuàng)新知識。Yoon等人[4]利用線性判別式分析算法提取專利主題,并根據(jù)協(xié)同過濾算法識別潛在競爭對手,以此輔助產(chǎn)品設(shè)計。陳憶群等人[5]利用支持向量機(SVM)算法將關(guān)鍵詞抽取轉(zhuǎn)化為分類問題提取關(guān)鍵詞。林園園等人[6]構(gòu)建功能-原理-結(jié)構(gòu)模型,使用K均值聚類算法(K-means)對專利進行聚類,實現(xiàn)推薦相關(guān)的專利組合方案給產(chǎn)品設(shè)計者。Chen等人[7]提出了一種結(jié)構(gòu)函數(shù)式知識抽取方法,識別包含結(jié)構(gòu)和功能的潛在知識。劉龍繁等人[8]提出一種使用樸素貝葉斯算法(Naive Bayes),以功能基為分類標準的專利分類方法,為設(shè)計者提供相關(guān)專利知識。但基于統(tǒng)計詞頻以及共現(xiàn)的方法只能統(tǒng)計專利的顯性信息,對產(chǎn)品創(chuàng)新提供幫助較小,機器學習方法抽取知識較為片面且精度不高、效率較低。而深度學習可以解決以上問題,可以抽取專利實現(xiàn)的功能效果,為產(chǎn)品創(chuàng)新設(shè)計提供類似的成功案例。例如董文斌等人[9]利用BERT-BiLSTM-CRF算法識別專利中的功能、原理、結(jié)構(gòu)三類實體,并提取實體之間的關(guān)系,構(gòu)建專利知識結(jié)構(gòu)模型。Chen等人[10]預先定義實體類型和語義關(guān)系庫,提出一種利用BiGRU-HAN算法的專利知識提取框架。張盤龍[11]利用實體識別算法構(gòu)建專利知識圖譜進行專利推薦。但現(xiàn)有的深度學習研究大多缺乏對專利知識應用情境和專利技術(shù)原理的深入分析,因而無法有效解決跨領(lǐng)域推薦專利的準確性。
除此之外,專利數(shù)量呈指數(shù)級上漲,并非所有專利都具有同等重要的創(chuàng)新意義[12],有必要為設(shè)計師評估檢索到的專利。劉勤等人[13]采用熵權(quán)法對專利特征、發(fā)明人特征及權(quán)力人特征進行賦權(quán),構(gòu)建專利價值評估模型。Verhoeven等人[14]使用IPC分類號和引用信息來衡量技術(shù)的新穎性。李欣等人[15]選取專利技術(shù)、經(jīng)濟、法律和主體四大維度,運用機器學習方法對專利質(zhì)量進行評估。但大多數(shù)研究僅用一個指標對專利進行評估,缺乏從多個角度評估專利創(chuàng)新價值。
基于以上問題,本文提出一種基于深度學習的專利知識推薦模型,從文本分類的角度提取專利的功能信息。其次,利用深度學習算法提取情境、技術(shù)屬性,結(jié)合IPC分類號信息,生成專利知識空間。為滿足設(shè)計者不同的知識需求,提出技術(shù)成熟性,新穎性和可擴展性三種評價指標,以向設(shè)計者推薦其他領(lǐng)域?qū)@R,激發(fā)設(shè)計者創(chuàng)造更多的創(chuàng)新設(shè)計理念。
目前,由于出色的表示學習能力,深度學習在自然語言處理領(lǐng)域取得了巨大的成功,許多學者致力于利用深度學習提取專利中的隱形知識,主要分為專利知識提取、專利知識推薦、專利評估及演化三個方向。文獻[10]、[16]利用實體識別算法提取專利中的技術(shù)術(shù)語,構(gòu)建了專利知識提取框架,方便使用者更快地理解專利。文獻[9]、[11]、[17]在專利知識提取框架的基礎(chǔ)上,提取專利的功能、技術(shù)等知識構(gòu)建專利知識圖譜,推薦合適的專利輔助產(chǎn)品創(chuàng)新。文獻[18]、[19]利用深度學習構(gòu)建專利相似性網(wǎng)絡(luò),根據(jù)技術(shù)進行專利聚類,判斷專利技術(shù)的潛在價值,準確地預測新興技術(shù),為未來技術(shù)發(fā)展提供方向。
從現(xiàn)有研究成果來看,當前的專利知識研究主要集中在當前領(lǐng)域知識推薦的準確性,忽略了知識的多樣性,即其他領(lǐng)域的專利知識。而其他領(lǐng)域的知識往往更好地解決當前的設(shè)計問題。因此本文對專利知識情境進行深入分析,解決產(chǎn)品創(chuàng)新設(shè)計的多樣性知識需求,提高專利知識推送質(zhì)量、增強企業(yè)創(chuàng)新能力和競爭能力。
在產(chǎn)品設(shè)計中,設(shè)計者通過知識重用和重組來解決設(shè)計問題。專利作為包含大多數(shù)應用領(lǐng)域知識的重要知識資源,可以幫助設(shè)計者完成各種設(shè)計任務(wù)。其中產(chǎn)品是由功能和功能承載結(jié)構(gòu)所組成的系統(tǒng),功能分析貫穿產(chǎn)品設(shè)計的整個過程。將設(shè)計問題抽象解釋為功能需求問題可以在任何領(lǐng)域中使用,但通過功能檢索到的專利通常大量重復或者相似,設(shè)計者仍需要花費大量時間去尋找和理解檢索到的所有專利,最終找到合適的專利。不同的知識具有不同的應用情境[20],在特定情境下其他領(lǐng)域知識才可以發(fā)揮效用。此外,不同的專利文本具有不同的技術(shù)成熟性和新穎性,這對不同的設(shè)計者有著不同的啟發(fā)性影響。因此,本文提出一種基于深度學習的專利知識推薦模型,它可以推薦其他應用領(lǐng)域的專利知識,實現(xiàn)了跨領(lǐng)域的知識遷移。
跨領(lǐng)域?qū)@R推薦模型框架如圖1所示。設(shè)計問題經(jīng)過問題表征被描述為功能需求,并描述當前知識需求情境,對功能進行建模并分解為三層功能結(jié)構(gòu),根據(jù)功能基和需求情境將其解釋為設(shè)計問題空間。由于專利文獻為半結(jié)構(gòu)化數(shù)據(jù),閱讀專利全文獲取知識需要花費高昂的時間成本、人力成本等。于是本文提出一種TG-TCI(two granularity-three classifier integration)半監(jiān)督文本分類算法從文本分類的角度提取專利的功能信息,分別從字符級(BERT)和詞語級(Word2vec)對專利文本進行特征向量表示,可以有效解決專利文本中一詞多義、歧義等現(xiàn)象。并集成支持向量機(SVM)、貝葉斯(Naive Bayes)、K近鄰分類(KNN)三種不同基分類器的優(yōu)點,提高專利功能分類的準確性。采用BERTBiLSTM-CRF實體識別算法從專利說明書中自動提取專利的知識應用情境、技術(shù)術(shù)語,實現(xiàn)使用計算機自動提取專利知識,降低人力成本和研發(fā)時間。結(jié)合IPC分類號信息分別代表專利的功能、情境、技術(shù)、領(lǐng)域?qū)傩?,?gòu)成專利知識空間。其推薦過程如圖1所示,首先根據(jù)功能基和知識情境實現(xiàn)設(shè)計問題空間到專利知識空間的映射,搜索相關(guān)專利。其次,檢索后的專利通過技術(shù)術(shù)語將實現(xiàn)同一功能并技術(shù)手段相似的專利采用K-means算法進行聚類,形成專利技術(shù)集群,之后設(shè)計者根據(jù)設(shè)計需求選擇相應的評估指標通過IPC信息對專利技術(shù)集群進行評估和排序。最后,向設(shè)計者推薦三層呈現(xiàn)的專利知識信息,以激發(fā)設(shè)計者的創(chuàng)新思維,進行新產(chǎn)品概念設(shè)計中的知識轉(zhuǎn)移。必要的是,需要定時從專利網(wǎng)站中搜尋專利文本,通過上述知識抽取過程,將這些專利文本存儲在本地專利數(shù)據(jù)庫中,以便可以實時更新專利知識空間。
圖1 基于深度學習的專利知識推薦模型框架Fig.1 Patent knowledge recommendation model framework based on deep learning
當前設(shè)計者搜尋專利由于受到自身知識經(jīng)驗和專利的分類體系(IPC)的約束,只能找到本專業(yè)或本領(lǐng)域的專利文獻。從產(chǎn)品創(chuàng)新角度來說,其他領(lǐng)域知識往往更好激發(fā)設(shè)計者的創(chuàng)新思維,因為不同領(lǐng)域的產(chǎn)品設(shè)計問題,可能會采用相似的技術(shù)方案。因此,本文將功能基和知識情境引入產(chǎn)品設(shè)計流程中,來為設(shè)計者提供跨領(lǐng)域?qū)@R,輔助產(chǎn)品創(chuàng)新設(shè)計,其產(chǎn)品設(shè)計流程對比如圖2所示。
圖2 產(chǎn)品設(shè)計流程對比圖Fig.2 Product design process comparison chart
在引入功能基和知識情境之前,設(shè)計者由于自身知識的不足影響了功能層與原理解層的映射,從而限制了產(chǎn)品概念方案的生成。通過引入功能基和知識情境方便設(shè)計過程信息的表達,建立了統(tǒng)一的表達標準。由于功能基高度抽象,可以突破功能應用領(lǐng)域的限制,并根據(jù)知識應用情境的匹配程度對其他領(lǐng)域知識進行篩選,獲得更多創(chuàng)新解決方案。
產(chǎn)品創(chuàng)新設(shè)計是復雜的思維活動,設(shè)計問題求解可以理解為“發(fā)掘設(shè)計問題與已有知識之間的相關(guān)性,并進行知識的遷移和組合”的過程[21]。功能是產(chǎn)品的核心要素,而產(chǎn)品創(chuàng)新設(shè)計的核心是知識從一種情境轉(zhuǎn)換到另一種情境[21]。通過對設(shè)計問題的功能需求和知識需求情境的問題表征,將設(shè)計問題進行標準化表達,可以得到產(chǎn)品的功能結(jié)構(gòu)模型和知識情境模型,同時形成設(shè)計問題空間。設(shè)計者利用功能基和知識情境檢索專利知識庫中已有的解決方案和知識,并將其與當前的設(shè)計問題進行類比,以生成新的設(shè)計方案。
3.2.1 功能建模
產(chǎn)品設(shè)計的本質(zhì)是設(shè)計具有特定功能、滿足特定設(shè)計要求的產(chǎn)品。產(chǎn)品建模是產(chǎn)品設(shè)計的基礎(chǔ),功能建模是產(chǎn)品設(shè)計的首要任務(wù)。為了對功能進行統(tǒng)一的表達,Stone等人[22]提出了功能基(functional base)的概念,采用“元功能+流”的表示形式。Hirtz等人[23]整合并統(tǒng)一了元功能和流的分類,建立了功能基的標準詞典。但該詞典創(chuàng)建距今已經(jīng)十多年時間,不能很好地適用于當前的設(shè)計活動。為此,本文根據(jù)TRIZ功能分析理論,提出一種采用“動作+對象”描述功能,如圖3所示,“動作”描述了功能的作用方式,“對象”描述工作的對象。其中動作包括導向、聚集、轉(zhuǎn)換、連接、感知、調(diào)節(jié)、分離、供應、支持九個一級功能類別,結(jié)合Hirtz對流的分析進一步細化為39個二級功能類別與234個三級功能類別。表1顯示了一個功能基的實例,設(shè)計者可以選擇合適的功能基來定義任何產(chǎn)品的功能。由于功能基高度抽象,使用功能基表示設(shè)計問題的功能需求可以在任何領(lǐng)域中使用。
圖3 功能基的結(jié)構(gòu)Fig.3 Functional base structure
表1 功能基的實例Table 1 Functional base instance
3.2.2 知識情境建模
基于功能基向設(shè)計者推薦其他領(lǐng)域?qū)@R時,大量跨領(lǐng)域?qū)@麧M足當前功能需求,檢索結(jié)果冗余度高,無法滿足知識推薦的準確性。然而知識的產(chǎn)生和應用都具有特定的背景和環(huán)境[20],知識情境可以視為知識應用的限定條件,是知識共享和知識重用的重要基礎(chǔ),能夠有效解決基于功能基檢索后的專利知識過載問題[24]。通過對設(shè)計問題和知識主體之間的情境匹配度計算將極大地提高設(shè)計者知識檢索的效率,進而縮短產(chǎn)品創(chuàng)新設(shè)計的開發(fā)周期,提高創(chuàng)新質(zhì)量。為此,本文建立一個可擴展的知識情境模型,用以判斷其他領(lǐng)域知識解決當前設(shè)計問題的可行性。
在產(chǎn)品設(shè)計過程中,根據(jù)5W1H分析法可得知識情境就是描述當前的設(shè)計者的5W1H信息(Who、What、Where、When、Why、How),即設(shè)計者在某一時間某一地點用某種方法從事當前的設(shè)計活動。但僅這六個維度可能造成設(shè)計需求識別不完整,降低工作效率。因此,本文以設(shè)計過程為線索,結(jié)合5W1H分析法將知識情境維度進行提煉,構(gòu)建知識情境模型,形式化表達為:知識情境={問題、任務(wù)、設(shè)計過程、設(shè)計執(zhí)行者、設(shè)計活動、設(shè)計對象、知識資源、地點、時間},其中設(shè)計執(zhí)行的時間和地理位置和在設(shè)計活動中沒有實際意義,本文將產(chǎn)品的業(yè)務(wù)周期作為時間維度,產(chǎn)品工作時的應用地點作為地點維度。具體維度釋義如表2所示。
表2 知識情境維度含義及說明Table 2 Knowledge situation dimension meaning and explain
知識情境各維度之間存在著緊密的聯(lián)系,知識情境交互關(guān)系模型如圖4所示。問題維度、任務(wù)維度、知識執(zhí)行者維度以及設(shè)計活動維度之間存在相互傳遞轉(zhuǎn)換關(guān)系:設(shè)計問題分解成多個任務(wù)目標;任務(wù)目標由設(shè)計活動實現(xiàn);設(shè)計活動由相關(guān)部門和組織組成的設(shè)計執(zhí)行者全權(quán)負責;并且在設(shè)計活動維度中,時間和地點兩個維度是設(shè)計活動執(zhí)行的條件限制,設(shè)計活動使用相應的知識資源驅(qū)動設(shè)計過程的執(zhí)行。在知識執(zhí)行者維度中,知識員工存在于各個業(yè)務(wù)執(zhí)行組織,在特定的設(shè)計活動中具備一定的求解技能、求解經(jīng)驗以及對應的執(zhí)行職位。需要說明的一點是,本文列出了知識情境的主要維度,企業(yè)在實際應用時需根據(jù)自身的業(yè)務(wù)特點和業(yè)務(wù)數(shù)據(jù)進行維度的擴展和細化。
圖4 知識情境多維度交互關(guān)系模型Fig.4 Knowledge situation multi-dimensional interaction model
專利知識是創(chuàng)新的重要資源,有效地整合產(chǎn)品創(chuàng)新所需的專利知識資源方便企業(yè)創(chuàng)新人員對相關(guān)專利知識的檢索和利用[25]。密阮建馳等人[26]提出知識應與情境相結(jié)合,以方便設(shè)計者更全面地理解知識,促進知識之間的共享和重用。為此,本文將情境化設(shè)計引入FBS模型,構(gòu)建功能描述層、技術(shù)描述層、詳細描述層三層知識表示結(jié)構(gòu),形成專利知識空間,如圖5所示。功能描述層體現(xiàn)了專利發(fā)明人的主觀意愿,是產(chǎn)品的最終目的。技術(shù)描述層包括情境屬性、技術(shù)屬性、領(lǐng)域?qū)傩?,分別由專利應用情境、技術(shù)術(shù)詞、IPC分類號信息組成,方便設(shè)計者更快速理解專利的應用場景和所使用的技術(shù)。詳細描述層包含專利中的具體實施方式和專利顯性信息。該專利知識空間模型從左到右的知識抽象程度逐漸減少,較高抽象的知識更容易進行知識轉(zhuǎn)移,利于設(shè)計者從多個角度理解專利知識。
圖5 專利知識表示模型Fig.5 Patent knowledge representation model
3.3.1 功能描述層
定義1功能描述層是指利用功能基的層次結(jié)構(gòu)表示專利的功能信息。
其中,p代表專利,F(xiàn)B1、FB2、FB3分別代表專利功能的第一類別、第二類別、第三類別。
專利中的摘要可分為目的、方法、結(jié)論三個部分,目的和結(jié)論體現(xiàn)了專利的主要目標,可以表示專利主要實現(xiàn)的功能。本文使用專利摘要數(shù)據(jù),根據(jù)功能基對專利進行分類和標注,將專利分為三層功能類別。但人工標注費時費力,于是本文從文本分類的角度實現(xiàn)計算機自動提取專利的功能信息。目前文本分類主要分為半監(jiān)督學習和有監(jiān)督學習。有監(jiān)督學習需要大量人工標注數(shù)據(jù),專利數(shù)據(jù)專業(yè)性強,進行人工標注需要消耗大量的時間成本。傳統(tǒng)的半監(jiān)督算法可以利用少量的標注數(shù)據(jù)和大量的未標注數(shù)據(jù)進行文本分類,但專利術(shù)語專業(yè)性強,存在一詞多義現(xiàn)象,使用未標注數(shù)據(jù)會影響分類器性能,影響準確率。
為此,本文提出一種TG-TCI(two granularity-three classifier integration)半監(jiān)督文本分類算法,同時引入基于分歧思想(disagreement-based methods,DBM)和集成學習(co-training)兩個方向同時對半監(jiān)督文本分類方法進行改進,采用BERT和Word2vec構(gòu)建雙通道語言模型,加大專利樣本之間的分歧,并對KNN、SVM、Naive Bayes三種分類器進行集成,既可以發(fā)揮數(shù)據(jù)集多空間特征的優(yōu)勢,又可以集成各分類器的優(yōu)點,提高專利功能分類的準確性。分類過程主要包括專利數(shù)據(jù)集準備、專利特征抽取、訓練,其功能信息提取流程圖如圖6所示。
圖6 功能信息提取流程圖Fig.6 Function information extraction flowchart
3.3.1.1 專利數(shù)據(jù)集準備
本文從商業(yè)專利數(shù)據(jù)網(wǎng)站(incopat)獲取有效發(fā)明專利文獻,選擇“標題+摘要”作為專利信息的代表進行實驗,專家組根據(jù)功能基對專利文本進行人工標注和分類,將專利文獻分為測試樣本、訓練樣本和待分類樣本三個部分,以進行專利功能提取。
3.3.1.2 專利特征抽取
采用jieba分詞對專利原始文本進行預處理。對專利進行文本清理、分詞、去停用詞,形成計算機可理解的結(jié)構(gòu)化形式,提高專利功能分類的效率和質(zhì)量。
由于在中文文本中,字和詞是最主要的兩個粒度,所以TG-TCI模型利用BERT構(gòu)建字符級的專利文本特征,利用Word2vec構(gòu)建詞語級的專利文本特征。Word2vec模型有CBOW和Skip-gram兩種訓練模式,由于本實驗使用的數(shù)據(jù)集較小,Skip-gram模式一個中心詞可以預測多個周圍詞,在小數(shù)據(jù)集也能取得較好的效果,于是選擇Skip-gram模型構(gòu)建詞語級特征訓練。將雙通道的向量作為基分類器的輸入,如公式(2)所示:
yi為專利功能類別,f為分類函數(shù),x1、x2分別為BERT和Word2vec兩種模式訓練下的特征向量。這樣的文本特征向量表示可以讓模型學習到不同粒度上的特征,使TG-TCI模型比傳統(tǒng)半監(jiān)督分類模型學習更多的信息。
3.3.1.3 基分類器訓練
(1)基分類器的選擇
目前機器學習領(lǐng)域有多種分類器。其中SVM在二分類問題效果顯著,可以有效解決數(shù)據(jù)分布不均的問題,但在多分類問題和高維度情況下效果不佳,求解較慢。KNN算法準確率高,對異常點不敏感,但在小樣本集中易出現(xiàn)誤分類情況。Naive Bayes可以處理多分類問題,并且過程簡單速度快,在小樣本集中有著很好的效果,為了保證TG-TCI算法的分類速度、多分類情況的準確性、不同樣本維度和不同規(guī)模樣本集的適應性,因此本文選擇SVM、Naive Bayes、KNN3個基分類器,將這三種分類器集成,發(fā)揮各分類器的分類優(yōu)勢。
其中SVM算法是一種在一個多維數(shù)據(jù)空間中通過尋找最優(yōu)分離超平面,將數(shù)據(jù)映射到高維空間,將數(shù)據(jù)分成兩類,實現(xiàn)文本的高效分類的算法。其中核函數(shù)可以有效避免“維數(shù)災難”,得到最優(yōu)的分離超平面。目前常用的核函數(shù)有線性核、多項式核、高斯核等,根據(jù)數(shù)據(jù)集的規(guī)模選擇合適的核函數(shù)可以有效地提高分類精度。本文專利文本數(shù)據(jù)集規(guī)模較小,且向量維度適中,因此選擇高斯核作為SVM的核函數(shù)。超平面的定義如下所示:
其中,ω、b為需要訓練的參數(shù)、φ(x)為核函數(shù)。
構(gòu)造待有約束條件的優(yōu)化問題,公式如下:
樸素貝葉斯算法是一種基于統(tǒng)計的分類器。核心思想是當不能準確知悉一個事物的本質(zhì)時,可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率[23]。該算法假定屬性之間相互獨立,沒有某個屬性變量對于決策結(jié)果有較大的比重。樸素貝葉斯算法極為簡單,對于未分類的文本d i,所選特征向量為d i=(ω1,ω2,…,ωn),文本d i屬于特定類別(Fb)的概率為p={F=Fb|d i=(ω1,ω2,…,ωn)},當?shù)仁奖硎镜暮篁灨怕蔬_到最大值時,該文本屬于該類功能。
KNN算法是一種簡單、有效的分類器。核心思想是每個待分類文本根據(jù)在特征空間中與它最接近的K個鄰近值的類別進行分類,是一種非參、惰性的算法模型。無需對數(shù)據(jù)做出假設(shè),無需對數(shù)據(jù)進行提前訓練,對多分類任務(wù)有著較好的效果。KNN算法計算公式為:
其中,Sim(d i,d j)表示文本中d i與d j之間的相似度,W ik代表文本d i中第k個詞語的權(quán)重。
(2)基分類器的集成
目前基分類器有多種集成方式,為了提高分類器的泛化能力和降低數(shù)據(jù)集對分類器的影響,本文將Bagging、Stacking結(jié)合對基分類器進行集成?;诸惼骷山Y(jié)構(gòu)如圖7所示。
圖7 基分類器集成結(jié)構(gòu)Fig.7 Base classifier integration structure
首先TG-TCI模型將字、詞兩種專利本文特征向量輸入到兩個由SVM、Naive Bayes、KNN構(gòu)成的基分類器組。在每個基分類器組中,使用Stacking方式對3個基分類器進行集成,讓3個分類器學習相同樣本的特征,獲取3個分類器之間的分歧,整合3個基分類器的優(yōu)點。其次,使用Bagging方式對兩組基分類器組進行集成,讓分類器學習同一樣本在兩種粒度的特征向量,得到同一樣本在不同空間特征的信息。最后,集成結(jié)果采用投票的方式產(chǎn)生,投票公式如式(7)所示:
f1,f2,f3分別為3個基分類器的分類函數(shù),count為計數(shù)函數(shù)。
其中考慮算法的復雜度,Stacking方式選擇三折交叉驗證,該方法使TG-TCI模型獲得樣本和分類器的兩種差異,從分歧設(shè)計的角度上對傳統(tǒng)半監(jiān)督分類算法進行改進,提高分類算法的準確率。
(3)算法流程
TG-TCI專利功能分類算法流程如圖8所示。
圖8 TG-TCI算法流程圖Fig.8 TG-TCI algorithm flowchart
輸入:標記樣本集L、未標記樣本集U、待分類樣本集T。
輸出:專利功能分類結(jié)果。
步驟1對標記樣本集L、未標記樣本集U、待分類樣本集T分別采用BERT和Skip-gram進行特征向量表示,得到字符級向量L1、U1、T1,詞語級向量L2、U2、T2。
步驟2將L1、L2分別輸入兩組基分類器中,進行基分類器第一次訓練。
步驟3將U1、U2分別輸入經(jīng)過第一輪訓練的六個基分類器中,得到同一樣本的六個預測結(jié)果。根據(jù)投票選擇相對準確的預測結(jié)果和標記樣本L結(jié)合形成新的標記樣本集L′,進行第二次訓練基分類器。
步驟4將T1、T2分別輸入兩組訓練好的基分類器,得到同一樣本的六個預測結(jié)果,通過投票的方式得到最終的分類結(jié)果。
3.3.2 技術(shù)描述層
定義2技術(shù)描述層由情境屬性、技術(shù)屬性、領(lǐng)域?qū)傩越M成。其中情境屬性和技術(shù)屬性通過BERT-BiLSTM結(jié)合CRF的命名實體識別方法提取,領(lǐng)域?qū)傩裕↖PC分類號)從專利網(wǎng)站獲得。
實體識別方法是一種從非結(jié)構(gòu)化文本中提取特定類型詞的方法,如人名、地名等。該方法通過BIO序列標注對專利文本進行逐字標注,以B和I分別標注需要類型詞的首字和非首字,以O(shè)標注其他無關(guān)的詞。將標記好的文本通過BERT映射為詞向量并作為BiLSTM的輸入,通過神經(jīng)網(wǎng)絡(luò)的不斷訓練自動提取句子特征,最后以CRF層為預測結(jié)果添加約束,保證預測的精度。
(1)定義3專利的情境屬性是由專利知識的應用情境術(shù)語組成。根據(jù)專利數(shù)據(jù)對知識情境描述的情境要素進行適當調(diào)整,選擇問題、任務(wù)、知識資源、設(shè)計對象、地點五個主要素。專利中背景技術(shù)介紹了當前的技術(shù)空白和技術(shù)現(xiàn)狀,發(fā)明內(nèi)容包含了專利技術(shù)功效、實現(xiàn)目標和應用的物理環(huán)境。權(quán)力要求介紹了所需的機器設(shè)備、生產(chǎn)資料和產(chǎn)品裝置。因此,問題維度可以映射到專利的背景技術(shù),任務(wù)和地點維度可以映射到專利的發(fā)明內(nèi)容,知識資源和設(shè)計對象映射到專利的權(quán)力要求中。其專利知識情境模型如表3所示。從專利中提取知識應用場景,表示為:
表3 專利知識情境模型及位置Table 3 Patent knowledge situation model and location
S1,S2,…,S n代表專利中知識情境術(shù)語。
(2)定義4專利摘要中包含了所使用的技術(shù)原理,從專利摘要中提取專利技術(shù)術(shù)語以表示專利的技術(shù)屬性,例如太陽能、激光切割、高能脈沖等。技術(shù)術(shù)語體現(xiàn)專利實現(xiàn)功能的技術(shù)原理,表示為:
T1,T2,…,T n代表專利中的技術(shù)術(shù)語。
(3)定義5領(lǐng)域?qū)傩允且?guī)范引入的國際專利分類(IPC)信息。IPC是基于專利的不同應用領(lǐng)域的層次分類系統(tǒng),分為部、大類、小類、組四個層次。每個層次都有其相應的域名描述信息。表示為:
其中,S代表部,C代表大類,subC代表小類,G代表組。
3.3.3 詳細描述層
定義5詳細描述層包含專利的顯性信息和說明書中的實施方式。這些信息可以直接從專利搜索網(wǎng)站直接獲取。設(shè)計者可以詳細查看該專利的法律狀態(tài),產(chǎn)品的實例應用等,幫助設(shè)計者更具體地理解專利。
匹配過程如圖9所示,在產(chǎn)品概念設(shè)計中,根據(jù)需求系統(tǒng)工程師確定系統(tǒng)的不同功能,對于每個功能,都定義一個功能子系統(tǒng),結(jié)合當前設(shè)計者的知識情境將設(shè)計問題抽象表征為設(shè)計問題空間。例如,存在一個“設(shè)計道路橋梁除雪機”的設(shè)計問題,其中一個子功能為清除道路上的積雪。積雪根據(jù)功能特性可以表示為固體,通過分析采用“清除固體”作為該設(shè)計問題的功能基,并給出當前設(shè)計問題的知識情境。其中功能基之間的映射為關(guān)鍵詞檢索,知識情境相似度是通過之前神經(jīng)網(wǎng)絡(luò)訓練將情境術(shù)語表示為詞向量,利用余弦相似度公式計算設(shè)計問題空間和專利知識空間情境術(shù)語的相似度,計算公式如式(11)所示:
圖9 需求-專利空間映射過程Fig.9 Demand-patent space mapping process
其中,a i、k i分別為設(shè)計問題空間和專利知識空間的情境術(shù)語詞向量。Sim(a i,k i)代表相似度。當相似度大于閾值認為該專利可以解決當前設(shè)計問題,閾值需根據(jù)實際情況進行確定。
通過知識情境和功能基檢索專利知識空間的專利,搜索到“一種多功能清淤機(CN201821880967.3)”。實現(xiàn)利用功能基和知識情境實現(xiàn)從設(shè)計問題空間到專利知識空間的匹配。
通過功能基和知識情境可以在專利數(shù)據(jù)庫中搜索大量的相關(guān)專利,但是從各個應用領(lǐng)域中選擇合適的專利將浪費大量的時間和精力。因此,需要對檢索的相關(guān)專利進行進一步的評估,以推薦適當?shù)膶@o設(shè)計者。
首先將檢索后的結(jié)果根據(jù)專利的技術(shù)屬性將技術(shù)相似的專利采用K-means進行聚類,每個類別形成一個專利集群,其中包含的技術(shù)是相似的,設(shè)計者只需要閱讀每個專利集群的技術(shù)術(shù)詞即可了解整個集群。集群內(nèi)的專利根據(jù)情境相似度進行排序,將檢索到的具有相似技術(shù)屬性的專利分組推薦給設(shè)計人員。然后根據(jù)領(lǐng)域?qū)傩缘腎PC信息引入成熟性、新穎性、可擴展性對專利集群進行評估和排序,如圖10所示。
圖10 專利聚類和評估過程Fig.10 Patent clustering and evaluation process
在專利集群評估中Verhoeven等人[14]使用IPC分類號和引用信息來衡量技術(shù)的新穎性。在產(chǎn)品設(shè)計和開發(fā)中,不僅要考慮技術(shù)的創(chuàng)新性還要考慮市場應用的前景。當前發(fā)明或?qū)嵱眯滦蛯@纳暾埿杈邆湫路f性、創(chuàng)造性、實用性,本文參考上述專利申請條件提出成熟性、新穎性、可擴展性三種評價指標,方便設(shè)計者針對不同設(shè)計問題選擇相應的評估指標對專利技術(shù)進行評價。為了減弱聚類數(shù)K的選擇對評價指標的影響,對所有結(jié)果進行歸一化處理。
定義6成熟性是指技術(shù)越成熟,越有可能應用于其他領(lǐng)域。成熟度指數(shù)應該與集群內(nèi)專利應用域數(shù)量和專利數(shù)量成正比,它成熟性計算公式為:
定義7新穎性是指該技術(shù)越特殊,對該技術(shù)應用的專利就越少。越是新穎性高的技術(shù),其申請專利的數(shù)量和應用域數(shù)量就越少,新穎性計算公式為:
定義8可擴展性是為了探索其潛在的應用領(lǐng)域和發(fā)展方向。更好的技術(shù)可擴展性表明該技術(shù)涉及多個領(lǐng)域。一項擴展性好的技術(shù)往往應用在多個領(lǐng)域,但可能該技術(shù)的專利申請可能不容易找到,可擴展性計算公式為:
其中,d k是第k個專利技術(shù)集群包含的專利應用域的數(shù)量。n k是第k個專利技術(shù)集群中專利數(shù)量。D是所有集群中專利應用域的總數(shù)。N是所有專利技術(shù)集群中的專利總數(shù)。d k D表示第k個技術(shù)的應用域比重。n k N表示第k個技術(shù)的申請數(shù)量比重。式(12)中的M k越高,技術(shù)成熟性越高,同樣式(13)、(14)中的S k、E k越高,技術(shù)的新穎性和可擴展性越高。
針對不同的設(shè)計問題,設(shè)計者用不同的指標對專利集群進行評價。為了調(diào)整或更新現(xiàn)有的結(jié)構(gòu)以滿足最終功能的要求,選擇成熟性較高的專利進行產(chǎn)品設(shè)計。如果設(shè)計任務(wù)是在特定領(lǐng)域改進結(jié)構(gòu)的某個組成部分,則可以選擇新穎性作為評價標準。在設(shè)計新產(chǎn)品時,選擇擴展性來評估專利集群,擴展?jié)撛诘膽妙I(lǐng)域。
為了驗證本文提出的專利知識推薦模型的可行性,以橋梁冰雪清除裝置設(shè)計進行實例驗證。通過將傳統(tǒng)的基于關(guān)鍵詞檢索和本文提出的方法進行對比,并根據(jù)專利技術(shù)集群生成四種清除積雪的設(shè)計方案,驗證本文提出的專利知識推薦模型在跨應用領(lǐng)域推薦專利知識方面的有效性和可行性。
本文在專利商業(yè)網(wǎng)站(incopat)中下載50 000條發(fā)明專利數(shù)據(jù)。本文使用的專利數(shù)據(jù)包括標題、摘要、說明書和權(quán)力要求等,采用jieba分詞對專利數(shù)據(jù)進行分詞,去除停用詞,以便進行更深入的信息分析。
在寒冷地區(qū),大雪和低氣溫的情況比較普遍。積雪在道路橋梁上會造成堆積和結(jié)冰影響行車安全的問題。目前除冰方式主要是人工灑融雪劑或借助機械設(shè)備完成。但由于人工清理有被車撞到的危險,且融雪劑會污染環(huán)境、清雪車的清雪結(jié)構(gòu)簡單清雪不徹底,對于冰面和已經(jīng)壓實的雪清理效果不好。因此,有必要設(shè)計一種有效、安全的除冰設(shè)備。
通過分析“如何去除道路橋梁的冰雪”設(shè)計問題,其功能基的主要類別是“分離”,第二類別是“除去材料”,第三類別是“清除固體”,其知識情境如表4所示。通過以上分析構(gòu)建設(shè)計問題空間。
表4 設(shè)計知識情境描述Table 4 Design knowledge situation description
4.3.1 功能描述層
(1)數(shù)據(jù)準備
本文選擇兩個數(shù)據(jù)集對TG-TCI算法進行驗證。數(shù)據(jù)1為專利“標題+摘要”數(shù)據(jù),共50 000條。根據(jù)功能基對2 000篇專利文本進行人工標注和分類,按照9∶1的比例分為訓練集、測試集,選取其他沒有貼上標簽的18 000項專利作為未標記樣本集對分類器進行二次訓練。其他30 000條專利根據(jù)訓練好的分類器對進行功能基標記,文本數(shù)據(jù)集標注分布情況如表5所示。在本文中,僅基于功能結(jié)構(gòu)的一級分類為例進行開發(fā),此外,該方法可以通過全面的分類器輕松擴展到所有功能基礎(chǔ)級別。數(shù)據(jù)2為THUCNews新聞數(shù)據(jù)集種的10萬條新聞標題,文本長度在20~30之間,一共10個類別,每個類別10 000條。
表5 數(shù)據(jù)集分布Table 5 Data set distribution
(2)評價指標
將標記的專利文本語料集通過TG-TCI半監(jiān)督文本分類方法訓練基分類器,將專利根據(jù)功能基分類。在這項研究中,準確性是檢索結(jié)果中相關(guān)專利的部分,而召回率是實際檢索到的相關(guān)專利總量的部分。專利數(shù)量如此之多,以至于設(shè)計者不需要查看所有專利,在這個模型中只考慮準確率的影響。準確率是指預測為該類別且正確的樣本數(shù)TP與預測為該類別的樣本總數(shù)TP+FP的比值,公式如下:
(3)算法有效性分析
為了驗證本文提出TG-TCI模型的有效性,本文首先使用數(shù)據(jù)1對比單通道和雙通道分類模型的分類效果,再使用數(shù)據(jù)2與當前基于分歧的半監(jiān)督文本分類方法的重要成果做對比,說明本文模型的有效性。
單通道模型采用BERT對文本進行特征建模,使用標記樣本集對KNN、SVM、Naive Bayes構(gòu)成的基分類組進行訓練,訓練好之后對未標記樣本集進行標注,將投票一致的樣本補入標記樣本集對基分類器組二次訓練,最后對待分類樣本集進行標注。另一個單通道模型采用Word2vec對文本進行特征建模,其余與上述相同。其中按照數(shù)據(jù)集的5%、10%、20%、30%分別作為標記數(shù)據(jù)集,比較三組模型的效果,實驗進行5次取平均值,效果如圖11所示。
圖11 單通道與雙通道算法分類準確率對比Fig.11 Single-channel and dual-channel accuracy comparison
由圖11可知,單獨使用Word2vec和BERT的單通道模型在標記數(shù)據(jù)集占比5%情況下準確率均低于本文提出的TG-TCI算法,隨著標記數(shù)據(jù)占比的增加,各模型準確率逐漸增加,但單通道模型始終不如TG-TCI算法,驗證了使用Word2vec和BERT兩種方法結(jié)合的方式能夠有效地學習同一文本的不同信息,形成樣本之間的分歧,對算法準確率有積極的影響,并驗證自然語言技術(shù)實現(xiàn)專利功能知識的自動提取具有可行性。
本文進一步地將TG-TCI算法與傳統(tǒng)的基于分歧的算法進行對比,對比的算法有Co-training[27]、Tri-training[28]、改進Tri-training[29]三種模型。本文引用文獻[30]提出的精度差值(precision difference,PD)作為新的評價指標,將半監(jiān)督分類模型的分類精度與對應的有監(jiān)督分類模型分類精度的差值的絕對值大小評估算法的有效性,如公式(16)所示:accuracy(SC)為有監(jiān)督的準確率;accuracy(SSC)為半監(jiān)督分類的準確率。其中半監(jiān)督模型在標記數(shù)據(jù)集占比20%的條件下進行。每組實驗分別進行5次取平均值,各模型準確率和PD值如圖12所示。
圖12 算法準確率對比Fig.12 Algorithm accuracy comparison
可以看出本文提出的TG-TCI半監(jiān)督算法在半監(jiān)督和有監(jiān)督兩種方式中分類準確率均優(yōu)于其他半監(jiān)督分類算法,且PD值也小于其他算法,說明本文提出TGTCI模型更接近半監(jiān)督學習的最優(yōu)效果,有效地證明了TG-TCI算法可以更好地應用到標記樣本少或人工標記難度大的半監(jiān)督文本分類任務(wù)中。
(4)算法復雜度分析
算法有效性和算法復雜度是評價算法的兩個重要指標。因此,在數(shù)據(jù)經(jīng)過預處理后,本文對比TG-TCI模型與傳統(tǒng)分歧半監(jiān)督模型的訓練時間,對算法時間復雜度進行分析,訓練時間如表6所示。
訓練時間實驗在單機下進行,實驗平臺為Windows 10 64位操作系統(tǒng),CPU為Intel?Core?i7-8150H,顯卡為GTX1660S,物理內(nèi)存為16 GB。由表6得知TG-TCI算法效率略低于改進Tri-training算法,這是因為本文算法采用了stacking集成方式,對每個基分類器需進行三折交叉驗證。但其他算法需要對參數(shù)花費大量時間進行驗證,TG-TCI算法無需花費過多時間對參數(shù)進行調(diào)整也有很好的效果,相比于傳統(tǒng)的基于分歧的半監(jiān)督算法更適用于標記樣本少或人工標記難度大的半監(jiān)督文本分類任務(wù)中。
表6 各模型算法訓練時長Table 6 Training duration of each model algorithm min
(5)重要參數(shù)的影響分析
本文提出的TG-TCI半監(jiān)督文本分類算法中主要參數(shù)包含基分類器SVM中的懲罰參數(shù)C和KNN中的K值。本文使用數(shù)據(jù)1和數(shù)據(jù)2對這些參數(shù)進行進一步的實驗,研究其對于分類結(jié)果的影響。
首先固定KNN中的K值,對C值進行調(diào)整,分析C對算法精度的影響,K值的實驗分析過程與上述相同,實驗圖如圖13所示。
由圖13可知,C值和K值過大或過小會影響算法的準確性,在C值在400~600之間,K的個數(shù)在6的時候,最終TG-TCI算法的預測結(jié)果可以取得最高的精度,保證了最佳的整體分類性能。
圖13 C值、K值對分類結(jié)果的影響Fig.13 Influence of C and K on classification results
4.3.2 技術(shù)描述層
對專利中的情境術(shù)語和技術(shù)術(shù)語進行BIO標注,將標記好的專利樣本集通過BERT-BiLSTM-CRF的方法訓練出一個判斷模型,利用該模型從專利文本中抽取情境屬性和技術(shù)屬性,領(lǐng)域?qū)傩裕↖PC)直接從網(wǎng)站中提取,為之后對專利的聚類和評估做準備。結(jié)合功能描述層和詳細描述層,專利知識空間表示如圖14所示。
圖14 專利知識空間表示實例Fig.14 Patent knowledge space representation example
根據(jù)上述分析對設(shè)計問題空間的構(gòu)建,利用功能基和知識需求情境在專利知識空間中檢索專利,檢索流程如圖15所示。并且為了驗證文本提出的專利知識推薦模型可以有效地推薦跨應用領(lǐng)域的專利知識,使用“清除固體”作為關(guān)鍵詞在專利網(wǎng)站(incopat)進行檢索。圖16顯示并比較了前10名、前50名、前100名檢索到專利應用域的數(shù)量。
圖15 專利知識推薦過程Fig.15 Patent knowledge recommendation process
圖16 兩種檢索方法的專利應用領(lǐng)域數(shù)量Fig.16 Two search methods patent domain quantity
對于前10名,關(guān)鍵詞檢索的結(jié)果包括三個應用域(B01D33、B08B9、E02B15),功能基檢索包括6個應用域(E01H5、G05B19、A23L1、F16K1、C02F1、B61K9)。前50名和前100名,本文提出的檢索方法明顯優(yōu)于傳統(tǒng)關(guān)鍵字檢索方法。因此,在本文的專利知識推薦模型之后,跨領(lǐng)域?qū)@麢z索效率顯著提高。
檢索后的專利需要進一步地聚類和評估。首先基于專利的技術(shù)術(shù)語對專利文本進行聚類,設(shè)計人員可以主動選擇專利集群的個數(shù)。本文選擇專利集群數(shù)量為4,聚類圖如圖17所示,專利被分為四個集群,每個專利集群呈現(xiàn)不同的技術(shù),如表7所示。設(shè)計者只需要閱讀每個集群的術(shù)語列表就可以快速理解專利集群的技術(shù)信息,減輕設(shè)計者的認知負擔。之后設(shè)計者可以根據(jù)設(shè)計需求從各類專利技術(shù)集群中選擇合適的專利進行產(chǎn)品創(chuàng)新設(shè)計。通過分析可以得到如圖18的四種設(shè)計方案。
圖18 設(shè)計方案概念圖Fig.18 Design plan conceptual drawing
表7 專利聚類結(jié)果Table 7 Patent clustering results
圖17 聚類效果展示Fig.17 Clustering effect display
方案1該集群技術(shù)術(shù)語為偏心輪、振動、高能脈沖、刮板等。找到名為“幫助從鑄件上除去砂型”的專利。該專利通過高能脈沖激勵鑄膜,使鑄膜破碎。于是可以得到方案1,利用偏心輪產(chǎn)生振動震碎道路橋梁上的結(jié)冰,并通過刮板進行除雪。
方案2該集群技術(shù)術(shù)語為太陽能、震蕩熱管、熱利用等。找到名為“一種太陽能與中深層地熱能復合融雪化冰系統(tǒng)”的專利。該專利采用太陽能供熱系統(tǒng)提供熱水,融化地面的冰。得到方案2利用太陽能為震蕩熱管提供熱能,對道路進行加熱,以達到除雪目的。
方案3該集群技術(shù)術(shù)語為壓縮空氣、熱風機、氣泵、噴嘴等。找到名為“鑄件清砂修用氣鏟”的專利,該專利通過壓縮空氣去除鑄件上的砂膜。于是方案3為通過壓縮空氣釋放強力氣流,剝離吹除冰層,在道路上形成干燥空氣循環(huán)的局部環(huán)境,以進行道路除雪。
方案4該集群技術(shù)術(shù)語為輥輪、研磨、滾壓、減震彈簧等。找到名為“新型鋼管外壁除銹機”的專利,該專利通過輥輪滾動對鋼管外壁進行除銹。得到方案4為通過電機使輥輪滾動,對結(jié)冰路面進行研磨,并與減震彈簧連接,對弧形、高低不平路面進行除雪。
最后根據(jù)領(lǐng)域?qū)傩栽u價了每個專利集群的成熟性、新穎性和擴展性,評估結(jié)果如表8所示,結(jié)果表明聚類1成熟度最高,聚類3新穎性最高,聚類4可擴展性最高,設(shè)計者可以根據(jù)設(shè)計問題選擇不同的評價指標對技術(shù)進行評估,其映射結(jié)果如圖15所示。在設(shè)計者尋求實現(xiàn)某一功能的技術(shù)時,突破了不同應用領(lǐng)域的局限性。
表8 專利聚類結(jié)果Table 8 Patent cluster evaluation results
從道路橋梁清雪機的概念設(shè)計可以看出,通過對設(shè)計問題進行歸一化表達,設(shè)計者可以得到更多具有相同功能基和相似知識情境的跨領(lǐng)域?qū)@谋?。同時本文構(gòu)建的三層專利知識空間結(jié)構(gòu)既包含了專利的功能信息也包含了其技術(shù)信息和詳細信息。便于幫助設(shè)計者突破本領(lǐng)域的限制,豐富設(shè)計者的知識空間,從而產(chǎn)生更多具有創(chuàng)新性的概念解決方案。
為了更好地滿足設(shè)計者知識多樣性的需求,本文提出了一種基于深度學習的專利知識推薦模型框架。主要貢獻總結(jié)為三點:(1)基于功能基和知識情境的設(shè)計問題表征。本文對產(chǎn)品功能和知識情境分別建模,在產(chǎn)品設(shè)計流程中引入功能基和知識情境對設(shè)計問題進行標準化表達,對比實驗證明本文方法可以在更大范圍找到更多的解決方案。(2)自動提取專利知識并構(gòu)建表示模型。本文提出TG-TCI算法根據(jù)功能基從本文分類角度提取專利功能信息,利用實體識別方法提取專利情境、技術(shù)術(shù)詞構(gòu)建專利知識空間,便于設(shè)計者快速理解當前專利。(3)多指標專利評估方法。本文利用K-means算法對相似專利進行聚類,并提出成熟性、新穎性、擴展性三種指標對專利聚類進行評價,方便設(shè)計者選擇合適的評價指標滿足自己的設(shè)計需求,提高設(shè)計知識重用率。
但仍存在一些問題需要解決。首先本文的領(lǐng)域?qū)傩允歉鶕?jù)專利的IPC分類來定義,具有局限性。其次,本文僅對專利一級功能進行分類提取,之后需要根據(jù)二級類別、三級類別進行進一步分類。最后專利知識表示需要行更深入的分析,專業(yè)技術(shù)術(shù)語和知識情境專業(yè)性較強,需要更高的知識背景。今后將進一步深入研究領(lǐng)域之間的知識轉(zhuǎn)移,完善功能詞典,改善專利功能分類的準確性,并且進一步完善專利內(nèi)容研究,需要更深入地開發(fā)專利知識,更全面地發(fā)現(xiàn)潛在的領(lǐng)域知識,進而更智能化地實現(xiàn)設(shè)計者的知識需求。