何春輝 王孟然
(1.湘潭大學數(shù)學與計算科學學院 湘潭 411105;2.長沙縣印山學校 長沙 410135)
專利引文數(shù)據(jù)有巨大的商業(yè)價值和科研價值,這些引文數(shù)據(jù)會成為揭示專利信息的有利依據(jù)[1-2]。在文獻計量學中,通過分析文獻的引文情況,可揭示科技體系的內在關聯(lián)或結構關系[3]。專利文獻是傳承和保護個人、組織和公司權益的一種重要載體[4]。近年來,隨著全球專利申請數(shù)量的迅速增長,引文分析已經(jīng)成為了一種揭示專利知識的重要方法。專利引文分析主要有以下作用: (1)對技術進行評估和識別;(2)通過技術會聚、技術融合以及技術多元化進行分析,實現(xiàn)突破性技術預警和技術預測;(3)對專利進行分類和聚類;(4)對專利的排名以及影響力進行定量計算;(5)識別出潛在的競爭對手或合作伙伴;(6)揭示專利知識的演化過程與技術轉移動向;(7)識別出技術主體及相關依賴關系。
專利引文分析在科研工作和知識經(jīng)濟中發(fā)揮著巨大的作用[5]。本文重點對專利引文分析應用研究的現(xiàn)狀進行梳理,分析專利引文分析面臨的挑戰(zhàn)和應對策略,旨在為專利引文分析領域的相關研究人員提供參考。
引文分析一般是指文獻間存在的各種引證關系。引文分析大致可分為初始形成期[6-7]、發(fā)展繁榮期[8-9]和深化拓張期[10]三個時期。
據(jù)現(xiàn)有資料分析可知,期刊論文的引文信息,常用的測度指標有:自引率、影響因子、引證率、即時指標等[11]。專利引文除以上指標外,還可利用引文耦合和同被引等測度指標來進行度量[12]。
Narin[13]創(chuàng)造性提出將文獻計量學方法應用到專利研究領域,開辟了專利計量新領域。學者從引用動機、引用主體、引用目的、引用功能等方面對專利引用進行了分析[14]。
(1) 引用動機分析。專利是受法律保護,享有一定地域和時間限制獨占性權利的技術成果。專利引用是法律形態(tài)和社會形態(tài)高度調和的結果,因此,它們的引用動機是與期刊論文的引用存在一定的差異。
(2) 引用主體分析。不像期刊文獻引用主體較單一,專利文獻的引用存在諸多主體:專利發(fā)明人、法律專家、專利申請人和專利審查員[15]。Li[16]分析了不同引用主體的引用動機來加以區(qū)別引用的真實性。也有部分學者對專利審查員引文產(chǎn)生過質疑,但張虎膽[17]通過深層分析,提出專利審查員引文不應該被當作引文噪音被剔除。
(3)引用目的分析??茖W引文的實質是知識的繼承和發(fā)展。而專利旨在通過獲得獨占性權利,享有壟斷帶來的競爭優(yōu)勢[18]。由于存在競爭性因素,專利發(fā)明者或申請者除了法律規(guī)定及特殊的需要外,會盡可能少地引用其他專利[19-20]。
(4)引用功能分析。對于專利發(fā)明人而言,其引用的功能主要是為說明技術的繼承性與關聯(lián)性[21]以及強調其他技術存在的缺陷,從而為新專利的新穎性和創(chuàng)造性方面提供依據(jù)。
審查員引用功能主要是通過引用為專利審核提供對比,確定技術的專利性[22]。
專利是技術競爭的情報來源之一[23]。專利引文分析一直是專利文獻計量學中的重要內容,隨著專利數(shù)量的不斷增長,專利引文分析在專利信息分析中的應用也越來越廣泛[24]。對于科學出版物來說,來自專利的引文信息在學術研究的商業(yè)影響方面提供了有利的證據(jù)。有學者提出了基于Google 學術論文的一種半自動化提取和過濾專利引文的方法[25]。通過對國內外現(xiàn)有專利引文分析已取得的許多研究成果進行分析,發(fā)現(xiàn)這些研究熱點大都圍繞如下三個維度來展開:(1)專利分類和聚類;(2)專利估值和新興技術以及核心專利的識別;(3)知識流動和技術轉移。故本文將著重對這三個維度的應用情況做概述和分析。
專利聚類常用方法主要為層次聚類、改進的K-means、自組織映射等[26]。專利分類可大致分為尋找同族專利或相似專利以及專利識別等兩個方面。專利分類的方法包括基于IPC 分類號和行業(yè)分類以及機器學習算法分類等。專利聚類和專利分類通常還依靠專利間的耦合引用、共引、同被引的關系構建專利間的相似度從而對專利進行分類和聚類[27]。
2.1.1 專利引文分析應用于專利聚類 同被引與引用耦合是兩種常用的聚類方法。李睿[28]從聚類的可操作性、結果的準確性等幾個方面對該類方法進行對比分析,發(fā)現(xiàn)后者在揭示專利的相似性方面更具優(yōu)勢,前者則更適用于揭示技術的演化規(guī)律。在新興技術聚類方面,Holman[29]依據(jù)新興技術和專利文獻的相關特征,建立了新興技術聚類模型及相關度量指標,Patrick[30]利用該模型對專利系統(tǒng)展開了新興技術識別的實證研究。洪勇[31]綜合比較了相關方法,指出專利耦合分析能實時地體現(xiàn)出企業(yè)的技術相似性,并對專利耦合強度計算方法進行了改進,能有效區(qū)分耦合強度的差異。érdi[32]提出了利用引用向量作為預測器來對新興的新技術或新分類進行預測,并利用可視化將聚類結果進行了樹形圖展示。張海超[33]選取中文專利數(shù)據(jù)樣本,抽取專利權利要求書形成訓練語料,并利用Doc2Vec 深度神經(jīng)網(wǎng)絡算法,計算權利要求書文本之間的相似度,得出與涉案專利相似性較高的專利。
2.1.2 專利引文分析應用于專利分類 專利是競爭力的主要體現(xiàn)方式之一。Leydesdorff[34]通過專利引文信息、IPC 分類號等構建了專利相似度測量模型,并以部分美國授權專利數(shù)據(jù)為樣本進行實證分析,發(fā)現(xiàn)該方法對專利相似度量效果較好。Criscuolo[35]利用歐洲專利局和美國專利商標局授權的專利數(shù)據(jù)庫為數(shù)據(jù)源進行了實證分析,找出了相關專利的同族專利。黎歡[36]提出通過對專利引文中分類號相近的專利文獻進行深度挖掘,可以找出潛在的競爭者與合作者。Wu[37]則提出專利可以被用來分析并識別出技術策略和潛在的競爭對手。
識別 隨著全球專利數(shù)量不斷的增長,對于大多數(shù)企業(yè)而言,能準確識別出領域中的核心專利和新興技術有重要的意義[38]。有研究表明,專利的引用與其價值之間并非線性關系,而是類似于S曲線。不少學者認為,利用專利引文信息作為研究路徑,同樣可以識別出該領域的核心專利和新興技術,還可以對某一個領域里的專利排名情況進行定量的計算。Wu[39]指出快速尋找核心專利對于企業(yè)開展技術競爭情報工作至關重要。馬永濤[40]總結了核心專利的主要特征,通過文獻調研,對比分析和分類統(tǒng)計等方法,歸納出目前常用的識別核心專利的方法可分為專家智慧法、指標分析法,并指出最主要的識別指標有專利被引頻次、同族專利數(shù)量等。Breitzman[30]依據(jù)專利引文數(shù)據(jù)提出了一種新興的模型來識別下一代熱點專利。此外,還首次實現(xiàn)了大規(guī)模數(shù)據(jù)集的測試,實驗結果表明,該模型可能是下一代新興技術識別的有用工具。袁潤[41]進一步完善了核心專利的識別方法,構建了核心專利識別框架圖,對新能源領域中的風能產(chǎn)業(yè)核心專利和新興技術進行了識別。Cho[42]從國家戰(zhàn)略角度出發(fā)提出有效識別核心專利和新興技術對制定相關政策有至關重要的作用。Li[43]借助引用頻次與關系網(wǎng)絡的排名信息來建立專利重要度排名算法,研究結果表明他所建立的排名算法能夠用來區(qū)分引用次數(shù)相同的專利排名。Harhoff D[44]通過對美國和德國專利進行分析與研究,得出了專利的引用頻次可以用來評估專利價值的結論。 張欣[45]提出了改進的PTR 算法不僅能將領域內重要的核心專利識別出來,相較原始的PageRank 算法,改進的PTR 算法具有更高的區(qū)分度??捍ú46]引入了專利的個體價值、網(wǎng)絡價值及綜合價值的概念,提出了"核心專利的綜合價值是由專利的個體價值和網(wǎng)絡價值的綜合體現(xiàn)"的研究理論。érdi[32]通過專利引文網(wǎng)絡對新興技術的聚類結構給出了預測方法。Kyebambe[47]提出了對新興技術識別具有代表性的特征項,He[48]在這些特征基礎上對專利引文數(shù)據(jù)進行了索引和聚類預處理,并結合深度學習算法構建了新興技術識別模型。
知識擴散這一主題目前已成為研究熱點。從引文分析的角度來分析,知識擴散是指知識的傳承[49]。知識擴散也被稱為“知識交流”[50]或“知識流動”[51-52]或“知識轉移”[53]或“知識溢出”[54], Roach[55]發(fā)掘出專利引證關系反映了國家或企業(yè)間知識流動的軌跡。Huang[56]提出在一定前提條件下可把文獻引用抽象為知識流動的形式,還明確指出文獻引用應屬于知識生產(chǎn)、傳播和應用的過程。Ribeiro[57]借助全球創(chuàng)新網(wǎng)絡新方法,顯示了“科學技術”跨越國界在全球范圍進行交互的足跡。通過現(xiàn)有文獻分析可知,基于引文分析的知識擴散研究主要包括:(1)知識擴散的特征;(2)知識擴散的測度指標;(3)知識擴散模型的構建[58]。此外,常用知識擴散測度指標見表1。
表1 常用知識擴散測度指標及定義
以專利為單元的知識擴散常見的有“技術擴散”研究。技術擴散是一項技術從首次商業(yè)化應用,經(jīng)過大力推廣、普遍采用階段,直至最后因落后而被淘汰的過程[59]。Choe[60]揭示了專利引用情況是研究技術溢出的重要途徑。楊中楷[61]使用專利引文網(wǎng)絡分析方法,得出歐美國家和中、日、韓等國家正處于知識活動網(wǎng)絡的中心位置。Yoshikane[62]分析了基于不同分類號下專利引用的情況,也就是通常說的引用領域的多樣性。該方法揭示了不同領域發(fā)明之間的演化規(guī)律,這些模式可以合理解釋網(wǎng)絡的形成、發(fā)展、老化的規(guī)律,以及知識的累積傳播過程[63]。肖彬[64]基于專利引文網(wǎng)絡構建了動態(tài)技術軌道識別與評價模型,并定量分析了動態(tài)技術軌道上各項關鍵技術的影響力和創(chuàng)新性。貴淑婷[65]基于專利引文網(wǎng)絡構建了技術擴散速度測度模型,該模型可以對技術擴散速度進行有效的量化測算。張云[66]以WoS 數(shù)據(jù)庫中專利文獻集合為分析對象,借助于HistCite,進行了專利引文分析研究的主題演進探索。韓芳[67]量化研究了一些在過去僅僅被定性研究的結論。楊雨華[68]基于專利引用關系形成的引用網(wǎng)絡,結合路徑發(fā)現(xiàn)方法勾勒出企業(yè)技術發(fā)展圖譜。
專利引文分析應用研究已成為專利研究的主要方向之一,但目前專利引文分析應用過程中仍面臨著重大挑戰(zhàn)[9]。通過整理相關研究資料,發(fā)現(xiàn)專利引文分析應用研究,目前正面臨著以下挑戰(zhàn):(1)專利引文分析應用研究方法還不夠豐富,這會導致在某些特定領域應用中缺少理論方法的支撐;(2)專利引文分析應用中缺乏完整的評測體系,這常常會出現(xiàn)在應用中缺乏度量某一方法是否有效的評測指標;(3)中文專利引文數(shù)據(jù)庫中未涵蓋引用主體信息,這對專利引文分析應用造成了極大的阻礙,使得許多應用研究缺乏相關數(shù)據(jù)支撐;(4)專利引文分析應用研究存在領域差異,這不利于專利引文分析應用的進一步推廣;(5)專利引文分析應用研究中存在語種壁壘,許多方法都有語種依賴性,在跨語種的情況下效果較差;(6)專利引文分析應用中存在技術主體和領域名稱不一致的現(xiàn)象,這會影響分析結果的準確性;(7)中文專利引文方面存在很多漏引和不規(guī)范引用的情況,這會導致丟失引文信息或者引入引文噪聲。因此實際中應以謹慎態(tài)度對待專利引文分析應用研究結果,在充分了解其優(yōu)缺點的基礎上做出理性參考。
對于挑戰(zhàn)(1),建議專利引文分析應用領域的研究人員大量開展和嘗試更多領域的應用研究,從而進一步豐富引文分析應用研究的理論方法。對于挑戰(zhàn)(2),可以考慮建立多指標專利引文數(shù)據(jù)庫并提出新的度量指標來量化被引關系。對于挑戰(zhàn)(3),考慮到中文語言的特殊性,個人覺得有必要建立中文專利引文數(shù)據(jù)庫并制定相關引文規(guī)范。對于挑戰(zhàn)(4),建議建立統(tǒng)一的特征表示方法來彌補領域差異。對于挑戰(zhàn)(5),建議加快構建全球統(tǒng)一的專利引文分析應用研究模型和方法以應對跨語種的障礙。對于挑戰(zhàn)(6),建議相關部門進一步規(guī)范引用主體名稱和領域名稱的命名規(guī)則;此外應積極研發(fā)高質量的數(shù)據(jù)自動修正軟件來提高修正效率和準確率。對于挑戰(zhàn)(7),積極倡導國內專利發(fā)明人或申請人像歐美等發(fā)達國家學習,力爭合理、準確的對相關專利進行施引。綜上所述,個人以為專利引文分析雖然有很好的發(fā)展前景和應用價值。但考慮到許多挑戰(zhàn)還未得到有效的解決,因此我們不應盲目樂觀。呼吁領域內相關專家學者積極克服難題,早日為專利引文分析大規(guī)模實際應用提供切實有效的技術支持和解決方案。其他方面的應對策略還有待進一步發(fā)掘和深入研究探討。
綜合本文的研究,國內外專利引文分析應用研究現(xiàn)狀可總結如下:國外部分發(fā)達國家已實現(xiàn)了專利引文分析數(shù)據(jù)的自動化處理,可通過計算機應用系統(tǒng)完成專利引文分析應用任務;但國內研究正處于快速發(fā)展階段,許多理論方法還需逐步完善。隨著大型專利引文數(shù)據(jù)庫的不斷完善,專利引文分析應用可結合深度學習、知識圖譜、數(shù)據(jù)挖掘等技術來進一步提高引文分析應用系統(tǒng)的準確率。此外,利用新興技術來識別和分析專利發(fā)展演化過程以及結合功能強大的可視化工具來展示專利引文分析應用成果將會成為未來的研究熱點和演化趨勢。