郭劍明 王婧怡 袁 潤,2
(1.江蘇大學科技信息研究所 鎮(zhèn)江 212013 2.江蘇大學圖書館 鎮(zhèn)江 212013)
從海量的專利信息中全面準確地識別出核心專利對研發(fā)主體而言具有重要現(xiàn)實意義[1]。核心專利的識別方法大致可歸納為專利信息屬性指標識別法和專利技術關系特征識別法兩類,前者發(fā)展相對成熟,后者隨網(wǎng)絡科學的興起而快速發(fā)展。專利信息屬性反映專利的個體價值[2],專利技術關系反映專利的全局價值[3]。一般來說,不同關系構(gòu)建的網(wǎng)絡具有不同的特征,揭示的專利價值也有所區(qū)別[4]。引證關系是專利分析中最常用的一種關系,具有關系明確、易于提取等特點,但時滯性強,不利于分析最新申請/授權的專利。共引關系反映專利技術之間的某種相似性,由此構(gòu)建的共引網(wǎng)絡更為簡單,時效性更好。因此,開展識別核心專利的共引網(wǎng)絡分析研究,對發(fā)展專利網(wǎng)絡分析理論與方法具有學術意義和應用價值。
核心專利是指在某一領域具有首創(chuàng)性的并以此為核被后續(xù)科技文獻引用以及產(chǎn)業(yè)化集聚必不可少的專利[5]。利用專利信息屬性識別核心專利,經(jīng)歷了使用單一指標、組合使用多種指標到構(gòu)建指標體系的發(fā)展過程。單一指標法主要統(tǒng)計專利文獻中某一指標的頻次,例如專利被引頻次[6-7]、同族專利數(shù)[8,2]和權利要求數(shù)[9-10]等,該方法將頻次較高的專利視為核心專利。組合指標法利用多種指標識別核心專利,有利于避免單一指標法識別結(jié)果的片面性。指標體系法通過構(gòu)建指標體系,并利用主觀或客觀的方法賦予指標權重,識別結(jié)果相對全面客觀[11],例如錢過[12-13]等先后采用層次分析法和粗糙集理論計算權重系數(shù)并識別核心專利。
基于技術關系特征的專利網(wǎng)絡分析通常以專利為節(jié)點,技術關系為邊構(gòu)建網(wǎng)絡,并利用節(jié)點重要性表征專利重要程度。因此,判定網(wǎng)絡節(jié)點重要性成為研究的關鍵。例如,陳祥等通過構(gòu)建引證網(wǎng)絡,在定義技術擴散廣度和深度指標的基礎上構(gòu)建核心專利識別模型[14]。一些學者將PageRank 算法應用于專利網(wǎng)絡分析,發(fā)現(xiàn)識別結(jié)果優(yōu)于被引頻次指標[15],并且可以利用專利屬性,如專利年齡和被引頻次[16]等改進算法,優(yōu)化識別結(jié)果。也有學者認為單一使用直接引證關系存在局限,如潘穎認為僅利用直接引證關系不足以反映技術發(fā)展全貌,于是補充了間接引證關系使得識別結(jié)果更加準確[17]。李睿等認為直接引證關系無法測度技術間的相似性,而利用專利共引與專利耦合關系進行聚類,能揭示技術演化規(guī)律,識別基礎專利[18]。此外,專利引證網(wǎng)絡的時效性較差,不能識別最新申請/授權的核心專利,并且存在無法細分專利技術所屬行業(yè)或領域的局限[16]。
不同的技術關系反映了不同的技術特征[3]。除直接引證關系外,專利間還存在共引關系。共引關系反映了不同專利技術在理論或方法上的相似性或同源性[18],其相似程度由共引強度測量,共引強度越大相似度越強,借此可以進行專利主題聚類[19]、研究前沿識別[20]。此類方法一般通過構(gòu)造共引關系矩陣,再轉(zhuǎn)化為相似系數(shù)矩陣,繼而進行聚類分析或多維尺度分析[21]。例如,Smojver 等利用共引關系探索了技術領域內(nèi)的知識流動現(xiàn)象,發(fā)現(xiàn)共引網(wǎng)絡時效性強,能夠動態(tài)反映技術發(fā)展[22]。此外,孫海生比較研究了文獻共引網(wǎng)絡和耦合網(wǎng)絡的區(qū)別,發(fā)現(xiàn)共引關系在高被引文獻之間建立的聯(lián)系更緊密,因此能夠確定領域內(nèi)的核心文獻[23]。
綜上,專利之間的關系較多,除了引證關系之外,還存在共引關系等。根據(jù)不同關系構(gòu)建不同網(wǎng)絡,既有各自優(yōu)勢,也存在各自的不足。對基于技術關系特征的核心專利識別方法而言,需要取長補短,不斷發(fā)展完善。例如,專利直接引證關系存在的時滯性問題、引文噪聲問題、引用傾向性問題等[24],需要從新的視角或采取新的方法來改進和完善。由于共引關系能在高被引文獻之間建立更緊密的聯(lián)系,這一結(jié)論為開展共引網(wǎng)絡分析提供了新的視角。本文擬從以下兩個方面開展研究:一是構(gòu)建專利共引網(wǎng)絡和直接引證網(wǎng)絡,比較研究其結(jié)構(gòu)特征差異;二是定義并計算共引網(wǎng)絡節(jié)點重要性指標,識別核心專利。
本文以專利為節(jié)點,專利之間的共引關系為邊構(gòu)建專利共引網(wǎng)絡,用PageRank 中心性表征節(jié)點重要性,以此為判據(jù)識別核心專利。
本文假設:具有共引關系的專利a 和b 結(jié)為一對,稱之為“專利對”,它們在主題或內(nèi)容上具有某種程度的相關性,且相關程度與共引強度成正比。這個假設是合理的,因為專利共引關系能反映特定范圍內(nèi)專利之間的相互聯(lián)系[25]。從網(wǎng)絡分析視角看,共引網(wǎng)絡(Co-citation, COC)相比直接引證網(wǎng)絡(Direct-citation, DC)具有兩方面優(yōu)勢:一是共引網(wǎng)絡屬于“無向有權”網(wǎng)絡,構(gòu)建方式簡單直接[26];二是共引網(wǎng)絡反映了“專利對”之間的動態(tài)結(jié)構(gòu),時效性更強[14]。因此,可以通過構(gòu)建專利共引網(wǎng)絡和直接引證網(wǎng)絡,比較兩種網(wǎng)絡的結(jié)構(gòu)特征和時滯差異,并在計算網(wǎng)絡節(jié)點重要性的基礎上識別核心專利。
專利共引網(wǎng)絡是以專利為節(jié)點,專利間的共引關系為邊構(gòu)建的網(wǎng)絡。一般地,網(wǎng)絡常用鄰接矩陣表示,對于擁有n個專利節(jié)點的共引網(wǎng)絡G可用n行n列鄰接矩陣表示為公式(1)。
其中,coc表示專利共引網(wǎng)絡鄰接矩陣,Aik=1 表示存在專利k引用專利i,否則為0。若存在節(jié)點i,j,k,節(jié)點k引用節(jié)點i和j,則Aik·Ajk=1,說明節(jié)點i和節(jié)點j存在共引關系。對角線元素數(shù)值在共引網(wǎng)絡分析中無實際意義,作取0 處理。由此,專利共引網(wǎng)絡可抽象表示為“無向有權”圖,進而可利用相關理論知識分析節(jié)點重要性。
在專利共引網(wǎng)絡中,一個節(jié)點周圍通常有很多鄰居節(jié)點,只要考慮其鄰居節(jié)點的重要性以及節(jié)點間的共引強度就能夠量化表征該節(jié)點的重要性。如圖1(a)所示,圓圈表示專利直接引證網(wǎng)絡中的節(jié)點,箭頭表示引用關系。雖然節(jié)點a 和b 的入度均為3,但由于后續(xù)間接引用節(jié)點b 的專利更多,節(jié)點b 的技術擴散范圍更廣,因此可判斷節(jié)點b 的重要性更大。圖1(b)是專利共引網(wǎng)絡示意,專利b 和其他3 個專利共同被引用了4 次,說明專利b 同其他專利間的知識流動更為頻繁,技術聯(lián)系更強,故可判斷出專利b 的重要性更大。同時,專利a 與b 的共引次數(shù)為2,而專利c 和d與b 的共引次數(shù)為1,專利a 相較其他專利與專利b 的知識流動更為頻繁,因此可以認為專利a的重要性大于d 和c。
圖1 專利節(jié)點重要性計算示意圖
以上分析表明,專利擁有的共引關系數(shù)量越多,或與重要專利間共引強度越大,專利共引網(wǎng)絡對該節(jié)點的依賴程度越高,其重要性越大。PageRank 中心性既考慮了待評價節(jié)點擁有的引用關系數(shù)量,也考慮了與待評價節(jié)點存在引用關系的節(jié)點的質(zhì)量,符合共引網(wǎng)絡節(jié)點重要性判斷依據(jù)。故選用PageRank 中心性計算節(jié)點重要性,進而定義基于共引網(wǎng)絡的節(jié)點重要性評價指標CPTR(CO-PatentRank),計算方法如公式所示:
其中,α為阻尼因子,一般取值0.85,COC為共引網(wǎng)絡鄰接矩陣,COCij表示節(jié)點j和節(jié)點i的共引強度,kj表示節(jié)點j的度數(shù),β表示節(jié)點i的個性化得分,其值一般設為(1-α)/n,n為網(wǎng)絡節(jié)點數(shù)。進而,可在計算網(wǎng)絡節(jié)點重要性指標CPTR 的基礎上識別核心專利。
將所有專利按照CPTR 值降序排列,取排名靠前的高CPTR 專利作為核心專利。共引關系能夠從動態(tài)發(fā)展的視角科學合理地評估專利價值,在共引網(wǎng)絡中占據(jù)重要位置的專利有更多的機會獲取技術知識、對其他專利產(chǎn)生重要影響,因而具有價值[3]。CPTR 值越大,意味著專利擁有的共引關系數(shù)量以及專利自身的重要性都相對較高,故其重要性相對更高,價值更大,越有可能成為核心專利。此外,專利網(wǎng)絡中的每個專利可看作是由多知識組成的技術整體,專利間的引用關系是知識溢出和流動的過程[27],這種技術擴散現(xiàn)象體現(xiàn)了技術的發(fā)生發(fā)展規(guī)律[28]。對于專利共引網(wǎng)絡來說,主題或內(nèi)容相關性強的專利共同被后續(xù)專利的引用會導致技術擴散范圍不斷擴大,CPTR 高的專利具有的技術擴散能力更大,越有可能成為核心專利。因此,可以利用CPTR 指標識別核心專利。
超精密拋光是在納米級表面實現(xiàn)平坦化,是制造集成電路的重要工藝,屬于我國芯片制造領域“卡脖子”技術之一,主要采用化學機械拋光(CMP)和無應力拋光(SFP)等關鍵技術[29]。目前,在平坦化工藝領域具有國際競爭力的企業(yè)主要集中在美國、日本和德國,識別該領域核心專利對跟蹤發(fā)展我國相關技術具有現(xiàn)實意義[30]。
數(shù)據(jù)獲取和預處理步驟如圖2 所示。首先,參考文獻[30]的檢索策略,檢索德溫特專利數(shù)據(jù)庫[31],檢索日期為2022 年7 月13 日,經(jīng)下載和數(shù)據(jù)清洗得到11 539 條“平坦化工藝”領域?qū)@麛?shù)據(jù),利用R 語言抽取專利PN 號、申請時間等屬性指標,形成實驗數(shù)據(jù)集;接著,借助igraph包構(gòu)建了專利引證網(wǎng)絡和專利共引網(wǎng)絡,并抽取了它們的巨連通分支,其中專利引證網(wǎng)絡擁有3 626 個節(jié)點和7 761 條邊,專利共引網(wǎng)絡擁有3 146 個節(jié)點和10 595 條邊,計算CPTR 值,將所有專利按照該值降序排列,并根據(jù)斐波那契數(shù)列將其劃分為核心專利、關鍵專利、重要專利和一般專利,完成核心專利的識別。
圖2 核心專利識別流程
兩種網(wǎng)絡的基本特征如表1 所示。網(wǎng)絡擁有的節(jié)點數(shù)量代表其評價網(wǎng)絡中每項專利的能力[24],兩種網(wǎng)絡的節(jié)點數(shù)差別不大,在DC 網(wǎng)絡的3 626 個節(jié)點中,只有480 個專利沒有共引關系,說明共引關系較為普遍,利用共引關系構(gòu)建網(wǎng)絡具有可行性。COC 網(wǎng)絡比DC 網(wǎng)絡擁有更多的專利對,連接關系更為豐富,更能展現(xiàn)專利間關系的多樣性。COC 網(wǎng)絡的平均度比DC 網(wǎng)絡更大,表明平均每個專利雖然只被引用2.41 次,但共引有6.74 次,利用共引關系有助于補充單一引證視角存在的局限。網(wǎng)絡密度能夠表征網(wǎng)絡中關系的數(shù)量及其相鄰程度,雖然兩者的密度都小于0.003,反映了專利網(wǎng)絡的稀疏性,但是COC 網(wǎng)絡密度明顯大于DC 網(wǎng)絡,表明共引網(wǎng)絡的整體結(jié)構(gòu)特征更完整。平均路徑長度可以作為判斷網(wǎng)絡中專利對之間“知識流”傳遞緊密程度的判斷標準[24],其值越低,說明網(wǎng)絡中專利對之間進行“知識流”傳遞的可能性越大,COC 網(wǎng)絡平均路徑長度為1.614,低于DC 網(wǎng)絡的2.034,表明共引網(wǎng)絡的“知識流”傳遞較直接引證網(wǎng)絡更強。
表1 兩種網(wǎng)絡的基本特征
引用時滯反映存在關系的“專利對”之間的申請時間差異,是評價專利網(wǎng)絡效果的關鍵指標,引用時滯越短表明專利網(wǎng)絡越能夠?qū)π鲁霈F(xiàn)的專利做出評價[24]。引用時滯分布如表2 所示。從表2 可以看出,COC 網(wǎng)絡的平均引用時滯為39.33 個月,DC 網(wǎng)絡為57.31 個月,平均引用時滯縮短了18 個月,意味著共引網(wǎng)絡比直接引證網(wǎng)絡更能評價新申請/授權的專利,時效性更強。
表2 網(wǎng)絡的時滯分布表
綜上,共引網(wǎng)絡與直接引證網(wǎng)絡一樣具有評價網(wǎng)絡中每項專利的能力,能夠用于識別核心專利,并且共引網(wǎng)絡的“知識流”傳遞較直接引證網(wǎng)絡更好,時效性更強,有可能識別出新申請/授權的高價值專利作為核心專利。
專利價值存在“長尾分布”特點,核心專利數(shù)量極少[5]。利用文獻[13]對核心專利的量化方法,將專利數(shù)據(jù)集劃分為核心、關鍵、重要和一般專利區(qū)。根據(jù)斐波那契數(shù)列得到四個分區(qū),分別占專利總數(shù)的5.57%、9.02%、23.61%和61.80%,其中核心專利僅占全部專利的5.57%,符合二八定律。
利用對比分析驗證CPTR 的識別效果。選用被引頻次(degree)、應用于直接引證網(wǎng)絡的PageRank 中心性(簡稱PR)作為比較指標,對比分析3 146 個專利中的175 個核心專利。
就總體識別結(jié)果而言,CPTR 指標能夠反映專利價值的“長尾分布”特點。各項指標得分的描述性統(tǒng)計結(jié)果如表3 所示??梢钥闯鲭m然degree 與PR、CPTR 的量綱不同,但其得分分布沒有明顯差異,三種指標偏度值均大于3,峰度值均大于23,得分分布呈現(xiàn)右偏厚尾特點。三種指標均能反映專利價值的“長尾分布”特征,說明不同識別方法間具有可比性,也側(cè)面驗證了CPTR 指標的合理性。
具體來看,表4 給出了CPTR 排名前20 的專利,比較共引強度、degree、PR 等指標,專利的具體信息參見表5。發(fā)現(xiàn)CPTR 排名高的專利其共引強度和degree 排名也較高,而PR 排名變化較大。共引強度排名前20 的有16 個,degree有18 個,而PR 只有8 個,說明兩種網(wǎng)絡的核心專利識別結(jié)果存在一定差異,共引網(wǎng)絡與直接引證網(wǎng)絡測度的技術關系價值有所不同。
表4 CPTR 得分前20 專利的各指標排名結(jié)果
US6368955-B120029022670.001 6981060.002 6756 US6358130-B120027832750.003 879290.002 6477 US6551935-B12003651124100.001 0482120.002 6468 US6017265-A20007272660.005 066140.002 4739 US6238271-B120017642580.005 127130.002 45210 US6565619-B12003601320170.000 7383080.002 37311 US6783436-B12004561720180.000 5323960.002 22912 US6135859-A2000482422130.005 86290.002 22813 US6022264-A200070922110.003 908280.002 21514 US6093651-A2000502322120.005 701110.002 18715 US6537133-B12003611221150.003 373350.002 06916 US6354928-B12002571618220.000 4354290.002 05817 US6274478-B12001453422140.005 817100.001 99518 US6689692-B12004433917270.004 339230.001 98819 US6328634-B12001591419190.000 9482350.001 94620
表5 CPTR 得分前20 專利
結(jié)合專家判斷和數(shù)據(jù)庫材料佐證,CPTR 識別出的核心專利多為領域內(nèi)的基礎性技術。如排序第1 的US6024630-A 來自全球最大的半導體設備和服務供應商應用材料公司(APPLIED MATERIALS INC),該專利公開了具有晶圓周長保持環(huán)組件的半導體晶圓拋光頭技術,可用于在拋光過程中保持基板的穩(wěn)定,為磨削工藝奠定了技術基礎。又如排序第2 的US6099604-A 來自美光科技有限公司(MICRON TECHNOLOGY INC),該專利公開了一種用于化學機械拋光工藝的研磨漿改進技術,由于使用了在研磨拋光過程中并不激進的CMP 技術,并且增加了拋光速率,為后續(xù)CMP 拋光工藝開辟了新道路[32]。從技術體系發(fā)展的內(nèi)在邏輯規(guī)律看,這類專利形成了該技術領域的雛域態(tài),處于共引網(wǎng)絡的核心位置,因此在技術領域發(fā)展過程中成為起到奠基作用的核心專利。
此外,CPTR 能夠?qū)⒉糠中律暾?授權的高價值專利識別為核心專利。以DE102007035266(2009)為例,其CPTR 排名第3,PR 排名第357,差異明顯。由于其公開年份相對較新,引用該專利的施引專利因為被引量相對較少所以價值相對較小,導致該專利的PR 得分較低、排名較后。但從共引網(wǎng)絡視角,該專利共引強度為69,在領域內(nèi)與其他專利的技術聯(lián)系密切,并且與該專利存在共引關系的專利價值較高,所以其CPTR排名靠前。這也反映了CPTR 指標的貢獻:當利用PageRank 算法識別技術領域內(nèi)的核心專利時,專利之間的引證關系并非必要條件,而利用共引關系仍能得到合理準確的識別結(jié)果,CPTR指標降低了PageRank 算法的約束條件。
本文研究了專利共引網(wǎng)絡和引證網(wǎng)絡識別核心專利的方法,比較分析了兩種網(wǎng)絡的結(jié)構(gòu)特征和時滯差異,在計算網(wǎng)絡節(jié)點重要性指標CPTR 的基礎上識別“平坦化工藝”領域核心專利,得到以下結(jié)論:
(1)專利共引網(wǎng)絡和專利引證網(wǎng)絡在識別核心專利方面存在差異。共引網(wǎng)絡能夠展現(xiàn)專利關系的多樣性,具有整體結(jié)構(gòu)特征更強,引用時滯更短,“知識流”傳遞能力更好等特點。
(2)專利共引網(wǎng)絡節(jié)點重要性指標CPTR 降低了約束條件,識別結(jié)果的時效性優(yōu)于傳統(tǒng)的專利引證網(wǎng)絡,能識別出新申請/授權的核心專利。
“平坦化工藝”領域具有國際競爭力的企業(yè)主要集中在美國、日本和德國,識別該領域核心專利對我國企業(yè)了解、掌握競爭對手技術現(xiàn)狀和創(chuàng)新模式具有借鑒作用,對跟蹤發(fā)展我國相關技術具有現(xiàn)實意義。
誠然,核心專利識別的復雜性源于專利分析對象的多樣性,專利文獻、專利權人、專利技術、專利分類、專利發(fā)明人等實體都可能成為核心專利識別的分析對象,需要根據(jù)不同的場景,利用不同的關系,應用不用的方法,使識別結(jié)果互為補充。