宋艷輝,邱均平
(1.杭州電子科技大學(xué)管理學(xué)院,杭州310018;2.杭州電子科技大學(xué)中國科教評價研究院,杭州310018)
文獻計量學(xué)發(fā)展至今,許多文獻計量學(xué)研究方法提出較早,并且經(jīng)過了充分的研究與發(fā)展,已經(jīng)相當(dāng)成熟。然而,專利也是一種文獻,將文獻計量方法拓展到專利文獻,探討專利計量方法,是一件有意義的工作。發(fā)明人專利文獻耦合源自文獻計量學(xué)中作者文獻耦合,作者文獻耦合則是論文文獻耦合基礎(chǔ)上提出的。文獻耦合,是指兩篇論文引用了同一篇文獻而形成了一種同引用關(guān)系,即耦合關(guān)系。文獻耦合最早是由Kessler[1]于1963年提出來的。作者文獻耦合將耦合的分析提升到作者層面,而不僅僅停留在論文層面,以論文的作者作為主要的對象[2]。拓展到作者層面后,文獻耦合就變成了一種動態(tài)關(guān)系,隨著論文的變化,作者文獻耦合也在動態(tài)的變化,因此,作者文獻耦合分析變得更加具有分析意義[3]。專利發(fā)明人如論文作者一樣,具有強烈的標(biāo)簽意義。一般認(rèn)為,論文作者的研究多為相對固定的,當(dāng)然,一位作者可能擁有多個研究領(lǐng)域,研究領(lǐng)域也有可能發(fā)生遷移,但短時間就發(fā)生重大變化以及頻頻發(fā)生變化的可能性并不大。因此,論文作者成為了很多文獻計量學(xué)者的重要分析與計量對象。
專利發(fā)明人之于專利,正如論文作者之于論文。專利發(fā)明人也往往具備相對固定的技術(shù)研究方向,因此,專利發(fā)明人是非常具有分析與計量價值的。除了專利文獻容易發(fā)生耦合外,德溫特分類號也是極易耦合的,在德溫特數(shù)據(jù)庫中,德溫特分類號[4]是德溫特調(diào)用大量的專業(yè)人士,將收入到德溫特數(shù)據(jù)庫中的專利信息進行深度加工,把來自不同國家不同語言的專利信息統(tǒng)一翻譯成英語,尤其是對晦澀難懂的題名與摘要信息都以簡明易懂的英語表達出來,并對專利的內(nèi)容、新穎性和應(yīng)用等方面進行提煉總結(jié)。其對每項專利都分配至少一個專利代碼,有的專利涉及多個專利分類代碼,人們可透過代碼很容易辨析出專利所屬的技術(shù)領(lǐng)域。因此,專利發(fā)明人、引文文獻和德溫特分類號構(gòu)成了專利耦合的重要分析單元與關(guān)聯(lián)關(guān)系,本文試從比較的角度,探究其之間的耦合關(guān)聯(lián)關(guān)系。
國內(nèi)外關(guān)于專利耦合的研究表現(xiàn)為三個方面的特征:①多為專利文獻耦合。即以引文作為媒介建立耦合關(guān)系,借此測度技術(shù)相似性[5]、發(fā)掘技術(shù)機會[6]、識別新興技術(shù)[7],并對可能出現(xiàn)的技術(shù)突破進行預(yù)見[8],或者側(cè)重于企業(yè)的競爭情報分析[9]。②多為專利權(quán)人耦合研究。如溫芳芳[10]曾經(jīng)提出以專利權(quán)人類號耦合進行科學(xué)合作的探測,Huang等[11]較早使用專利耦合探討高新技術(shù),顏端武等[12]以專利耦合方法研究技術(shù)創(chuàng)新網(wǎng)絡(luò),Sternitzke等[13]將專利耦合與社會網(wǎng)絡(luò)分析結(jié)合起來,進行過類似研究還有國內(nèi)的陳云偉等[14]。③有對比研究,多為專利耦合與專利共被引的比較及融合。其中有代表性的是高楠等[15]建議融合專利共被引和耦合方法進行前沿識別,李睿等[16]從聚類的可操作性、穩(wěn)定性、協(xié)同性等方面比較專利共被引與耦合方法。
從目前的研究可以看出,1994年Narin[17]最早提出專利計量的研究,之后Huang等[3]和孫濤濤等[9]進行了專利耦合的研究。關(guān)于專利耦合的研究遠遠沒有成熟,還有很多值得研究的角度以及研究不足之處。例如,①大多數(shù)研究多側(cè)重于方法的應(yīng)用,對方法本身的探討略顯不足,也即是對基礎(chǔ)理論研究不足。②多從專利權(quán)人角度進行耦合研究,實際上,專利發(fā)明人是專利的研發(fā)者,但并不一定就是實際擁有者,即并非專利權(quán)人,因此,對于具體研究專利的技術(shù)內(nèi)容方面,或者其他的特定研究目的,專利發(fā)明人比專利權(quán)人將更有分析價值,能夠得到更多的研究結(jié)論。③目前,有少數(shù)專利分類號耦合的探討,如溫芳芳[10],但這些研究還是遠遠不夠的,需要繼續(xù)向前發(fā)展。因此,基于以上的研究不足,本文提出,從專利發(fā)明人的角度進行專利耦合的研究,從方法本身的探討角度進行專利發(fā)明人文獻耦合與專利發(fā)明人德溫特分類號耦合的分析比較研究。德溫特分類代碼,是嚴(yán)格按照分類標(biāo)準(zhǔn)進行標(biāo)注的,包含3個大類:工程、電子電氣、化學(xué),下分許多部,部下又分子類,共包含188個子類。德溫特分類體系,由類→部類→子類構(gòu)成一個完整的層級分類體系。如t01(digital computers)就是表示數(shù)字計算機技術(shù)領(lǐng)域,為子類層面的技術(shù)領(lǐng)域。本文的發(fā)明人德溫特分類號耦合就是在子類層面的耦合。
德溫特數(shù)據(jù)庫(Derwent Innovations Index,DII)是本文重要的NPE專利數(shù)據(jù)來源。德溫特數(shù)據(jù)庫提供1963年以來至今的數(shù)千萬條專利信息,而且是每周更新一次[18-19]。數(shù)據(jù)樣本主要是NPE專利,NPE(non praticing enties)為非專利實施主體,其獲取專利不以具體實施為目的,NPE將專利視為可以流轉(zhuǎn)的商品,依靠專利交易活動賺取利潤,其專利運營行為既可能是正當(dāng)商業(yè)行為,也可能是濫用專利權(quán)的專利投機行為。選擇非專利實施主體專利為例,主要是我們對其比較熟悉,以及其專利價值一般比較高,有利于我們對兩種方法進行充分的討論。我們的數(shù)據(jù)檢索,采取高級檢索途徑,檢索項為專利權(quán)人。以專利權(quán)人名稱進行檢索,可以避開非標(biāo)準(zhǔn)代碼的非獨一無二性,很多企業(yè)享有同樣的非標(biāo)準(zhǔn)代碼等問題。獲取Eolas、Wi-Lan、Rambus、DataTreasury等NPE的 專 利 數(shù) 據(jù)[20],共 獲 得4624條專利數(shù)據(jù),建立專利數(shù)據(jù)集,即樣本數(shù)據(jù)。
與作者文獻耦合分析相類似,發(fā)明人專利文獻耦合表示,2位發(fā)明人在發(fā)明專利中因為引用了同一專利技術(shù)或者同一科學(xué)文獻而形成了一種關(guān)系,我們稱之為發(fā)明人專利文獻耦合,需要指出的是,專利引文中既包含專利文獻,也包含科學(xué)文獻,發(fā)明人專利文獻耦合也將科學(xué)文獻計算在內(nèi)。發(fā)明人類號耦合類似于作者學(xué)科耦合與作者關(guān)鍵詞耦合,是指2個發(fā)明人使用了同一個分類號而建立的關(guān)系,這里的分類號為德溫特分類號,一個德溫特子類類似于科學(xué)文獻中的一個學(xué)科或者一個主題詞。在本文的研究中,我們對發(fā)明人專利文獻耦合分析,命名為Inventor Bibliographic-Patent-Coupling Analysis,簡稱IBPCA;Bibliographic-Patent-Coupling意思是,耦合對象中既包含科學(xué)文獻,又包含專利文獻。發(fā)明人類號耦合分析,命名為Inventor Patent Classification-Coupling Analysis,簡稱IPCCA。
在耦合的計算方面,Zhao等[21]為每位作者分別建立數(shù)據(jù)集,數(shù)據(jù)集中包含作者的所有參考文獻,兩位作者數(shù)據(jù)集中相同的參考文獻數(shù)量即二者之間的耦合頻次。在IBPCA的計算中,發(fā)明人與作者是相對應(yīng)的,論文中的參考文獻與專利中的專利文獻與科技文獻是對應(yīng)的:發(fā)明人—作者、論文參考文獻—專利文獻+科技文獻。在IPCCA的計算中,每一個德溫特分類號相當(dāng)于一條專利引文,同樣可以將分類號抽取出來建立數(shù)據(jù)集,跟專利引文數(shù)據(jù)集的建立過程與方法基本一致,其計算方法也是一樣的。本文研究方法主要采用相關(guān)分析、因子分析、可視化分析方法。相關(guān)分析主要考察IBPCA、IPCCA的耦合總頻次、平均耦合頻次、最大耦合頻次的相關(guān)性水平。因子分析主要是通過因子模型與殘差分析考察IBPCA與IPCCA的擬合優(yōu)度水平,通過因子載荷分析主要考察IBPCA與IPCCA在因子主題探測與發(fā)現(xiàn)上的異同。而可視化分析通過中心性測度發(fā)現(xiàn)因子主題的重要性以及相近與關(guān)聯(lián)度,K核分析可以進一步探測核心主題。
本文以普賴斯定律作為核心專利發(fā)明人的選定標(biāo)準(zhǔn),統(tǒng)計NPE專利數(shù)據(jù)中的發(fā)明人,分兩次統(tǒng)計:僅僅考慮第一專利發(fā)明人與考慮所有發(fā)明人。如果是僅僅考慮第一發(fā)明人,專利發(fā)明最多的是WARE,FA,擁有專利數(shù)量為144,則根據(jù)公式計算而得到m=8.99。如果考慮全部作者,專利發(fā)明最多的仍是WARE,FA,擁有專利數(shù)量為296,即nmax=296,根據(jù)公式計算而得到m=12.89。這2種方式,擁有的共同作者有68位,僅考慮第一發(fā)明人得到的74位核心專利發(fā)明人中,只有6位不在其中。雖然考慮了全部發(fā)明人之后,發(fā)明人數(shù)量多了很多,核心發(fā)明人也隨著增多了起來,但是,通過第一專利發(fā)明人確定的核心專利發(fā)明人也同樣是有效的。因此,我們進一步篩選出的這68位作者基本可稱為NPE專利的杰出代表。此外,另一個相似之處是,這兩種方式,確定的核心專利發(fā)明人所擁有的專利量,占所有專利總量的比例是相當(dāng)?shù)摹H考慮第一作者的占比為34.0568%,而考慮所有作者的占比為35.7052%。因此,專利發(fā)明人及其專利呈現(xiàn)一種良好的集中與離散分布。兩種方式相互印證我們的結(jié)果是可信的。
分別計算每位發(fā)明人的耦合頻次,如表1所示。平均耦合頻次=耦合總頻次/所有發(fā)明人-1,最大耦合頻次為發(fā)明人在與除自身之外其他發(fā)明人建立的耦合頻次中的最大值,自耦合采取自己最大耦合頻次+1的方法,+1是為了增加自己與自己耦合的親密性。表1顯示,在IBPCA中,耦合頻次最高的3位發(fā)明人是WARE,FA、HAMPEL,CE、ZERBE,JL,同時也是平均耦合頻次最高的3位發(fā)明人;在IPCCA中,耦合頻次最高的3位發(fā)明人為WARE,FA、BEST,SC、ZERBE,JL,同時也是平均耦合頻次最高的3位發(fā)明人。我們發(fā)現(xiàn),IBPCA中排名第1位與第3位的發(fā)明人同時也是IPCCA中的第1位與第3位。發(fā)明人較高的耦合頻次,體現(xiàn)了發(fā)明人較高的研究活力,能夠與其他發(fā)明人建立較多的耦合關(guān)系,因此,WARE,FA、HAMPEL,CE、ZERBE,JL、BEST,SC這些發(fā)明人是NPE專利技術(shù)中比較活躍的研究者。最大耦合頻次又可稱為最強耦合強度,表示了發(fā)明人與發(fā)明人之間的相似程度,只有2位發(fā)明人的研究極為相似才會反復(fù)地引用同一專利文獻,或者反復(fù)地被歸類于同一分類號。表1顯示,IBPCA的最大耦合頻次對為WARE,FA—BARTH,RM;IPCCA的最大耦合頻次對為WARE,FA—PEREGO,RE。在最大耦合頻次方面,WARE,FA依然表現(xiàn)出較高的研究活力,在IBPCA與IPCCA中,WARE,FA都是最強耦合強度對象,只是其發(fā)生對象有所不同。在IBPCA中,WARE,FA的最大耦合對象為BARTH,RM,與PEREGO,RE的耦合頻次為575,排在了第3位,說明其與PEREGO,RE依然是非常相似的。在IPCCA中,WARE,FA的最大耦合對象為PEREGO,RE,與BARTH,RM的最大耦合頻次為50,排在了第4位。因此可以認(rèn)為,在IBPCA中的最大耦合頻次對,在IPCCA中依然是較高的耦合頻次對;而在IPCCA中最大耦合頻次對在IBPCA也可以保持較高的耦合頻次。通過以上分析,可以看到,IBPCA與IPCCA在耦合頻次計算方面還是有一定的相似性,至少在高頻次的發(fā)明人計算上呈現(xiàn)這種現(xiàn)象,那么從整體上分析是否仍然呈現(xiàn)出良好的相似性,即在較低頻次的發(fā)明人耦合上也是否呈現(xiàn)這種態(tài)勢,可以從下文的進一步分析中得到。
為進一步從整體上探析IBPCA與IPCCA的相關(guān)性水平,我們對68位發(fā)明人在IBPCA與IPCCA中的耦合頻次以及耦合排名進行相關(guān)性分析,如表2所示。所有的相關(guān)性水平都是在0.01水平上的測度,Sig.值都遠遠小于0.01,即表示相關(guān)性是顯著的。平均耦合頻次是在耦合總頻次的基礎(chǔ)上計算而得到的,因此,耦合總頻次與平均耦合頻次的相關(guān)性是1,表示完全相關(guān)。其排名的相關(guān)性也是平均耦合頻次排名跟最大耦合頻次排名的相關(guān)系數(shù)也為0.817。這說明在IBPCA中,耦合總頻次跟最大耦合頻次之間是存在明顯的相關(guān)性的,耦合總頻次較高,最大耦合頻次也容易較高。耦合總頻次排名、平均耦合頻次排名跟最大耦合頻次排名的相關(guān)系數(shù)也都為0.927。這說明相關(guān)性是很高的,發(fā)明人在耦合中頻次具有較高的排名,在最大耦合頻次中也往往是擁有較高的排名。此外,發(fā)明人耦合頻次排名的相關(guān)性要略高于頻次值的相關(guān)性。在IPCCA中,發(fā)明人耦合頻次排名的相關(guān)性跟頻次值的相關(guān)性是相當(dāng)?shù)?。在IPCCA中,耦合總頻次與最大耦合頻次的相關(guān)系數(shù)為0.751,耦合總頻次排名與最大耦合頻次排名的相關(guān)系數(shù)為0.749。這2個數(shù)值是極為接近的。在IPCCA中,發(fā)明人的耦合總頻次比較高,最大耦合頻次也是容易比較高的;發(fā)明人的耦合總頻次排名較高,則發(fā)明人的最大耦合頻次排名也容易較高。還可以發(fā)現(xiàn),無論是IBPCA,還是IPCCA中,耦合頻次(耦合總頻次、平均耦合頻次)與最大耦合頻次都是存在較高的相關(guān)性的,耦合頻次排名(耦合總頻次、平均耦合頻次)與最大耦合頻次排名也都是存在較高的相關(guān)性的;但在IPCCA中,這種相關(guān)性水平要略低于IBPCA。換言之,發(fā)明人在IBPCA中,具有較高的耦合頻次或者擁有較高的排名,則比IPCCA更容易獲得較高的最大耦合頻次及其排名。
表1 發(fā)明人耦合頻次分布(前10位)
表2 耦合頻次及排名相關(guān)性分析
加入專利量與專利量排名之后的相關(guān)性分析??梢钥吹剑贗BPCA中,專利量與專利總頻次、平均耦合頻次的相關(guān)性要大于IPCCA。IBPCA的相關(guān)系數(shù)為0.779,而IPCCA的相關(guān)系數(shù)為0.570。而在專利量排名與耦合總頻次排名、平均耦合頻次排名的相關(guān)性相差不大,分別為0.479、0.579。這說明,在IBPCA中,專利量與耦合總頻次、平均耦合頻次的直接相關(guān)性更大一些,發(fā)明人擁有多的專利發(fā)明,其在耦合方面更易獲得較高的耦合頻次。而在排名方面,相比IPCCA,IBPCA則并不明顯。在專利量及其排名與最大耦合頻次及其排名的相關(guān)分析系數(shù)上(0.780、0.711,0.414、0.591)看,IPCCA則比IBPCA更具優(yōu)勢,也就是說,相對于專利文獻耦合,在IPCCA中,擁有較多發(fā)明的發(fā)明人,更容易獲得較高的最大耦合頻次,在專利量排名較高,那么最大耦合頻次的排名也往往具有較高的名次。
以上的相關(guān)分析并沒有區(qū)分同一發(fā)明人在2種方法中的異同,實際上,分析同一發(fā)明人在不同方法中的表現(xiàn),則更能體現(xiàn)著2種方法的異同點[5]。為進一步挖掘IBPCA與IPCCA的相似性,分析IBPCA與IPCCA的共有發(fā)明人,如表3所示。數(shù)據(jù)反映,顯著水平是在0.01上的顯著相關(guān),Sig.遠遠小于0.01,表示相關(guān)性是存在的,IBPCA與IPCCA并非毫無關(guān)聯(lián)。IBPCA與IPCCA的發(fā)明人耦合總頻次相關(guān)系數(shù)是最高的,為0.618。IBPCA與IPCCA的發(fā)明人耦合總頻次排名的相關(guān)系數(shù)為0.568。這表示,發(fā)明人在IBPCA與IPCCA中的耦合行為還是基本趨于一致的,發(fā)明人在IBPCA中的耦合總頻次跟IPCCA中的耦合總頻次在一定程度上是相關(guān)的,而發(fā)明人在專利文獻耦合中的耦合頻次排名與同一發(fā)明人在專利類號耦合中的頻次排名也是保持了一定的相關(guān)性,也就是說變化并不大。
表3 IBPCA與IPCCA相關(guān)性對比分析
平均耦合頻次是根據(jù)耦合總頻次計算而得,因此,平均耦合頻次與耦合總頻次在IBPCA與IPCCA中的相關(guān)性分析結(jié)果保持一致。發(fā)明人在IBPCA與IPCCA中的最大耦合頻次相關(guān)性分析結(jié)果分別為0.455;發(fā)明人在IBPCA與IPCCA中的最大耦合頻次排名的相關(guān)性分析結(jié)果為0.467。這2個數(shù)值是極為接近的,而且相關(guān)系數(shù)并不高。這說明在最大耦合頻次方面,IBPCA、IPCCA并不是一種強相關(guān)性關(guān)系。分析發(fā)現(xiàn),有很多發(fā)明人在IBPCA有著良好的表現(xiàn),而在IPCCA中表現(xiàn)并不佳,如SPINAR,B在IBPCA中的最大耦合頻次排名為3,而在IPCCA中的卻排在了63位,相差60位。這些發(fā)明人都會弱化發(fā)明人在IBPCA與IPCCA中最大耦合頻次的相關(guān)性。當(dāng)然,大多數(shù)發(fā)明人在IBPCA與IPCCA中的最大耦合頻次及排名還是有著一定的相關(guān)性的。
分別構(gòu)建68位發(fā)明人的IBPCA矩陣與IPCCA矩陣。對角線為發(fā)明人的自耦合[22],對角線采取最大耦合頻次加1的方式是較為合理的。分別對IBPCA矩陣與IPCCA矩陣進行相似性轉(zhuǎn)換,消除數(shù)據(jù)在數(shù)量級與量綱上的差異。將相似矩陣導(dǎo)入SPSS進行因子分析,因子提取選用主成分分析。因子分析的旋轉(zhuǎn)方法為直接Oblimin方法[23-25]。
4.4.1 模型擬合及殘差分析
對IBPCA矩陣與IPCCA矩陣進行因子分析,碎石圖如圖1所示。從碎石圖上看,IBPCA與IPCCA的模型擬合結(jié)果優(yōu)度都比較理想。一條擬合優(yōu)度理想的碎石圖表現(xiàn)為,首先呈現(xiàn)陡峭地下降,并形成一個弧度,最后變成一條水平的直線。IPCCA的擬合結(jié)果要更優(yōu)于IBPCA,因為IPCCA的曲線更為陡峭、急劇的下降,弧度的銜接更為平滑而直接,最后的直線也更水平。IPCCA碎石圖也顯示,曲線從第6個節(jié)點開始轉(zhuǎn)為水平;IBPCA碎石圖顯示,從第10個節(jié)點之后在逐漸轉(zhuǎn)平,但具體哪個節(jié)點并不能完全看出。IBPCA共提取了12個因子,共解釋了90.138%的總方差;而IPCCA僅僅用5個因子,就解釋了97.327%的總方差。相對于IBPCA,IPCCA可以用更少的因子,解釋更多的總方差,方差的解釋力度要更好。主成分分析模型提取的因子也一般是呈現(xiàn)由高到低的順序排列,IBPCA提取的第一個因子也是最高的因子的特征值為23.672,占比34.811%的總方差,對應(yīng)于圖1a的第一個起點;IPCCA提取的第一個因子則為36.597,占比53.820%,并對應(yīng)于圖1b的首起點。IPCCA的第2個因子的特征值為20.695,占總方差的30.434%,即右圖的第2個下降的節(jié)點,該節(jié)點距離第一個節(jié)點較近,高踞在上端,這2個節(jié)點就累積解釋了總方差的84.254%。而IBPCA除第一個因子具有較高的解釋力度外,其他11個因子的解釋力度皆為一般水平。
圖1 因子擬合碎石圖
本文從殘差與公因子角度進一步分析比較IBPCA與IPCCA的擬合優(yōu)度。IPCCA計算觀察到的相關(guān)性和重新生成的相關(guān)性之間的參考,發(fā)現(xiàn)有20(0%)個絕對值大于0.05的非冗余殘差;IBPCA計算觀察到的相關(guān)性和重新生成的相關(guān)性之間的參考,發(fā)現(xiàn)有95(4%)個絕對值大于0.05的非冗余殘差。因此,從殘差上也顯示IPCCA的結(jié)果要優(yōu)于IBPCA。IPCCA通過因子分析提取的公因子也要比IBPCA理想。IPCCA的公因子變動范圍為0.716~0.999,最高公因子為0.999,最低公因子為0.716;而IBPCA的公因子變動范圍為0.482~0.992,最高公因子0.992也小于0.999,而最低公因子0.482也小于0.716。因此,從公因子變動范圍、最高公因子、最低公因子上都顯示IPCCA要優(yōu)于IBPCA。
4.4.2 余弦相似度比較
余弦相似度(cosine similarity)是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。重點考慮的是向量在方向上的差異而不是距離或者長度上的差異。如圖2所示,對于向量d1、q、d2。如果d1、q、d2為二維空間的向量,那么d1與q、q與d2的余弦相似度為
如果d1與q為坐標(biāo)軸向量,軸坐標(biāo)值分別為(m1,n1)、(m2,m2)那么d1與q的余弦相似度為
同理,可得到q與d2的余弦相似度。
如果d1=(X1,X2,…,Xn),q=(Y1,Y2,…,Yn),則
圖2 余弦相似度圖例
基于以上的理論,運行SPSS對IBPCA矩陣與IPCCA矩陣進行余弦相似度測度。結(jié)果顯示,共有4624對數(shù)據(jù),數(shù)據(jù)百分之百有效。這4624對數(shù)據(jù)是一一對應(yīng)的關(guān)系,通過對4624對數(shù)據(jù)的計算與比對,結(jié)果表明IBPCA矩陣與IPCCA矩陣為相似矩陣,相似度為0.396。這是對原始數(shù)據(jù)矩陣的余弦相似度計算結(jié)果。我們認(rèn)為,原始數(shù)據(jù)存在著較大的數(shù)據(jù)差異而會在一定程度上影響結(jié)果的表達,為消除數(shù)據(jù)在數(shù)量級與量綱上的差異,將相似性轉(zhuǎn)化后的矩陣進行余弦相似度計算。計算結(jié)果果然要比原始矩陣的計算結(jié)果理想很多,相似性大大增強。因此可以說,通過對IBPCA與IPCCA矩陣余弦相似性的計算,基本可以斷定IBPCA與IPCCA并不是毫無關(guān)系,是具有一定的相似性的。上文中,從耦合總頻次、平均耦合頻次、最大耦合頻次等方面的相關(guān)性分析論證了IBPCA與IPCCA是相關(guān)的,可以說是從宏、中觀層面的論證;而余弦相似度深入到每一個數(shù)據(jù)的比對與計算,可謂是從微觀層面的論證IBPCA與IPCCA的相似程度。這都證明了IBPCA與IPCCA并非沒有關(guān)系,而是具有一定關(guān)聯(lián)的。
4.4.3 因子載荷分析
因子標(biāo)簽的確定,通過檢查最高載荷發(fā)明人,考察最高載荷發(fā)明人與其他發(fā)明人(尤其是高載荷發(fā)明人)之間的高頻次耦合對,分析這些發(fā)明人之間的共性,尤其是研究引發(fā)這些高載荷發(fā)明人發(fā)生耦合的專利文獻內(nèi)容,并咨詢相關(guān)領(lǐng)域的專家學(xué)者,來確定因子的內(nèi)容,IBPCA因子載荷分析如表4所示。
因子1:最大載荷發(fā)明人為CONNORS,DP,與WENTINK,M的耦合頻次為76,與DALLY,WJ的耦合頻次為46,與MAENG,J的耦合頻次為40,與WARE,FA(載荷排名16)的耦合頻次為最大耦合頻次95。數(shù)字計算機與數(shù)據(jù)靜態(tài)存儲。因子2:最大載荷發(fā)明人為GARLEPP,BW,與ZERBE,J的耦合頻次為276,與STOJANOVIC,VM的耦合頻次為160,與STOCKHAM,MA耦合頻次43,與WERNER,CW的耦合頻次64。其中涉及最多的是信號生成與分布(TO1K)因子3:最大載荷發(fā)明人為SPINAR,B,與STANWOOD,KL的 耦 合 頻 次 為1689,也是最大耦合頻次為1689,與ONG,AE的耦合頻次為181,與VOGELSANG,T的耦合頻次為16。其中大量涉及的內(nèi)容是數(shù)字信息傳輸(W01A),為通信領(lǐng)域。為避免混淆,區(qū)別于因子11(數(shù)據(jù)存儲與傳輸,偏重計算機與半導(dǎo)體領(lǐng)域),定義該因子為通信數(shù)字信息傳輸。因子4、因子5不存在高載荷發(fā)明人,最大載荷發(fā)明人分別為LEE,W、BENYASSINE,A。因子6:最大載荷發(fā)明人為HYNECEK,J,主要檢查HYNECEK,J與COK,RS、HOSSAIN,M的共同技術(shù)研究來確定因子為半導(dǎo)體與集成電路。因子7,也不存在高載荷發(fā)明人,重點研究SU,H、GAO,Y共同的專利發(fā)明。因子8、因子9、因子10、因子12因子載荷普遍體低于0.4,并不存在高載荷發(fā)明人。因子11,最高載荷發(fā)明人為WEBSTER,MA,涉及最多的是數(shù)據(jù)存儲與內(nèi)存、互連、數(shù)據(jù)傳輸(T01H)、數(shù)據(jù)靜態(tài)存儲(U14A),可以看到,雖然二者屬于不同的大類,但內(nèi)容還是有很多交叉的,因子內(nèi)容可以歸納提煉為“數(shù)據(jù)存儲與傳輸”。因子4、因子5、因子7、因子8、因子9、因子10、因子12。本文集中統(tǒng)一標(biāo)注因子內(nèi)容,因為研究發(fā)現(xiàn)這7個因子都是源自SHLOMOT,E、GAO,Y、SU,H、THYSSEN,J、BENYASSINE,A這5位發(fā)明人,這些因子是相對獨立的,且因子載荷分布比較均勻。因子標(biāo)簽的確定我們首先主要考慮最高載荷發(fā)明人與耦合頻次最高的發(fā)明人之間的共性研究,當(dāng)因子之間發(fā)生沖突時,如因子10與因子12的最高載荷發(fā)明人,以及最高耦合對可能同為SHLOMOT,E、GAO,Y,我們再考慮第2或者第3載荷發(fā)明人的研究。如此下來,確定因子標(biāo)簽為,因子4為“計算機語音處理”,因子5為“一般語音處理”,因子7的載荷作者過少并且載荷值過低難以確定研究內(nèi)容,以“未查明”來表示,因子8為“便攜式手機”,因子9為“噪音處理”,因子10為“編碼與信息論”,因子12為“數(shù)據(jù)轉(zhuǎn)換與傳送”。
表4 IBPCA因子載荷分析
IPCCA因子載荷分析如表5所示。因子1:LAU,BC是最大載荷發(fā)明人,最大耦合頻次為22,LAU,BC與KIZER,JM耦合頻次為19,與STARK,DC的耦合頻次為21,與KIM,J的耦合頻次為16,與BEST,SC的耦合頻次為22。因子2:GAO,Y是最大載荷發(fā)明人,最大耦合頻次為51,與CONNORS,DP的耦合頻次為27,與MONRO,DM的耦合頻次為51,與SHLOMOT,E的耦合頻次為30。因子3:分析高耦合發(fā)明人共同的技術(shù)研究,尤其是BELL,M與ARMSTRONG,BA研究發(fā)現(xiàn),耦合最多的是數(shù)據(jù)存儲與內(nèi)存、互連、數(shù)據(jù)傳輸(T01H)、數(shù)據(jù)靜態(tài)存儲(U14A),因子內(nèi)容可以歸納提煉為“數(shù)據(jù)存儲與傳輸”,既涉及數(shù)字計算機領(lǐng)域,又涉及半導(dǎo)體與電子電路,是二者的交叉領(lǐng)域。因子4:只有2位發(fā)明人,分別是STOCKHAM,MA、HIDER,RC。STOCKHAM,MA是最大載荷發(fā)明人,而最大耦合頻次對象也恰好是HIDER,RC,頻次值為4。分析STOCKHAM,MA與HIDER,RC交合的研究,多為B大類的環(huán)系化合物研究。因子5:耦合較多的技術(shù)領(lǐng)域為:液晶顯示器(U14-K01)、光學(xué)(X26)。因子內(nèi)容可以為“LCD光學(xué)研究”。
4.4.4 可視化分析
運用NERDRAW對因子矩陣進行可視化展示。因子用圓形節(jié)點表示,發(fā)明人用方形節(jié)點表示。圓形節(jié)點與方形節(jié)點之間的連線,表示該發(fā)明人在該因子上具有載荷,且載荷值要大于0.2才會出現(xiàn)。連線的粗細代表因子載荷值的大小。因子用統(tǒng)一的顏色表示。方形節(jié)點的顏色代表不同的點中心性,紅色表示點中心性為1,軍綠色節(jié)點表示點中心性為2,粉色節(jié)點表示點中心性為3,黃色節(jié)點中心性為4,深藍色節(jié)點的點中心性為5,熒光色節(jié)點的點中心性為6。節(jié)點的大小代表中間中心性。
在IBPCA可視化圖譜(如圖3所示)中,通過中間中心性分析之后,可以發(fā)現(xiàn)3個比較重要的因子:數(shù)字計算機、通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸。通過后文的K核分析,也會發(fā)現(xiàn)這3個因子是最為重要的。這3個因子相互作用,交織在一起。聯(lián)系通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸?shù)陌l(fā)明人是VTANWOOD,KL,ARYANFAR,F。聯(lián)系數(shù)字計算機、數(shù)據(jù)存儲與傳輸?shù)陌l(fā)明人比較多。聯(lián)系數(shù)字計算機、通信數(shù)字信息傳輸?shù)陌l(fā)明人是WENTINK,M。數(shù)字計算機與“半導(dǎo)體與集成電路”也是比較密切的,有很多聯(lián)系發(fā)明人。
表5 IPCCA因子載荷分析
圖3 IBPCA可視化圖譜(彩圖請見http://qbxb.istic.ac.cn/)
在IPCCA可視化圖譜(如圖4所示)中,最為重要的因子為:數(shù)字計算機、通信數(shù)字信息傳輸。這也是相互作用最強的2個因子。中間有眾多的發(fā)明人相互聯(lián)系,這跟IBPCA是不一樣的。IBPCA僅有一位發(fā)明人聯(lián)系,2個因子之間的相互作用明顯比較弱?!皵?shù)據(jù)存儲與傳輸”與數(shù)字計算機的作用比較強,中間聯(lián)系的發(fā)明人有W00,SC、TSERN,EK、SHAEFFER,I、OH,KS、PEREGO,RE、BARTH,RM?!皵?shù)據(jù)存儲與傳輸”與通信數(shù)字信息傳輸?shù)南嗷プ饔靡脖容^強,中間聯(lián)系的發(fā)明人有MONRO,DM、SHUSTER,GS、MAENG,J、COK,RS。這幾位發(fā)明人同時也是聯(lián)系數(shù)字計算機與通信數(shù)字信息傳輸?shù)闹匾l(fā)明人。
可以看出,IPCCA探測到的最為重要的因子為:數(shù)字計算機、通信數(shù)字信息傳輸,在IBPCA中都有探測到。IPCCA探測到的數(shù)據(jù)存儲與傳輸,在IBPCA也有探測到,該因子在IBPCA是中重要因子。IPCCA探測到的LED光學(xué)研究,在IBPCA中并未探測到。IBPCA探測到很多小的因子,如便攜式手機、一般語音處理、計算機語音處理、編碼與信息論、數(shù)據(jù)轉(zhuǎn)換與傳送、噪音處理等,在IPCCA中也查詢不到。因此,可以說,IBPCA能比IPCCA探測到更多因子,尤其是小的因子。因子之間的相互作用也是不一樣的,在IPCCA相互作用強,未必會在IBPCA中表現(xiàn)出強作用力;在IBPCA中作用力強,也未必會在IPCCA表現(xiàn)出強作用力。
本文進一步進行K核分析,可以得到更為核心的研究領(lǐng)域及發(fā)明人。分別進行K=1與K=2,5的計算就可以看到IBPCA的核心研究領(lǐng)域(因子)有4個分別是:數(shù)字計算機、通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸、半導(dǎo)體與集成電路。而進行K=3與K=1,2的計算,IPCCAK也發(fā)現(xiàn)了3個核心研究領(lǐng)域:數(shù)字計算機、通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸。因此,可以看出IBPCA與IPCCA發(fā)掘的核心領(lǐng)域大體是相當(dāng)?shù)摹?/p>
本文以NPE專利為例,探析發(fā)明人專利文獻耦合與德溫特分類號耦合,主要的研究結(jié)論如下:
圖4 IPCCA可視化圖譜(彩圖請見http://qbxb.istic.ac.cn/)
(1)從專利量及其排名、耦合總頻次及其排名、平均耦合頻次及其排名、最大耦合頻次及其排名的相關(guān)分析結(jié)果顯示,IBPCA與IPCCA是具有相關(guān)性,相關(guān)水平會略有不同。例如,耦合頻次與最大耦合頻次都是存在較高的相關(guān)性的,耦合頻次排名與最大耦合頻次排名也都是存在較高的相關(guān)性的,而最大耦合頻次在二者之中卻呈現(xiàn)弱相關(guān),平均耦合頻次與耦合總頻次趨于一致。
(2)IBPCA與IPCCA的模型擬合結(jié)果優(yōu)度均比較理想。IPCCA的擬合結(jié)果更優(yōu)于IBPCA。IPCCA可以用更少的因子,解釋更多的總方差,方差的解釋力度要更好。公因子變動范圍、公因子大小等也顯示IPCCA要優(yōu)于IBPCA。余弦相似度從微觀層面揭示了IBPCA與IPCCA的相似程度。
(3)IBPCA能比IPCCA探測到更多主題,在規(guī)模較小的主題上發(fā)現(xiàn)更具優(yōu)勢,規(guī)模小的主題往往體現(xiàn)了前沿領(lǐng)域。IBPCA與IPCCA中主題的相互作用會有差異,強弱難辨,即在IPCCA相互作用強,未必會在IBPCA中表現(xiàn)出強作用力;在IBPCA中作用力強,也未必會在IPCCA表現(xiàn)出強作用力,需要進一步的實證研究。
(4)IBPCA與IPCCA發(fā)掘的NPE核心領(lǐng)域大體是相當(dāng)?shù)?。IBPCA的核心研究領(lǐng)域有4個分別是:數(shù)字計算機、通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸、半導(dǎo)體與集成電路;而IPCCA也發(fā)現(xiàn)了3個核心研究領(lǐng)域:數(shù)字計算機、通信數(shù)字信息傳輸、數(shù)據(jù)存儲與傳輸。這些主題基本代表了NPE研究的核心所在。
本文是文獻計量學(xué)方法向?qū)@墨I領(lǐng)域拓展的有益嘗試,并希望專利耦合最終能像文獻耦合那樣成為成熟的方法得以廣泛應(yīng)用。本文提出的發(fā)明人專利文獻耦合與發(fā)明人德溫特分類號耦合在未來能夠在專利文獻結(jié)構(gòu)探測方面發(fā)揮重要作用,而且這兩種方法各有特點,也各有優(yōu)勢,如果能結(jié)合起來使用將會取得比較好的研究結(jié)論。同時,本文也存在一定缺點和不足:一是僅僅選擇了德溫特數(shù)據(jù)庫進行實證研究;二是人名雖然根據(jù)機構(gòu)進行過清洗,但難免會有錯誤與遺漏。這些不足之處有待在未來工作中做進一步完善。