〔摘 要〕本文對專利情報研究中的共現分析方法作了分類,將其分為共引、共詞與共類分析3種。并結合專利地圖分析探討了3種分析方法的主要功能、作用及結果表現形式,通過制作專利地圖,對3種共現分析所產生的結果作了解釋,并對這3種共現分析方法的優(yōu)缺點作了評述。
〔關鍵詞〕共現分析;共引;共詞;共類;專利地圖
〔中圖分類號〕G353 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)07-0036-04
The Application Study of Co-occurrence Analysis in Patent MapGao Lidan1,2 Xiao Guohua1 Zhang Xian1 Fang Junmin1
(1.Chengdu Branch of National Science Library,Chinese Academy of Sciences,Chengdu 610041,China;
1.School of Economics Management,Southwest Jiaotong University,Chengdu 610031,China)
〔Abstract〕This article discussed the co-occurrence analysis methods,such as co-words,co-classifications,co-citations,and presented their applications for patent mapping respectively.Then,the functions and end products of each method were presented.Through patent mapping,the meanings of each method were given.
〔Key words〕co-occurrence analysis;co-citations;co-words;co-classifications;patent map
共現分析是將各種信息載體中的共現信息定量化的分析方法[1],以揭示信息在內容上的關聯程度。在計算機技術的輔助下,共現分析以其方法的簡明性和分析結果的可靠性,成為支撐信息內容分析研究過程的重要手段和工具。國內外對共現分析雖已有一些研究[2-3],但還鮮有在專利分析領域的應用研究。
共現分析方法的研究對象較廣,包括對文本中的詞匯(關鍵詞等)、分類號、引文和文獻中的其他有意義的字段。有學者將共現分析分為同引分析、共詞分析與主題詞鏈聚類分析[3]。在專利分析中,根據專利文獻的特點,我們將共現分析的種類主要分為共引分析、共詞分析、共類分析。本文對專利分析領域中可用到的這3種主要共現分析方法分別進行介紹,并對各種方法的優(yōu)缺點進行了評述。
1 共引分析
共引又稱同引,指2篇文獻同時被后來的1篇或多篇文獻引用,同時把共同引用這2篇文獻的文獻數量稱為共引強度[4]。共引分析是引文分析中最具影響力的分析方法之一,利用共引分析可以得出分析對象之間由引文關系形成的關聯關系,對這些信息用學科專業(yè)知識加以解釋和分析判斷,可以揭示研究對象的規(guī)律、預測其發(fā)展趨勢。2篇文獻被后來文獻同時引用的次數越多,表明這兩篇文獻的關聯程度越大,即說明這2篇文獻在內容上相似性較大,按照聚類分析的思路,這兩篇文獻可以被聚為一類。
縱觀共引分析研究的發(fā)展歷程,主要有3個系列:以Small為代表的以文獻為分析單位所做的文獻共引分析研究;以White為代表的以作者為分析單位所作的作者共引析研究;以及以Kostoff為代表利用知識發(fā)現和數據可視化技術的綜合集成分析階段[5]。
目前的共引分析研究主要集中在對期刊文獻的研究上,主要是由于期刊文獻的
參考文獻著錄較完善,所以引文信息豐富,便于進行統計分析。而專利文獻的引文分析較少,一般只能限于外國專利文獻的分析,中國專利尚缺乏可供分析的引文數據。將作者共引分析理論應用于專利分析中,可以對申請人(機構)關系進行分析,比如,2個或多個申請人(機構)的專利文獻同時被后來的專利文獻引用的次數越多,則表明這兩個或多個申請人(機構)的研究內容相似性越大,即表明技術更相近。圖1為采用德溫特分析家軟件,對某電子領域申請人(機構)的被引情況作的共引圖,圖中可以看出:
(1)NOKIA和NEC公司相距較近,表明這兩家公司的相關性較強,研究領域較為接近。后臺數據顯示,NOKIA有12件專利被MOTOROLA引用,有15件專利被TELEFONA引用;NEC有11件專利被MOTOROLA引用,有10件專利被TELEFONA引用。
(2)MASSACHUSETTS、CSI、ECHELON 3家公司形成另外一簇,表明這3家公司的相關性較強,研究領域較接近。后臺數據顯示,MASSACHUSETTS公司有7件專利被IBM公司引用,有5件專利被CSI公司引用,有5件被ECHELON引用;ECHELON有7件專利被IBM公司引用,有6件被CSI公司引用,有5件被NORAND公司引用;CSI公司有8件被IBM公司引用,有7件被NORAND公司引用,有6件被ECHELON引用。這3家公司中,MASSACHUSETTS和ECHELON總有1家同時被另外2家引用,而任兩家公司又同時被另外的兩家公司所引用。
從圖上還可以得出技術關聯性較大的公司還有QUALCOMM與NORTEL公司;MOTOROLA與ATT公司;DIGITAL ANGEL與MICRON公司等。
2 共詞分析
共詞分析是文獻計量學常用的研究方法,是通過分析在同一個文本中的詞匯對(單詞或名詞短語對)共同出現的情況,以發(fā)現科學領域的學科結構的定量分析方法。采用文獻所列的關鍵詞或從文本中選擇的關鍵詞,通過描述關鍵詞與關鍵詞之間的關聯與結合,揭示某一領域研究內容的內在相關性和學科領域的微觀結構。該方法常用于展示學科的發(fā)展動態(tài)和發(fā)展趨勢,還可用于科技預測,發(fā)現新的學科增長點和突破口。
例如,某一時期發(fā)現某一學科有相當一部分科學家的論文顯示某2個或更多術語頻頻共現,便可認為這種共現展示了該學科的一個新的蓬勃發(fā)展的研究領域。關鍵詞共現分析還可以用于科技預測,發(fā)現新的學科增長點和突破。例如,如果有文獻研究表明術語A與術語B之間存在較強的共現關系,術語A與術語C之問也存在較強的共現關系,那么可以推測術語B和術語C之間也可能存在某種關聯,通過揭示術語B和術語C之問的關系便有可能導致科學上的某種創(chuàng)新性發(fā)現[6]。
德溫特專利數據庫中的題名項,是德溫特公司的著錄專家經充分凝煉專利申請的創(chuàng)新內容后再加以著錄標引的,相當于揭示專利內容的微型文摘。因此,題名中采用的關鍵詞是對申請人技術創(chuàng)新內容的精煉提示符,可作為計量研究的重要指標。我們對德溫特專利數據庫中收錄的無線傳感網領域的專利申請題名作了詞頻分析,從中離析出每份申請的研究對象,選取較高詞頻的48個關鍵詞作共詞分析。圖2是共詞分析結果的關聯圖表現形式,結果顯示:
(1)涉及node(s)與sensor(s)的專利申請數量最多。這與node(s)或sensor(s)屬無線傳感器網絡的基本物理單元的性質有密切關系;
(2)圍繞node(s)主題,部分技術主題形成了以其為核心的主題簇;
(3)cluster、path、ad-hoc、router、TDMA、wireless mesh network等主題詞,與node(s)關聯緊密,顯示上述方面的技術與節(jié)點技術創(chuàng)新內容的關系較為密切,是互為關注較多的領域;
(4)Carrier sense multiple access、collision、error correction等形成關系緊密的另一主題簇,表明在其代表的無線傳感網信道方向,已有深入和細化研究。
3共類分析
在上述2種方法中,共引分析已被廣泛采用,但由于中國專利數據庫缺乏引文數據,只能限于對外國專利數據庫中收錄專利進行引文分析;共詞分析在專利之外的文獻分析中應用也較為廣泛,但在專利文獻中,由于沒有關鍵詞,所以取詞還是一個難點,現有的德溫特分析家軟件雖然可以對德溫特專利數據庫中的專利文獻進行截詞,但從截取的海量詞匯中挑選出能反應出相關技術的詞又需要分析者除了具有情報分析能力外,還應具有較高的專業(yè)知識,這無疑給分析帶來了一定的困難。因此,共類分析便被提出了。
對共類分析研究較早的是1993年德國學者SYBILLE HINZE,他通過對書目的共類與共詞分析研究新興學科的發(fā)展[7]。此外,其它領域也相繼出現了共類分析的研究[8-9]。
國際上在專利領域進行共類分析的研究還比較少,國內還未見有相關文章。鑒于共詞分析取詞的困難和共引分析對數據庫的要求而使得二者用于分析均產生一定的局限性,相比之下,共類分析的數據容易取得。每篇專利至少有1個國際專利分類號(IPC號),一般還會有多個專利分類號,表明該專利涉及的技術內容包含多個領域,所以通過對專利分類號進行共現分析,可以發(fā)現現有研究中具有密切關聯的領域。所以專利共類可定義為:2個或2個以上的分類號在多篇專利文獻中共同出現的次數反映了這些分類號所代表的領域間的研究關聯程度。如果把某篇專利文獻的分類號看作是代表此專利技術涉及的多個關鍵詞(專利技術涉及到的多個研究方向),共類分析的思想與共詞分析的思想便體現出相似之處來。
現有的專利分類體系包括國際專利分類法(IPC)、美國專利分類法(UPC)、歐洲專利分類法(ECLA),以及德溫特公司編制的分類體系等。目前只有英、美、日等少數國家仍在采用自己的專利分類法,但在說明書及相應的檢索工具的著錄中都附有國際專利分類號。
圖3是美國專利數據庫中的授權納米專利的共類分析圖[10]。從圖中可以看出:分類號在不同專利文獻中共同出現的次數越多,它們在圖形上的距離越接近;圓點的大小體現了分類號在檢索出來的所有專利文獻中出現的次數的多少,頻次越高,圓點越大,從圖上可以看出,H01L是出現頻次最多的分類號。
圖3(b)是將圖3(a)中的分類號具體化為其所代表的技術內容后的共類圖。所有圓點按照共同出現的情況被分成了4個簇,分別用白色、淺灰、深灰與黑色顯示,所代表內容如下:
(1)白色:與基礎化學工業(yè)相關的專利技術,主要為原材料(化合物和涂層);
(2)淺灰:與測量相關的專利技術(包括對酶、微生物、長度、厚度、光學設備的分析);
(3)深灰:半導體、電子元件、特殊機器;
(4)黑色:醫(yī)藥品、化學品。
每個簇內的圓點相互聯系,有連線即代表了這些圓點所代表的技術內容同時被研究了,例如以黑色圓點簇為例:A61K(醫(yī)用配制品)與C07C(無環(huán)或碳環(huán)化合物)、C01B(非金屬化合物)、B01D(分離)等分類號間存在著聯系,表明這些分類號所屬的專利技術中這些領域同時出現了,即說明在納米技術領域,醫(yī)用配制品的研究涉及到了無環(huán)或碳環(huán)化合物、非金屬化合物,以及分離技術等。
4 結 語
本文對共詞分析、共引分析與共類分析作了介紹,并通過將這3種共現分析應用到實際專利分析中,詳細說明了各種分析所能產 生的結果。雖然說專利分類號是專利審查員通過較為專業(yè)的方式給出的,一般都能代表專利 文獻所涉及到的研究內容,可以彌補共詞分析由于選詞誤差造成的問題,但共類分析也仍然 存在一些不足,比如有些專利文獻只有一個分類號時,則這些專利文獻在分析中不會被體現 出來。
在專利分析中,根據不同的數據庫可以選擇不同的共現分析方法。尤其是在對中國專利進行分析時,由于缺乏引文數據,無法進行共引分析,又由于中國專利文獻的標題一般較為簡單,不能反映出其所代表文獻所包含的大部分內容,因此這種情況下,共類分析是較優(yōu)的選擇。而對于德溫特專利數據庫,由于該數據庫中的專利文獻的標題都由領域專家作了二次加工,而且德溫特數據庫中還有引文數據,所以3種共現分析方法都可以使用。
參考文獻
[1]R.N.Kostof.Database tomography:muhidisciplinary research thrusts from co—word analysis[C].Proceedings:Portland International Conference on Management of Engineering and Technology,1991.
[2]Loet Leydesdorff,Liwen Vaughan.Co-occurrence Matrices and their Applications in Information Science:Extending ACA to the Web Environment[J].Journal of the American Society for Information Science and Technology,2006,57(12):1616-1628.
[3]王日芬,宋爽,苗露.共現分析在知識服務中的應用研究[J].現代圖書情報技術,2006,135(4):29-34.
[4]龐景安.科學計量研究方法論[M].北京:科學技術文獻出版社,2002.
[5]康宇航.一種基于共現分析的科技跟蹤方法研究[D].大連理工大學,2008.
[6]謝彩霞,梁立明,王文輝.我國納米科技論文關鍵詞共現分析[J].情報雜志,2005,(3):69-73.
[7]Sybille Hinze.Bibliographical cartography of an emerging interdisciplinary discipline:the case of bioelectronics[J].Scientomeotics,1994,29(3):353-376.
[8]M A Spasser.Mapping the terrain of pharmacy:Co-classification analysis of the International Pharmaceutical Abstracts database[J].Scientometrics,1997,39(1):77-97.
[9]Joachim Schummer.Multidisciplinarity,interdisciplinarity,and patterns of research collaboration in nanoscience and nanotechnology[J].Scientometrics,2004,59(3):425-465.
[10]Martin Meyer.What do we know about innovation in nanotechnology[J].Scientometrics,2007,70(3):779-810.