劉桂鋒 王秀紅
[摘要]專利分析是競爭情報工作中的重要組成部分。Aureka是典型的文本可視化系統(tǒng)之一。采用文獻計量學方法,對國內中國知網(wǎng)、維普等數(shù)據(jù)庫有關Aureka專利分析軟件的時間分布、期刊分布、作者及其單位和關鍵詞分布進行了分析研究。通過文獻主題的知識挖掘,探討了該領域論文研究熱點及今后可能發(fā)展趨勢。
〔關鍵詞〕Aureka;專利分析;專利地圖;專利分析軟件;文獻計量
DOI:10.3969/j.issn.1008-0821.2011.07.025
〔中圖分類號〕G250.252 〔文獻標識碼〕B 〔文章編號〕1008-0821(2011)07-0106-05
A Bibliometric Analysis of Aureka Patent Analysis ToolLiu Guifeng Wang Xiuhong
(Institute of Scientific & Technical Information,Jiangsu University,Zhenjiang 212013,China)
〔Abstract〕Patent analysis is an important part of competitive intelligence.Aureka patent analysis tool is one of the typical text visualization systems.Based on literature from 2001-2010 included in CNKI digital publishing platform and VIP,This paper made literature bibliometric statistical analysis about the subject of Aureka research through these aspects of age distribution,intelligence source distribution,researchers and institutions distribution and keywords.Hot research topics of Aureka patent analysis tool was obtained based on knowledge mining from literature text.The paper tried to sum up the study on Aureka patent analysis in the past decades,so as to provide reference for further research and development.
〔Keywords〕Aureka;patent analysis;patent map;patent analysis tool;bibliometrics
Aureka知識產(chǎn)權管理系統(tǒng)最早由美國Aurigin Systems Inc公司推出。2002年,歸由美國Micropatent,LLC.公司所有。2004年,被美國Thomson集團公司收購,Aureka現(xiàn)成為Thomson集團旗下一個重要產(chǎn)品。Aureka是專利文本挖掘和可視化領域的先驅,允許組織和知識產(chǎn)權管理。文本挖掘功能是基于關鍵字和統(tǒng)計分析。Aureka信息平臺[1]是用戶開展專利情報研究、知識產(chǎn)權管理、專利信息利用等工作的有益工具。
Aureka是一個提供在線查詢、監(jiān)控、分析服務的比較強大的專利分析平臺。主要分為下面4個模塊[2]:查詢模塊(Searching)、主題分布模塊(ThemeScape)、引用模塊(Citation Tree)和報告表達模塊(Reporting)。該工具的關聯(lián)可視化分析技術目前在國內處于領先地位,在國際上也具有一定特色。這種深層次的專利信息分析工具,能夠為專利情報人員解決九大問題[3]。
專利地圖(ThemeScape)采用先進的文本挖掘技術,對專利或文獻進行分析,根據(jù)專利技術進行自動聚類。通過專利地圖,既可以迅速了解技術的總體分布和技術熱點;也可以了解競爭對手的技術發(fā)展歷程和技術分布;還可以幫助用戶快速篩選專利技術,便于制定公司的知識產(chǎn)權戰(zhàn)略。如通過質子交換膜燃料電池技術的專利地圖[4],就可以了解該技術的總體分布。
引證分析是Aureka專利分析工具的特色之一。通過專利引證分析[5],科研人員能夠發(fā)現(xiàn)潛在的競爭對手、確定技術發(fā)展趨勢或最新應用、識別競爭對手的專利戰(zhàn)略和評估自己的核心技術等。如蘋果公司[6]專利被引情況的Aureka圖,能夠揭示該公司的核心專利技術。
Aureka系統(tǒng)中的報告工具,能對專利數(shù)據(jù)進行各種統(tǒng)計分析。報告模式主要分為三大類:關鍵信息摘要報告(Key Summary Report)、詳細報告(Detailed Report)和要點圖表式報告(Pivot Tables)。
1 數(shù)據(jù)來源
本文以中國知網(wǎng)、萬方和維普的數(shù)據(jù)庫進行檢索,選擇“Aureka”為檢索詞,檢索范圍“主題”或“題名”或“摘要”或“關鍵詞”或“全文”,檢索界面中的入庫時間選“所有年份”。檢索時間截止2010年12月28日。獲取的數(shù)據(jù)導入到NoteExpress文獻管理軟件,經(jīng)過去重處理,得到42篇文獻記錄。
2 文獻計量分析
2.1 文獻增長分析
圖1 2001-2010年我國Aureka研究的文獻分布
文獻的年代分布分析在一定程度上反映了該學科的研究發(fā)展速度和研究水平規(guī)模。圖1為2001-2010年我國Aureka研究的文獻分布,其中2010年數(shù)據(jù)作為參考,因有很多論文還沒有全部刊出和檢索。從該圖可知,論文數(shù)量在總體上呈上升的趨勢。最早的是在2002年,甘利人[8]介紹Aureka 分析工具的引文樹功能。從2005-2008年是緩慢增長的階段,年均論文4篇。2009年是產(chǎn)出最多的1年,為18篇,超過了過去幾年的總和。預計2010年的論文至少不會低于2009年,因為Aureka在專利分析方面越來越體現(xiàn)其價值。
2011年7月第31卷第7期Aureka專利分析工具的文獻計量分析July,2011Vol.2.2 文獻分布分析
統(tǒng)計顯示,42篇文獻分布在22種期刊中,刊均載文量為2篇。根據(jù)布拉德福文獻集中與分散定律[9],大量的某領域的專業(yè)論文集中在數(shù)量較少且質量較高的期刊上,這些期刊是該領域的核心期刊。表1是根據(jù)布拉德福定律,按照論文數(shù)量的多寡以遞減順序排列,依據(jù)每區(qū)刊載論文數(shù)量相等的原則,分成的核心區(qū)、外圍一區(qū)和外圍二區(qū)。從該表可知,核心區(qū)和外圍一區(qū)的絕大部分期刊是圖書情報學2008年版北大中文核心期刊。利用Aureka的專利分析現(xiàn)在主要研究領域仍屬于圖情類, 所以發(fā)表的文獻主要集中在圖情類期刊。表1 論文期刊統(tǒng)計分布
序號期刊名稱論文數(shù)量分區(qū)及論文數(shù)量1誠執(zhí)圖書情報技術62城楸ɡ礪塾朧導63懲際榍楸üぷ31 154科學觀察35城楸ㄑП26懲際榍楸ㄖ識27城楸ㄔ又28懲際橛肭楸29中國發(fā)明與專利210現(xiàn)代情報22 151112種期刊123 12(期刊名稱前面打常為2008年版北大中文核心期刊)2.3 文獻作者及作者單位分析
圖2 論文“核心作者”及其分表論文的數(shù)量
通過作者分析,可以了解某領域的主要作者和核心作者群,有利于讀者了解某作者的研究情況,促進學術研究與交流。本次研究的42篇文獻集合的著者總數(shù)達到105位作者(全部合著者計算在內),篇均作者數(shù)大約為2.5人。13篇論文是由1位作者獨立完成的,其余29篇論文均是合作完成的,其中有2篇與外國人合作的,最多的1篇論文由6人合作完成。發(fā)表1篇論文的作者84人,占作者總人數(shù)的80%,形成了一個長長的尾部。可見大多數(shù)作者處于研究起步階段,內容不夠深入,研究連續(xù)性不強。
根據(jù)洛特卡定律,發(fā)表1篇論文的著者人數(shù)應該占總人數(shù)的60.79%左右,發(fā)表2篇論文的作者大約是發(fā)表1篇論文作者的1/4。對于本研究,發(fā)表1篇論文的作者84人,占作者總人數(shù)的80%,高于洛特卡定律的60.79%;發(fā)表2篇論文的有7人,占發(fā)表1篇論文的18.18%,又低于洛特卡定律。主要是由于Aureka專利分析目前還處于起步階段,尚未形成核心作者群,目前還沒有達到采用洛特卡定律的條件。
根據(jù)普賴斯定律[10],“核心作者”應該完成所有專業(yè)論文總和的一半,核心作者最低發(fā)文數(shù)m的值為:m=0.749nmax,其中n璵ax是指發(fā)文最多的作者所發(fā)表的論文數(shù)。對于本研究,n璵ax為張志強的4篇,代人上式,得到核心作者最低發(fā)文數(shù)m為2,即表明,發(fā)表2篇論文以上的為“核心作者”,見圖2??偣灿?位作者的論文數(shù)量大于等于2篇,占總作者數(shù)的8.5%,發(fā)表論文總數(shù)為24篇,占總論文數(shù)的57%。符合普賴斯定律的杰出作者發(fā)表了全部作者論文的50%。表2 論文作者單位分布
排序作者單位論文
數(shù)量所占比例
(%)1中國科學院國家科學圖書館57.72中國科學院國家科學圖書館成都分館46.23國家知識產(chǎn)權局知識產(chǎn)權發(fā)展研究中心南京大學信息管理系中國科學院研究生院中國科學院文獻情報中心中國科學技術信息研究所上海圖書館上??茖W技術情報研究所34.6
全部42篇文獻的105位作者,來自65個高校和科研結構,發(fā)文量為2篇的有4家單位,只發(fā)表1篇的為43家。發(fā)文量大于3篇的機構共計8個,如表2所示。中國科學院國家科學圖書館以5篇論文排在首位,僅隨其后的是中國科學院國家科學圖書館成都分館,發(fā)表3篇論文的有6家單位。通過發(fā)文量的分析,可以看出,只有1家為高校,其余均為科研機構,并且中國科學院是該領域的主導研究力量。
2.4 文獻關鍵詞分析
關鍵詞鮮明直觀地表述文獻論述或表達的主題,對關鍵詞分析能發(fā)現(xiàn)Aureka專利分析研究熱點與重點。通過對42篇文獻統(tǒng)計,只考慮中文關鍵詞,共有176個關鍵詞,平均每篇文獻4個關鍵詞。借用描述文獻中的詞與其出現(xiàn)頻次之間關系的齊夫定律,繪制關鍵詞頻次(f)與序號(r)之間的關系,如圖3。由圖可知,Aureka專利分析軟件的研究熱點主要用來進行專利分析,制作專利地圖、文本挖掘和引文分析等。
圖3 關鍵詞頻次(f)與序號(r)之間的關系
2.5 文獻主題分析
主題分析既有助于了解該領域的研究重點和方向,又能把握當前研究領域的特點和變化趨勢,為以后的研究奠定基礎。本文對上述42篇文獻進行詳細分析后,得出有關Aureka專利分析主要分為2個方面:比較分析和實證研究。
2.5.1比較分析
專利分析工具[11]根據(jù)其處理不同結構的數(shù)據(jù)主要分為3類:第一類主要處理非結構化數(shù)據(jù),包括:ClearForest、Goldfire、Innovator、Inxight、TEMIS。第二類主要處理結構化文本,包括:Quosa、Refviz、STN AnaVist、VantagePoint。第三類用于處理混合數(shù)據(jù)(包括結構化和非結構化),包括:Aureka、M-CAM Doors、Wisdomain、PatAnalyst和Denwent Analytics。
國內學者從不同角度對10多種專利分析工具進行比較研究。范哲[12]從收錄范圍、檢索功能、檢索結果方面對Aureka等6個專利檢索工具進行了詳細的比較和分析。在Aureka的檢索界面,選擇相應的檢索方式、入口后,還可利用運算符、截詞符對檢索的數(shù)據(jù)范圍、時間、字段內容等進行限制。Aureka可保存檢索式定制Alerts,同一檢索式的檢索結果可被不同用戶共享,以email的方式通知更新檢索結果。每次檢索都會以一個新的文件夾來保存結果,并可對檢索結果集進行注釋,以目錄樹的方式組織專利和非專利文檔;用戶可設置不同文檔的訪問權限以便團隊中其他人分享;軟件中內嵌了郵件系統(tǒng),便于團隊成員溝通。劉佳佳[13]等從“數(shù)據(jù)整理和概念分組”、“列表或直方圖”、“比較矩陣”、“有結構數(shù)據(jù)聚類”、“無結構數(shù)據(jù)聚類”、“文檔聚類地圖”、“引文分析”以及“主語/行為/賓語”8個方面介紹當前國外主要的專利分析工具的功能及特色,并進行比較研究。Aureka采用ThemeScape視圖為用戶提供了聚類結果的直觀展示。Aureka ThemeScape允許用戶選擇附加停用詞,并利用相關反饋概念支持用戶對系統(tǒng)產(chǎn)生的初始結果進行再處理,有效地利用了用戶的領域專家意見。此外,ThemeScape還支持以時間片的方式對生成的等高線圖進行再組織。張靜[14]等根據(jù)基本統(tǒng)計分析、引證分析以及聚類分析這3種主要實現(xiàn)方法,對國內外12種專利分析工具的功能進行了比較研究。Aureka支持同族專利合并和展開,并可選擇合并后顯示US、EP或PCT的專利號。王敏[15]等從分析工具類型、分析數(shù)據(jù)源、主要功能、結果呈現(xiàn)、用戶群5個方面對國外常用的12種專利文本挖掘可視化分析工具進行系統(tǒng)介紹和比較。通過比較分析可知,Aureka與其它專利分析工具既有共性,又有本身特點,Aureka的功能與特點總結于表3。
表3 Aureka專利分析工具的主要功能與特點
主要功能名稱內容文 獻檢索功能收錄范圍US,DE,EP,GB,JP,F(xiàn)R,PCT檢索方式專利檢索、公司文件檢索檢索入口專利權人、專利發(fā)明人、專利號/公開號、公開日期、申請?zhí)?、申請日期、?yōu)先權、PCT專利信息、專利引用、非專利引用、相關申請、專利代理人、美國專利代理人、美國專利審核員、歐專局與PCT專利授權國家、德國翻譯專利運算符AND、NOT、OR、SAME、WITH、NAER、()截詞符場ⅲ慷次檢索能結果呈現(xiàn)方式以報表為主,每一類又分為基本報表和標準報表,共25個報表[11]引證分析引證數(shù)據(jù)來源US,DE,EP,GB,WO結果可視化顯示可選擇多級引證,最多可顯示5級;引證樹中目標專利可同時顯示多個字段;可自動或手動給不同專利標注不同顏色信息呈現(xiàn)與統(tǒng)計可對檢索結果集的后續(xù)引證專利進行統(tǒng)計聚類分析
(themeScape)數(shù)據(jù)來源自身包含的專利數(shù)據(jù)庫聚類角度按主題聚類;按標題和文摘、權力要求書、全文的內容進行聚類,每類還可進一步選擇更多字段結果呈現(xiàn)方式以主題地圖的形式可視化展示;可在主題地圖上將不同的公司標注成不同顏色;可用不同顏色標注不同的年份;可進一步瀏覽地圖上特定區(qū)域的單個或分組專利文檔,或導出地圖上特定區(qū)域的文檔[13]工具類型文本挖掘/可視化/數(shù)據(jù)庫檢索結果呈現(xiàn)ThemeMap、引文樹、聚類圖、專利報告用戶群研發(fā)人員/信息管理人員/決策人員/商業(yè)智能[14]特 點優(yōu)秀的專利分析軟件, 功能全面, 精湛的文本聚類功能和可視化技術[12]
2.5.2 應用分析
與前幾年的專利分析工具的比較研究相比,最近兩年,研究的熱點開始轉向利用Aureka軟件對某一具體領域進行分析。突出的表現(xiàn)在Aureka軟件的兩大特色功能:聚類分析地圖和引證分析。典型的應用領域分布在生物、食品、油氣、水資源等。張嫻等[16]繪制了生物合成技術美國專利景觀圖。張薇等[17]利用Aureka作出的有關水處理技術的專利地圖,由圖可知,專利申請的熱點之一是利用膜技術進行水處理。陳大明[18]獲得了食品生物技術之中某一重點技術領域的Aureka專利總體地圖和不同時間段技術演進圖。王金平等[19]利用Aureka專利分析平臺繪制了國際生態(tài)系統(tǒng)研究關鍵詞地圖,利用關鍵詞地圖可以直觀反映熱點及其變化情況。張樹良等[20]繪制了礦產(chǎn)資源領域專利技術布局圖,通過聚類分析結果,可以發(fā)現(xiàn)技術研發(fā)集中區(qū)和分散區(qū)。顧震宇等[21]繪制了燃料電池的技術研發(fā)重點及技術熱點演進Aureka地圖。卞志昕[22]比較了固體氧化物燃料電池的專利和論文的Aureka地圖,學術研究更側重基礎研究;而專利技術更關注實際產(chǎn)品所需要的結構和功能性研究。王雪梅等[23]利用Aureka分析平臺對文獻進行數(shù)據(jù)挖掘,在對國際生物多樣性研究的熱點與發(fā)展態(tài)勢分析的基礎上,得到國際生物多樣性研究論文的標題詞地圖。張嫻[24]得到了智能與仿生材料領域專利的技術分布景觀圖,能夠反映總體和不同時間段的研發(fā)熱點。并且以寶潔公司涂料組合物技術和自修復增強型建筑基體材料為例,通過對重要專利技術的專利引證關系分析得出,回溯引證分析能夠進行技術追蹤分析,后向引證分析能夠進行技術演進分析。鄭軍衛(wèi)等[25]利用Aureka軟件的Thememap功能,對低滲透油氣資源研發(fā)專利技術領域布局進行分析,獲得技術領域專利地圖。并且得到了申請專利數(shù)比較多的E21B43/24技術領域[利用熱(如熱蒸汽)注入采油]的專利引文樹,通過引證樹,能夠發(fā)現(xiàn)在該領域具有強勁技術實力的競爭對手和后來居上的潛在的競爭對手。總之,通過聚類地圖,可以識別技術領域的總體分布和不同時間段的研發(fā)熱點趨勢;通過引證分析,可以識別競爭對手和確定某項技術的發(fā)展趨勢。
3 結 論
Aureka因其三大特色功能:聚類分析、引證分析和專利地圖,成為專利分析重要的工具之一,有著極其重要的研究及應用價值,國內學者都在對其進行研究,這極大的推動了專利情報分析方法研究的進展。
本文以中國知網(wǎng)、萬方和維普的數(shù)據(jù)源,共統(tǒng)計了42篇文獻,從文獻的年代分布、期刊發(fā)表源、作者及單位、關鍵詞和主題5個方面進行研究。結果表明,Aureka在我國研究的歷史較短,正處在快速發(fā)展的上升期。越來越多的科研人員不斷參與Aureka研究中,研究工作也呈現(xiàn)出廣泛合作的趨勢。研究的熱點逐步由專利分析工具的比較研究轉向在各個領域的實證研究。當然,軟件本身存在一些不足之處,如采用ThemeScape繪制技術地圖時,用戶不能加入同義詞詞組或希望關注的主題概念是平臺的一個缺陷。此外,引用樹軟件只顯示直接引用關系,無法顯示整個引用鏈,且只適用于美國專利,以及系統(tǒng)使用費十分昂貴都制約了它的使用和發(fā)展??梢灶A見,在不久的將來,隨著Aureka功能的不斷完善,它的應用前景會更加廣闊。
參考文獻
[1]陳燕,鄧鵬,李芳.AUREKA信息平臺介紹[J].中國發(fā)明與專利,2007,(5):63-64.
[2]侯麗,李娜,李娟.學科戰(zhàn)略情報的研究任務與分析軟件適用性探討[J].圖書情報知識,2009,(1):106-110.
[3]董悅.對網(wǎng)絡專利情報源的幾點思考[J].圖書與情報,2009,(2):46-50.
[4]顧震宇.基于案例分析的區(qū)域專利分析方法應用研究[J].情報雜志,2010,(8):40-44.
[5]吳正.可視化工具在專利分析中的應用[J].數(shù)字圖書館論壇,2009,(10):60-67.
[6]李睿,孟連生.論專利間引用關系分析中存在的問題[J].情報理論與實踐,2009,(7):39-43.
[7]甘利人.我國專利文獻資源亟待挖掘開發(fā)[J].情報理論與實踐,2002,(6):445-448.
[8]鞠邦男,袁軍鵬.對我國布拉德福定律研究文獻的科學計量研究[J].現(xiàn)代情報,2010,(11):109-112.
[9]葉鷹,潘有能,潘衛(wèi).情報學基礎教程[M].北京:科學出版社,2006:9.
[10]Yang Y,Akersa L,Klosea T,et al.Text mining and visualization tools-Impressions of emerging capabilities[J].2008,(30):280-293.
[11]范哲.中外商用專利檢索軟件的比較研究[J].現(xiàn)代情報,2007,27(11):221-225.
[12]劉佳佳,董兀方曙.國外專利分析工具的比較研究[J].現(xiàn)代圖書情報技術,2007,(2):67-74.
[13]張靜,劉細文,柯賢能,等.國內外專利分析工具功能比較研究[J].情報理論與實踐,2008,(1):141-145.
[14]王敏,李海存,許培揚.國外專利文本挖掘可視化工具研究[J].圖書情報工作,2009,(24):86-90.
[15]張嫻,高利丹,陳云偉.生物合成美國專利文獻分析[J].科學觀察,2009,(5):8-13.
[16]張薇,趙亞娟.國際水資源現(xiàn)狀與研究熱點[J].地質通報,2009,(2-3):177-183.
[17]陳大明.食品生物技術相關專利分析[J].生物產(chǎn)業(yè)技術,2009,(6):71-75.
[18]王金平,高峰,張志強,等.國際生態(tài)系統(tǒng)研究發(fā)展態(tài)勢文獻計量分析[J].地球科學進展,2010,(10):1101-1111.
[19]張樹良,張志強,熊永蘭.礦產(chǎn)資源領域國際科技發(fā)展態(tài)勢分析[J].資源科學,2010,(11):2216-2228.
[20]顧震宇,卞志昕,路煒,等.應用領域專利地圖的方法及實證研究[J].情報雜志,2009,(9):21-26.
[21]卞志昕.技術情報地圖——專利地圖與學術情報的結合[J].科技情報開發(fā)與經(jīng)濟,2009,(16):111-113.
[22]王雪梅,曲建升,李延梅,等.生物多樣性國際研究態(tài)勢分析[J].生態(tài)學報,2010,(4):1066-1073.
[23]張嫻.智能及仿生材料技術專利態(tài)勢分析[J].科學觀察,2010,(2):27-36.
[24]鄭軍衛(wèi),張志強,王雪梅.低滲透油氣資源研究專利態(tài)勢分析[J].科學觀察,2009,(4):16-25.
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”