吳明智 姜 洋 畢玉俠
(沈陽藥科大學(xué)圖書館,遼寧 沈陽 110016)
專利是受法律規(guī)范保護(hù)的發(fā)明創(chuàng)造,它是指一項發(fā)明創(chuàng)造向國家審批機(jī)關(guān)提出專利申請,經(jīng)依法審查合格后向?qū)@暾埲耸谟璧脑谝?guī)定時間內(nèi)對該項發(fā)明創(chuàng)造享有的專有權(quán)。專利是世界上最大的技術(shù)信息源,據(jù)實證統(tǒng)計分析,專利包含了世界科技技術(shù)信息的90%~95%[1],因此對專利文獻(xiàn)的研究是跟蹤技術(shù)創(chuàng)新最新進(jìn)展的重要方法。
高校圖書館作為文獻(xiàn)資源的收藏單位,保存有大量的專利文獻(xiàn)資源,同時圖書館作為全校的信息服務(wù)中心,擔(dān)負(fù)著為教學(xué)和科研服務(wù)的使命,應(yīng)該發(fā)揮圖書館的人員優(yōu)勢和資源優(yōu)勢,充分利用豐富的館藏專利文獻(xiàn)資源,研究并運(yùn)用專利文獻(xiàn),為科研工作者提供專利信息咨詢服務(wù)。
為了清晰地把握圖書情報科學(xué)領(lǐng)域?qū)@芯康臍v史和現(xiàn)狀,筆者嘗試用Web of Science核心合集的科學(xué)引文索引數(shù)據(jù)庫擴(kuò)展版(Science Citation Index-Expanded,SCI-E),綜合運(yùn)用文獻(xiàn)計量分析、引文分析和可視化技術(shù),分析圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)的特點和規(guī)律,并用可視化方法展示研究的發(fā)展歷史,以期為相關(guān)學(xué)者的研究提供參考。
數(shù)據(jù)來源于SCI-E。檢索策略設(shè)定為:主題=patent*,檢索時間為2014年7月1日,檢索時段限定為2002~2013年,為精煉檢索到的文獻(xiàn),限定研究方向為“Iinformation Science Library Science”,共檢索到相關(guān)文獻(xiàn)364篇,下載包含參考文獻(xiàn)的全紀(jì)錄題錄到文本文檔。
筆者主要使用由科學(xué)引文索引的創(chuàng)始人Grafield博士開發(fā)的一款文獻(xiàn)分析軟件HistCite[2],對圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)的年代、國家地區(qū)和機(jī)構(gòu)、核心作者、核心出版物、單詞頻率等進(jìn)行文獻(xiàn)計量分析和引文分析,進(jìn)而生成引文編年圖,從而展現(xiàn)該領(lǐng)域的發(fā)展歷史、研究現(xiàn)狀和成熟情況,幫助研究人員追蹤最新的研究趨勢,判斷研究方向。
一個研究領(lǐng)域?qū)W術(shù)論文的數(shù)量可以在一定程度上代表該領(lǐng)域的發(fā)展?fàn)顩r和成熟程度,而文獻(xiàn)之間的引用情況則可反映領(lǐng)域內(nèi)部學(xué)術(shù)交流的程度。
圖1 圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)數(shù)量
圖1是圖書情報科學(xué)領(lǐng)域?qū)@芯?002~2013年逐年的文獻(xiàn)數(shù)量統(tǒng)計,從圖1中的文獻(xiàn)數(shù)量及趨勢線可以看出,2002~2008年,研究文獻(xiàn)的數(shù)量呈現(xiàn)出較大的波動,在2007年達(dá)到第一次高峰38篇,次年即減少到17篇,為研究時間段內(nèi)的最低值;從2008年開始,文獻(xiàn)數(shù)量又逐漸恢復(fù)逐年上升的趨勢。
在HistCite軟件中,LCS(Local Citation Score)表示某一文獻(xiàn)在當(dāng)前檢索到的文獻(xiàn)集內(nèi)被引用的頻次,也表示該文獻(xiàn)在研究領(lǐng)域內(nèi)部的重要程度;GCS(Global Citation Score)表示某一文獻(xiàn)在整個科學(xué)引文索引中被引用的頻次,兩者的總和分別用TLCS和TGCS表示。表1為2002~2013年各年的文獻(xiàn)數(shù)量、TLCS和TGCS值。從表1中可以看出,2002~2007年間的文獻(xiàn)數(shù)量雖然不多,但引用比較集中,特別是2007年,TLCS和TGCS均達(dá)到了引用的高峰,說明這一年很可能產(chǎn)生了比較重要的研究成果。通過進(jìn)一步分析2007年的文獻(xiàn)發(fā)現(xiàn),158號文獻(xiàn)《專利分析中的文本挖掘技術(shù)》[3]在全數(shù)據(jù)庫中總共被引用了95次,排在全部364篇文獻(xiàn)的第一位。文中對專利分析過程中常用的文本分割、摘要提取、特征提取、術(shù)語關(guān)聯(lián)、類團(tuán)生成、主題識別和信息映射等文本挖掘技術(shù),在設(shè)計、效率和效果等方面進(jìn)行了系統(tǒng)的分析和比較,該文的研究結(jié)果也成為其他研究人員進(jìn)行后續(xù)研究的基礎(chǔ)和鋪墊。
表1 圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)數(shù)量及年代分布
從科研文獻(xiàn)的國家地區(qū)以及機(jī)構(gòu)的分布情況,可以看出研究的活躍地理區(qū)域和科研機(jī)構(gòu)。通過對364篇文獻(xiàn)的地理位置分布發(fā)現(xiàn),圖書情報科學(xué)領(lǐng)域?qū)@芯可婕?5個國家和地區(qū),其中56%的文獻(xiàn)分布在前5個國家和地區(qū)當(dāng)中(如圖2),這當(dāng)中又以我國臺灣地區(qū)的研究文獻(xiàn)最多,達(dá)到58篇,占全部文獻(xiàn)的15.9%。
圖2 圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)的國家地區(qū)分布
研究文獻(xiàn)數(shù)量排名前10位的科研機(jī)構(gòu)見圖3,從中可以看出,圖書情報科學(xué)領(lǐng)域?qū)@芯康闹饕蒲袡C(jī)構(gòu)為大學(xué),分布于歐洲和亞洲。歐洲主要的研究機(jī)構(gòu)為比利時的魯汶天主大學(xué)、荷蘭的阿姆斯特丹大學(xué)、英國的塞薩克斯大學(xué)、芬蘭的赫爾辛基理工大學(xué)和西班牙科學(xué)研究理事會;亞洲的主要研究機(jī)構(gòu)分布在我國臺灣地區(qū)的國立臺灣大學(xué)、國立云林科技大學(xué)、內(nèi)地的復(fù)旦大學(xué)以及韓國的浦項科技大學(xué)和首爾大學(xué)。
圖3 圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)主要機(jī)構(gòu)分布
一個作者的活躍程度可以通過其發(fā)文數(shù)量來表示,該作者在本研究領(lǐng)域中的影響力則可通過發(fā)表文章被引用的頻次來評定,影響力高的作者即可認(rèn)為是其領(lǐng)域中的核心作者。追蹤核心作者的研究課題和方向,可以指導(dǎo)我們快速掌握該領(lǐng)域的研究狀態(tài)、熱門主題和發(fā)展趨勢。在HistCite中,對作者字段分別根據(jù)發(fā)文數(shù)量和全數(shù)據(jù)庫被引頻次TGCS排序,可以得到表2中的核心作者群。
表2 圖書情報科學(xué)領(lǐng)域?qū)@芯康暮诵淖髡撸ㄇ?0位,分別根據(jù)發(fā)文數(shù)量和TGCS排序)
單從發(fā)文數(shù)量來看,排名第10位的Agres T,共參與到7篇文獻(xiàn)的撰寫中,但其文獻(xiàn)集內(nèi)總被引頻次TLCS為0,全數(shù)據(jù)庫總被引頻次TGCS也僅為3,說明無論是在本領(lǐng)域內(nèi)還是在其他領(lǐng)域中受到的關(guān)注度都很小,也說明單從發(fā)文數(shù)量不足以對核心作者進(jìn)行客觀的評價。通過TGCS排序后,得到的結(jié)果更加合理,如排在第7、8和9位的作者Lin CJ、Lin YI和Tseng YH共同參與了兩篇文獻(xiàn)的撰寫,其中第158號文獻(xiàn)LCS為9,GCS為95,說明這篇文章在研究領(lǐng)域內(nèi)外均受到了較廣泛的關(guān)注,被引用頻次較高。從引文角度可以對不同作者在研究領(lǐng)域的影響力有更客觀公正的評價,從而幫助我們更準(zhǔn)確地識別核心作者群。
通過對刊載圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)的期刊進(jìn)行分析,可以確定該領(lǐng)域的核心期刊,從而使科研人員可以通過關(guān)注較少數(shù)量的期刊來跟蹤本領(lǐng)域的最新研究成果。與核心作者的評價方法相似,從發(fā)文數(shù)量和文獻(xiàn)被引頻次兩個指標(biāo)進(jìn)行評價,能夠更加準(zhǔn)確地判斷核心期刊的分布。
364篇文獻(xiàn)共分布于12種期刊當(dāng)中(見表3),以全數(shù)據(jù)庫總被引頻次TGCS進(jìn)行排序,可以看出,SCIENTOMETRICS共載文263篇,占全部文獻(xiàn)的72.25%,其全數(shù)據(jù)庫總被引頻次達(dá)到2085次,遠(yuǎn)遠(yuǎn)超出其他11種期刊,因此可以認(rèn)為SCIENTOMETRICS是信息學(xué)和圖書館學(xué)專利研究的核心期刊,緊隨其后的INFORMATION PROCESSING&MANAGEMENT和JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY兩種期刊雖然載文數(shù)量較少,但TGCS較高,說明其載文質(zhì)量較高,同樣應(yīng)該受到科研人員的關(guān)注。
表3 圖書情報科學(xué)領(lǐng)域?qū)@芯康暮诵钠诳?/p>
文獻(xiàn)中,尤其是標(biāo)題中的詞匯是對研究成果核心內(nèi)容的精煉概括,同時也能提供重要的檢索途徑。筆者利用Hist-Cite中Words分析字段對標(biāo)題中出現(xiàn)的詞進(jìn)行統(tǒng)計分析,以了解圖書情報科學(xué)領(lǐng)域?qū)@芯康臒衢T主題。
從前20個高頻關(guān)鍵詞可以看出(見表4),除檢索策略中使用的Patent外,“Analysis”的出現(xiàn)頻率較高,回顧標(biāo)題中出現(xiàn)Analysis的文獻(xiàn),與專利分析相關(guān)的研究,如“專利分析的應(yīng)用”“專利分析的方法學(xué)研究”“某一具體學(xué)科的專利分析”等受到了研究人員的關(guān)注;同樣,與專利研究相關(guān)的科學(xué)(Science)和技術(shù)(Technology),以及基于專利研究的知識發(fā)現(xiàn)(Knowledge、Based)和引文分析(Citation)等方面也是圖書情報科學(xué)領(lǐng)域?qū)@芯康臒狳c主題。
表4 信息學(xué)和圖書館學(xué)專利研究高頻關(guān)鍵詞
文獻(xiàn)集內(nèi)被引用次數(shù)代表了文獻(xiàn)在研究領(lǐng)域內(nèi)被關(guān)注的程度。利用HistCite對文獻(xiàn)集內(nèi)被引用次數(shù)最高的30篇文獻(xiàn)生成可視化引文編年圖。引文編年圖共有節(jié)點30個,連接數(shù)為36,最小被引用頻次為6,最大被引用頻次為19(見圖4)。圖中圓圈內(nèi)的數(shù)字表示當(dāng)前節(jié)點在文獻(xiàn)集內(nèi)的序號,圓圈的大小代表文獻(xiàn)集內(nèi)被引用次數(shù)的高低,箭頭指向的文獻(xiàn)是被引用的文獻(xiàn)。
從圖4中可見,在研究的初始階段就出現(xiàn)了文獻(xiàn)集內(nèi)被引用次數(shù)最高的6號文獻(xiàn),即芬蘭赫爾辛基理工大學(xué)的Meyer M于2002年發(fā)表在Scientometrics上的文章《在創(chuàng)新系統(tǒng)中追蹤知識流動》。文中,作者回顧了大量創(chuàng)新系統(tǒng)中研究科學(xué)-技術(shù)聯(lián)動的文獻(xiàn),總結(jié)了研究科學(xué)-技術(shù)聯(lián)動的定量方法,并提出了一個基于專利引文、產(chǎn)業(yè)科學(xué)和高校專利登記的類型學(xué)方法[4]。
圖4 圖書情報科學(xué)領(lǐng)域?qū)@芯恳木幠陥D
同年,比利時魯汶天主大學(xué)的Verbeek A等人撰寫的《科學(xué)與技術(shù)的聯(lián)動:利用專利文獻(xiàn)著錄建立聯(lián)動方案》一文也發(fā)表于Scientometrics。Verbeek A等人利用專利引文數(shù)據(jù)開發(fā)了一個科學(xué)和技術(shù)系統(tǒng)的聯(lián)動方案,隨后該方法被用于測試USPTO專利,結(jié)果表明USPTO專利文獻(xiàn)呈現(xiàn)大傾斜分布態(tài)勢,研究人員能夠從依賴科技文獻(xiàn)發(fā)展出的技術(shù)領(lǐng)域當(dāng)中,區(qū)分出那些與科學(xué)領(lǐng)域具有高度互動性的技術(shù)領(lǐng)域[5]。
根據(jù)引用關(guān)系可知,這兩篇文獻(xiàn)對圖書情報科學(xué)領(lǐng)域?qū)@芯康陌l(fā)展有著非常重要的作用。2003年,文章節(jié)點的數(shù)量較2002年有明顯增加,同時也出現(xiàn)了文獻(xiàn)36、47和46這樣被引用頻次較高的文章,可見圖書情報科學(xué)領(lǐng)域?qū)@芯咳諠u增多,大量有價值的研究成果出現(xiàn),也為后續(xù)的研究奠定了堅實的理論基礎(chǔ)。
通過引文編年圖,可以讓我們直觀地了解圖書情報科學(xué)領(lǐng)域?qū)@芯康陌l(fā)展歷史和階段,從而更加快速地確定關(guān)鍵文獻(xiàn)和熱點研究主題。
筆者通過基于可視化引文分析的方法,對收錄于SCI-E中2002~2013年圖書情報科學(xué)領(lǐng)域?qū)@芯课墨I(xiàn)進(jìn)行了分析,總結(jié)了研究文獻(xiàn)的年代分布特征、國家地區(qū)以及研究機(jī)構(gòu)分布、核心作者、核心期刊、當(dāng)前研究的熱點和發(fā)展歷史。
HistCite基于可視化引文分析的方法能夠快速、直觀地揭示圖書情報科學(xué)領(lǐng)域?qū)@芯恐薪?jīng)典的研究文獻(xiàn)和重要的研究發(fā)現(xiàn),能夠展現(xiàn)研究的發(fā)展軌跡,同時也為進(jìn)一步的科學(xué)研究提供了參考。
[1]郭春玲.香港專利制度及網(wǎng)上檢索[J].圖書館學(xué)刊,2011(11):39-40.
[2]Garfield E,Paris S,Stock WG.A Software Tool for Informetric Analysis of Citation Linkage[J].Information-Wissenschaft und Praxis,2006(8):391-400.
[3]Tseng YH,Lin CJ,Lin YI.Text mining techniques for patent analysis[J].Information Processing& Management,2007(5):1216-1247.
[4]Meyer M.Tracing knowledge flows in innovation systems[J].Scientometrics,2002(2):193-212.
[5]Verbeek A,Debackere K,Luwel M.et al.Linking science to technology:Using bibliographic references in patents to build linkage schemes[J].Scientometrics,2002(3):399-420.