顧東曉 盛東方
摘要:文章采用引文分析法,探究了圖書情報領(lǐng)域研究對學(xué)術(shù)深網(wǎng)資源(AIW資源)的利用情況與趨勢。文章首先界定學(xué)術(shù)深網(wǎng)資源的內(nèi)涵與特征,爬取近五年出現(xiàn)在領(lǐng)域權(quán)威期刊中的學(xué)術(shù)深網(wǎng)資源引文作為研究樣本,進(jìn)而從學(xué)術(shù)深網(wǎng)資源引文的總體情況、資源類型、和資源來源三個層面進(jìn)行分析,最后對科研資源的聚合與服務(wù)建設(shè)發(fā)展提出了建議。
關(guān)鍵詞:學(xué)術(shù)深網(wǎng)資源;資源聚合;學(xué)科服務(wù);引文分析法
中圖分類號:G250.73 文獻(xiàn)標(biāo)識碼:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以開放存取運(yùn)動(Open Access Movement)為代表的模式變革促使越來越多的學(xué)術(shù)資源數(shù)字化后呈現(xiàn)在網(wǎng)絡(luò)中,而搜索引擎的誕生極大地方便了科研工作者查找此類資源并由此改變了他們的信息搜索與利用行為。近年來國內(nèi)外學(xué)者開始從網(wǎng)絡(luò)引文角度關(guān)注網(wǎng)絡(luò)學(xué)術(shù)資源的利用情況,多數(shù)聚焦于引文數(shù)量、域名分布、可追溯性等特征指標(biāo),鮮有對網(wǎng)絡(luò)引文資源類型的深層次挖掘。本文以學(xué)術(shù)深網(wǎng)資源為研究切人點,探索通過引文分析法研究“看不見”網(wǎng)站資源對圖書情報學(xué)科科研工作的價值,揭示本領(lǐng)域?qū)W者對此類資源的利用規(guī)律,以期為進(jìn)一步開發(fā)和利用學(xué)術(shù)深網(wǎng)資源提供依據(jù)。
2.“看不見”的網(wǎng)站與學(xué)術(shù)深網(wǎng)資源
2.1“看不見”的網(wǎng)站與學(xué)術(shù)深網(wǎng)
“Invisible Web”最初產(chǎn)生于互聯(lián)網(wǎng)領(lǐng)域,類似的概念包括“Deep Web”、“Hidden Web”等,國內(nèi)學(xué)者馬費(fèi)成將其譯為“看不見”的網(wǎng)站。美國圖書館員和信息專家Chris sherman和GaryPrice將“看不見”的網(wǎng)站定義為:在互聯(lián)網(wǎng)上可獲得的,但傳統(tǒng)的搜索引擎由于技術(shù)限制不能,或者經(jīng)過慎重考慮后不作索引的那些網(wǎng)頁、文件或其它高質(zhì)量、權(quán)威的信息。而在學(xué)術(shù)工作中,由于“看不見”的網(wǎng)站的存在,搜索引擎的結(jié)果質(zhì)量往往引發(fā)質(zhì)疑?;诖?,德國學(xué)者Dirk Lewandowski與Philipp Mayr提出了學(xué)術(shù)深網(wǎng)(Academic Invisible Web,AIW)的概念,指包括所有數(shù)據(jù)庫在內(nèi)的傳統(tǒng)搜索引擎無法檢索到的學(xué)術(shù)內(nèi)容,并認(rèn)為,學(xué)術(shù)深網(wǎng)涵蓋了文獻(xiàn)(如期刊論文、學(xué)位論文、報告、圖書)、數(shù)據(jù)(如調(diào)查數(shù)據(jù))、電子內(nèi)容(如開放存取文檔)等資源,對學(xué)術(shù)工作極具價值。美國數(shù)據(jù)整合與企業(yè)信息分析公司Bright Planet發(fā)布的白皮書進(jìn)一步顯示,“看不見”的資源規(guī)模遠(yuǎn)大于表面網(wǎng)(Surface Web)并持續(xù)高速增長,同時,信息質(zhì)量與內(nèi)容深度也遠(yuǎn)高于表面網(wǎng)。
2.2學(xué)術(shù)深網(wǎng)資源類型
“看不見”的網(wǎng)站以關(guān)系數(shù)據(jù)庫fRelationalDatabase Files)內(nèi)容為主,還包括未被鏈接的網(wǎng)頁(Unlinked Pages)、非HTML網(wǎng)頁(Non-html Pages)、特殊文件(Special Files)、實時或者流動文件(Realtime or Streaming Files)以及動態(tài)網(wǎng)頁(Dynamic Pages)等。國內(nèi)學(xué)者陳紅勤在Sherman和Price工作的基礎(chǔ)上歸納出“看不見”的網(wǎng)站形成的原因主要有技術(shù)、經(jīng)濟(jì)和知識產(chǎn)權(quán)三類。Lewandowski和Mayr認(rèn)為,從圖書館的角度而言,學(xué)術(shù)深網(wǎng)資源(后文簡稱AIW資源)以諸如PDF、PPT、DOC格式的特殊文件為主。隨著技術(shù)的發(fā)展,一些AIW資源正逐漸變得可見,譬如使用“關(guān)鍵詞+filetvpe:pdf”的查詢語句可以檢索PDF格式的文件,又如谷歌與百度都新增了圖像搜索功能等。盡管如此,“一站式”檢索并未真正實現(xiàn)。因而,本文仍將上述類型資源劃歸為AIW資源。
3.數(shù)據(jù)來源與處理
國家標(biāo)準(zhǔn)化管理委員會于2005年發(fā)布的最新版《文后參考文獻(xiàn)著錄規(guī)則》(以下簡稱《規(guī)則》),規(guī)定了包括數(shù)據(jù)庫在內(nèi)的網(wǎng)絡(luò)資源的標(biāo)引格式。但根據(jù)《規(guī)則》識別AIW資源存在兩個困難:一是部分文獻(xiàn)尤其是年代較久的文獻(xiàn)并未嚴(yán)格按照《規(guī)則》進(jìn)行標(biāo)引:二是某些資源特征無法通過著錄符號識別與區(qū)分,如動態(tài)網(wǎng)頁與靜態(tài)網(wǎng)頁。為彌補(bǔ)以上不足,本文采用著錄符號與URL雙重特征識別方法抽取目標(biāo)引文,AIW資源分類與特征見表1。
在數(shù)據(jù)來源上,為準(zhǔn)確把握圖書情報領(lǐng)域AIW資源利用情況,在綜合考量數(shù)據(jù)的可獲取性、準(zhǔn)確性和權(quán)威性等方面的基礎(chǔ)上,本文選取中文社會科學(xué)引文索引(CSSCI)公布的《CSSCI(2014-2015)來源期刊擬收錄目錄》中的《中國圖書館學(xué)報》、《大學(xué)圖書館學(xué)報》、《圖書情報工作》與《情報學(xué)報》①4種期刊2010年至2014年刊載的學(xué)術(shù)論文作為研究樣本獲取AIW引文。以往引文分析研究數(shù)據(jù)來源大多為CSSCI,但筆者經(jīng)測試發(fā)現(xiàn),從CSSCI中提取到的引文數(shù)據(jù)存在內(nèi)容缺少或格式不規(guī)范等問題。比較后,本文選取萬方數(shù)據(jù)庫作為數(shù)據(jù)源,根據(jù)數(shù)據(jù)抽取規(guī)則編寫爬蟲程序獲得目標(biāo)著錄信息。數(shù)據(jù)采集時間為2015年11月18日到11月22日,共得到含AIW引文論文1699篇,AIW引文4597條。
4.數(shù)據(jù)分析
4.1AIW引文總體描述
從期刊分布和年度分布兩個維度,通過AIW引文的統(tǒng)計分析可以間接地反映科研工作者對AIW資源的價值認(rèn)識和依賴程度。從表2可以看出,含AIW引文論文在全部刊載論文中占比超過三分之一,而《中國圖書館學(xué)報》更是超過半數(shù),其中,篇均AIW引文數(shù)為2.71,AIW引文數(shù)在網(wǎng)絡(luò)引文總數(shù)中占比達(dá)到30.22%。這表明AIW資源是網(wǎng)絡(luò)學(xué)術(shù)資源的重要組成部分,被圖書情報領(lǐng)域?qū)W者廣泛認(rèn)可,并在其科研工作中發(fā)揮著重要價值。按時間順序縱向觀察(見表3)可以發(fā)現(xiàn)2010-2014五年間單篇論文引用的AIW資源條目不斷增加,引用AIW資源的論文比重也大致呈上升趨勢,尤其是2013、2014兩年,比重達(dá)到40%左右。這反映出圖書情報領(lǐng)域?qū)W者對AIW資源的認(rèn)同度不斷提升,越來越重視AIW資源的利用。
4.2AIW資源類型分析
根據(jù)AIW資源分類與特征(表1)對樣本中AIW資源引文類型進(jìn)行考察,需要說明的是,數(shù)據(jù)處理中發(fā)現(xiàn)大量數(shù)據(jù)庫類型引文未能嚴(yán)格按照數(shù)據(jù)庫文件的著錄規(guī)則進(jìn)行標(biāo)注,且數(shù)據(jù)庫文件的URL不具備統(tǒng)一的可識別特征,因而本部分主要從特殊文件和動態(tài)網(wǎng)頁兩個大類進(jìn)行分析。
從表4可以看出,特殊文件中PDF文件的引用明顯多于其它類型,這與前人的研究結(jié)論吻合,且在AIW引文中占比逐年增多,2011年開始已超過半數(shù),2014年更達(dá)到65.75%。PDF文件是一種通用的文件格式,具有跨平臺、易于傳輸與存儲等特性㈣,有研究表明,PDF格式的網(wǎng)絡(luò)學(xué)術(shù)資源與較高的學(xué)術(shù)價值存在關(guān)聯(lián),這很大程度上解釋了PDF文件被持續(xù)大量引用的原因。Word文檔與PPT文件也多次出現(xiàn)在AIW引文中,此結(jié)果與一項基于Google搜索的網(wǎng)絡(luò)學(xué)術(shù)資源類型調(diào)查結(jié)論相符。除此之外,xls、zip、xar、.exe格式的資源也出現(xiàn)在引文中,但頻次很低。
而對于動態(tài)網(wǎng)頁來說,一方面URL特征中的,asp、.isp、.php等僅反映了資源網(wǎng)頁的開發(fā)語言,不代表其本身的某些特征屬性差異;另一方面,網(wǎng)址中的“?”符號表示網(wǎng)頁屬于動態(tài)網(wǎng)頁,經(jīng)常會和其它URL特征一同出現(xiàn),如“http://www.sciencenet.cn/m/user-content.asox?id=216844”,因而對這些不同特征符號之間的引文變化情況進(jìn)行分析價值較小。故此處不再考察各特征動態(tài)網(wǎng)頁引文在AIW引文中的占比,而選擇將動態(tài)網(wǎng)頁作為一個整體,分析其歷年在網(wǎng)絡(luò)引文中占比的變化。從表5可以看出,2010-2014五年間動態(tài)網(wǎng)頁引文占網(wǎng)絡(luò)引文的比重呈現(xiàn)回落趨勢,從2010年的16.97%下降到2014年的9.24%,五年來合計占比為12.78%。國內(nèi)學(xué)者丁敬達(dá)、楊思洛對2005-2010年間圖書情報領(lǐng)域權(quán)威期刊網(wǎng)絡(luò)引文進(jìn)行分析發(fā)現(xiàn),動態(tài)類網(wǎng)絡(luò)引文比例是逐年上升的,六年的合計占比為10.47%。將這兩組數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)盡管2010-2014年動態(tài)網(wǎng)頁引文量出現(xiàn)下降,總體上較五年前仍有增長。相信隨著用戶生成內(nèi)容的進(jìn)一步推廣及其價值逐漸被認(rèn)可,動態(tài)網(wǎng)頁型資源還將越來越多的出現(xiàn)在學(xué)術(shù)研究過程中。
4.3AIW資源來源分析
通過對AIW引文的域名進(jìn)行分析,可以了解此類資源的來源以及研究者的利用偏好,并間接衡量不同網(wǎng)站的學(xué)術(shù)價值。按照域名可以將常見學(xué)術(shù)相關(guān)網(wǎng)站分為7類:.com(工商企業(yè))、.org(非營利組織)、.net(網(wǎng)絡(luò)機(jī)構(gòu))、.edu(教育)、.gov(政府)、.ac(學(xué)術(shù))、.int(國際組織)。本文對AIW引文域名統(tǒng)計見圖1??梢钥闯觯霈F(xiàn)頻次較高的域名由高到低依次是.org、.edu、.com、.gov,這與國內(nèi)一項對2010-2012年網(wǎng)絡(luò)引文來源域名的研究結(jié)果(.org>.com>.gov>.edu)有所區(qū)別,也與中國互聯(lián)網(wǎng)信息中心發(fā)布的《第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計報告》中的中國域名分類統(tǒng)計結(jié)果(.com>.net>.ac>.org)有較大差異。
為進(jìn)一步探究AIW資源來源,挖掘在圖書情報領(lǐng)域研究中發(fā)揮重要價值的網(wǎng)站,本文對各類型高被引網(wǎng)站進(jìn)行了統(tǒng)計,結(jié)果見表6。可以看出,學(xué)術(shù)類機(jī)構(gòu)協(xié)會、圖書館與數(shù)據(jù)庫等傳統(tǒng)學(xué)術(shù)資源提供方提供了大量的優(yōu)質(zhì)AIW資源,且受到研究者的高度關(guān)注與廣泛引用。而來源網(wǎng)站中多次出現(xiàn)的各類學(xué)術(shù)數(shù)據(jù)庫與搜索引擎如IEEE Xplore、CiteSeer、eLIS、e線圖情等,正印證了真正的深網(wǎng)內(nèi)容以數(shù)據(jù)庫為主的論斷。從網(wǎng)站的內(nèi)容來看,高被引網(wǎng)站主題以圖書情報為核心向相關(guān)學(xué)科和領(lǐng)域延伸,如面向法學(xué)與知識產(chǎn)權(quán)的北大法寶、世界知識產(chǎn)權(quán)組織。這反映出我國圖情學(xué)者的研究主題與學(xué)術(shù)知識來源的跨學(xué)科性。從地域分布和語種來看,以國際圖書館協(xié)會聯(lián)合會等機(jī)構(gòu)協(xié)會為代表的英文類國際域名網(wǎng)站占了相當(dāng)大的比重,除此之外,來源于美國與英國的資源也頗受關(guān)注。可見,隨著我國圖書情報學(xué)科國際化程度的持續(xù)提高,科研人員對國際上的學(xué)術(shù)資源越來越重視,尤其在相關(guān)非營利組織資源不斷豐富、教育資源與政府信息進(jìn)一步開放的趨勢下,相信外文資源將會越來越多的出現(xiàn)在我國圖情領(lǐng)域的研究中。伴隨Web2.0產(chǎn)生的新型學(xué)術(shù)資源網(wǎng)站如社會科學(xué)研究網(wǎng)、讀寫網(wǎng)同樣值得關(guān)注。有學(xué)者指出,Web2.0能夠促進(jìn)知識的交流共享,學(xué)術(shù)博客作為一種新的信息資源,包含大量前沿學(xué)術(shù)資源。統(tǒng)計結(jié)果表明,Web2.0下的新型網(wǎng)絡(luò)學(xué)術(shù)資源已被科研工作者認(rèn)可并廣泛利用。另外,經(jīng)濟(jì)合作與發(fā)展組織、中國互聯(lián)網(wǎng)信息中心等網(wǎng)站資源的廣泛引用,反映出我國圖情領(lǐng)域研究呈現(xiàn)出關(guān)注經(jīng)濟(jì)發(fā)展,注重與產(chǎn)業(yè)界結(jié)合的趨勢,更表明科研工作者已不再局限于傳統(tǒng)學(xué)術(shù)資源,而是更多地利用“非學(xué)術(shù)”資源進(jìn)行科學(xué)研究。
5.總結(jié)與討論
本文運(yùn)用引文分析的方法,對近五年出現(xiàn)在圖書情報領(lǐng)域四種權(quán)威期刊上的AIW引文進(jìn)行分析,探究AIW資源在本學(xué)科研究中的利用情況與趨勢。
(1)AIW資源大量出現(xiàn)在學(xué)術(shù)論文引文中,反映出我國圖情學(xué)者在科研過程中對學(xué)術(shù)資源的搜集與利用已不再局限于淺層的“表面網(wǎng)”,更加關(guān)注那些輕易“不可見”但價值量極高的深度資源,并且,AIW資源比重的持續(xù)加大也顯示了學(xué)者對其依賴程度的不斷提升。然而,持續(xù)的各種數(shù)字化工程雖然有力推動了資源的開放共享,但相對落后的搜索能力側(cè)面上加劇了學(xué)術(shù)資源的“不可見”。因而,旺盛的資源需求與有限的獲取能力和較高的搜索成本成為了AIW資源利用的一大突出矛盾。AIW概念的提出者Lewandowski與Mavr認(rèn)為,針對這種現(xiàn)狀,以圖書館為代表的學(xué)科服務(wù)提供方有責(zé)任通過合作等方式努力使AIW的內(nèi)容對科研工作者可見?;诖?,本文認(rèn)為深度聚合圖書情報領(lǐng)域AIW資源,實現(xiàn)高質(zhì)量科研信息導(dǎo)航與服務(wù)意義重大。
(2)從資源格式來看,以PDF文件為代表的非結(jié)構(gòu)化文檔由于在AIW引文中占比極大應(yīng)予以足夠重視。如前文所述,PDF格式的網(wǎng)絡(luò)資源往往具有較高的學(xué)術(shù)價值,但學(xué)術(shù)搜索引擎如Google Scholar的搜索范圍以結(jié)構(gòu)化數(shù)據(jù)庫中正式發(fā)表的學(xué)術(shù)文獻(xiàn)為主,對非正式發(fā)表的學(xué)術(shù)文獻(xiàn)覆蓋率低,導(dǎo)致大量極具學(xué)術(shù)價值的PDF類型資源仍“不可見”。國內(nèi)外學(xué)者為解決這一問題從鏈接、內(nèi)容、文體等特征人手嘗試對PDF學(xué)術(shù)資源的識別和檢索加以改進(jìn)并取得了一定成果。就本文研究結(jié)果而言,對PDF、DOC、PPT等格式文件的分析與處理仍是提升AIW資源利用效率的重點。另外,研究結(jié)果還表明,動態(tài)網(wǎng)頁型資源在學(xué)術(shù)研究中頗具價值,針對此類資源的獲取,有學(xué)者提出對特定“不可見”網(wǎng)站編寫腳本或程序進(jìn)行查詢和提取是有效途徑。
我國圖情學(xué)者在科研工作中對AIW資源的利用呈現(xiàn)出來源網(wǎng)站與資源內(nèi)容的跨學(xué)科、國際化、非傳統(tǒng)、新形式的趨勢。因而在進(jìn)行學(xué)科知識聚合與服務(wù)中,也應(yīng)突破固有思維,順應(yīng)科研活動變化。從來源上,除傳統(tǒng)提供學(xué)術(shù)資源服務(wù)的數(shù)據(jù)庫、圖書館外,一方面向提供經(jīng)濟(jì)、政策與行業(yè)等背景信息的非學(xué)術(shù)類工商企業(yè)、政府和非營利組織網(wǎng)站拓展;一方面重視Web2.0環(huán)境下各類非正式學(xué)術(shù)交流社區(qū):從內(nèi)容上,向圖書情報研究的相關(guān)支撐與交叉學(xué)科延伸:從區(qū)域上,打破地區(qū)與語言的限制,引入豐富的外文資源。依據(jù)以上原則篩選出重點信息源,結(jié)合上文提到的編寫特定腳本或程序進(jìn)行查詢和提取的方式,對其AIW資源進(jìn)行揭示。