洪道廣 繆靈敏
(華東理工大學(xué)圖書(shū)館,上海 200237)
基于互聯(lián)網(wǎng)學(xué)術(shù)數(shù)據(jù)資源整合的百度學(xué)術(shù)平臺(tái)具有數(shù)據(jù)來(lái)源廣泛、可以在線免費(fèi)檢索、使用方便等特點(diǎn),自2014年6月正式推出以來(lái)被越來(lái)越多的讀者使用。學(xué)術(shù)界也開(kāi)展了對(duì)百度學(xué)術(shù)的研究與應(yīng)用討論,謝奇等對(duì)百度學(xué)術(shù)的功能、檢索方法與技巧等方面進(jìn)行了詳細(xì)的討論[1];張英健應(yīng)用“百度學(xué)術(shù)搜索”,在期刊編輯中用于校核參考文獻(xiàn)、審稿專(zhuān)家的選擇及學(xué)術(shù)熱點(diǎn)的發(fā)現(xiàn),取得了良好的效果[2];覃燕梅等對(duì)百度學(xué)術(shù)與其他學(xué)術(shù)搜索系統(tǒng)的收錄數(shù)據(jù)、檢索功能、結(jié)果排序、數(shù)據(jù)挖掘服務(wù)、題錄引用等功能進(jìn)行了比較[3-4]。上述研究中,對(duì)于百度學(xué)術(shù)的數(shù)據(jù)來(lái)源及數(shù)據(jù)整合僅有簡(jiǎn)單的描述,或只是幾個(gè)系統(tǒng)的簡(jiǎn)單結(jié)果數(shù)比對(duì)。本文通過(guò)案例對(duì)百度學(xué)術(shù)的數(shù)據(jù)來(lái)源、整合等作具體的分析探討,尤其對(duì)整合的學(xué)術(shù)數(shù)據(jù)庫(kù)覆蓋率進(jìn)行比較,以便使用戶(hù)對(duì)百度學(xué)術(shù)的資源有更全面的了解,同時(shí)供平臺(tái)數(shù)據(jù)進(jìn)行整合建設(shè)進(jìn)一步的改正與完善。
百度學(xué)術(shù)搜索結(jié)果界面顯示的內(nèi)容包含學(xué)術(shù)文獻(xiàn)的標(biāo)題、作者、摘要、出處、引用次數(shù)及發(fā)表的年份,并提供文獻(xiàn)在各平臺(tái)或數(shù)據(jù)庫(kù)的來(lái)源鏈接,對(duì)于可免費(fèi)獲取的文獻(xiàn)提供免費(fèi)下載標(biāo)簽。通過(guò)標(biāo)題檢索比對(duì)原始來(lái)源學(xué)術(shù)數(shù)據(jù)庫(kù)的覆蓋率是通常而有效的研究方法[5-8],本研究通過(guò)選用高級(jí)檢索的題名檢索,檢索式如表1所示的中文與英文文獻(xiàn)檢索:
表1 百度學(xué)術(shù)的檢索實(shí)例
選擇“搜索引擎”作檢索詞,涉及的學(xué)科較廣,具有一定的代表性。檢索實(shí)踐中發(fā)現(xiàn),百度學(xué)術(shù)搜索結(jié)果顯示的檢出數(shù)常大于實(shí)際可顯示的結(jié)果數(shù),通常檢索結(jié)果在500條內(nèi)發(fā)現(xiàn)通過(guò)翻頁(yè)基本上準(zhǔn)確完整顯示,如按上述中文檢索中,顯示約9 580多條相關(guān)結(jié)果,實(shí)際只顯示到第14頁(yè)(2017年6月1日檢索,搜索設(shè)置設(shè)定每頁(yè)顯示50條記錄)。本研究利用檢索界面提供的二次檢索,進(jìn)一步限制年份及文獻(xiàn)類(lèi)型使檢索結(jié)果數(shù)在500條以?xún)?nèi),通過(guò)復(fù)制每頁(yè)顯示的文獻(xiàn)記錄并格式化處理,再導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理及比對(duì)。
英文文獻(xiàn)實(shí)際采用“Search Engine”檢索的結(jié)果數(shù)更多,這里采用復(fù)數(shù)是為了得到適中的結(jié)果數(shù)據(jù),方便處理及比較。
目前學(xué)術(shù)數(shù)據(jù)庫(kù)中,中文全文數(shù)據(jù)庫(kù)主要有中國(guó)知網(wǎng)(簡(jiǎn)稱(chēng)CNKI)、萬(wàn)方數(shù)據(jù)資源(簡(jiǎn)稱(chēng)WF)及維普期刊數(shù)據(jù)庫(kù)(簡(jiǎn)稱(chēng)VIP)等。外文數(shù)據(jù)庫(kù)按照Calis引進(jìn)的西文數(shù)據(jù)庫(kù)目錄,就有56個(gè)(2017年9月28日查詢(xún)結(jié)果)[9],結(jié)合華東理工大學(xué)特點(diǎn)選用理工類(lèi)全文數(shù)據(jù)庫(kù)如Elsevier、Springer、IEEE、Wiley、Emerald等,同時(shí)利用了圖書(shū)館購(gòu)買(mǎi)的SCI&SSCI及EI數(shù)據(jù)庫(kù)等檢索平臺(tái),數(shù)據(jù)年限自2000-2016年,中文期刊及學(xué)位論文數(shù)據(jù)較多,只選了2010-2016年數(shù)據(jù),通過(guò)比對(duì)百度學(xué)術(shù)與各個(gè)來(lái)源數(shù)據(jù)庫(kù)的檢索結(jié)果,分析對(duì)應(yīng)的覆蓋數(shù)據(jù)及整合情況。
中文期刊數(shù)據(jù)來(lái)源主要集中在中國(guó)知網(wǎng)、萬(wàn)方及維普期刊3個(gè)平臺(tái)上的期刊數(shù)據(jù)。按表1檢索條件,分別檢索各數(shù)據(jù)庫(kù)及百度學(xué)術(shù)(簡(jiǎn)稱(chēng)BD)對(duì)應(yīng)該數(shù)據(jù)庫(kù)來(lái)源的數(shù)據(jù),結(jié)果分布如表2所示(2017年6月1日查詢(xún)結(jié)果)。
結(jié)果表明百度學(xué)術(shù)對(duì)中國(guó)知網(wǎng)期刊、萬(wàn)方期刊、維普期刊均有很好的覆蓋率,按上述數(shù)據(jù)對(duì)應(yīng)的覆蓋率分別為:98.3%、97.2%、96.4%。
除維普、萬(wàn)方資源、中國(guó)知網(wǎng)平臺(tái)的期刊數(shù)據(jù)外,還有一些未包含在上述3個(gè)平臺(tái)上的期刊論文,主要為在線科技論文及開(kāi)放訪問(wèn)的論文。結(jié)果如表3。
上述檢索出的結(jié)果數(shù)中,中國(guó)科技論文在線平臺(tái)實(shí)際有相應(yīng)的16條首發(fā)在線論文;而OAlib/Jourlib為開(kāi)放期刊的平臺(tái),實(shí)際上此類(lèi)期刊也被表2所列的數(shù)據(jù)庫(kù)收錄,只是由于其中一些文章題目標(biāo)引不一致,如部分采用了中英文并列標(biāo)題,例:“Search Engine Optimization搜索引擎優(yōu)化初探”,實(shí)際出自期刊《計(jì)算機(jī)系統(tǒng)應(yīng)用》2010年的文獻(xiàn);華藝線上圖書(shū)館(www.airitilibrary.com)集成港臺(tái)出版的學(xué)術(shù)論文數(shù)據(jù)庫(kù),一些文獻(xiàn)采用繁體的中文,從檢索結(jié)果看實(shí)際上也包含了一些會(huì)議論文或其他類(lèi)型文獻(xiàn)。
表2 百度學(xué)術(shù)整合的主要中文期刊
表3 百度學(xué)術(shù)整合的其他中文期刊論文
百度學(xué)術(shù)中有大量標(biāo)注免費(fèi)的全文數(shù)據(jù)如來(lái)源于道客巴巴、豆丁網(wǎng)的數(shù)據(jù),但去除表2、表3中的來(lái)源后,未見(jiàn)來(lái)自這些免費(fèi)網(wǎng)站的獨(dú)立數(shù)據(jù)。
百度學(xué)術(shù)的中文學(xué)位論文數(shù)據(jù)共1 026條,來(lái)自知網(wǎng)平臺(tái)、萬(wàn)方數(shù)據(jù)平臺(tái)共1 023條(其中438條為知網(wǎng)與萬(wàn)方共有數(shù)據(jù)),只有3篇論文來(lái)自廈門(mén)大學(xué)學(xué)術(shù)典藏庫(kù)(dspace.xmu.edu.cn,可免費(fèi)獲取全文)的學(xué)位論文。對(duì)應(yīng)具體的百度學(xué)術(shù)數(shù)據(jù)與中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)平臺(tái)上的學(xué)位論文數(shù)如表4。
結(jié)果表明百度學(xué)術(shù)的學(xué)位論文其對(duì)CNKI、萬(wàn)方數(shù)據(jù)平臺(tái)的覆蓋率分別為92.6%、90.9%。
百度學(xué)術(shù)平臺(tái)的中文文獻(xiàn)除學(xué)術(shù)期刊、學(xué)位論文外還有圖書(shū)、學(xué)術(shù)會(huì)議、專(zhuān)利及其他類(lèi)型,相比這些文獻(xiàn)的數(shù)據(jù)量較少,按表1的中文檢索(因數(shù)據(jù)量相比少,年限選擇為2000-2016年的結(jié)果數(shù)),其中圖書(shū)有219條,其中無(wú)來(lái)源出處115條,有可鏈接來(lái)源出處的104條;會(huì)議論文351條,專(zhuān)利記錄287條,其他未明確類(lèi)型的文獻(xiàn)81條,均有相應(yīng)的出處,見(jiàn)表5的數(shù)據(jù)(2017年6月1日查詢(xún)),括號(hào)里的數(shù)據(jù)為百度學(xué)術(shù)檢索的總數(shù)及其中前5個(gè)數(shù)據(jù)來(lái)源的檢出數(shù)。
表4 百度學(xué)術(shù)中文學(xué)位論文整合
表5 百度學(xué)術(shù)中文其他文獻(xiàn)的來(lái)源
圖書(shū)數(shù)據(jù)有219條記錄,無(wú)來(lái)源出處115條,可鏈接來(lái)源出處的有104條,主要來(lái)源有書(shū)問(wèn)平臺(tái)(bookask.com)、超星電子圖書(shū)等來(lái)源的數(shù)據(jù)。無(wú)來(lái)源出處的圖書(shū)只提供了相應(yīng)作者及出版社信息。如《構(gòu)建搜索引擎》一書(shū),作者為李剛,宋偉,邱哲,人民郵電出版社于2006年出版等信息。
會(huì)議論文共有351條,只來(lái)源于萬(wàn)方及中國(guó)知網(wǎng),其中萬(wàn)方數(shù)據(jù)255條,中國(guó)知網(wǎng)140條,而實(shí)際在萬(wàn)方及中國(guó)知網(wǎng)平臺(tái)檢索的結(jié)果數(shù)分別為282條和150條,覆蓋率分別為90.4%,92%,其中對(duì)應(yīng)2010-2016年的。
專(zhuān)利數(shù)據(jù)270條,只來(lái)源于Google Patents及萬(wàn)方平臺(tái),數(shù)據(jù)不完整,實(shí)際在萬(wàn)方平臺(tái)中可查到694條,而檢索中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局平臺(tái)數(shù)據(jù)(按公開(kāi)日期2000-2016)可得894條記錄,中國(guó)專(zhuān)利覆蓋率只有30.2%,因此專(zhuān)利數(shù)據(jù)收錄不完整。
其他類(lèi)別數(shù)據(jù)實(shí)際是百度學(xué)術(shù)平臺(tái)抽取數(shù)據(jù)時(shí)由于格式等不規(guī)范所致,從檢索結(jié)果看主要是期刊論文,也直接來(lái)自網(wǎng)絡(luò)的文章。如表5中來(lái)源于chinalibs.net的52條數(shù)據(jù)中,均屬期刊文獻(xiàn),百度學(xué)術(shù)標(biāo)引時(shí)把期刊名當(dāng)作者名。
英文學(xué)術(shù)數(shù)據(jù)來(lái)源分布廣泛,按表1的英文檢索結(jié)果分別選擇期刊、會(huì)議論文、圖書(shū)、專(zhuān)利、學(xué)位論文等類(lèi)型作統(tǒng)計(jì)并對(duì)數(shù)據(jù)來(lái)源進(jìn)行分析。為簡(jiǎn)化結(jié)果處理僅對(duì)每條文獻(xiàn)數(shù)據(jù)中的第一個(gè)出處作統(tǒng)計(jì)。
選擇期刊得到2 336條文獻(xiàn),統(tǒng)計(jì)第一條出處就有256條結(jié)果,其中前10個(gè)的結(jié)果如下:
表6百度學(xué)術(shù)英文期刊主要來(lái)源
序號(hào)數(shù)據(jù)庫(kù)(結(jié)果數(shù))序號(hào)數(shù)據(jù)庫(kù)(結(jié)果數(shù))1ResearchGate(373)6findarticles.com(88)2知網(wǎng)(297)7CiNii(69)3EBSCO(226)8OALib(68)4ACM(132)9Emerald(66)5Elsevier(102)10questia.com(46)
英文會(huì)議、圖書(shū)的百度學(xué)術(shù)檢出數(shù)據(jù)分別有632條、247條,統(tǒng)計(jì)第一條來(lái)源總數(shù)前6個(gè)的記錄數(shù)占來(lái)源總數(shù)分別為90.4%、85.0%,專(zhuān)利共173條主要為美國(guó)專(zhuān)利,數(shù)據(jù)來(lái)源只有FreePatentsOnline及Google Patents。
英文會(huì)議論文對(duì)比SCI平臺(tái)CPCI數(shù)據(jù)共326條其中檢出數(shù)據(jù)為248條,覆蓋率76.1%;EI中會(huì)議論文共537條其中419條檢出,覆蓋率為78%。
英文學(xué)位論文在百度學(xué)術(shù)中按上述條件檢出的結(jié)果數(shù)只有7條,核查均不是學(xué)位論文,外文學(xué)位論文全文平臺(tái)目前可利用的為Proquest(search.proquest.com)平臺(tái)數(shù)據(jù)庫(kù),國(guó)內(nèi)為鏡像站點(diǎn)(如:http://pqdt.calis.edu.cn),可檢索到26條結(jié)果,百度學(xué)術(shù)未提供相應(yīng)的數(shù)據(jù)出處。另外百度學(xué)術(shù)基于Proquest數(shù)據(jù)6條,實(shí)際是學(xué)位論文,但百度學(xué)術(shù)的歸類(lèi)屬期刊。
許多英文期刊全文數(shù)據(jù)庫(kù)平臺(tái)提供免費(fèi)開(kāi)放的檢索,只是閱讀全文數(shù)據(jù)時(shí)加以訪問(wèn)限制,檢索一些著名的英文全文學(xué)術(shù)平臺(tái)數(shù)據(jù)與百度學(xué)術(shù)相應(yīng)的檢索結(jié)果(2017年6月15日檢索結(jié)果),如表8。
表7 百度學(xué)術(shù)中英文會(huì)議論文、圖書(shū)、專(zhuān)利論文來(lái)源
表8 一些外文全文文獻(xiàn)平臺(tái)數(shù)據(jù)比較
注:*數(shù)據(jù)庫(kù)檢索時(shí)結(jié)果中包含了“Search Engine”檢索結(jié)果,在比對(duì)時(shí)先去除這部分?jǐn)?shù)據(jù)。
對(duì)于免費(fèi)開(kāi)放的全文數(shù)據(jù),如ScienceDirect平臺(tái)中,14篇為可開(kāi)放獲取的免費(fèi)全文(Open Access or Open Archive),百度學(xué)術(shù)在提供對(duì)應(yīng)的免費(fèi)標(biāo)記(Elsevier免費(fèi)下載)。從結(jié)果顯示百度學(xué)術(shù)對(duì)上述全文數(shù)據(jù)庫(kù)平臺(tái)覆蓋率均大于95%。
百度學(xué)術(shù)提供了SCI、SSCI、EI的核心期刊分類(lèi),對(duì)比我校購(gòu)買(mǎi)的相應(yīng)數(shù)據(jù)庫(kù)進(jìn)行檢索并與百度學(xué)術(shù)查到的數(shù)據(jù)加以比較:
表9 不同數(shù)據(jù)庫(kù)的結(jié)果數(shù)對(duì)比
表9中在SCI、SSCI、EI數(shù)據(jù)庫(kù)查詢(xún)到的相應(yīng)期刊論文分別為330條、243條、250條,在百度學(xué)術(shù)總的英文期刊論文中,相應(yīng)可檢索到318條、232條、240條,具有良好的覆蓋率分別為95.2%、94.8%、96.7%。
按百度學(xué)術(shù)平臺(tái)的SCI、SSCI、EI分類(lèi)檢索的結(jié)果,比較對(duì)應(yīng)實(shí)際在SCI、SSCI、EI的數(shù)據(jù),結(jié)果說(shuō)明百度學(xué)術(shù)提供對(duì)應(yīng)分類(lèi)的準(zhǔn)確性。結(jié)果顯示分類(lèi)準(zhǔn)確性較低SCI、SSCI準(zhǔn)確率只有85%左右,EI的分類(lèi)由于部分會(huì)議論文作為期刊論文而數(shù)據(jù)更低只有64.3%。如《Lecture Notes in Computer Science》,有18條數(shù)據(jù)在百度學(xué)術(shù)里了當(dāng)作期刊論文數(shù)據(jù)實(shí)際為會(huì)議論文數(shù)據(jù)在EI中被選用;另外如期刊《Journal of the American Society for Information Science and Technology》,在SCIE、SSCI、EI數(shù)據(jù)庫(kù)均有9條數(shù)據(jù)收錄,百度學(xué)術(shù)平臺(tái)可以檢索到所有數(shù)據(jù),但平臺(tái)沒(méi)有將其放入SCIE、SSCI分類(lèi)里,只有2條歸入EI分類(lèi)數(shù)據(jù)。Information Processing and Management文獻(xiàn)有15條記錄,百度學(xué)術(shù)均可以檢出,但沒(méi)有在百度平臺(tái)的EI分類(lèi)里。
百度學(xué)術(shù)平臺(tái)整合的學(xué)術(shù)數(shù)據(jù)包含學(xué)術(shù)期刊、學(xué)位論文、會(huì)議論文及專(zhuān)利論文等,檢索結(jié)果與源數(shù)據(jù)庫(kù)的比較看:
1)百度學(xué)術(shù)平臺(tái)收集的中文期刊論文數(shù)據(jù)對(duì)維普、萬(wàn)方、CNKI中的中文期刊覆蓋率分別高達(dá)96.4%、97.2%、98.3%,利用百度學(xué)術(shù)可以較全面地檢出這三個(gè)平臺(tái)的學(xué)術(shù)期刊論文,同時(shí)也可以同步檢出其他在線論文如科技在線論文(paper.edu.cn)。
2)中文學(xué)位論文、會(huì)議論文主要來(lái)源自萬(wàn)方、CNKI數(shù)據(jù)庫(kù),百度學(xué)術(shù)整合的數(shù)據(jù)覆蓋率90%~92%;百度學(xué)術(shù)中文圖書(shū)主要來(lái)源為書(shū)問(wèn)平臺(tái)(bookask.com)數(shù)據(jù)、也有超星電子圖書(shū)平臺(tái)等;中文專(zhuān)利數(shù)據(jù)來(lái)源于Google Patents及萬(wàn)方平臺(tái)數(shù)據(jù),集成的中國(guó)專(zhuān)利數(shù)據(jù)不完整。對(duì)專(zhuān)利文獻(xiàn),需要讀者利用國(guó)家知識(shí)產(chǎn)權(quán)局或歐州專(zhuān)利局等專(zhuān)門(mén)平臺(tái)進(jìn)一步進(jìn)行訪問(wèn)。
3)百度學(xué)術(shù)平臺(tái)收集的英文期刊論文對(duì)比SCI、SSCI、EI數(shù)據(jù)的覆蓋率分別達(dá)到95.2%、94.8%、96.7%,對(duì)全文數(shù)據(jù)庫(kù)Elsevier、Springer、Wiley、ACM、Emerald的數(shù)據(jù)覆蓋率分別為96%、100%、97.8%、95.8%、95.7%。百度對(duì)外文核心期刊的論文有很好的收集,也提供SCI、SSCI、EI等的分類(lèi),但其分類(lèi)準(zhǔn)確性還需進(jìn)一步提高,一些核心期刊本身是動(dòng)態(tài)變化的數(shù)據(jù),讀者在使用時(shí)需要在相應(yīng)的專(zhuān)業(yè)數(shù)據(jù)庫(kù)里進(jìn)一步確認(rèn)。
4)百度學(xué)術(shù)整合了全文文獻(xiàn)的來(lái)源,極大方便用戶(hù)獲取文獻(xiàn)全文。普通用戶(hù)利用百度學(xué)術(shù)可以獲取免費(fèi)的全文數(shù)據(jù),而具有全文訪問(wèn)的用戶(hù)可利用百度學(xué)術(shù)搜索到全文頁(yè)面的鏈接直接獲得全文,如我校的校園網(wǎng)用戶(hù)可直接利用百度學(xué)術(shù)獲取中國(guó)知網(wǎng)、萬(wàn)方資源的中文文獻(xiàn)及Elsevier、Springer、Wiley、ACM、Emerald等英文全文文獻(xiàn),但一些全文數(shù)據(jù)庫(kù)不能直接獲取如維普期刊全文、EBSCO全文數(shù)據(jù),比較發(fā)現(xiàn)在校園網(wǎng)訪問(wèn)這2個(gè)數(shù)據(jù)庫(kù)時(shí)采用的是不同的鏡像站點(diǎn)。
5)百度學(xué)術(shù)整合的一些元數(shù)據(jù)不規(guī)范或有錯(cuò)誤。如未將OAlib開(kāi)放平臺(tái)期刊采用的中英文并列標(biāo)題規(guī)范化,標(biāo)引chinalibs.net中期刊文獻(xiàn),把期刊名當(dāng)作者名等。百度學(xué)術(shù)檢出的其他類(lèi)別數(shù)據(jù)實(shí)際主要是期刊論文,一些文獻(xiàn)實(shí)際上是會(huì)議論文也被分類(lèi)在期刊論文,數(shù)據(jù)的規(guī)范化及有效歸并處理問(wèn)題既需要數(shù)據(jù)整合建設(shè)者密切注意及時(shí)消除,同時(shí)也要求使用者在檢索及閱讀結(jié)果時(shí)學(xué)會(huì)仔細(xì)甄別。
[1]謝奇,關(guān)晶,楊錯(cuò).后GoogleScholar時(shí)代新的學(xué)術(shù)利器——百度學(xué)術(shù)搜索[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2015,27(6):110-114.
[2]張英健.“百度學(xué)術(shù)搜索”在期刊編輯中的應(yīng)用[J].編輯學(xué)報(bào),2015,27(6):536-539.
[3]覃燕梅.百度學(xué)術(shù)搜索與超星發(fā)現(xiàn)系統(tǒng)比較分析及評(píng)價(jià)[J].現(xiàn)代情報(bào),2016,36(3):48-52,60.
[4]趙功群,王恒.國(guó)內(nèi)三大中文發(fā)現(xiàn)系統(tǒng)比較分析及評(píng)價(jià)[J].圖書(shū)館研究,2016,46(6):72-77.
[5]William H.Walters.Google Scholar Coverage of a Multidisciplinary Field[J].Information Processing & Management,2007,43(4):1121-1132.
[6]John J.Meier,Thomas W.Conkling.Google Scholar’s Coverage of the Engineering Literature:An Empirical Study[J].The Journal of Academic Librarianship,2008,34(3):196-201.
[7]洪道廣.Google Scholar的數(shù)據(jù)整合研究[J].現(xiàn)代情報(bào),2010,30 (7):39-41.
[8]Susanne Mikki.Comparing Google Scholar and ISI Web of Science for Earth Sciences[J].Scientometrics,2010,82(2):321-331.
[9]Calis西文數(shù)據(jù)庫(kù)導(dǎo)航[EB/OL].http://project.calis.edu.cn/calisnew/calis_index.asp?fid=6&class=6.