伊雷 王婷 郭倩玲 張建文
(北京化工大學(xué)圖書館,北京100029)
大數(shù)據(jù)背景下高校圖書館開展知識服務(wù)的探索與實踐*——以北京化工大學(xué)圖書館為例
伊雷王婷郭倩玲張建文
(北京化工大學(xué)圖書館,北京100029)
大數(shù)據(jù)時代究竟如何通過挖掘海量文獻(xiàn)數(shù)據(jù)提供知識服務(wù),在高校圖書館界尚未達(dá)成一致意見。但開展大數(shù)據(jù)知識服務(wù),是高校圖書館未來發(fā)展的一個重要方向,這一點已經(jīng)逐漸成為共識。利用文獻(xiàn)計量學(xué)分析高校學(xué)科發(fā)展?fàn)顩r,為學(xué)校制定學(xué)科發(fā)展戰(zhàn)略提供參考依據(jù),是目前高校圖書館利用大數(shù)據(jù)開展知識服務(wù)的具體途徑之一。
高校圖書館大數(shù)據(jù)知識服務(wù)
“隨著云計算、物聯(lián)網(wǎng)以及信息獲取和存儲技術(shù)的飛速發(fā)展,數(shù)據(jù)正以幾何級數(shù)的速率迅速增長和積累。目前全球已經(jīng)步入了大數(shù)據(jù)時代[1]?!贝髷?shù)據(jù)時代是網(wǎng)絡(luò)社會發(fā)展的更高階段,其特點是“數(shù)據(jù)生成速度加快、采集實現(xiàn)自動化、存儲和傳輸成本大幅降低,數(shù)據(jù)量急劇膨脹”[2]。在這一背景下,高校廣大師生獲取文獻(xiàn)資源的途徑越來越多,高校圖書館傳統(tǒng)粗放的服務(wù)方式已然不能適應(yīng)學(xué)校發(fā)展需要,這就要求必須在保證文獻(xiàn)資源數(shù)量與質(zhì)量的同時,在服務(wù)師生的方式、方法上不斷創(chuàng)新。因此,高校圖書館如何為師生提供大數(shù)據(jù)知識服務(wù),已成為值得研究的課題。所謂大數(shù)據(jù)知識服務(wù)“是為適應(yīng)信息服務(wù)智慧化、協(xié)作化、綠色化、先覺化和泛在化的發(fā)展趨勢而衍生的一種基于網(wǎng)絡(luò)的信息服務(wù)新模式”[3]。高校圖書館開展大數(shù)據(jù)知識服務(wù)就是要通過挖掘海量學(xué)術(shù)數(shù)據(jù)資源為廣大師生提供前瞻性服務(wù)。
高校圖書館歷來對信息技術(shù)的應(yīng)用非常重視,幾乎每一項新技術(shù)的出現(xiàn),都能推動其服務(wù)升級。大數(shù)據(jù)時代,高校圖書館的數(shù)據(jù)處理方式、目的等都將發(fā)生巨變。在數(shù)字時代,高校圖書館的數(shù)據(jù)處理主要是將文獻(xiàn)資料數(shù)字化、網(wǎng)絡(luò)化,其目的是實現(xiàn)師生對學(xué)術(shù)數(shù)據(jù)的充分利用;進(jìn)入大數(shù)據(jù)時代,對海量文獻(xiàn)數(shù)據(jù)的分析、處理將成為高校圖書館發(fā)展的新趨勢,其服務(wù)重心也會逐漸由傳統(tǒng)業(yè)務(wù)向數(shù)據(jù)挖掘轉(zhuǎn)移。在實踐方面,哈佛大學(xué)圖書館已引入大數(shù)據(jù)服務(wù)[4];清華大學(xué)圖書館正嘗試在大數(shù)據(jù)環(huán)境下從元數(shù)據(jù)中提取關(guān)鍵詞等信息,分析關(guān)鍵詞走向及作者與合作者的關(guān)系,試圖建立以人為中心的知識關(guān)聯(lián)網(wǎng)絡(luò)[5]。
作為一種全新的服務(wù)方式,大數(shù)據(jù)知識服務(wù)是在海量數(shù)據(jù)的獲取、存儲、分析等過程產(chǎn)生的以數(shù)字化、網(wǎng)絡(luò)化、智能化為基礎(chǔ)的服務(wù)模式。在大數(shù)據(jù)時代對海量數(shù)據(jù)的處理能力意味著獲取知識方式的改變。Jim Gray因此提出科學(xué)研究的第四范式——以協(xié)同化、網(wǎng)絡(luò)化與數(shù)據(jù)驅(qū)動為其主要特征的數(shù)據(jù)密集型科學(xué)研究[6]。作為未來服務(wù)的新模式,大數(shù)據(jù)知識服務(wù)將成為高校圖書館轉(zhuǎn)型發(fā)展的新方向。
如何在大數(shù)據(jù)時代開展知識服務(wù),目前高校圖書館界正處于探索階段,尚沒有統(tǒng)一的模式。北京化工大學(xué)圖書館也進(jìn)行了一些嘗試。主要涉及以下幾個方面:第一,采用定量分析方法,通過引文數(shù)據(jù)庫Web of Science考察了2001~2014年北京化工大學(xué)(以下簡稱北化)學(xué)者們的總發(fā)文量、總被引次數(shù)、每篇論文的平均被引次數(shù)、H指數(shù)等多個指標(biāo),利用H指數(shù)將數(shù)量指標(biāo)(論文數(shù)量)和質(zhì)量指標(biāo)(被引頻次)有機(jī)結(jié)合,使評價結(jié)果更加合理。在此基礎(chǔ)上,結(jié)合人才類型、研究人員層次、學(xué)術(shù)生涯年限等多個影響因素,探討現(xiàn)有文獻(xiàn)計量方法和體系的局限性,闡釋如何正確解讀上述評價指標(biāo),以便學(xué)校決策者們能夠正確地應(yīng)用這些指標(biāo),對老師們的學(xué)術(shù)影響力做出科學(xué)評價。第二,對2001~2014年度以北化為機(jī)構(gòu)的SCI收錄論文進(jìn)行分析。并從研究方向、發(fā)表期刊分布特點以及論文作者群等屬性進(jìn)行統(tǒng)計,對它們的分布規(guī)律和內(nèi)在聯(lián)系進(jìn)行梳理,以期研究科研產(chǎn)出特點,為學(xué)校制定科研政策、交叉學(xué)科發(fā)展、國際化戰(zhàn)略等提供數(shù)據(jù)支撐。第三,利用文獻(xiàn)計量分析法,借助Cite Space軟件生成可視化圖譜,通過學(xué)科地圖等形式,定量、可視化地深入揭示北化各科群的分布情況,進(jìn)而系統(tǒng)探討其研究維度,以期把握北化的學(xué)科交叉以及滲透融合狀況,內(nèi)容包括學(xué)科分布、合作情況分析、研究方向演化及研究熱點分析、研究前沿分析等。第四,利用Innography專利檢索與分析平臺制作了詳細(xì)的專利分析報告,內(nèi)容涉及當(dāng)前北化的專利擁有量、專利價值評價、創(chuàng)新優(yōu)勢學(xué)科、活躍學(xué)科發(fā)明人、專利的合作申請分析、國外專利申請情況分析等。
3.1利用文獻(xiàn)計量分析學(xué)科發(fā)展水平
利用文獻(xiàn)計量分析學(xué)科發(fā)展水平,是高校圖書館在大數(shù)據(jù)時代開展知識服務(wù)的具體途徑之一。例如,通過大量文獻(xiàn)計量分析,我們發(fā)現(xiàn)Chemistry、Materials Science、Engineer?ing、Polymer Science和Physics為北化最為集中的研究方向。
圖1 主要研究方向及其分布
對以上5個主要科研方向求和,得到的總計數(shù)以及總百分比數(shù)(110%)均高于所發(fā)表論文的總篇數(shù),說明這5個研究方向及其交叉學(xué)科是北化科研產(chǎn)出的重要組成部分。并由此可以看出,北化科研產(chǎn)出具有較強(qiáng)的學(xué)科集中性。
圖2化學(xué)方向關(guān)聯(lián)情況
同時通過Citespace軟件對熱點研究方向相關(guān)文獻(xiàn)的分布情況進(jìn)行分析(用節(jié)點代表分析對象,節(jié)點大小表明對象的量級,用節(jié)點之間連接線表明文獻(xiàn)之間的關(guān)聯(lián)性)發(fā)現(xiàn)nanoparticles是出現(xiàn)次數(shù)最多的
,與之關(guān)聯(lián)的為nanocrystals(圖2)。此外,由water、seperation和absorbtion為
的文獻(xiàn)構(gòu)成了一組關(guān)聯(lián)性非常強(qiáng)的研究熱點。用同樣方法對其他4個熱點研究方向進(jìn)行分析得到圖3。
圖3材料科學(xué)方向關(guān)聯(lián)情況
圖4工程方向關(guān)聯(lián)情況
圖5高分子科學(xué)方向關(guān)聯(lián)情況
圖6物理學(xué)方向關(guān)聯(lián)情況
通過對圖2~6進(jìn)行分析,發(fā)現(xiàn)上述5個熱點研究方向其有著非常強(qiáng)的相似性。由此可見北化的研究領(lǐng)域單一,分散性差,高水平研究方向過于集中,學(xué)科發(fā)展不均衡。
3.2利用專業(yè)平臺分析學(xué)科發(fā)展特色
利用Innograph對北化專利數(shù)據(jù)進(jìn)行統(tǒng)計,研究其背后的學(xué)科發(fā)展信息。
第一,重點研究領(lǐng)域分析。將北化全部專利申請按照IPC統(tǒng)計分析生成樹狀分布圖(圖7),圖7中區(qū)塊的不同顏色表示某領(lǐng)域全球?qū)@偭康亩嗌?,區(qū)塊面積的大小代表北化專利申請數(shù)量在某領(lǐng)域的多少。由圖7可見北化在B部和C部申請的專利最多。再取專利申請量排名前10位的IPC小類進(jìn)行分析,由此可看出北化的重點研發(fā)方向。表1為專利申請量排名前10位的IPC小類及對應(yīng)的技術(shù)領(lǐng)域。結(jié)合圖7和表1可以看出,北化申請的專利中,B部中以催化和塑料加工領(lǐng)域為主,C部中以高分子化合物領(lǐng)域為最多。說明北化專利發(fā)明集中在催化、塑料加工、高分子材料等領(lǐng)域。
圖7 北化專利IPC分類樹狀分布
第二,熱門研究領(lǐng)域競爭力分析。北化專利在該領(lǐng)域的國內(nèi)競爭力情況見圖8。競爭力分析圖中氣泡大小代表專利數(shù)量多少;橫坐標(biāo)與專利比重、專利分類、引用情況相關(guān),橫坐標(biāo)越大,說明其專利技術(shù)性越強(qiáng);縱坐標(biāo)與專利權(quán)人的收入高低、專利國家分布、專利涉案情況有關(guān),縱坐標(biāo)越大,說明專利權(quán)人實力越強(qiáng)。在該領(lǐng)域,中石化在公司實力、專利質(zhì)量和數(shù)量上遙遙領(lǐng)先,巴斯夫的專利數(shù)量較大。其他機(jī)構(gòu)在專利質(zhì)量和數(shù)量上相差不大,在這些機(jī)構(gòu)中,除中石油、贏創(chuàng)、殼牌、美孚、住友、陶氏等幾家公司外,主要為高校,北化在這些機(jī)構(gòu)中占有一席之地,但也面臨著激烈競爭。
表1 北化專利申請量排名前10位的IPC小類及對應(yīng)的技術(shù)領(lǐng)域
圖8 催化領(lǐng)域北化有效專利在國內(nèi)的競爭力
北化面臨的競爭主要來自清華、復(fù)旦等大學(xué)。為了更好地了解對手,對清華、復(fù)旦等大學(xué)在該領(lǐng)域的專利申請進(jìn)行文本聚類分析,以了解這兩所大學(xué)的研究技術(shù)熱點。兩所大學(xué)專利申請的文本聚類如圖9所示。由圖9可以看出,清華大學(xué)的主要研究熱點為催化活性組分和催化反應(yīng)器;復(fù)旦大學(xué)的研究熱點為沸石、分子篩和二氧化鈦在催化方面的應(yīng)用。北化在該領(lǐng)域的研究熱點為復(fù)合金屬氧化物、納米粒子和分子篩在催化方面的應(yīng)用及催化劑活性組分方面,其在反應(yīng)器和廢水處理方面研究較少。
圖9 兩所大學(xué)在催化領(lǐng)域?qū)@暾埖奈谋揪垲?/p>
3.3利用大數(shù)據(jù)發(fā)現(xiàn)潛在學(xué)科領(lǐng)軍人才
高校學(xué)科建設(shè)領(lǐng)軍人才是促進(jìn)高校學(xué)科建設(shè)的核心人物。在普通高校中,所謂學(xué)科建設(shè)領(lǐng)軍人才主要包括4個層次:第一層次是以我國兩院院士為代表的高級人才。第二層次是以“長江學(xué)者”為代表的高端人才,也包括“千人計劃”及“973首席科學(xué)家”等。第三層次是國家杰出青年科學(xué)基金入選者。國家杰出青年科學(xué)基金用于支持在基礎(chǔ)研究方面已取得突出成績的青年學(xué)者自主選擇研究方向開展創(chuàng)新研究,旨在培養(yǎng)造就一批進(jìn)入世界科技前沿的優(yōu)秀學(xué)術(shù)帶頭人。第四層次是“新世紀(jì)優(yōu)秀人才支持計劃”入選者。“新世紀(jì)優(yōu)秀人才支持計劃”屬于教育部“高層次創(chuàng)造性人才計劃”的第二層次(第一層次是“長江學(xué)者”),是對高校優(yōu)秀青年學(xué)術(shù)帶頭人的一個支持計劃。
然而,對于高校而言,直接引進(jìn)這些人才的成本太高。另一方面,這些人才都是稀缺資源,高校對他們的爭奪也很激烈,所以在操作層面即使不計成本,這些人才也并不是很好引進(jìn)的。因此,如果能夠利用學(xué)術(shù)大數(shù)據(jù)挖掘一批好苗子進(jìn)行引進(jìn),假以數(shù)年培養(yǎng),使其成為領(lǐng)軍人才,其成本和難度則會大大降低。
在北化引進(jìn)人才的過程中,我們曾設(shè)想利用H指數(shù)和ESI高被引論文等多種指標(biāo)對其學(xué)術(shù)潛力進(jìn)行多方面考察,看其是否具備成長為長江學(xué)者和院士的素質(zhì)。H指數(shù)的優(yōu)點是既考慮了論文的數(shù)量指標(biāo),又考慮了論文的質(zhì)量指標(biāo),而且更多地聚焦于高被引頻次論文,只有當(dāng)論文數(shù)量和質(zhì)量均有良好表現(xiàn)時,才會獲得較高的H指數(shù),這是目前世界上公認(rèn)的相對比較科學(xué)的評價指標(biāo)。從北化的具體情況來看,第一梯隊人才的H指數(shù)一般都能夠達(dá)到30以上,第二梯隊人才的H指數(shù)介于20~30之間。
然而,H指數(shù)也存在不足之處。具體表現(xiàn)為H指數(shù)更多地反映了學(xué)者在基礎(chǔ)研究領(lǐng)域內(nèi)的影響力,對于主要從事應(yīng)用技術(shù)開發(fā)的科研人員,用H指數(shù)就無法公正地體現(xiàn)其學(xué)術(shù)貢獻(xiàn);尤其是對于年輕的學(xué)術(shù)新星,即使單篇論文的被引頻次很高,也無法獲得較高的H指數(shù)。他們必須經(jīng)過長期的學(xué)術(shù)積累,才能夠在H指數(shù)上有較好的表現(xiàn)。因此,單從H指數(shù)來評價年輕學(xué)者,不利于發(fā)掘新人;H指數(shù)學(xué)科差異性很大,對不同學(xué)科人才的H指數(shù)進(jìn)行橫向?qū)Ρ仁遣豢扇〉摹?/p>
因此,運(yùn)用H指數(shù)進(jìn)行評價時,還要綜合考慮被評價學(xué)者的類型、學(xué)科領(lǐng)域、層次、學(xué)術(shù)生涯年限等諸多因素影響,并結(jié)合專利授權(quán)量和轉(zhuǎn)化量、獲得國家獎勵情況等多種評價指標(biāo)建立綜合評價體系(例如,ESI高被引論文應(yīng)納入考察和發(fā)掘科學(xué)領(lǐng)軍人才的重要指標(biāo)之一),才能使得評價結(jié)果更為合理、客觀和科學(xué)。
總之,合理運(yùn)用多項評價指標(biāo),密切關(guān)注高層次的學(xué)術(shù)影響力動態(tài),及時發(fā)掘新人,才能進(jìn)一步推動高校人才隊伍建設(shè)和學(xué)科發(fā)展。
目前,高校圖書館開展大數(shù)據(jù)知識服務(wù)正處于探索階段。究竟如何通過挖掘海量文獻(xiàn)數(shù)據(jù),從大數(shù)據(jù)中獲取新知,在高校圖書館界尚未達(dá)成共識。但開展大數(shù)據(jù)知識服務(wù),從而不斷提升高校圖書館的服務(wù)品質(zhì),是高校圖書館未來發(fā)展的一個重要方向,這一點應(yīng)該不會有疑義。開展大數(shù)據(jù)知識服務(wù)將使高校圖書館迎來一個新時代。高校圖書館不同于公共圖書館之處在于其服務(wù)對象和服務(wù)功能相對單一,主要對象是高校廣大師生,其主要功能是服務(wù)高校的教學(xué)、科研發(fā)展。因此,北化圖書館在開展大數(shù)據(jù)知識服務(wù)探索時,特別關(guān)注兩個方向,其一為知識發(fā)現(xiàn),其二為人才發(fā)現(xiàn)。這兩個方向?qū)⑹俏覀兾磥黹_展大數(shù)據(jù)知識服務(wù)的主要方向。
[1]秦小華,王紅濤.大數(shù)據(jù)時代的高校圖書館服務(wù)創(chuàng)新[J].中國科技信息,2014(22):221-222.
[2]鐘輝新.大數(shù)據(jù)時代信息服務(wù)的發(fā)展走向及高校圖書館應(yīng)對策略[C].廣東圖書館學(xué)會學(xué)術(shù)年會論文集,2013.
[3]秦曉珠,李晨暉,麥范金.大數(shù)據(jù)知識服務(wù)的內(nèi)涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[4]WATTERS A.Strata Week:Harvard Library releases big da?ta for its books:Harvard offers big data for books,Cloudera’s new Hadoop distribution,Splunk goes public[EB/OL].[2013-10-09].http://radar.oreilly.com/2012/04/harvard-book-da?ta-cloudera-hadoop-splunk-ipo.html.
[5]鄧景康.大數(shù)據(jù)環(huán)境下清華大學(xué)圖書館的實踐[N].中國新聞出版報,2013-08-29(005).
[6]Jim G.On eScience:transformed scientific method[C].Tony H,Stewart T,Kirstin T.The fourth needs paradigm:Dataintensive scientific discovery.Redmond,WA:Microsoft Re?search,2009:19-33.
伊雷男,1979年生。碩士,館員。研究方向:數(shù)據(jù)挖掘、學(xué)科服務(wù)。
王婷女,1976年生。碩士,副研究館員。研究方向:學(xué)科服務(wù)。
郭倩玲女,1971年生。博士,副研究館員。研究方向:科技查新、專利分析。
張建文男,1969年生。博士,教授。研究方向:圖書館管理。
G258.6
*本文系中央高?;究蒲袠I(yè)務(wù)費項目(ZZ1403);北京化工大學(xué)圖書館館長基金(20141203)研究成果。
(2015-09-28;責(zé)編:張欣。)