隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算等相關(guān)技術(shù)的快速發(fā)展,全球數(shù)據(jù)量呈現(xiàn)前所未有的爆炸式增長,隨之大數(shù)據(jù)得到迅猛發(fā)展。麥肯錫[1]將大數(shù)據(jù)定義為無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件和工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。也有學(xué)者習(xí)慣按照特征描述大數(shù)據(jù),Gartner[2]的3V 模型對大數(shù)據(jù)特點(diǎn)的描述比較有代表意義,即多樣性(Variety)、規(guī)模性(Volume)和高速性(Velocity)。此外還有一種4V理論,即在3V 模型的基礎(chǔ)上增加真實(shí)性(Veracity)[3]或者價(jià)值性(Value)[4]。目前,大數(shù)據(jù)已經(jīng)引起了國際科技界、商業(yè)界、學(xué)術(shù)界和政府部門的廣泛關(guān)注。2008年國際學(xué)術(shù)頂級(jí)刊物Nature推出“大數(shù)據(jù)”專刊[5],2011 年Science推出“Dealing with Data”??懻摽茖W(xué)研究中遇到的各種大數(shù)據(jù)問題[6]。2012年3月,美國政府宣布推出“大數(shù)據(jù)研究和發(fā)展計(jì)劃”[7],將大數(shù)據(jù)的研究和開發(fā)上升到國家戰(zhàn)略層面。2013年12月,首屆CCF(中國計(jì)算機(jī)學(xué)會(huì))大數(shù)據(jù)學(xué)術(shù)會(huì)議[8]在北京召開,推動(dòng)了大數(shù)據(jù)的學(xué)術(shù)研究和交流。為進(jìn)一步促進(jìn)大數(shù)據(jù)技術(shù)的研究與發(fā)展,2014年12月,第二屆CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議[9]如期召開。
有學(xué)者提出,大數(shù)據(jù)未來不僅影響企業(yè)的組織和決策、國家的治理模式,而且還會(huì)對個(gè)人的生活方式產(chǎn)生巨大影響,甚至對各個(gè)學(xué)科的發(fā)展也將產(chǎn)生影響[10]。圖書館學(xué)、情報(bào)學(xué)作為信息社會(huì)的一個(gè)不可或缺的研究領(lǐng)域,對大數(shù)據(jù)也非常關(guān)注,2014年第二十次全國醫(yī)學(xué)信息學(xué)術(shù)會(huì)議,已經(jīng)將“大數(shù)據(jù):醫(yī)學(xué)信息學(xué)研究與實(shí)踐”列為會(huì)議主題。此外,一些圖書館學(xué)研究者已經(jīng)參與到大數(shù)據(jù)研究項(xiàng)目中[11],將大數(shù)據(jù)的應(yīng)用與圖書館自身的發(fā)展結(jié)合起來。為了客觀、全面地揭示近幾年國內(nèi)圖書館對大數(shù)據(jù)的研究,本文采用共詞聚類分析法對圖書館大數(shù)據(jù)的相關(guān)文獻(xiàn)進(jìn)行主題分析,以期獲得有價(jià)值的結(jié)論供同行參考借鑒。
檢索中國知網(wǎng)(CNKI),主題為“大數(shù)據(jù)”和“圖書館”,檢索時(shí)間為2010年1月1日——2014年10月31日,并下載題錄。剔除會(huì)議通知、期刊征稿、征訂通知等無關(guān)記錄,最終獲得319條有效記錄。
將下載的有效題錄信息輸入書目共現(xiàn)分析系統(tǒng)BICOMB軟件[12]進(jìn)行關(guān)鍵詞頻次統(tǒng)計(jì)。在統(tǒng)計(jì)詞頻時(shí),發(fā)現(xiàn)關(guān)鍵詞中一些諸如“影響、對策、挑戰(zhàn)”等意義過于寬泛的詞語,對研究主題的發(fā)展幫助不大,故將其刪除。同時(shí)將一些意義相同或相近,只是表現(xiàn)形式不同的關(guān)鍵詞進(jìn)行合并,如“學(xué)科服務(wù)”與“學(xué)科化服務(wù)”、“信息化服務(wù)”與“信息服務(wù)”、“知識(shí)咨詢服務(wù)”與“知識(shí)服務(wù)”等,然后重新進(jìn)行詞頻統(tǒng)計(jì)。
1.3.1 g指數(shù)法
為了避免共詞分析中高頻關(guān)鍵詞的選取主觀性太強(qiáng),本文利用詞頻g指數(shù)法確定共詞分析中高頻關(guān)鍵詞的閾值。詞頻g指數(shù)法的確定方法為:如果某一個(gè)研究主題的關(guān)鍵詞總量為N,將關(guān)鍵詞按頻次降序排列,前g個(gè)關(guān)鍵詞的累加頻次不小于g2次,而g+1個(gè)關(guān)鍵詞的累加頻次小于(g+1)2次,則該研究主題的關(guān)鍵詞數(shù)值臨界值即為g。該方法可以篩選出超高頻詞和部分次高頻詞(能夠貼切地表達(dá)出研究主題的內(nèi)容),二者的結(jié)合能更深層次地揭示各研究主題之間的相關(guān)性[13]。通過該方法,本文確定出排序前27位的關(guān)鍵詞反映國內(nèi)圖書館對大數(shù)據(jù)的研究熱點(diǎn)(表1)。
1.3.2 聚類分析
利用BICOMB軟件,統(tǒng)計(jì)了27個(gè)高頻詞在所有文獻(xiàn)中的出現(xiàn)頻次,生成了27×316的詞篇矩陣。部分矩陣數(shù)據(jù)見表2,表中第1行數(shù)字代表文獻(xiàn)的序號(hào),矩陣中的數(shù)字“0”表示某關(guān)鍵詞未在某篇文獻(xiàn)出現(xiàn),數(shù)字“1”表示某關(guān)鍵詞在某篇文獻(xiàn)出現(xiàn)[14]。
將詞篇矩陣導(dǎo)入軟件SPSS 11.5進(jìn)行聚類分析。選擇層次聚類分析“Hierarchical Cluster”,聚類方法選擇類內(nèi)鏈接,相似性測度選擇Binary二值變量和Ochiai系數(shù)[14]。
表1 高頻關(guān)鍵詞
表2 高頻關(guān)鍵詞詞篇矩陣(部分)
SPSS 11.5得出的聚類樹狀圖見圖1??v軸文字和數(shù)字代表了表1中的高頻關(guān)鍵詞及其位次,橫軸的數(shù)字代表了兩個(gè)關(guān)鍵詞間的相似距離[14]。對聚類樹狀圖進(jìn)行分析發(fā)現(xiàn),近5年國內(nèi)圖書館對大數(shù)據(jù)的研究熱點(diǎn)主要集中在以下6個(gè)方面。
圖1 聚類樹狀圖
這一類共包括大數(shù)據(jù)、圖書館、信息服務(wù)、知識(shí)服務(wù)、圖書館員和服務(wù)創(chuàng)新6個(gè)關(guān)鍵詞。隨著信息化的發(fā)展和智能手機(jī)、高速網(wǎng)絡(luò)及移動(dòng)圖書館的普及,圖書館各類信息資源的總量日益龐大且增長快速,形成了海量的數(shù)據(jù),圖書館的大數(shù)據(jù)時(shí)代已經(jīng)來臨。從圖書館自動(dòng)化發(fā)展史來看,每一項(xiàng)新信息技術(shù)的出現(xiàn),都能引起圖書館界的極大關(guān)注,并推動(dòng)圖書館的管理與服務(wù)升級(jí)[15]。大數(shù)據(jù)的出現(xiàn)也將推進(jìn)圖書館創(chuàng)新服務(wù)模式。
包括學(xué)科化服務(wù)和資源建設(shè)2個(gè)關(guān)鍵詞。文獻(xiàn)資源建設(shè)是圖書館服務(wù)質(zhì)量的重要表現(xiàn)形式,對教學(xué)科研會(huì)產(chǎn)生重要影響。大數(shù)據(jù)環(huán)境下的文獻(xiàn)資源種類繁多,數(shù)量巨大,需要嚴(yán)格把控文獻(xiàn)資源的采訪質(zhì)量。然而,負(fù)責(zé)資源采訪的館員不能掌握所有學(xué)科專業(yè)知識(shí),很難準(zhǔn)確把握不熟悉學(xué)科的文獻(xiàn)資源,入藏文獻(xiàn)資源的合理性無法得到有效保證。學(xué)科化服務(wù)必須參與到文獻(xiàn)資源建設(shè)中,如由學(xué)科館員進(jìn)行采訪工作,每個(gè)學(xué)科館員負(fù)責(zé)一個(gè)或幾個(gè)較熟悉的學(xué)科專業(yè)的文獻(xiàn)采購,通過對圖書館數(shù)據(jù)資源以及各種網(wǎng)絡(luò)資源的挖掘和分析,篩選出有價(jià)值的文獻(xiàn),為大數(shù)據(jù)環(huán)境下文獻(xiàn)資源采訪工作提供輔助決策支持,增強(qiáng)文獻(xiàn)資源建設(shè)的針對性[16]。
包括個(gè)性化服務(wù)、服務(wù)模式和用戶服務(wù)3個(gè)關(guān)鍵詞。大數(shù)據(jù)技術(shù)的應(yīng)用使圖書館可以對用戶個(gè)人行為信息進(jìn)行多渠道多領(lǐng)域的采集,并從中挖掘出有價(jià)值的信息。大數(shù)據(jù)的核心就是預(yù)測[17]。館員通過深入細(xì)致地了解用戶的行為方式、研究習(xí)慣、興趣愛好、心理特征、知識(shí)結(jié)構(gòu)、知識(shí)應(yīng)用能力、研究方向、階段需求、科研環(huán)境等諸多信息,進(jìn)而分析、挖掘讀者目前的需求以及預(yù)測未來的需求,及時(shí)地、有針對性地向用戶提供個(gè)性化服務(wù),對提高圖書館的服務(wù)質(zhì)量和核心競爭力具有重要意義。
包括數(shù)字圖書館、應(yīng)用、大數(shù)據(jù)技術(shù)和數(shù)據(jù)存儲(chǔ)4個(gè)關(guān)鍵詞。數(shù)字圖書館中的大數(shù)據(jù)包括圖書館的數(shù)字化資源(如館藏?cái)?shù)字資源、數(shù)據(jù)庫資源、電子書資源)和各類音頻、視頻資源以及社交網(wǎng)絡(luò)形成的海量非結(jié)構(gòu)化數(shù)據(jù)(如各類讀者的來館頻次、活動(dòng)范圍、瀏覽歷史、書籍借閱數(shù)據(jù)、網(wǎng)站點(diǎn)擊數(shù)據(jù)、館藏使用情況統(tǒng)計(jì)數(shù)據(jù)等)。這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜、形式多樣、數(shù)量巨大,如何科學(xué)、高效地存儲(chǔ)這些大數(shù)據(jù),是圖書館面臨的巨大挑戰(zhàn)。
包括非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、數(shù)據(jù)分析和信息素養(yǎng)5個(gè)關(guān)鍵詞。圖書館在日常運(yùn)營過程中,每天都會(huì)產(chǎn)生大量的異構(gòu)大數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)),如果能有效地對這些大數(shù)據(jù)進(jìn)行分析、挖掘,可以協(xié)助圖書館建立信息安全風(fēng)險(xiǎn)評(píng)估模型,預(yù)測可能發(fā)生的網(wǎng)絡(luò)攻擊、軟硬件故障,更好地控制各種風(fēng)險(xiǎn)(如幫助控制數(shù)字圖書館信息安全和知識(shí)產(chǎn)權(quán)等)。通過對大數(shù)據(jù)的深入挖掘和分析,能夠幫助圖書館更為智能、準(zhǔn)確地預(yù)測用戶需求[18]和進(jìn)行用戶流失分析。通過分析不同用戶的行為與使用習(xí)慣,開發(fā)出更多符合用戶需求的產(chǎn)品,吸納更多不同層次的用戶,建立新型的知識(shí)服務(wù)引擎,幫助用戶快速獲取所需的信息資源。
包括7個(gè)關(guān)鍵詞,其中比較有代表性的關(guān)鍵詞有云計(jì)算、物聯(lián)網(wǎng)、MapReduce、語義網(wǎng)和Hadoop等。隨著大數(shù)據(jù)研究與應(yīng)用不斷升溫,學(xué)者對大數(shù)據(jù)的處理技術(shù)與開發(fā)工具也越來越關(guān)注。2006年Google首次提出了“云計(jì)算”的概念,云計(jì)算的核心是海量數(shù)據(jù)的存儲(chǔ)及并行處理,它的出現(xiàn)為大數(shù)據(jù)處理提供了一個(gè)良好的平臺(tái)。目前,Hadoop已成為應(yīng)用最多的大數(shù)據(jù)處理技術(shù),具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性等特點(diǎn)[19],它的出現(xiàn)使海量異構(gòu)數(shù)據(jù)的處理成為可能。物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用也為大數(shù)據(jù)的獲取、存儲(chǔ)與處理提供了解決方案[20]。
通過對國內(nèi)圖書館大數(shù)據(jù)的研究文獻(xiàn)進(jìn)行主題分析,研究熱點(diǎn)具體表現(xiàn)為以下幾個(gè)方面。
在大數(shù)據(jù)應(yīng)用于服務(wù)創(chuàng)新的發(fā)展上,我國圖書館界學(xué)者開展了大量研究,并從理論層面上探討了解決思路,提出了新的服務(wù)模式。楊海亞提出利用大數(shù)據(jù)技術(shù)打造智慧圖書館,通過理性推進(jìn)大數(shù)據(jù)在圖書館的應(yīng)用、培養(yǎng)智慧圖書館員等途徑提供公共智慧服務(wù)是大數(shù)據(jù)時(shí)代圖書館服務(wù)模式創(chuàng)新的方向[21]。胡蓮香認(rèn)為從參考咨詢服務(wù)邁向大數(shù)據(jù)知識(shí)服務(wù)是大數(shù)據(jù)時(shí)代圖書館服務(wù)模式創(chuàng)新的方向,并構(gòu)建基于大數(shù)據(jù)的圖書館知識(shí)服務(wù)平臺(tái)[22]。朱靜薇等[23]探討了大數(shù)據(jù)驅(qū)動(dòng)下的圖書館服務(wù)新模式(如基于數(shù)據(jù)整合的一站式資源服務(wù)、基于數(shù)據(jù)處理的學(xué)科知識(shí)服務(wù)、基于數(shù)據(jù)應(yīng)用的可視化服務(wù)以及基于數(shù)據(jù)挖掘的個(gè)性化智慧服務(wù)等),指出圖書館要調(diào)整相應(yīng)的管理策略實(shí)現(xiàn)這種服務(wù)模式的轉(zhuǎn)變(如在管理層次上,成立數(shù)據(jù)管理機(jī)構(gòu),制定數(shù)據(jù)管理政策,建立統(tǒng)一的標(biāo)準(zhǔn)及共享平臺(tái);在技術(shù)層次上,構(gòu)建圖書館大數(shù)據(jù)采集、存儲(chǔ)、處理及應(yīng)用架構(gòu),研究解決大數(shù)據(jù)相關(guān)技術(shù)問題;在隊(duì)伍建設(shè)上,培養(yǎng)一支高素質(zhì)的數(shù)據(jù)管理的館員隊(duì)伍)[24]。
學(xué)科化服務(wù)參與文獻(xiàn)資源采集的同時(shí),還應(yīng)分析文獻(xiàn)資源的使用情況。由于部分圖書館只注重文獻(xiàn)資源的采集,而忽視對讀者使用情況的評(píng)估,導(dǎo)致文獻(xiàn)資源在數(shù)量上看似可以滿足讀者的需要,但在質(zhì)量上還遠(yuǎn)遠(yuǎn)不能滿足科研人員的需求,浪費(fèi)了大量的人力、財(cái)力和物力。讀者在使用圖書館服務(wù)的過程中產(chǎn)生的各種數(shù)據(jù)信息(如圖書借閱信息、出入館的記錄信息以及對電子資源檢索和利用信息),都能反映出他們對文獻(xiàn)資源的需求度和滿意度。學(xué)科化服務(wù)還應(yīng)對這些數(shù)據(jù)信息進(jìn)行深層次分析,挖掘和預(yù)測讀者可能感興趣的、前沿文獻(xiàn)資源,從而優(yōu)化文獻(xiàn)資源配置滿足讀者的需要,進(jìn)而提高文獻(xiàn)資源的利用率。
在大數(shù)據(jù)存儲(chǔ)方面,有分布式文件系統(tǒng)、基于MPP的分布式數(shù)據(jù)庫、分布式緩存和NoSQL數(shù)據(jù)庫技術(shù)等[25]。構(gòu)建分布式文件系統(tǒng)是國外目前比較流行的存儲(chǔ)大數(shù)據(jù)的方法,許多大型公司也采用這種方法,如谷歌的GFS(Google File System)系統(tǒng),雅虎的HDFS(Hadoop Distributed File System)系統(tǒng),以及亞馬遜的Dymamo。數(shù)字圖書館中大數(shù)據(jù)的存儲(chǔ)不僅要實(shí)現(xiàn)高效地存儲(chǔ)信息資源,同時(shí)也要方便用戶快捷的訪問和分析。劉樂提出使用非結(jié)構(gòu)化的數(shù)據(jù)索引技術(shù)[26]保證數(shù)據(jù)高效存取,采用數(shù)據(jù)壓縮技術(shù)、重復(fù)數(shù)據(jù)刪除技術(shù)、自動(dòng)精簡配置技,提高存儲(chǔ)空間的利用率。丁鑫[27]分析了全息數(shù)據(jù)存儲(chǔ)技術(shù)建設(shè)數(shù)字圖書館的應(yīng)用前景,認(rèn)為它是近年發(fā)展起來的一種新穎的大容量信息存儲(chǔ)技術(shù),具有較高的存儲(chǔ)密度及數(shù)據(jù)傳輸速率等優(yōu)點(diǎn)。
在大數(shù)據(jù)時(shí)代,圖書館的傳統(tǒng)業(yè)務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移。圖書館的主要業(yè)務(wù)將逐漸發(fā)展為通過對大量數(shù)據(jù)的分析和處理,為用戶提供知識(shí)服務(wù)[20]。針對不同類型的大數(shù)據(jù),圖書館的處理技術(shù)和管理方法也會(huì)有所側(cè)重,對于結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的關(guān)系數(shù)據(jù)庫(如SQL Server 和Oracle),便能有效地進(jìn)行查詢和管理;對于視頻、動(dòng)畫等非結(jié)構(gòu)化數(shù)據(jù),需要依賴分詞技術(shù)、語義網(wǎng)技術(shù)、搜索引擎技術(shù)、智能分類技術(shù)等,自動(dòng)提取非結(jié)構(gòu)化數(shù)據(jù)的檢索信息,建立索引表,實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的管理[28]。目前,圖書館通常采用云計(jì)算、MapReduce等技術(shù)處理和分析大數(shù)據(jù)。對大數(shù)據(jù)的處理和挖掘,要求圖書館員不僅具有數(shù)據(jù)收集能力、分析能力,還必須精通計(jì)算機(jī)技術(shù),這在一定程度上對館員的信息素養(yǎng)提出了更高的要求。
我國圖書館界對大數(shù)據(jù)的研究還不夠深入,研究熱點(diǎn)主要集中在圖書館業(yè)務(wù)領(lǐng)域的拓展和大數(shù)據(jù)技術(shù)的研究和應(yīng)用兩大方面。其中,業(yè)務(wù)的擴(kuò)展主要表現(xiàn)為在大數(shù)據(jù)環(huán)境下圖書館如何實(shí)現(xiàn)服務(wù)轉(zhuǎn)型和升級(jí),如研究熱點(diǎn)之大數(shù)據(jù)推進(jìn)圖書館創(chuàng)新服務(wù)模式、學(xué)科化服務(wù)參與圖書館文獻(xiàn)資源建設(shè)和圖書館推出個(gè)性化服務(wù)模式;在服務(wù)創(chuàng)新方面,大多還停留在理論探討階段,而對實(shí)踐案例進(jìn)行深入研究的較少。圖書館針對大數(shù)據(jù)技術(shù)的研究和應(yīng)用主要表現(xiàn)在數(shù)字圖書館大數(shù)據(jù)的存儲(chǔ)、圖書館對大數(shù)據(jù)的處理、挖掘和分析和大數(shù)據(jù)處理技術(shù)和工具3方面。目前大數(shù)據(jù)技術(shù)還不成熟,大數(shù)據(jù)在圖書館中的應(yīng)用可能產(chǎn)生的信息鴻溝、個(gè)人隱私泄露和大數(shù)據(jù)人才匱乏等問題,仍需圖書館界的同仁共同努力,不斷去探索、實(shí)踐。