〔摘 要〕介紹了大數(shù)據(jù)概念、種類和特點,指出了圖書館已經(jīng)具備了大數(shù)據(jù)基本特征,在遞增的數(shù)據(jù)中快速地分析和挖掘出有價值信息并加以利用,是圖書館面臨新課題和新的發(fā)展機遇。為此提出了圖書館借助應用大數(shù)據(jù)技術,逐步完善信息服務體系所必須采取的五項措施。
〔關鍵詞〕大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;圖書館;個性化服務
隨著當今世界計算機網(wǎng)絡技術的迅猛發(fā)展,數(shù)以億計的計算機和移動設備正在持續(xù)不斷地創(chuàng)造出數(shù)量驚人的信息,世界已經(jīng)轉移到以數(shù)據(jù)為中心的范式上——“大數(shù)據(jù)”時代。近一時期,“大數(shù)據(jù)”一詞成為眾多機構關注的焦點,包括圖書館在內的信息服務機構希望借助應用大數(shù)據(jù)技術改進和完善服務模式。本文就圖書館應用“大數(shù)據(jù)”技術深化信息服務等問題闡述相關的一些理念和建議。
1 “大數(shù)據(jù)”概述維基百科定義“大數(shù)據(jù)(Bigdata)”是指所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊[1]?!按髷?shù)據(jù)”涉及互聯(lián)網(wǎng)、經(jīng)濟、生物、醫(yī)學、天文、氣象、物理等眾多領域。最早提出“大數(shù)據(jù)”時代已經(jīng)到來的機構是全球知名咨詢公司麥肯錫。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素。數(shù)據(jù)本身是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識。
1.1 大數(shù)據(jù)種類及特點(1)大數(shù)據(jù)主要包括以下幾種:①傳感器數(shù)據(jù)(sensordata):分布在不同地理位置上的傳感器,對所處環(huán)境進行感知,實時生成數(shù)據(jù);②網(wǎng)站點擊流數(shù)據(jù)(clickstreamdata):用戶在網(wǎng)上進行有效的操作行為及其時間都被系統(tǒng)記錄下來;③移動設備數(shù)據(jù)(mobiledevicedata):服務機構可以通過用戶所使用的移動電話、PDA和導航設備等移動電子設備,獲得設備和人員的位置、移動、用戶行為等信息。上述數(shù)據(jù)源,以實時、迭代的方式不斷產(chǎn)生數(shù)據(jù)。(2)業(yè)界將大數(shù)據(jù)的特點歸納為4個V:①數(shù)據(jù)體量巨大(Volume)。按EMC的界定,“大”是指大型數(shù)據(jù)集,一般在10TB規(guī)模左右,多用戶把多個數(shù)據(jù)集放在一起,形成PB級的數(shù)據(jù)量;②數(shù)據(jù)類型繁多(Variety)。包括大量的網(wǎng)絡日志、XML、HTML、視頻、音頻、圖像及地理位置信息等非結構化數(shù)據(jù);③價值(Value)密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒;④處理速度快(Velocity)即1秒定律[2]。進入2012年,非結構化數(shù)據(jù)占有比例將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上,這意味著個性化數(shù)據(jù)時代的到來,異質性、個性化,才是數(shù)據(jù)的真正本質。
1.2 大數(shù)據(jù)應用的技術(1)大數(shù)據(jù)應用的步驟可分為“捕獲”、“組織”、“分析”及“決策”4個階段。首先,在匯集的所有數(shù)據(jù)中捕獲所有可用的數(shù)據(jù),這些數(shù)據(jù)包括需要處理大數(shù)據(jù)量、低密度的信息;其次,以高度并行的方式組織和提取大數(shù)據(jù),將大數(shù)據(jù)轉換為易于分析的內容并快速載入數(shù)據(jù)倉庫;再次,用分布式的技術框架(Hadoop),對非關系型數(shù)據(jù)進行異質性分析處理(NoSQL);最后,通過數(shù)據(jù)分析與挖掘,根據(jù)實時數(shù)據(jù)做出決策,從中產(chǎn)生出新的服務手段和模式。(2)從目前來看,大數(shù)據(jù)技術主要涵蓋的領域有可視化分析、大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘算法、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)[2]。大數(shù)據(jù)技術主要包括以下幾種:①Hadoop是一個分布式系統(tǒng)基礎架構,實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性的特點,而且它提供高傳輸率來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。②NoSQL(NotOnlySQL),意即反SQL運動,是一種與關系型數(shù)據(jù)庫管理系統(tǒng)截然不同的數(shù)據(jù)庫管理系統(tǒng),也可以稱之為非關系型數(shù)據(jù)庫。它的數(shù)據(jù)存儲格式可以是松散的、通常不支持Join操作并且支持橫向擴展,可以處理超大量的數(shù)據(jù)。③MPP(MassivelyParallelProcessing),意為大規(guī)模并行處理系統(tǒng),這樣的系統(tǒng)是由許多松耦合處理單元組成的,每個單元內的CPU都有自己私有的資源。當前,眾多IT企業(yè)對大數(shù)據(jù)技術開展了深入研究并推出解決方案和相關產(chǎn)品。例如:Oracle公司推出了大數(shù)據(jù)的集成解決方案體系,在此技術基礎上發(fā)布了Oracle大數(shù)據(jù)機(軟件/硬件);VMware推出了虛擬化架構+云平臺的項目Serenget;EMC推出了世界上第一個定制的、高性能的Hadoop專用數(shù)據(jù)協(xié)同處理設備——GreenplumHD數(shù)據(jù)計算設備(DataComputingAppliance)[3]等等。
2013年3月第33卷第3期現(xiàn)?代?情?報Journal of Modern InformationMar.,2013Vol.33 No.32013年3月第33卷第3期大數(shù)據(jù)時代下圖書館開展信息服務的對策Mar.,2013Vol.33 No.31.3 圖書館已具備大數(shù)據(jù)基本特征依據(jù)大數(shù)據(jù)定義,圖書館數(shù)據(jù)總量雖然還沒有達到PB級,但從圖書館存儲數(shù)據(jù)種類和數(shù)量以及未來發(fā)展趨勢上來說,已經(jīng)初步具備了大數(shù)據(jù)基本特征。(1)圖書館的信息資源總量龐大且日益增長。如至2010年底,國家圖書館數(shù)字資源問題已經(jīng)達到480TB[4];全國文化共享工程的數(shù)字資源總量達108TB[5],可以說單體圖書館的資源總量并未達到PB級,但全國總的圖書館數(shù)字資源總量卻是一個龐大的數(shù)據(jù)集。(2)伴隨著平板電腦、智能手機、SNS網(wǎng)站的出現(xiàn),諸如視頻、音頻、圖片、微博以及移動終端用戶行為和服務等非結構化數(shù)據(jù)量逐年增加。依據(jù)發(fā)展趨勢,圖書館采集的非結構化數(shù)據(jù)最終將會超過結構化數(shù)據(jù)量。
2 大數(shù)據(jù)時代下圖書館開展信息服務的對策具備從動態(tài)遞增的各種類型的數(shù)據(jù)中,快速獲得有價值信息并加以利用的能力,是圖書館面臨的新課題和新的發(fā)展機遇,因為任何的時延都會導致服務失去時效的優(yōu)勢。為此,筆者認為,置身在大數(shù)據(jù)時代,圖書館借助應用大數(shù)據(jù)技術,逐步完善信息服務體系,必須做好以下五項工作。
2.1 轉變傳統(tǒng)服務觀念 增強主動服務意識圖書館要適應時代的發(fā)展,轉變觀念,改進傳統(tǒng)的服務模式,增強主動服務意識,不斷探索和拓展服務體系的內涵和外延。為此,圖書館需要加強和完善組織管理、各種資源建設管理,以及有效的培訓、激勵、分析評價措施等科學有效的管理機制,促進信息服務體系的不斷完善。同時,也要積極吸納用戶參與到圖書館的服務體系中,諸如參與交互式參考咨詢、資源建設及服務評價等部分管理工作。通過這種方式使現(xiàn)有用戶和潛在用戶都可以意識到用戶與圖書館之間的實實在在的需求與服務的良性互動關系,對用戶的吸引力也越來越強,用戶滿意度也會逐漸提高,從而使用戶更加認可圖書館,而圖書館也因用戶的積極熱情的參與,其主動服務意識會愈發(fā)強烈,服務方式會更加貼近用戶需求。
2.2 拓展交流渠道 搭建交互式共享平臺圖書館可以借鑒社會上一些成功網(wǎng)站的經(jīng)驗,加強自身網(wǎng)絡互動平臺建設。
2.2.1 開辟交互式共享平臺圖書館應該建立交互式共享平臺并開設用戶互助吧、論壇、社區(qū)等欄目,為館員和用戶、用戶與用戶之間開辟實時交流通道。用戶互助吧、論壇、社區(qū)是一種多人相互交流的平臺,既可以發(fā)揮圖書館參考咨詢人員主力軍作用,也可以去發(fā)現(xiàn)、培養(yǎng)和動員廣大熱心用戶參與圖書館參考咨詢服務中來。通過調動用戶參與提問與回答,利用集體智慧,來彼此分享知識、經(jīng)驗或技能,滿足用戶對信息以及比信息更進一步的知識需求[6]。通過用戶的積極參與,使圖書館能夠更直觀地了解和掌握用戶的需求,為圖書館開展有針對性的服務工作打下良好的基礎。用戶既是信息服務的受益者,又是義務參考咨詢者,通過把自身檢索技能與經(jīng)驗傳授給其它用戶的這種方式,就是對圖書館信息咨詢服務體系的有益補充。
2.2.2 開辟信息資源整合渠道目前,圖書館所有的信息資源都在網(wǎng)站上單向供用戶檢索下載,但在信息爆炸的網(wǎng)絡時代,用戶(個人或學院、系)手中往往掌握著大量本學科領域信息資源,而學科領域內其他用戶需要資源時首先會想到圖書館。圖書館在加強自身信息資源建設的同時,應該充分吸納廣大用戶參與圖書館資源建設,為用戶建立上傳資源的通道。這樣,既可以使圖書館館藏信息資源數(shù)量和種類不斷增多,又可以借圖書館這個平臺與其他用戶共享。當然,用戶上傳資源到圖書館一定存在良莠不齊的問題,圖書館應發(fā)揮與生俱來的信息組織能力,去粗取精,去偽存真組織、整合資源。另外,信息資源中的知識產(chǎn)權問題,也需要引起重視。
2.3 資源組織人性化 信息檢索簡便化圖書館的資源組織有著嚴格的規(guī)范標準,用戶檢索信息資源應按專業(yè)的科學體系查詢信息。如果用戶自身信息素質不高,又不熟悉圖書館館藏分類,在得不到當面咨詢、電話咨詢、E-mail咨詢等方式的幫助下,其利用圖書館檢索信息資源的時候往往不知如何下手,多數(shù)情況下是直接輸入他想當然的檢索詞。為了解決這類用戶檢索中遇到了難題,圖書館在網(wǎng)站上除了配備功能強大的幫助中心對新用戶進行全面引導外,圖書館需要在個性化需求和專業(yè)化資源組織之中尋求一個平衡點,既不能為了迎合用戶的需求而使資源組織混亂化,也不能只考慮規(guī)范問題而使資源組織專深化。圖書館需要在傳統(tǒng)的學科分類、主題分類之外,增加一些人性化的資源組織方法,適當考慮用戶的用詞習慣。如提供自然語詞的檢索,在后臺對自然語詞和主題詞進行匹配運算,然后給用戶提供一些智能化的檢索提示,增強用戶的搜索體驗。此外,在閱覽區(qū)的資源布局、閱覽環(huán)境設置上也應該體現(xiàn)人性化特征。
2.4 積極研究用戶需求特點 有針對性地開展個性化推送服務 隨著時代的進步,用戶的需求呈現(xiàn)出越來越個性化的趨勢,圖書館提供個性化服務就必須加強用戶需求的研究,以此掌握用戶的自身的特點、不同偏好和習慣模式等,創(chuàng)建滿足用戶的個性化信息環(huán)境,并隨其需求變化和館藏資源的更新,把信息推送給用戶,從而提升服務層次[7]。圖書館經(jīng)過多年的發(fā)展,積累了大量的數(shù)據(jù)。其中既包括用戶來館后各種視頻設備、門禁通道、有線網(wǎng)絡、無線網(wǎng)絡等各種系統(tǒng)設備采集的用戶行為數(shù)據(jù),也包括圖書館對用戶檢索/咨詢行為而做出的反饋數(shù)據(jù)。圖書館利用大數(shù)據(jù)技術把所有用戶在他之前、在他之后的群體智能、群體所有行為都匯集到一起,做深度挖掘和個性化,對每一個用戶都進行分析。針對每一個用戶的實際或潛在需求而得出圖書館應該推薦什么樣的內容、匹配什么樣的信息服務等,然后經(jīng)過反饋機制,以面對面或網(wǎng)絡形式,把最合適的內容、以及未曾檢索的近似資源,分層次地推送給用戶,供其選擇,這不僅加大了用戶選擇的余地,也使用戶在檢索或瀏覽資源時不斷發(fā)現(xiàn)新的信息。個性化服務在提高用戶滿意度的同時,也將大大提高其參與度,反過來又會促進個性化服務進一步地發(fā)展。
2.5 完善學科館員制度 加強館員素質建設“學科館員”是根據(jù)學科專業(yè)特點及用戶需求,將信息資源(包括網(wǎng)上和館藏資源)加以收集、分類整理、編制索引資源庫,實現(xiàn)資源導航,提供個性化信息服務的館員隊伍。他們熟悉各種網(wǎng)絡工具檢索功能、檢索策略,并運用高效的檢索技巧回答用戶的檢索提問。完善學科館員制度,組織一批專業(yè)能力較強的圖書館員分別承擔起專門為某學科用戶提供深層次信息服務工作[8],是體現(xiàn)圖書館個性化服務水平高低的標志。通過學科館員隊伍的建設,帶動其他館員素質和能力的提高,對圖書館開展個性化信息服務起著至關重要的作用。
3 結 語圖書館應用“大數(shù)據(jù)”技術是要在信息服務功能方面來體現(xiàn)并發(fā)揮其作用,重點是在應用與服務功能的創(chuàng)新上面,而不在于技術本身。圖書館利用這些新的理念、先進的技術的最終目是提升圖書館服務效率與服務效能,并通過“大數(shù)據(jù)”來提升圖書館整體管理與服務的水平。
參考文獻
[1]維基百科[EB/OL].http:∥zh.wikipedia.org/wiki/%E5%B7%A8%E9%87--%8F%E8%B3%87%E6%96%99,2012-09-10.
[2]百度百科[EB/OL].http:∥baike.baidu.com/view/6954399.Htm,2012-10-02.
[3]天極網(wǎng)[EB/OL].http:∥dev.yesky.com/410/30424410.shtml,2012-09-15.
[4]國家圖書館“十二五”規(guī)劃綱要[EB/OL].http:∥www.nlc.gov.cn/--/dsbfooter/gygt/ghgy/,2012-10-12.
[5]全國文化信息資源共享工程介紹[EB/OL].http:∥www.cdcnc.gov.cn/--/libpage/gxgc/indes.htm/,2012-10-25.
[6]鄧勝利.國內外交互問答平臺的比較及其對策研究[J].情報理論與實踐,2009,(3):50-55.
[7]覃鳳蘭.個性化服務高校圖書館服務的新舉措[J].情報雜志,2005,(7):129-131.
[8]朱寶林.高校圖書館個性化信息服務探析[J].南京社會科學,2009,(12):80.