吳紅劉芳
(江漢大學圖書館,湖北 武漢430056)
與云計算息息相關的“大數據”是指互聯網用戶網絡行為數據。目前,我國互聯網大型服務器已達370萬臺,全國建立了45萬個以上的數據中心,數據中心總耗電量達到364億千瓦小時,高達全國電力消耗的1%,我國已經進入了大數在大數據時代,圖書館將在數據存儲、數據挖掘、數據分析等方面面臨巨大挑戰(zhàn),復雜數據處理也將成為圖書館發(fā)展的主旋律。
通過大量的非結構化數據、半結構化數據去尋找隱藏在數據背后的世界,進而為圖書館服務模式、對未來發(fā)展趨勢提供分析與預測將成為大數據時代圖書館的一大主要服務內容。未來時代將是大數據引領科技發(fā)展的時代,大數據技術應用將是未來圖書館服務創(chuàng)新的重要領域。
大數據目前尚沒有統(tǒng)一的定義,部分業(yè)界專家如《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創(chuàng)造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于花費過多的時間和金錢。[1]因此,大數據通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。
盡管大數據的概念形成較早,但對其技術的研發(fā)還是近幾年才發(fā)展起來的。從目前來看,大數據技術主要涵蓋的領域有可視化分析、數據挖掘法、預測性分析能力、語義引擎、數據質量和數據管理等。具體來說,目前主要有包括分布式緩存、基于MPP的分布式數據庫、分布式文件系統(tǒng)、各種NoSQL分布式方案等。技術及應用的不普及與不形成使得大數據的門檻較高,因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統(tǒng)優(yōu)勢的IT廠商。如百度的搜素日志分析,騰訊、淘寶和支付寶的數據倉庫等。
大數據技術另一典型應用案例是在沃爾瑪。沃爾瑪是最早利用大數據而受益的企業(yè)之一,早在2007年,沃爾瑪就建立一個超大的數據中心,其存儲能力高達4PB以上。通過對數據中心消費者的購物行為等非結構化數據進行分析,沃爾瑪成為最了解顧客購物行為習慣的零售商,并創(chuàng)造了“啤酒與尿布”的經典商業(yè)案例。
我國應用大數據技術的企業(yè)當前只是鳳毛麟角,目前僅有為數不多的企業(yè)正在開展相關的項目建設。如中國聯通正在通過采用基于云平臺及英特爾發(fā)行版Hadoop的大數據解決方案來構建移動通信用戶上網記錄集中查詢與分析支撐系統(tǒng)。這一系統(tǒng)可為企業(yè)的客服服務人員提供客戶上網記錄自助查詢服務,也可為客戶本人提供高效的異常大流量上網記錄自助查詢服務,這將有助于解決流量投訴問題,并有望在未來幫助企業(yè)更為準確地把握用戶偏好,從而讓中國聯通能更有效地制定市場策略和開發(fā)新業(yè)務。
隨著圖書館信息資源的建設步伐加快及讀者服務要求的提高,圖書館在大數據時代已經具備了一定的大數據特征。首先,圖書館的數據種類繁多,圖書館的數據資源有所藏文獻資源中的紙質印刷本、光盤、網絡資源、數據庫資源等結構化信息,也有日常讀者信息、服務信息等非結構化信息,更有圖書館自身建設的相關數據。
圖書館的信息資源總量龐大且日益增長。如至2010年底,國家圖書館數字資源問題已經達到480TB[2],全國文化共享工程的數字資源總量達108TB[3]??梢哉f單體圖書館的資源總量雖然沒有達到PB級,但全國總的圖書館數字資源總量卻是一個龐大的數據集。并且,伴隨著平板電腦、智能手機、SNS網站的出現,諸如視頻、音頻、圖片、微博以及移動終端用戶行為和服務等非結構化數據量的逐年增加。依據發(fā)展趨勢,圖書館采集的非結構化數據量最終將超過結構化數據量。
知識分顯性知識和隱性知識兩種,也稱客觀知識和主觀知識。顯性知識是經過文獻處理及公開的、結構化的、內容固定的知識,它易于獲取、理解和交流,可以存儲在圖書館、局域網和數據庫中;而隱性知識則難以掌握,它集中存儲在個人的大腦或手工技能中,是高度個性化的,屬于經驗、訣竅、判斷、直覺、靈感以及組織行為習慣的那部分知識。[4]
個性化知識服務更強調圖書館員利用自己的知識能力,借助于館藏,對館藏信息進行加工,將顯性知識內化,將隱性知識外化,形成新的具有獨特價值的知識產品。個性化知識服務強調以知識創(chuàng)新為中心,以用戶為核心,注重動態(tài)過程和服務,注重解決問題、信息深加工、知識資源增值等知識服務理念。
高校圖書館的主要任務就是幫助讀者獲取最新的知識信息,直接參與教學和科研,促進知識的傳播和交流,實現知識經濟時代的知識創(chuàng)新。所以,積極推進個性化知識服務是高校圖書館生存和發(fā)展的基礎。
2.3.1 對互聯網信息資源進行組織管理
在當今互聯網信息大爆炸的時代,每天都有大量的非結構化信息產生,對信息的組織管理顯得日益重要。雖然互聯網提供多種信息開發(fā)工具,但大多停留在瀏覽功能,提供信息的簡單查詢階段,尚未深入到對網絡信息資源在信息單元、知識單元層面的開發(fā)與利用。圖書館理應發(fā)揮在分類加工、組織整理文獻信息方面的專業(yè)特長,通過對網絡信息資源進行有效的組織管理,改變網絡信息的無序狀態(tài),以滿足用戶個性化的需求。比如高校圖書館可以自己建立校園局域網,為廣大師生提供搜索引擎服務,以達到安全、有效、快速的信息檢索服務。
2.3.2 為高校師生提供學科知識導航
學科知識導航是將一些無序、有用的知識從浩如煙海的信息中提取出來,按學科主題或學術資源體系等對其進行搜集、分類、組織和有序化整理,制作成導航網站上網服務,供相關學科或相關專業(yè)、學術領域的用戶參照。學科知識導航是對知識的有效管理,是知識的導航系統(tǒng)。用戶通過訪問導航庫就可以較全面地了解某一學科或主題的相關資料,它是獲取專題信息的一條捷徑。[5]
高校圖書館必須完善學科館員制度,組織一批專業(yè)能力較強的館員分別承擔起專門為某一學科用戶提供深層次信息服務工作。學科館員水平的高低,是衡量圖書館個性化服務高低的標志。通過對學科館員隊伍的建設,帶動其他館員素質和能力的提高,對圖書館開展個性化知識服務至關重要。
2.3.3 建立特色數據庫和特色資源鏡像站點鏈接
現代圖書館以用戶為中心,為了滿足用戶對網絡中學術資源的需求,通過建立特色數據庫和特色資源鏡像站點鏈接,形成功能強大的檢索系統(tǒng),為用戶多途徑檢索,提高檢索效率提供便利。
高校師生,特別是承擔著國家和省市重大課題研究的研究人員,都希望在圖書館可以查詢到全面、系統(tǒng)、有序且方便使用的科研資料。圖書館自建的特色數據庫和遠程訪問系統(tǒng)及鏡像站點鏈接正好滿足了用戶的這一需要。比如,我館建立的10個特色數據庫和27個外文數據庫的遠程訪問系統(tǒng),旨在為我校的重點學科建設及教學、科研提供良好的信息服務。
站在科技信息的前沿,了解用戶的需求,對信息資源進行深層次的揭示與整合,提供特色服務和有針對性的服務,是高校圖書館在“大數據”時代所要面臨的重大轉型和主要任務。廣大館員必須嚴陣以待,不斷更新自身的知識結構,迎接日新月異的信息科技挑戰(zhàn)。
[1]Bigdata[EB/OL].[2012-05-20].http://www.search-cloudcomputing.com.cn/word-5826.htm.
[2]國家圖書館“十二五”規(guī)劃綱要[EB/OL].[2012-06-20].http://www.nlc.gov.cn/dsb-footer/gygt/ghgy/
[3]全國文化信息資源共享工程介紹[EB/OL].[2012-06-20].http://www.ndene.gov.cn/libpage/gxge/index.htm/.
[4]胡敏.論現代圖書館的知識服務[J].情報探索,2008(5):20-21.
[5]王捷.大數據時代下圖書館開展信息服務的對策[J].現代情報,2013(3):81-83.