郝志剛
雖然早在1998年美國硅圖公司(SGI)的首席科學家John R.Masey就提出了大數(shù)據(jù)一詞,但之后很多年人們依然沒有大數(shù)據(jù)的概念,只是簡單描述隨著科技發(fā)展出現(xiàn)的海量數(shù)據(jù)。直到2011年6月,美國麥肯錫咨詢公司發(fā)布了《大數(shù)據(jù):下一個競爭、創(chuàng)新和生產(chǎn)力的前沿領域》的研究報告,才給世界一個大數(shù)據(jù)時代到來的準確定音。這份報告分析了大數(shù)據(jù)對健康醫(yī)療、政府管理、零售業(yè)及制造業(yè)等行業(yè)的重大的經(jīng)濟影響,并預測大數(shù)據(jù)將給美國醫(yī)療事業(yè)帶來每年3000億美元的收入,給歐洲發(fā)達經(jīng)濟體每年節(jié)省1000億歐元的支出。由此可見,跟上大數(shù)據(jù)時代的步伐會給社會各種團體組織帶來不可估量的效益。
大數(shù)據(jù)是海量的數(shù)據(jù)被整理納入大數(shù)據(jù)倉庫里,然后對其進行分析挖掘,再利用有價值的結(jié)論進行下一步行動的決策。比如消費者在網(wǎng)站上的搜索被記錄到亞馬遜的數(shù)據(jù)庫中,通過大數(shù)據(jù)分析用戶的購買行為,向用戶推薦合適的產(chǎn)品,實現(xiàn)精準營銷[1]。大數(shù)據(jù)從數(shù)據(jù)內(nèi)容結(jié)構(gòu)上分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù),在形式上有諸如文字、數(shù)字、符號,能夠用統(tǒng)一的形式加以標識。非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等,這些內(nèi)容無法用簡單的邏輯表達實現(xiàn),分析起來也需要特別的硬軟件。而半結(jié)構(gòu)化數(shù)據(jù),就是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù),它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。
大數(shù)據(jù)之所以被稱為大數(shù)據(jù)首先因為它的數(shù)據(jù)是海量的,而且目前隨著科技發(fā)展,隨著人們對電子產(chǎn)品,對互聯(lián)網(wǎng)的依賴程度不斷提高,這個海量數(shù)據(jù)正在超速增長。根據(jù)國際數(shù)據(jù)公司IDC 2011年發(fā)布的Digital Universe Study,全球信息總量每過兩年,就會增長一倍。僅在2011年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB,到2020年這一數(shù)值將增長到35ZB[2]。去年百度每天處理數(shù)據(jù)量相當5000個國家圖書館,而今年中國電子商務代表阿里集團在其數(shù)據(jù)平臺事業(yè)部的服務器上,已經(jīng)攢下了超過100PB已處理過的數(shù)據(jù),等于104857600個GB,相當于4萬個西雅圖中央圖書館,大約580億本藏書的數(shù)據(jù)量[3]。如此規(guī)模的海量數(shù)據(jù)被數(shù)據(jù)公司處理,從中產(chǎn)生不可估量的社會價值、商業(yè)價值,這就是大數(shù)據(jù)的魅力。
以一個省級公共圖書館為例,其業(yè)務包含了資源采訪、資源建設、資源保障、資源利用四個方面。具體包括采訪、編目、數(shù)據(jù)安全保障、Web網(wǎng)絡建設、信息咨詢,圖書期刊等資料借閱、數(shù)字化資料借閱、多媒體服務等方面。這樣的一個圖書館每天產(chǎn)生的數(shù)據(jù)是海量的。從圖書館采購圖書資料數(shù)據(jù)到數(shù)據(jù)利用,到用戶產(chǎn)生的數(shù)據(jù)反饋這些數(shù)據(jù)如果收集起來,送到云計算公司去分析挖掘,必定會給圖書館服務發(fā)展帶來質(zhì)的改變。再以國家數(shù)字圖書館為例,他們在2011年的數(shù)字資源總量就已到561.3TB,而這個只是靜態(tài)的數(shù)據(jù)量[4]。目前圖書館的大數(shù)據(jù)雖然以結(jié)構(gòu)化數(shù)據(jù)為主,但隨著圖書館新服務的開展,圖書館與讀者的互動信息,以及讀者的面對圖書館的各種信息行為都會被記錄,這些信息都將成為圖書館大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)。比如讀者在圖書館網(wǎng)站的書評,讀者在圖書館網(wǎng)站的瀏覽行為,甚至利用攝像頭或者讀者智能借閱卡跟蹤讀者在圖書館的行走和停留路線,從中產(chǎn)生的分析讀者使用圖書館的狀況數(shù)據(jù)。像這樣的非結(jié)構(gòu)化數(shù)據(jù),將比圖書館的結(jié)構(gòu)化數(shù)據(jù)增長得更快,因為這種非結(jié)構(gòu)化數(shù)據(jù)更多地包含實時數(shù)據(jù)流,包括音頻、視頻這種大級別量的數(shù)據(jù)。如果聯(lián)合起全國各個圖書館的數(shù)據(jù),一起放入一個大數(shù)據(jù)庫,這也必定成為超級大數(shù)據(jù),在目前技術環(huán)境下,只有利用云計算商和大數(shù)據(jù)服務提供的服務,有針對性地提出圖書館的需求,才能應對大數(shù)據(jù)時代帶來的挑戰(zhàn)。
圖書館大數(shù)據(jù)首先包括書目數(shù)據(jù)。這些數(shù)據(jù)一般屬于圖書館穩(wěn)定的結(jié)構(gòu)化數(shù)據(jù),目前這些數(shù)據(jù)的使用多用SQL工具分析,對于結(jié)構(gòu)化的數(shù)據(jù),小規(guī)模的數(shù)據(jù),目前的分析工具足可以用了。對這些數(shù)字化書目數(shù)據(jù)做分析可以反映出一個圖書館館藏的級別、服務的對象、服務的傾向和服務的質(zhì)量。
圖書館的非結(jié)構(gòu)化數(shù)據(jù)包含了動態(tài)的信息,這些信息可以來自圖書館業(yè)務內(nèi)容、也可以來自讀者服務體驗。圖書館的業(yè)務包括了采訪、編目、數(shù)字化資源建設、信息咨詢、多媒體等第三空間活動。這些業(yè)務產(chǎn)生的數(shù)據(jù)首先是工作狀態(tài)數(shù)據(jù),如每個館員的業(yè)務量、業(yè)務內(nèi)容、業(yè)務質(zhì)量。其次是相關業(yè)務口的交流產(chǎn)生的數(shù)據(jù)。另外是對外服務時產(chǎn)生的數(shù)據(jù)。比如圖書館各個業(yè)務中心的工作日志就是一項數(shù)據(jù),這種數(shù)據(jù)可以是文本、音頻、視頻,這種數(shù)據(jù)的收集意義在于可分析圖書館自身建設,從而獲得改進內(nèi)部業(yè)務的方法。與此相關的業(yè)務之間會有很多交流,比如信息咨詢部與資源建設部之間,信息咨詢會把讀者需求的資源反饋給資源建設部,而資源建設部則依據(jù)得到的讀者信息有針對性地采購資源。這種部門之間的交流同樣會產(chǎn)生大量的交流數(shù)據(jù),這些數(shù)據(jù)的收集分析會優(yōu)化部門間的工作質(zhì)量,提高圖書館整體工作的效率。
特別是近些年,即時通信的高速發(fā)展,即時通信已經(jīng)超越了搜索引擎成為使用最多的網(wǎng)絡應用,微博、微信、社交網(wǎng)站產(chǎn)生的數(shù)據(jù)也已經(jīng)是大數(shù)據(jù)級別。圖書館利用這些網(wǎng)絡工具與服務對象互動產(chǎn)生的數(shù)據(jù)通過大數(shù)據(jù)分析技術可以得出讀者的興趣偏好,從而為圖書館服務提供參考。隨著網(wǎng)絡科技的發(fā)展與圖書館創(chuàng)新服務的提供,今后來自讀者的信息將越來越多,讀者使用圖書館服務過程中的地理信息、搜索信息、網(wǎng)絡瀏覽軌跡、互動資料記載,這些很多是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),都將作為圖書館大數(shù)據(jù)的一部分為圖書館發(fā)展提供導向。
據(jù)美國國家標準與技術研究院(NIST)定義,云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡訪問[5]。簡單地說,云計算就是互聯(lián)網(wǎng)中的軟硬件的便捷使用。云計算一般認為包括以下幾個層次的服務:基礎設施即服務(Infrastructure as a Service,IaaS),平臺即服務(Platform as a Service,PaaS)和軟件即服務(Software as a Service,SaaS)[6]?;A設施即服務是消費者通過Internet從完善的計算機基礎設施獲得服務。平臺即服務實際上是指將軟件研發(fā)的平臺作為一種服務,以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應用。但是,PaaS的出現(xiàn)可以加快SaaS的發(fā)展,尤其是加快SaaS應用的開發(fā)速度。軟件即服務,它是一種通過Internet提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件來管理自身經(jīng)營活動。云計算的這三個層次的服務都具有應對快速、數(shù)據(jù)海量、類型復雜和數(shù)據(jù)價值這四種大數(shù)據(jù)具有的特性。從發(fā)展上看,大數(shù)據(jù)與云計算似乎同時出現(xiàn),他們的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)的海量數(shù)據(jù)的特殊性是以前的單個計算機、計算機集群無法處理的事物,特別是以前的數(shù)據(jù)庫分析軟件面對非結(jié)構(gòu)化數(shù)據(jù)也是束手無策。目前針對大數(shù)據(jù),技術商提供了一些行之有效的技術,比如 Hadoop、MapReduce、Hbase、NoSQL等。特別是Hadoop,它是由Apache基金會開發(fā)的分布式系統(tǒng)基礎架構(gòu),用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序。面對圖書館開發(fā)利用大數(shù)據(jù)的這項新任務,筆者認為可以從一個企業(yè)的角度考慮,圖書館完全可以外包這種數(shù)據(jù)分析,只要在云計算的環(huán)境利用其提供的服務即可。圖書館是一片網(wǎng)絡中的資源云,而且是不斷產(chǎn)生大數(shù)據(jù)的云,大數(shù)據(jù)必須采用分布式計算架構(gòu),對于數(shù)據(jù)進行挖掘使用,圖書館只有依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術,并在這種計算中獲得大數(shù)據(jù)商提供的即時數(shù)據(jù)結(jié)果才是圖書館大數(shù)據(jù)利用的有效途徑。
圖書館使用云計算就是針對圖書館出現(xiàn)的海量大數(shù)據(jù)的數(shù)據(jù)分析與數(shù)據(jù)挖掘。目前國內(nèi)已經(jīng)有圖書館使用云計算的案例,而在國際上,早在2009年OCLC就宣布在Worldcat的基礎上,應用云計算技術實施數(shù)字圖書館。OCLC的服務方法為圖書館利用云計算提供了模板,OCLC通過建立云環(huán)境的方法,將所有成員圖書館的信息資源整合至一個大型的云圖書館系統(tǒng),把所有成員圖書館的客戶端與合作的數(shù)據(jù)庫以虛擬方式連接。成員館為OCLC數(shù)據(jù)庫提供信息資源,這些信息資源被整合在OCLC的大數(shù)據(jù)庫中,OCLC再利用互聯(lián)網(wǎng)方式,利用云計算軟件或平臺為全世界用戶提供一個以開放式OPAC、搜索引擎、網(wǎng)頁、社交網(wǎng)絡等多種方式利用數(shù)字圖書館資源的云平臺。在云環(huán)境的統(tǒng)一與整合下,用戶不再拘于某一個圖書館OPAC去獲取信息,也不再局限于所在地理位置,他們可以瀏覽世界所有圖書館的資料,分享所有用戶對圖書的交流。2010年OCLC以Worldcat為核心推出基于云計算技術的網(wǎng)絡級管理服務,這個世界級的圖書目錄不但從一個大型聯(lián)機目錄轉(zhuǎn)變成全球網(wǎng)絡用戶通向全球圖書館的入口,而且利用云計算提供的服務突破了單一的目錄查詢,他可以為用戶提供多項的互動式服務。OCLC的云計算運行模式中包括成員館、用戶、信息資源供應商、圖書館的日常合作伙伴四大對象。它通過自有的或服務商提供的IaaS、PaaS、SaaS來為用戶提供服務。至于這種模式如何運作不應作為個體圖書館研究的對象,但分析大數(shù)據(jù)與云計算的關系有利于國內(nèi)圖書館組織為其團體中的圖書館開展新服務。就像OCLC一樣,一個省的、地區(qū)的甚至一個國家的圖書館可以聯(lián)合全區(qū)域圖書館資源,通過自建云計算體系或者購買云計算服務商基于IaaS、PaaS、SaaS的服務來整合全區(qū)域圖書館資源,使其創(chuàng)新利用。我國的CALIS曾提出了與OCLC的云計算相似的觀點,CALIS的高校文獻信息運行模式其實也是云圖書館的一種,但CALIS擔憂的是面對全國2000所高校圖書館和60萬所中學圖書館,如何進行技術上的云鏈接,又如何保證各個省中心的負載均衡。筆者認為這樣的擔憂也是不恰當?shù)?。圖書館的核心價值在于平等公開地為用戶提供獲取信息、享受信息的新體驗,一個圖書館聯(lián)合組織應該以此為工作中心,在大數(shù)據(jù)時代,所有的科學技術都在高速發(fā)展,所以,圖書館組織應該專注于服務理念的分析,分析讀者不斷變化的需求,分析這種需求產(chǎn)生的途徑,分析如何分析的方法,把云計算,大數(shù)據(jù)分析交給技術服務商。通過這種轉(zhuǎn)變,各個圖書館的服務器,服務軟件等都可以實現(xiàn)共享,從經(jīng)濟角度上也能為國家節(jié)省大筆的開支。有研究者提出全國圖書館建立一種“國家圖書館—省級中心”的模式為國家政府信息資源提供服務[7],筆者這里也借鑒一下,在云計算的網(wǎng)絡技術下,全國圖書館的數(shù)據(jù)聯(lián)合成大數(shù)據(jù),同樣建立這樣的層級結(jié)構(gòu),獲取大數(shù)據(jù)中有價值的數(shù)據(jù)為全國每一個館提供信息。
云圖書館自有豐富的信息源,所有的“云”聯(lián)合起來為所有的用戶提供服務這正是圖書館未來發(fā)展的模式。圖書館或者圖書館讀者都可以作為用戶通過云服務技術訪問大數(shù)據(jù)服務商提供的服務,用戶訪問圖書館的方式則各不相同,可以分Web服務、Web應用、外部服務和非Web應用等等[8]。用戶通過隱形的技術,使用設備終端,或者電腦,或者pad,或者手機來獲得使用圖書館的新體驗。
關于圖書館聯(lián)合采購的服務,在這里我們討論如何利用大數(shù)據(jù)分析用戶需求,更為準確、高效地采購適合本地圖書館所需的信息資料。一個圖書館建設會依據(jù)本市、本校、本地區(qū)的用戶需求而訂制各類圖書、期刊和數(shù)據(jù)庫等信息資料,這個過程一般由圖書館采訪中心負責,而采訪中心的分析渠道一般又參考周邊各市縣圖書館,參考同類高校,參考讀者提供的需求反饋,參考大學系科提供的教學要求,另外就是參考書商、數(shù)據(jù)庫商提供的書目、數(shù)據(jù)庫名錄進行訂購。這種傳統(tǒng)采購方式一直是我國各級、各類圖書館資源建設中心沿用的方法,雖然圖書館以保障資料為其存在目的之一,但是傳統(tǒng)的采購方法難免會導致花費了大量人力、物力、財力采購到的資料,在一進館之后便沉寂起來。盡管理論界有一種長尾理論,想通過數(shù)據(jù)發(fā)掘把沉寂的資料提供給需要的用戶,但是面對浩瀚的資料,這幾乎是一種徒勞的做法。圖書館首先應從采購著手,從源頭上確定采購的資料是本館需求的,這也是符合效率與效益的。訂購優(yōu)質(zhì)而實用的資料不但會給當?shù)刈x者提供及時方便的服務,而且從各個方面,比如館舍面積、業(yè)務質(zhì)量、經(jīng)費支出等造就便利。
在大數(shù)據(jù)環(huán)境下,首先一個圖書館要融入“大圖書館”,可以是一個省或者是國家圖書館,由大圖書館牽頭負責各分館的聯(lián)絡組織。組織負責中心負責聯(lián)系外部大數(shù)據(jù)服務商,由大數(shù)據(jù)服務商提供數(shù)據(jù)收集與分析。在采購方面,則是由各分館提供數(shù)據(jù)匯集,交給服務商。服務商則把全負責區(qū)域數(shù)據(jù)納入大數(shù)據(jù)庫進行分析。這種采購信息數(shù)據(jù)至少可以反映出本地區(qū)讀者需求的地域特征、民族特征、產(chǎn)業(yè)狀況、發(fā)展趨勢特征。針對一個成員館,服務商應該給出采購圖書等資料的精確建議。舉一個例子,一個大學圖書館會依據(jù)學校教研情況訂購圖書或數(shù)據(jù)庫。大數(shù)據(jù)服務商則一方面收集世界或國家在各個學科領域最新發(fā)展情況,一方面針對學校發(fā)展目標,有目的地提供圖書等資料的采購建議。這樣的采購,可以避免人工采購的繁復勞動,失效作業(yè),避免自狹于小數(shù)據(jù)的采購作業(yè)失誤,卻可以獲得學科領域最新的優(yōu)質(zhì)資料。
圖書館資源建設除了采購方面,另一方面是本館的信息資源整理建設,具體工作包括信息資料編目和Web網(wǎng)建設。在信息編目方面,目前有國家圖書館和CALIS分別負責全國公共圖書館、全國中小學圖書館和全國高校圖書館的信息資源保障,在圖書編目業(yè)務上也已實現(xiàn)了聯(lián)合編目和館際互借。但國家圖書館和CALIS都是自有數(shù)據(jù)中心負責這方面業(yè)務,而且這兩個數(shù)據(jù)中心一個負責全國公關圖書館和中小學圖書館,另一個負責全國高校資源,本來就應該一體的東西,結(jié)果各自為政,在信息資源建設的各個方面都難以溝通,給國家造成重大的隱形損失。這種情況也反應到每個圖書館,就像目前的狀況,幾乎每個圖書館都有自己的數(shù)據(jù)服務器,都有自己的高技術人員,隨著計算機技術的發(fā)展,自有的服務器還需要不斷購買翻新,技術人員也需要不斷跟進學習,這一切在大數(shù)據(jù)和云計算出現(xiàn)的當下是巨大的浪費。圖書館的數(shù)據(jù)庫、服務器這一切應該交給服務商運作,在法律和安全協(xié)議的保證下,一個地區(qū),一個國家的數(shù)據(jù)都可以更經(jīng)濟、更高效地發(fā)揮作用。
圖書館的信息資源建設涉及多方面,從采訪到編目,到讀者信息反饋,到再分析再建設,圖書館員做的工作應多趨向分析這種建設模式,分析圖書館本身的特色,分析如何找到圖書館用戶的需求。這些分析方法要求從圖書館所有數(shù)據(jù)中獲得分析結(jié)果來,然后再利用分析結(jié)果去開展有效率的服務。圖書館使用大數(shù)據(jù)服務商提供的服務,大數(shù)據(jù)服務商則利用云環(huán)境獲得的數(shù)據(jù),對整個數(shù)據(jù)進行分析,給出圖書館所需的數(shù)據(jù)結(jié)果。
在大數(shù)據(jù)環(huán)境下使用云計算技術發(fā)展業(yè)務是圖書館的趨勢。在這樣的趨勢下,圖書館所做的業(yè)務可以更加集中于自身的分析和用戶的分析,把數(shù)據(jù)倉儲、數(shù)據(jù)分析交給大數(shù)據(jù)服務商。圖書館的角色在新環(huán)境下進行有效轉(zhuǎn)變,圖書館員的工作也從以前全面包攬轉(zhuǎn)變到有效集中。服務商無論使用哪種云計算技術,使用哪種大數(shù)據(jù)分析系統(tǒng)都由數(shù)據(jù)商決定,圖書館則選擇使用哪個服務商提供的服務。在大數(shù)據(jù)時代下,圖書館職責可以緊緊圍繞圖書館核心價值去做用戶需求關聯(lián)分析,分析圖書館給用戶所能提供服務的途徑,分析新業(yè)務的可行性,分析研究創(chuàng)新業(yè)務和創(chuàng)新服務。
[1]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54,79.
[2]裴昱.大數(shù)據(jù)時代圖書館用戶行為信息的利用方式[J].圖書館學刊,2013(8):44-46.
[3]遲有雷.大數(shù)據(jù)如何賺錢[EB/OL].[2014-03-12].http://www.forbeschina.com/review/201403/0031571.shtm l.
[4]國家數(shù)字圖書館資源建設概況 [EB/OL].[2014-03-12].http://www.ndlib.cn/szzyjs2012/201201/t20120113_57990.htm.
[5]云計算 [EB/OL].[2014-03-12].http://baike.baidu.com/view/1316082.htm.
[6]楊威,張昀.云計算背景下數(shù)字圖書館可信計算研究[J].軟件導刊,2014(1):135-138.
[7]汪正坤,彭國莉,劉喜文,等.基于云計算的中國政府信息資源的圖書館開發(fā)利用[J].圖書館學研究,2012(7):73-77.
[8]崔忠偉,左羽,韋萍萍,等.基于云計算的數(shù)字圖書館服務平臺架構(gòu)設計[J].物聯(lián)網(wǎng)技術,2014(2):80-81.