王文嫻
(福州市倉(cāng)山區(qū)圖書館 福建 福州 350007)
隨著數(shù)字信息數(shù)量的迅速增加,各大圖書館自身在建立與利用這一問(wèn)題上所存在的問(wèn)題也日益凸顯出來(lái)。由于互聯(lián)網(wǎng)上的無(wú)序、零散、無(wú)從查詢,具有不可控等特點(diǎn),圖書館需要著重去解決數(shù)字源的有序化、門戶化等方便使用問(wèn)題。與此同時(shí),在當(dāng)前的數(shù)字圖書館資源建設(shè)過(guò)程中,需要思考的一個(gè)重要問(wèn)題就是,如何更好地對(duì)這些數(shù)據(jù)進(jìn)行高效的構(gòu)建和利用,并對(duì)其進(jìn)行長(zhǎng)期的保存,從而為科研人員、讀者等提供更豐富、更準(zhǔn)確的信息服務(wù)。但是數(shù)字圖書館更多的是為讀者提供服務(wù),而我們所建立的數(shù)字圖書館信息服務(wù),其核心和根本在于,要把握好數(shù)字資源的先進(jìn)和實(shí)用,這也是提供優(yōu)質(zhì)、健康和高效服務(wù)的關(guān)鍵,更是各級(jí)部門使用、檢索以及利用這些數(shù)字資源的基礎(chǔ)保障。
大數(shù)據(jù)應(yīng)用的不斷深化,產(chǎn)生了多種不同的數(shù)據(jù)處理過(guò)程和處理方法,在此基礎(chǔ)上可以歸納出具有普適性的“四步處理”過(guò)程,即大數(shù)據(jù)的收集、導(dǎo)入與預(yù)處理、統(tǒng)計(jì)與分析、挖掘,并以此為依據(jù),實(shí)現(xiàn)對(duì)數(shù)字資源的整合[1]。圖書館的信息資源和服務(wù)是緊密聯(lián)系在一起,因此單純的信息資源整合還不夠,必須在信息資源整合的同時(shí),從而達(dá)到對(duì)應(yīng)的業(yè)務(wù)集成。唯有如此,才能做到以顧客需求為導(dǎo)向,以一種優(yōu)質(zhì)的方式向顧客提供全方位的優(yōu)質(zhì)服務(wù)。因此,在大數(shù)據(jù)的背景下,對(duì)圖書館的數(shù)字資源進(jìn)行整合其核心思想具體敘述如下。
即從時(shí)間和空間兩個(gè)維度對(duì)圖書館的全部數(shù)據(jù)進(jìn)行采集。在數(shù)據(jù)采集時(shí),必須關(guān)注數(shù)據(jù)的完整性與安全性,盡量采集完整的海量數(shù)據(jù),這些都對(duì)圖書館的基礎(chǔ)設(shè)施建設(shè),存儲(chǔ)技術(shù)和存儲(chǔ)體系提出了很高的要求。
管理并處理大量的圖書館資料。在圖書館的海量數(shù)據(jù)中,必然存在著一些重復(fù)的、沒(méi)有利用價(jià)值的、錯(cuò)誤的數(shù)據(jù),因此必須將那些沒(méi)有利用價(jià)值的數(shù)據(jù)信息與有價(jià)值的數(shù)據(jù)信息分離出來(lái),并在輸入數(shù)據(jù)前進(jìn)行一些簡(jiǎn)易的清理與預(yù)處理;同時(shí),根據(jù)融合系統(tǒng)的需要,對(duì)數(shù)據(jù)進(jìn)行分類、格式轉(zhuǎn)換等組織和處理,以保證數(shù)據(jù)的有效性、可用性和價(jià)值性。
面向圖書館的大數(shù)據(jù)分析和利用,主要體現(xiàn)在以下兩個(gè)方面:一是面向具體分析需要,統(tǒng)計(jì)、分析、解決具體問(wèn)題;二是則是不需要提前設(shè)置分析要求,只需要進(jìn)行數(shù)據(jù)挖掘,這樣才能從海量的信息中挖掘出其中的潛力,實(shí)現(xiàn)對(duì)未來(lái)的預(yù)測(cè),并在圖書館各項(xiàng)工作中加以運(yùn)用[2]。除了支持圖書館自身的建設(shè),對(duì)其研究結(jié)果的分析和利用,也是向讀者提供大數(shù)據(jù)服務(wù)的一種重要形式。
當(dāng)前,國(guó)內(nèi)圖書館數(shù)字資源建設(shè)存在以下問(wèn)題:資源分布分散、重復(fù)建設(shè)、垃圾數(shù)據(jù)多、信息孤島、資源浪費(fèi)、安全措施薄弱、使用效率低下等。在大數(shù)據(jù)時(shí)代,吸收數(shù)據(jù),要全部而不是樣本,要關(guān)聯(lián)而不是因果。要改變模糊而非精確的思路,利用先進(jìn)的云計(jì)算和大數(shù)據(jù)等技術(shù),強(qiáng)化對(duì)圖書館數(shù)字資源的整合規(guī)劃和總體處理,促進(jìn)各類圖書館的大數(shù)據(jù)的迅速發(fā)展,逐步形成以云計(jì)算平臺(tái)為基礎(chǔ),以大數(shù)據(jù)處理為核心和大數(shù)據(jù)應(yīng)用為導(dǎo)向的總體格局[3-4]。以大安全體系為保障的圖書館數(shù)字資源融合平臺(tái),能夠使圖書館的資源建設(shè)從粗放式、低效能的分散建設(shè),向集約化、高績(jī)效協(xié)同發(fā)展的方向發(fā)展,降低了圖書館的資源建設(shè)和運(yùn)營(yíng)成本。
2.2.1 云計(jì)算
云計(jì)算概念是在2006 年谷歌公司首次提出。從更廣泛的角度來(lái)看,云計(jì)算是一種通過(guò)網(wǎng)絡(luò)按照需求、便捷等要求進(jìn)行擴(kuò)充而獲得的一種服務(wù),它可以是IT、軟件、網(wǎng)絡(luò)等相關(guān)的,也可以是其他任何一種服務(wù)。而狹義上的“云”則是一種通過(guò)互聯(lián)網(wǎng)獲得所需資源的信息技術(shù)基礎(chǔ)結(jié)構(gòu)的傳遞和利用,這種信息技術(shù)的網(wǎng)絡(luò)被稱作“云”,對(duì)于“云”上的用戶來(lái)說(shuō),它是可以無(wú)限擴(kuò)展的,可以隨時(shí)獲得,可以按需使用,可以隨時(shí)擴(kuò)展。費(fèi)用將根據(jù)你的使用而定。云計(jì)算本身屬于分布式處理的結(jié)構(gòu),結(jié)合網(wǎng)絡(luò)計(jì)算等概念所發(fā)展的商業(yè)實(shí)現(xiàn)技術(shù)。目前,云計(jì)算可被認(rèn)為包含軟件即服務(wù)(SaaS)、平臺(tái)即服務(wù)(PaaS)和基礎(chǔ)設(shè)施即服務(wù)(LaaS)這3 個(gè)層次的服務(wù)形式。
2.2.2 Hadoop
Hadoop 是Apache 基金會(huì)所開(kāi)發(fā)的一種采用Java語(yǔ)言來(lái)實(shí)現(xiàn)的分布式系統(tǒng)基礎(chǔ)設(shè)施,它擁有高度的可靠性、拓展性和高效性、低成本以及高容錯(cuò)性等優(yōu)點(diǎn),使用者可以在不需要理解分布式底層的細(xì)節(jié)的前提下,就可以進(jìn)行分布式程序的開(kāi)發(fā),從而也可以最大限度地發(fā)揮集群的力量,從而達(dá)到高速計(jì)算與存儲(chǔ)的目的[5]。Hadoop由比較多的要素構(gòu)成,到現(xiàn)在為止,其已經(jīng)發(fā)展成了一個(gè)擁有HDFS(分布式文件系統(tǒng))、MapReduce(分布式計(jì)算架構(gòu))等多種功能構(gòu)件的一個(gè)完整的生態(tài)系統(tǒng)(見(jiàn)圖1)。
圖1 Hadoop完整的生態(tài)系統(tǒng)
2.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)包含多種形式,具體敘述如下。
(1)統(tǒng)計(jì)學(xué)技巧。其基本思路是通過(guò)統(tǒng)計(jì)的方式將已知的數(shù)據(jù)集合假定為一個(gè)分布或者是概率的模型,然后根據(jù)模型采用相應(yīng)的方式進(jìn)行挖掘。
(2)關(guān)聯(lián)規(guī)則。用關(guān)聯(lián)度分析法發(fā)現(xiàn)資料庫(kù)中所隱藏的關(guān)系網(wǎng)絡(luò),包括簡(jiǎn)單關(guān)系、順序關(guān)系和原因關(guān)系。
(3)聯(lián)結(jié)分析。這一解析的基礎(chǔ)是“圖論”,而“圖論”則不需要尋找4個(gè)最優(yōu)解,而是尋找一種能夠獲得較好結(jié)果,但又不能獲得最優(yōu)結(jié)果的方法,通過(guò)鏈接分析,可以對(duì)某些用戶的操作進(jìn)行分析,從而得出相應(yīng)的概念,從而推廣到更多的人群中。
(4)決策樹(shù)是指通過(guò)對(duì)一組規(guī)則的分割,構(gòu)建出一張樹(shù)狀圖,并通過(guò)樹(shù)狀的方式來(lái)表達(dá)一組判決,從而實(shí)現(xiàn)對(duì)這些判決的分類與預(yù)測(cè)。
(5)神經(jīng)網(wǎng)絡(luò)是一種通過(guò)輸入、隱藏、輸出等方式來(lái)調(diào)節(jié)和運(yùn)算數(shù)據(jù)的一種非線性預(yù)測(cè)模式,它可以完成分類、聚類、特征挖掘、回歸分析等各種類型的數(shù)據(jù)的挖掘判斷。
(6)進(jìn)行多元線性回歸?;貧w分析對(duì)三種類型的回歸進(jìn)行研究,分別是:線性和非線性回歸、多元回歸。
綜上所述,結(jié)合對(duì)知識(shí)挖掘技術(shù)的相關(guān)分析,其具體過(guò)程見(jiàn)圖2。
圖2 知識(shí)挖掘的基本過(guò)程
通過(guò)對(duì)上述有關(guān)的文獻(xiàn)資料技術(shù)整合分析,本文基于此設(shè)計(jì)出如何實(shí)現(xiàn)數(shù)字資源融合的關(guān)鍵平臺(tái),并且從數(shù)據(jù)融合、數(shù)據(jù)建設(shè)和應(yīng)用等角度出發(fā)分析圖書館數(shù)字資源融合平臺(tái)所應(yīng)當(dāng)具備的功能。具體如下。
2.3.1 數(shù)據(jù)融合
實(shí)現(xiàn)多個(gè)中心,多層次,集中式的數(shù)據(jù)中心建設(shè);可在彈性擴(kuò)展的基礎(chǔ)上實(shí)現(xiàn)分布式存儲(chǔ);對(duì)大容量的數(shù)據(jù)進(jìn)行平行處理;實(shí)現(xiàn)跨區(qū)域、多源的信息融合;支持對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的信息進(jìn)行處理和融合;對(duì)國(guó)內(nèi)主要的數(shù)據(jù)庫(kù)媒體的支持。
2.3.2 數(shù)據(jù)建設(shè)
以元數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)規(guī)范性建設(shè);提供資料品質(zhì)的支援建設(shè);為數(shù)據(jù)的安全性提供支撐;提倡資料分享和公開(kāi);實(shí)現(xiàn)對(duì)數(shù)據(jù)的調(diào)取和交換。
2.3.3 數(shù)據(jù)應(yīng)用
輔助基礎(chǔ)資料的詢問(wèn)、提取、總結(jié)等;具有相關(guān)、多維度、數(shù)據(jù)采集等方面的能力;為商業(yè)模式和集成模式的建立提供支撐;為直觀展示分析的成果提供支撐;允許在手機(jī)上顯示分析的結(jié)果。
分析和考量圖書館的數(shù)字化建設(shè)和大數(shù)據(jù)技術(shù)的處理過(guò)程,并結(jié)合圖書館數(shù)字資源融合的本質(zhì)特點(diǎn),從數(shù)據(jù)獲取、存儲(chǔ)、處理和應(yīng)用4 個(gè)方面進(jìn)行分析,并在整個(gè)圖書館數(shù)字資源的融合平臺(tái)的構(gòu)建過(guò)程中,貫徹了規(guī)范化的數(shù)據(jù)構(gòu)建和安全應(yīng)用機(jī)制。在全平臺(tái)上,可以實(shí)現(xiàn)對(duì)圖書館海量信息的采集與存儲(chǔ)。在處理中可實(shí)現(xiàn)平臺(tái)融合;在應(yīng)用中可實(shí)現(xiàn)服務(wù)融合。
2.4.1 圖書館數(shù)字資源的獲取
圖書館海量信息采集主要是利用RFID 射頻識(shí)別技術(shù)、傳感器、閱讀終端設(shè)備、網(wǎng)絡(luò)監(jiān)測(cè)、視頻監(jiān)測(cè)、移動(dòng)互聯(lián)網(wǎng)、網(wǎng)絡(luò)爬蟲、網(wǎng)站公開(kāi)API 和軟件、硬件的數(shù)據(jù)界面進(jìn)行采集,完成對(duì)整個(gè)圖書館大數(shù)據(jù)的追蹤、收集、清洗、轉(zhuǎn)換、裝入及其他的前處理工作。
由于收集到的數(shù)據(jù)庫(kù)中存在著種類繁多,而且并不是所有的資料都是有實(shí)用意義,因此需要使用ETL技術(shù)對(duì)這些資料進(jìn)行預(yù)處理,以此來(lái)提高圖書館大量資料的可表達(dá)性、可存儲(chǔ)性和可處理性,整體的流程如圖3 所示。在數(shù)據(jù)提取環(huán)節(jié),實(shí)現(xiàn)了對(duì)原始資料與原始資料的關(guān)聯(lián)與存取,以及對(duì)原始資料的捕捉。在數(shù)據(jù)處理過(guò)程中,需要對(duì)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)規(guī)則以及商業(yè)規(guī)則進(jìn)行清理和補(bǔ)充,并通過(guò)元數(shù)據(jù)庫(kù)的構(gòu)建來(lái)對(duì)數(shù)據(jù)進(jìn)行描述。在資料轉(zhuǎn)化環(huán)節(jié),重點(diǎn)是資料的相容性,將資料轉(zhuǎn)化為資料。在數(shù)據(jù)裝入階段,其工作是裝入各種維度表格和事實(shí)表格,并把這些已被加工后的資料裝入儲(chǔ)存系統(tǒng)。
圖3 ETL處理流程
2.4.2 圖書館數(shù)字資源的存儲(chǔ)
圖書館大數(shù)據(jù)的存儲(chǔ)是將來(lái)自不同資源的海量、異質(zhì)的信息,通過(guò)進(jìn)行提取、清洗、轉(zhuǎn)化等預(yù)處理,將其儲(chǔ)存在不同的存儲(chǔ)媒體上,從而實(shí)現(xiàn)對(duì)海量信息的儲(chǔ)存與利用。
在大數(shù)據(jù)環(huán)境下,采用分布存儲(chǔ)模式,并引進(jìn)Hadoop體系結(jié)構(gòu),將數(shù)據(jù)庫(kù)中的藏書資料儲(chǔ)存于主庫(kù)及分散資料庫(kù)中。Hadoop 為大型數(shù)據(jù)提供一個(gè)分布式的存儲(chǔ)和處理體系,其可以通過(guò)使用服務(wù)器的本地計(jì)算和存儲(chǔ)資源,來(lái)將Hadoop 簇?cái)U(kuò)展到幾千個(gè)服務(wù)器,具有低開(kāi)銷、低延遲、高并發(fā)等特點(diǎn)。在對(duì)圖書館大數(shù)據(jù)進(jìn)行存儲(chǔ)的流程中,采用了數(shù)據(jù)分層存儲(chǔ)的原理,也就是按照數(shù)據(jù)的物理屬性、訪問(wèn)壓力、生命周期或商業(yè)用途等進(jìn)行存儲(chǔ)。
2.4.3 圖書館數(shù)字資源的處理
圖書館數(shù)字資源的處理是基于業(yè)務(wù)開(kāi)展或者是用戶自身的特點(diǎn)需求所提出的一種基于信息技術(shù)的分析方法。由于對(duì)分布式存儲(chǔ)和對(duì)圖書館大數(shù)據(jù)處理的實(shí)時(shí)性的需求,導(dǎo)致對(duì)數(shù)據(jù)的處理變得更為復(fù)雜和困難。因此,MapReduce已經(jīng)成為圖書館大數(shù)據(jù)處理的首選。
MapReduce作為一種面向海量(超過(guò)1 TB)的并行程序,能夠在同一機(jī)群上對(duì)多個(gè)不同類型的數(shù)據(jù)實(shí)現(xiàn)分布式多核最優(yōu)化協(xié)作。從而達(dá)到對(duì)多核協(xié)同工作的整體最優(yōu)。MapReduce 中最基本的理念是“Map”“Reduce”,也是MapReduce 中的核心步驟。映射也就是“分解”,就是將運(yùn)算過(guò)程分割為多個(gè)映射過(guò)程,每個(gè)映射過(guò)程都會(huì)對(duì)輸入的數(shù)據(jù)進(jìn)行一定的處理;在Map工作結(jié)束時(shí),將產(chǎn)生若干中介文件,并將其用作Reduce 工作的輸入資料。“合并”也就是Reduce,就是將之前幾張地圖的結(jié)果進(jìn)行綜合,然后將其同時(shí)進(jìn)行輸出,從而得到最后的效果。
在圖書館數(shù)字資源融合平臺(tái)中,通過(guò)使用數(shù)據(jù)訪問(wèn)接口,從數(shù)據(jù)存儲(chǔ)層中獲得所需的數(shù)據(jù),然后使用MapReduce 對(duì)這些數(shù)據(jù)展開(kāi)分布和平行的處理,從而得到所需要的計(jì)算結(jié)果。另外,還可以利用MapReduce 來(lái)實(shí)現(xiàn)對(duì)圖書館資源數(shù)據(jù)的使用分析、用戶行為特征分析、業(yè)務(wù)流程分析等。具體的處理流程化如圖4所示。
圖4 MapReduce的數(shù)據(jù)處理流程
2.4.4 圖書館數(shù)字資源的應(yīng)用
圖書館數(shù)字資源的應(yīng)用,是基于大數(shù)據(jù)處理,將其用于圖書館的業(yè)務(wù)開(kāi)展或服務(wù)創(chuàng)新,從而對(duì)圖書館業(yè)務(wù)開(kāi)展流程進(jìn)行改進(jìn);拓寬圖書館的業(yè)務(wù)范圍,拓展其業(yè)務(wù)類型。
在大數(shù)據(jù)環(huán)境下,通過(guò)對(duì)相關(guān)信息的挖掘和挖掘,實(shí)現(xiàn)對(duì)用戶信息的有效利用和有效利用。例如:在對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)進(jìn)行分析時(shí),就必須對(duì)與競(jìng)爭(zhēng)產(chǎn)品、競(jìng)爭(zhēng)對(duì)手、競(jìng)爭(zhēng)環(huán)境等相關(guān)的所有數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,從而為企業(yè)制定競(jìng)爭(zhēng)戰(zhàn)略提供依據(jù)。在采購(gòu)圖書館資源時(shí),可以對(duì)借閱數(shù)據(jù)、檢索數(shù)據(jù)與用戶數(shù)據(jù)展開(kāi)相關(guān)的分析,這樣就能夠?qū)ψx者的閱讀習(xí)慣與他們對(duì)資源的需求有一個(gè)全面的了解,進(jìn)而決定讀者所需要的資源以及讀者的購(gòu)買或引入方式[6]。
在大數(shù)據(jù)背景下,數(shù)字源建設(shè)的個(gè)性化定制是圖書館的一項(xiàng)主要服務(wù),圖書館能夠利用一個(gè)統(tǒng)一的平臺(tái),對(duì)使用者的使用行為進(jìn)行深入挖掘和分析,讓使用者能夠更好地了解使用者的使用情況,進(jìn)而能夠更好地按照使用者的需求,向使用者提供更多更具針對(duì)性和新穎性的個(gè)性化定制服務(wù)。除了關(guān)聯(lián)服務(wù)、個(gè)性化定制服務(wù),還包括以數(shù)據(jù)為基礎(chǔ)的一站式資源服務(wù)、以知識(shí)發(fā)現(xiàn)為基礎(chǔ)的主題服務(wù)、以科學(xué)化治理為基礎(chǔ)的數(shù)據(jù)公開(kāi)服務(wù)、以數(shù)據(jù)為基礎(chǔ)的智能服務(wù)和其他領(lǐng)域的服務(wù)。
綜上所述,打造好數(shù)字圖書館是為未來(lái)圖書館服務(wù)的一項(xiàng)具有前瞻性的工作,也是傳統(tǒng)圖書館和現(xiàn)代信息技術(shù)的有機(jī)融合,建設(shè)好數(shù)字圖書館的數(shù)字資源,對(duì)于數(shù)字圖書館尤為重要。這就要求我們對(duì)圖書館的數(shù)字資源建設(shè)進(jìn)行深入的探索,以更高效率和更高質(zhì)量地對(duì)各類文獻(xiàn)資源進(jìn)行建設(shè),為社會(huì)和更多的讀者提供更便捷、更高質(zhì)量的基礎(chǔ)文化服務(wù)。