摘 要:近年來,隨著計(jì)算機(jī)的廣泛應(yīng)用和云計(jì)算和物聯(lián)網(wǎng)技術(shù)的飛快進(jìn)步,數(shù)據(jù)的類型和規(guī)模也在迅速增加。在大數(shù)據(jù)時(shí)代,如何將這些海量數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息是圖書館界普遍關(guān)注的話題,文章在大數(shù)據(jù)的概念及特點(diǎn)下,談了圖書館學(xué)界目前對(duì)于大數(shù)據(jù)研究的現(xiàn)狀,給出了幾點(diǎn)圖書館數(shù)字資源建設(shè)的策略。
關(guān)鍵詞:圖書館 大數(shù)據(jù) 數(shù)字資源建設(shè)
一、大數(shù)據(jù)的概念
大數(shù)據(jù)并沒有一個(gè)確切的、完整的定義,從提出這個(gè)概念以來,研究大數(shù)據(jù)的專家學(xué)者們就沒有對(duì)這個(gè)概念達(dá)成過共識(shí),基本上各人有各人的理解與定義。剛開始時(shí),這個(gè)概念指的是需要處理的信息量太大了,已經(jīng)超出了一般電腦能處理的數(shù)據(jù)量。大數(shù)據(jù)目前得到公認(rèn)的是大數(shù)據(jù)的“4V”特性,Volume(大量)、Velocity(高速)、Variety(多樣)、value(價(jià)值)。 其中Volume指收集和分析的數(shù)據(jù)量巨大,從 TB 級(jí)別上升到 PB 級(jí)別;velocity 指數(shù)據(jù)處理速度要足夠快,與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別;Value 指數(shù)據(jù)中蘊(yùn)含著潛在的價(jià)值轉(zhuǎn)化,雖然大量的數(shù)據(jù)表現(xiàn)出價(jià)值密度低的特點(diǎn),但只要有足夠的技術(shù)儲(chǔ)備,合理的利用數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確的挖掘、分析,可以帶來很高的價(jià)值回報(bào);variety 指數(shù)據(jù)類型多樣復(fù)雜,這些數(shù)據(jù)不單包括傳統(tǒng)數(shù)據(jù)庫表格整齊排列的結(jié)構(gòu)化數(shù)據(jù),更多是視頻、音頻、圖像、電子郵件、即時(shí)通信工具、微博、社交網(wǎng)絡(luò)等以非結(jié)構(gòu)化文本存儲(chǔ)的數(shù)據(jù)。所以,有人總結(jié)大數(shù)據(jù)是“海量數(shù)據(jù)+復(fù)雜類型”的數(shù)據(jù),包含分析、帶寬、內(nèi)容三個(gè)因素,其因素是蘊(yùn)含價(jià)值。[1]
二、圖書館學(xué)界目前對(duì)于大數(shù)據(jù)的研究現(xiàn)狀
為了了解國內(nèi)圖書館學(xué)界對(duì)于大數(shù)據(jù)的研究, 筆者借助中國知網(wǎng)檢索了圖書館學(xué)跟大數(shù)據(jù)相關(guān)的論文,在中國知網(wǎng)上按篇名,使用“大數(shù)據(jù)”、“圖書館”兩個(gè)關(guān)鍵字(合并條件)進(jìn)行檢索,2011 年是 0 條結(jié)果,2012 年是 4 條結(jié)果,2013 年度是 58 條結(jié)果,2014 年迄今為止是 173 條結(jié)果。 通過這些結(jié)果來看,大數(shù)據(jù)已經(jīng)引起了我國圖書館界的專家學(xué)者們的重視,相關(guān)的研究正在飛速的發(fā)展。 專家學(xué)者們在對(duì)大數(shù)據(jù)研究的相關(guān)文章后,歸納了我國圖書館界大數(shù)據(jù)研究的關(guān)鍵特征:1。論文的數(shù)量逐年增加。2011年以前,首要討論內(nèi)容是計(jì)算機(jī)領(lǐng)域大數(shù)據(jù)量體系結(jié)構(gòu)。2012年開始,特地研究大數(shù)據(jù)的文獻(xiàn)開始出現(xiàn),并在2013年急劇增加。圖書館領(lǐng)域的文獻(xiàn)出版也呈現(xiàn)出增長趨勢。2。發(fā)表論文主要集中在計(jì)算機(jī)和管理類期刊上。研究發(fā)現(xiàn),出版大型數(shù)據(jù)研究論文的期刊大多以計(jì)算機(jī)和管理為重點(diǎn)。近兩年來,圖書館和信息科學(xué)期刊發(fā)表的大數(shù)據(jù)文章也較多,反映了圖書館界基于大數(shù)據(jù)理論的跨學(xué)科研究的趨勢,而其他期刊的論文較少。 3.研究視角多元化,研究重點(diǎn)突出。在計(jì)算機(jī)期刊上發(fā)表的論文主要集中在大數(shù)據(jù)的技術(shù)框架和設(shè)計(jì)上,而管理類期刊則集中在大數(shù)據(jù)的理論探索和實(shí)踐參考上。 4.。我國圖書館員對(duì)大數(shù)據(jù)的應(yīng)用很少關(guān)注,過于注重大數(shù)據(jù)的理論引進(jìn),而忽視了大數(shù)據(jù)在圖書館應(yīng)用的實(shí)踐研究。[2]
三、大數(shù)據(jù)下的圖書館數(shù)字資源建設(shè)
1.存儲(chǔ)架構(gòu)從傳統(tǒng)IT環(huán)境向大數(shù)據(jù)環(huán)境的均衡過渡
首先,大數(shù)據(jù)時(shí)代,圖書館傳統(tǒng) IT 環(huán)境下的集中式存儲(chǔ)架構(gòu), 已經(jīng)不能滿足用戶對(duì)大數(shù)據(jù)存儲(chǔ)服務(wù)大量高效的需求,管理員很難通過擴(kuò)展存儲(chǔ)設(shè)備的容量和性能來滿足圖書館大型數(shù)據(jù)服務(wù)的功能需求。其次,在傳統(tǒng)的IT環(huán)境下,圖書館往往通過添加存儲(chǔ)系統(tǒng)模塊來擴(kuò)充數(shù)據(jù)存儲(chǔ)容量,導(dǎo)致存儲(chǔ)系統(tǒng)結(jié)構(gòu)復(fù)雜,管理艱難,存儲(chǔ)負(fù)載不平衡,容易產(chǎn)生數(shù)據(jù)孤島。[3] 因此,存儲(chǔ)體系結(jié)構(gòu)必須從傳統(tǒng)IT環(huán)境下的集中存儲(chǔ)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)環(huán)境下的分布式存儲(chǔ)體系結(jié)構(gòu)。第三,隨著讀者對(duì)大數(shù)據(jù)服務(wù)需求的發(fā)展,圖書館應(yīng)改變存儲(chǔ)系統(tǒng),重點(diǎn)建設(shè)讀者的大數(shù)據(jù)服務(wù)支撐能力,提高大數(shù)據(jù)存儲(chǔ)、管理、部署和遷移的安全性、效率、可用性和可控性。第四,大數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu)必須加強(qiáng)軟硬件平臺(tái)的開放性,消除傳統(tǒng)存儲(chǔ)平臺(tái)不同系統(tǒng)和功能模塊之間的層次性、緊密性和隔離性,實(shí)現(xiàn)大數(shù)據(jù)資源的改善存儲(chǔ)和部署。
2.大數(shù)據(jù)存儲(chǔ)系統(tǒng)應(yīng)構(gòu)建新式的指標(biāo)參數(shù)體系
根據(jù)圖書館大型數(shù)據(jù)存儲(chǔ)系統(tǒng)的科學(xué)結(jié)構(gòu)、系統(tǒng)功能、存儲(chǔ)可用性和可控性,存儲(chǔ)平臺(tái)系統(tǒng)的指標(biāo)體系應(yīng)著眼于數(shù)據(jù)庫的結(jié)構(gòu)復(fù)雜性、可擴(kuò)展性、操作效率、靈活性、弱一致性和系統(tǒng)的建設(shè)經(jīng)濟(jì)性。大數(shù)據(jù)存儲(chǔ)系統(tǒng)的功能性和可控性指標(biāo)體系應(yīng)主要包括數(shù)據(jù)安全性、長期存儲(chǔ)、數(shù)據(jù)可訪問性、數(shù)據(jù)定位和查詢效率、存儲(chǔ)系統(tǒng)的數(shù)據(jù)吞吐量和延遲、大數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的科學(xué)部署。另外,根據(jù)索引參數(shù),根據(jù)圖書館大數(shù)據(jù)存儲(chǔ)系統(tǒng)的科學(xué)結(jié)構(gòu)和功能影響,以及讀者大數(shù)據(jù)服務(wù)的內(nèi)容和模式轉(zhuǎn)換程度,動(dòng)態(tài)調(diào)整索引的內(nèi)容、參數(shù)和影響因素。
3.搜索引擎系統(tǒng)應(yīng)功能強(qiáng)大和牢靠。
圖書館要按照大數(shù)據(jù)時(shí)代讀者的閱讀需要、用戶服務(wù)模式和數(shù)據(jù)環(huán)境特征,強(qiáng)化搜索引擎的可用性、可控性和功能創(chuàng)立,確保搜索引擎的可靠性易用性、經(jīng)濟(jì)性和方便性。第一,搜索引擎在設(shè)計(jì)流程中,應(yīng)對(duì)服務(wù)器日志數(shù)據(jù)、讀者訪問記錄、Office 文檔、XML 格式的電子表格數(shù)據(jù)、博客與論壇數(shù)據(jù)、APP 應(yīng)用產(chǎn)生的數(shù)據(jù)、圖片、音頻、視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一搜索界面、統(tǒng)一運(yùn)營模式和完成數(shù)據(jù)渠道的整合搜索。其次,通過建設(shè)有效的索引,加快數(shù)據(jù)的讀取速度和完整性檢查。索引進(jìn)程應(yīng)設(shè)法確保語句符合查詢優(yōu)化器的規(guī)則,并避免進(jìn)行數(shù)據(jù)庫全表掃描以提高數(shù)據(jù)查詢的效率。同時(shí),搜索算法應(yīng)允許索引和搜索同步更新,以確保首先返回最佳查詢結(jié)。第三,圖書館應(yīng)獨(dú)立或與第三方開發(fā)商合作,利用谷歌、百度、亞馬遜、微軟等大型信息服務(wù)商預(yù)留的 API (應(yīng)用程序編程接口),并結(jié)合圖書館管理和讀者服務(wù)需求進(jìn)行二次開發(fā)。為大型信息服務(wù)提供商提供數(shù)據(jù)共享和增值服務(wù)。圖書館管理員和讀者可以利用大型信息服務(wù)提供商的大數(shù)據(jù)處理能力,實(shí)現(xiàn)用戶定位、在線翻譯、數(shù)據(jù)分析、大數(shù)據(jù)處理和云計(jì)算等大數(shù)據(jù)升值服務(wù)。[4]
4.鏈接網(wǎng)絡(luò)技術(shù),發(fā)掘網(wǎng)絡(luò)音視頻資源。
數(shù)字時(shí)代的音視頻產(chǎn)業(yè)傳播介質(zhì)已實(shí)現(xiàn)多樣化,包含出版和宣傳有形載體(比如光、錄像帶等),也包含網(wǎng)絡(luò)、流媒體等新載體的出版?zhèn)鞑ヒ殉蔀榫邆渖钸h(yuǎn)發(fā)展前景的內(nèi)容產(chǎn)業(yè)。圖書館積極的與網(wǎng)絡(luò)信息技術(shù)接軌,已成為當(dāng)今發(fā)展的方向,熱衷于捕獲讀者的行為數(shù)據(jù),確保讀者快速搜索各種聲像資料的網(wǎng)絡(luò)。圖書館可以通過互聯(lián)網(wǎng)利用新技術(shù)的優(yōu)勢,在家庭終端等各種空間為讀者提供及時(shí)的在線音頻和視頻資源。在版權(quán)許可的情況下,圖書館可以遠(yuǎn)程推動(dòng)大量的時(shí)事信息和影視娛樂資料。這是圖書館通過推廣網(wǎng)上資源吸引讀者的措施,也是外包數(shù)據(jù)庫的延伸。雖然大量的在線音頻和視頻資源對(duì)物理資源的采集和數(shù)據(jù)庫建設(shè)有必然的影響,但圖書館能夠?yàn)樽x者做好數(shù)據(jù)導(dǎo)航工作,幫助他們及時(shí)遇上他們喜歡的音頻和視頻網(wǎng)站。這也是一個(gè)為讀者提供音頻和視頻資源的必要途徑。
5.創(chuàng)建高效的科學(xué)的大數(shù)據(jù)可視化分析系統(tǒng)
建立科學(xué)、高效的大數(shù)據(jù)可視化分析系統(tǒng)是發(fā)現(xiàn)大數(shù)據(jù)價(jià)值、發(fā)現(xiàn)數(shù)據(jù)關(guān)系、實(shí)現(xiàn)圖書館知識(shí)表達(dá)的前提。圖書館大數(shù)據(jù)分析涉及大量的內(nèi)部、外部和第三方共享數(shù)據(jù),主要由服務(wù)系統(tǒng)運(yùn)營和管理日志數(shù)據(jù)、CRM關(guān)系數(shù)據(jù)、服務(wù)市場環(huán)境數(shù)據(jù)、讀者社會(huì)關(guān)系數(shù)據(jù)、讀者地理位置和遷移路線數(shù)據(jù)、讀者閱讀行為和閱讀終端數(shù)據(jù)等組成,它數(shù)據(jù)量大、管理復(fù)雜、計(jì)算與分析困難、可視化展示要求高的特點(diǎn),對(duì)可視化分析系統(tǒng)提出了較高要求。[5]首先,大數(shù)據(jù)可視化分析系統(tǒng)應(yīng)根據(jù)系統(tǒng)功能要求和工作流程,在統(tǒng)一的系統(tǒng)平臺(tái)上設(shè)計(jì)具有數(shù)清晰、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)管理、大數(shù)據(jù)挖掘與分析、數(shù)據(jù)分析結(jié)果可視化展示的獨(dú)立功能模塊,才能確保大數(shù)據(jù)可視化分析系統(tǒng)統(tǒng)一平臺(tái)、統(tǒng)一管理、統(tǒng)一認(rèn)證和統(tǒng)一服務(wù)。其次,可視化分析系統(tǒng)應(yīng)具備處理多數(shù)據(jù)源數(shù)據(jù)、第三方開放數(shù)據(jù)集、社交網(wǎng)絡(luò)數(shù)據(jù)、第三方腳本等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的能力,以及在大數(shù)據(jù)可視化分析全過程實(shí)現(xiàn)數(shù)據(jù)的流動(dòng)、交互和融合。第三,大數(shù)據(jù)可視化分析系統(tǒng)應(yīng)涉及圖書館服務(wù)系統(tǒng)建設(shè)、服務(wù)模式構(gòu)建與QOS 保障、精準(zhǔn)營銷、客戶分析與 CRM 管理、服務(wù)市場風(fēng)險(xiǎn)監(jiān)測和業(yè)務(wù)流程管理等方面。同時(shí),可視化分析系統(tǒng)應(yīng)具備的功能有多類型圖表多層面展示、移動(dòng)實(shí)時(shí)分析、多平臺(tái)數(shù)據(jù)源支持、全景分析、可視化圖表顯示效果定制、和跨多數(shù)據(jù)源圖表分析、使用權(quán)限管理、安全可靠性管理等。
6.創(chuàng)建數(shù)據(jù)安全監(jiān)管體制
大數(shù)據(jù)關(guān)鍵技術(shù)的快速發(fā)展為圖書館的存儲(chǔ)和分析大數(shù)據(jù)奠定了基礎(chǔ)。而現(xiàn)在圖書館的重要資產(chǎn)就是大數(shù)據(jù)??墒牵坏┐罅繑?shù)據(jù)和數(shù)據(jù)分析結(jié)論走漏,跟以前相比,它給給別讀者甚至整個(gè)圖書館帶來巨大的經(jīng)濟(jì)損失,也會(huì)造成圖書館聲譽(yù)受損或者承擔(dān)相關(guān)的法律責(zé)任。大數(shù)據(jù)安全保障不僅是技術(shù)問題,更是管理問題。因此,在大數(shù)據(jù)時(shí)代,圖書館不僅是從技術(shù)上實(shí)現(xiàn)安全儲(chǔ)存、云安全、網(wǎng)絡(luò)安全等方法來抵抗外來的信息帶來的威脅,還需要對(duì)數(shù)據(jù)安全監(jiān)管、數(shù)據(jù)資源共享機(jī)制、數(shù)據(jù)隱私保護(hù)、敏感數(shù)據(jù)審計(jì)等方面加強(qiáng)制度建設(shè),防止圖書館核心數(shù)據(jù)、隱私數(shù)據(jù)和敏感數(shù)據(jù)的泄露要從管理上進(jìn)行, 力圖建設(shè)貫穿于數(shù)據(jù)生命周期的數(shù)據(jù)監(jiān)管機(jī)制。從技術(shù)層面來講,如何采用先進(jìn)的信息技術(shù)進(jìn)行數(shù)據(jù)監(jiān)管工作,比如,利用已有的隱私處理、數(shù)據(jù)預(yù)處理等技術(shù)保障數(shù)據(jù)在使用和傳輸中能夠拒絕服務(wù)攻擊、數(shù)據(jù)傳輸機(jī)密性及 DNS 安全等。在管理層面,首先要提高圖書館內(nèi)工作人員的信息安全意識(shí),各業(yè)務(wù)部門內(nèi)部管理加強(qiáng),重要數(shù)據(jù)庫的范圍明確,創(chuàng)建科學(xué)有效的數(shù)據(jù)監(jiān)管手段與方式,定制安全使用終端設(shè)備尤其是移動(dòng)終端的規(guī)程,定制和完善對(duì)重要數(shù)據(jù)、敏感數(shù)據(jù)、隱私數(shù)據(jù)操作安全和管理章程,并規(guī)范大數(shù)據(jù)的使用方法和流程。
圖書館資源建設(shè)在大數(shù)據(jù)環(huán)境下尚處于探索階段,國內(nèi)外尚無可借鑒和學(xué)習(xí)的最佳實(shí)踐。在當(dāng)前的形勢下,圖書館服務(wù)工作就是要做好信息資源建設(shè)的基礎(chǔ)工作,為大數(shù)據(jù)的到來鋪平道路。
參考文獻(xiàn)
[1]馬曉亭.數(shù)字圖書館大數(shù)據(jù)分布式存儲(chǔ)架構(gòu)模式與策略研究[J].新世紀(jì)圖書館,2015(5).
[2]馬曉亭.圖書館大數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2015(10):37-41.
[3]鮑劼,李蘇豐.大數(shù)據(jù)環(huán)境下圖書館信息安全問題與對(duì)策分析[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2014(22):12-14.
[4]趙琨.大數(shù)據(jù)環(huán)境下圖書館音視頻資源發(fā)展及建設(shè)研究[J].圖書館建設(shè),2015(2).
[5]秦小華.大數(shù)據(jù)及其對(duì)高校圖書館的技術(shù)影響[J].圖書情報(bào)導(dǎo)刊,2015,25(9):98-100.
作者簡介
凌風(fēng)(1982.4.20—),女,漢族,福建德化,西南大學(xué)網(wǎng)絡(luò)教育學(xué)院法學(xué)專業(yè),福建德化縣圖書館,中級(jí)職稱,主要研究方向:圖書館理論與實(shí)踐。