張?zhí)?/p>
摘要 大數(shù)據(jù)時(shí)代的到來,為圖書館帶來了新的機(jī)遇,圖書館可對(duì)大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用。基于此點(diǎn),文章首先對(duì)大數(shù)據(jù)的基本特征進(jìn)行簡要分析,在此基礎(chǔ)上對(duì)大數(shù)據(jù)時(shí)代圖書館技術(shù)應(yīng)用進(jìn)行論述。期望通過本文的研究能夠?qū)Υ龠M(jìn)圖書館的持續(xù)發(fā)展有所幫助。
【關(guān)鍵詞】大數(shù)據(jù) 圖書館 技術(shù)應(yīng)用
1 大數(shù)據(jù)的基本特征分析
大數(shù)據(jù)的基本特征可以歸納為以下幾個(gè)方面:
1.1 體量大
以普通的計(jì)算機(jī)為例,其硬盤的容量通常都是TB量級(jí),有些較為特殊的企業(yè),因?qū)?shù)據(jù)的需求較大,數(shù)據(jù)量現(xiàn)己達(dá)到EB量級(jí),1EB=210PB, 1PB=210TB。
1.2 類型復(fù)雜
大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化數(shù)據(jù),并且隨著不斷發(fā)展,這種類型的數(shù)據(jù)日益增多,如音視頻、圖片圖像等等,由于數(shù)據(jù)類型較為復(fù)雜,故此必須確保數(shù)據(jù)處理能力。
1.3 超快的處理速度
在社會(huì)持續(xù)發(fā)展的過程中,各種數(shù)據(jù)信息的產(chǎn)生量非常之大,對(duì)它們的分析處理必須講求時(shí)效,大數(shù)據(jù)在處理速度上有著其它數(shù)據(jù)技術(shù)無法比擬的優(yōu)越性。
1.4 價(jià)值高
大數(shù)據(jù)中所有數(shù)據(jù)的存在都有其價(jià)值,有的數(shù)據(jù)雖然對(duì)一些項(xiàng)目沒有意義,但卻可能對(duì)其它的項(xiàng)目有巨大意義,也就是說大數(shù)據(jù)的價(jià)值不能從單個(gè)角度上看,而是要站在全局的立場。
正是因?yàn)榇髷?shù)據(jù)所具備的這些特征,從而使其在多個(gè)領(lǐng)域中得到越來越廣泛的應(yīng)用。下面本文重點(diǎn)對(duì)大數(shù)據(jù)時(shí)代大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用進(jìn)行研究。
2 大數(shù)據(jù)時(shí)代圖書館技術(shù)應(yīng)用
大數(shù)據(jù)時(shí)代的到來給我國圖書館的發(fā)展帶來了全新的機(jī)遇,在這一背景下,圖書館紛紛加大信息化和數(shù)字化的建設(shè)力度,也都取得了一定的成績,與此同時(shí),圖書館中的各類數(shù)字資源不斷增多,為給資源使用者提供更多的便利,需要對(duì)這些數(shù)字資源進(jìn)行整合,在整合的過程中,可對(duì)大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用,具體如下:
2.1 大數(shù)據(jù)的獲取途徑
圖書館在應(yīng)用大數(shù)據(jù)技術(shù)對(duì)數(shù)字資源進(jìn)行整合的過程中,需要完成相關(guān)數(shù)據(jù)的采集,由于數(shù)據(jù)的類型比較多,并且結(jié)構(gòu)形式也比較復(fù)雜,加之并非全部數(shù)據(jù)都有價(jià)值。所以,應(yīng)對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理,這個(gè)環(huán)節(jié)可以借助ETL工具來完成,由此能夠大幅度提升圖書館大數(shù)據(jù)獲取的準(zhǔn)確性,具體預(yù)處理流程如圖1所示。
在圖1的處理流程中,數(shù)據(jù)抽取是從數(shù)據(jù)源中捕捉變化的數(shù)據(jù);數(shù)據(jù)清洗是對(duì)數(shù)據(jù)的結(jié)構(gòu)和規(guī)則進(jìn)行增補(bǔ);數(shù)據(jù)轉(zhuǎn)換則可使數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù),最后通過加載將這些數(shù)據(jù)存在到平臺(tái)當(dāng)中。
2.2 大數(shù)據(jù)的存儲(chǔ)方式
圖書館在對(duì)館藏?cái)?shù)字資源進(jìn)行整合時(shí),可以借助Hadoop平臺(tái)來完成對(duì)大數(shù)據(jù)的存儲(chǔ)。這個(gè)平臺(tái)最為突出的特點(diǎn)是能夠使數(shù)據(jù)的存儲(chǔ)成本大幅度降低,平臺(tái)的時(shí)延較低、并發(fā)高,查詢能力非常強(qiáng)大。圖書館中所有的數(shù)據(jù)在存儲(chǔ)過程中,可實(shí)現(xiàn)分級(jí)存儲(chǔ),由此可形成多級(jí)數(shù)據(jù)庫,并且數(shù)據(jù)庫之間不需要進(jìn)行關(guān)聯(lián)操作,通過對(duì)數(shù)據(jù)匯總和分布式計(jì)算,可向主數(shù)據(jù)倉庫輸出相關(guān)數(shù)據(jù),大幅度減輕數(shù)據(jù)庫的存儲(chǔ)壓力,數(shù)據(jù)冗余也隨之減少,數(shù)據(jù)質(zhì)量得到進(jìn)一步提升。
2.3 大數(shù)據(jù)的處理
對(duì)于圖書館而言,其服務(wù)的宗旨是滿足使用者對(duì)館藏資源的需求,為達(dá)到這一目標(biāo),在對(duì)大數(shù)據(jù)進(jìn)行處理時(shí),需要以用戶的特定需求作為前提,在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。由于圖書館對(duì)大數(shù)據(jù)處理的實(shí)時(shí)性有著較高的要求,從而增大了數(shù)據(jù)處理過程的復(fù)雜性,并且處理難度也隨之增大。對(duì)此可應(yīng)用MapReduce編程模型,該模型能夠?qū)w量超過1TB的數(shù)據(jù)進(jìn)行并行運(yùn)算,實(shí)現(xiàn)資源的全局最優(yōu)化,在這一前提下,使數(shù)據(jù)處理速度得到顯著提升。在該模型中,Map即分解,其能夠?qū)τ?jì)算任務(wù)進(jìn)行拆分,Reduce即合并,其可以對(duì)Map的輸出結(jié)果進(jìn)行匯總。
2.4 大數(shù)據(jù)的應(yīng)用
圖書館對(duì)大數(shù)據(jù)的應(yīng)用主要體現(xiàn)在相關(guān)業(yè)務(wù)的開展和服務(wù)創(chuàng)新這兩個(gè)方面,有助于業(yè)務(wù)流程的優(yōu)化改進(jìn)及服務(wù)內(nèi)容的拓展。在大數(shù)據(jù)時(shí)代下,圖書館可對(duì)各種關(guān)聯(lián)數(shù)據(jù)進(jìn)行融合,為用戶提供預(yù)測服務(wù)。對(duì)資源進(jìn)行采購的過程中,通過對(duì)關(guān)聯(lián)分析,能夠了解使用者對(duì)資源的需求,據(jù)此確定資源的采購重點(diǎn)。現(xiàn)階段,很多圖書館都推出個(gè)性化定制服務(wù),借助數(shù)據(jù)融合平臺(tái),可對(duì)用戶行為進(jìn)行挖掘和分析,以此來達(dá)到預(yù)測每個(gè)用戶行為的目的,按照預(yù)測結(jié)果,為不同的用戶提供符合其個(gè)性化要求的定制服務(wù)。圖書館利用可視化技術(shù),可為用戶提供可視化服務(wù),具體是指將數(shù)據(jù)分析結(jié)果直接展示給用戶,這里的數(shù)據(jù)包括各個(gè)學(xué)科領(lǐng)域的研究成果、研究進(jìn)展等等,對(duì)于一些有特殊需求的用戶,圖書館可為其提供可視化方案咨詢。除此之外,圖書館對(duì)數(shù)字資源的融合,可以為用戶提供一站式的服務(wù),如數(shù)據(jù)開發(fā)、數(shù)據(jù)挖掘與分析等等。
3 結(jié)論
綜上所述,大數(shù)據(jù)時(shí)代下,圖書館應(yīng)當(dāng)加快信息化和數(shù)字化的建設(shè)速度,在這一過程中,可對(duì)大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用,對(duì)圖書館中的數(shù)字資源進(jìn)行有效整合,從而進(jìn)一步提升圖書館的服務(wù)水平,滿足廣大使用者對(duì)館藏資源的使用需求。在未來一段時(shí)期,應(yīng)當(dāng)加大對(duì)相關(guān)技術(shù)的研究力度,從而使其能夠?yàn)閳D書館的持續(xù)、穩(wěn)定發(fā)展提供強(qiáng)有力的技術(shù)支撐。
參考文獻(xiàn)
[1]席亞軍,大數(shù)據(jù)時(shí)代下云技術(shù)在圖書館數(shù)據(jù)存儲(chǔ)中的應(yīng)用[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015,27 (11):5-8.
[2]張文彥,武瑞原,于潔,大數(shù)據(jù)時(shí)代的圖書館初探[J].圖書與情報(bào),2012 (06):15- 21.
[3]董瑞玉,肖健,初探大數(shù)據(jù)時(shí)代的圖書館服務(wù)發(fā)展[J],科技信息,2014 (07):131-131.
[4]杜朝祎,辦公室業(yè)務(wù),淺談大數(shù)據(jù)時(shí)代國內(nèi)移動(dòng)圖書館服務(wù)創(chuàng)新[J]. 2017 (10):181-181.
[5]張大勇.大數(shù)據(jù)時(shí)代的圖書館初探[J].科技視界,2015 (18):212-212.