黑龍江中醫(yī)藥大學圖書館 孫婷婷
?
大數(shù)據(jù)時代數(shù)字圖書館的發(fā)展路徑研究①
黑龍江中醫(yī)藥大學圖書館孫婷婷
隨著信息技術和互聯(lián)網(wǎng)科技的快速發(fā)展,我們已經(jīng)進入了大數(shù)據(jù)時代。在日常生活中,很多企業(yè)和單位甚至個體經(jīng)營者對大數(shù)據(jù)的利用隨處可見。大數(shù)據(jù)時代的來臨加快了社會生產(chǎn)生活的節(jié)奏,對圖書館的生存和發(fā)展也提出了很大的挑戰(zhàn)。為迎合用戶對信息資源要求越來越高的現(xiàn)狀,圖書館在信息處理和相關服務上都做出了相應的改變,以充分利用結構化數(shù)據(jù)和非結構化數(shù)據(jù),從而對用戶進行集中分析和挖掘。不過,大數(shù)據(jù)時代在給圖書館帶來新的發(fā)展方向和模式的同時,圖書館也面臨著熱點數(shù)據(jù)分析、數(shù)據(jù)挖掘、用戶隱私保護和信息安全等方面的多重挑戰(zhàn)和機遇,本文主要就大數(shù)據(jù)時代數(shù)字圖書館發(fā)展路徑中的相關問題展開討論。
大數(shù)據(jù)時代 數(shù)字圖書館 數(shù)據(jù)分析和挖掘
“大數(shù)據(jù)研發(fā)計劃”是由美國總統(tǒng)奧巴馬在2012年提出的,這也是美國在發(fā)布“信息高速公路”后的又一重大科技發(fā)展戰(zhàn)略。美國發(fā)布“大數(shù)據(jù)研發(fā)計劃”的目的就在于提高人們對海量數(shù)據(jù)、結構化數(shù)據(jù)和非結構化數(shù)據(jù)的利用水平,并以此獲得更多的知識,以便能夠更好地推動美國科學技術相關方面的發(fā)明創(chuàng)造能力的提升,為其國家安全和整體發(fā)展戰(zhàn)略保駕護航。自美國發(fā)布“大數(shù)據(jù)研發(fā)計劃”后,世界其他國家及大型商業(yè)公司也開始逐漸重視大數(shù)據(jù)的開發(fā)和利用,同時,圖書館在大數(shù)據(jù)時代對數(shù)據(jù)的處理、資料的存儲以及如何從大數(shù)據(jù)中最大限度地挖掘出更多有價值的信息,并在如何提高信息服務等問題上使圖書館遭遇了前所未有的挑戰(zhàn)。筆者結合實際工作中的經(jīng)驗和問題,對圖書館在大數(shù)據(jù)挖掘、海量數(shù)據(jù)分析、信息安全以及用戶隱私保護等方面所帶來的相關挑戰(zhàn)和發(fā)展機遇展開一系列的討論。
大數(shù)據(jù)也稱之為巨量資料,通常被人們理解為數(shù)據(jù)量巨大,且數(shù)據(jù)多以非結構化的形式呈現(xiàn)。從不同行業(yè)的角度看待大數(shù)據(jù)的概念也有所區(qū)別,比如產(chǎn)業(yè)方面則會把數(shù)據(jù)與數(shù)據(jù)采集工具和平臺以及數(shù)據(jù)分析系統(tǒng)統(tǒng)稱為大數(shù)據(jù)。而從商業(yè)角度,比如Gartner公司則把大數(shù)據(jù)定義為大容量、多樣化的信息資產(chǎn),運用新的處理方式來提高企業(yè)的決策能力和洞察力,以更好地促進企業(yè)流程的優(yōu)化和改善。
大數(shù)據(jù)也具有自身的特點,那就是規(guī)?;?、多樣化、快速化和價值化,不僅要求的存儲能力強,還要有很好的計算能力。同時由于數(shù)據(jù)獲取的方式和路徑比較多元,數(shù)據(jù)的增長量也隨之加快,這些就對傳統(tǒng)領域已有技術在數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)安全方面提出了更高的要求和挑戰(zhàn)。大數(shù)據(jù)時代下的數(shù)據(jù)主要表現(xiàn)為兩個特點:一是多樣化,數(shù)據(jù)多數(shù)都是結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)相結合的總稱,而當前采集到的數(shù)據(jù)多以半結構化和非結構化數(shù)據(jù)為主,其表現(xiàn)方式也較為多樣,它既可以以數(shù)據(jù)庫、數(shù)據(jù)文本的形式呈現(xiàn),也可以以數(shù)據(jù)表格音視頻的形式呈現(xiàn);二是數(shù)據(jù)產(chǎn)生路徑廣泛,數(shù)據(jù)規(guī)模極為龐大,通常使用中都是以pb級來衡量和計算,比當前互聯(lián)網(wǎng)上的信息量要大很多,而大數(shù)據(jù)的最終目的不是簡單地停留在存儲層面,而是對數(shù)據(jù)的采集、獲取和分析利用。
隨著大數(shù)據(jù)應用的不斷深入,科技文獻信息中的大數(shù)據(jù)特征也越來越明顯,比如日常工作中文獻數(shù)量不僅龐大,而且更新周期也比以往有了很大幅度的縮短,文獻內(nèi)容更是形式多樣,內(nèi)容復雜交叉,大數(shù)據(jù)已經(jīng)不再是僅僅局限于醫(yī)學、地理及多媒體中,而是深入到各行各業(yè),這對圖書館也帶來了很大的沖擊。因此,對于研究和分析大數(shù)據(jù)對數(shù)字圖書館的建設和發(fā)展有著深遠的意義。
2.1數(shù)字圖書館的發(fā)展離不開大數(shù)據(jù)的利用
數(shù)字圖書館內(nèi)的結構化資源結構比較完整,內(nèi)容也很豐富,比如電子圖書、電子期刊和數(shù)據(jù)庫,以及音視頻和網(wǎng)絡資源等海量數(shù)字資源,但是,作為非結構化數(shù)據(jù)的音視頻在可視化方面做得還是比較欠缺的。隨著大數(shù)據(jù)在日常生產(chǎn)生活中的應用不斷深入,人們對圖書館的服務也提出了更迫切、更明確的需求,為了能夠更好地適應社會各方面對數(shù)字圖書館的發(fā)展要求,不斷滿足用戶的體驗需求,而能夠獲取、分析利用這些復雜數(shù)據(jù)綜合運用能力也將是大數(shù)據(jù)時代數(shù)字圖書館的發(fā)展趨勢。
2.2數(shù)字圖書館必須適應科學技術的發(fā)展
大數(shù)據(jù)越來越多地成為新的學科領域建立的依據(jù)和基礎,特別是在基因組學、系統(tǒng)生物學這類對數(shù)據(jù)依賴性很強的學科。由于大數(shù)據(jù)時代數(shù)據(jù)是零散的,彼此無關的模塊化碎狀信息,這些數(shù)據(jù)量龐大且多樣的數(shù)據(jù)大多數(shù)都是停留在原始數(shù)據(jù)狀態(tài),并未形成有效的、利用價值的信息。大數(shù)據(jù)對科學技術提出了更高的要求,如何改進核心技術以提高對大型數(shù)據(jù)的獲取和重要信息的分析及管理,更好地促進科技成果的加速完成。數(shù)字圖書館只有適應科學技術和研究技術發(fā)展的變化和需求,才能更好地將大數(shù)據(jù)技術中囊括的可視化分析技術、數(shù)據(jù)挖掘技術、數(shù)據(jù)分析能力及數(shù)據(jù)管理和數(shù)據(jù)安全相關技術進行有效整合和利用,才能更好地促進數(shù)字圖書館的長久穩(wěn)定發(fā)展。
2.3客戶對圖書館信息服務的要求越來越高
大數(shù)據(jù)時代,用戶對圖書館的信息服務要求也越來越高,對服務價值的期望值也隨之提高。這就要求圖書館工作人員不但要了解用戶的真實需求,還要能夠系統(tǒng)全面地了解大數(shù)據(jù)以及特點,并建立科學高效的數(shù)據(jù)處理流程和技術,為用戶展開精準分析和推廣,這樣才能更好地滿足用戶不斷提高的服務要求。另外,圖書館相關工作人員也要具備更全面、綜合的業(yè)務能力和素質(zhì),能夠通過對結構化及非結構化數(shù)據(jù)的分析對用戶展開服務需求分析,并能預測一段時間內(nèi)的用戶需求發(fā)展情況,以此才能更有效地幫助圖書館應對未知的風險和挑戰(zhàn)。
2.4信息安全問題更加突出
大數(shù)據(jù)時代,面對人們對數(shù)據(jù)信息服務要求的提高,以及全球數(shù)據(jù)獲取能力的不斷提高,大量碎片化數(shù)據(jù)經(jīng)過分析和深度挖掘可能蘊含有價值的信息,而公眾也慢慢地對數(shù)據(jù)安全的意識越來越強烈,同時要求信息透明,數(shù)據(jù)公開的呼聲也越來越高,這就導致數(shù)據(jù)公開和數(shù)據(jù)安全之間存在著很大矛盾。技術發(fā)展對數(shù)據(jù)安全的利用成本也隨之降低,這就可能導致公民信息及隱私被惡意侵犯,這不僅是數(shù)字圖書館面臨的挑戰(zhàn),也是世界各國在面臨大數(shù)據(jù)時代的共同挑戰(zhàn)。
3.1立足于大數(shù)據(jù)建立數(shù)字圖書館
建立新型數(shù)字圖書館,充分融合數(shù)據(jù)和文獻資料,形成完整的信息平臺操作體系,讓科學研究的實施和開展能夠在數(shù)字圖書館的電子環(huán)境中完成,并保證數(shù)據(jù)及資源的共享,讓有利用價值和推廣價值的數(shù)據(jù)得到更好地傳播。
3.2培養(yǎng)全面、綜合的數(shù)據(jù)管理人才
大數(shù)據(jù)時代下,數(shù)據(jù)管理人才在一定時期內(nèi)必定會是密集型科研環(huán)境下最緊缺的人才類型之一,伴隨著科學技術的發(fā)展,未來國家核心競爭力的體現(xiàn)將一定程度上取決于數(shù)據(jù)的處理和分析能力,以及將數(shù)據(jù)轉(zhuǎn)化為有效信息和知識的能力和效率上,這樣的技術和任務必須要由專業(yè)的技能人才才能完成。
3.3數(shù)字圖書館發(fā)展的關鍵是提高數(shù)據(jù)處理能力
將文獻資源和參考書籍進行數(shù)字化編輯和語義化處理將是圖書館未來工作的主要方向,同時,根據(jù)數(shù)據(jù)時代的發(fā)展,圖書館也要順應對象和目的的改變,利用數(shù)據(jù)分析判斷讀者的借閱愛好和分類,并做出個性化服務方案和相關推廣策略。由于受大數(shù)據(jù)的影響,圖書館的主要業(yè)務方向也發(fā)生轉(zhuǎn)變,開始向數(shù)據(jù)挖掘和數(shù)據(jù)分析轉(zhuǎn)移,圖書館數(shù)據(jù)的共享和方式創(chuàng)新以及增加的相應時間并不是真正解決館藏資源擴展、服務提升的有效途徑,而是要結合數(shù)據(jù)分析并發(fā)現(xiàn)規(guī)律,發(fā)現(xiàn)和挖掘潛在價值,只有對數(shù)據(jù)的充分利用才能保證圖書館綜合水平的整體提升。
隨著大數(shù)據(jù)時代的來臨,圖書館也面臨著各種各樣的機遇和挑戰(zhàn),建立數(shù)字圖書館的前提必須是擁有全面數(shù)據(jù)處理能力的綜合性人才以及完善的數(shù)據(jù)管理操作流程,在充分保證用戶信息安全的前提下,通過數(shù)據(jù)分析和挖掘得到有價值的針對性信息,并以此為用戶展開合理的個性化服務,并在提升服務質(zhì)量上不斷努力,這樣才能更好地促進數(shù)字圖書館在大數(shù)據(jù)時代能夠穩(wěn)定發(fā)展。
[1] 李翠萍,常娥.大數(shù)據(jù)時代數(shù)字圖書館發(fā)展淺析[J].江蘇技術師范學院學報,2013(10).
[2] 蘇新寧.大數(shù)據(jù)時代數(shù)字圖書館面臨的機遇和挑戰(zhàn)[J].中國圖書館學報,2015(10).
[3] 陳傳夫,錢鷗,代鈺珠.大數(shù)據(jù)時代的數(shù)字圖書館建設研究[J].圖書情報工作,2014(04).
F724.6
A
2096-0298(2016)07(c)-003-02
①項目名稱:基于科技查新項目分析的黑龍江省醫(yī)學領域科技發(fā)展對策研究(1254b022)。
孫婷婷(1982-),女,黑龍江人,大學本科,中級職位,采編部副主任,主要從事圖書館學方面的研究。