摘 要:大數(shù)據(jù)背景下,檔案館的服務模式與應用將會發(fā)生改變。首先介紹大數(shù)據(jù)時代檔案館所面臨的時代背景;接著分析大數(shù)據(jù)背景下檔案服務的問題與挑戰(zhàn),最后提出相應的應對途徑與方法,以期為開展大數(shù)據(jù)檔案服務提供借鑒和參考。
關鍵詞:大數(shù)據(jù) 檔案服務;數(shù)據(jù)挖掘
1 大數(shù)據(jù)與檔案服務應用
大數(shù)據(jù)是一場革命,將改變我們的生活、工作和思維方式。大數(shù)據(jù)并無統(tǒng)一定義,一般認為由巨量的結構與非結構化數(shù)據(jù)組成。通常以“4V”特征或稱為維度對大數(shù)據(jù)進行描述性解釋:規(guī)模(Volume)指數(shù)據(jù)的數(shù)量規(guī)模巨大;類型(Variety)指數(shù)據(jù)類型多樣復雜,混合結構化與非結構化的多種類型;實時(Velocity)一方面是數(shù)據(jù)增長速度快,另一方面是要求在合理的時間內(nèi)訪問、處理數(shù)據(jù);價值(Value)反映了數(shù)據(jù)中隱含著價值轉化。大數(shù)據(jù)發(fā)展的最終目標是挖掘數(shù)據(jù)的應用價值,其重點在于數(shù)據(jù)的分析和服務應用,“大”不過是信息技術不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而已。
隨著數(shù)字檔案館的興起,檔案網(wǎng)絡服務得到應用與普及,數(shù)字化檔案、檔案數(shù)據(jù)庫的種類、數(shù)量不斷攀升,成為檔案資源數(shù)據(jù)的重要增長點,已經(jīng)達到海量數(shù)據(jù)規(guī)模。另外,檔案數(shù)據(jù)中存在大量的非結構化數(shù)據(jù),包括各類照片檔案、錄音檔案、錄像檔案、文書文檔、電子表格等,以數(shù)字形式作為文件或錄入數(shù)據(jù)庫存儲,符合當前大數(shù)據(jù)的“4V”基本特征。然而,這些檔案數(shù)據(jù)資源遠未得到有效與相應的服務利用程度。隨著大數(shù)據(jù)技術的發(fā)展與應用,必然需要檔案館進一步從大量的檔案信息中分析和挖掘數(shù)據(jù)的價值,要求檔案館在服務模式、資源利用方式等方面作出相應調(diào)整與改變。因此,探索大數(shù)據(jù)對檔案館服務應用產(chǎn)生的影響以及應用大數(shù)據(jù)思維方法拓展檔案服務是亟須思考和解決的問題。
2 大數(shù)據(jù)檔案服務應用的需求與挑戰(zhàn)
大數(shù)據(jù)背景下,檔案數(shù)據(jù)類型多樣、數(shù)量眾多,檔案數(shù)據(jù)存儲分析處理技術、環(huán)境與條件的變化導致了其服務應用面臨著新的需求與挑戰(zhàn),體現(xiàn)在以下幾個方面:
(一)檔案數(shù)據(jù)存儲與備份受到挑戰(zhàn) 檔案數(shù)據(jù)量已經(jīng)可達到相當級別的數(shù)據(jù)規(guī)模,并且數(shù)據(jù)量在不斷增長,這就對數(shù)據(jù)存儲系統(tǒng)的擴展能力要求不斷提高。檔案館的數(shù)據(jù)存儲已不止于結構化的二維信息,各類圖像、音頻、視頻、網(wǎng)頁等非結構化數(shù)據(jù)來源與數(shù)量也在不斷增加,會出現(xiàn)類似傳統(tǒng)檔案管理時的“脹庫”問題。同時,必須解決大規(guī)模檔案數(shù)據(jù)的安全備份問題,而且在實踐中通常會伴隨存儲管理復雜、存儲利用率低下、存儲能源消耗巨大等問題。這就必須應用合理可行的集群存儲方案,優(yōu)化存儲提高效率和節(jié)約成本,運用高效存儲技術,比如數(shù)據(jù)壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解這些難題。
(二)檔案數(shù)據(jù)加工分析能力亟待加強 檔案建設慣用“倉儲”方式,工作重心是征集接收保管檔案。近些年雖然也強調(diào)檔案的數(shù)字化工作,但加工與分析處理檔案資源的能力嚴重不足,大量的檔案資源的價值得不到有效體現(xiàn)利用。隨著信息化進程不斷推進,相對大眾網(wǎng)站與其他信息機構,擁有海量社會價值信息的檔案館地位作用正在被不斷弱化與邊緣化。大數(shù)據(jù)的目標在于數(shù)據(jù)價值的發(fā)現(xiàn),迫切需要利用數(shù)據(jù)挖掘、機器學習技術與工具從檔案數(shù)據(jù)中獲取有價值的檔案知識。通過數(shù)據(jù)的整合共享,交叉復用提升檔案館的智力資源和知識處理加工能力。
(三)檔案服務方式與內(nèi)容發(fā)生變化 傳統(tǒng)的信息服務模式和內(nèi)容雖然能夠滿足用戶的基本要求,但在大數(shù)據(jù)時代下關注個體的服務需求明顯。信息服務的方式和內(nèi)容以為用戶提供個性化、精準化知識服務為目的,強調(diào)用戶體驗與知識發(fā)現(xiàn)。用戶在面對海量的檔案資源時,如何準確快捷地檢索利用檔案,需要檔案館為用戶提供綜合一站式的服務體系,良好的用戶體驗,并且具備個性化服務、語義化服務、社交網(wǎng)絡以及數(shù)據(jù)可視化等服務應用能力。
(四)檔案數(shù)據(jù)隱私安全需求不斷增長 數(shù)據(jù)開放已成為檔案館發(fā)展的必然選擇,但檔案數(shù)據(jù)中存在各種敏感信息與隱私信息,比如健康檔案、醫(yī)療檔案,開發(fā)和利用會涉及到檔案信息的安全問題。如何協(xié)調(diào)處理數(shù)據(jù)隱私與數(shù)據(jù)開放之間的矛盾,在開發(fā)利用檔案的同時保護隱私敏感數(shù)據(jù)就顯得格外重要,必然要在傳統(tǒng)的用戶準入控制、權限驗證等安全技術的基礎上,利用安全多方計算、數(shù)據(jù)模糊、數(shù)據(jù)加密檢索等隱私保護技術提高數(shù)據(jù)的安全性與可控性。同時,通過制定完善檔案安全管理法規(guī)制度,明確檔案的使用權限,控制和應對未來的潛在風險,健全人防、物防、技防三位一體的檔案數(shù)據(jù)安全防范體系,以防止失泄密問題發(fā)生。
3 開展檔案大數(shù)據(jù)服務應用的途徑方法
(一)轉變觀念,拓展服務理念 大數(shù)據(jù)背景下,促進信息的開放、交流與共享是開展深度信息服務的大勢所趨。如果檔案館仍然故步自封、無所作為,不突破傳統(tǒng)服務理念與服務范圍的局限,那么檔案館會失去大數(shù)據(jù)發(fā)展機遇,作用地位會被不斷弱化。檔案館要拓展服務應用內(nèi)容與范圍,實行開放性服務,緊跟社會發(fā)展與用戶需求主動調(diào)整服務應用模式。利用互聯(lián)網(wǎng)與移動網(wǎng)絡拓展服務領域,延伸服務范圍至社會各領域的用戶與單位。這就對檔案館員提出了更多要求:(1)處理加工數(shù)據(jù)的能力,能夠利用數(shù)據(jù)挖掘技術工具分析數(shù)據(jù);(2)研判見解,能夠從數(shù)據(jù)中講道理、作解釋、說故事,能夠從數(shù)據(jù)的角度看待檔案,以大數(shù)據(jù)理念推動檔案館的服務應用。
(二)個性化服務應用體系 個性化服務依據(jù)各種渠道方法對資源進行收集、整理和分類,根據(jù)用戶需求、習慣和行為方式提供和推薦相關信息和個性化的應用環(huán)境,滿足用戶需求。從整體上說,個性化服務打破了傳統(tǒng)的被動服務模式,能夠充分利用各種資源優(yōu)勢,主動開展?jié)M足用戶個性化需求為目的的全方位服務。檔案館要面向社會用戶,以需求為著眼點,以技術為手段,發(fā)展基于檔案數(shù)據(jù)的知識化產(chǎn)品化服務。大數(shù)據(jù)時代,所有信息機構都想獲得并充分了解用戶需求。將海量的檔案數(shù)據(jù)進行知識化加工是深層次信息服務的重要模式,也是大數(shù)據(jù)檔案服務應用的必然選擇。目前,各大檔案館與網(wǎng)站能真正運用數(shù)據(jù)分析挖掘技術,為用戶提供知識服務的功能還比較薄弱??梢詮臋n案數(shù)據(jù)中抽取本體、知識單元,通過語義標注、知識庫構建等方法實現(xiàn)檔案資源知識鏈接形成知識網(wǎng)絡,為語義處理提供支撐,進而通過分類聚類等數(shù)據(jù)挖掘加工處理從不同角度滿足用戶對檔案知識的需求。同時,可借助微博、微信提供的API接口,獲得更廣泛的用戶數(shù)據(jù),通過對用戶需求與檔案數(shù)據(jù)深層處理分析,利用APP等多種方式搭建起檔案與用戶之間的服務橋梁。
(三)集成檔案數(shù)據(jù)資源 數(shù)據(jù)集成把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,采用統(tǒng)一標準管理數(shù)據(jù),從而應對大數(shù)據(jù)數(shù)量眾多、類型多樣、來源廣泛等問題給檔案數(shù)據(jù)管理服務所帶來的挑戰(zhàn)。目前,檔案館的一個重要問題就是檔案資源的分散化與碎片化。館內(nèi)資源存儲在互不連通的系統(tǒng)或數(shù)據(jù)庫中,產(chǎn)生大量的數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價值的,如何連接這些數(shù)據(jù),實現(xiàn)資源交互共享,是大數(shù)據(jù)價值最大化的關鍵。大數(shù)據(jù)時代,萬物互聯(lián),檔案館不能處于社會信息服務體系之外。檔案館的數(shù)據(jù)集成不單要在館內(nèi)實現(xiàn)集成,而且要整合集成不同檔案館間的數(shù)據(jù),與圖書館等其他信息機構之間的數(shù)據(jù)進行連接集成,從而將檔案資源納入大數(shù)據(jù)社會信息服務應用體系之中,提升檔案利用價值。
為了檔案館事業(yè)能夠在大數(shù)據(jù)時代穩(wěn)步前進,必須把握與應用大數(shù)據(jù)思維、方法與技術,探索與創(chuàng)新檔案服務應用的方法與模式,使檔案館信息服務水平不斷得到提高,滿足時代需求。
參考文獻
[1] 舍恩伯格.維克托 大數(shù)據(jù)時代:生活、工作與思維的大變革[M]. 浙江:人民出版社,2012.
[2] 王蘭成 劉曉亮. 網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識挖掘技術研究[J]. 北京檔案,2013(10):14-19
[3] 韓翠峰. 大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J]. 圖書與情報,2012(5):38-39
[4] 周楓. 大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J]. 檔案與建設 2013(8):6-9