文/國家海洋局東海信息中心(國家海洋局東海檔案館) 吳曉文 孫杰 楊帆
大數(shù)據(jù)背景下海洋檔案數(shù)據(jù)挖掘研究
文/國家海洋局東海信息中心(國家海洋局東海檔案館) 吳曉文 孫杰 楊帆
海洋檔案大數(shù)據(jù)挖掘技術應用于檔案知識管理是新時期我國海洋檔案事業(yè)發(fā)展的重要方向。本文闡述了海洋檔案數(shù)據(jù)挖掘的概念,分析其當前面臨的問題與挑戰(zhàn),剖析了海洋檔案大數(shù)據(jù)挖掘技術的表現(xiàn)形式,以滿足海洋檔案多元化信息服務需求,為探索檔案管理模式由傳統(tǒng)服務利用向智能化服務模式的創(chuàng)新和轉型提供有益借鑒。
大數(shù)據(jù)技術;海洋檔案;數(shù)據(jù)挖掘
伴隨著信息技術的飛速發(fā)展,各類電子設備的大量普及,信息化發(fā)展迎來了“大數(shù)據(jù)”時代。海洋檔案是“藍色記憶”的守護者、傳承者,是海洋事業(yè)發(fā)展的重要部分。大數(shù)據(jù)時代,每個人都是知識的生產(chǎn)者、傳播者、利用者,同時也是檔案的形成者、利用者。檔案不像圖書、文獻,所承載的數(shù)據(jù)呈分散形式存在,不會自動形成知識資源,如何將海量檔案數(shù)據(jù)轉變成信息或效用更大的知識網(wǎng)絡,這就需要海洋檔案工作者和科研工作者共同的勞動介入。國家海洋局東海檔案館為我國在三個海區(qū)設立的海洋檔案館之一,目前正在尋求與大數(shù)據(jù)開發(fā)公司合作,開發(fā)適合海洋檔案的大數(shù)據(jù)挖掘工具,增強從大數(shù)據(jù)中分析萃取信息的能力,進而提高檔案為海洋管理部門決策、業(yè)務部門科研水平的服務能力。
海洋檔案是各項海洋工作活動的記錄和憑證,包含國家機構、社會組織和個人在從事海洋管理、科研調(diào)查、資源開發(fā)、公益服務、對外合作與交流以及海洋部門黨政工作等活動中,直接形成的具有保存價值的原始記錄,對服務國家海洋事業(yè)發(fā)展具有不可替代的作用,是我國檔案界中寶貴的“藍色財富”。
大數(shù)據(jù)時代應建立“大檔案”概念,海洋檔案數(shù)據(jù)挖掘(Marine Archives Data Mining),就是從大量的檔案文獻、專業(yè)基礎數(shù)據(jù)、網(wǎng)絡收集資料、檔案編研資料等不完全的、有噪聲的、模糊的、隨機的海洋檔案數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解模式的非平凡過程。從廣義上說,數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中“挖掘”知識的過程,能夠有效地解決數(shù)據(jù)和知識之間的鴻溝,實現(xiàn)數(shù)據(jù)與知識的轉變、交換。
大數(shù)據(jù)時代給數(shù)據(jù)挖掘技術帶來的根本性改變是使數(shù)據(jù)的深度挖掘成為可能,對大量數(shù)據(jù)進行分析處理和智能化挖掘,從管理角度來看,要達到最優(yōu)的結果,不僅數(shù)據(jù)要全面、可靠、有價值,而且需要對數(shù)據(jù)進行深度挖掘。
數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素。海洋檔案數(shù)據(jù)來源廣泛,業(yè)務種類繁多,數(shù)據(jù)結構多樣。探索大數(shù)據(jù)挖掘技術應用于海洋檔案,面臨諸多挑戰(zhàn)。
(一)數(shù)據(jù)化與數(shù)字化的辨析與技術轉換。數(shù)據(jù)化是隨著大數(shù)據(jù)技術的發(fā)展逐漸被人們從數(shù)字化概念中分離并提煉出來的。數(shù)字化檔案在利用檢索上存在一定的局限性,需要用戶明確知道所查找內(nèi)容的出處,并且以數(shù)字圖像呈現(xiàn)的檔案只有依靠用戶閱讀轉變?yōu)橛杏玫男畔⒑椭R。數(shù)據(jù)化檔案則借助OCR光學字符識別軟件等數(shù)據(jù)識別技術來識別數(shù)據(jù),使檔案信息能夠被計算機處理和分析。我國海洋檔案數(shù)字化建設經(jīng)過多年的發(fā)展已經(jīng)取得豐碩的成果,各級海洋檔案館(室)已基本實現(xiàn)了檔案目錄信息的數(shù)字化甚至檔案信息全文數(shù)字化,例如東海數(shù)字檔案館經(jīng)過5年多的建設運行,已基本實現(xiàn)電子文件和檔案信息檢索利用。但大多數(shù)的海洋檔案館(室)在檔案數(shù)據(jù)化程度上仍停留在初步探索階段,如何對紙質(zhì)和數(shù)字圖像等非數(shù)據(jù)化的海洋檔案,通過數(shù)據(jù)識別技術轉變?yōu)閿?shù)據(jù)化的檔案是大數(shù)據(jù)技術應用于海洋檔案數(shù)據(jù)挖掘亟須解決的難點之一。
(二)海洋檔案中的電子文件在規(guī)范程度上參差不齊。數(shù)據(jù)的輸入形式不統(tǒng)一,涉及語言標準化、數(shù)據(jù)結構規(guī)范化問題對數(shù)據(jù)深度挖掘產(chǎn)生了阻礙。海洋檔案通常具有信息資源數(shù)據(jù)量大、專業(yè)交叉、融合難度大等特點,多數(shù)海洋政企部門現(xiàn)有的海洋檔案業(yè)務系統(tǒng)與綜合業(yè)務平臺、其他應用系統(tǒng)之間無法進行互聯(lián),形成了信息孤島。同時越來越多的專業(yè)信息系統(tǒng)、業(yè)務平臺和專業(yè)結構數(shù)據(jù)庫無法納入檔案管理范疇或無法提供檔案服務?!皵?shù)據(jù)海量、信息缺乏”是眾多政企部門在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事務型數(shù)據(jù)庫僅實現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價值。這些因素都會影響到大數(shù)據(jù)挖掘的深度和廣度。
(三)檔案數(shù)據(jù)化方面的行業(yè)技術規(guī)范仍處于初步探索階段。國家針對檔案數(shù)字化出臺了《電子文件歸檔與管理規(guī)范》《紙質(zhì)檔案數(shù)字化技術規(guī)范》和《數(shù)字檔案館建設指南》等標準規(guī)范,但由于海洋學科和業(yè)務范圍覆蓋廣泛、縱橫交叉,為檔案數(shù)據(jù)化標準規(guī)范的制定增加了相當?shù)碾y度。海洋檔案大數(shù)據(jù)挖掘技術的應用和實施也因此缺少良好的數(shù)據(jù)質(zhì)量基礎。
在建設海洋強國戰(zhàn)略目標的指引下,我國海洋事業(yè)空前發(fā)展,海洋工作的廣度、頻度和深度不斷拓展,利用海洋檔案的需求也隨之增強。集中統(tǒng)一管理海洋檔案、全面開發(fā)海洋檔案信息資源,已成為國家海洋行政管理和宏觀決策獲取依據(jù)的重要舉措。
傳統(tǒng)的數(shù)據(jù)壁壘、信息孤島對于新形勢下海洋檔案應用大數(shù)據(jù)挖掘技術形成難以突破的阻礙和限制。為此,國家海洋局東海檔案館依托我國東海區(qū)“六網(wǎng)合一”的大網(wǎng)絡格局,探索大數(shù)據(jù)背景下的“大檔案”發(fā)展方向,嘗試在海洋行業(yè)內(nèi)創(chuàng)新性探索建設區(qū)域性海洋大數(shù)據(jù)中心,當好海洋數(shù)據(jù)資料、文獻檔案和信息產(chǎn)品的集成者、加工者、研究者、服務者??梢姡Q髾n案要實現(xiàn)數(shù)據(jù)深度挖掘離不開海洋管理和業(yè)務的“大聯(lián)通”,離不開數(shù)據(jù)與信息的網(wǎng)絡互通,海洋業(yè)務及網(wǎng)絡的互聯(lián)互通對于打破海洋檔案和檔案信息資源之間存在的傳統(tǒng)數(shù)據(jù)壁壘具有非常大的格局優(yōu)勢。
數(shù)據(jù)挖掘技術的形式主要分兩種,分別為描述型與預測型。在海洋檔案數(shù)據(jù)挖掘中,該兩種表現(xiàn)形式均有重要作用:
(一)描述型數(shù)據(jù)挖掘技術。描述型數(shù)據(jù)挖掘技術指的是利用描述的行為將數(shù)據(jù)中存在的規(guī)則進行描述,從而根據(jù)數(shù)據(jù)的微觀性特點找出數(shù)據(jù)存在的深層次的、宏觀的知識,并將同一類事物的相同屬性表現(xiàn)在數(shù)據(jù)的概括總結以及抽象的事物描述中。傳統(tǒng)的海洋檔案服務比較狹隘和單一,一般情況是在需求明確(如明確知道某份文件)的前提下,檔案人員為其提供一對一的服務。通過數(shù)字化手段和數(shù)字檔案館的建設,傳統(tǒng)的海洋檔案服務開始著重于查全查準,但總的來看服務單一的現(xiàn)象依然未能得到根本改善。究其原因:一是嚴重依賴于檔案管理水平,比如著錄的準確度、詳細度。二是在跨類別、跨庫檢索上會有缺陷。通過描述型數(shù)據(jù)挖掘技術的應用,借助聚類和關聯(lián)手段,可以克服以上缺點,實現(xiàn)館藏信息的主動推送和檔案知識多元服務。
(二)預測型數(shù)據(jù)挖掘技術。預測型數(shù)據(jù)挖掘技術是指針對現(xiàn)有的、已存在的數(shù)據(jù)進行分析處理,總結出同一類事物的共同屬性,并預測在未來一段時間內(nèi)事物的規(guī)律。該種方法一方面可以應用在海洋專業(yè)數(shù)據(jù)檔案的挖掘分析,針對海洋專業(yè)數(shù)據(jù),如風、浪、潮、流,通過專用的模型對歷史資料進行分析,并發(fā)布各種預報類產(chǎn)品。在實際工作中,這種方法已經(jīng)得到了大量的應用,如海洋預報中心發(fā)布的海浪預報、臺風路徑分析等。另一方面,通過檔案資源的深入挖掘,整合真正意義上的海洋大數(shù)據(jù)庫,對海洋事務性檔案進行預測性挖掘,通過海洋檔案大數(shù)據(jù)庫建立,使用模型工具進行挖掘,如根據(jù)海域使用論證檔案、海域管理相關的文書檔案、海監(jiān)行政執(zhí)法檔案以及調(diào)查檔案中的檔案信息進行海域使用論證行為、海域審批行為、海域違法行為及處罰行為的大數(shù)據(jù)分析,可以為海洋行政管理提供決策支持。
[1]國家海洋局.海洋檔案管理規(guī)定[Z].1999.
[2]張文元,張倩.大數(shù)據(jù)技術與檔案數(shù)據(jù)挖掘[J].檔案管理,2016(2):33-35.
[3]孔樂佳,盧宏偉.大數(shù)據(jù)思維下的檔案資源數(shù)據(jù)挖掘[J].蘭臺世界,2016(17):28-29.
[4]於立勇.計算機數(shù)據(jù)挖掘技術應用在檔案信息管理系統(tǒng)中的探討[J].電腦知識與技術,2012(01):33-34.
[5]彭皖民.基于用戶檔案管理的數(shù)據(jù)挖掘分析[J].河南科技,2008(04):89-90.
[6]欒立娟,盧健,劉佳.數(shù)據(jù)挖掘技術在檔案管理系統(tǒng)中的應用[J].計算機光盤軟件與應用,2015(01):35-36.
本文為2016年國家海洋局東海分局青年科技基金“大數(shù)據(jù)技術與海洋檔案數(shù)據(jù)挖掘應用研究”(項目編號:201615)的研究成果】