摘 要:本文講述了企業(yè)數(shù)據(jù)管理包含的內(nèi)容,淺析企業(yè)數(shù)據(jù)管理的四方面需求,提出企業(yè)數(shù)據(jù)管理存在的問題及改進建議。
關鍵詞:結構化數(shù)據(jù);非結構化數(shù)據(jù);內(nèi)容管理
中圖分類號:TP311.13
隨著網(wǎng)絡技術的發(fā)展,企業(yè)信息呈爆炸式增長,數(shù)據(jù)資產(chǎn)成為企業(yè)最具價值的無形資產(chǎn)。數(shù)據(jù)管理分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)管理。結構化數(shù)據(jù)即行數(shù)據(jù)指存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù);非結構化數(shù)據(jù)相對于結構化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、圖片等。據(jù)Forrest Research的統(tǒng)計資料表明,企業(yè)20%左右的信息有效地存儲在各種類型的結構化數(shù)據(jù)庫中,但是還有80%非結構化信息分散在整個業(yè)務過程及外部環(huán)境中,非結構化數(shù)據(jù)已成為企業(yè)數(shù)據(jù)的主體。
1 企業(yè)內(nèi)容管理概念
企業(yè)內(nèi)容管理(Enterprise Content Management)是指對組織機構內(nèi)部多種格式和媒體類型的信息資源(通常稱為信息資產(chǎn))的組織、分類、管理等有序化過程,常常作為數(shù)字圖書館或企業(yè)知識管理的一個組成部分。企業(yè)內(nèi)容管理是隨著數(shù)據(jù)管理的發(fā)展而為客戶提供的一種應用軟件,它管理、集成和訪問從音頻、視頻到掃描圖像的各種格式的商業(yè)信息。內(nèi)容管理處理的對象范圍比傳統(tǒng)關系數(shù)據(jù)庫管理系統(tǒng)處理的結構化數(shù)據(jù)更廣,除了一般文字、文檔、多媒體、流媒體外,還包括Web網(wǎng)頁、廣告、程序(如JavaScript)、軟件等一切數(shù)字資產(chǎn),即所有結構化的數(shù)據(jù)和非結構化的文檔。內(nèi)容管理重點解決各種非結構化或半結構化的數(shù)字資源的采集、管理、利用、傳遞和增值,并集成到結構化數(shù)據(jù)的信息系統(tǒng)中,如ERP、CRM等,從而為這些應用系統(tǒng)提供更加廣泛的數(shù)據(jù)來源。
2 企業(yè)數(shù)據(jù)管理需求
對國內(nèi)大型企業(yè)非結構化數(shù)據(jù)應用現(xiàn)狀的調(diào)研結果,結合AIIM、Garnter等權威機構對內(nèi)容管理業(yè)務領域的研究,總結企業(yè)非結構化數(shù)據(jù)管理需求如下:
2.1 數(shù)據(jù)統(tǒng)一存儲需求
針對大型企業(yè)內(nèi)各業(yè)務應用系統(tǒng)基本采用分散存儲各自非結構化數(shù)據(jù)的應用現(xiàn)狀,需要通過建設非結構化數(shù)據(jù)管理平臺,建立企業(yè)內(nèi)部大數(shù)據(jù)量的非結構化數(shù)據(jù)存儲中心,同時需要通過制訂存儲優(yōu)化策略達到優(yōu)化存儲結構,達到將企業(yè)內(nèi)的非結構化數(shù)據(jù)進行集中存儲,簡化企業(yè)內(nèi)部的IT架構、減少數(shù)據(jù)安全控制點,提升企業(yè)核心業(yè)務系統(tǒng)總體性能。
2.2 數(shù)據(jù)集中管理需求
非結構化數(shù)據(jù)管理平臺不僅是企業(yè)內(nèi)非結構化數(shù)據(jù)的存儲中心,也是各項非結構化數(shù)據(jù)管理標準的制訂者與實踐者。通過制訂各種非結構化數(shù)據(jù)管理標準,解決目前在非結構化數(shù)據(jù)管理上所存在的主要問題,滿足企業(yè)內(nèi)非結構化數(shù)據(jù)集中管理的需求,如通過建立內(nèi)容元數(shù)據(jù)管理標準、數(shù)據(jù)全局訪問標準、數(shù)據(jù)歸集標準等。
2.3 全生命周期管理需求
全生命周期管理是指內(nèi)容的創(chuàng)建、申請、審核、生效、分發(fā)、退休到銷毀的全生命周期過程。它的基礎是統(tǒng)一的版本管理、統(tǒng)一的存儲管理和統(tǒng)一的權限控制。實現(xiàn)方式一種是根據(jù)內(nèi)容的狀態(tài)來控制全生命周期過程,另外一種是結合工作流。通過工作流和版本管理、存儲管理和權限管理的結合,實現(xiàn)更豐富多樣的全生命周期管理過程。
2.4 多類型應用系統(tǒng)接入需求
目前,在大型企業(yè)內(nèi)的業(yè)務系統(tǒng)存在業(yè)務邏輯多樣性、所采用的開發(fā)技術多樣性的特點,如基于SAP開發(fā)、基于J2EE開發(fā)等。因此平臺需要為不同類型的業(yè)務應用系統(tǒng)提供整體接入解決方案以及與之配套的相關接入規(guī)范等。
3 企業(yè)數(shù)據(jù)管理的問題及建議
由于非結構化數(shù)據(jù)格式多樣、存儲分散、總量大、增長速度快等特性,給企業(yè)數(shù)據(jù)管理造成許多困難,下面淺談企業(yè)數(shù)據(jù)管理存在的問題及建議:
3.1 數(shù)據(jù)共享協(xié)作困難
問題:各業(yè)務應用間數(shù)據(jù)交互過程不可管控,交換方式不統(tǒng)一,交互效率低,部分采取線下作業(yè),增加了人工作業(yè)的工作量。
建議:增強各業(yè)務應用間非結構化數(shù)據(jù)的交互集成,提升數(shù)據(jù)的橫向和縱向交互能力,減少線下的數(shù)據(jù)交互。
3.2 無全局訪問機制
問題:目前電子文檔搜索機制均由業(yè)務應用單獨進行,未形成面向全局的文檔訪問能力,導致電子文檔交互困難,無法提升用戶工作效率。
建議:通過對電子文檔的集中存儲,提供高效的全局訪問能力。
3.3 存儲方式多樣性,不利管理
問題:各業(yè)務應用數(shù)據(jù)存儲方式多樣性,不利于管理,項目建設中無形增加歷史數(shù)據(jù)遷移工作的難度。
建議:建立集中統(tǒng)一的海量內(nèi)容庫,對內(nèi)容進行壓縮存儲管理;建立自動化、智能化持續(xù)優(yōu)化存儲非結構化數(shù)據(jù)的技術架構。
3.4 數(shù)據(jù)分散孤立,不利數(shù)據(jù)挖掘
問題:沒有建立基于業(yè)務的數(shù)據(jù)共享機制,信息孤島現(xiàn)象嚴重,難以形成數(shù)據(jù)信息知識的價值鏈。
建議:統(tǒng)一存儲非結構化數(shù)據(jù),提升對非結構化數(shù)據(jù)的處理能力,特別是數(shù)據(jù)加工和挖掘的能力,從中獲取重要信息,實現(xiàn)由數(shù)據(jù)到信息再到知識的過程。
3.5 版本不一致
問題:不同數(shù)據(jù)源中的存在版本不一致、多個版本情況,在應用時難以獲取最準確的版本數(shù)據(jù)。
建議:統(tǒng)一數(shù)據(jù)來源和版本控制,利于不同業(yè)務應用的獲取。
3.6 存在安全隱患
問題:大部分業(yè)務應用對非結構化數(shù)據(jù)未加密存儲、未開展離線安全管理、對審計不夠全面、訪問授權獨立,未達到全體系訪問授權、數(shù)據(jù)備份還原能力高低不齊。
建議:加強對非結構化數(shù)據(jù)全方位的安全管控,如數(shù)據(jù)的傳輸加密、敏感信息管理等。
3.7 無全生命周期管理
問題:非結構化數(shù)據(jù)產(chǎn)生后根據(jù)業(yè)務需要傳遞,但傳遞過程中會有信息丟失/偏差,文檔的產(chǎn)生部門變更后沒有完整的更新到使用用戶手中,舊版本也沒有及時完整的回收。
建議:對非結構化數(shù)據(jù)的產(chǎn)生、變更、處理、刪除、銷毀進行全程管理,實現(xiàn)數(shù)據(jù)與所處的業(yè)務環(huán)境、應用環(huán)境無關。
4 結束語
本文對企業(yè)數(shù)據(jù)管理進行了講解,主要列舉了4個共性的企業(yè)數(shù)據(jù)管理需求,結合工作中系統(tǒng)建設遇到的數(shù)據(jù)管理問題,淺談了目前針對企業(yè)數(shù)據(jù)管理中非結構化數(shù)據(jù)管理存在的問題及建議。目前,雖然很多內(nèi)容管理軟件解決了企業(yè)許多信息管理問題,用來管理結構化數(shù)據(jù)的關系數(shù)據(jù)庫從理論到技術上已經(jīng)相當成熟,而非結構化數(shù)據(jù)的復雜程度遠遠高于結構化數(shù)據(jù),所以內(nèi)容管理技術還存在很多有待解決的難題。
參考文獻:
[1]曾春,張來峰,楊川.企業(yè)內(nèi)容管理技術與應用[M].北京:電子工業(yè)出版社,2009.
[2]龔永罡,王曉慶.企業(yè)內(nèi)容管理理論與實踐[M].北京:機械工業(yè)出版社,2012.
作者簡介:門海玲,女,陜西戶縣人,中級職稱,工程師,本科,從事企業(yè)數(shù)據(jù)管理及應用方面的研究、實施與運維,從事信息化應用系統(tǒng)的部署、實施、運行與維護,從事oracle數(shù)據(jù)庫、中間件等日常應用與運維工作。
作者單位:國網(wǎng)陜西省電力公司信息通信公司,西安 710048