聞高
隨著互聯(lián)網(wǎng)技術(shù)的日新月異,內(nèi)容數(shù)據(jù)逐漸在各行業(yè)的業(yè)務(wù)中占據(jù)更重要的地位。人們?cè)谌粘5臉I(yè)務(wù)過(guò)程中,需要處理的大量電子文檔、圖片、音頻視頻等,這些都屬于內(nèi)容數(shù)據(jù)范疇。例如,在某銀行無(wú)人營(yíng)業(yè)網(wǎng)點(diǎn)的遠(yuǎn)程業(yè)務(wù)辦理中,要求用戶上傳身份證、簽字頁(yè)等掃描件,來(lái)核實(shí)用戶身份,為其做后端支撐的影像管理平臺(tái),就屬于典型的內(nèi)容管理系統(tǒng)。該類平臺(tái)替代了業(yè)務(wù)處理中的紙質(zhì)化傳輸,實(shí)現(xiàn)了海量非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)的采集、加工、傳遞及服務(wù)的數(shù)據(jù)整合,大幅提升了生產(chǎn)效率。
內(nèi)容管理系統(tǒng),除了管理非結(jié)構(gòu)化的內(nèi)容數(shù)據(jù)(如圖片、語(yǔ)音、視頻等),還需要實(shí)現(xiàn)內(nèi)容文件元數(shù)據(jù)(如文件標(biāo)簽)的管理,才能為業(yè)務(wù)系統(tǒng)提供服務(wù),如批次上傳/下載、標(biāo)簽化、全文檢索、生命周期管理、文件加工轉(zhuǎn)存和斷點(diǎn)續(xù)傳等。
對(duì)內(nèi)容數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、管理和利用的整個(gè)過(guò)程,成為企業(yè)提高業(yè)務(wù)效率和盈利能力的有效方法。
相較于記錄生產(chǎn)、業(yè)務(wù)、交易和客戶信息等的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化的信息涵蓋了更為廣泛的內(nèi)容。數(shù)據(jù)具有數(shù)據(jù)存儲(chǔ)占比高、數(shù)據(jù)格式多樣、結(jié)構(gòu)不標(biāo)準(zhǔn)且復(fù)雜、信息量豐富、處理門檻高等特點(diǎn)。當(dāng)前行業(yè)公認(rèn):非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80 %以上。結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20 %,其余80 %都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包含各種辦公文檔、圖片、視頻、音頻、設(shè)計(jì)文檔、日志文件以及機(jī)器數(shù)據(jù)等。
下面對(duì)比一下結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別。
結(jié)構(gòu)化數(shù)據(jù),是指由可用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。
非結(jié)構(gòu)化數(shù)據(jù)指的是:數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等。
數(shù)據(jù)種類繁雜,形式多樣
由于日常經(jīng)營(yíng)管理和業(yè)務(wù)管理的需要,企業(yè)建立了功能各異的應(yīng)用系統(tǒng)或信息化管理平臺(tái),而這些管理系統(tǒng)和平臺(tái)中生成了形式多樣的非結(jié)構(gòu)化文檔數(shù)據(jù),用以支撐企業(yè)的各類管理工作。
除此之外,還有大量與管理相關(guān)的非結(jié)構(gòu)化文檔數(shù)據(jù)散存在員工的個(gè)人電腦中。這些數(shù)據(jù)種類繁雜,有的來(lái)源于外部,有的是經(jīng)過(guò)內(nèi)部整理編輯形成,有的則是完全產(chǎn)生于內(nèi)部,這些涵蓋了不同格式、不同存儲(chǔ)載體、不同管理階段的非結(jié)構(gòu)化文檔數(shù)據(jù)。
通常企業(yè)擁有形式多樣的存儲(chǔ)設(shè)備,包括個(gè)人工作電腦以及信息化管理平臺(tái)中的設(shè)備,且歸屬于不同的專業(yè)領(lǐng)域,業(yè)務(wù)活動(dòng)中產(chǎn)生的數(shù)據(jù)除了常見(jiàn)的與辦公活動(dòng)相關(guān)的數(shù)據(jù)外,還包括了如照片、視頻、設(shè)計(jì)圖紙等多種形式。這些不同種類的非結(jié)構(gòu)化文檔數(shù)據(jù)基本處于分散狀態(tài),很難進(jìn)行有效的關(guān)聯(lián)和整合。
信息孤島造成數(shù)據(jù)割裂現(xiàn)象嚴(yán)重
由于信息系統(tǒng)建設(shè)具有階段性特征,已有的信息系統(tǒng)建設(shè)之初僅以單個(gè)的業(yè)務(wù)需求為目標(biāo),彼此孤立,存在比較嚴(yán)重的孤島現(xiàn)象。系統(tǒng)之間缺少橫向的數(shù)據(jù)接口,且數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,即便是歸檔后進(jìn)入檔案系統(tǒng)之中的文檔數(shù)據(jù)也難以實(shí)現(xiàn)有效的管理與集成。
例如,企業(yè)業(yè)務(wù)活動(dòng)中存在很多簡(jiǎn)稱、全稱以及英文名稱同時(shí)使用的情況,很多數(shù)據(jù)標(biāo)簽對(duì)應(yīng)同一個(gè)事物、同一個(gè)意思卻使用不同的標(biāo)簽值。隨著企業(yè)對(duì)數(shù)據(jù)資產(chǎn)價(jià)值需求的日益提升,這種現(xiàn)象的弊端亦凸顯出來(lái),打通企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)的“任督二脈”,實(shí)現(xiàn)其資產(chǎn)價(jià)值勢(shì)在必行。
存在過(guò)多的“賬外”非結(jié)構(gòu)化文檔數(shù)據(jù),缺少統(tǒng)一管控
由于企業(yè)的歸檔制度不夠完善,集團(tuán)制訂的歸檔范圍未將一些應(yīng)歸檔但無(wú)法通過(guò)系統(tǒng)流轉(zhuǎn)的文檔納入其中,部門相當(dāng)一部分非結(jié)構(gòu)化文檔數(shù)據(jù)仍保存在個(gè)人電腦之中,沒(méi)有統(tǒng)一的管理和控制,難以進(jìn)行檢索和共享利用,導(dǎo)致企業(yè)文檔數(shù)據(jù)資產(chǎn)存在著流失的風(fēng)險(xiǎn)。
非結(jié)構(gòu)化文檔數(shù)據(jù)管理功能不全
不支持統(tǒng)一版本的非結(jié)構(gòu)化文檔數(shù)據(jù)管理,使用口徑不統(tǒng)一,相同文件分散在不同的業(yè)務(wù)系統(tǒng)中,無(wú)版本控制導(dǎo)致無(wú)法確定系統(tǒng)中版本是否為最新。再如,業(yè)務(wù)系統(tǒng)缺少歸檔功能和接口,導(dǎo)致部門無(wú)法及時(shí)提交應(yīng)歸檔保存的非結(jié)構(gòu)化文檔數(shù)據(jù),導(dǎo)致非結(jié)構(gòu)化文檔數(shù)據(jù)資產(chǎn)容易丟失。同時(shí),許多非結(jié)構(gòu)化文檔數(shù)據(jù)往往以“附件”的形式存在于系統(tǒng)中,難以檢索與利用。
企業(yè)一些信息系統(tǒng)(如OA系統(tǒng)、ERP系統(tǒng)等)中文檔多以表單的形式進(jìn)行流轉(zhuǎn),需要辦理的文檔通常作為表單的附件,其中既有word,pdf等格式的文本文檔,也有多種格式的圖片、音視頻文件等。這些非結(jié)構(gòu)化文檔往往只能借助所依附的表單信息或者簡(jiǎn)單的文件標(biāo)題等元數(shù)據(jù)加以檢索和利用,效率低、數(shù)據(jù)利用不足,難以開(kāi)展深度的數(shù)據(jù)挖掘與分析。
相關(guān)制度體系不健全、管理缺位
企業(yè)現(xiàn)有的文檔管理制度并不是建立在徹底的數(shù)據(jù)清理基礎(chǔ)之上,因此,對(duì)于企業(yè)中生成數(shù)據(jù),哪些需要?dú)w檔?如何進(jìn)行歸檔?以及如何進(jìn)行管理和利用等問(wèn)題,現(xiàn)有制度中均缺少系統(tǒng)、細(xì)致、可操作的規(guī)定和描述。
而且,非結(jié)構(gòu)化數(shù)據(jù)缺少必要的分類及元數(shù)據(jù)項(xiàng)。尤其是文檔生命周期流程,即從文檔生成、流轉(zhuǎn)、辦結(jié)到歸檔、保存、利用的全過(guò)程,并沒(méi)有非常清晰和規(guī)范的管理流程和要求。
同時(shí),企業(yè)業(yè)務(wù)活動(dòng)往往涉及多個(gè)參與方,既有企業(yè)內(nèi)部的部門,也有外單位,協(xié)同管理與歸口管理的矛盾突出。這就對(duì)企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)管理提出了更高的要求,尤其是在非結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、一致性、安全性等方面。
此外,企業(yè)非結(jié)構(gòu)化數(shù)據(jù)類型包括內(nèi)部發(fā)文、外部發(fā)文、收文、簽報(bào)、合同、業(yè)務(wù)文件附件及歸檔之后的檔案。除了歸檔之后的檔案數(shù)據(jù)是由數(shù)字檔案管理系統(tǒng)進(jìn)行集中統(tǒng)一管理之外,歸檔之前的非結(jié)構(gòu)化數(shù)據(jù)往往處于分散管理的狀態(tài),存在著失存、失真、失控和失用等諸多問(wèn)題,直接影響了后端檔案數(shù)據(jù)的質(zhì)量,影響了文檔數(shù)據(jù)資產(chǎn)價(jià)值的發(fā)揮。
針對(duì)上述問(wèn)題,要想真正實(shí)現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)的科學(xué)管理,非結(jié)構(gòu)化文檔數(shù)據(jù)管理勢(shì)在必行。
由于非結(jié)構(gòu)化文檔數(shù)據(jù)數(shù)量大、范圍廣、數(shù)據(jù)狀態(tài)繁雜,涉及部門、人員和系統(tǒng)眾多,正所謂牽一發(fā)而動(dòng)全身,因此,要順利開(kāi)展非結(jié)構(gòu)化文檔數(shù)據(jù)的治理,必須充分做好前期的準(zhǔn)備工作和規(guī)劃。
頂層設(shè)計(jì)
企業(yè)的發(fā)展戰(zhàn)略、管理模式和關(guān)鍵業(yè)務(wù)活動(dòng)對(duì)于企業(yè)信息化及其數(shù)據(jù)治理的方向和目標(biāo)起著決定性的導(dǎo)向作用。同時(shí),企業(yè)各級(jí)部門及人員對(duì)于非結(jié)構(gòu)化文檔數(shù)據(jù)管理的理解與期望也將影響數(shù)據(jù)治理方案的設(shè)計(jì)。
因此,首先可以通過(guò)對(duì)企業(yè)關(guān)鍵業(yè)務(wù)活動(dòng)的流程進(jìn)行調(diào)查與分析,借助成熟度矩陣來(lái)評(píng)估企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)在不同業(yè)務(wù)活動(dòng)中的現(xiàn)狀,并根據(jù)相關(guān)制度規(guī)范或行業(yè)標(biāo)桿進(jìn)行對(duì)標(biāo),找出差異點(diǎn),作為項(xiàng)目開(kāi)展的現(xiàn)實(shí)基礎(chǔ)。
然后,在上述活動(dòng)的基礎(chǔ)上,制定企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)項(xiàng)目的實(shí)施規(guī)劃,包括定位、階段、原則和目標(biāo),作為項(xiàng)目開(kāi)展的基礎(chǔ)與依據(jù)。
數(shù)據(jù)治理環(huán)境
任何管理活動(dòng)的開(kāi)展都離不開(kāi)所處的環(huán)境,后者是前者賴以生存的生態(tài)系統(tǒng)。國(guó)內(nèi)外宏觀環(huán)境、行業(yè)環(huán)境和企業(yè)內(nèi)部環(huán)境構(gòu)成了環(huán)境要素的3個(gè)層面。
在這3個(gè)層面中需要縱向考慮政策、制度標(biāo)準(zhǔn)、趨勢(shì)、文化、傳統(tǒng)等要素對(duì)于項(xiàng)目的影響作用,要遵循法律法規(guī)、行業(yè)監(jiān)管、內(nèi)部管控,滿足數(shù)據(jù)風(fēng)險(xiǎn)控制、數(shù)據(jù)安全和隱私的要求。
識(shí)別并評(píng)估市場(chǎng)發(fā)展、數(shù)據(jù)清理、競(jìng)爭(zhēng)地位和技術(shù)變革等變化,規(guī)劃并滿足數(shù)據(jù)治理對(duì)各類資源的需求,包括人員、經(jīng)費(fèi)和基礎(chǔ)設(shè)施。
數(shù)據(jù)治理框架
在前述2個(gè)步驟的基礎(chǔ)上,圍繞數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、元數(shù)據(jù)管理、內(nèi)容管理和文檔全生命周期管理等方面,搭建企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)管理系統(tǒng)平臺(tái),在企業(yè)內(nèi)部打通各業(yè)務(wù)系統(tǒng)之間的壁壘,在統(tǒng)一的平臺(tái)之上規(guī)范非結(jié)構(gòu)化文檔數(shù)據(jù)的管理,同時(shí)融合元數(shù)據(jù)管理和內(nèi)容管理。
文檔類型關(guān)聯(lián)著文檔的元數(shù)據(jù),不同的文檔類型具備不同的文檔元數(shù)據(jù)集合,也對(duì)應(yīng)著不同的管理策略和機(jī)制。因此,需要統(tǒng)一制定符合管理和利用要求的非結(jié)構(gòu)化文檔數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)體系。
內(nèi)容管理理念作用于數(shù)據(jù)管理平臺(tái)底層,以數(shù)據(jù)內(nèi)容為中心統(tǒng)一存儲(chǔ)管理企業(yè)內(nèi)部已建、在建、未系統(tǒng)化管理的非結(jié)構(gòu)化數(shù)據(jù),為上層業(yè)務(wù)管理、知識(shí)管理、智能搜索等業(yè)務(wù)應(yīng)用的建設(shè)提供支撐。
數(shù)據(jù)治理過(guò)程
按照項(xiàng)目管理流程的一般要求,針對(duì)企業(yè)非結(jié)構(gòu)化文檔數(shù)據(jù)管理的具體目標(biāo)和內(nèi)容,進(jìn)行統(tǒng)籌規(guī)劃、構(gòu)建運(yùn)行、監(jiān)控評(píng)價(jià)、改進(jìn)優(yōu)化4個(gè)階段的流程控制。
在此過(guò)程中,由于項(xiàng)目涉及企業(yè)各個(gè)層級(jí)、各個(gè)部門的眾多人員、系統(tǒng)及工作流程,為了保證項(xiàng)目的順利實(shí)施,需要在項(xiàng)目開(kāi)展的同時(shí)進(jìn)行變革管理,通過(guò)調(diào)研、宣貫和培訓(xùn)等手段加強(qiáng)企業(yè)員工對(duì)項(xiàng)目的認(rèn)知和接受程度。
非結(jié)構(gòu)化數(shù)據(jù)管理在企業(yè)實(shí)踐中主要體現(xiàn)為ECM企業(yè)內(nèi)容管理,其解決方案是通過(guò)企業(yè)內(nèi)容管理系統(tǒng)使各項(xiàng)非結(jié)構(gòu)化數(shù)據(jù)管理工作得以具體實(shí)施落地。
內(nèi)容是指各類文檔中包含的數(shù)據(jù),其中以文本、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主。ECM企業(yè)內(nèi)容管理既是以一種戰(zhàn)略或方法,來(lái)幫助企業(yè)獲取、管理、存儲(chǔ)、保護(hù)、利用和洞察企業(yè)組織流程相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)。
ECM企業(yè)內(nèi)容管理又是一種專注于非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的軟件類型,其涵蓋了企業(yè)網(wǎng)盤、文檔管理、知識(shí)管理、文件安全交換、工程協(xié)同設(shè)計(jì)、文件安全外發(fā)、檔案管理、影像文件管理、電子文檔安全管理、文檔云、ISO質(zhì)量文件體系管理、GMP質(zhì)量文件體系管理、非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)、工程內(nèi)容管理等應(yīng)用軟件,以及基于AI智能和Graph知識(shí)圖譜技術(shù)的智能推薦、智能搜索、智能定密和智能安全分析等內(nèi)容智能應(yīng)用。
ECM企業(yè)內(nèi)容管理系統(tǒng)可以幫助企業(yè)內(nèi)容管理戰(zhàn)略落地,通過(guò)內(nèi)容獲取、管理、存儲(chǔ)、保護(hù)、利用等方式挖掘和釋放內(nèi)容價(jià)值,最終促進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型,提升企業(yè)運(yùn)營(yíng)效率,并獲得企業(yè)商業(yè)洞察能力與長(zhǎng)遠(yuǎn)競(jìng)爭(zhēng)優(yōu)勢(shì)。