付啟明
隨著大數據理論的普及和應用,大數據的商業(yè)價值已在諸多領域得以充分展現和證實,從早期亞馬遜圖書網站的智能推薦功能,到如今具備信息智能推送服務的移動應用程序等,大數據已與我們的日常生活息息相關,“數據”也被認定為極具價值的“無形資產”,甚至是除“土地、勞動力和資本”之外的第四生產要素。但對許多企業(yè)而言,數據仍然只是其經營管理的附屬產物,存在于各類記錄或業(yè)務管理信息系統(tǒng)中,其真正價值并未得以發(fā)現和利用。檔案管理部門作為各類記錄的最終責任主體,管理著巨大的歷史數據“寶藏”,因此,發(fā)掘企業(yè)檔案所蘊含的數據資源,為大數據在企業(yè)的應用提供數據支撐,并依托大數據應用創(chuàng)新檔案管理模式,應成為大數據時代企業(yè)檔案管理的重要理念之一。
一、大數據理論與企業(yè)檔案資源
國務院于2015年9月印發(fā)的《促進大數據發(fā)展行動綱要》對大數據給出了相對權威的定義,即“大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發(fā)展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發(fā)現新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)”。定義明確了大數據的主要特征、核心環(huán)節(jié)及應用目的,就主要特征而言,容量大指數據規(guī)模龐大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能讀解的信息;類型多是指大數據所包含數據類型已由傳統(tǒng)的結構化數據為主轉變?yōu)榻Y構化、半結構化、非結構化數據并存,且數據來源眾多;存取速度快要求大數據依托分布式文件存儲系統(tǒng)、分布式計算框架及分布式數據庫管理系統(tǒng)實現對海量數據的實時讀取分析,以確保數據利用的時效性;應用價值高則意味著大量低價值密度數據的集合所隱藏的價值是巨大的,挖掘數據背后的價值也正是大數據應用的目的。
要將大數據理論應用到企業(yè)檔案管理實踐中,必須先明確檔案資源與大數據的關系,對此,已有學者從數據、信息與檔案的定義及特征的角度進行了對比論證,認為檔案資源屬于數據范疇,且檔案資源包含大量價值密度更高的數據(以下簡稱“檔案數據”),但對比大數據與檔案數據的特征,檔案數據并不是完全意義上的大數據。這一點可以通過企業(yè)檔案管理的實際情況來證實,首先,企業(yè)檔案資源仍然以紙質檔案、電子檔案及相關的元數據等為主,大量紙質檔案和電子檔案有待數字化、數據化,大量數據有待提取整合后才可用于數據分析;其次,從數據存儲模式及利用需求來看,基于管理需求及數據安全考慮,大部分企業(yè)依然以集中式數據存儲為主,通過關系型數據庫進行管理,無法實現對多類型大量數據的實時讀取分析;第三,檔案歸檔范圍側重于具有查考利用價值的記錄,而大數據則強調收集分析與某一事物相關的所有數據,兩者價值屬性判斷標準的不一致導致企業(yè)檔案數據無法完全滿足大數據應用的來源要求。
二、應用前提
上述《大綱》明確了數據的采集、存儲和關聯分析是大數據應用的核心環(huán)節(jié),采集是前提,存儲是基礎,分析是關鍵。從具體實施來看,數據采集需要具體業(yè)務人員提供數據的有效識別支持,而數據存儲、分析則需要信息管理、統(tǒng)計學、數學模型建立等專業(yè)技術的支持,因此,企業(yè)大數據應用可以看作是多部門、多專業(yè)協(xié)同合作的結果,而要實現大數據在檔案管理業(yè)務中的應用,必須先具備以下條件。
(一)建立以企業(yè)數據管理為核心業(yè)務的職能機構。一方面,逐步建立完善的數據管理工作體系,聯同各業(yè)務部門從公司層面開展全方位、全局性的數據梳理、收集工作,并從數據存儲、提取、整合及分析需求出發(fā)部署滿足企業(yè)大數據應用的軟硬件設施,實現為公司經營管理提供基于大數據應用的決策建議;另一方面,則從企業(yè)各部門業(yè)務需求出發(fā),以業(yè)務開展所有相關數據為基礎,為業(yè)務流程優(yōu)化提供技術支持或建議,基于大數據理論的檔案管理提升正屬于此類。
(二)充分發(fā)掘檔案數據資源,為大數據在檔案管理中的應用創(chuàng)造條件。檔案數據從來源上可分為兩部分,一部分來源于檔案自身,即各部門所產生的具有查考利用價值的記錄,是需要經過數字化、數據化后方可使用的數據,是公司決策和各部門業(yè)務流程優(yōu)化的重要數據來源;另一部分則是檔案管理部門在檔案管理過程中所產生的數據,如各種介質檔案相關的元數據、基于物聯網的檔案實體管理所產生的數據、員工查詢利用各類檔案所產生的數據等,這部分數據涵蓋檔案管理各項具體業(yè)務的所有工作環(huán)節(jié),是檔案管理提升的主要數據來源。檔案數據的發(fā)掘必須充分依托于企業(yè)數據管理機構,檔案管理部門則應從業(yè)務流程層面為數據的識別和收集反饋需求或建議。
三、策略初探
大數據的核心在于預測,是通過將數學算法運用到海量的數據上來預測事情發(fā)生的可能性,從另一個角度來看即通過大量數據的分析來發(fā)現事物之間的潛在關聯,基于大數據理論的企業(yè)文檔管理提升,一方面是借助大數據的預測核心來優(yōu)化檔案管理業(yè)務流程,另一方面則是通過提升檔案管理水平為企業(yè)大數據應用創(chuàng)造條件,具體包括以下幾個方面。
(一)優(yōu)化企業(yè)內部文件管理流程。檔案是文件的歸宿,而文件在現行利用階段往往對時效性有較高的要求。筆者以負責建設項目EPC總包管理的工程公司為例,項目建設期會產生大量來自設計院、施工單位、設備供應商等單位的文件需要在規(guī)定時間內完成內、外部分發(fā)流轉,傳統(tǒng)操作以管理程序(分發(fā)規(guī)則)為依據,由專人逐份或批量內部分發(fā)及外部轉發(fā),隨著項目的增多及管理信息化水平的提升,管理信息系統(tǒng)逐漸積累大了量的文件分發(fā)數據,且同類型項目的文件在內容、分發(fā)及編碼規(guī)則上基本一致,因此,根據大數據預測的核心,可以建立基于文件分發(fā)規(guī)則、企業(yè)各部門組織機構代碼、文件標題、編碼、版本等元數據、文件關聯信息、多項目歷史分發(fā)信息的數據分析模型,并利用模型來分析預測后續(xù)文件的分發(fā)信息,代替?zhèn)鹘y(tǒng)分發(fā)方式以提升文件管理的工作效率。同樣,企業(yè)內部的其它文件也可以基于合理的數據分析模型來實現預測性流轉。
(二)檔案信息主動推送。傳統(tǒng)檔案利用多是檔案管理人員根據用戶需求提供被動式的利用服務,且檔案用戶一般不會主動關注企業(yè)館藏檔案的變化情況,后續(xù)館藏如增加符合利用需求的新檔案,往往不能第一時間為檔案用戶所知悉。隨著公司發(fā)展,檔案管理部門在業(yè)務過程中必然會積累大量的包含檔案用戶信息、文件查詢記錄、檔案利用需求說明等在內的利用數據,建立基于利用數據、員工崗位信息、文件歷史分發(fā)信息及檔案文本信息的數據分析模型以預測檔案用戶的潛在利用需求,一方面可根據歷史利用記錄為用戶推送新的檔案信息,另一方面,可為用戶推送與崗位職責相關的檔案信息,將傳統(tǒng)被動服務模式轉變?yōu)橹鲃油扑头漳J?。信息推送應用過程中還應綜合考慮檔案的密級屬性及企業(yè)密件管理要求,以提供關鍵信息如標題、關鍵詞等為主,而非直接推送電子案卷,此外,還應建立成熟的反饋機制,由用戶對主動推送的信息就適用性等進行評估反饋,并作為后續(xù)的數據來源,實現主動推送功能的動態(tài)完善。
(三)從檔案管理角度拓展數據來源,為企業(yè)大數據應用提供“資源”。首先,探索擴展企業(yè)文件材料歸檔范圍,在傳統(tǒng)的檔案價值鑒定基礎上向數據價值鑒定拓展,逐步將業(yè)務部門的低價值密度數據納入“數據”歸檔范圍;其次,建立覆蓋全部檔案資源的全文數據庫,為數據的識別、提取創(chuàng)造條件。全文數據庫的建立一方面是針對已有的檔案資源開展全面的數字化和文本識別工作;另一方面則通過提升檔案管理的信息化水平,對后續(xù)各類記錄從編制、生效到歸檔、利用實現全生命周期的基于管理信息系統(tǒng)的跟蹤和管控,實現檔案數據更直接、更高效的利用。
(四)利用大數據發(fā)現文件的潛在關聯關系。檔案案卷是基于卷內文件的關聯關系而形成的,這種關聯需要檔案人員通過特定信息來識別和判斷,檔案編研亦是圍繞某一特定主題來開展信息的收集、匯總和整合工作,本質上也是圍繞特定主題來發(fā)現不同來源文件的關聯關系,都與大數據“發(fā)現事物之間的潛在關聯”的理念一致,因此,在文件元數據、文本內容等大量數據基礎上建立基于關聯規(guī)則的數據分析模型,既可為傳統(tǒng)紙質檔案整理反饋卷內文件排列建議,逐步實現用電子案卷的生成和管理,也可為相對簡單的編研工作如大事記、組織沿革等識別、提取所需的相關信息。
四、結語
企業(yè)大數據應用應基于專業(yè)的數據管理團隊和技術平臺,檔案管理作為一項具體業(yè)務,基于大數據理論的管理提升只是應用的具體體現之一,檔案資源為大數據應用提供數據來源,大數據應用為檔案管理提升提供技術支持,二者相互促進,相互依賴,大數據時代企業(yè)檔案管理應遵從這一理念來不斷創(chuàng)新業(yè)務開展模式,實現企業(yè)檔案管理業(yè)務效率和工作深度的共同提升。
(作者單位:中廣核工程有限公司)