摘 要:本文對(duì)電子文件的特點(diǎn)及管理現(xiàn)狀進(jìn)行了分析,介紹了用于信息分析的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),并借助于其思想內(nèi)涵,提出了一種建立電子文件倉(cāng)庫(kù)的管理方案,該方案通過(guò)對(duì)電子文件共有屬性的抽象,形成電子文件倉(cāng)庫(kù)的維度,可以有效地實(shí)現(xiàn)電子文件安全保護(hù)及方便利用.為電子文檔一體化的實(shí)現(xiàn)提供保障措施。
關(guān)鍵詞:電子文件 數(shù)據(jù)倉(cāng)庫(kù) 管理
1 引 言
文件的運(yùn)動(dòng)過(guò)程可以劃分為三個(gè)階段[1],即現(xiàn)行階段、暫時(shí)保管階段、永久保存階段。要實(shí)現(xiàn)電子文件的完整性運(yùn)動(dòng),必須考慮到電子文件的特點(diǎn)及與紙制文件的關(guān)系。電子文件的特性包括:信息的非人工識(shí)讀性、系統(tǒng)的依賴(lài)性、信息與特定載體之間的可分離性、信息的可變性、信息存儲(chǔ)的高密度性、多種信息的集成以及信息的可操作性等[2],這些特性決定了電子文件保存與歸檔必須采用前端控制思想,將文件運(yùn)動(dòng)過(guò)程的各個(gè)階段進(jìn)行綜合設(shè)計(jì),形成一套與電子文件運(yùn)動(dòng)階段相對(duì)應(yīng)的系統(tǒng)管理模式。我們知道,在企事業(yè)單位運(yùn)作過(guò)程中不斷產(chǎn)生各種類(lèi)型的文件材料,從數(shù)量上看,有著越來(lái)越多的趨勢(shì),從類(lèi)型上可以有多種媒體,從來(lái)源來(lái)說(shuō),可能來(lái)源于上級(jí)機(jī)關(guān)、或者職能管理部門(mén)、下級(jí)部門(mén)、合作單位、自己?jiǎn)挝坏取F渲薪^大多數(shù)是首先產(chǎn)生電子文件,然后將其打印出來(lái)以紙質(zhì)的形式進(jìn)行審閱、傳閱等,最后將有關(guān)電子或紙質(zhì)文件到一定期限后移交到檔案部門(mén)進(jìn)行歸檔處理,由于文件的數(shù)量和類(lèi)型較多及經(jīng)手人的變化,在紙制文件利用的過(guò)程中容易造成損毀和遺失。
由此看見(jiàn),電子文件的管理與應(yīng)用是檔案管理的當(dāng)務(wù)之急,其具有易用性、可復(fù)制性及一定意義上的原始性。依據(jù)國(guó)家有關(guān)檔案管理的標(biāo)準(zhǔn),借助于先進(jìn)的計(jì)算機(jī)技術(shù),對(duì)電子文件進(jìn)行綜合管理,形成一套包括電子文件的形成、歸檔、利用和安全保護(hù)等管理系統(tǒng)具有很大的現(xiàn)實(shí)意義。
2 電子文件管理問(wèn)題分析
1)電子文件的保存與利用問(wèn)題
原始的電子文件保存較為混亂,人為因素較大,分布于不同的存儲(chǔ)設(shè)備中,保存時(shí)較為隨意,文件屬性不明確,甚至這些草稿性的電子文件在計(jì)算機(jī)存儲(chǔ)器上處于整體無(wú)組織狀態(tài),一旦紙質(zhì)文件在歸檔前遺失,將難以溯源。
由于上述原因,對(duì)電子文件檢索和利用往往基于人的記憶和對(duì)存儲(chǔ)設(shè)備的瀏覽查找,由此制約了其效能。
2)電子文件歸檔問(wèn)題
傳統(tǒng)的立卷方法要進(jìn)行文件及案卷兩級(jí)整理,而計(jì)算機(jī)管理系統(tǒng)則可以直接以每份文件材料為整理單位,而其“立卷”功能存在于其方便的查詢(xún)當(dāng)中,是邏輯上的立卷,實(shí)現(xiàn)了真正意義上的“文件級(jí)”保管。但是,實(shí)行計(jì)算機(jī)管理檔案后,一般只停留在目錄級(jí)的管理,其重在對(duì)文件的日期、所屬部門(mén)的屬性的管理,由于文件內(nèi)容的數(shù)據(jù)最大,形式復(fù)雜(可以是文本、圖形圖像、聲音等)難以實(shí)現(xiàn)對(duì)文件內(nèi)容的管理,從而不便于對(duì)電子文件內(nèi)容的查詢(xún)與利用,削弱了系統(tǒng)的功能。解決的辦法之一是將文件內(nèi)容以大二進(jìn)制字段集成到數(shù)據(jù)庫(kù)表中,這樣將對(duì)歸檔的其他有關(guān)操作產(chǎn)生不利的影響。
3)自動(dòng)化程度不高
計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)發(fā)展迅速,電子文件及現(xiàn)有的檔案管理系統(tǒng)并沒(méi)有實(shí)現(xiàn)對(duì)計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)充分利用。事實(shí)上現(xiàn)有的計(jì)算機(jī)軟硬件完全可以支持對(duì)電子文件夾的自動(dòng)監(jiān)視、檢索、轉(zhuǎn)運(yùn)、文件信息(如建立日期、大小等)提取等,分布式計(jì)算技術(shù)也可以滿足信息在不同的計(jì)算機(jī)節(jié)點(diǎn)之間流動(dòng)和處理。而目前對(duì)電子文件的處理大部分僅僅限于手動(dòng)的拷貝、復(fù)制、上傳、組織到文件夾等操作,檔案管理系統(tǒng)自動(dòng)化程度不高,手工錄入的工作量較大,缺乏后臺(tái)的服務(wù)程序及自動(dòng)化觸發(fā)功能的利用。
3 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
1)數(shù)據(jù)倉(cāng)庫(kù)概述
由于一般的數(shù)據(jù)庫(kù),數(shù)據(jù)存放的方式以及表的結(jié)構(gòu)等都是為方便事務(wù)處理而設(shè)計(jì),所以這種適合于線上事務(wù)處理的數(shù)據(jù)不適合從數(shù)據(jù)中取得“信息”,而信息正是近年來(lái)受到重視的決策支持所不可缺少的資源。以某個(gè)商業(yè)數(shù)據(jù)庫(kù)為例,要用SOL語(yǔ)法從數(shù)據(jù)庫(kù)中查詢(xún)出甲客戶(hù)在什么時(shí)候購(gòu)買(mǎi)了乙產(chǎn)品,應(yīng)該不是太難的事情,但是要以相同的方式查出那位客戶(hù)在某段時(shí)間內(nèi)買(mǎi)了最多的乙產(chǎn)品或者每一項(xiàng)產(chǎn)品在那些地區(qū)賣(mài)的最好就不是那么容易了。
由此可見(jiàn),雖然用功能強(qiáng)大的查詢(xún)語(yǔ)法來(lái)查詢(xún)事務(wù)性的數(shù)據(jù)是事務(wù)性數(shù)據(jù)庫(kù)的基本功能,但是要從中取得一些決策信息來(lái)分析市場(chǎng)則就不是十分方便了,必須在數(shù)據(jù)庫(kù)系統(tǒng)上構(gòu)建復(fù)雜的查詢(xún)語(yǔ)句.其所帶來(lái)的問(wèn)題有兩個(gè),一是要影響到日常的事務(wù)處理,使得日常的作業(yè)速度變慢甚至影響到數(shù)據(jù)的安全;二是決策人員也必須等待較長(zhǎng)時(shí)間才能獲得信息。
為了解決以上問(wèn)題,產(chǎn)生了數(shù)據(jù)倉(cāng)庫(kù)技術(shù),數(shù)據(jù)倉(cāng)庫(kù)可定義為是個(gè)整合的、主題導(dǎo)向的、長(zhǎng)期積累的、且內(nèi)容小需要更改(但可加入新數(shù)據(jù)庫(kù))的數(shù)據(jù)集合,以輔助管理員進(jìn)行決策的思考
2)數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)還是數(shù)據(jù)庫(kù)系統(tǒng),但是不同于關(guān)系數(shù)據(jù)庫(kù)的“物理一關(guān)聯(lián)模型”(E-RModel),而建立數(shù)據(jù)倉(cāng)庫(kù)所川的則是“緯度模型”(Dimensions Model)。數(shù)據(jù)庫(kù)結(jié)構(gòu)通常為星狀結(jié)構(gòu)如圖1所示:
FactTabl中存放的數(shù)據(jù)稱(chēng)為量值,是用于保存和分析信息的直接數(shù)據(jù),它是數(shù)據(jù)倉(cāng)庫(kù)中最大的表,由于數(shù)據(jù)倉(cāng)庫(kù)通常不進(jìn)行事務(wù)處理,因此它不考慮數(shù)據(jù)容量所帶來(lái)的效率問(wèn)題,Dimension Table則用來(lái)存放各維度的數(shù)據(jù)(描述FaetTable中數(shù)據(jù)的信息),每個(gè)維度的數(shù)據(jù)都存放在單獨(dú)的Dimension表中,例如類(lèi)別、時(shí)間等。因此Fact Table中要有各個(gè)Dimension·Fable的主索引鍵的Foreign Key。
4 基于數(shù)據(jù)倉(cāng)庫(kù)思想的電子文件管理實(shí)現(xiàn)方案
我們可以將數(shù)據(jù)倉(cāng)庫(kù)的思想和結(jié)構(gòu)用到管理電子文件中來(lái),建立電子文件倉(cāng)庫(kù)。就電子文件的產(chǎn)生與運(yùn)動(dòng)過(guò)程來(lái)說(shuō),它是符合數(shù)據(jù)倉(cāng)庫(kù)的主要特點(diǎn)的,即,整合的(電子文件的日期、大小等屬性)、主題導(dǎo)向(以文件內(nèi)容為核心)、長(zhǎng)期積累的(產(chǎn)生于日常業(yè)務(wù))、歷史性的數(shù)據(jù)(電子文件保存)、只讀數(shù)據(jù)(檔案性質(zhì)的電子文件)。
針對(duì)電子文件處理的三個(gè)階段,采用數(shù)據(jù)倉(cāng)庫(kù)的思想.抽象出所有電子文檔都具有的基本屬性,例如,文件號(hào)、文件類(lèi)型、密級(jí)、簽發(fā)日期等引用與描述性屬性(度)及創(chuàng)建日期、文件名稱(chēng)、簽名等命名性屬性。將在工作中產(chǎn)生的電子文件審閱后進(jìn)行基本的屬性著錄并將電子文件的保存與歸檔,保存的主體是數(shù)據(jù)倉(cāng)庫(kù),歸檔的主體是檔案管理信息系統(tǒng)。利用采用一體化進(jìn)程進(jìn)行管理,管理流程如圖2所示:
與通常所理解的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生順序不同,首先建立以文件主體本身為主的數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù)),主要內(nèi)容包括:電子文件主體(或者其相對(duì)于文件存儲(chǔ)的絕對(duì)路徑)、各種類(lèi)型電子文件的共有屬性(作為基本的查詢(xún)索引)。由于本數(shù)據(jù)庫(kù)只是針對(duì)文件內(nèi)容,建立的目的是組織和保存歷史所形成的電子文件及進(jìn)行信息分析,其利用頻率相對(duì)較低,因此可以將文件內(nèi)容、文件名稱(chēng)、文件號(hào)等及相關(guān)的屬性索引直接集成到數(shù)據(jù)庫(kù)表中。其數(shù)據(jù)庫(kù)負(fù)荷的增加并不影響檔案管理數(shù)據(jù)庫(kù)系統(tǒng)的日常事務(wù)處理負(fù)荷,其基本結(jié)構(gòu)如圖3所示。(見(jiàn)圖3)
在文件的流動(dòng)過(guò)程中,在電子文件產(chǎn)生端的客戶(hù)端軟件(文件收集系統(tǒng))功能是收集有關(guān)文件的內(nèi)容及屬性信息并將這些內(nèi)容轉(zhuǎn)發(fā)給文件倉(cāng)庫(kù)文件接收服務(wù)器程序,服務(wù)器程序的功能是接收文件及相關(guān)屬性并進(jìn)行合法性判斷,通過(guò)后激發(fā)數(shù)據(jù)庫(kù)的觸發(fā)器將有關(guān)內(nèi)容插入到數(shù)據(jù)倉(cāng)庫(kù)表中。
在歸檔操作中,要從文件倉(cāng)庫(kù)中提取相關(guān)的電子文件基本信息,再按照歸檔的流程(著錄、編研、鑒定)等過(guò)程對(duì)電子文件進(jìn)行歸檔處理。在此過(guò)程中,可以借助于數(shù)據(jù)庫(kù)管理信息系統(tǒng)中的數(shù)據(jù)轉(zhuǎn)換服務(wù) (Data Transformation Service,簡(jiǎn)稱(chēng)為DTS)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到檔案數(shù)據(jù)庫(kù)的數(shù)據(jù)定期自動(dòng)轉(zhuǎn)換。通過(guò)制定科學(xué)的數(shù)據(jù)處理方案可以將紙質(zhì)文件、電子文件同時(shí)歸檔以保證其一致性。
5 結(jié)束語(yǔ)
本文提出的基于數(shù)據(jù)倉(cāng)庫(kù)的管理機(jī)制是對(duì)現(xiàn)有計(jì)算機(jī)軟硬件技術(shù)的較充分的利用,這種機(jī)制將電子文件的保存形成系統(tǒng)并有效地通過(guò)各種中間程序與歸檔相關(guān)起來(lái),提高了電子文件的組織性與管理的自動(dòng)化程度。不足之處是該方案的實(shí)施將不可避免地增加硬件與軟件的投資,但從長(zhǎng)遠(yuǎn)來(lái)看其所降低的管理成本與提高的管理效率及安全性保證將是更大的無(wú)形資產(chǎn)。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。