王 瑜
(中國電建集團北京勘測設計研究院有限公司,北京 100024)
XML 語言誕生于1998年,其設計的最初目的是實現EDI(Electronic Date Interchange電子數據交換),為電子數據交換提供一個統一的標準數據格式。XML語言是一種用于描述數據的標記語言,它不提供固定的標記,而是允許用戶自定義數量不限的標記來描述數據,且允許使用嵌套的信息架構,是一種良好的直接處理數據的通用方法。XML具有良好的可讀性、可維護性,便于信息檢索,便于信息的長期保存,可以輕松的跨平臺應用,符合《DA/T 47-2009板式電子文件長期保存格式需求》中格式開放、不綁定軟硬件的要求,這也是它被廣泛應用在檔案管理中的原因。國家檔案局發(fā)布的行業(yè)標準《DT/ 48-2009基于XML的電子文件封裝規(guī)范》就基于XML語言對檔案元數據的數據格式進行了約定。
就XML本身特點而言,XML文件龐大,文件格式復雜,傳輸帶寬。服務器和客戶端都需要花費大量代碼來解析XML,XML的解析需要考慮父節(jié)點和子節(jié)點,讓人頭暈眼花,導致服務器和客戶代碼變得異常復雜且不易維護。客戶端不同瀏覽器之間解析XML的方式不一致需要重復編寫很多代碼,客戶端和服務解析XML花費較多的資源和時間。
XML數據著錄時仍然需要人工完成,著錄完畢將經歷多次自動查驗,但所查驗內容多是對檔案的真實性、可靠性、可用性和安全性進行校驗,對于著錄中的錯別字或錄入順序顛倒等問題無法查驗,接收進檔案系統的XML數據在后期整編審核過程中存在錯誤,主要是由于著錄人員信息內容錯誤,或將信息填錯位置。XML數據雖然后續(xù)經過多次人工檢驗,但在后期工作仍會在不同的階段發(fā)現問題。因此前期著錄過程的準確率至關重要。
首先是要規(guī)范XML格式書寫,讓代碼描述自己,保證恰當縮進,讓代碼更加容易理解。增加注釋,注釋做到簡單直接,同時避免不必要的注釋。其次是按照實際需求,選擇適合的解析方式,XML常用解析方式有四種,分別是DOM(Document Object Model)解析、SAX(Simple API for XML)解析、DOM4J(Document Object Model for Java)解析和JDOM(Java-based Document Object Model)解析。各種解析器各有優(yōu)缺點,DOM的優(yōu)點是允許應用程序對數據和結構做出更改,可以在任何時候在樹中上下導航,獲取和操作任意部分的數據。缺點是需要加載整個XML文檔來構造層次結構,消耗資源大。SAX的優(yōu)點是不需要等待所有數據都被處理,分析就能立即開始、只在讀取數據時檢查數據,不需要保存在內存中、可以在某個條件得到滿足時停止解析,不必解析整個文檔、效率和性能較高,能解析大于系統內存的文檔。缺點是需要應用程序自己負責TAG的處理邏輯(例如維護父/子關系等),使用麻煩、單向導航,很難同時訪問同一文檔的不同部分數據。DOM4J的優(yōu)點是大量使用了Java集合類,方便Java開發(fā)人員,同時提供一些提高性能的替代方法,并且有很好的性能,缺點是大量使用了接口,API較為復雜。JDON的優(yōu)點是使用具體類而不是接口,簡化了DOM的API,缺點是沒有教較好的靈活性。開發(fā)人員可以根據檔案系統的實際情況去選擇適合的解析方法。
目前OCR圖像文字識別、語音識別、職能檢索等功能均比較適合輔助前期的著錄工作,這些如果能與著錄軟件結合會大幅提高XML數據庫的準確率,這樣不僅可以篩查格式問題,還可自動糾錯出人工著錄過程中存在的常識問題,如錯別字、著錄順序顛倒、信息填錯位置等問題。如能在前期著錄過程中提高準確率,在進入檔案室后的一系列人工核查中進行查漏補缺,會使得檔案著錄數據更加準確。
目前很多部門在辦事過程中已經直接形成電子文件,所以在移交檔案時要將電子文件打印成紙質文件再向檔案館移交。如能在前期從各部門的各種業(yè)務系統中抓取數據與著錄系統導出的XML數據相結合,會緩解后期加工制作的壓力,大幅度地縮減加工周期,抓取的信息相對數字化掃描成果更加清晰易讀取,可以在最短的時間內對外提供檔案利用服務。同時各部門形成的電子文件為原生的電子文件,更符合檔案接收標準。
當今的時代是一個信息爆炸的時代,互聯網技術風云千檣,每一種技術都有可能給我們現有的管理模式帶來新的成長。XML不過是互聯網技術千萬應用的一個小創(chuàng)新而已,希望它可以在曠日積晷的歷史長河中閃爍微光,幫助我們更好的管理檔案。