〔摘要〕本文通過對(duì)電子政務(wù)新環(huán)境下的政府文檔的電子化、標(biāo)準(zhǔn)化、全文檢索及安全策略等的研究,提出了政府紙質(zhì)文檔電子化及全文數(shù)據(jù)庫建設(shè)的模型。并基于該模型,提出了解決政府文檔電子化問題及建設(shè)全文數(shù)據(jù)庫的方案。
〔關(guān)鍵詞〕電子政務(wù);電子文檔;全文數(shù)據(jù)庫;全文檢索
DOI:10.3969/j.issn.1008-0821.2013.10.013
〔中圖分類號(hào)〕TP399〔文獻(xiàn)標(biāo)識(shí)碼〕B〔文章編號(hào)〕1008-0821(2013)10-0059-04
政府電子文檔也稱為電子公文,是實(shí)施電子政務(wù)的必然產(chǎn)物,是提高效率、降低成本、加強(qiáng)安全的有效手段[1]。與紙質(zhì)公文相比,政府電子文檔具有存儲(chǔ)體積小、檢索速度快、遠(yuǎn)距離快速傳遞及同時(shí)滿足多用戶共享等優(yōu)點(diǎn)。目前,我國(guó)各級(jí)黨政機(jī)關(guān)已廣泛應(yīng)用電子公文,并逐步確立了政府電子文檔的格式規(guī)范、傳輸、管理和歸檔等方面的標(biāo)準(zhǔn)和要求。相關(guān)法規(guī)規(guī)定,政府電子文檔與相同內(nèi)容的紙質(zhì)公文具有同等法定效力。
由于政府電子文檔有別于一般電子文檔,如政府電子文檔有密級(jí)的限制,政府電子文檔的類別多、歸檔難,而這些文件是不可再生的資源,如何集中存儲(chǔ)并提供簡(jiǎn)潔、方便的服務(wù)是新時(shí)期電子政務(wù)建設(shè)的重要課題,嚴(yán)格按照國(guó)家制定的相關(guān)電子公文管理規(guī)范,借電子政務(wù)發(fā)展的良機(jī),提出有效解決政府電子文檔管理中突出問題的方法,探索出政府電子公文管理一體化創(chuàng)新模式,具有重要的現(xiàn)實(shí)意義和實(shí)際價(jià)值。
通過對(duì)國(guó)內(nèi)較早開展電子文檔管理研究或全文數(shù)據(jù)庫建設(shè)城市的典型案例進(jìn)行了針對(duì)性的調(diào)研,發(fā)現(xiàn)主要存在電子文檔制作為完全規(guī)范化;電子文檔全文數(shù)據(jù)庫建設(shè)存在不足;未考慮全文檢索的需求;文件安全性較低等不足之處。建立政府電子文檔全文數(shù)據(jù)庫必須確保數(shù)據(jù)的真實(shí)性、完整性、有效性、安全性[2];全文檢索將直接針對(duì)數(shù)據(jù)資源的內(nèi)容進(jìn)行檢索,可以多角度、多側(cè)面的綜合利用信息資源。
1國(guó)內(nèi)外研究現(xiàn)狀分析
1.1國(guó)外電子文檔管理及全文數(shù)據(jù)庫建設(shè)現(xiàn)狀
國(guó)外在電子文檔管理方面起步較早,研究多偏重于標(biāo)準(zhǔn)制度的研究,如澳大利亞、美國(guó)、英國(guó)等國(guó)都把國(guó)家政府文檔管理標(biāo)準(zhǔn)、規(guī)范、制度作為研究的重點(diǎn),其研究的基礎(chǔ)是以各國(guó)的檔案工作實(shí)際為主,對(duì)于文件以及紙質(zhì)檔案電子化工作流程的研究較少。
美國(guó)及歐洲等很多發(fā)達(dá)國(guó)家和地區(qū)的電子文檔的全文數(shù)據(jù)庫建設(shè)都不約而同地經(jīng)歷了從機(jī)構(gòu)層面自行研發(fā)到國(guó)家層面有組織規(guī)劃、從分散管理到集中管理的轉(zhuǎn)變過程[3]。這些國(guó)家電子文檔的全文數(shù)據(jù)庫建設(shè)日趨成熟和完善,這其中比較有代表性的全文期刊數(shù)據(jù)庫有:EBSCO、Springer Link、Elsevier SDOL、Wiley、ScienceDirec等,這些全文數(shù)據(jù)庫可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的全文入庫,也可以根據(jù)用戶需求制定基于全文檢索的功能完備的個(gè)性化檢索服務(wù)。在商業(yè)化軟件方面,較成熟的有微軟公司的SQL Server 2008及甲骨文公司的Oracle TEXT,以及IBM公司的Lotus Domino等電子文檔處理系統(tǒng)的標(biāo)志性產(chǎn)品,這些商業(yè)化電子數(shù)據(jù)管理系統(tǒng)解決了查詢海量非結(jié)構(gòu)化數(shù)據(jù)時(shí)效率低的問題,能通過全文檢索技術(shù)高效地管理這些非結(jié)構(gòu)化數(shù)據(jù)。由于中文信息自身的特點(diǎn),國(guó)外成熟軟件產(chǎn)品存在術(shù)語與編碼不統(tǒng)一,資源不易共享,系統(tǒng)不易于推廣等問題,特別是在處理政府電子文檔時(shí),存在保密信息可能會(huì)泄露的威脅,以及需要解決中文語言分詞等難題,因而國(guó)內(nèi)建立電子文檔全文庫的時(shí)候多獨(dú)立自主開發(fā)或利用商業(yè)化軟件的部分功能進(jìn)行二次開發(fā)。
1.2國(guó)內(nèi)電子文檔管理現(xiàn)狀
我國(guó)在電子文檔管理方面起步較晚,目前尚處于探索階段,但也取得了一定成果。從1996年起國(guó)家和地方檔案部門開始著手電子文件管理的研究,先后制定了《中華人民共和國(guó)電子簽名法》(2004年8月28日中華人民共和國(guó)主席令第18號(hào))、《電子文件管理細(xì)則》(包括文書電子文件元數(shù)據(jù)方案)、《電子文件長(zhǎng)期保存格式需求》、《基于XML的電子文件封裝規(guī)范》等標(biāo)準(zhǔn)規(guī)范)、《電子公文歸檔管理暫行辦法》(6號(hào)令)、《電子文件歸檔與管理規(guī)范》(GB/T 18894-2002)、《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(中華人民共和國(guó)檔案行業(yè)標(biāo)準(zhǔn) DA/T31-2005)等文件。電子文件管理的國(guó)家戰(zhàn)略正逐步成型,主要表現(xiàn)為全國(guó)性的統(tǒng)籌規(guī)劃、統(tǒng)一規(guī)范和業(yè)務(wù)指導(dǎo)正在全面啟動(dòng),一些省、市已經(jīng)啟動(dòng)了集中管理電子文件的項(xiàng)目,并取得實(shí)質(zhì)性進(jìn)展,如2005年10月19日,安徽省電子文件中心正式投入使用;2005年浙江省溫州市依托地方特色資源,建立了“媒體看溫州”全文數(shù)據(jù)庫,取得了很好的社會(huì)效果。與發(fā)達(dá)國(guó)家相比,雖然我們的電子文檔管理取得了一定的成果,但仍存在一些問題,如:電子文件管理與電子政務(wù)發(fā)展不相適應(yīng);電子公文歸檔復(fù)雜;缺乏統(tǒng)一的歸檔和共享機(jī)制,電子文檔利用率不高;電子文件歸檔管理不規(guī)范等突出問題[4]。
2全文數(shù)據(jù)庫建設(shè)的模型研究
政府文檔全文數(shù)據(jù)庫建設(shè)一般包括政府紙質(zhì)文檔的電子化方法、政府電子文檔全文數(shù)據(jù)庫的建設(shè)、數(shù)據(jù)庫的全文檢索搜索策略、全文數(shù)據(jù)庫的安全策略4個(gè)部分,根據(jù)對(duì)全文檢索策略及關(guān)鍵技術(shù)進(jìn)行的研究,提出了政府紙質(zhì)文檔電子化及全文數(shù)據(jù)庫建設(shè)的模型,如圖1所示:1圖1政府文檔電子化及全文數(shù)據(jù)庫建設(shè)模型1
2.1政府紙質(zhì)文檔的電子化
按照國(guó)家標(biāo)準(zhǔn)《電子文件管理細(xì)則 第二部分:電子文件長(zhǎng)期保存格式需求》,目前國(guó)家認(rèn)可的電子檔案格式有TIFF、TXT、PDF和XML等,但每種格式既有自身的優(yōu)勢(shì)也有不足。
對(duì)于經(jīng)過OCR后的文檔,PDF和XML是較好的選擇。但是XML的優(yōu)勢(shì)主要體現(xiàn)在數(shù)據(jù)交換上,且無法保持文件的原版原式。而PDF則能夠“原汁原味”的記錄文件,是真正的所見即所得。同時(shí),PDF文件技術(shù)成熟,存儲(chǔ)空間小,便于加密、權(quán)限控制和在線瀏覽,已被業(yè)界廣泛認(rèn)可。因此,PDF是入庫前文檔較好的保存格式。
在政府文檔的電子化過程中,需要保證數(shù)據(jù)的真實(shí)性、完整性、可靠性和版權(quán)的保護(hù)。目前我國(guó)在《電子文件歸檔與管理規(guī)范》(GB/T 18894-2002)[5]中規(guī)定了4條措施:
(1)建立對(duì)電子文件的操作者可靠的身份識(shí)別與權(quán)限控制;
(2)設(shè)置符合安全要求的操作日志記錄,隨時(shí)自動(dòng)記錄實(shí)施操作的人員、時(shí)間、設(shè)備、項(xiàng)目、內(nèi)容等;
(3)對(duì)電子文件采用防錯(cuò)漏和防調(diào)換的標(biāo)記;
(4)對(duì)電子化的印章、數(shù)字簽名等采取防止非法使用的措施。
具體實(shí)施時(shí),主要采用加密技術(shù)、數(shù)字簽名、數(shù)字摘要、數(shù)字時(shí)間戳、身份認(rèn)證、報(bào)文認(rèn)證、信息隱藏技術(shù)、元數(shù)據(jù)管理技術(shù)等主要技術(shù)措施進(jìn)行實(shí)施。
根據(jù)國(guó)家標(biāo)準(zhǔn)要求,將政府紙質(zhì)文檔掃描為多層PDF格式并加載數(shù)字簽名,保證文檔的合法性,同時(shí),添加水印,保證數(shù)據(jù)文件的安全性。最后,將PDF文件解析后導(dǎo)入全文數(shù)據(jù)庫,實(shí)現(xiàn)政府紙質(zhì)文檔的電子化。
2.2政府電子文檔全文數(shù)據(jù)庫建設(shè)的標(biāo)準(zhǔn)及電子文檔入庫方法利用電子文檔數(shù)據(jù)中心的難點(diǎn)是將不同類別的政府電子文檔加載入全文數(shù)據(jù)庫,實(shí)現(xiàn)對(duì)電子文檔的全文檢索,提升對(duì)政府電子文檔的利用率。主要包括全文檢索數(shù)據(jù)庫標(biāo)準(zhǔn)研究和數(shù)據(jù)庫構(gòu)建方法兩部分內(nèi)容,其中構(gòu)建全文檢索數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)主要滿足系統(tǒng)性原則、實(shí)用性原則、開放性原則、安全性原則等基本原則;數(shù)據(jù)庫構(gòu)建方法主要從全文數(shù)據(jù)庫選擇、電子文檔解析、數(shù)據(jù)結(jié)構(gòu)倒排索引、組織數(shù)據(jù)、元數(shù)據(jù)抽取方面進(jìn)行實(shí)施。完成電子文檔的入庫工作后,還需要制定全文數(shù)據(jù)庫的檢索策略,這樣構(gòu)建的全文數(shù)據(jù)庫才能實(shí)現(xiàn)全文檢索。
2.3電子文檔的全文檢索策略研究
全文檢索[6]是一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法,通過計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置;當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結(jié)果集,增加索引,優(yōu)化索引結(jié)構(gòu)等功能。結(jié)構(gòu)上具有索引引擎,查詢引擎,文本分析引擎和對(duì)外接口等。全文檢索技術(shù)是現(xiàn)代信息檢索技術(shù)一個(gè)重要分支,是處理電子文檔這類非結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大工具,也是電子文檔搜索引擎的核心技術(shù)之一。該技術(shù)對(duì)文檔按各種策略進(jìn)行分詞,然后對(duì)切分得到的每個(gè)有檢索意義的詞建立索引,并指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶輸入檢索關(guān)鍵字進(jìn)行查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋用戶。
電子文檔的全文檢索策略需要關(guān)心的問題是搜索效率,包括搜索的即時(shí)性、準(zhǔn)確率、查全率,策略需要考慮引入給部分字段添加索引、裝備采用倒排索引技術(shù)的引擎、多關(guān)鍵字共同限定、模糊搜索等技術(shù)來提高檢索效率。
2.4電子文檔全文數(shù)據(jù)庫的安全策略
數(shù)據(jù)庫安全包含兩層含義:第一層是指硬件系統(tǒng)運(yùn)行安全;第二層是指數(shù)據(jù)信息安全,系統(tǒng)安全通常受到如黑客對(duì)數(shù)據(jù)庫入侵、盜取或篡改資料等威脅[7]。前一層威脅可以通過數(shù)據(jù)備份來實(shí)現(xiàn),有很成熟的技術(shù)去保證硬件的正常運(yùn)行,對(duì)于政府的電子文檔來說,后一層的威脅需要更多的關(guān)注。
(1)政府電子文檔的特殊性之一在于具有密級(jí)(一般、秘密、機(jī)密、內(nèi)部),密級(jí)與訪問權(quán)限的設(shè)置是數(shù)據(jù)庫建設(shè)中必不可少的。因此,電子文檔查詢和顯示模塊分為兩類:一類為針對(duì)單個(gè)特殊文檔控制查詢權(quán)限;一類為針對(duì)普通文檔控制查詢權(quán)限。針對(duì)單個(gè)文件,指定哪些用戶有查詢此文件的權(quán)限;普通文檔,先賦予用戶與檔案密級(jí)一樣的權(quán)限,當(dāng)用戶查詢權(quán)限大于或等于文檔密級(jí)時(shí),則可查看文檔,否則不能查看文檔。普通文檔又可分類,針對(duì)每類文檔分別賦予用戶普通文檔查詢權(quán)限。
因政府電子文檔涉及到大量的涉密文檔,應(yīng)嚴(yán)格按照《中華人民共和國(guó)檔案法》和《中華人民共和國(guó)國(guó)家保密法》等相關(guān)法律法規(guī)的要求對(duì)相關(guān)操作人員進(jìn)行保密教育,從源頭上保證文檔信息的安全。
(2)數(shù)據(jù)庫系統(tǒng)的安全策略主要是針對(duì)數(shù)據(jù)而言的,通過數(shù)據(jù)獨(dú)立性、數(shù)據(jù)安全性、數(shù)據(jù)完整性、并發(fā)控制、故障恢復(fù)等幾個(gè)方面加強(qiáng)數(shù)據(jù)庫系統(tǒng)的安全性來提高電子文檔全文數(shù)據(jù)庫的安全策略[8]。
3全文數(shù)據(jù)庫建設(shè)
根據(jù)政府紙質(zhì)文檔電子化及全文數(shù)據(jù)庫建設(shè)的模型研究的結(jié)論,針對(duì)政府電子文檔的特點(diǎn),進(jìn)行了政府電子文檔電子化及全文數(shù)據(jù)庫建設(shè)。
首先將紙質(zhì)公文資源進(jìn)行掃描后識(shí)別成具有水印的雙層PDF文檔,使用解析工具將PDF文件解析并導(dǎo)入全文數(shù)據(jù)庫中,同時(shí)在前臺(tái)根據(jù)用戶權(quán)限提供全文檢索及下載瀏覽功能,包括以下幾個(gè)方面的建設(shè)內(nèi)容:
3.1電子公文掃描管理
對(duì)電子公文進(jìn)行掃描,在保證數(shù)字化存儲(chǔ)格式的通用基礎(chǔ)上,實(shí)現(xiàn)高清晰度的數(shù)字化存儲(chǔ)利用,最后將掃描后的目錄和文檔交由專人集中管理保存。主要管理流程如圖2所示:
1圖2電子文檔掃描管理流程1
3.2OCR識(shí)別及雙層PDF制作
雙層PDF格式文件一般有兩種格式的,(1)圖像型的,可以通過OCR軟件經(jīng)過去污、糾偏和OCR識(shí)別,然后再通過制作雙層PDF軟件直接生成可以檢索的雙層PDF文件;(2)文本型的,最常見的WORD轉(zhuǎn)雙層PDF文件,先將WORD文件轉(zhuǎn)成單層的PDF文件,再將單層的PDF文件轉(zhuǎn)成圖像文件,然后通過OCR軟件OCR識(shí)別,然后再通過制作雙層PDF軟件直接生成可以檢索的雙層PDF文件。本文主要是對(duì)掃描文件的內(nèi)容數(shù)據(jù)進(jìn)行獲取分析提取,完成對(duì)數(shù)據(jù)基礎(chǔ)信息數(shù)字識(shí)別轉(zhuǎn)換,生成可識(shí)別處理的文本格式數(shù)據(jù)文件(可識(shí)別的雙層PDF文件)。
3.3電子簽名與水印添加
政府電子文檔同其他電子文檔一樣會(huì)遭遇偽造、篡改、增刪、冒名等,公文的內(nèi)容、公文發(fā)送者身份真實(shí)性和公文本身的合法性受到了威脅,如何保證政府電子文檔的這些安全性不但是其在電子政務(wù)中發(fā)展的重要內(nèi)容,也是電子文檔全文數(shù)據(jù)庫建設(shè)的重要內(nèi)容之一。使用單向散列函數(shù)和RSA加密算法實(shí)現(xiàn)數(shù)字簽名,同時(shí)向電子文檔中添加某些數(shù)字信息以達(dá)到文件真?zhèn)舞b別、版權(quán)保護(hù)等功能,防止電子文檔被篡改或替換。
3.4全文數(shù)據(jù)庫建設(shè)
政府部門產(chǎn)生的電子文件,是檔案的“前身”,是不可再生的資源,集中存儲(chǔ)并提供簡(jiǎn)潔、方便的歸檔操作是新時(shí)期電子政務(wù)建設(shè)的重要課題。充分利用這些電子文檔數(shù)據(jù)中心的難點(diǎn)是將不同類別的政府電子文檔加載入全文數(shù)據(jù)庫,實(shí)現(xiàn)對(duì)電子文檔的全文檢索,提升對(duì)政府電子文檔的利用率。根據(jù)已有的PDF資料構(gòu)建全文數(shù)據(jù)庫,即使是非專業(yè)人員也可以方便的通過系統(tǒng)入庫加載PDF或WORD、TXT文檔;同時(shí),實(shí)現(xiàn)中文分詞并構(gòu)建全文檢索引擎。
3.5前端平臺(tái)提供檢索等服務(wù)
通過文獻(xiàn)共享服務(wù)平臺(tái),實(shí)現(xiàn)對(duì)不同類別的文檔統(tǒng)一風(fēng)格顯示,提供政府電子文檔全文檢索、瀏覽及下載服務(wù)。其系統(tǒng)架構(gòu)如圖3所示,系統(tǒng)功能如圖4所示。1圖3系統(tǒng)架構(gòu)圖1
1圖4前端檢索應(yīng)用平臺(tái)功能圖
4總結(jié)
本文以電子政務(wù)新環(huán)境下的政府文檔全文數(shù)據(jù)庫建設(shè)及全文檢索方法為研究對(duì)象,總結(jié)分析了國(guó)內(nèi)外對(duì)電子文檔處理的成功案例與不足,以某政府部門電子文檔管理的實(shí)際工作為基礎(chǔ),提出了政府紙質(zhì)文檔電子化及全文數(shù)據(jù)庫建設(shè)的模型。在模型基礎(chǔ)上,根據(jù)該類電子文檔的特點(diǎn),提出了解決政府文檔電子化問題及建設(shè)全文數(shù)據(jù)庫的方案。
參考文獻(xiàn)
[1]馮惠玲.政府電子文檔管理[M]北京:中國(guó)人民大學(xué)出版社,2004.5.
[2]彭碧珍.淺析電子文件的收集與歸檔[J].科學(xué)咨詢,2012,(1):59.
[3]孫展紅.國(guó)外電子文件管理服務(wù)力保障機(jī)制值得借鑒的幾個(gè)方面[J].黑龍江檔案,2011,(3):68.
[4]安徽省電子文件中心建設(shè)項(xiàng)目可行性研究報(bào)告[EB/OL].http:∥www.thdaxx.org/html/daxxh/dzwjzx/1174.html.
[5]《電子文件歸檔與管理規(guī)范》GB/T18894-2002[EB/OL].http:∥baike.baidu.com/link?url=zYSqq92RFrqJgNiFIm0n3ljg3-V9h1Ndi0 ILbMuCCtvdHroAb6WsKFYEaZErNGQjG9kJbYDMlW93Q2iP7lCCa.
[6]陳慧萍,等.全文索引技術(shù)在辦公自動(dòng)化系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(2):222-224.
[7]數(shù)據(jù)庫安全[EB/OL].http:∥baike.baidu.com/link?url=BhBEjamqNg1Q6KzUNY58udXFFgc6sIiOVCPUtS4tCnsNE-w7RIjKCLq5 uWZTknVNl1Vw3gIhymln2E3Ax6Lpq.
[8]高小銀.電子文檔的信息安全保障[J].陜西檔案,2011,(6):29.
(本文責(zé)任編輯:孫國(guó)雷)