政府的工作離不開(kāi)公文,它是政府部門(mén)間信息傳遞的主要渠道。因此,公文的數(shù)量十分龐大,一般市級(jí)政府業(yè)務(wù)部門(mén)每天收到的公文數(shù)量少則十幾件,多則幾十件,其中大部分仍為紙質(zhì)公文。例如,筆者所在局收到的紙質(zhì)公文就約占總量的70%,需要通過(guò)掃描儀把這些紙質(zhì)公文一個(gè)一個(gè)地掃描成電子文檔,并手工錄入來(lái)文單位、文號(hào)和標(biāo)題等信息。平均處理一個(gè)公文的時(shí)間為4分鐘,那么,60個(gè)公文就需要4個(gè)小時(shí)。由于工作強(qiáng)度大,輸入的信息容易出錯(cuò),對(duì)批閱及今后的查詢都帶來(lái)一定的困難。
所謂紙質(zhì)公文一體化處理,就是將多個(gè)公文同時(shí)掃描,系統(tǒng)自動(dòng)把每個(gè)公文處理成便于閱讀和復(fù)制的文檔。同時(shí)自動(dòng)提取公文的來(lái)文單位、文號(hào)和標(biāo)題等信息,并通過(guò)預(yù)設(shè)關(guān)系表的方式,實(shí)現(xiàn)來(lái)文單位和來(lái)文號(hào)之間的自動(dòng)關(guān)聯(lián)。
一、公文結(jié)構(gòu)特征分析
公文分為正式公文與非正式公文,根據(jù)2001年實(shí)行的《國(guó)家行政機(jī)關(guān)公文處理辦法》的規(guī)定,正式公文共有十三種,即命令(令)、決定、公告、通告、通知、通報(bào)、議案、報(bào)告、請(qǐng)示、批復(fù)、意見(jiàn)、函、會(huì)議紀(jì)要。非正式公文包括簡(jiǎn)報(bào)、便函等。由于文種不同,版面格式區(qū)別較大。但不同形式的公文基本上都具有一些共同的特征:一是公文來(lái)文單位、文號(hào)和標(biāo)題等需要錄入的信息都在公文的第一頁(yè);二是正式公文的文號(hào)單獨(dú)成一行,非正式公文如簡(jiǎn)報(bào),首頁(yè)“第××期”一般也單獨(dú)成行;三是文件標(biāo)題在文號(hào)下方,一般由一至三行組成,標(biāo)題結(jié)尾的詞語(yǔ)相對(duì)比較固定,常見(jiàn)的有為“紀(jì)要、批復(fù)、請(qǐng)示、講話、要點(diǎn)、通報(bào)、通知、紀(jì)要、意見(jiàn)、報(bào)告、決定、備忘錄、函、簡(jiǎn)報(bào)、摘要、匯報(bào)、函復(fù)、公告”等18個(gè)。
二、一體化處理的基本思路
公文電子化處理包括掃描、識(shí)別、分類(lèi)、轉(zhuǎn)換和錄入五個(gè)環(huán)節(jié)。這幾個(gè)環(huán)節(jié)中,公文自動(dòng)分類(lèi)和信息的錄入是其中的關(guān)鍵。公文掃描后可以通過(guò)OCR軟件進(jìn)行文字的自動(dòng)識(shí)別,文字識(shí)別軟件一般是自上而下逐行識(shí)別處理,為提高識(shí)別率和加快處理速度,文字識(shí)別軟件不處理文字的顏色和字體大小等信息。為實(shí)現(xiàn)自動(dòng)提取來(lái)文單位、文號(hào)和標(biāo)題等相關(guān)信息,首先要讓程序能定位公文的首頁(yè),由于是多個(gè)公文同時(shí)掃描,要準(zhǔn)確的判定公文的第一頁(yè),就必須要設(shè)置特殊的標(biāo)志位。首頁(yè)定位后,再考慮如何從中提取來(lái)文單位、文號(hào)和標(biāo)題等相關(guān)信息。從文件的特征來(lái)看,文號(hào)因單獨(dú)成行,相對(duì)比較容易提取,因此先找到文號(hào)的位置。接下來(lái)根據(jù)文號(hào)和來(lái)文單位的關(guān)聯(lián)性,獲取來(lái)文單位信息。文件標(biāo)題位于文號(hào)下面,可以通過(guò)文號(hào)來(lái)定位,標(biāo)題的行數(shù)也可以根據(jù)結(jié)尾關(guān)鍵詞來(lái)判斷。由于掃描后的公文是一頁(yè)一個(gè)圖片文檔的形式存儲(chǔ),可以選擇適當(dāng)?shù)母袷睫D(zhuǎn)換軟件,自動(dòng)生成一個(gè)PDF格式圖片文檔和一個(gè)文本格式電子文檔。
三、各環(huán)節(jié)的具體處理方法
(一)掃描儀的選擇和設(shè)定
公文一般是雙面的,因此須選擇一款帶雙面掃描且自動(dòng)進(jìn)紙功能的高速掃描儀,掃描速度為30頁(yè)/分鐘以上。為滿足文字識(shí)別對(duì)圖像精度的要求,掃描模式選擇彩色,分辨率為300dpi,亮度和對(duì)比度可根據(jù)文件紅頭的彩色和文字的清晰度來(lái)調(diào)整,一般以紙張的底色與計(jì)算機(jī)顯示的白色較為接近為宜,此時(shí)電子文件看上去比較清晰但又柔和、不刺眼。另外,掃描儀最好帶有自動(dòng)糾偏功能,有助于提高文字識(shí)別率。
(二)公文的分類(lèi)與合成
公文掃描后,每一個(gè)頁(yè)面以一個(gè)JPG格式的文件形式保存在指定的目錄下,此時(shí)需要按不同的公文把這些JPG格式的文件進(jìn)行合并。系統(tǒng)如何才能自動(dòng)地按不同的公文進(jìn)行區(qū)分呢?為解決這個(gè)問(wèn)題,在掃描之前,每一個(gè)公文之間隔一張A4的紙,紙上可以自定義的特殊的標(biāo)識(shí)符,以能快速識(shí)別且不與文件字符重復(fù)為宜,建議使用連續(xù)的“2222222”,系統(tǒng)一旦遇到這一標(biāo)識(shí)符,自動(dòng)把前后的不同公文分開(kāi),同時(shí)合成PDF格式文件時(shí)刪除用來(lái)分隔的紙的頁(yè)面。這樣就可以一次性在掃描儀中放置多個(gè)公文。系統(tǒng)在處理時(shí)自動(dòng)把已區(qū)分的公文轉(zhuǎn)成PDF格式的電子文檔。由于掃描時(shí)的分辨率為300dpi,雖然清晰,但轉(zhuǎn)成的PDF格式電子文檔容量較大,每一頁(yè)約為300KB,嚴(yán)重影響打開(kāi)的速度,因此在轉(zhuǎn)成PDF格式文檔時(shí)必須進(jìn)行一定比例的壓縮,壓縮的比例以不影響閱讀為宜。
(三)公文基本信息的提取和糾錯(cuò)
文字識(shí)別軟件可自動(dòng)對(duì)JPG格式的電子文檔進(jìn)行逐行識(shí)別,識(shí)別完成后除每一行的字符仍處在原來(lái)的行中之外,其它的版面格式信息已被去除。原有公文字符的顏色和字體等信息將無(wú)法獲取。這樣給提取來(lái)文單位、文件標(biāo)題和文號(hào)帶來(lái)了一定的困難。通過(guò)對(duì)比分析,可以由下面的方法來(lái)解決。
第一步,去除每一行中的空格。文字識(shí)別軟件在識(shí)別的過(guò)程中,文字之間會(huì)產(chǎn)生空格,為便于后面的判斷,把首頁(yè)每一行中的空格進(jìn)行全部清除。
第二步,判斷文號(hào)位置。相對(duì)而言,文號(hào)的位置比較容易找到。一般文號(hào)占據(jù)一行,但文號(hào)中帶有括號(hào)和數(shù)字,符號(hào)識(shí)別的錯(cuò)誤率比較高,因此需要自動(dòng)糾錯(cuò)。為此,首先分析公文首頁(yè)的每一行,符合以下條件的即可定位為文號(hào)位置行:(1)帶有括號(hào)(包括半角或全角六角括號(hào)、半角或全角中括號(hào)、半角或半角小括號(hào)、半角或全角的J或J)且括號(hào)里面包含年份201。(包括數(shù)量數(shù)字。是大寫(xiě)字母O或小寫(xiě)字母。的全角或半角,’可以是任何阿拉伯?dāng)?shù))的情況;(2)括號(hào)后面至少有一位阿拉伯?dāng)?shù),再后面是“號(hào)”;(3)“號(hào)”后面除“簽發(fā)”外,一般沒(méi)有其他文字;(4)如果“號(hào)”后面出現(xiàn)全角或半角右括號(hào)(小括號(hào)、中括號(hào)、六角括號(hào))則不能作為文號(hào)判斷。(5)括號(hào)前面的文字不能多于6個(gè),整行字符數(shù)不超過(guò)16個(gè)。(6)在一行中,第一個(gè)字是“第”,最后一個(gè)字是“期”,中間阿拉伯?dāng)?shù),則可以判斷為簡(jiǎn)報(bào)。按照以上6條原則進(jìn)行判斷,就能很快找到文號(hào)行,同時(shí)自動(dòng)糾正文字識(shí)別軟件未正確識(shí)別引起的來(lái)文號(hào)錯(cuò)誤。
第三步,提取來(lái)文單位名稱。文號(hào)與來(lái)文單位存在關(guān)聯(lián),因此需建立來(lái)文單位與來(lái)文號(hào)之間的關(guān)聯(lián)表,每次有新的部門(mén)公文時(shí)可進(jìn)行自動(dòng)建表。一般來(lái)說(shuō)文號(hào)與來(lái)文單位是一對(duì)一的關(guān)系,但也有可能不同的來(lái)文單位相同的文號(hào),一般出現(xiàn)此種情況即可進(jìn)行自動(dòng)提示,人工選擇。
第四步,文件標(biāo)題提取。文件標(biāo)題位于文號(hào)下方(文號(hào)下面的一條紅線,在文字識(shí)別時(shí)已自動(dòng)清除),一般來(lái)說(shuō)文號(hào)下面的第一行為標(biāo)題,也有可能是二行,甚至多行。由于文件標(biāo)題最后兩個(gè)字比較固定,如“紀(jì)要、批復(fù)、請(qǐng)示、講話、要點(diǎn)、通報(bào)、通知、紀(jì)要、意見(jiàn)、報(bào)告、決定、備忘錄、函、簡(jiǎn)報(bào)、摘要、匯報(bào)、函復(fù)、公告”等,因此根據(jù)最后的關(guān)鍵詞進(jìn)行自動(dòng)匹配,從文件標(biāo)題第一行開(kāi)始,遇到下一行的結(jié)尾處有關(guān)鍵詞,則自動(dòng)組合成標(biāo)題行。
四、系統(tǒng)利用的關(guān)鍵技術(shù)
系統(tǒng)可在ASP,NET的環(huán)境下開(kāi)發(fā),開(kāi)發(fā)的難點(diǎn)是要與掃描軟件、文字識(shí)別軟件和格式轉(zhuǎn)換軟件進(jìn)行無(wú)縫對(duì)接。在實(shí)現(xiàn)過(guò)程中主要用到兩項(xiàng)關(guān)鍵技術(shù)。
1、圖文識(shí)別技術(shù)
圖文識(shí)別技術(shù)是指把掃描好的帶有圖像和文字的圖片中的文字轉(zhuǎn)化成可處理的文字的過(guò)程,市場(chǎng)上這類(lèi)識(shí)別軟件較多,經(jīng)過(guò)比較,選用漢王識(shí)別軟件正確率和可靠性比較高。實(shí)現(xiàn)過(guò)程是調(diào)用漢王識(shí)別軟件API函數(shù)HWOCRRecognizeFile來(lái)把掃描好的圖片文件轉(zhuǎn)化成文字文檔。
2、JPG生成PDF技術(shù)
JPG生成PDF技術(shù)比較成熟,用得比較多的是直接調(diào)用Adobe公司公布的API和Micrsoft公司公布的API。從實(shí)用性的角度出發(fā),這里選則了Micrsoft公司公布的AFI。Micrsoft公司公布的API是與Office Word結(jié)合起來(lái)使用,值得注意的是OfficeWord 2007以上版本才有此API函數(shù),且API函數(shù)并沒(méi)有和Office軟件一起發(fā)布,而且需求另外下載SaveAsPDF插件。
上述兩項(xiàng)技術(shù)主要涉及接口函數(shù)的調(diào)用,調(diào)用過(guò)程比較簡(jiǎn)單,具體方法可參考接口軟件的說(shuō)明文檔,這里不再敖述。
紙質(zhì)公文的電子化處理方法很多,但由于涉及到硬件和軟件的兼容性,特別是接口的問(wèn)題,要完全做到自動(dòng)化處理有一定的難度。應(yīng)用上述方法平均處理一個(gè)公文只要20秒左右,相比傳統(tǒng)的處理方法,效率提高10倍以上,正確率也顯著提高,標(biāo)準(zhǔn)格式的公文基本實(shí)現(xiàn)100%的正確率。由于部分公文版式的不規(guī)范,影響了文字識(shí)別軟件識(shí)別的準(zhǔn)確率,在系統(tǒng)應(yīng)用時(shí)要根據(jù)實(shí)際情況進(jìn)行不斷調(diào)整,以實(shí)現(xiàn)更高的準(zhǔn)確率。隨著辦公系統(tǒng)應(yīng)用的不斷深入和推廣,系統(tǒng)安全和電子印章應(yīng)用問(wèn)題的解決,公文電子化交換最終將逐步取代紙質(zhì)公文的傳遞,但紙質(zhì)公文在短期內(nèi)仍將廣泛存在。