亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

紙質(zhì)公文一體化處理方法芻議

2011-12-31 00:00:00徐志剛繆梓倫

信息化建設(shè) 2011年8期

政府的工作離不開(kāi)公文，它是政府部門(mén)間信息傳遞的主要渠道。因此，公文的數(shù)量十分龐大，一般市級(jí)政府業(yè)務(wù)部門(mén)每天收到的公文數(shù)量少則十幾件，多則幾十件，其中大部分仍為紙質(zhì)公文。例如，筆者所在局收到的紙質(zhì)公文就約占總量的70％，需要通過(guò)掃描儀把這些紙質(zhì)公文一個(gè)一個(gè)地掃描成電子文檔，并手工錄入來(lái)文單位、文號(hào)和標(biāo)題等信息。平均處理一個(gè)公文的時(shí)間為4分鐘，那么，60個(gè)公文就需要4個(gè)小時(shí)。由于工作強(qiáng)度大，輸入的信息容易出錯(cuò)，對(duì)批閱及今后的查詢都帶來(lái)一定的困難。

所謂紙質(zhì)公文一體化處理，就是將多個(gè)公文同時(shí)掃描，系統(tǒng)自動(dòng)把每個(gè)公文處理成便于閱讀和復(fù)制的文檔。同時(shí)自動(dòng)提取公文的來(lái)文單位、文號(hào)和標(biāo)題等信息，并通過(guò)預(yù)設(shè)關(guān)系表的方式，實(shí)現(xiàn)來(lái)文單位和來(lái)文號(hào)之間的自動(dòng)關(guān)聯(lián)。

一、公文結(jié)構(gòu)特征分析

公文分為正式公文與非正式公文，根據(jù)2001年實(shí)行的《國(guó)家行政機(jī)關(guān)公文處理辦法》的規(guī)定，正式公文共有十三種，即命令(令)、決定、公告、通告、通知、通報(bào)、議案、報(bào)告、請(qǐng)示、批復(fù)、意見(jiàn)、函、會(huì)議紀(jì)要。非正式公文包括簡(jiǎn)報(bào)、便函等。由于文種不同，版面格式區(qū)別較大。但不同形式的公文基本上都具有一些共同的特征：一是公文來(lái)文單位、文號(hào)和標(biāo)題等需要錄入的信息都在公文的第一頁(yè)；二是正式公文的文號(hào)單獨(dú)成一行，非正式公文如簡(jiǎn)報(bào)，首頁(yè)“第××期”一般也單獨(dú)成行；三是文件標(biāo)題在文號(hào)下方，一般由一至三行組成，標(biāo)題結(jié)尾的詞語(yǔ)相對(duì)比較固定，常見(jiàn)的有為“紀(jì)要、批復(fù)、請(qǐng)示、講話、要點(diǎn)、通報(bào)、通知、紀(jì)要、意見(jiàn)、報(bào)告、決定、備忘錄、函、簡(jiǎn)報(bào)、摘要、匯報(bào)、函復(fù)、公告”等18個(gè)。

二、一體化處理的基本思路

公文電子化處理包括掃描、識(shí)別、分類(lèi)、轉(zhuǎn)換和錄入五個(gè)環(huán)節(jié)。這幾個(gè)環(huán)節(jié)中，公文自動(dòng)分類(lèi)和信息的錄入是其中的關(guān)鍵。公文掃描后可以通過(guò)OCR軟件進(jìn)行文字的自動(dòng)識(shí)別，文字識(shí)別軟件一般是自上而下逐行識(shí)別處理，為提高識(shí)別率和加快處理速度，文字識(shí)別軟件不處理文字的顏色和字體大小等信息。為實(shí)現(xiàn)自動(dòng)提取來(lái)文單位、文號(hào)和標(biāo)題等相關(guān)信息，首先要讓程序能定位公文的首頁(yè)，由于是多個(gè)公文同時(shí)掃描，要準(zhǔn)確的判定公文的第一頁(yè)，就必須要設(shè)置特殊的標(biāo)志位。首頁(yè)定位后，再考慮如何從中提取來(lái)文單位、文號(hào)和標(biāo)題等相關(guān)信息。從文件的特征來(lái)看，文號(hào)因單獨(dú)成行，相對(duì)比較容易提取，因此先找到文號(hào)的位置。接下來(lái)根據(jù)文號(hào)和來(lái)文單位的關(guān)聯(lián)性，獲取來(lái)文單位信息。文件標(biāo)題位于文號(hào)下面，可以通過(guò)文號(hào)來(lái)定位，標(biāo)題的行數(shù)也可以根據(jù)結(jié)尾關(guān)鍵詞來(lái)判斷。由于掃描后的公文是一頁(yè)一個(gè)圖片文檔的形式存儲(chǔ)，可以選擇適當(dāng)?shù)母袷睫D(zhuǎn)換軟件，自動(dòng)生成一個(gè)PDF格式圖片文檔和一個(gè)文本格式電子文檔。

三、各環(huán)節(jié)的具體處理方法

(一)掃描儀的選擇和設(shè)定

公文一般是雙面的，因此須選擇一款帶雙面掃描且自動(dòng)進(jìn)紙功能的高速掃描儀，掃描速度為30頁(yè)／分鐘以上。為滿足文字識(shí)別對(duì)圖像精度的要求，掃描模式選擇彩色，分辨率為300dpi，亮度和對(duì)比度可根據(jù)文件紅頭的彩色和文字的清晰度來(lái)調(diào)整，一般以紙張的底色與計(jì)算機(jī)顯示的白色較為接近為宜，此時(shí)電子文件看上去比較清晰但又柔和、不刺眼。另外，掃描儀最好帶有自動(dòng)糾偏功能，有助于提高文字識(shí)別率。

(二)公文的分類(lèi)與合成

公文掃描后，每一個(gè)頁(yè)面以一個(gè)JPG格式的文件形式保存在指定的目錄下，此時(shí)需要按不同的公文把這些JPG格式的文件進(jìn)行合并。系統(tǒng)如何才能自動(dòng)地按不同的公文進(jìn)行區(qū)分呢?為解決這個(gè)問(wèn)題，在掃描之前，每一個(gè)公文之間隔一張A4的紙，紙上可以自定義的特殊的標(biāo)識(shí)符，以能快速識(shí)別且不與文件字符重復(fù)為宜，建議使用連續(xù)的“2222222”，系統(tǒng)一旦遇到這一標(biāo)識(shí)符，自動(dòng)把前后的不同公文分開(kāi)，同時(shí)合成PDF格式文件時(shí)刪除用來(lái)分隔的紙的頁(yè)面。這樣就可以一次性在掃描儀中放置多個(gè)公文。系統(tǒng)在處理時(shí)自動(dòng)把已區(qū)分的公文轉(zhuǎn)成PDF格式的電子文檔。由于掃描時(shí)的分辨率為300dpi，雖然清晰，但轉(zhuǎn)成的PDF格式電子文檔容量較大，每一頁(yè)約為300KB，嚴(yán)重影響打開(kāi)的速度，因此在轉(zhuǎn)成PDF格式文檔時(shí)必須進(jìn)行一定比例的壓縮，壓縮的比例以不影響閱讀為宜。

(三)公文基本信息的提取和糾錯(cuò)

文字識(shí)別軟件可自動(dòng)對(duì)JPG格式的電子文檔進(jìn)行逐行識(shí)別，識(shí)別完成后除每一行的字符仍處在原來(lái)的行中之外，其它的版面格式信息已被去除。原有公文字符的顏色和字體等信息將無(wú)法獲取。這樣給提取來(lái)文單位、文件標(biāo)題和文號(hào)帶來(lái)了一定的困難。通過(guò)對(duì)比分析，可以由下面的方法來(lái)解決。

第一步，去除每一行中的空格。文字識(shí)別軟件在識(shí)別的過(guò)程中，文字之間會(huì)產(chǎn)生空格，為便于后面的判斷，把首頁(yè)每一行中的空格進(jìn)行全部清除。

第二步，判斷文號(hào)位置。相對(duì)而言，文號(hào)的位置比較容易找到。一般文號(hào)占據(jù)一行，但文號(hào)中帶有括號(hào)和數(shù)字，符號(hào)識(shí)別的錯(cuò)誤率比較高，因此需要自動(dòng)糾錯(cuò)。為此，首先分析公文首頁(yè)的每一行，符合以下條件的即可定位為文號(hào)位置行：(1)帶有括號(hào)(包括半角或全角六角括號(hào)、半角或全角中括號(hào)、半角或半角小括號(hào)、半角或全角的J或J)且括號(hào)里面包含年份201。(包括數(shù)量數(shù)字。是大寫(xiě)字母O或小寫(xiě)字母。的全角或半角，’可以是任何阿拉伯?dāng)?shù))的情況；(2)括號(hào)后面至少有一位阿拉伯?dāng)?shù)，再后面是“號(hào)”；(3)“號(hào)”后面除“簽發(fā)”外，一般沒(méi)有其他文字；(4)如果“號(hào)”后面出現(xiàn)全角或半角右括號(hào)(小括號(hào)、中括號(hào)、六角括號(hào))則不能作為文號(hào)判斷。(5)括號(hào)前面的文字不能多于6個(gè)，整行字符數(shù)不超過(guò)16個(gè)。(6)在一行中，第一個(gè)字是“第”，最后一個(gè)字是“期”，中間阿拉伯?dāng)?shù)，則可以判斷為簡(jiǎn)報(bào)。按照以上6條原則進(jìn)行判斷，就能很快找到文號(hào)行，同時(shí)自動(dòng)糾正文字識(shí)別軟件未正確識(shí)別引起的來(lái)文號(hào)錯(cuò)誤。

第三步，提取來(lái)文單位名稱。文號(hào)與來(lái)文單位存在關(guān)聯(lián)，因此需建立來(lái)文單位與來(lái)文號(hào)之間的關(guān)聯(lián)表，每次有新的部門(mén)公文時(shí)可進(jìn)行自動(dòng)建表。一般來(lái)說(shuō)文號(hào)與來(lái)文單位是一對(duì)一的關(guān)系，但也有可能不同的來(lái)文單位相同的文號(hào)，一般出現(xiàn)此種情況即可進(jìn)行自動(dòng)提示，人工選擇。

第四步，文件標(biāo)題提取。文件標(biāo)題位于文號(hào)下方(文號(hào)下面的一條紅線，在文字識(shí)別時(shí)已自動(dòng)清除)，一般來(lái)說(shuō)文號(hào)下面的第一行為標(biāo)題，也有可能是二行，甚至多行。由于文件標(biāo)題最后兩個(gè)字比較固定，如“紀(jì)要、批復(fù)、請(qǐng)示、講話、要點(diǎn)、通報(bào)、通知、紀(jì)要、意見(jiàn)、報(bào)告、決定、備忘錄、函、簡(jiǎn)報(bào)、摘要、匯報(bào)、函復(fù)、公告”等，因此根據(jù)最后的關(guān)鍵詞進(jìn)行自動(dòng)匹配，從文件標(biāo)題第一行開(kāi)始，遇到下一行的結(jié)尾處有關(guān)鍵詞，則自動(dòng)組合成標(biāo)題行。

四、系統(tǒng)利用的關(guān)鍵技術(shù)

系統(tǒng)可在ASP，NET的環(huán)境下開(kāi)發(fā)，開(kāi)發(fā)的難點(diǎn)是要與掃描軟件、文字識(shí)別軟件和格式轉(zhuǎn)換軟件進(jìn)行無(wú)縫對(duì)接。在實(shí)現(xiàn)過(guò)程中主要用到兩項(xiàng)關(guān)鍵技術(shù)。

1、圖文識(shí)別技術(shù)

圖文識(shí)別技術(shù)是指把掃描好的帶有圖像和文字的圖片中的文字轉(zhuǎn)化成可處理的文字的過(guò)程，市場(chǎng)上這類(lèi)識(shí)別軟件較多，經(jīng)過(guò)比較，選用漢王識(shí)別軟件正確率和可靠性比較高。實(shí)現(xiàn)過(guò)程是調(diào)用漢王識(shí)別軟件API函數(shù)HWOCRRecognizeFile來(lái)把掃描好的圖片文件轉(zhuǎn)化成文字文檔。

2、JPG生成PDF技術(shù)

JPG生成PDF技術(shù)比較成熟，用得比較多的是直接調(diào)用Adobe公司公布的API和Micrsoft公司公布的API。從實(shí)用性的角度出發(fā)，這里選則了Micrsoft公司公布的AFI。Micrsoft公司公布的API是與Office Word結(jié)合起來(lái)使用，值得注意的是OfficeWord 2007以上版本才有此API函數(shù)，且API函數(shù)并沒(méi)有和Office軟件一起發(fā)布，而且需求另外下載SaveAsPDF插件。

上述兩項(xiàng)技術(shù)主要涉及接口函數(shù)的調(diào)用，調(diào)用過(guò)程比較簡(jiǎn)單，具體方法可參考接口軟件的說(shuō)明文檔，這里不再敖述。

紙質(zhì)公文的電子化處理方法很多，但由于涉及到硬件和軟件的兼容性，特別是接口的問(wèn)題，要完全做到自動(dòng)化處理有一定的難度。應(yīng)用上述方法平均處理一個(gè)公文只要20秒左右，相比傳統(tǒng)的處理方法，效率提高10倍以上，正確率也顯著提高，標(biāo)準(zhǔn)格式的公文基本實(shí)現(xiàn)100％的正確率。由于部分公文版式的不規(guī)范，影響了文字識(shí)別軟件識(shí)別的準(zhǔn)確率，在系統(tǒng)應(yīng)用時(shí)要根據(jù)實(shí)際情況進(jìn)行不斷調(diào)整，以實(shí)現(xiàn)更高的準(zhǔn)確率。隨著辦公系統(tǒng)應(yīng)用的不斷深入和推廣，系統(tǒng)安全和電子印章應(yīng)用問(wèn)題的解決，公文電子化交換最終將逐步取代紙質(zhì)公文的傳遞，但紙質(zhì)公文在短期內(nèi)仍將廣泛存在。

信息化建設(shè)2011年8期

信息化建設(shè)的其它文章: 名刊摘要; 電子政務(wù)發(fā)展現(xiàn)狀的調(diào)研分析; 你和密碼安全嗎?; 信息化在線; 淺談?wù)暧^經(jīng)濟(jì)數(shù)據(jù)庫(kù)建設(shè); 城建檔案的異地備份