周子江朱德龍
淺談水文資料整編成果的數(shù)字化
周子江1朱德龍2
歷年水文資料整編生成的成果絕大部分是表格,在2000年以前,受制于當(dāng)時(shí)的主客觀條件,很多單位在將水文原始數(shù)據(jù)生成整編成果表并打印成冊(cè)后,并沒有將數(shù)據(jù)文件按照統(tǒng)一的格式以電子表格的形式存儲(chǔ)于電腦中,造成資料分析挖掘處理上的不便。隨著對(duì)裝訂成冊(cè)紙質(zhì)成果翻閱次數(shù)的增加,紙質(zhì)成果逐漸開始磨損和破壞。由于沒有電子表格,一旦成果被破壞后,就會(huì)造成水文資料永久性的缺失。如何保護(hù)好這些寶貴的水文資料,將紙質(zhì)的水文整編成果表轉(zhuǎn)換成電子表格作為備份,是亟待解決的問題。隨著掃描儀的普及與廣泛應(yīng)用、計(jì)算機(jī)技術(shù)及OCR(OpticalCharacter Recognition,光學(xué)字符識(shí)別)技術(shù)的日臻完善,可以快速、準(zhǔn)確地將紙質(zhì)表格轉(zhuǎn)換成可編輯的電子表格,成為代替手工錄入的主要方法。
將紙質(zhì)的成果表轉(zhuǎn)換電子表需經(jīng)過成果掃描→圖片處理→OCR識(shí)別→成果校驗(yàn)等幾個(gè)步驟,而前兩個(gè)步驟處理的好壞對(duì)后兩個(gè)步驟有決定性的影響。
1.OCR識(shí)別前的處理
OCR識(shí)別前,首先是要將紙質(zhì)的資料整編成果表轉(zhuǎn)換成圖片格式,數(shù)碼相機(jī)和掃描儀都可以完成這個(gè)任務(wù)。不過由于數(shù)碼相機(jī)存在鏡頭畸變、透視變形等問題,拍照得到圖片中的直線看起來是歪的,而后續(xù)處理又要花費(fèi)大量的時(shí)間,有點(diǎn)得不償失,因此應(yīng)當(dāng)將掃描儀作為轉(zhuǎn)換成圖片格式的首選工具。同時(shí),為使掃描速度和精度能有一個(gè)很好的平衡,也為后續(xù)OCR識(shí)別有較高的準(zhǔn)確率,掃描時(shí)宜選擇成像顏色為黑白,掃描儀分辨率調(diào)整為300dpi左右;如掃描得到的表格圖片有一定角度的傾斜,還須在掃描后使用圖像處理軟件進(jìn)行傾斜糾正。
2.OCR識(shí)別
在兼顧OCR識(shí)別速度、準(zhǔn)確率的前提下,OCR軟件選用ABBYY FineReader Professional Edition,同時(shí)因水文整編成果表大部分是表格和數(shù)字,為提高識(shí)別準(zhǔn)確率,首先設(shè)置軟件的識(shí)別語言為純數(shù)字,如圖1。
圖1 識(shí)別語言設(shè)置
識(shí)別前,首先在需要識(shí)別的內(nèi)容上畫出表格塊,如圖2。
圖2 畫出表格塊
然后分析表結(jié)構(gòu),程序自動(dòng)畫出表格線,如果程序自動(dòng)畫出的表格線有缺少或多余的,可以人為添加或刪除,確保是所需要的表結(jié)構(gòu)(圖3)。
圖3 分析表結(jié)構(gòu)及畫出表格線
接著選擇圖3中的Read Block,讀取表格塊的內(nèi)容。最后將OCR識(shí)別出來的數(shù)據(jù)導(dǎo)出到Excel軟件,用校驗(yàn)程序進(jìn)行最后的處理。
3.OCR識(shí)別后的處理
要確保識(shí)別數(shù)據(jù)的準(zhǔn)確性,就需要對(duì)識(shí)別得到的數(shù)據(jù)進(jìn)行校驗(yàn)。校驗(yàn)的方法根據(jù)水文數(shù)據(jù)成果表的特點(diǎn)分成兩類。對(duì)于如逐日降水量表、逐日最高最低潮(水)位表、逐日水溫表、逐日蒸發(fā)量表、逐潮高低潮位表等能直接得到原始數(shù)據(jù)加工文件的,可先得到原始數(shù)據(jù)加工文件,再用資料整編軟件進(jìn)行整編,最后用生成的成果表同紙質(zhì)成果對(duì)照一下月年特征值,如有錯(cuò)誤,則修改后再進(jìn)行整編,直到同紙質(zhì)成果相一致;另一類如逐日平均水位表、逐日平均流量表等無法還原得到原始數(shù)據(jù)加工文件的,則將得到的表格數(shù)據(jù)首先復(fù)制到往年的成果表中,通過計(jì)算月均值、獲取年特征值來達(dá)到校驗(yàn)的目的。
實(shí)踐證明,采用OCR識(shí)別技術(shù)及成果校驗(yàn)程序,可以識(shí)別和還原各種水文資料整編成果表;可以提高表格錄入效率,減少人為錄入數(shù)據(jù)的錯(cuò)誤,節(jié)省大量人力;為水文資料整編成果的數(shù)字化提供了一種切實(shí)可行的方法,也為水文資料整編數(shù)據(jù)庫(kù)的建立打下堅(jiān)實(shí)的基礎(chǔ)■
(作者單位:1.江蘇省水文水資源勘測(cè)局蘇州分局2151292.江蘇省太湖地區(qū)水利工程管理處215128)