你喜歡寫隨筆或寫游記嗎?隨著博客的流行,有碼字習慣的人是越來越多了。不過,并不是人人都可以長篇大論的,有時我們需要從圖書、雜志等參考資料中提取一些文字素材,以充實自己的作品,而這就要用到掃描儀和OCR文字識別軟件。雖然筆者早在五年前就購買了掃描儀,曾用它掃描過無數(shù)的照片、報紙和雜志,但在擁有了一臺710萬像素的佳能數(shù)碼相機后,就徹底把它給拋棄了!
充足的理由
為何要用數(shù)碼相機代替掃描儀?因為普通掃描儀的掃描速度慢,最多只能掃描A4尺寸的紙張(具體尺寸因不同掃描儀而定),并且很難做到便攜。采用數(shù)碼相機就不同了,出去游玩時,或去圖書館、書店時,帶上它很方便,別說是雜志、圖書,就算是報紙或貼在墻上的大型宣傳資料、廣告海報等都可以輕松收入“囊”中(這些掃描儀只能望而興嘆)。
筆者經過半年多的摸索,對數(shù)碼相機的“掃描”應用比較熟悉,經常在拍好自己需要的文字資料后,就用OCR文字識別軟件把它們轉換成文本保存在電腦中,以供寫博客或寫游記時引用。
文字資料的拍攝
將待拍攝的書本或紙張平放在自然光線充足的桌面上,再把一塊事先準備好的無劃痕、干凈透明的玻璃平放在上面,稍加壓力使紙張平整(圖1)。
先將數(shù)碼相機的分辨率設置大一點(如1600×1200以上),再選用“微距”檔,關閉閃光燈。然后,就正對著文字資料進行拍攝。為了避免拍攝的圖像發(fā)生畸變,要調整好相機的角度,和它與拍攝對象之間的距離。
把照片變成電腦中的文字
在電腦上安裝一款OCR文字識別軟件。筆者使用的是“尚書7號OCR文字個塊(圖2)。識別系統(tǒng)”,其文字和表格識別能力比較強。雖說它是商業(yè)軟件,但很多掃描儀的驅動光盤中都附帶得有(比如筆者的中晶掃描儀),屬于隨盤贈送的軟件。
將數(shù)碼相機拍攝的照片復制到電腦中,用“尚書7號OCR文字識別系統(tǒng)”打開。下面對照片進行文字區(qū)域的分塊,以便OCR文字識別更加精準。這通過拖曳鼠標進行框選就行了,把照片中自己所需要的文字部分劃分為多個塊(圖2)。
點擊工具欄上的“開始識別”按鈕,軟件開始對框選的內容進行文字識別……識別結束后,就得到自己想要的純文本了。此時要注意文字的校對,因為識別后可能存在個別字詞的錯誤。好在該軟件具有文本區(qū)和照片區(qū)的對比,我們很容易檢查出錯別字詞(圖3)。最后,全選識別并校對后的文字,復制并粘貼到自己新建的TXT或DOC文檔中保存。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。