要說電腦的性能,總比手機(jī)強(qiáng)得多吧?令人大跌眼鏡的是,用攝像頭進(jìn)行文字辨識(shí),這個(gè)功能居然是被山寨手機(jī)搶先發(fā)揚(yáng)光大的,真真是讓PC攝像頭大失面子。不過還好,現(xiàn)在PC上的攝像頭不僅可以進(jìn)行文字OCR,而且效果也還不錯(cuò)哦!
誰都可以O(shè)CR
記得當(dāng)年網(wǎng)絡(luò)小說還沒現(xiàn)在這么流行的時(shí)候,網(wǎng)上大部分的小說文本都是由好心人士OCR上傳的。所謂OCR(Optical Character Recognition,光學(xué)字符識(shí)別),就是把書掃描成電子圖片,再用文字識(shí)別軟件把圖片里的字符識(shí)別出來,形成文本文檔。
OCR的先決條件是要有掃描儀,而且掃描圖片時(shí)還比較有講究,規(guī)定要多少dpi的分辨率,用黑白模式才能提高識(shí)別率。不過得益于OCR軟件的發(fā)展,現(xiàn)在文字識(shí)別技術(shù)已經(jīng)越來越強(qiáng)了,用數(shù)碼相機(jī)拍出來的文檔照片也能進(jìn)行OCR了,而且識(shí)別率還挺高的。但如果我們手頭上既沒有掃描儀又沒有數(shù)碼相機(jī)的話該咋辦?嘿嘿,只要有個(gè)攝像頭,我們一樣能夠OCR!
攝像頭和數(shù)碼相機(jī)拍出來的照片其效果自然和掃描儀沒法比,所以要選擇一款好的OCR軟件才行,國產(chǎn)的OCR軟件很多,有《漢王》、《清華文通》、《尚書七號(hào)》和《蒙恬認(rèn)識(shí)王》等,在此我以《漢王文本王》文豪7600全能專業(yè)版(網(wǎng)上能夠很方便地搜索、下載到它)為例進(jìn)行介紹。
攝像頭OCR步步通打開軟件,首先設(shè)置掃描儀,點(diǎn)擊“掃描”按鈕旁的小箭頭,在展開的菜單中點(diǎn)擊“選擇掃描儀”(圖1)。在“選擇來源”窗口可以看到里面有一個(gè)攝像頭,選定它即可(圖2)。
設(shè)置好掃描來源設(shè)備后,點(diǎn)擊“掃描”按鈕,就會(huì)打開預(yù)覽窗口(圖3)。如果所用的攝像頭為30萬像素,默認(rèn)掃描尺寸就是640×480。我們可以根據(jù)畫面顯示效果來進(jìn)行焦距調(diào)節(jié),讓畫面中的文字達(dá)到最清晰的效果。點(diǎn)擊下方的“格式”按鈕,可以打開數(shù)據(jù)流格式設(shè)置窗口(圖4)。有一點(diǎn)要提醒大家注意,即使所用的的攝像頭有插值放大的功能(比如從30萬像素插值放大到130萬像素),OCR軟件也完全不吃插值算法那一套,仍會(huì)按攝像頭所具有的真實(shí)像素值來進(jìn)行拍攝。
點(diǎn)擊“首選項(xiàng)”按鈕,則可以打開畫質(zhì)調(diào)節(jié)窗口,這里的設(shè)置很關(guān)鍵。通常黑白模式的高分辨率圖片識(shí)別率比較高,建議將畫面設(shè)為“黑白模式”,然后調(diào)整亮度和對(duì)比度,讓畫面變得黑白分明,這樣就能極大地提高識(shí)別率。設(shè)置好后點(diǎn)擊“確定”按鈕即可(圖5)。
調(diào)整好畫面效果后,點(diǎn)擊圖3中的“快照”按鈕,把圖片傳送到《漢王文本王》中,在左側(cè)的文件列表里就能看到剛才掃描的圖片了。對(duì)于有些歪斜的圖片,點(diǎn)擊“版面分析”按鈕,軟件會(huì)自動(dòng)把圖片進(jìn)行文字水平校正,然后把要識(shí)別的文字框起來。再點(diǎn)擊“識(shí)別”按鈕,軟件就會(huì)分欄顯示識(shí)別結(jié)果,我們可以在上面的識(shí)別結(jié)果窗口中再進(jìn)行人工校正,把識(shí)別錯(cuò)誤的手工內(nèi)容修改過來(圖6)。
校正完成后,點(diǎn)擊“導(dǎo)出Word”按鈕,識(shí)別結(jié)果就會(huì)導(dǎo)出成Word文檔了,很方便吧?
用攝像頭進(jìn)行文字OCR,對(duì)操作者的功力要求還是相當(dāng)高的。我有幾點(diǎn)經(jīng)驗(yàn),在最后跟大家分享一下。
1.攝像頭要選擇能調(diào)節(jié)焦距的,而且微距拍攝能力越強(qiáng)越好。
2.拍攝環(huán)境光線要充足,要靈活調(diào)節(jié)畫面亮度和對(duì)比度。
3.鏡頭離文字越近,拍攝的文字就越大,就越利于識(shí)別,但要注意調(diào)整焦距,不能讓畫面模糊,也不能因?yàn)榫嚯x太近讓文字拍得過于變形。