亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        制作文字底稿的高級技術(shù)

        2021-09-27 08:57:14國防科技大學(xué)電子對抗學(xué)院徐濟仁
        電子世界 2021年15期
        關(guān)鍵詞:掃描儀對話框識別率

        國防科技大學(xué)電子對抗學(xué)院 琚 振 徐濟仁

        73676部隊 劉同贊

        安徽建筑大學(xué)電子學(xué)院 吳東升

        合肥工業(yè)大學(xué)機汽學(xué)院 趙小蘭

        底稿,俗稱草稿,原稿。從廣義上講是出版、印刷的原始根據(jù),在印刷的五大要素(原稿、印版、承印物、油墨、印刷機械)中居于首位。一般由客戶提供。文字原稿由作者和編輯決定,其社會效果取決于原稿的內(nèi)容,印刷質(zhì)量只與印刷技術(shù)和條件有關(guān)。

        底稿的來源多種多樣,有的來自于出版社的書,有的來自于網(wǎng)絡(luò),有的來源于廣告宣傳手冊,等等。出版書的書經(jīng)過作者的反復(fù)錘煉和修改,錯誤很少,所以書的內(nèi)容值得我們借鑒和使用。書里面的內(nèi)容可以通過掃描,然后使用ocr文字識別軟件,通常這些文字識別軟件識別正確率是非常高的,我們平時用的比較多的兩款軟件CAJViewer和Adobe Acrobat,都自帶ocr文字識別功能。

        1 從印刷品到可編輯的文字

        書是最重要的印刷品。

        首先,第一步我們需要對書的內(nèi)容進行掃描,我們盡可能的把書貼近掃描儀的玻璃板,用力按住書。然后再在書的外面蓋上一塊黑色的布,不要漏光。最好能夠?qū)鸪梢豁撘豁摰剡M行掃描,這樣掃描的效果是最好的。

        現(xiàn)在的書大部分都是黑白的,使用OCR文字識別軟件處理的時候,識別準(zhǔn)確率非常高?;旧喜粫惺裁村e誤,或者錯誤很少。但是有的書里面有彩色的插頁,我們可以先把它轉(zhuǎn)成灰色圖像,然后在進行ocr文字識別。

        有的書在印刷的時候。正文采用了白底黑字,注釋部分采用了其他的顏色背景,比方說淡黃色,如圖1所示。

        圖1 書掃描效果截圖

        我們這張掃描圖片是將書拆開之后單頁掃描的,掃描儀的分辨率是200dpi。分辨率不能太低,會影響OCR文字識別準(zhǔn)確率的。分辨率如果低于100 dpi,文字識別準(zhǔn)確率會受到影響。

        我們將掃描頁面分成兩個明顯的區(qū)域,分別給予編號:1和2,編號1區(qū)塊,不是正文,相關(guān)鏈接類似于注釋,背景是淡黃色,OCR文字識別準(zhǔn)確率非常低,編號2區(qū)塊是正文,白底黑字。Ocr文字識別率準(zhǔn)確率非常高。

        因為是單頁掃描。掃描的時候,掃描儀玻璃板上面有一個蓋板,完全可以把單頁紙蓋住,因為不漏光,所以掃描的效果非常好,沒有一點點的黑色(掃描的時候,漏光的部分都是黑色的)。這也是我們向大家推薦使用掃描儀掃描書的時候,要盡可能的把書拆成單頁進掃描的原因。

        在正式掃描之前。需要使用圖像處理軟件ACDSEE對掃描圖片進行簡單的處理。

        (1)觀察掃描圖片有無上下偏移,有的不是非常明顯的上下偏移,肉眼沒有辦法進行觀察,我們可以用acdsee打開這個掃描圖片,點擊ACDSEE左邊工具欄里面的“旋轉(zhuǎn)”按鈕,圖像處理軟件ACDSEE會顯示校正用的網(wǎng)格線,如圖2的的示。將文字和網(wǎng)絡(luò)線進行比對就可以看出,文字有沒有上下偏移。如果有偏移,可以通過這個旋轉(zhuǎn)操作功能,將文字調(diào)整成水平。

        圖2 旋轉(zhuǎn)操作時顯示的網(wǎng)格線

        (2)對掃描的圖片進行適當(dāng)?shù)牟眉?。把不需要的部分統(tǒng)統(tǒng)去掉,包括頁眉、頁腳和頁碼等,把需要文字識別的正文和注釋部分以及其他需要識別的部分保留下來。

        經(jīng)過旋轉(zhuǎn)和裁剪后的圖片,下一步進行OCR文字識別。

        有的掃描儀隨機贈送ocr文字識別軟件。掃描一頁后,自動進行旋轉(zhuǎn)校正和裁剪,后然進行OCR文字識別;也可以手工進行旋轉(zhuǎn)校正和裁剪,然后進行OCR文字識別。

        有的掃描儀沒有隨機贈送ocr文字識別軟件,或者功能一般,識別準(zhǔn)確率不高,功能也一般。

        無論掃描儀帶不帶OCR文字識別軟件,建議大家使用我們平時用的比較多的兩款軟件CAJViewer和Adobe Acrobat,都自帶ocr文字識別功能。因為,它們的識別準(zhǔn)確率和擾干擾能力都非常強,而且通用性強。

        2 Adobe Acrobat使用方法(適用于出版社圖書,多頁處理)

        具體操作方法如下:

        (1)掃描圖片,經(jīng)過旋轉(zhuǎn)和裁剪之后,我們用acrobat將它們合并成一個PDF文件。

        (2)點擊菜單欄里面的“視圖”->“工具”->“文本識別”,在窗口的右側(cè)彈出工具欄。點擊“文本識別”->“在本文件中”,系統(tǒng)彈出“識別文本”對話框,如圖3所示。

        圖3 識別文木界面

        點“確認(rèn)”關(guān)閉“識別文本”對話框。隨后ACROBAT軟件,調(diào)用內(nèi)嵌的OCR文字識別軟件,對圖像進行旋轉(zhuǎn),糾偏,分解頁面,處理,后處理,如圖4所示。最后得到可編輯的文字。

        圖4 Acrobat軟件對圖象的處理操作步驟圖

        (3)點擊“編輯”->“全部選定”(快捷鍵CTRL+A),

        如果是首次使用,會彈出“掃描頁面警告”對話框,如圖5所示。

        圖5 首次使用提示對話框

        點“確認(rèn)”關(guān)閉對話框。

        (4)點擊“編輯”->“復(fù)制”(快捷鍵CTRL+C),OCR文字識別的結(jié)果已經(jīng)在剪切板上。

        (5)在WORD中新建文件,按CTRL+V,將剪切板上內(nèi)容粘貼在新文件上。

        對照原文,注意觀察文字識別準(zhǔn)確率,有的識別率非常高,可以直接使用。有的識別率非常底,需要重新處理。我們發(fā)現(xiàn)圖1中,編號1區(qū)塊文字識別準(zhǔn)確率非常低,可能是黃色背景的原因。有的出版社為了防止盜版,專門加入一些特殊的背景,使用OCR文字識別軟件,文字識別準(zhǔn)確率非常低。

        處理方法非常簡單,在圖1中,將單頁分成二個區(qū)塊,編號2區(qū)塊識別率高,直接使用。編號1區(qū)塊識別率非常低。用ACDSEE圖像處理軟件將編號1區(qū)塊單獨剪輯出來,如圖6所示。

        圖6 單獨剪輯效果圖

        圖7 自動爆光效果圖

        如果認(rèn)可這種處理效果,點擊完成。

        點擊菜單項上面的“修改“-》更改色深-》256階灰度,結(jié)果如圖8所示。

        圖8 灰色圖象效果圖

        圖9 曝光效果

        如果認(rèn)可這種處理效果,點擊完成。

        這時,如果用OCR文字識別軟件來識別,識別率應(yīng)該非常高。

        我們來試一試,看識別率是多少?

        ①將圖片另存為一個圖片文件。

        ②將這個圖片文件轉(zhuǎn)換成一個單獨的PDF文件。

        ③點擊菜單欄里面的“視圖”->“工具”->“文本識別”,在窗口的右側(cè)彈出工具欄。點擊“文本識別”->“在本文件中”,等待系統(tǒng)識別結(jié)果。按CTRL+A鍵,按CTRL+C鍵,在WORD文件中,按CTRL+V鍵,將結(jié)果粘貼出來,看識別結(jié)果。

        我們發(fā)現(xiàn)識準(zhǔn)確率提高了非常多。

        3 CAJViewer使用方法(適用于期刊,單頁處理)

        具體操作方法如下:

        (1)掃描圖片,經(jīng)過旋轉(zhuǎn)和裁剪之后,我們用acrobat將它們合并成一個PDF文件。

        (2)點擊“工具”->“文本選擇”。

        將鼠標(biāo)移動到圖像文本上,我們會發(fā)現(xiàn)鼠標(biāo)箭頭變成了另外一種形狀,而不是編輯狀態(tài)。

        (3)點擊“工具”->“文字識別”。鼠標(biāo)箭頭變成十字絲,選中需要識別文字圖象,系統(tǒng)自動彈出“文字識別結(jié)果”對話框,文字識別結(jié)果顯示在編緝框內(nèi)。

        猜你喜歡
        掃描儀對話框識別率
        姐姐是掃描儀
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        正常恢復(fù)虛擬機
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        Bootlace Worms’Secret etc.
        提升高速公路MTC二次抓拍車牌識別率方案研究
        高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
        便攜高速文件掃描儀
        便攜高速文件掃描儀
        新型槍彈掃描儀
        中文字幕色婷婷在线视频| 比比资源先锋影音网| 欧美黑寡妇特a级做爰| 成av人片一区二区三区久久| 国产成人无码区免费网站| 亚欧乱色束缚一区二区三区| 午夜视频在线观看日本| 久久久麻豆精亚洲av麻花| 久久久久久夜精品精品免费啦| 97久久精品人妻人人搡人人玩| 亚洲依依成人亚洲社区| 亞洲綜合一區二區三區無碼| av网站可以直接看的| 久久久精品国产av麻豆樱花| 国产在线观看91一区二区三区| 国产精品 亚洲 无码 在线| 国产人妻久久精品二区三区特黄| 丝袜足控一区二区三区| 国产欧美亚洲精品第二区首页| av免费在线观看网站大全| 久久久精品国产免费看| 亚洲国产精品无码久久一区二区| 欧美video性欧美熟妇| 久久天天躁夜夜躁狠狠躁2022| 在线不卡中文字幕福利| 高清不卡av在线播放| 国产一区二区三区久久悠悠色av| 午夜精品射精入后重之免费观看 | 久久久久亚洲精品中文字幕| 欧美亚洲高清日韩成人| 曰本亚洲欧洲色a在线| 亚洲综合国产精品一区二区| 免费看美女被靠到爽的视频| 成人综合网亚洲伊人| 国产AV无码专区亚洲AV桃花庵| 日本高清一区二区三区视频| 大香蕉青青草视频在线| 精品久久久久久久久午夜福利| 国内少妇偷人精品视频免费| 久久99精品这里精品动漫6| 国产剧情亚洲一区二区三区|