亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于OCR的圖像文檔智能重命名系統(tǒng)的設(shè)計與實現(xiàn)

        2021-03-10 09:20:44張焱鑫
        電子技術(shù)與軟件工程 2021年20期
        關(guān)鍵詞:重命名圖像文件手動

        張焱鑫

        (四川文理學(xué)院 四川省達(dá)州市 635000)

        隨著數(shù)字化信息時代的不斷發(fā)展,信息化建設(shè)步伐加快,自動化、數(shù)字化的辦公形式顯得更加便利、高效,這也對日常數(shù)據(jù)、文檔等在形態(tài)、存儲模式、管理方法方面提出了新要求[1]。在日常辦公中數(shù)字化的電子文檔具有存儲容易、分發(fā)便捷、易于搜索等特點,深受歡迎。常見的電子文檔有兩種:一種是由電腦編輯而生成的電子化文檔,另一種是基于紙質(zhì)文檔進(jìn)行處理后轉(zhuǎn)換形成的數(shù)字化文檔。而目前在數(shù)字化管理過程中,后者的存檔管理稍顯不易。比如在文檔掃描時系統(tǒng)采用傻瓜自動命名,對文件未做任何描述,需要進(jìn)行重命名,當(dāng)批量掃描不同文檔時,則需要人工進(jìn)行逐一查看及重命名,這極大的增加了數(shù)字化存檔的難度和門檻。本文針對文檔掃描圖像在存檔命名時無法有效命名的情況進(jìn)行優(yōu)化,提出了一種基于OCR技術(shù)的智能命名系統(tǒng)??蓪崿F(xiàn)自動化、連續(xù)化的批量文檔智能重命名。

        1 系統(tǒng)整體架構(gòu)設(shè)計

        智能重命名系統(tǒng)主要由前段UI 交互界面和后端功能處理兩大部分組成。如圖1所示。UI 交互界面負(fù)責(zé)交互按鈕及數(shù)據(jù)顯示等功能接口,包含了選擇文件路徑、文件列表、圖像顯示、重命名規(guī)則設(shè)置、模式選擇、OCR 識別及識別結(jié)果顯示。后端功能處理部分主要是響應(yīng)各UI 交互功能接口。從選擇的文件路徑中讀取目錄下的圖像文件,并返回文件列表,同時顯示選中的文件圖像。通過選中不同的重命名模式,實現(xiàn)不同場景下的快速重命名。如果列表中文件命名標(biāo)題命名相對統(tǒng)一且規(guī)則,則可以采用自動模式,通過提前設(shè)置識別規(guī)則,便可進(jìn)行快速自動化的批量重命名。如果列表中文件標(biāo)題無固定統(tǒng)一的規(guī)則,或文件版式不一致,存在橫版豎版圖像混合等情況,則可以采用手動模式。手動模式下,可以設(shè)置識別規(guī)則、手動選取識別區(qū)域,同時對于識別的結(jié)果可以進(jìn)行手動校正或修改。

        圖1:軟件工作流程及框架結(jié)構(gòu)圖

        2 系統(tǒng)功能的設(shè)計與實現(xiàn)

        2.1 UI界面的設(shè)計介紹

        本文系統(tǒng)采用QtDesigner 進(jìn)行界面設(shè)計,主要包括四個功能部分:文件列表顯示、圖像顯示、規(guī)則設(shè)置及模式選擇、區(qū)域選擇、按鈕交互功能等,如圖2所示。界面左半側(cè)是圖像顯示區(qū)域,用以顯示打開的圖像文件;右半側(cè)頂部是當(dāng)前目錄文件,用于顯示當(dāng)前路徑下的所有JPG、PNG 格式的圖像文件名稱;其下是重命名規(guī)則區(qū)域,用于設(shè)置OCR 識別條件,對其圖像文件進(jìn)行文字識別后提取符合規(guī)則的題目標(biāo)題,并作為重命名名稱;重命名稱是顯示文字識別后滿足規(guī)則的提取結(jié)果,可以在欄里進(jìn)行手動補充或修改;底部是功能按鈕,靠右側(cè)是命名模式的選擇,分為自動模式和手動模式兩種;中部是打開路徑,啟動系統(tǒng)文件瀏覽器,用以瀏覽文件夾路徑;其次是圖像文件瀏覽按鈕,可以切換前后不同的文件,當(dāng)確定了文件路徑后方可以切換,文件瀏覽到第一個文件時,“上一個”按鈕將會失去使能作用,同理,瀏覽到最后一個文件時,“下一個”按鈕也會失去使能作用;“識別”按鈕是在設(shè)置好各選項后,按下該按鈕進(jìn)行響應(yīng)OCR 識別功能函數(shù);最后是“確定”按鈕,在自動模式下是用于系統(tǒng)完成連續(xù)識別后的結(jié)束確認(rèn),在手動模式下則是對“重命名稱”欄中識別結(jié)果的確認(rèn),并進(jìn)行重命名。

        圖2:區(qū)域拾取及識別效果

        2.2 文件目錄讀取及文件瀏覽

        通過點擊“打開路徑”按鈕即可實現(xiàn)系統(tǒng)文件瀏覽器的調(diào)用,本文采用QtWidgets 中QFileDialog.getExistingDirectory 函數(shù)實現(xiàn)文件夾路徑獲取,對該路徑下的圖像文件進(jìn)行遍歷,并獲取文件名稱和文件類型。同時,構(gòu)造一個字符串?dāng)?shù)組用于存儲路徑下的文件名,并將其結(jié)果顯示在“當(dāng)前目錄文件”的文本框中。

        獲取得到當(dāng)前選擇路徑下的文件后,可通過“上一個”和“下一個”按鈕進(jìn)行圖像文件的順序瀏覽。通過初始化設(shè)置變量ID=0,瀏覽文件過程中每按一次“上一個”或“下一個”即對其進(jìn)行加減1,然后同該文件夾下的文件數(shù)量FilesNum 進(jìn)行比較;

        當(dāng)0=ID 時,說明當(dāng)前文件只有后面有相鄰文件,將“上一個”按鈕使能設(shè)為False;

        當(dāng)0<ID<FilesNum-1 時,說明當(dāng)前文件前后均有相鄰文件,兩個按鈕使能均為True;

        當(dāng)ID=FilesNum-1時,說明當(dāng)前文件只有前面有相鄰文件,將“下一個”按鈕使能應(yīng)設(shè)置為False;

        將ID 的數(shù)值作為索引,在已經(jīng)遍歷的文件名數(shù)組中尋找對應(yīng)的文件圖像,并對其進(jìn)行圖像顯示。

        2.3 工作模式的設(shè)計

        本文設(shè)置了自動模式和手動模式兩種工作方式。兩種模式對于橫版、豎版均有一定的識別能力。

        自動模式主要針對相對簡單的使用場景,文件標(biāo)題均相對簡單、規(guī)則性強(qiáng)、有較大相似性,例如“關(guān)于XXX 的通知”、“關(guān)于XXX 的審定”、“關(guān)于XXX 的意見”等。

        手動模式則是對自動模式的一種補充,偏向針對與掃描文件的標(biāo)題無固定、統(tǒng)一規(guī)則的情況,以及常見表格文檔的掃描圖像,均可以通過鼠標(biāo)自選識別區(qū)域進(jìn)行精準(zhǔn)識別,如圖3所示。

        圖3:測試數(shù)據(jù)一覽

        2.4 精準(zhǔn)識別區(qū)域拾取及手動校正

        手動模式下可以手動指定識別區(qū)域,實現(xiàn)文字的精準(zhǔn)定位和識別。在圖像顯示界面,通過鼠標(biāo)左鍵在按下與松開的位置之間繪制矩形畫框,并對該標(biāo)記區(qū)域的圖像進(jìn)行OCR 識別,完成文字提取。如圖3所示,紅框區(qū)域即為手動標(biāo)記的目標(biāo)文本區(qū)域,標(biāo)記區(qū)域后點擊識別按鈕即可獲取識別結(jié)果,并顯示在“重命名稱:”文本框中,若其結(jié)果有誤可以直接進(jìn)行手動鍵入修改校正。圖示中表格圖像標(biāo)題應(yīng)為“發(fā)文登記表”,其識別結(jié)果為“發(fā)文夏記表”,便可通過手動修改后,點擊確定即可完成正確的重命名。當(dāng)然出現(xiàn)這種情況的可能性很大程度上是由于圖像分辨率不夠高,加上某文字稍顯復(fù)雜或者及其相似引起的。

        2.5 OCR識別及規(guī)則識別

        OCR 識別是本文軟件重要的基礎(chǔ)功能,主要借助Pythontesseract 模塊對掃描圖像中的印刷字體進(jìn)行識別,其支持的圖像格式包括 jpeg、png、GIF、bmp、tiff 等。該模塊的使用非常簡單,調(diào)用內(nèi)置函數(shù)image_to_string()即可識別圖像中的文字。如下:

        ORCtext= pytesseract.image_to_string(img,lang='chi_sim')

        其中img 即為要識別的目標(biāo)圖像,該函數(shù)默認(rèn)是英文識別,對于簡體中文的識別需要添加語言庫參數(shù)lang='chi_sim',即可返回識別的文本結(jié)果ORCtext。

        通過判斷識別的文本結(jié)果中是否包含重命名規(guī)則中設(shè)置的關(guān)鍵詞,進(jìn)而完成目標(biāo)文本的提取。

        3 系統(tǒng)測試及結(jié)果分析

        本文從網(wǎng)頁中收集了15 張通知文件圖像作為測試數(shù)據(jù)(如圖3),并對數(shù)據(jù)集進(jìn)行了橫豎版混合處理。由于重命名的成功與否主要取決于是否識別準(zhǔn)確,因此自動模式與手動模式的識別效果區(qū)別不大,故在此只展示在自動模式下的測試結(jié)果。其結(jié)果如表1所示,其中有2 份文件未成功重命名,有3 份文件重命名稱中出現(xiàn)漏字和錯字的情況,橫豎版圖像對文檔的重命名無任何影響。

        表1:測試結(jié)果

        重命名未成功主要原因是在文字識別的結(jié)果中無法有效檢測到設(shè)置的文本規(guī)則。原本標(biāo)題滿足規(guī)則,但識別不準(zhǔn)確使其不滿足規(guī)則,比如12.jpg 標(biāo)題為“關(guān)于廢止一批規(guī)范性文件的通知”,其OCR結(jié)果未識別到“關(guān)于……通知”的關(guān)鍵詞組,導(dǎo)致無法成功命名,13.jpg 也是同樣的原因。

        OCR 識別不準(zhǔn)確也會導(dǎo)致重命名名稱漏字和錯字的情況,主要取決圖像的掃描質(zhì)量,比如圖像是否清晰、分辨率是否足夠高。其次,文字的復(fù)雜性、相似性也有一定的影響;本文重命名稱漏字和錯字3 份文件中,有2 份文件分辨率較低且相對不夠清晰,比如8.jpg 中(分辨率650*884)“高精尖缺人才”漏掉了“缺”字,“若干規(guī)定”錯識別為“若十規(guī)定”;10.jpg(分辨率480*682)中“勘察”一詞識別漏掉了“勘”字,并將“實用性”誤識別為“實用伯”;另外1 份由于文字相似導(dǎo)致識別錯誤,如15.jpg 中“黨總支”被誤識別為“兌總爻”,“細(xì)則”識別為“細(xì)剎”。

        對于文件標(biāo)題的識別,由于標(biāo)題字體較大,因此圖像的分辨率大小對OCR的識別有一定影響,OCR 識別的準(zhǔn)確性直接決定重命名成功與否。在實際生活中,日常辦公通常采用專用掃描儀進(jìn)行文檔的掃描以獲取圖像,因此能夠保證圖像的分辨率足夠清晰,但需要保證掃描前的紙質(zhì)文檔打印清晰,盡量做到無漏墨、無虛影等不良情況。

        4 總結(jié)

        本文基于OCR 識別技術(shù),針對辦公環(huán)境中的掃描文檔重命名環(huán)節(jié),設(shè)計了一款智能化、可批量化的重命名系統(tǒng),能夠輔助完成掃描文檔的快速有效重命名,進(jìn)而幫助辦公人員提高辦公效率。但識別的準(zhǔn)確率有進(jìn)一步提升空間,若采用深度學(xué)習(xí)訓(xùn)練的離線模型進(jìn)行文字識別或有不錯效果。

        猜你喜歡
        重命名圖像文件手動
        用好Excel,文件批量重命名其實很簡單
        電腦報(2020年20期)2020-06-30 14:33:35
        批量更改網(wǎng)頁文件名稱
        電腦報(2020年11期)2020-06-30 14:32:35
        Windows 10下快速修改文件名
        電腦愛好者(2020年1期)2020-04-28 12:25:29
        小巧手動起來
        圖像電子文件的歸檔格式及其轉(zhuǎn)換研究
        檔案管理(2017年1期)2017-01-17 19:15:57
        風(fēng)行S5001.6L手動尊享型
        世界汽車(2016年8期)2016-09-28 12:09:43
        寶駿5601.8L手動豪華型
        世界汽車(2016年8期)2016-09-28 12:09:00
        C4世嘉 1.6L手動豪華型
        世界汽車(2016年8期)2016-09-28 12:06:49
        在TC界面以縮略圖查看圖像文件
        電腦迷(2012年22期)2012-04-29 20:30:54
        玩轉(zhuǎn)批量重命名
        電腦迷(2012年16期)2012-04-29 00:44:03
        欧美破处在线观看| 在线视频观看免费视频18| 一本大道久久香蕉成人网| 欧美综合区| 在线亚洲国产一区二区三区| 91自拍视频国产精品| 亚洲日韩一区精品射精| 亚洲国产精品一区二区久| 人妻av一区二区三区高| 少妇被爽到高潮喷水免费福利 | 精品午夜中文字幕熟女| 人妻少妇中文字幕在线观看| 国产精品一区二区久久乐下载| 日本污视频| 亚洲国产丝袜美女在线| 老熟女富婆激情刺激对白| 亚洲产国偷v产偷v自拍色戒| 亚洲精品6久久久久中文字幕| 男女动态视频99精品| 人人妻人人澡人人爽人人dvd| a级国产乱理论片在线观看 | 欧美最猛黑人xxxxx猛交| 亚洲AV无码一区二区一二区教师| 国产内射一级一片高清内射视频 | 久久人人爽av亚洲精品| 少妇饥渴xxhd麻豆xxhd骆驼 | 日本岛国大片不卡人妻| 久久人妻一区二区三区免费| 亚洲av午夜国产精品无码中文字| 国产色噜噜| 在线观看国产精品一区二区不卡| 免费人成小说在线观看网站| 男人边吃奶边做好爽免费视频| 国产品精品久久久久中文| 综合亚洲二区三区四区在线| 女的扒开尿口让男人桶30分钟| 欧美三级不卡视频| 一个人看的在线播放视频| 免费av一区二区三区| 久久久国产一区二区三区四区小说| 欧美人与动牲交片免费|