亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖像的表格識別問題研究

        2021-06-20 02:22:18雷寰宇
        科技視界 2021年13期
        關鍵詞:單元格像素點輪廓

        雷寰宇

        (桂林電子科技大學信息科技學院,廣西 桂林 541004)

        0 引言

        傳統(tǒng)的企業(yè)、事業(yè)單位收集數(shù)據(jù)、保存數(shù)據(jù)一般采用紙質(zhì)文檔表格進行。紙質(zhì)文檔表格雖然能夠比較方便地進行數(shù)據(jù)的收集工作,但是紙質(zhì)文檔表格在處理數(shù)據(jù)方面,需要將紙質(zhì)表格數(shù)據(jù)先通過手工錄入電腦中,形成電子表格再進行處理。其過程極其煩瑣,需要花費大量的人力物力進行錄入操作,并且錄入錯誤率和速度都容易受人為因素影響。不僅如此,紙質(zhì)文檔表格在后續(xù)的存檔和查閱工作方面都存在較大的難題。為了減輕人工的負擔,提高紙質(zhì)文檔表格的處理速度,本文研究了一種基于圖像的表格識別應用,通過本應用,可以將固定版面的紙質(zhì)文檔表格圖像進行灰度化處理,二值化處理等,使計算機更容易處理圖像,再通過圖像矯正,橫豎線識別和輪廓提取等技術得到表格框架,然后對表格框架進行單元格分割,最后利用光學符號識別技術識別單元格中的英文,數(shù)字和中文。本應用的研究,將極大地節(jié)約人力物力,提高處理紙質(zhì)表格的工作速度。

        1 圖像預處理

        通過手機等移動設備采集的圖像容易受拍照環(huán)境的影響,容易產(chǎn)生圖像過曝,失真等情況。而在圖像分析中,圖像質(zhì)量的好壞將直接影響識別應用效果的精度和速度,所以在圖像處理前,需要對圖像進行預處理,以便消除圖像中的無關信息,恢復有用的信息,增強有關信息的可檢測性,最大限度簡化圖像數(shù)據(jù)。

        1.1 圖像灰度化

        在灰度圖中,RGB色彩分量全部相等?,F(xiàn)在大部分的彩色圖像包含三種顏色(紅色、綠色和藍色)通道,可以將灰度化看作是將三維通道信息轉(zhuǎn)換為一維灰度數(shù)據(jù)的過程[1]。因此,為了提高處理速度,需要減少所需處理的數(shù)據(jù)量。本應用使用Opencv中的cvtColor()函數(shù)對圖像進行顏色空間轉(zhuǎn)化處理,將彩色圖像轉(zhuǎn)化成只有灰度顏色通道且灰度范圍在0~255之間的灰度圖,大大減少了圖像中的無用信息,如圖1所示。

        圖1 灰度化圖像

        1.2 二值化

        二值化是選取適當?shù)拈撝礣n與每一個像素點的灰度值進行比較,將所有大于或等于閾值的像素點的灰度值設置為255,所有小于閾值的像素點的灰度值設置為0,從而將灰度圖像中每個像素點的灰度值設為0或255,使整副圖像呈現(xiàn)出明顯的黑白效果[2]。為了減少不必要的圖像信息,保留有用的圖像輪廓信息,本應用使用Opencv中的adaptiveThreshold()自適應閾值化函數(shù)實現(xiàn)對圖像的二值化處理,通過像素的鄰域塊的像素值分布來確定該像素位置上的二值化閾值。

        1.3 高斯模糊處理

        由于拍攝的圖像會很容易受到許多環(huán)境因素的影響,容易出現(xiàn)圖像失真,較多噪點等問題,為了消除圖像中的噪點,本應用使用Opencv中的GaussianBlur()函數(shù)對圖像進行高斯模糊處理。

        1.4 橫豎線提取

        由于圖像處理后期可能需要不含內(nèi)容的表格框架圖像,本應用使用Opencv中getStructuringElement()函數(shù),得到指定形狀和尺寸的結構元素,并通過腐蝕和膨脹操作將橫豎線識別出來,其次再將識別出來的橫豎線結合起來,形成表格框線圖,如圖2所示。

        圖2 表格框線提取圖像

        2 圖像矯正處理

        通過手機采集拍攝的圖像往往存在表格圖像傾斜問題,如圖3所示。為了解決此問題,本應用通過圖像邊緣檢測,圖像輪廓檢測,尋找最大輪廓和輪廓多邊形擬合等操作獲取表格四個頂點坐標,并通過透視變換操作將傾斜的圖像矯正,得如圖4所示結果。

        圖3 變換前的圖像

        圖4 透視變換后的圖像

        2.1獲取傾斜表格的四個頂點坐標

        為了后一步的透視變換矯正圖像操作,必須獲得傾斜后的圖像中表格的四個頂點坐標。

        2.1.1 獲得預處理圖像

        為了去除無用信息,保存需要的圖像信息,本應用通過對獲取到的圖像使用高斯模糊操作,灰度化,二值化和表格橫豎線識別操作得到只含有表格框線的二值化圖像。

        2.1.2 獲取表格輪廓數(shù)據(jù)

        為了提取出圖像中的表格,本應用在已經(jīng)預處理好的圖像上首先使用opencv中的Canny()函數(shù)進行邊緣檢測操作,通過表格框線與其兩側(cè)像素點數(shù)值相差較大,變化較快的特性,將表格框線提取出來。再利用已經(jīng)提取出來的表格框線進行圖像輪廓檢測操作。由于表格存在多個單元格,每個單元格都可以被檢測出輪廓,為了消除表格內(nèi)存在一個輪廓包含多個輪廓的問題,本算法將輪廓檢索模式設置cv2.RETR_EXTERNAL只檢測最外層輪廓,輪廓逼近方法為cv2.CHAIN_APPROX_SIMPLE壓縮水平方向、垂直方向和對角線方向的元素,保留該方向的終點坐標。

        2.1.3 獲取最外層表格輪廓的四個頂點

        預處理圖像進行輪廓提取處理后產(chǎn)生了圖像的輪廓數(shù)據(jù),將輪廓數(shù)據(jù)存儲在一個數(shù)據(jù)列表中,使用輪廓所構成的面積大小作為排序依據(jù),對輪廓數(shù)據(jù)列表進行從大到小排序,其次對列表中每個輪廓數(shù)據(jù)進行遍歷,對每一個輪廓數(shù)據(jù)進行計算輪廓周長,然后利用計算出的輪廓邊長作為參數(shù),進行輪廓多邊形擬合處理,如果擬合處理的結果為四個頂點的,表示找到該表格的最大外邊框,并同時得到最大外邊框的四頂點坐標。

        2.2 透視變換

        對于發(fā)生了透視畸變的圖像,透視變換解決了一般仿射變換不能改變圖像內(nèi)部點相對位置的缺陷[3]。本應用將源圖像的四頂點坐標與目標圖像的四頂點坐標統(tǒng)一按照左上,右上,左下,右下的順序排序,使用Opencv中的getPerspectiveTransform()函數(shù)得到由源圖像中矩形到目標圖像矩形的變換矩陣。然后使用Opencv中的warpPerspective()函數(shù)來得到變換好的正視圖。

        3 單元格的分割

        在識別出橫豎線后,分別將識別出來橫線圖和豎線圖結合形成交點圖,得到了每個橫豎線的交點坐標,將其保存到兩個數(shù)據(jù)列表中。其次在這兩個數(shù)據(jù)列表中進行排序,刪除掉相鄰兩個像素點的像素值差值小于該表格最小單元格長度的后一個像素點。最后嵌套循環(huán)兩個數(shù)據(jù)列表對表格進行圖像分割剪裁,取出單元格。

        4 單元格內(nèi)容光學符號識別

        本應用利用PaddlePaddle生態(tài)下的預訓練模型chinese_ocr_db_crnn_mobile(版本為1.1.1),使用預測API進行單元格圖片文字識別。其基于chinese_text_detection_db_mobile檢測得到文本框,識別文本框中的中文文字,之后對檢測文本框進行角度分類。最終識別文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷積遞歸神經(jīng)網(wǎng)絡。

        5 實驗分析

        本次實驗采用的實驗平臺為Python3.7+Pycharm2020.1.3+opencv-python4.1.2.30。圖5為一張表格圖像傾斜的測試樣圖。

        圖5 測試原圖

        通過對測試樣圖進行圖片矯正和表格框線提取,單元格分割操作并保存每張分割后的單元格圖像后,得到圖6的結果。通過本次實驗可以看出,單元格內(nèi)容識別率并不是很高。

        圖6 csv結果圖

        6 結語

        本文提出了一種基于圖像的表格提取應用,通過對源圖像進行圖像預處理,圖像矯正等處理,消除圖像因環(huán)境和拍攝產(chǎn)生的干擾,再通過橫豎線識別,提取出表格框線,并通過表格框線的交點坐標進行表格圖像的單元格分割,再經(jīng)過光學符號識別得到單元格中的內(nèi)容并寫入csv文件。

        猜你喜歡
        單元格像素點輪廓
        OPENCV輪廓識別研究與實踐
        玩轉(zhuǎn)方格
        玩轉(zhuǎn)方格
        基于實時輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
        淺談Excel中常見統(tǒng)計個數(shù)函數(shù)的用法
        西部皮革(2018年6期)2018-05-07 06:41:07
        基于canvas的前端數(shù)據(jù)加密
        基于逐像素點深度卷積網(wǎng)絡分割模型的上皮和間質(zhì)組織分割
        在線學習機制下的Snake輪廓跟蹤
        計算機工程(2015年4期)2015-07-05 08:27:39
        基于Node-Cell結構的HEVC幀內(nèi)編碼
        電視技術(2014年11期)2014-12-02 02:43:28
        創(chuàng)造早秋新輪廓
        舒適廣告(2008年9期)2008-09-22 10:02:48
        东京热加勒比日韩精品| 六月婷婷久香在线视频| 亚洲av成人一区二区三区在线观看| 精品性高朝久久久久久久| 色播中文字幕在线视频| 亚洲国产精品av麻豆一区| 亚洲成在人线视av| 国产精品国产三级国av在线观看| 超碰97人人做人人爱少妇| 精品国产一区二区三区久久女人| 国产三级在线观看性色av| 开心激情视频亚洲老熟女| 男人一插就想射的原因| 亚洲综合图色40p| 亚洲av无码乱码在线观看裸奔 | 精品偷拍被偷拍在线观看| 色妞www精品视频| 国产在线视频h| 日本黄色一区二区三区视频 | 亚洲 日本 欧美 中文幕| 色屁屁www影院免费观看入口| 中文字幕乱伦视频| 国产精品白浆一区二区免费看| 国产99精品精品久久免费| 日韩av免费一区二区| 丰满少妇高潮惨叫久久久一| 国产精品一区二区电影| 亚洲av日韩一区二三四五六七| 在线观看国产白浆一区三区| 美女网站免费福利视频| 日韩AVAV天堂AV在线| 亚洲va欧美va人人爽夜夜嗨| 日本a级片一区二区三区| 精品国产免费一区二区三区| 熟女俱乐部五十路二区av| 精品国产亚洲一区二区三区演员表| 永久免费在线观看蜜桃视频| 日本伦理精品一区二区三区| 国产乱xxⅹxx国语对白| 亚洲精品成人国产av| 国产精品又湿又黄九九九久久嫩草 |