亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向智能手機拍攝的變形文檔圖像校正*

        2022-01-24 02:16:22馮百明
        計算機工程與科學(xué) 2022年1期
        關(guān)鍵詞:頁面變形文本

        周 麗,馮百明,關(guān) 煜,方 格

        (西北師范大學(xué)計算機科學(xué)與工程學(xué)院, 甘肅 蘭州 730070 )

        1 引言

        在生活中,拍攝書籍或者資料時,由于書籍較厚和拍攝方式等原因,經(jīng)常會發(fā)生圖像中所拍頁面出現(xiàn)透視、傾斜或彎曲變形等現(xiàn)象,這些現(xiàn)象對圖像的后續(xù)應(yīng)用,諸如圖像識別、機器視覺等造成很大的影響。因此,需要對這些不利后續(xù)應(yīng)用的變形進(jìn)行校正,以便更好地使用文檔圖像。目前,對透視和傾斜變形圖像的校正方法比較成熟,但對彎曲變形圖像仍存在校正效果不理想的問題,本文主要研究彎曲變形圖像的校正。

        頁面彎曲變形的校正技術(shù)主要有基于連通域的方法[1-6]、基于3D技術(shù)的校正方法[7 - 9]和基于模型的方法[10 - 12]。Gatos等人[1]提出了一種對于任意變形文檔分割的校正方法。該方法首先通過提取單詞的上基線和下基線[2],并用直線來擬合,然后找到最近鄰單詞之間的傾角關(guān)系,逐步將每個單詞進(jìn)行校正。Liu等人[3]介紹了一種基于字符迭代綁定和平行線法構(gòu)造曲線的恢復(fù)方法,增加了很多限制規(guī)則,這無疑增加了算法的復(fù)雜度,而且對變形圖像的校正效果不理想。Liu等人[4]同時又提出了一種基于文本邊界線調(diào)整的復(fù)原方法,這種方法不依賴文本行,對文檔圖像的內(nèi)容沒有限制。國內(nèi)研究人員常使用字符分割的方法[5,6],這種方法提取字符比較耗時。Ulges等人[7]利用3D信息將四邊形映射到正確的尺寸和位置,但該方法需要提前知道頁面布局情況且要求相機垂直于書脊。Zhang等人[8]利用SFS(Shape-From-Shading)技術(shù)來提取用于3D建模的信息,在文檔圖像的幾何校正方面取得了不錯的效果,其公式能夠很容易進(jìn)行修改,以適應(yīng)不同的光照條件。Tang等人[9]應(yīng)用可展平面錐面來建模圖像文檔變形,但局限于個別情況。Fu等人[10]提出使用模型轉(zhuǎn)換的方法對變形圖像進(jìn)行校正,模型轉(zhuǎn)換的方法可以用在不同的語言上,而且對復(fù)雜的文檔圖像也能進(jìn)行校正,但校正速度較慢。Kim等人[11]在建立廣義圓柱模型研究成果的基礎(chǔ)上,提出了一種成本函數(shù)的校正方法。Kil等人[12]基于Kim等人的研究成果,將圖像中的線段屬性編入成本函數(shù)進(jìn)行校正,當(dāng)線段扭曲變形嚴(yán)重時,校正效果不理想。Meng等人[13]使用向量場來對單一變形頁面進(jìn)行三維建模,當(dāng)變形類型多樣時,效果較差。Li等人[14]提出基于塊分割和卷積神經(jīng)網(wǎng)絡(luò)模型的校正方法,復(fù)雜度較小,但這種方法不能檢測識別文檔的邊界,對文檔圖像的未裁剪部分不能校正,同時圖像與合成的訓(xùn)練數(shù)據(jù)集相差太多的時候,校正精確率較低。

        目前,基于模型的方法對頁面彎曲變形的校正效果最為理想,但很多是只針對英文和純文本圖像的變形進(jìn)行校正的,而且大多是以文本行和文本塊為校正對象,存在校正的效果不理想和校正類型單一的問題。

        針對上述問題,本文提出了一種基于文本域合并的文本行獲取算法,并提出利用最小化重投影的方法進(jìn)行參數(shù)模型的優(yōu)化,從而實現(xiàn)校正。現(xiàn)有方法以文本行或者文本塊作為校正對象,當(dāng)文本行變形嚴(yán)重時,并不能完全提取變形信息,而以文本域作為處理對象,能夠提取到局部的變形信息,再對其進(jìn)行合并,使得變形文本行信息更加豐富,從而更有利于文檔的校正。

        最小化重投影方法與現(xiàn)有字符拉伸、文本行曲線拉伸以及成本函數(shù)優(yōu)化方法相比,不僅考慮了投影矩陣的計算誤差,還考慮了圖像點的測量誤差,所以有更高的精確率;此外,本文選擇序到最小二乘規(guī)化SLSQP(Sequential Least SQuares Programming)算法,使得誤差最小化,經(jīng)過測試,此優(yōu)化方法速度高于其他方法,因而最小化重投影方法更準(zhǔn)確、更高效。

        本文利用文本域合并提取的文本行信息建立扭曲頁面的模型,在優(yōu)化時對整個頁面進(jìn)行重新映射,因此對于帶公式、插圖的扭曲文檔也能夠校正。相比對插圖部分進(jìn)行線段約束的方法,本文方法不需要檢測線段,而是利用建立好的模型直接優(yōu)化和重投影,因而有著更高的效率。實驗表明,本文方法提高了校正的精確率,并可以對帶插圖的變形文檔圖像進(jìn)行較好的校正。

        2 校正彎曲變形的方法

        本文提出一種新的變形文檔圖像校正方法。該方法首先利用文本域合并方法獲取文本行,其次使用主成分分析PCA(Principal Component Analysis)方法進(jìn)行關(guān)鍵點投影,利用三次多項式計算關(guān)鍵點和其投影點之間的偏移量,最后使用優(yōu)化算法進(jìn)行最小化重投影,使得圖像得以校正。本文方法具有以下特點:無需切分字符和分析字符位置;利用文本域進(jìn)行合并;使用最小化重投影方法。

        2.1 投影原理

        智能手機拍攝空間物體時,空間物體的位置與像平面某點的位置是相關(guān)的,位置的相互關(guān)系是由手機成像的幾何模型決定的。三維空間到二維空間的變換是一個投影的過程。手機成像過程涉及4個坐標(biāo)系(世界坐標(biāo)系、相機坐標(biāo)系、圖像物理坐標(biāo)系和圖像像素坐標(biāo)系)以及坐標(biāo)系之間的轉(zhuǎn)換。下面介紹坐標(biāo)系之間的轉(zhuǎn)換。

        世界坐標(biāo)系的坐標(biāo)用(Xw,Yw,Zw)表示,相機坐標(biāo)系的坐標(biāo)用(Xc,Yc,Zc)表示,圖像物理坐標(biāo)系坐標(biāo)用(x,y)表示,圖像像素坐標(biāo)系的坐標(biāo)用(u,v)表示。如圖1所示是圖像物理坐標(biāo)系和圖像像素坐標(biāo)系的關(guān)系,xy表示的是圖像物理坐標(biāo)系,uv表示的是圖像像素坐標(biāo)系。假設(shè)每一個像素在u軸和v軸上的物理尺寸為dx和dy。

        Figure 1 Relationship between the physical coordinate system of an image and its pixel coordinate system圖1 圖像物理坐標(biāo)系和其像素坐標(biāo)系之間的關(guān)系

        圖像物理坐標(biāo)向圖像像素坐標(biāo)的轉(zhuǎn)換過程如式(1)和式(2)所示,轉(zhuǎn)換矩陣如式(3)所示:

        u=x/dx+u0

        (1)

        v=y/dy+v0

        (2)

        (3)

        世界坐標(biāo)系轉(zhuǎn)換到相機坐標(biāo)系的過程如式(4)和式(5)所示,轉(zhuǎn)換矩陣如式(6)所示:

        x=f*Xc/Zc

        (4)

        y=f*Yc/Zc

        (5)

        (6)

        其中f表示相機的焦距。

        同時,相機坐標(biāo)系和世界坐標(biāo)系的轉(zhuǎn)換如式(7)所示:

        (7)

        其中,R表示旋轉(zhuǎn)矩陣,T表示平移矩陣。

        世界坐標(biāo)系和圖像像素坐標(biāo)系的轉(zhuǎn)換過程如式(8)所示:

        (8)

        其中,M1表示內(nèi)參矩陣,M2表示外參矩陣。這樣三維空間物體的坐標(biāo)就可以投影到二維空間中。

        2.2 頁面彎曲變形

        為了更加方便和快速地處理圖像,在進(jìn)行圖像處理前需要的圖像進(jìn)行一些規(guī)范化操作,也就是圖像的預(yù)處理工作。傳統(tǒng)的預(yù)處理方法是對多余部分進(jìn)行裁剪。本文對只有頁面彎曲變形的圖像,直接選定感興趣區(qū)域ROI(Region of Interest)進(jìn)行校正。頁面彎曲文檔圖像的類型主要有純文本圖、圖文混合圖、純圖像和表格等,本文主要處理的是純文本圖和圖文混合圖。圖2和圖3分別是圖文混合和純文本的變形文檔圖像。

        Figure 2 A distorted document image mixed with text圖2 圖文混合的變形文檔圖像

        Figure 3 A distorted document image of plain text圖3 純文本的變形文檔圖像

        2.3 ROI區(qū)域大小的選定

        從圖2和圖3可以看出,日常拍攝的圖像很多時候存在多余的部分。以往文獻(xiàn)會對多余部分進(jìn)行裁剪,如文獻(xiàn)[15],本文不再討論如何裁剪,直接在選定的ROI上操作。對于分辨率超高的圖像,使用像素區(qū)域關(guān)系進(jìn)行重采樣,以降低圖像的分辨率,低于電腦分辨率的不做處理。在獲取頁面ROI大小時,事先根據(jù)輸入的圖像選定頁面的4個頁邊距,根據(jù)頁邊距最后確定ROI大小,圖4是頁面邊距設(shè)為30所得的ROI大小。如圖5框選部分為圖2的ROI大小。

        Figure 4 Page ROI size圖4 頁面ROI大小

        Figure 5 ROI size of image in figure 3圖5 圖3中圖像的ROI大小

        2.4 檢測文本域輪廓

        校正中文變形文檔時,已有方法通常采用分割字符的方法[5,15,16]。字符分割往往耗時長,而且不能有效分割不在一條水平線、彎曲嚴(yán)重的字符。有的方法直接通過檢測文本行和文本塊進(jìn)行校正,這種方法速度較快,但準(zhǔn)確率依舊不高。本文通過檢測符號之間的文本域?qū)ξ谋具M(jìn)行劃分,這里的符號包括正常的標(biāo)點符號,還包括空格等符號。

        在對文本進(jìn)行檢測前,需要進(jìn)行灰度化、二值化、均值去噪以及形態(tài)學(xué)等預(yù)處理操作。本文使用OpenCV庫的輪廓查找方法cv2.fingContours(),通過檢測最外層輪廓的方式檢測到每個文本域的輪廓,并通過圖像矩找到文本域輪廓的近似中心點位置和文本域的方向角,從而確定文本域的中心線。如圖6所示,是檢測到的圖3中文本域輪廓及其中心線。

        Figure 6 Text field outline of image 3 and its center line圖6 圖3文本域輪廓及其中心線

        2.5 獲取行連通域及其關(guān)鍵點

        文本行提取過程如下:前文獲取的文本域信息被存進(jìn)了列表info_list,設(shè)任意文本域區(qū)域i和j,要求i是j前面的一個文本域,i和j組成一對文本域,為每對文本域輪廓生成候選邊,并對它們進(jìn)行評分。

        評分規(guī)則是:分?jǐn)?shù)值由距離和角度變化的線性組合來決定,同時篩選掉那些重合、不在同一行的文本域,將重合、不在同一行的文本域候選邊設(shè)為無窮大(INFINITY)。然后對分?jǐn)?shù)score進(jìn)行排序,分?jǐn)?shù)越低生成候選邊的可能性越大。遍歷所有的候選邊,對沒有連接的候選邊進(jìn)行連接,直到連接到最后一個文本域。文本行提取算法如算法1所示,獲取的文本行連通域如圖7所示。

        算法1變形文本行提取算法

        輸入:info_list。//文本域輪廓信息

        輸出:spans。//文本行輪廓信息

        步驟1sorted(info_list);/*對文本域列表信息進(jìn)行排序*/

        步驟2can_edges=[ ];//候選邊列表

        步驟3spans=[];//初始化文本行輪廓列表

        步驟4foreach contouri:

        foreach other contourj:

        score=get_edges_cost(i,j);

        ifscore

        can_edges.append(i,j);/*為每個文本域生成候選邊*/

        步驟5can_edges.sort();/*對候選邊進(jìn)行從低到高的排序*/

        步驟6 foreach edge (i,j) incan_edges:

        ifiandjunconnected:

        {span=connectiandjwithscore;/*根據(jù)候選邊分值進(jìn)行文本域連接*/

        spans.append(span);}

        步驟7 returnspnas.

        Figure 7 Text lines connect domains圖7 文本行連通域

        獲取文本行連通域后,為了方便計算,需要在每個連通域上生成少量的代表性點,也就是關(guān)鍵點。本文在最初利用PCA方法估計文本行的均值和方向信息,設(shè)置在每20像素的位置上生成一個關(guān)鍵點,生成的連通域關(guān)鍵點如圖8所示。

        Figure 8 Key points in the connected domain圖8 連通域關(guān)鍵點

        2.6 最小化重投影校正

        使用三次多項式可以很好地擬合頁面彎曲變形的形狀,如式(9)所示。三維模型建好后,可以確定s和c之間的對應(yīng)關(guān)系,其中,c表示投影點的坐標(biāo),s表示彎曲文檔表面模型。

        s=a3c3+a2c2+a1c+a0

        (9)

        由于相機坐標(biāo)系和圖像坐標(biāo)系存在偏差,需要將上一步獲取的關(guān)鍵點坐標(biāo)信息代入式(9),建立二維平面坐標(biāo)點到三維曲面坐標(biāo)點之間的映射關(guān)系,實現(xiàn)三維坐標(biāo)到二維平面的投影。結(jié)合已獲取的坐標(biāo)信息,本文通過solvePnP方法求得旋轉(zhuǎn)參數(shù)矩陣R和平移參數(shù)矩陣T, 最初假設(shè)曲面的曲率為0,通過初始參數(shù)可以確定式(9)的系數(shù)。將式(10)作為目標(biāo)函數(shù),圖2中關(guān)鍵點和投影點之間的初始化誤差為0.045 7,通過序列最小二乘規(guī)劃優(yōu)化算法(SLSQP)優(yōu)化后,圖2中關(guān)鍵點和投影點之間的誤差為0.000 65。

        (10)

        其中,m表示關(guān)鍵點的數(shù)目,dsti表示第i個關(guān)鍵點,ptsi表示第i個投影點。

        根據(jù)獲取的優(yōu)化參數(shù)對頁面大小進(jìn)行最小化重投影,得到投影后頁面的坐標(biāo),最后再通過三次樣條插值法實現(xiàn)對文本行之外像素的填充,從而實現(xiàn)變形圖像的校正。優(yōu)化前的關(guān)鍵點及其投影點如圖9所示,優(yōu)化后的關(guān)鍵點及其投影點如圖10所示。

        Figure 9 Key points and their projection points圖9 關(guān)鍵點及其投影點

        Figure 10 Optimized key points and projection points圖10 優(yōu)化后的關(guān)鍵點及其投影點

        3 實驗結(jié)果和分析

        本文在PyCharm2018環(huán)境下采用Python語言+OpenCV進(jìn)行實驗,實驗環(huán)境為: AMD A8-6410 APU with AMD Radeon R5 Graphics 2.0 GH z;內(nèi)存8 GB;操作系統(tǒng)Windows 10。實驗采集設(shè)備為智能手機,圖像版面主要為文本和圖文混合頁面。采集的圖像為手機正常拍攝的自然變形書頁。采集的圖像大小為800*600~3120*4160,數(shù)量為150幅。圖2類型的測試圖像60幅,取自CBDAR2007數(shù)據(jù)集[17],該數(shù)據(jù)集包含102幅扭曲變形的圖像,以及通過平板掃描儀獲得的變形圖像所對應(yīng)的真實圖像。圖3類型的測試圖像90幅。圖11為采用本文方法對圖2的校正結(jié)果,圖12為采用本文方法對圖3的校正結(jié)果。圖13為文獻(xiàn)[11]方法對圖2的校正結(jié)果。

        Figure 11 Image correction result of figure 2圖11 圖2的校正結(jié)果

        Figure 12 Image correction result of figure 3圖12 圖3的校正結(jié)果

        從圖11和圖12中可以看到,帶插圖和純文本的圖像都得到了很好的校正。用光學(xué)字符識別OCR(Optical Character Recognition)軟件ABBYY FineReader 14識別校正前后的圖像。OCR精確率(Precision)的定義如式(11)所示,OCR召回率(Recall)的定義如式(12)所示:

        (11)

        (12)

        其中,Nc是OCR識別到的文檔圖像的正確字符數(shù)目,No是識別到的文檔圖像字符總數(shù)目,N是文檔圖像字符總數(shù)目。

        圖2類型和圖3類型的圖像校正前后的平均字符精確率和平均字符召回率,如表1 所示。

        Table 1 Comparison of OCR average Precisionand Recall before and after correction

        從表1可以看出,圖2類型圖像校正后平均識別字符的精確率和召回率分別為97.5%和81.9%,比沒校正前提高了9.9%和11.4%;圖3類型圖像校正后平均識別字符的精確率和召回率分別為95.3%和79.4%,比沒校正之前提高了9.4%和11.2%。

        圖13展示了本文方法與其他文獻(xiàn)中方法的校正結(jié)果的比較,圖13a是公共數(shù)據(jù)集CBDAR2007中的示例圖像,圖13b是文獻(xiàn)[12]方法的校正結(jié)果,圖13c是文獻(xiàn)[13]方法的校正結(jié)果,圖13d是文獻(xiàn)[14]方法的校正結(jié)果,圖13e是本文方法校正結(jié)果。

        Figure 13 The results of this method are compared with those of other literature methods圖13 本文方法與其他文獻(xiàn)方法的結(jié)果示例比較

        從圖13可以看出,本文方法相對其他文獻(xiàn)方法更好,在文本行提取時,使用文本域合并的方法能獲得更加細(xì)節(jié)的信息。在建模時使用三次多項式模型,同時使用最小化投影方法進(jìn)行模型優(yōu)化,與彎曲變形頁面的吻合度較高,從而得到了比較理想的結(jié)果。

        本文方法和其他文獻(xiàn)方法的對比采用了CBDAR2007中的102幅扭曲變形圖像,文獻(xiàn)[12]方法和文獻(xiàn)[14]方法均在本機實現(xiàn),文獻(xiàn)[13]方法由于其實驗環(huán)境與本文一致,故直接引用了其論文里發(fā)表的結(jié)果。使用軟件ABBYY FineReader 14識別每種方法校正后的102幅圖像并計算各自的OCR平均字符精確率和召回率,結(jié)果如表2所示。

        從表2可以看出,本文方法的平均識別字符精確率要高于其他方法的;文獻(xiàn)[12]方法受線段變形嚴(yán)重的影響導(dǎo)致效果較差;文獻(xiàn)[13]方法采用單幅圖像進(jìn)行文檔變形頁面的建模,在多樣化數(shù)據(jù)集上效果不理想;文獻(xiàn)[14]方法使用的合成數(shù)據(jù)集包含多種變形類型,它對裁剪好的和純文本的圖像校正效果最好,但對包含圖像和未裁剪的圖像效果較差,導(dǎo)致其識別平均字符精確率和召回率下降。

        Table 2 Correction results comparison with other literature methods

        為了驗證文本域合并模塊和最小化重投影模塊分別對識別性能的影響,本文分別對2個模塊進(jìn)行了對比實驗。為了表述方便,將文本域合并簡稱為A模塊,最小化重投影簡稱為B模塊,本文方法就是A-B方法。將文本行提取方法作為文本域合并的對比方法,稱作M模塊;將文本行基線拉直法作為最小化重投影的對比方法,稱作N模塊。第1組測試是A-B方法和A-N方法的性能對比,第2組測試是A-B方法和M-B方法的性能對比。測試的OCR平均識別字符精確率如圖14和圖15所示。

        Figure 14 Performance comparison of A-B and A-N methods in this paper圖14 本文A-B方法和A-N方法的性能對比

        Figure 15 Performance comparison of A-B and M-Bmethods in this paper圖15 本文A-B方法和M-B方法的性能對比

        OCR平均識別字符精確率和平均字符召回率如表3所示。

        Table 3 Performance comparison between different methods

        從圖14 和圖15可以看出,A-B方法的精確率整體上要高于A-N和M-B方法的,且M-B方法的精確率波動幅度較大,A-B和A-N方法性能相對比較穩(wěn)定。

        從表3可以看出,A-B方法的平均識別字符精確率和平均字符召回率要高于A-N和M-B方法的,同時A-N方法的高于M-B方法的,這說明在識別性能上文本域合并模塊的貢獻(xiàn)大于最小化重投影模塊,當(dāng)2個模塊結(jié)合時,性能最好。

        4 結(jié)束語

        本文利用文本域合并方法獲取行連通域,之后使用基于三次多項式的關(guān)鍵點重投影和頁面優(yōu)化方法實現(xiàn)文本校正。文本域合并方法能夠?qū)χ杏⑽淖冃挝臋n的文本行信息進(jìn)行更準(zhǔn)確的提取。最小化重投影方法不僅考慮了投影矩陣的計算誤差,還考慮了圖像點的測量誤差,所以有更高的精確率。三次多項式和最小化重投影方法相結(jié)合可以對變形文檔圖像進(jìn)行校正。校正后的圖像可以很好地用于識別和后期處理。相比其他方法,本文方法的識別性能好,且能夠?qū)Р鍒D、公式的變形文檔圖像進(jìn)行很好的校正。消融實驗顯示文本域模塊對識別性能的貢獻(xiàn)大于最小化重投影模塊。未來將主要從純圖像和表格的變形文檔頁面校正以及人工數(shù)據(jù)集校正等方面進(jìn)行研究。

        猜你喜歡
        頁面變形文本
        大狗熊在睡覺
        刷新生活的頁面
        談詩的變形
        中華詩詞(2020年1期)2020-09-21 09:24:52
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “我”的變形計
        例談拼圖與整式變形
        會變形的餅
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        国产欧美日韩在线观看一区二区三区| 中文字幕高清不卡视频二区| 国产精品国产三级国产av中文| 自愉自愉产区二十四区| 77777亚洲午夜久久多人| 天堂AV无码AV毛片毛| av毛片亚洲高清一区二区| 综合五月激情二区视频| 亚洲国产激情一区二区三区| 永久无码在线观看| 精品国产一区二区三区毛片| 极品av一区二区三区| 一本一本久久aa综合精品| 欧洲亚洲综合| 人妻精品人妻一区二区三区四五| 视频在线观看国产自拍| 天天综合网在线观看视频| 99er视频| 青青青草视频手机在线| 欧美性猛交xxx嘿人猛交| 国产在线精品成人一区二区三区| 亚洲AV无码精品一区二区三区l| 亚洲综合有码中文字幕| 亚洲综合天堂av网站在线观看| 亚洲av综合av国产av| 国产亚洲欧美在线播放网站| 国产免费网站在线观看不卡| 日本护士xxxx视频| 亚洲国产精品一区二区久| 亚洲乱码中文字幕综合| 视频在线国产一区二区 | 狠狠色综合网站久久久久久久| 97色综合| 高潮精品熟妇一区二区三区| 妇女bbbb插插插视频| 一本大道香蕉视频在线观看| 白丝美女扒开内露出内裤视频| 国产在线第一区二区三区| 欧美婷婷六月丁香综合色| 精品黑人一区二区三区| 亚洲天堂成人av在线观看|