韓 晶,呂學(xué)強(qiáng),張祥祥,郝 偉,張 凱
1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101
2.首都師范大學(xué) 中國(guó)語(yǔ)言智能研究中心,北京 100048
紙質(zhì)文檔承載著大量有用的信息,這些信息在人們的日常工作與生活中起著至關(guān)重要的作用。隨著移動(dòng)智能手機(jī)、便攜相機(jī)等設(shè)備的日益普及,用戶可以通過(guò)拍照實(shí)現(xiàn)紙質(zhì)文檔的數(shù)字化[1]。然而,由于相機(jī)的姿態(tài)、文檔放置狀態(tài)等不確定因素,移動(dòng)設(shè)備采集文檔會(huì)出現(xiàn)透視傾斜變形,往往導(dǎo)致文檔信息無(wú)法被準(zhǔn)確提取,故需要進(jìn)行圖像矯正處理。對(duì)這類變形普遍采用“四點(diǎn)法”進(jìn)行矯正,即通過(guò)變形文檔上的四個(gè)點(diǎn)與矯正后一一對(duì)應(yīng)的四個(gè)點(diǎn)求單應(yīng)矩陣進(jìn)而實(shí)現(xiàn)矯正,不同的方法區(qū)別在于如何尋找對(duì)應(yīng)的四組點(diǎn)[2]。
2017年,Abbas等人[3]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的文檔角點(diǎn)定位網(wǎng)絡(luò),該網(wǎng)絡(luò)末端使用單層全連接實(shí)現(xiàn)文檔角點(diǎn)坐標(biāo)的回歸,具有端到端可微的特性,但回歸方法對(duì)卷積層輸出的特征圖進(jìn)行了拉伸操作,丟失了特征圖的空間特性,導(dǎo)致泛化性較差。同時(shí)由于該模型體量大,模型的參數(shù)量大,故推理速度較慢。
同年,Javed等人[4]提出一種先檢測(cè)再遞歸調(diào)用的方法實(shí)現(xiàn)文檔角點(diǎn)的定位。該方法設(shè)計(jì)了兩個(gè)有先后調(diào)用順序的深度卷積神經(jīng)網(wǎng)絡(luò),第一個(gè)網(wǎng)絡(luò)使用目標(biāo)檢測(cè)方法檢測(cè)文檔的角點(diǎn),第二個(gè)網(wǎng)絡(luò)被遞歸調(diào)用,以回歸角點(diǎn)坐標(biāo)。該方法非端到端可微,且后一步的角點(diǎn)坐標(biāo)回歸依賴于前者的文檔角點(diǎn)檢測(cè),當(dāng)前者未能檢測(cè)出文檔角點(diǎn)區(qū)域,后者角點(diǎn)坐標(biāo)回歸必然失效。同時(shí),后一步的全連接回歸坐標(biāo)方式同樣存在坐標(biāo)泛化性差的問(wèn)題。另外,計(jì)算過(guò)程中第二個(gè)模型需要被多次調(diào)用,算法推理速度較慢。
2019年,Korber[5]基于Abbas等人[3]的工作提出一種由Xception網(wǎng)絡(luò)[6]改進(jìn)的角點(diǎn)定位網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用深度可分離卷積實(shí)現(xiàn)一定程度的輕量化,但該模型在實(shí)現(xiàn)輕量化特性的同時(shí)損失了一定的精度。另外,由于該模型也采用全連接方式進(jìn)行坐標(biāo)的預(yù)測(cè),故模型的泛化性也較差。
隨著深度學(xué)習(xí)與姿態(tài)估計(jì)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的姿態(tài)估計(jì)技術(shù)被廣泛地應(yīng)用在人體姿態(tài)估計(jì)[7]、人臉姿態(tài)估計(jì)與人臉對(duì)齊[8]、手指姿態(tài)估計(jì)[9]、動(dòng)物體態(tài)估計(jì)[10]等領(lǐng)域。這些領(lǐng)域的研究證明了姿態(tài)估計(jì)定位的高精度性與技術(shù)成熟性,而文檔的角點(diǎn)可以看作文檔圖像中“文檔個(gè)體”的四個(gè)姿態(tài)點(diǎn),即可通過(guò)姿態(tài)估計(jì)技術(shù)實(shí)現(xiàn)文檔角點(diǎn)的定位。
本文從姿態(tài)估計(jì)的角度尋求解決文檔角點(diǎn)定位的更佳的解決方案,主要貢獻(xiàn)有:(1)提出一種輕量化的、端到端的、高精度的文檔姿態(tài)估計(jì)網(wǎng)絡(luò)DPENet(lightweight document pose estimation network),相比于之前的基于深度學(xué)習(xí)的角點(diǎn)定位模型,具有角點(diǎn)定位精度高、角點(diǎn)坐標(biāo)定位泛化性好、抗干擾性強(qiáng)、模型體量小、計(jì)算量小、推理速度快等優(yōu)點(diǎn);(2)針對(duì)回歸方法角點(diǎn)定位精度低的問(wèn)題,通過(guò)引入DSNT(differentiable spatial to numerical transform)結(jié)構(gòu)[11]實(shí)現(xiàn)Heatmap方法[12]與坐標(biāo)回歸方法[13]的融合,既獲得了回歸模型端到端可微的特性,又得到了Heatmap方法良好的坐標(biāo)泛化性,實(shí)現(xiàn)了優(yōu)于回歸方法與Heatmap方法的角點(diǎn)高精度的定位與端到端的文檔姿態(tài)估計(jì)和矯正處理。
目前的文檔圖像矯正應(yīng)用一般部署在移動(dòng)手機(jī)端或嵌入式邊緣計(jì)算設(shè)備之上,而移動(dòng)手機(jī)與嵌入式設(shè)備一般計(jì)算性能有限,則體積比較龐大、占用內(nèi)存多、推理速度慢的模型一般不能適用,訓(xùn)練的模型即使精度很高也不具有良好的實(shí)用性。MobileNet V2[14]為針對(duì)移動(dòng)端設(shè)備而精心設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用在面向嵌入式邊緣計(jì)算的設(shè)備中[15-16],可在保持精度的情況下大量降低模型參數(shù)、模型計(jì)算量以及模型大小,并且可以兼顧速度與精度。故本文選擇MobileNet V2作為DPENet的主干網(wǎng)絡(luò)。
在現(xiàn)有的基于深度學(xué)習(xí)的坐標(biāo)回歸任務(wù)中,一般采用全連接層直接進(jìn)行回歸并輸出關(guān)鍵點(diǎn)的坐標(biāo),或者使用高斯熱圖回歸再通過(guò)求取熱圖中最值的位置來(lái)獲取關(guān)鍵點(diǎn)的坐標(biāo)。這兩種方法均不夠理想,前者是端到端可微的,可以直接輸出關(guān)鍵點(diǎn)的坐標(biāo)值,且速度較快,但全連接破壞了特征圖的空間特征,故該方法空間泛化性不足,得到的坐標(biāo)精度一般較低,且模型一般比較依賴訓(xùn)練數(shù)據(jù)的場(chǎng)景分布,對(duì)新數(shù)據(jù)的適應(yīng)性差,容易過(guò)擬合。后者輸出的是關(guān)鍵點(diǎn)的高斯熱圖,由于沒(méi)有破壞特征圖的空間特征,故該方法的空間泛化性較好,輸出的坐標(biāo)精度較高,但坐標(biāo)精度與輸出的高斯熱圖尺度大小有關(guān),且存在上限,一般需要進(jìn)行高斯熱圖多級(jí)監(jiān)督,當(dāng)坐標(biāo)回歸的精度要求較高時(shí),就必須保證足夠的上采樣層與足夠大的網(wǎng)絡(luò)輸出尺度與多級(jí)監(jiān)督,會(huì)造成模型體積大、模型結(jié)構(gòu)復(fù)雜、參數(shù)量多、訓(xùn)練速度慢、推理速度慢、內(nèi)存消耗大等問(wèn)題。另外高斯熱圖回歸不是端到端的模型,坐標(biāo)值的輸出需要在輸出的高斯熱圖之上進(jìn)行進(jìn)一步處理。
DSNT是針對(duì)以上兩者的優(yōu)缺點(diǎn)而提出的一種全新的通用型解決方案,不僅具有前者端到端、推理速度快的特點(diǎn),還具有后者良好的空間泛化能力,且在使用上簡(jiǎn)單便捷,即插即用。DSNT核心思想是將關(guān)鍵點(diǎn)的坐標(biāo)值的求解轉(zhuǎn)化為坐標(biāo)期望值的優(yōu)化問(wèn)題,將高斯熱圖各個(gè)像素位置的值進(jìn)行歸一化,作為對(duì)應(yīng)坐標(biāo)位置的值的權(quán)重使用,再構(gòu)建兩個(gè)與高斯熱圖大小相同的常量坐標(biāo)矩陣,矩陣的每個(gè)元素值對(duì)應(yīng)為該元素的軸向坐標(biāo)值。然后將兩個(gè)常量矩陣與歸一化后的高斯熱圖按像素位相乘并求和,輸出關(guān)鍵點(diǎn)的坐標(biāo)x與y,即用數(shù)學(xué)期望的方法求解關(guān)鍵點(diǎn)的坐標(biāo)。這樣得到的最終坐標(biāo)值與高斯熱圖的最值位置相互對(duì)應(yīng),在深度學(xué)習(xí)框架中形成了端到端可微的坐標(biāo)期望優(yōu)化問(wèn)題。因?yàn)楦咚篃釄D的值的浮點(diǎn)性,即坐標(biāo)值權(quán)重的浮點(diǎn)性,所以DSNT在小尺度的高斯熱圖上可以回歸出高精度的浮點(diǎn)坐標(biāo)值。因此,DSNT可以保持端到端可微的情況下兼顧精度與模型大小,這是單一的全連接坐標(biāo)回歸與單一的高斯熱圖回歸所不能具備的。本文引入DSNT算法來(lái)預(yù)測(cè)文檔角點(diǎn)的坐標(biāo),實(shí)現(xiàn)文檔角點(diǎn)的高精度定位。
本文從姿態(tài)估計(jì)的角度,將文檔圖像中的單一文檔視為一個(gè)姿態(tài)估計(jì)對(duì)象,將文檔的四個(gè)角點(diǎn)視為姿態(tài)估計(jì)點(diǎn),采用輕量化設(shè)計(jì)的MobileNet V2作為主干網(wǎng)絡(luò)提取角點(diǎn)特征,再經(jīng)上采樣得到分別對(duì)應(yīng)四個(gè)角點(diǎn)的高斯熱圖,利用DSNT結(jié)構(gòu)對(duì)高斯熱圖進(jìn)行處理,輸出角點(diǎn)的高精度相對(duì)坐標(biāo),最后使用“四點(diǎn)法”實(shí)現(xiàn)透視變形文檔圖像的矯正處理。本文所提出的DPENet模型結(jié)構(gòu)如圖1所示,主要從模型結(jié)構(gòu)、損失函數(shù)兩方面進(jìn)行詳細(xì)介紹。
DPENet網(wǎng)絡(luò)結(jié)構(gòu)可分為五部分,依次為:(1)輸入部分(Input);(2)主干網(wǎng)絡(luò)部分(MobileNet V2 backbone);(3)上采樣部分(Upsample);(4)DSNT部分;(5)輸出部分。輸入部分采用文獻(xiàn)[3]中的輸入尺寸設(shè)計(jì),具體尺寸為384×256×3(H×W×C);輸出部分采用歸一化坐標(biāo)預(yù)測(cè),輸出四個(gè)姿態(tài)估計(jì)點(diǎn)的浮點(diǎn)型相對(duì)坐標(biāo),可有效避免整形坐標(biāo)帶來(lái)的誤差,保證了DPENet的高精度。主干網(wǎng)絡(luò)部分、上采樣部分、DSNT部分具體細(xì)節(jié)如下。
2.1.1 主干網(wǎng)絡(luò)部分
如圖1中的標(biāo)識(shí)為“MobileNet V2 backbone”的部分所示,MobileNet V2結(jié)構(gòu)中,由淺層到深層,通道數(shù)逐漸增加,特征圖尺度逐漸減小,與后面的上采樣結(jié)構(gòu)構(gòu)成編/解碼器結(jié)構(gòu),因此主干網(wǎng)部分可稱為DPENet的編碼器模塊。MobileNet V2的默認(rèn)輸入尺度為224×224×4,此處根據(jù)DPENet的輸入部分的尺度設(shè)計(jì)修改為384×256×3,經(jīng)過(guò)1個(gè)卷積層,17個(gè)瓶頸殘差塊,再接1個(gè)卷積層,最后的輸出尺度為12×8×1 280,即DPENet主干網(wǎng)絡(luò)的輸出尺寸。詳細(xì)結(jié)構(gòu)參數(shù)如表1所示。其中,瓶頸殘差塊(Bottleneck)設(shè)計(jì)為線性瓶頸和倒置殘差的結(jié)構(gòu),如圖2所示。
表1 特征模塊結(jié)構(gòu)細(xì)節(jié)Table 1 Details of features module structure
線性瓶頸結(jié)構(gòu)使用1×1的卷積替代ReLU對(duì)3×3卷積和ReLU6后的特征圖進(jìn)行“激活”操作,可以在一定程度上減少ReLU6非線性變換帶來(lái)的信息損失。
倒置殘差結(jié)構(gòu)在殘差連接上與標(biāo)準(zhǔn)殘差結(jié)構(gòu)[17]一致,但在通道數(shù)設(shè)計(jì)上,先用1×1卷積核進(jìn)行通道升維操作,再用3×3的卷積核進(jìn)行通道數(shù)固定的卷積操作,最后用1×1的卷積進(jìn)行通道降維操作,使前后層級(jí)的通道數(shù)比中間的通道數(shù)少。其中,中間層采用深度可分離卷積實(shí)現(xiàn),大大降低了參數(shù)量,這是MobileNet V2輕量化的主要原因。在COCO數(shù)據(jù)上與SSD模型進(jìn)行的性能比較實(shí)驗(yàn)[14]中,MobileNet V2+SSDLite的結(jié)構(gòu)僅以4.3×106的參數(shù)量實(shí)現(xiàn)了22.1%的mAP,較SSD300僅低1.1%,而SSD300的參數(shù)量高達(dá)3.61×107,充分說(shuō)明以MobileNet V2為主干網(wǎng)絡(luò),可以在付出極小的精度損失代價(jià)下大幅減少模型參數(shù)量。另外,倒置殘差結(jié)構(gòu)中采用的激活函數(shù)為ReLU6,它與ReLU的區(qū)別在于其輸出包含上限,上限值為6,使得MobileNet V2具有更強(qiáng)的魯棒性。
2.1.2 上采樣部分
經(jīng)過(guò)DPENet的主干網(wǎng)絡(luò),圖像的特征信息被“編碼”,特征圖尺度變小,通道數(shù)變多,要想得到更高精度的姿態(tài)點(diǎn)位估計(jì),還需進(jìn)行“解碼”操作,則上采樣部分可稱為DPENet的解碼器模塊。
如圖1與表2所示,上采樣部分共分為五層,第一層為普通的1×1卷積層,對(duì)上一部分輸出的特征圖進(jìn)行通道維度上的低維度投影,特征圖尺度保持不變,通道數(shù)降為256,為上一部分與本部分的銜接層;第二、三、四層為三個(gè)連續(xù)的反卷積層,每經(jīng)過(guò)一層,特征圖尺度擴(kuò)大一倍,通道數(shù)減半;第五層為上采樣部分與下一層的銜接層,輸入輸出特征圖尺寸不變,即96×64,輸出通道數(shù)為4,分別對(duì)應(yīng)文檔圖像的四個(gè)角點(diǎn)的高斯熱圖,即高斯熱圖的分辨率為輸入圖像尺寸(384×256)的兩倍下采樣尺度,為主干網(wǎng)絡(luò)編碼結(jié)果(12×8)的三倍上采樣尺度,處于一個(gè)適中的尺度,這保證了算法在精度與參數(shù)量之間的權(quán)衡。如圖3所示偽彩色高斯熱圖,顏色由藍(lán)色到紅色,像素顏色越靠近紅色,表示該點(diǎn)是文檔圖像角點(diǎn)的概率越高。明顯可以看出,高斯熱圖中熱點(diǎn)的相對(duì)位置與原圖中角點(diǎn)的相對(duì)位置高度吻合。
表2 上采樣結(jié)構(gòu)細(xì)節(jié)Table 2 Details of upsample structure
第一層除了基本卷積外,模型中還加入了批歸一化操作與特征圖激活操作,使用的激活函數(shù)為ReLU函數(shù)[18]。
2.1.3 DSNT部分
如圖4所示,DSNT部分為高斯熱圖向姿態(tài)坐標(biāo)點(diǎn)的轉(zhuǎn)換模塊,分兩步實(shí)現(xiàn)。
第一步,對(duì)上一部分輸出的四張高斯熱圖進(jìn)行激活操作,將高斯熱圖中的數(shù)值歸一化至0~1內(nèi),此時(shí)整張高斯熱圖中所有元素值的和為1,即每個(gè)元素的值轉(zhuǎn)化為該元素所在位置的概率值。此處使用Softmax2d進(jìn)行激活操作,如式(1)所示,其中w=64,h=96。
第二步,構(gòu)建兩個(gè)歸一化的常量坐標(biāo)矩陣,分別記為X與Y,一個(gè)代表x坐標(biāo),一個(gè)代表y坐標(biāo),兩個(gè)常量矩陣的尺度與高斯熱圖的尺度一致且在位置上一一對(duì)應(yīng),各元素值可由式(2)計(jì)算得到,然后按式(3)進(jìn)行Hadamard乘積再求和,得預(yù)測(cè)坐標(biāo)(xp,yp),其中Hi,j、Hm,n表示高斯熱圖H在對(duì)應(yīng)二維索引位置的元素值。
如圖1所示,DPENet模型的總損失函數(shù)L由Euclidean損失Leuc和高斯熱圖規(guī)范化損失Lreg組成,Lreg由超參數(shù)λ因子進(jìn)行帶權(quán)約束,總的損失反映DPENet模型的整體性能。
Leuc為真實(shí)文檔圖像姿態(tài)坐標(biāo)點(diǎn)與模型預(yù)測(cè)坐標(biāo)點(diǎn)之間的損失,銜接在DPENet網(wǎng)絡(luò)結(jié)構(gòu)的尾端,直接反映模型姿態(tài)估計(jì)的精度;Lreg采用JS散度構(gòu)造,用于度量?jī)蓚€(gè)概率分布的相似度,此處Lreg度量預(yù)測(cè)的二維高斯熱圖與真實(shí)的二維高斯熱圖在分布上的相似度,可對(duì)高斯熱圖的分布起約束作用。Lreg直接反映模型預(yù)測(cè)的高斯熱圖的準(zhǔn)確性,同時(shí)間接對(duì)DSNT與坐標(biāo)預(yù)測(cè)起優(yōu)化所用。
Leuc、Lreg、總損失函數(shù)L依次由式(4)、式(5)和式(7)表示。
其中,Cp、Cgt分別表示預(yù)測(cè)的坐標(biāo)與真實(shí)的坐標(biāo)標(biāo)簽。
其中,Hp、Hgt分別表示預(yù)測(cè)的高斯熱圖與真實(shí)的高斯熱圖標(biāo)簽。DJS(·||·)、DKL(·||·)分別為JS散度與KL散度的公式表示。JS散度為KL散度的變體,此處JS散度由KL散度表示,KL散度如式(6)所示。綜上所述,本文以透視傾斜變形文檔圖像為研究對(duì)象,以本領(lǐng)域普遍使用的“四點(diǎn)法”為矯正手段,提出輕量型文檔姿態(tài)估計(jì)網(wǎng)絡(luò)DPENet,來(lái)解決文檔四個(gè)角點(diǎn)的坐標(biāo)的準(zhǔn)確性問(wèn)題。由于DPENet采用輕量化的主干網(wǎng)絡(luò)MobileNet V2,整個(gè)模型的參數(shù)量大大降低的同時(shí)保留較高的精度,實(shí)現(xiàn)了DPENet的輕量化;引入DSNT模塊對(duì)文檔角點(diǎn)進(jìn)行姿態(tài)估計(jì),將文檔四個(gè)角點(diǎn)的坐標(biāo)值的求解轉(zhuǎn)化為坐標(biāo)期望值的優(yōu)化問(wèn)題,從而得到文檔四個(gè)角點(diǎn)精確的相對(duì)坐標(biāo),且這種方法得到的坐標(biāo)為浮點(diǎn)型坐標(biāo),相對(duì)于直接以高斯熱圖極值點(diǎn)回歸坐標(biāo)的方法得到的坐標(biāo)更加精確,這也是DPENet擁有高精度和高準(zhǔn)確性的根本。
3.1.1 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)環(huán)境主要分為兩種,模型的訓(xùn)練與測(cè)試在含有GPU的服務(wù)器環(huán)境下進(jìn)行,而文檔圖像的矯正測(cè)試在個(gè)人筆記本電腦上進(jìn)行,環(huán)境細(xì)節(jié)見(jiàn)表3。
表3 實(shí)驗(yàn)環(huán)境Table 3 Experiment environment
3.1.2 模型訓(xùn)練配置
DPENet模型及相關(guān)的對(duì)比模型均在單GPU環(huán)境下訓(xùn)練,batch size統(tǒng)一設(shè)為128;均采用Adam[19](β1=0.9,β2=0.999,?=10-8)優(yōu)化器進(jìn)行網(wǎng)絡(luò)優(yōu)化;均采用
ReduceLROnPlateau(mode=“min”,factor=0.5,patience=20)算法進(jìn)行學(xué)習(xí)率的動(dòng)態(tài)調(diào)節(jié);初始學(xué)習(xí)率根據(jù)具體的模型情況進(jìn)行探索性設(shè)定,保證該模型在具體的環(huán)境下可訓(xùn)練出更好的結(jié)果。
3.1.3 算法評(píng)估標(biāo)準(zhǔn)
本文主要從文檔圖像的姿態(tài)估計(jì)精度、矯正效果、姿態(tài)估計(jì)速度與矯正速度四方面對(duì)本文所提算法進(jìn)行評(píng)估。
對(duì)于文檔姿態(tài)估計(jì)的精度,本文使用文檔四個(gè)角點(diǎn)的姿態(tài)估計(jì)坐標(biāo)與真實(shí)坐標(biāo)之間的平均位移誤差(mean displacement error,MDE)進(jìn)行評(píng)估,單位為像素(pixel),MDE越小表示姿態(tài)估計(jì)精度越高。記N為姿態(tài)估計(jì)點(diǎn)的數(shù)量,本文中N=4,則MDE可由式(8)表示,其中(xGiT,yiGT)與(xPi,yiP)分別表示真實(shí)的坐標(biāo)標(biāo)簽與姿態(tài)估計(jì)坐標(biāo)。
矯正效果主要用矯正成功的數(shù)量與矯正成功率評(píng)估,矯正成功的數(shù)量越多,矯正成功率越大,模型的矯正效果越好。記P、NR、NA分別為矯正成功率、矯正成功的數(shù)量、測(cè)試集數(shù)據(jù)總量,則算法的矯正成功率可由式(9)表示。
姿態(tài)估計(jì)的速度與矯正的速度均以單張文檔圖像的平均處理時(shí)間進(jìn)行評(píng)估,平均處理時(shí)間越短,速度越快。
3.2.1 模型結(jié)構(gòu)可行性實(shí)驗(yàn)
為了獲得最佳的模型結(jié)構(gòu),本文在設(shè)計(jì)模型時(shí),對(duì)多種模型結(jié)構(gòu)進(jìn)行了對(duì)比分析,如表4所示。本文共分析了六種模型結(jié)構(gòu),這六種模型的主干網(wǎng)絡(luò)均采用MobileNet V2;上采樣部分,模型(1)~(3)使用DUC結(jié)構(gòu)[20],模型(4)~(6)使用反卷積結(jié)構(gòu);坐標(biāo)回歸部分,模型(1)(4)、(2)(5)、(3)(6)分別使用全連接回歸結(jié)構(gòu)、高斯熱圖回歸結(jié)構(gòu)、DSNT結(jié)構(gòu),其中高斯熱圖回歸結(jié)構(gòu)使用的是最簡(jiǎn)單的單級(jí)監(jiān)督模式,即僅對(duì)模型的尾部輸出的特征圖求損失。
表4 六種模型對(duì)比Table 4 Comparison of six models
對(duì)比模型(1)(4)、(2)(5)、(3)(6)可知,在相同層數(shù)與通道數(shù)的情況,DUC結(jié)構(gòu)與Deconv2d結(jié)構(gòu)在精度上基本相近,但DUC結(jié)構(gòu)的模型在模型大小、模型參數(shù)量、計(jì)算量以及姿態(tài)估計(jì)速度上均高于Deconv2d的模型,說(shuō)明Deconv2d結(jié)構(gòu)可以在保證同等精度的情況下保持更好的模型輕量化特性。
通過(guò)模型(1)、(2)、(3)與模型(4)、(5)、(6)之間的對(duì)比可知,全連接結(jié)構(gòu)的模型體量最大,高斯熱圖回歸結(jié)構(gòu)與DSNT結(jié)構(gòu)體量相等;姿態(tài)估計(jì)速度上三者的推理速度比較相近,DSNT結(jié)構(gòu)低于高斯熱圖結(jié)構(gòu);在精度方面DSNT結(jié)構(gòu)精度最高,全連接次之,高斯熱圖回歸模型精度最低且遠(yuǎn)遠(yuǎn)低于前兩者的精度。
DSNT結(jié)構(gòu)模型與高斯熱圖回歸結(jié)構(gòu)模型相比僅增加一個(gè)DSNT結(jié)構(gòu)塊,但不增加模型參數(shù),因此兩者體量相當(dāng);但DSNT結(jié)構(gòu)模型多一步坐標(biāo)期望計(jì)算,因此推理速度略慢;全連接結(jié)構(gòu)打破了特征圖的空間信息,因而精度低;高斯熱圖得出的坐標(biāo)為熱圖對(duì)應(yīng)的坐標(biāo)位置,在上采樣還原至原始圖像尺度時(shí)存在理論誤差上限,因此高斯熱圖回歸結(jié)構(gòu)精度較低。
DSNT結(jié)構(gòu)為全連接結(jié)構(gòu)與高斯熱圖結(jié)構(gòu)的綜合,既保證了特征圖的空間信息不被打破,又可像全連接結(jié)構(gòu)一樣直接輸出文檔角點(diǎn)的坐標(biāo)值,同時(shí)坐標(biāo)值為浮點(diǎn)坐標(biāo),不存在上限,故其精度最高。
本文在合成數(shù)據(jù)集[3]和SmartDoc-QA數(shù)據(jù)集[21]上對(duì)DPENet進(jìn)行測(cè)試,并對(duì)姿態(tài)估計(jì)結(jié)果進(jìn)行高斯熱圖可視化展示,如圖5所示,第1行為合成數(shù)據(jù)集上的結(jié)果,第2~4行為SmartDoc-QA上的結(jié)果,依次為大、中、小三種尺度。左側(cè)第1列為樣本原圖,第2~5列分別為DPENet輸出的文檔左上、右上、左下、右下角點(diǎn)的高斯熱圖,第6列圖片為高斯熱圖渲染結(jié)果。DPENet輸出的高斯熱圖與原始文檔圖像的文檔角點(diǎn)具有精準(zhǔn)的位置對(duì)應(yīng)關(guān)系,其不僅在訓(xùn)練的驗(yàn)證集上表現(xiàn)良好,在新數(shù)據(jù)上依然有良好的姿態(tài)估計(jì)結(jié)果,這說(shuō)明DPENet對(duì)新數(shù)據(jù)具有良好的適應(yīng)性。且新數(shù)據(jù)具有大、中、小三種不同的尺度,故DPENet對(duì)姿態(tài)點(diǎn)的預(yù)測(cè)具有良好的空間泛化能力。
綜上所述,由MobileNet V2、Deconv2d與DSNT構(gòu)成的DPENet模型為實(shí)驗(yàn)中的最優(yōu)模型,具有模型小、參數(shù)量小、計(jì)算量大、推理速度快、精度高、數(shù)據(jù)適應(yīng)性強(qiáng)、空間泛化能力強(qiáng)等優(yōu)點(diǎn)。
3.2.2 超參數(shù)消融實(shí)驗(yàn)
由式(7)可知,權(quán)重λ會(huì)影響模型的訓(xùn)練結(jié)果。為了設(shè)置合適的λ值,本文對(duì)8組λ值(1、5、8、9、10、11、12、15)進(jìn)行實(shí)驗(yàn)分析。
如圖6所示,λ=5時(shí)總的損失值最小,但Leuc與Lreg并未達(dá)到最??;λ=11時(shí)Leuc與Lreg均達(dá)到最小值,但總的損失未達(dá)到最小值。由式(7)的形式可知,當(dāng)λ值較大時(shí),即使Leuc與Lreg均較小,總的損失值亦可能較大,而在DPENet中Leuc直接反映模型的姿態(tài)估計(jì)的精度,因此,本文以Leuc為主要參考對(duì)λ值進(jìn)行最終的選定,此處λ值最終設(shè)定為11。
如圖7所示,對(duì)λ=11的模型共訓(xùn)練了24輪,最終在驗(yàn)證集上測(cè)得Leuc=0.016 7,此時(shí)得到本實(shí)驗(yàn)中最好的模型訓(xùn)練結(jié)果。
本文將DPENet與當(dāng)前面向文檔圖像矯正處理的模型(文獻(xiàn)[3]、文獻(xiàn)[4]、文獻(xiàn)[5])在SmartDoc-QA數(shù)據(jù)集[21]上進(jìn)行了對(duì)比,結(jié)果如表5所示。
表5 不同模型性能指標(biāo)對(duì)比Tabel 5 Comparison of performance indexes of different models
在模型大小、參數(shù)量、計(jì)算量方面,文獻(xiàn)[4]模型處于最優(yōu)狀態(tài),這是因?yàn)槠洳捎玫闹鞲删W(wǎng)絡(luò)為早期在計(jì)算資源受限時(shí)使用的小型模型AlexNet[22],DPENet雖比文獻(xiàn)[4]模型的體量大,但與文獻(xiàn)[3]模型和文獻(xiàn)[5]模型相比,DPENet的體量遠(yuǎn)遠(yuǎn)低于兩者。
在精度方面,文獻(xiàn)[3]模型為個(gè)人復(fù)現(xiàn),MDE=2.74,原文獻(xiàn)中MDE=2.45,存在細(xì)微的差別;文獻(xiàn)[4]模型與文獻(xiàn)[5]模型為開(kāi)源實(shí)現(xiàn)。DPENet的精度最高,MDE僅為1.28,性能較文獻(xiàn)[3]模型提升53.3%。
在矯正速度上,文獻(xiàn)[4]模型處于最優(yōu)狀態(tài),文獻(xiàn)[5]模型次之,DPENet第三。文獻(xiàn)[4]模型雖速度較快,但由于其由兩個(gè)模型組成,且第二模型一般需要多次且不定次數(shù)的調(diào)用,一般數(shù)據(jù)難度低時(shí)速度快、難度高時(shí)速度慢,此處可參考文獻(xiàn)[23]中醫(yī)療文檔圖像數(shù)據(jù)的矯正速度(1.21 s>0.37 s),其矯正時(shí)間隨數(shù)據(jù)的變化而變化,不具有穩(wěn)定性。文獻(xiàn)[5]模型矯正速度快是因?yàn)槠涫褂昧怂俣雀斓纳疃葘W(xué)習(xí)框架Keras。而DPENet的矯正速度不因數(shù)據(jù)的變化而變化,既具有穩(wěn)定性又能保持較快的矯正速度。
對(duì)于矯正成功數(shù)量、矯正成功率,DPENet模型均處于最優(yōu)狀態(tài),遠(yuǎn)遠(yuǎn)優(yōu)于其他三種模型,較文獻(xiàn)[4]模型提升44.4%,體現(xiàn)了DPENet優(yōu)越的準(zhǔn)確性。
圖8為不同模型的圖像矯正效果對(duì)比,其中第1列為SmartDoc-QA數(shù)據(jù)集中的樣例原圖,分別為大、中、小三種尺度,第2~5列分別為文獻(xiàn)[3]模型、文獻(xiàn)[4]模型、文獻(xiàn)[5]模型、DPENet的矯正結(jié)果。從空間泛化性看,四種模型對(duì)大尺度的樣本均有較好的矯正效果,其中在DPENet的矯正結(jié)果中文檔背景殘留最??;在對(duì)中、小尺度樣本進(jìn)行矯正時(shí),在文獻(xiàn)[5]模型的矯正結(jié)果中出現(xiàn)大面積的背景殘留,而文獻(xiàn)[3]模型的矯正結(jié)果中不僅有背景殘留,還出現(xiàn)內(nèi)容殘缺的現(xiàn)象,文獻(xiàn)[4]模型的矯正結(jié)果中也存在一定的背景殘留,而DPENet的矯正結(jié)果中無(wú)內(nèi)容殘缺,且背景殘留也最小,這說(shuō)明DPENet具有更好的矯正效果和更好的空間泛化性。
綜上所述,DPENet可以在平衡速度和體量的條件下實(shí)現(xiàn)最優(yōu)的矯正準(zhǔn)確性和精度,并具有更好的矯正效果和空間泛化性,這得益于DPENet對(duì)文檔角點(diǎn)的良好的估計(jì)效果。
本文針對(duì)當(dāng)前基于深度學(xué)習(xí)的文檔圖像角點(diǎn)定位與矯正算法的不足,結(jié)合當(dāng)前的姿態(tài)估計(jì)技術(shù),引入姿態(tài)估計(jì)算法來(lái)對(duì)文檔圖像進(jìn)行角點(diǎn)的定位與矯正處理,提出一種文檔姿態(tài)估計(jì)網(wǎng)絡(luò)DPENet,并在開(kāi)源數(shù)據(jù)集上進(jìn)行測(cè)試,與當(dāng)前主流的深度學(xué)習(xí)方法進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,DPENet在保持輕量化的條件下?lián)碛凶罡叩木?,不僅具有全連接坐標(biāo)回歸的端到端的特性,還具有高斯熱圖回歸方法的良好的空間泛化性、高精度等特性,可以高精度且實(shí)時(shí)地實(shí)現(xiàn)透視變形文檔圖像的姿態(tài)估計(jì)與矯正處理。但DPENet也有不足之處,DPENet中的DSNT模塊的第一步操作為Softmax2d,則姿態(tài)估計(jì)坐標(biāo)被限定在特征圖所對(duì)應(yīng)的輸入文檔圖像的坐標(biāo)范圍之內(nèi),故DPENet不能處理缺角的文檔圖像。如何對(duì)缺角文檔圖像進(jìn)行姿態(tài)估計(jì)與矯正處理將是下一步的研究?jī)?nèi)容。