趙 威,宋建輝,劉硯菊,劉曉陽
(沈陽理工大學(xué)自動(dòng)化與電氣工程學(xué)院,沈陽 110159)
近年來,隨著信息科技逐漸進(jìn)步,基于人工智能的文字識(shí)別技術(shù)運(yùn)用于諸多領(lǐng)域。 文本圖像容易受拍攝設(shè)備和拍攝環(huán)境的影響,圖像分辨率較低,傳統(tǒng)的文字識(shí)別算法較難準(zhǔn)確地識(shí)別出文本圖像中的信息,為文字識(shí)別工作帶來較大困難[1]。文本圖像分辨率的高低直接影響文字識(shí)別的準(zhǔn)確度,從低分辨率(Low Resolution,LR)圖像中識(shí)別文本是重要的研究內(nèi)容。
圖像超分辨率重建算法主要包括超分辨卷積神經(jīng)網(wǎng)絡(luò)(SRCNN)算法[2]、加速的超分辨卷積神經(jīng)網(wǎng)絡(luò)(FSRCNN)算法[3]、基于拉普拉斯金字塔結(jié)構(gòu)的圖像超分辨率重建網(wǎng)絡(luò)(LapSRN)算法[4]、基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率重建網(wǎng)絡(luò)(SRGAN)算法[5]、文本超分辨網(wǎng)絡(luò)(TSRN)算法[6]。SRCNN 算法首先利用雙三次插值的方式把LR圖像擴(kuò)大到目標(biāo)尺寸,然后經(jīng)過超分辨率重建網(wǎng)絡(luò)擬合數(shù)據(jù)集中的真值圖像,最后輸出超分辨率(Super Resolution,SR)圖像。 該算法的網(wǎng)絡(luò)結(jié)構(gòu)簡單,但應(yīng)用于文本圖像時(shí)效果有限。 FSRCNN算法是SRCNN 算法的改進(jìn),主要在網(wǎng)絡(luò)中加入了反卷積層以擴(kuò)大輸入圖像的尺寸,將LR 圖像直接作為網(wǎng)絡(luò)的輸入,省去了網(wǎng)絡(luò)之外擴(kuò)大圖像尺寸部分,訓(xùn)練時(shí)只需要微調(diào)反卷積層。 相較于SRCNN 算法,F(xiàn)SRCNN 算法在不降低重建效果的前提下訓(xùn)練速度有了很大提升,但其對(duì)圖像特征的利用不夠充分。 LapSRN 算法可以實(shí)現(xiàn)測試集的實(shí)時(shí)SR 圖像生成,其骨干網(wǎng)絡(luò)是SRCNN,在此基礎(chǔ)上加入拉普拉斯金字塔結(jié)構(gòu),實(shí)現(xiàn)了一次運(yùn)行過程中生成多張中間結(jié)果圖像作為不同倍數(shù)的SR 圖像,相比FSRCNN 算法,降低了計(jì)算的復(fù)雜性。 SRGAN 算法的最大特點(diǎn)是可以將LR 圖像重建出擁有高感知質(zhì)量和多細(xì)節(jié),即人肉眼感知舒適的SR 圖像,但SRGAN 算法在訓(xùn)練和測試過程中的穩(wěn)定性有待提高。 TSRN 算法骨干以SRGAN 網(wǎng)絡(luò)為基礎(chǔ)構(gòu)成,相比SRGAN 算法,該網(wǎng)絡(luò)增加了一個(gè)中心對(duì)齊模塊解決訓(xùn)練集和測試集中圖片不對(duì)齊問題,對(duì)文本圖像中不對(duì)齊的像素進(jìn)行調(diào)整,還根據(jù)梯度輪廓先驗(yàn)[7]提出了梯度先驗(yàn)損失銳化文字邊緣,但該算法在提取圖像特征部分有待改進(jìn)。
本文針對(duì)LR 文本圖像中文字的特點(diǎn),提出基于改進(jìn)TSRN 的圖像超分辨率重建算法。 在TSRN 的基礎(chǔ)上引入信息蒸餾塊(IDB)[8],在提取輸入圖像淺層特征后,通過疊加4 個(gè)IDB 加強(qiáng)特征圖在細(xì)節(jié)處的有用信息,從而輸出更為清楚的SR 圖像,實(shí)現(xiàn)對(duì)LR 文本圖像的準(zhǔn)確識(shí)別。 本文算法可更充分地利用提取到的圖像特征,提升圖像的重建效果。
TSRN 算法把二進(jìn)制掩模和彩色三通道(RGB)圖像連接起來構(gòu)成RGBM 四通道圖像作為網(wǎng)絡(luò)的輸入。 針對(duì)數(shù)據(jù)集中高分辨率(High Resolution,HR)圖像和LR 圖像像素不對(duì)齊導(dǎo)致訓(xùn)練時(shí)產(chǎn)生雙影和圖像失真的問題,TSRN 首先采用空間轉(zhuǎn)換網(wǎng)絡(luò)作為對(duì)齊模塊對(duì)文本圖像進(jìn)行預(yù)處理,并實(shí)現(xiàn)端到端學(xué)習(xí),校正后圖像中的偽影問題有所改善,圖像中的文字水平規(guī)范,文字區(qū)域位于圖像中央且對(duì)齊;然后采用卷積神經(jīng)網(wǎng)絡(luò)提取文本圖像中的淺層特征,將淺層特征輸入到5重序列殘差模塊(Sequential Residual Block,SRB)中進(jìn)行高級(jí)特征信息提取;最后通過上采樣模塊和卷積神經(jīng)網(wǎng)絡(luò)生成SR 圖像。
本文在TSRN 的基礎(chǔ)上加入IDB 增強(qiáng)淺層特征信息,提出一種用于提高LR 文本圖像清晰度的超分辨率重建算法。 改進(jìn)的TSRN 框架如圖1所示。 網(wǎng)絡(luò)的輸入是一張LR 文本圖像,經(jīng)過對(duì)齊模塊實(shí)現(xiàn)圖像的像素對(duì)齊,再經(jīng)過淺層特征提取模塊得到文本圖像的淺層特征,并輸入IDB 中進(jìn)行特征增強(qiáng)。 本文通過疊加4 個(gè)IDB 處理后再經(jīng)過5 個(gè)SRB 輸出殘差學(xué)習(xí)結(jié)果,最后經(jīng)過上采樣模塊和卷積神經(jīng)網(wǎng)絡(luò)生成SR 圖像。
圖1 改進(jìn)的TSRN 框架圖
TSRN算法通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本圖像淺層特征的提取,會(huì)導(dǎo)致后面模塊表達(dá)能力受限。因此,本文疊加4 個(gè)IDB 增強(qiáng)文本圖像淺層特征。
IDB 中包括增強(qiáng)單元和壓縮單元兩個(gè)部分[8]。 增強(qiáng)單元加強(qiáng)文本圖像的淺層特征,增加特征通道數(shù)量,使提取的淺層特征擁有更多有效的信息,如文本圖像的筆畫細(xì)節(jié)等,增強(qiáng)單元網(wǎng)絡(luò)如圖2 所示。 圖中F是增強(qiáng)單元的輸入,表示提取的淺層特征;P表示圖像通道之間的分割操作;S表示圖像通道之間的拼接操作。 增強(qiáng)單元為2個(gè)卷積神經(jīng)網(wǎng)絡(luò),每個(gè)卷積神經(jīng)網(wǎng)絡(luò)包括3 個(gè)卷積層,每個(gè)卷積層后面連接一個(gè)激活層。F經(jīng)過第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)后輸出短路徑特征,并經(jīng)由P分為兩部分,分別是增強(qiáng)短路徑特征F1 和保留短路徑特征F2。F1 輸入到第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)得到長路徑特征F3,F(xiàn)2 和F經(jīng)過圖像通道拼接操作輸出局部短路徑特征F4,將長路徑特征與局部短路徑特征合成,得到增強(qiáng)單元的輸出F5,其表達(dá)式為
圖2 增強(qiáng)單元網(wǎng)絡(luò)
式中A表示網(wǎng)絡(luò)的卷積和激活過程。
超分辨率重建算法的損失函數(shù)采用均方誤差,其計(jì)算式為[9]
式中:L1為均方誤差;IHR為數(shù)據(jù)集中HR 文本圖像;ISR為經(jīng)過超分辨率重建算法得到的SR 文本圖像;n為數(shù)據(jù)集中HR 文本圖像的數(shù)量。
文本圖像中文字色彩一般和背景有明顯差異,故采用圖像梯度損失函數(shù),以加強(qiáng)文字的輪廓和線條,使輸出圖像中的文字更加清楚,圖像梯度損失函數(shù)LGP計(jì)算式為
式中:x為圖像中文字線條對(duì)應(yīng)的像素;Ex表示最小化操作,目的是使SR 圖像更加清晰;?IHR(x)表示數(shù)據(jù)集中HR 文本圖像的梯度場;?ISR(x)表示經(jīng)過超分辨率重建算法得到SR 文本圖像的梯度場。
總損失函數(shù)L的表達(dá)式為
式中λ1和λ2分別為L1和LGP的自適應(yīng)權(quán)重系數(shù),本文設(shè)置為λ1=1、λ2=10-4。
本研究使用TextZoom 數(shù)據(jù)集。 TextZoom 數(shù)據(jù)集常用于LR 文本圖像的超分辨率重建,該數(shù)據(jù)集由數(shù)碼相機(jī)拍攝的圖像組成,相機(jī)在不同焦距下拍攝出不同分辨率的文本圖像,在短焦距下拍攝的圖像可作為LR 圖像,在較長焦距下拍攝的圖像作為HR 圖像[10]。 數(shù)據(jù)集包含約三萬張成對(duì)的LR 圖像和HR 圖像,選取70%作為本文的訓(xùn)練集,30%作為測試集。 本文中HR 圖像作為訓(xùn)練模型的真值。
當(dāng)拍攝的圖像高度相同時(shí),焦距越小的圖像越模糊,文字識(shí)別的難度也就越大。 將數(shù)據(jù)集按照識(shí)別難度分為三個(gè)子集:容易子集、中等子集和困難子集,本研究的主要目的是提高各子集中文本圖像的文字識(shí)別準(zhǔn)確率。 數(shù)據(jù)集中各子集的部分圖像示例如圖3 所示。
圖3 數(shù)據(jù)集中各子集部分圖像示例
TextZoom 數(shù)據(jù)集中圖像像素偏移和部分圖像較模糊,存在LR 圖像和HR 圖像的像素不對(duì)齊現(xiàn)象,任何輕微的相機(jī)鏡頭移動(dòng)都可能導(dǎo)致數(shù)十個(gè)像素的偏移,尤其是短焦距拍攝。 從圖3 可以看出,像素不對(duì)齊的變化無特定規(guī)律,隨著數(shù)據(jù)集子集難度的增加,圖像像素的偏移程度和圖像模糊程度也更加嚴(yán)重。
使用容易、中等和困難三個(gè)子集分別對(duì)本文的超分辨率重建算法進(jìn)行訓(xùn)練和測試,訓(xùn)練集的圖像為兩兩對(duì)應(yīng)的HR 圖像和LR 圖像,在訓(xùn)練過程中,LR 圖像作為改進(jìn)網(wǎng)絡(luò)的輸入,通過超分辨率重建生成SR 圖像。
為全面評(píng)估本文算法的重建效果,將本文算法與原始 TSRN 算法、SRCNN 算法、FSRCNN 算法、LapSRN 算法進(jìn)行比較,上述算法均使用TextZoom 數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。
幾種超分辨率重建算法輸出的SR 文本圖像如表1 所示。
表1 幾種算法輸出的SR 圖像
由表1 可以看出,相比其他算法,本文算法輸出SR 圖像中的文字線條更加清晰,文字與圖像背景的對(duì)比更加明顯。 本文算法能從模糊的LR 文本圖像中重建出更加清晰的SR 文本圖像,提高了LR 文本圖像的分辨率。
本文算法與TSRN 算法恢復(fù)的文本圖像細(xì)節(jié)如表2 所示。
表2 本文算法與TSRN 算法恢復(fù)的文本圖像細(xì)節(jié)
由表2 可以看出,通過本文算法重建后,左邊圖像可以比較清晰地看出字母a 的線條,右邊圖像中文字線條和圖像背景的對(duì)比也更加明顯。 相較于TSRN 算法,本文算法對(duì)文字細(xì)節(jié)處理更好,證明了本文算法的有效性。
不同的超分辨率重建算法對(duì)不同子集輸出圖像的峰值信噪比( PSNR) 和結(jié)構(gòu)相似性(SSIM)[11]結(jié)果如表3 所示。
PSNR 為評(píng)定圖像質(zhì)量的指標(biāo),其值越大,表示圖像質(zhì)量越好。 由于使用對(duì)齊模塊導(dǎo)致輕微的像素偏移,故本文算法在中等子集得到的PSNR值相比SRCNN 算法稍低,在困難子集得到的PSNR 值比LapSRN 算法稍低。 因容易子集的圖像較清晰,圖像像素的偏移程度不高,故對(duì)齊模塊對(duì)容易子集的影響不大,本文算法在容易子集的PSNR 值較高。
SSIM 為評(píng)定兩張圖像一致程度的指標(biāo),SSIM 的值越接近1,代表兩張圖像的相似性越高。 本文評(píng)定數(shù)據(jù)集中的HR 圖像和重建算法輸出的SR 圖像的一致程度,由表3 可以看出,相比于其他算法,本文算法在各子集的SSIM 值均最高。
表3 不同算法的PSNR 和SSIM 結(jié)果
本文使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)模型分別對(duì)TextZoom 數(shù)據(jù)集中容易、中等、困難三個(gè)子集的LR 圖像和HR 圖像進(jìn)行文字識(shí)別,分析文字識(shí)別準(zhǔn)確率。 數(shù)據(jù)集中圖像的內(nèi)容均為字符串,文字識(shí)別的結(jié)果可能出現(xiàn)一個(gè)字符串中部分字符識(shí)別正確、部分字符識(shí)別錯(cuò)誤的現(xiàn)象,文字識(shí)別準(zhǔn)確率以識(shí)別正確的字符數(shù)占已識(shí)別字符數(shù)的比表示。 平均文字識(shí)別準(zhǔn)確率為數(shù)據(jù)集中容易、中等、困難三個(gè)子集文字識(shí)別準(zhǔn)確率的平均值。 針對(duì)TextZoom 數(shù)據(jù)集中圖像的文字識(shí)別準(zhǔn)確率如表4所示。
表4 TextZoom 數(shù)據(jù)集中圖像的文字識(shí)別準(zhǔn)確率 %
由表4 可知,數(shù)據(jù)集中LR 圖像的平均文字識(shí)別準(zhǔn)確率僅為25.1%,HR 圖像的平均文字識(shí)別準(zhǔn)確率為61.2%,可見文本圖像分辨率對(duì)文字識(shí)別準(zhǔn)確率影響很大。
為進(jìn)一步證明本文算法的有效性,使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)不同超分辨率重建算法生成的SR 圖像進(jìn)行文字識(shí)別,由于數(shù)據(jù)集中LR 圖像被分為三個(gè)子集,故生成的SR 圖像也分為三個(gè)子集。 文字識(shí)別準(zhǔn)確率的比較結(jié)果如表5 所示。
由表5 可以看出,本文算法生成SR 圖像的平均文字識(shí)別準(zhǔn)確率達(dá)到41.9%,相較于LR圖像的平均文字識(shí)別準(zhǔn)確率提高了16.8%,提高效果顯著。 相較于原TSRN 算法,本文算法生成SR 圖像的平均文字識(shí)別準(zhǔn)確率提升了1.2%;相較于SRCNN 算法、FSRCNN 算法和 LapSRN 算法,本文算法生成SR 圖像的平均文字識(shí)別準(zhǔn)確率分別提升了14.9%、11.2%和9.4%。 說明本文算法的重建效果更好。
表5 不同算法生成SR 圖像的文字識(shí)別準(zhǔn)確率比較 %
為提高LR 文本圖像的分辨率,本文對(duì)TRSN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),加入4 個(gè)疊加的IDB 提高圖像的分辨率。 通過TextZoom 數(shù)據(jù)集對(duì)本文算法進(jìn)行訓(xùn)練和測試,結(jié)果表明,改進(jìn)的重建算法可將LR 圖像轉(zhuǎn)化為更清晰的SR 圖像,圖像中文字的線條更加分明、文字細(xì)節(jié)更加清楚。 使用CRNN 模型對(duì)LR 圖像和重建后的SR 圖像進(jìn)行文字識(shí)別并計(jì)算文字識(shí)別準(zhǔn)確率,結(jié)果表明,改進(jìn)的重建算法生成SR 圖像的平均文字識(shí)別準(zhǔn)確率達(dá)到41.9%,較LR 圖像的平均文字識(shí)別準(zhǔn)確率顯著提高,相較于原TSRN 算法,平均文字識(shí)別準(zhǔn)確率提升了1.2%。 本文提出的算法有效,重建效果更好。