周賢望
(廣東技術(shù)師范大學(xué),廣東 廣州 510665)
在現(xiàn)今數(shù)字化高度發(fā)展的時(shí)代,由于移動(dòng)設(shè)備普及和人們對(duì)圖片信息的需求增加,自然場(chǎng)景圖片中的文本信息越來(lái)越多。自然場(chǎng)景圖片中的文本信息所包含的語(yǔ)義對(duì)于人們理解世界和交流思想具有非常重要的作用。然而,自然場(chǎng)景復(fù)雜的背景極大地增加了圖像中文本的檢測(cè)難度。因此,場(chǎng)景文本檢測(cè)與識(shí)別成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。文本檢測(cè)與識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用于拍照翻譯軟件、商品識(shí)別、信息檢索、智能辦公、智慧城市等領(lǐng)域[1]。因此,對(duì)于場(chǎng)景文本檢測(cè)技術(shù)的研究具有重要的意義和價(jià)值。文本檢測(cè)的主要目標(biāo)是在數(shù)字圖像或視頻中自動(dòng)識(shí)別并定位文本區(qū)域。這是文本識(shí)別技術(shù)的必要步驟,文本檢測(cè)的準(zhǔn)確率將直接影響最終的識(shí)別結(jié)果,在整個(gè)文字識(shí)別任務(wù)中占據(jù)著重要的位置。
文本檢測(cè)是光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)中的一個(gè)非常關(guān)鍵的環(huán)節(jié),它是OCR技術(shù)的第一步,能夠從圖像中準(zhǔn)確地定位出文本區(qū)域,為后續(xù)的文本識(shí)別和分析提供必要的信息。文本檢測(cè)的準(zhǔn)確性直接影響了整個(gè)OCR 系統(tǒng)的性能,因此,重視和優(yōu)化文本檢測(cè)技術(shù)非常重要。最初的研究主要聚焦于水平文本檢測(cè),隨著深度學(xué)習(xí)的發(fā)展,文本檢測(cè)的研究方向也慢慢從任意方向的文本檢測(cè)到當(dāng)前的任意形狀文本檢測(cè),在場(chǎng)景文本檢測(cè)領(lǐng)域,諸多學(xué)者進(jìn)行了大量的研究工作并提出了許多文本檢測(cè)方法,但是仍然存在一些問(wèn)題,例如小目標(biāo)文本不容易檢測(cè)、文本角度多樣以及任意形狀文本難以準(zhǔn)確檢測(cè)。因此,進(jìn)一步的研究仍有必要,以提高場(chǎng)景文本檢測(cè)的準(zhǔn)確性和實(shí)用性。
當(dāng)前,文本檢測(cè)的方法可以按照所研究的問(wèn)題分類為不同類型:水平方向文本檢測(cè)方法、任意方向文本檢測(cè)方法、任意形狀文本檢測(cè)方法。
在水平文本檢測(cè)方法中,很多方法采用邊緣檢測(cè)技術(shù)來(lái)提取自然場(chǎng)景中的文本候選區(qū)域,因?yàn)檫@些文本通常具有豐富的邊緣和角點(diǎn)信息[2]。其中,最大穩(wěn)定極值區(qū)域[3]是最為經(jīng)典的文本檢測(cè)算法之一,該方法的核心思想來(lái)自分水嶺算法。它利用文本區(qū)域穩(wěn)定的不相連“極值點(diǎn)”來(lái)定位和分割字符筆畫邊緣信息。具體而言,MSER 首先將灰度圖像進(jìn)行二值化處理,逐漸提高閾值。這類似于分水嶺算法中水平面上升的過(guò)程。在這個(gè)過(guò)程中,一些“山谷”和“較矮的丘陵”將被淹沒(méi)。如果從空中俯視,則圖像將被分為陸地和水域兩部分,對(duì)應(yīng)于切分字符和背景的二值圖像。每個(gè)閾值都將生成一個(gè)二值圖像,通過(guò)對(duì)灰度圖像進(jìn)行二值化處理,并逐步提高閾值,可以獲得字符和背景的二值圖像。據(jù)此,可以采用規(guī)則或分類器來(lái)定位和預(yù)測(cè)文本候選區(qū)域。另外,筆畫寬度變換算法是一種針對(duì)筆畫兩側(cè)邊緣平行的特點(diǎn)的文本檢測(cè)方法。該方法通過(guò)對(duì)高對(duì)比度邊緣進(jìn)行逐像素分析,從垂直于邊緣的方向上找到與之平行的邊緣上的一點(diǎn),由這兩點(diǎn)構(gòu)成一個(gè)筆畫橫截面并將許多寬度相似的筆畫橫截面連接起來(lái),能夠有效地定位文本位置[4]。最后,CTPN模型將文本區(qū)域視為文本組件序列,結(jié)合目標(biāo)檢測(cè)方法能夠克服任意長(zhǎng)度文本的檢測(cè)難點(diǎn)[5]。然而,該方法只能檢測(cè)水平的文本區(qū)域。綜上所述,基于邊緣的文本檢測(cè)方法和MSER 算法是常用的文本檢測(cè)方法,筆畫寬度變換算法是一種改進(jìn)的文本檢測(cè)方法,CTPN 模型可以克服任意長(zhǎng)度文本的檢測(cè)難點(diǎn),但只能檢測(cè)水平的文本區(qū)域。
近年來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域中的目標(biāo)檢測(cè)得到了迅猛發(fā)展,作為目標(biāo)檢測(cè)研究?jī)?nèi)容的特定領(lǐng)域中的文本檢測(cè)也得到了極大發(fā)展,該領(lǐng)域目前已經(jīng)涌現(xiàn)出一大批任意方向文本檢測(cè)方法。
TextBoxes 網(wǎng)絡(luò)結(jié)構(gòu)使用不同卷積層的多尺度特征來(lái)檢測(cè)文本,可以有效地識(shí)別不同尺寸文本。此外,該網(wǎng)絡(luò)還可以根據(jù)文本區(qū)域的縱橫比,設(shè)置不同的縱橫比來(lái)檢測(cè)不同大小和不同方向的文本。然而,TextBoxes 網(wǎng)絡(luò)的低層特征表達(dá)能力相對(duì)較弱,這會(huì)導(dǎo)致它在預(yù)測(cè)小尺寸文本方面的準(zhǔn)確率不是很高。此外,非極大值抑制算法處理候選文本框的結(jié)果不理想。余崢[6]通過(guò)將TextBoxes 網(wǎng)絡(luò)中不同的特征層相融合并利用鄰域候選文本框的位置關(guān)系構(gòu)建了一個(gè)新的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以提高任意方向文本檢測(cè)的性能?;贑TPN 模型提出的任意方向的文本檢測(cè)模型SegLink,為了克服CTPN模型無(wú)法檢測(cè)傾斜文本的缺點(diǎn),通過(guò)預(yù)測(cè)分段八個(gè)方向是否有與其他分段連接,使預(yù)測(cè)分段可以鏈接生成任意方向的文本框。算法要點(diǎn)如下:先檢測(cè)文本或者文本行的局部區(qū)域,再將這些局 部區(qū)域連接起來(lái)形成一個(gè)完整的單詞或者文本行。它將文字檢測(cè)任務(wù)分解成兩個(gè)子任務(wù):檢測(cè)文字片段和預(yù)測(cè)片段之間的連接關(guān)系。方承志等[7]提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的自然場(chǎng)景文本檢測(cè)算法。該算法引入了殘差結(jié)構(gòu)來(lái)加深網(wǎng)絡(luò)深度,擴(kuò)大感受野并避免梯度消失問(wèn)題,從而提升了網(wǎng)絡(luò)的學(xué)習(xí)能力。此外,該算法還將預(yù)測(cè)框和真實(shí)文本框之間的中心點(diǎn)距離作為懲罰項(xiàng)加入損失函數(shù),有效區(qū)分了不同重疊方式的檢測(cè)框,進(jìn)一步提高了檢測(cè)精度。
任意形狀文本檢測(cè)的發(fā)展要從兩個(gè)重要的數(shù)據(jù)集說(shuō)起:CTW-1500 和Total-text。自2017 年提出這兩個(gè)數(shù)據(jù)集之后,大量學(xué)術(shù)界和工業(yè)界關(guān)于任意形狀文本的研究紛至沓來(lái)。李偉沖[8]在現(xiàn)有的任意方向場(chǎng)景文字檢測(cè)算法TextBoxes 的基礎(chǔ)上,提出了一種端到端可訓(xùn)練的任意形狀文本檢測(cè)和識(shí)別方法,從而實(shí)現(xiàn)文字的同時(shí)檢測(cè)和識(shí)別。該方法利用帶有傾斜角度的文本框,能夠?qū)崿F(xiàn)對(duì)不規(guī)則形狀的文本檢測(cè),并通過(guò)特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和全卷積層來(lái)提高檢測(cè)精度。為了能夠適應(yīng)文本的檢測(cè)和識(shí)別,他在TextBoxes 的文本檢測(cè)分支中添加了對(duì)四邊形文字框角度的預(yù)測(cè),并且通過(guò)添加文本識(shí)別分支擴(kuò)展了TextBoxes 的網(wǎng)絡(luò)結(jié)構(gòu)。此外,他引入了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和全卷積層來(lái)提高檢測(cè)精度,使得模型能夠有效地檢測(cè)不同尺寸的文本。通過(guò)利用四邊形文本框或者包含傾斜角度的文本框?qū)崿F(xiàn)不規(guī)則形狀的文本檢測(cè)。同時(shí),SegLink++ 模型也是一個(gè)很好的解決方案,它引入線段和點(diǎn)兩種類型的鏈接來(lái)定義文本區(qū)域,并利用深度網(wǎng)絡(luò)的多級(jí)合并細(xì)節(jié)的能力來(lái)處理各種尺度和形狀的文本信息,可以檢測(cè)任意形狀的文本。這些模型的引入,為任意形狀文本的檢測(cè)和識(shí)別提供了更加有效的工具和技術(shù),從而實(shí)現(xiàn)對(duì)各種形狀的文本進(jìn)行更好的檢測(cè)和理解。
Long 等[9]提出了一種名為Textsanke 的非常靈活的文本實(shí)例表征方法。該方法利用一系列連接且重疊的圓盤來(lái)表示文本區(qū)域,每個(gè)圓盤的圓心在文本區(qū)域中心線上。這種方法能夠?qū)崿F(xiàn)對(duì)線性文本和不規(guī)則文本的檢測(cè)。唐秦[10]將自然場(chǎng)景下的文本檢測(cè)與識(shí)別分為兩個(gè)任務(wù)進(jìn)行研究,并提出了一種特征聚合與感受野增強(qiáng)的場(chǎng)景文本檢測(cè)算法,該算法能夠獲得更加穩(wěn)定且精確的任意形狀文本檢測(cè)器。這種方法是在PSENet(Progressive Scale Expansion Network)的基礎(chǔ)上進(jìn)行改進(jìn)的,通過(guò)加入特征聚合與感受野增強(qiáng)模塊,實(shí)現(xiàn)了不同尺度特征信息的提取與融合,并增強(qiáng)了網(wǎng)絡(luò)低層特征的感受野。白鶴翔等[11]在PSENet模型基礎(chǔ)上,加入了三個(gè)用以增強(qiáng)邊緣特征的網(wǎng)絡(luò)模塊。其中,淺層特征增強(qiáng)模塊可有效增強(qiáng)包含更多邊緣特征的淺層特征;邊緣區(qū)域檢測(cè)分支將普通特征和邊緣特征進(jìn)行區(qū)分以對(duì)目標(biāo)的邊緣特征進(jìn)行顯式建模;分支特征融合模塊可將兩種特征在識(shí)別過(guò)程進(jìn)行更好的融合,提升了任意形狀的文本檢測(cè)準(zhǔn)確率和召回率。這些方法為任意形狀的文本檢測(cè)提供了更加靈活、準(zhǔn)確的解決方案,并同時(shí)提高了文本檢測(cè)的準(zhǔn)確率和召回率。這些方法可能會(huì)在圖像處理領(lǐng)域得到廣泛的應(yīng)用。
通常在進(jìn)行文本檢測(cè)任務(wù)時(shí),采用分割網(wǎng)絡(luò)來(lái)處理預(yù)測(cè)的概率圖并轉(zhuǎn)化為二值圖以優(yōu)化模型訓(xùn)練和計(jì)算。然而,傳統(tǒng)的二值化過(guò)程不可微分,需要進(jìn)行繁瑣的后處理,這會(huì)嚴(yán)重影響網(wǎng)絡(luò)性能和收斂速度。為了解決這個(gè)問(wèn)題,蔡鑫鑫[12]提出了一種基于分割的方法,該方法使用低成本的分割頭和高效的后處理,分割頭由特征增強(qiáng)和特征融合模塊組成,前者提供多層次信息指導(dǎo)分類,后者將深度特征集合成最終特征進(jìn)行分割。并利用可微分二值化模塊(DB)將概率圖轉(zhuǎn)換為文本區(qū)域,從而提高了文本檢測(cè)的準(zhǔn)確性。Liao等[13]在DBNet 的基礎(chǔ)上提出了DBNet++并引入了自適應(yīng)尺度融合(ASF)模塊,該模塊可自適應(yīng)地融合不同尺度的特征以提高尺度的魯棒性。但兩者的不足之處都在于難以檢測(cè)重疊文本。
目前,深度學(xué)習(xí)已經(jīng)成為自然場(chǎng)景文本檢測(cè)領(lǐng)域的重要研究工具,但該領(lǐng)域的研究方法仍有一定的局限性。下面將介紹該領(lǐng)域存在的一些問(wèn)題以及未來(lái)的主要研究方向。
當(dāng)前主流的文本檢測(cè)方法中,都是以矩形或者四邊形作為文本區(qū)域檢測(cè)框,這種線性文本區(qū)域檢測(cè)框的設(shè)定方式導(dǎo)致了這類方法無(wú)法很好地適應(yīng)任意形狀的文本。因此,可以通過(guò)提高模型對(duì)任意形狀文本的檢測(cè)性能。這種描述方式不僅需要保證檢測(cè)結(jié)果的準(zhǔn)確性和魯棒性,還需要考慮到計(jì)算效率的問(wèn)題?;谶@樣的要求,近年來(lái)出現(xiàn)了各種各樣的文本框描述方式,例如基于分割的方法、錨點(diǎn)定位的方法、密集預(yù)測(cè)的方法等。這些方法在提高文本檢測(cè)性能方面都有著各自的優(yōu)缺點(diǎn),具體選擇哪種方法需要根據(jù)實(shí)際應(yīng)用場(chǎng)景和需求進(jìn)行權(quán)衡。總之,設(shè)計(jì)合適的文本區(qū)域描述方式是提高文本檢測(cè)性能至關(guān)重要的研究思路。
此外,以目標(biāo)檢測(cè)模型為基礎(chǔ)改進(jìn)的文本檢測(cè)方法往往忽略了文本特征與其他目標(biāo)物體特征的獨(dú)特性,導(dǎo)致在一些場(chǎng)景下檢測(cè)效果并不理想。針對(duì)這個(gè)問(wèn)題,可以從文本組件筆畫特征進(jìn)行考慮,可以先設(shè)計(jì)微文本框去檢測(cè)文本組件,再利用微分的思想將這些微文本框進(jìn)行拼接組合成任意形狀的文本區(qū)域框。
與傳統(tǒng)的文本檢測(cè)方式相比,微文本框的設(shè)計(jì)可以進(jìn)一步增加文本檢測(cè)的靈活性,提高任意形狀文本檢測(cè)的性能和準(zhǔn)確率。此外,使用微文本框可以有效地解決文本形狀和大小的差異問(wèn)題,對(duì)檢測(cè)尺寸差異性大的文本場(chǎng)景非常有效。因此,將微文本框引入文本檢測(cè)技術(shù)是一種非常有前途的方法,可以為今后的相關(guān)工作提供重要參考,也有很好的應(yīng)用前景。
除了通過(guò)以上思路來(lái)提高文本檢測(cè)的準(zhǔn)確率之外,基于直接邊框回歸的思路也是提高文本檢測(cè)速度的一個(gè)重要思路,基于此思想的方法可以直接預(yù)測(cè)任意形狀的文本區(qū)域。這種方法可以有效避免傳統(tǒng)方法需要先生成大量的候選框以及復(fù)雜的后處理過(guò)程,從而提供更快速、更精準(zhǔn)的文本檢測(cè)能力。另外,由于移動(dòng)設(shè)備終端的處理能力有限,構(gòu)建更輕量化的文本檢測(cè)網(wǎng)絡(luò)也將成為未來(lái)的重要需求。如何權(quán)衡好文本檢測(cè)模型的檢測(cè)速度和精度是未來(lái)研究中的重要方向,需要不斷探索新的文本區(qū)域描述方式、模型結(jié)構(gòu)以及優(yōu)化算法,以提高文本檢測(cè)的性能,并在實(shí)現(xiàn)高效的同時(shí)確保準(zhǔn)確性,滿足各種場(chǎng)景下的需求。
自然場(chǎng)景文本檢測(cè)目前是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的研究熱點(diǎn)之一,其方法已逐步從經(jīng)典方法轉(zhuǎn)向基于深度學(xué)習(xí)的方法,并且研究對(duì)象涵蓋了水平方向文本到任意方向和任意形狀的文本。本文主要整理了近年來(lái)基于深度學(xué)習(xí)的文本檢測(cè)方法,并根據(jù)文本檢測(cè)技術(shù)要解決的問(wèn)題對(duì)研究者們所提出的思想、方法進(jìn)行分類,并闡述了其待解決問(wèn)題和發(fā)展趨勢(shì)。