摘 要:隨著互聯(lián)網(wǎng)應(yīng)用的爆發(fā)式增長,對海量數(shù)據(jù)的分類和知識發(fā)現(xiàn)提出了更高的要求,特別是在圖像識別領(lǐng)域,各種移動應(yīng)用產(chǎn)生數(shù)量巨大的圖像,對圖像的自動理解成為一個具有挑戰(zhàn)性的問題。自然場景中的文本區(qū)域識別問題是其中一個重要的研究方向,由于文本區(qū)域與背景區(qū)域的交錯、重疊和混雜,為建立自動識別模型帶來很大的困難。
關(guān)鍵詞:文本識別;深度學(xué)習(xí);自動編碼器;圖像分割
隨著移動設(shè)備和互聯(lián)網(wǎng)應(yīng)用的高速發(fā)展,數(shù)據(jù)規(guī)模呈現(xiàn)出指數(shù)級別的增長,人們對獲取海量電子化存儲的數(shù)據(jù)中所蘊含的知識和信息的要求也越來越高,對機器學(xué)習(xí)和數(shù)據(jù)挖掘研究者們來說是巨大的挑戰(zhàn)。其中,對圖像的識別是其中一個重要的分析任務(wù),但由于圖像的復(fù)雜性以及其非結(jié)構(gòu)和異質(zhì)的特性,適用于文本數(shù)據(jù)的知識發(fā)現(xiàn)方法并不適用于圖像數(shù)據(jù),因此研究者們對圖像數(shù)據(jù)的分析進行了廣泛而深入的研究。本文闡述對自然場景圖像中文字區(qū)域的識別方法。對圖像中文字信息的識別已有一定的研究基礎(chǔ),如光學(xué)字符識別(OCR,Optical Character Recognition)已有廣泛的研究并成熟地面向商業(yè)應(yīng)用的軟件。但OCR僅限于對空白背景的文字識別,且其識別的字符集有較大限制,在自然場景中OCR難以發(fā)揮作用。下圖展示了兩幅包含明顯文本區(qū)域的自然場景圖像。
■自然場景中的文本區(qū)域示例
本文提出一種無監(jiān)督的方法對自然場景圖像中的文本區(qū)域進行識別。其主要思路是通過一種無監(jiān)督的學(xué)習(xí)方法,獲取圖像文本區(qū)域的特征表達,從而引導(dǎo)圖像分割過程使文本區(qū)域與背景區(qū)域分離,實現(xiàn)文本區(qū)域的識別。提出該方法的動機有以下兩點:第一是圖像的文本區(qū)域變化繁多,難以構(gòu)建有效的訓(xùn)練樣本集進行有監(jiān)督學(xué)習(xí);第二是圖像的文本區(qū)域與背景多有重疊和相交的部分,單純基于像素的圖像分割方法難以得到有效的區(qū)域。因此,采用無監(jiān)督學(xué)習(xí)的方式通過已有的圖像數(shù)據(jù)自動學(xué)習(xí)文本區(qū)域的內(nèi)在特征,并提升為高層次的概念,在此基礎(chǔ)上進行區(qū)域的分割,是一種合理的方法,避免了對區(qū)域特征的直接表達,也節(jié)省了在有監(jiān)督學(xué)習(xí)中構(gòu)建有標(biāo)簽訓(xùn)練樣本集所需的昂貴人工成本。
一、主要方法
采用堆疊自動編碼器作為深度學(xué)習(xí)模型,其結(jié)構(gòu)為多個自動編碼器的輸出和輸入相連接,各個自動編碼器的輸出碼長隨機選擇,各個自動編碼器分別訓(xùn)練再堆疊在一起,最后輸出一組特征向量作為圖像的特征表達。形式上,設(shè)I={I1,I2,…,In}為圖像集合,每個圖像的大小均為w×h像素,設(shè)A={A1,A2,…,An}為自動編碼器集合,其中A1的輸入個數(shù)和w×h的輸出個數(shù)均為v×h,當(dāng)1
自動編碼器的訓(xùn)練采用類似于神經(jīng)網(wǎng)絡(luò)常用的反向傳播訓(xùn)練算法(BP,Back Propagation)進行訓(xùn)練,網(wǎng)絡(luò)中的邊權(quán)值在訓(xùn)練中確定,訓(xùn)練目標(biāo)設(shè)定為輸出的編碼值在相同的權(quán)重作用下盡可能還原輸入值,即:minwA-1[A(x)]-x,尋找使該式最小的w值。每個隱含層神經(jīng)元采用的是Sigmoid函數(shù),每一層均按這樣的方式進行訓(xùn)練,訓(xùn)練全過程以無監(jiān)督的方式進行。尋找最優(yōu)w的過程通過標(biāo)準(zhǔn)的BP算法進行,由于僅有兩層結(jié)點,可以快速收斂。
二、實驗
在公開的圖像數(shù)據(jù)集進行實驗評估。算法使用兩個數(shù)據(jù)集,第一個是ICDAR2003的競賽數(shù)據(jù)集,第二個是公開的街景文字?jǐn)?shù)據(jù)集(Street View Text,SVT)。兩個數(shù)據(jù)集中的圖像都是24位彩色圖像,大小是1024×768像素,文件格式為JPEG。其中ICDAR 2003包含420幅訓(xùn)練圖像和141幅測試圖像,SVT包含5003幅圖像,每幅圖像有一個文本向量表示其中所包含的文字。
對于本文方法,采用20層堆疊的自動編碼器,其中第1個自動編碼器的輸入和最后一個自動編碼器的輸出均為1024×768。中間層的輸入和輸出隨機生成,范圍在200×500至1024×768之間隨機生成。節(jié)點的激勵函數(shù)用Sigmoid函數(shù),即g(x)=■,該函數(shù)能夠把一個連續(xù)的實值輸入量x壓縮到開區(qū)間(0,1),且具有良好的數(shù)學(xué)性質(zhì)。
總之,圖像理解是數(shù)據(jù)挖掘和機器學(xué)習(xí)的熱點研究領(lǐng)域,而其中的文本區(qū)域識別對理解圖像的語義具有重要作用。本文提出了一個識別方法,采用深度學(xué)習(xí)的方法對文本區(qū)域的特征進行提取,有效表達了文本區(qū)域所蘊含的抽象特征,在此基礎(chǔ)上進行區(qū)域的識別和分類,取得了較好的效果。在兩個公開的圖像數(shù)據(jù)集上對本文提出的方法進行測試,評估結(jié)果表明本文方法是有效的。
深度學(xué)習(xí)本質(zhì)上是一種無監(jiān)督的特征表達手段,近年來被深入研究,并在表達抽象概念上展現(xiàn)出了強大的能力。隨著對其研究的深入,會有更多的方法被提出并應(yīng)用于圖像理解領(lǐng)域,而這也是我們今后的主要研究方向。
參考文獻:
[1]L.Ogiela.Cognitive informatics in image semantics description,identification and automatic pattern understanding.Neurocomput,2013.
[2]H.Zhang,K.Zhao,Y.Z.Song,J.Guo.Text extraction from natural scene image:A survey.Neurocomput,2013.
[3]B.Hemery,H.Laurent,B.Emile,C.Rosenberger. Parametriza-tion of an image understanding quality metric with a subjective evalua-tion.Pattern Recogn.Lett, 2013.
?誗編輯 溫雪蓮