劉 洋,陳 黎
1.武漢科技大學 計算機科學與技術(shù)學院,武漢 430065
2.武漢科技大學 智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,武漢 430065
文字識別算法如今已在各行各業(yè)得到了廣泛的應用,例如書籍掃描[1]、車牌違章處理、自動駕駛識別道路標牌、文本拍照翻譯。伴隨著深度學習的發(fā)展,涌現(xiàn)出了許多先進的識別方法以抵抗復雜多變的文字圖像,而為了識別結(jié)果更加精準,一些研究選擇在特定領(lǐng)域上對算法進行專門優(yōu)化。如何在時間戳文本識別這一應用方向上對主流文本識別網(wǎng)絡(luò)進行改進,是本文的主要研究方向。
早期的文字識別算法把識別過程分為檢測字符和識別字符兩個階段,Niblack[2]和Smith[3]等人提出使用二值化預處理和啟發(fā)式的分割方案分割獨立字符后,使用分類器進分類,接著使用集束搜索[3]這類優(yōu)化算法重組字符序列,進而得到概率最高的文本序列。Bissacco[4]和Wang[5]等人則是在檢測字符階段進行改進,提出使用深度學習算法預測獨立字符的分割區(qū)域,提高了文字分割的魯棒性。但是早期的這些識別方法把字符當作獨立的對象,字符間的信息無法得到很好的傳播,導致算法對全局信息的感知能力不強。為了解決這一問題,Jaderberg[6]提出把文字識別看作一個大規(guī)模的分類問題,為所有的目標文本預定義詞典庫作為分類標簽,一個標簽即對應一段文本,對文本圖像整體進行分類,并直接輸出該類別的對應的文本。而Almazán[7]和Gordo[8-9]等人采取的方式同樣是預定義詞典庫,不過他們將圖像和單詞文本通過深度學習網(wǎng)絡(luò),嵌入到同一個向量空間[10]中,通過高維空間的向量表達建立圖像特征和文本特征之間的關(guān)聯(lián),向量距離最近的文本對象就是識別結(jié)果。此種方法不用分割獨立的字符,各個字符之間不再是獨立的孤島,對圖片整體進行卷積操作,提高了對圖像全局信息的感知能力,然而預定義的文本標簽數(shù)量是有限的,這導致算法不能識別新詞和適應組合排列復雜的語言。
為了解決預定義詞典對識別結(jié)果存在局限的問題,適應多變的語法和字符組合,Shi[11]和He[12]等人基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN提出CRNN網(wǎng)絡(luò)(CNN+RNN),用CNN提取圖像特征,接著使用RNN編解碼得到字符序列,最后通過Connectionist Temporal Classication函數(shù)[13]計算字符分類的損失,解決了圖像文字和文本標簽的對齊問題。Lee等人[14]提出基于注意力機制的序列到序列(seq2seq)模型,把圖像特征編碼為一個全局上下文向量,用這個上下文向量作為RNN的初始狀態(tài),逐序列解碼輸出目標文本,直到輸出終結(jié)符號。上述方法很好地結(jié)合了CNN的圖像特征提取能力,以及RNN的序列數(shù)據(jù)處理能力,十分適合文本識別任務,是目前文本識別的主流選擇。在這些工作的基礎(chǔ)上,Li[15]和Shi[16]等人針對扭曲文字樣本,訓練變換網(wǎng)絡(luò)對圖像文本進行矯正,降低識別階段的難度。這些研究的目標主要集中在光學信息的處理上,但是當輸入圖像存在模糊、光照干擾等情況時,光學信息被污染,網(wǎng)絡(luò)的性能就會大打折扣。解決方法之一就是把文本的排列模式和語言規(guī)范考慮在內(nèi),通過類似自然語言處理任務的方法去感知圖像當中的文本內(nèi)容。
為了進一步挖掘文本圖像當中的潛力,僅依賴圖像當中光學特征是遠遠不夠的,網(wǎng)絡(luò)可以借助額外的信息進行學習,例如字符的序列組合所蘊含的語義信息,人類可以通過這些語義信息去猜測被遮擋的字符是什么,那么機器也可以通過類似的方法去解決文字模糊不清晰、字符缺省等問題。原而本文所研究的時間戳文本就具有嚴格格式規(guī)范,這種強相關(guān)的模板規(guī)范將會更加易于網(wǎng)絡(luò)去學習。如何融入時間戳的結(jié)構(gòu)化信息對識別結(jié)果進行約束修正,是本文要研究的關(guān)鍵問題。在這方面,Qiao等人[17]曾提出使用網(wǎng)絡(luò)預測圖像的語義信息,指導解碼模塊解碼文字,提高模糊圖像文本的識別準確度。受到上述研究的啟發(fā),本文通過深入研究時間戳的文本特點,提出一種時間戳格式化約束識別網(wǎng)絡(luò)(time‐stamp formated constrained CRNN,TFC-CRNN),設(shè)計專門的一個約束信息預測分支網(wǎng)絡(luò),分析圖像中的時間戳約束向量,文字解碼模塊將協(xié)同約束信息,學習輸出規(guī)范化的時間戳文本,解決在光線干擾、背景混淆等情況下,時間戳文本識別精度不高、不符合格式規(guī)范的問題。
經(jīng)典的文字識別方法均采用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù),并且通過隱藏層的狀態(tài)捕捉全局信息,非常適合處理文本這類數(shù)據(jù)。其又分為CRNN和序列到序列(seq2seq)兩種模型范式,前者用卷積層CNN提取得到圖像的特征圖之后,把特征圖用作序列進行編解碼,輸出字符序列后通過CTC函數(shù)[13]計算損失代價,CRNN解決了文字序列標簽和預測輸出序列之前不對齊的問題,使得文字識別算法可以進行端到端的識別,雖然CRNN的文字字符長度可以動態(tài)變化,但是最大長度限定在RNN層的輸出長度之內(nèi),而這個長度和圖像的寬度是成正比例的。關(guān)于序列到序列模型,把圖像特征通過RNN編碼成一個緊湊的上下文向量,然后以該向量作為解碼層RNN的初始狀態(tài),循環(huán)解碼字符,直到輸出終結(jié)符號,其文本長度和終結(jié)符號的輸出位置相關(guān),和CRNN不一樣,序列到序列模型的輸出文本長度只和終結(jié)符號的輸出位置有關(guān),因此理論上可以輸出無限長的預測序列。不過考慮到時間戳文本的格式固定,長度為18個字符(年、月、日、時、分、秒,以及4個分隔符號),因此本文采用CRNN網(wǎng)絡(luò),其優(yōu)點是能夠通過圖像寬度對輸出序列的長度進行控制。
通過多任務訓練目標提升網(wǎng)絡(luò)的泛化能力是一個有效的優(yōu)化策略,這需要在主要的訓練任務基礎(chǔ)上加入一個額外的訓練目標,配合主網(wǎng)絡(luò),緩解模型的過擬合現(xiàn)象,提高網(wǎng)絡(luò)的泛化能力,同時也是通過額外的學習目標,提升對圖像內(nèi)容的利用效率。前文提到過的通過卷積網(wǎng)絡(luò)將圖像內(nèi)容直接映射到語義信息的高維向量空間中[7-9,18],實現(xiàn)了從圖像提取上下文信息的功能,其中Patel等人[19]利用社交平臺上圖像的標簽文本訓練預測話題的LDA[20]模型,然后對圖像數(shù)據(jù)用卷積網(wǎng)絡(luò)學習輸出這些話題概率分布,讓模型能夠預測圖像的話題,Kang等人[21]進一步將話題的向量表達嵌入到文本檢測、文本識別模型中,指導模型輸出更加符合圖像環(huán)境的目標結(jié)果,這表明可以讓網(wǎng)絡(luò)學習直接從圖像當中獲取文本的語義信息,進而提高下游任務的語義敏感度。這些研究涉及的研究對象是全圖背景信息,而Qiao等人[17]提出的SEED模型則是在局部區(qū)域的文本圖像任務上進行優(yōu)化,設(shè)計了詞向量預測分支,使用預訓練的詞向量嵌入模型[22]監(jiān)督卷積網(wǎng)絡(luò)預測文本圖像的詞向量,實現(xiàn)了從圖像到詞向量的轉(zhuǎn)換。其中的SEED模型將這些詞向量輸入到文字識別模型ASTER[16]的文字解碼模塊中,指導模型在低質(zhì)量文字不清晰的圖片上,通過詞向量信息補足光學信息缺失的問題,解決模糊、光照不足等問題下文字難以識別的問題。以上研究通過圖像中的文字語義預測任務,來提高文本檢測和文本識別階段的模型性能。
在上述研究的啟發(fā)下,通過分析時間戳文本的特點,本文提出一種約束信息提取模型,從圖像信息抽取其中的文本約束向量,結(jié)合傳統(tǒng)的CRNN網(wǎng)絡(luò),解決監(jiān)控畫面中,因為光線干擾、背景復雜、文字半透明模糊不清等原因?qū)е碌淖R別錯誤問題,并且指導文字解碼模塊輸出更加符合時間戳格式規(guī)范的文本結(jié)果。這種優(yōu)化后的模型框架和SEED模型最為接近,區(qū)別在于,SEED的研究目標是自然語言文本,需要預訓練得到的詞向量嵌入模型作為語義信息提取模塊,來輔助文本識別模型訓練,而本文則是通過時間戳文本的格式特點,利用文本當中的數(shù)字字符,簡化語義信息特征提取模塊,將其轉(zhuǎn)換為一個簡潔可控的解析函數(shù),無需大量的參數(shù)訓練就可以達到提取文本語義信息的功能。
本文的模型以CRNN[5]網(wǎng)絡(luò)為基礎(chǔ),針對時間戳文本目標,增加了時間戳約束信息提取模塊,并將其融入循環(huán)神經(jīng)網(wǎng)絡(luò)當中,配合RNN解碼模塊,約束文字解碼輸出。
約束信息學習有兩個問題需要解決,一是約束信息的監(jiān)督標簽如何設(shè)計,二是使用怎樣的預測模型。對于問題一,在傳統(tǒng)的自然語言文本上,普遍的方法是采用大量的文本語料訓練詞向量嵌入模型,使其能夠?qū)⑽谋締卧~對應的one-hot離散向量映射為緊湊連續(xù)的高維特征向量,其公式如下:
其中,S表示一個單詞字符串,比如“hello”,OneHot函數(shù)首先會把這個字符串映射為獨一無二的one-hot向量,接著使用We所表示的矩陣乘法,將one-hot向量轉(zhuǎn)換為緊湊的F向量表示。這種嵌入模型需要大量的語料數(shù)據(jù)去優(yōu)化學習映射函數(shù)We內(nèi)部的權(quán)重,并使得相近語義的文本通過映射之后,也能夠得到距離接近的特征向量表示。然而考慮時間戳文本格式固定,具有嚴謹?shù)慕Y(jié)構(gòu)化特征,本身非常容易解析成連續(xù)數(shù)值的表示形式,因此,本文利用時間戳文本的這一特點,設(shè)計了一個簡潔的特征提取函數(shù):
其中,d用于區(qū)分時間戳信息中的年、月、日、時、分、秒6個部分,Pd是一個對應時間信息的字符串解析函數(shù),例如Pyear表示將S當中的年份數(shù)字提取出來并轉(zhuǎn)換為整數(shù),而mind、maxd表示時間d部分的最小值和最大值(年份取2000—2030),最終特征向量Cgt為這6個歸一化數(shù)字組成的一維向量。本文將其稱作約束向量,一方面是因為其表示范圍總是約束在合理的數(shù)字范圍內(nèi),對應0~1的歸一化表示范圍,另一方面是因為該向量將會被用于解碼模塊,去約束網(wǎng)絡(luò)的輸出字符概率,讓其盡量符合時間戳的格式要求。通過這種方法,利用時間戳文本這一特定領(lǐng)域中的額外文本格式要求,省略詞向量嵌入模型訓練流程,快速地完成文本語義的向量化映射。
對于問題二,如何設(shè)計約束信息預測模型??梢詤⒖汲R姷膱D像分類模型,通過在CRNN網(wǎng)絡(luò)當中的特征提取層之后,串聯(lián)多層全連接網(wǎng)絡(luò),把高維圖像特征轉(zhuǎn)換為預測約束向量,其計算公式如下:
其中,F(xiàn)img表示圖像特征,reshape把圖像特征拉平為一維特征,送入MLP表示的多層感知網(wǎng)絡(luò),在MLP1和MLP2的中間,把臨時向量Ch用作高維的約束向量表達,它將被用來作為循環(huán)神經(jīng)網(wǎng)絡(luò)的初始化狀態(tài),在解碼層中進行約束解碼輸出的功能,并且由于解碼模塊的循環(huán)神經(jīng)網(wǎng)絡(luò)是一個雙向LSTM網(wǎng)絡(luò),包含前向和后向兩個方向的LSTM,因此Ch會被分成兩個子向量分給初始化兩個方向的LSTM。最后MLP2輸出的向量C即最終預測得到的長度為6的約束向量,將其和約束向量Cgt通過均方差損失函數(shù)進行線性擬合,監(jiān)督分支預測模塊學習時間戳圖像中表達的約束信息。
關(guān)于約束向量的選擇,一個改進的方案是在訓練階段利用已知的約束向量標簽Cgt,通過額外一層線性變換MLP3,把約束向量轉(zhuǎn)換到高維表達,然后作為雙向LSTM的初始化狀態(tài),而在推理階段,則使用預測得到C通過MLP3轉(zhuǎn)換得到LSTM的初始狀態(tài),這種方案的好處就是訓練階段的約束信息來自真實可靠的標簽,理應能夠改善訓練階段的約束效果,然而根據(jù)SEED[17]文章當中的說明,如果采用訓練標簽Cgt作為LSTM的初始狀態(tài)來源,效果要差于當場預測得到的C作為LSTM的初始狀態(tài)。可能的原因是因為Cgt作為時間戳文本的唯一對應,仍然存在一定的離散性,而實時預測得到的C雖然數(shù)值并不一定精確,但是擁有更加豐富的語義表達,更適合作為語義信息對解碼模塊進行指導。
本文所用到的網(wǎng)絡(luò)結(jié)構(gòu)TFC-CRNN如圖1所示,它是在CRNN網(wǎng)絡(luò)的基礎(chǔ)上改進而來,原本的CRNN網(wǎng)絡(luò),首先是將原本CRNN網(wǎng)絡(luò)中的兩層雙向LSTM縮減為單層雙向LSTM模塊,在圖像特征提取模塊后面添加了約束信息預測模塊,二信息約束模塊計算得到的中間向量Ch作均等拆分為兩個向量,作為雙向LSTM模塊的前后兩個方向的起始狀態(tài),如圖1所示。
“回首向來蕭瑟處,也有風雨也有晴”。改革開放40年是中國制造業(yè)從低端走向中高端的關(guān)鍵發(fā)展階段,在這個偉大的歷史變革過程中,我們的制造業(yè)通過大浪淘沙涌現(xiàn)了一批有影響力的優(yōu)秀企業(yè)。正是他們的堅守、成就與貢獻,推動了行業(yè)轉(zhuǎn)型升級,引領(lǐng)了行業(yè)發(fā)展方向,從而真正促進了中國制造業(yè)大踏步從高速度增長向高質(zhì)量發(fā)展邁進。
圖1 TFC-CRNN模型結(jié)構(gòu)Fig.1 TFC-CRNN framework
在這個框架中,數(shù)據(jù)的計算流程如下:首先圖片需要被預處理為512×32的分辨率,送入特征提取模塊,使用多層殘差網(wǎng)絡(luò)提取特征,使用殘差網(wǎng)絡(luò)能夠在提取高維圖像特征的同時,盡可能保留低維的圖像細節(jié)信息,在特征提取的最后一個階段,使用最大化池層將高度方向的特征維度下采樣到1,得到編碼后的圖像特征,維度為64×256,其中寬度64對應解碼輸出的64個字符,256是每一個字符的特征維度。這里的圖像特征將會分別送入約束信息提取模塊和文字解碼模塊,約束信息提取過程中的中間向量C被用來作為解碼模塊中循環(huán)神經(jīng)網(wǎng)絡(luò)初始狀態(tài)向量,起到約束解碼的作用。解碼模塊得到的64個字符概率最后通過CTC損失函數(shù)計算損失,而約束模塊提取得到的C則與時間戳文字標簽對應的約束向量Cgt計算均方差損失??梢钥吹浇獯a模塊只需要MLP1輸出的Ch向量,因此在推理階段,約束信息提取模塊的MLP2網(wǎng)絡(luò)可以被裁剪掉,減少不必要的算力消耗,提高算法的運行速度。
常見的文本識別測試指標包括全匹配率(ACC)和編輯距離(ED)兩個指標,前者檢查預測字符串是否完全和目標字符串一致(越大越好),測量所有樣本中預測文本和目標文本完全一致的樣本比例;后者通過編輯距離衡量預測結(jié)果和目標文本的字符級別差異(越小越好),數(shù)值越小表示兩端文本越相似??紤]到時間戳文本具有格式固定的特點,本文額外提出一種模板編輯距離EDT,用以衡量文本的格式規(guī)范程度,在模板編輯距離下,數(shù)字字符允許存在誤差,衡量的主要標準是數(shù)字字符和其他分隔符號的排列模式是否符合目標模板的規(guī)定,要求字符串盡可能接近預期的字符串模板。其計算公式如下:
其中,S是被測試的文本,ST是預期的目標模板(例如”2000-01-0100:00:00”),ED代表標準的編輯距離計算函數(shù),而函數(shù)N負責對字符串歸一化,具體操作就是把字符串當中的數(shù)字字符替換為通配符“d”,保留其他非數(shù)字符號不變(例如日期分隔符“-”),通過這樣的歸一化,使得標準編輯函數(shù)能夠忽略數(shù)字的識別精度要求,只考慮字符類型的排列順序是否符合模板,從而衡量預測文本的模板規(guī)范程度。
舉例來說,如果將“2019-02-2214:45:12”作為預測文本S,“2020-02-2214:45:12”作為目標模板ST,預測文本和目標模板的差異只在于年份數(shù)字不同,在標準編輯距離ED的計算中,年份“2019”轉(zhuǎn)換為“2020”最少需要兩步替換字符的操作,因此標準編輯距離結(jié)果為2。而模板編輯距離則是將這兩個字符串轉(zhuǎn)換為“dddd-dddddd:dd:dd”和“dddd-dd-dddd:dd:dd”之后,再計算標準編輯距離,這種情況下忽略了數(shù)字字符的準確性,那么此時的最小編輯步數(shù)就可以視作字符串的格式規(guī)范指標,數(shù)值越小,說明字符串的格式越接近??梢钥闯鰜砩鲜龅膬蓚€字符串格式完全一致,而對應的模板編輯距離計算結(jié)果也為0,符合預期的效果。本文通過這種指標計算方法,衡量時間戳識別結(jié)果的規(guī)范性,數(shù)值越小,表明識別出來的文本格式越符合格式規(guī)范。本文通過EDT來對比信息約束模塊對輸出文本模板的約束效果。
3.1.1 真實數(shù)據(jù)集,測試集
本實驗的測試集來自真實監(jiān)控攝像頭截取的監(jiān)控畫面圖像,通過人工裁剪得到只包含時間戳文本的部分,得到總計19 700張樣本,按照采樣的地點和時間段把這些測試數(shù)據(jù)分為四個數(shù)據(jù)集,樣張展示可參考表1,這四個數(shù)據(jù)集的詳細特點說明如下:
表1 四種數(shù)據(jù)集下的樣張對比(僅展示年月日)Table 1 Samples on four dataset(only show year/month/day)
NM1數(shù)據(jù)集:2 000張日間采樣樣本,文字顏色為不透明的黑白混色,即一行文字中,有的字是黑色,有的是白色,文字字體單一,圖像分辨率高,字體清晰,識別難度不大。
NM2數(shù)據(jù)集:3 500張日間采樣樣本,黑白混色不透明文字,采樣地點不同于A集,由于文字字體單一且清晰規(guī)范,分辨率高,文字顏色和背景的區(qū)分度高,識別難度最低。
TP2數(shù)據(jù)集:8 200張夜間采樣樣本,采樣地點同TP1數(shù)據(jù)集,但是采樣的時間改在夜間,夜間背景中的光線干擾較少,時間戳文字更加明顯,能夠降低識別難度。通過TP1和TP2的對比可以觀察背景顏色對文字識別的影響程度。
3.1.2 訓練數(shù)據(jù)集
時間戳圖像由監(jiān)控設(shè)備向背景圖片上疊加文字生成,可以通過計算機模擬生成,得到大量的時間戳圖像樣本。實驗過程中通過截取真實監(jiān)控畫面的無字區(qū)域然后疊加隨機的時間戳文字,生成48 000張樣本,全部用作訓練集。真實時間戳圖片的分辨率接近1 024×64,因此模擬程序也以該分辨率從真實的監(jiān)控畫面中截取背景圖像,每一張時間戳圖片內(nèi)文字的字體和透明度一致,字體從10種不同的字體隨機選取,50%的樣本透明度設(shè)為1,即不透明文字,其余的50%樣本中,透明度的alpha通道值取0.7~0.9之間的隨機值,這些半透明樣本作為困難樣本,主要是為了訓練模型應對文字背景混淆、光線干擾等問題。
訓練階段,batch size為64,學習率為1E-3,每10個epoch學習率以0.1的比例衰減,共訓練128個epoch。測試階段,真實時間戳圖片的分辨率尺寸各不相同,在輸入網(wǎng)絡(luò)前需要統(tǒng)一縮放到512×32,然而一部分時間戳文字字體太窄,強制在寬度方向上拉伸,會使得這類文字變形嚴重,拉低識別正確率。因此需要針對此類窄樣本,限定拉伸比例,防止拉伸程度過大導致文字失真。通過實驗結(jié)果的對比發(fā)現(xiàn),當圖片的寬高比小于25∶2時,將其拉伸到400×32是一個比較合理的選擇,同時向右側(cè)剩余的112像素寬度部分填充灰色,最終把圖像填充到512×32,填充灰色是為了避免與時間戳文字的黑白顏色的文字產(chǎn)生混淆,導致文字在真實圖像內(nèi)容和填充的邊緣位置誤識別成文字字符。此外,這里縮放圖片的操作并沒有采用等比縮放,而是強制縮放的原因,一方面是因為512×32恰好能夠容納下正常比例的18個字符,強制縮放到這一尺寸之后反而會使得不同字體的文字比例趨近于統(tǒng)一,有利于文字識別;另一個方面的原因則是,CRNN解碼字符的序列長度和圖片寬度正相關(guān)這一特點,對于一些比較緊湊的窄文字樣本,強制在寬度方向拉長(拉伸不易過多),可以保證寬度上各個字符之間的像素距離足夠遠,為解碼模塊預測有效字符之間的分隔符提供充足的判別空間,避免文字太窄擠到一起導致序列解碼模塊無法區(qū)分獨立字符的問題。
訓練損失函數(shù)對比,圖2中展示的CRNN網(wǎng)絡(luò)和TFC-CRNN網(wǎng)絡(luò)的loss下降曲線,注意為了公平對比,這里只考慮CTC loss部分,TFC-CRNN的信息約束模塊的loss并沒有考慮在內(nèi)。
圖2 CTC損失下降對比Fig.2 CTC loss descend compare
圖2 中可以看到,TFC-CRNN的CTC loss曲線相比CRNN要更低一些,說明信息約束模塊所提供的約束向量Ch有效輔助了解碼模塊的字符序列輸出。為了驗證這并非是過擬合,在對應每一個epoch之后,測試兩種模型在NM1數(shù)據(jù)集下的完全匹配率,可以得到如圖3的測試集曲線。
圖3 NM1測試集下的完全匹配率變化曲線Fig.3 Exact match rate curve in NM1 dataset
圖3 中可以看到,TFC-CRNN相比CRNN更快達到最高點,然后在后續(xù)的訓練過程中依然保持了對CRNN的優(yōu)勢。除此之外,表2中對比了近年來三種文字識別算法、CRNN算法以及本文提出的算法在NM1、NM2、TP1、TP2四個數(shù)據(jù)集上的性能表現(xiàn)。
表2 不同模型的完全匹配率Table 2 Exact match rate of different model單位:%
表2中展示了不同測試數(shù)據(jù)集下的完全匹配率。前三行是以往主流的文本識別算法,第四行是CRNN網(wǎng)絡(luò)框架下的文字識別算法,第五行的TFC-CRNN是在CRNN的基礎(chǔ)上增加信息約束模塊之后的效果,可以看出,TFC-CRNN在完全匹配率標準下超過上述所有文本識別模型。其中TFC-CRNN在CRNN的基礎(chǔ)上,使得完全匹配率產(chǎn)生0.21~1.15個百分點的提升。同時需要注意TP1和TP2這兩個帶有半透明文字樣本的困難數(shù)據(jù)集結(jié)果,TP2和TP1的差別是采樣時間不同,TP2在夜間,背景顏色黯淡,即使是半透明文字也相對容易辨別,而TP1則是在白天采樣,背景當中的光線干擾大,加之半透明文字,時間戳非常容易和背景當中的復雜環(huán)境混淆在一起,識別難度更高,對應的完全匹配指標相對較低,具體樣張可參考表1中的TP1和TP2。這兩個數(shù)據(jù)集在指標上的差異反映了模型對于光線干擾的抵抗能力,在沒有信息約束模塊的CRNN模型下,兩個數(shù)據(jù)集的完全匹配差距為3.13個百分點,而在增加了約束信息模塊后的TFC-CRNN模型測試中,TP1和TP2的性能差距降低到了2.29個百分點,說明TFC-CRNN有效提升了模型在白天抵抗復雜模型的抗干擾能力。
而在輸出文本格式的規(guī)范性方面,信息約束模塊同樣起到了積極的作用,在表3中展示的是模板編輯距離的測試結(jié)果,其中的數(shù)值是數(shù)據(jù)集中所有樣本的平均模板編輯距離??梢钥吹剑尤胄畔⒓s束模塊之后,EDT指標降低了0.002 8~0.012 76,EDT越低說明模型輸出的文本越符合目標文字模板,即輸出的文字格式越規(guī)范,其中在TP1和TP2這兩個存在有半透明文字這類困難樣本的數(shù)據(jù)集上的下降幅度,是NM1和NM2這類不透明文字數(shù)據(jù)集上的4~5倍,說明信息約束模塊有效提高了在半透明等文字識別困難的樣本上,有效提高了字符串輸出的格式規(guī)范性,當文本辨別不清時,信息約束模塊將會趨向于輸出一個符合格式規(guī)范的文本,這對于后期應用階段解析時間戳字符串的結(jié)構(gòu)信息具有積極的意義。
表3 信息約束模塊對EDT指標的影響Table 3 Impact of information constrain module on EDT
更進一步,考慮到識別結(jié)果中,時間戳文本的數(shù)值范圍也有較高的要求,對于一個標準的時間戳字符串而言,其字符組合不僅應當滿足格式的要求,也應當滿足日期時間的數(shù)字范圍限定,例如月份所在的兩位數(shù)字需要限定在01~12這12種數(shù)字的范圍之內(nèi),如果文本無法轉(zhuǎn)換為計算機內(nèi)部的一個標準時間結(jié)構(gòu)體,那么該文本仍然是一個非法的時間戳字符串,為此,本文對比了信息約束模塊對數(shù)值范圍精度的影響,在表4中,記錄的是模型輸出的時間戳字符串,可以被正常解析為有效時間的樣本百分比,括號內(nèi)表示TFC-CRNN相比CRNN的數(shù)值提升,因缺字漏字、超出合理范圍、超出閏年限定的結(jié)果都會被排除在外。可以從表4當中看出,TP1數(shù)據(jù)集的困難樣本上,指標的提升幅度最為明顯,表明信息約束模塊在光線干擾、半透明文字等困難樣本上,對文本輸出結(jié)果的數(shù)值約束性有較高的收益。
表4 預測數(shù)字范圍正確的樣本所占百分比Table 4 Percentage of samples with correct number interval 單位:%
在表5中展現(xiàn)的是一些具體的時間戳圖片識別結(jié)果,可以很直觀地觀察到約束模塊對文本格式以及數(shù)值范圍精度的修正作用。樣本1中因為樹葉等背景干擾,“2018”中的“0”幾乎不可見,傳統(tǒng)的文字識別算法會傾向于識別成無字,導致識別結(jié)果的格式存在錯誤,然而在信息約束模塊下該處的“0”能夠被正確識別出來,生成規(guī)范的時間戳格式。樣本2則是一個字符干擾問題,在“18:38:22”重疊了一個“Err”文字,這對模型識別產(chǎn)生了嚴重的干擾,傳統(tǒng)的CRNN在這樣的干擾下出現(xiàn)分鐘數(shù)字識別錯誤的問題,然而在信息約束模塊的作用下,TFC-CRNN能夠?qū)⒋颂幍臄?shù)值范圍修正到00~59的區(qū)間內(nèi),得出正確的識別結(jié)果,同理樣本3、4、5。樣本6反應的是在極低畫質(zhì)條件下,模型抵抗復雜背景干擾的能力,可以看到傳統(tǒng)的CRNN網(wǎng)絡(luò)對無法有效區(qū)分“2018”和“2010”,而TFC-CRNN則依靠多任務的信息約束模塊,展現(xiàn)了強大的抗干擾能力,有效區(qū)分了“0”和“8”這兩個極易混淆的字形。
表5 CRNN和TFC-CRNN的時間戳識別結(jié)果對比Table 5 Recognition samples for CRNN and TFC-CRNN
本論文就時間戳文字具有固定格式的這一特點,對傳統(tǒng)自然語文本識別模型進行專門的優(yōu)化,從時間戳具有的“年”“月”“日”“時”“分”“秒”六個高度結(jié)構(gòu)化的數(shù)字信息這一角度出發(fā),精心設(shè)計了約束向量提取網(wǎng)絡(luò),將其整合進經(jīng)典文本識別算法的框架之中,利用監(jiān)督算法促使網(wǎng)絡(luò)從圖像中提取文本所蘊含的語義信息,并將該信息用于解碼階段的循環(huán)神經(jīng)網(wǎng)絡(luò)中,使得解碼層不僅能夠利用圖像特征,同時能夠?qū)W習在約定的規(guī)范信息下,對解碼輸出的文本進行更嚴格的格式審查和數(shù)值范圍約束,取得了相比經(jīng)典文本識別模型更高的準確率和更嚴謹?shù)奈谋靖袷剑诤罄m(xù)應用當中,能夠為智慧安防系統(tǒng)提供高質(zhì)量的時間戳文本。