段喜萍,劉家鋒,王建華,唐降龍
(1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;2.哈爾濱師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點(diǎn)實(shí)驗(yàn)室,150025 哈爾濱)
一種語義級(jí)文本協(xié)同圖像識(shí)別方法
段喜萍1,2,3,劉家鋒1,王建華2,3,唐降龍1
(1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;2.哈爾濱師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點(diǎn)實(shí)驗(yàn)室,150025 哈爾濱)
為解決單純依賴圖像低級(jí)視覺模態(tài)信息進(jìn)行圖像識(shí)別準(zhǔn)率低的問題.考慮到許多圖像中存在文本信息,提出了利用圖像中的文本信息輔助圖像識(shí)別的語義級(jí)文本協(xié)同圖像識(shí)別方法.該方法通過文本定位方法定位到圖像中的文本塊,對(duì)其進(jìn)行分割、二值化、提取特征等處理;然后獲取語義,提取圖像底層視覺信息,計(jì)算兩模態(tài)的相關(guān)性,從而得到協(xié)同后驗(yàn)概率;最后,得到聯(lián)合后驗(yàn)概率,并取其中最大聯(lián)合后驗(yàn)概率對(duì)圖像進(jìn)行識(shí)別.在自建體育視頻幀數(shù)據(jù)庫中,通過與以樸素貝葉斯為代表的單模態(tài)方法進(jìn)行比較,方法在3種不同視覺特征下均具有更高的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,文本協(xié)同方法能夠有效輔助圖像識(shí)別,具有更好的識(shí)別性能.
文本定位;圖像識(shí)別;多模態(tài)
如何有效地對(duì)圖像或視頻等多媒體信息進(jìn)行分類和識(shí)別,以實(shí)現(xiàn)諸如圖像自動(dòng)標(biāo)注、圖像檢索等應(yīng)用具有重要意義,也是目前一個(gè)迫切需要解決的熱點(diǎn)問題.在圖像識(shí)別中,由于“語義鴻溝”的存在,單純利用圖像底層視覺信息往往不能達(dá)到很好的識(shí)別效果.同時(shí)許多圖像中包含著與圖像語義更為相關(guān)的文字或文本信息,并且這種圖像的數(shù)目相當(dāng)可觀,如圖1所示.而從目前的情況來看,對(duì)于這類圖像,存在不同角度的研究,關(guān)心圖像內(nèi)容識(shí)別的一般不關(guān)心其中包含的文本信息,將其視作與問題無關(guān)的背景或者是場(chǎng)景的一部分來處理;而關(guān)心圖像文本識(shí)別的則在檢測(cè)出文本所在的區(qū)域之后就不再關(guān)心圖像其他部分的內(nèi)容了.不論是圖像識(shí)別還是文本識(shí)別都沒有完整地利用圖像中所包含的視覺和文本兩種模態(tài)信息進(jìn)行識(shí)別,圖像中的信息被孤立地處理.而其中一種模態(tài)信息對(duì)另一種態(tài)的語義識(shí)別具有重要意義.例如,圖1給出的一組建筑物圖像,借助圖像中的文本信息,很容易對(duì)它們進(jìn)行區(qū)分和識(shí)別.著眼于此,本文研究利用圖像上的文本信息輔助圖像內(nèi)容識(shí)別.
圖1 包含嵌入文本的圖像
據(jù)進(jìn)行文獻(xiàn)搜索所掌握的資料來看,目前還沒有同時(shí)利用圖像視覺信息以及其上的文本信息進(jìn)行圖像識(shí)別的先例.與之相關(guān)的研究有:1)基于圖像底層信息進(jìn)行圖像識(shí)別,即基于計(jì)算機(jī)視覺的圖像識(shí)別,該類方法可進(jìn)一步分為判別式方法[1-3]和產(chǎn)生式方法[4-11].由于“語義鴻溝”現(xiàn)象的存在,不能保證視覺特征相似的圖像在語義上也相近.因而該類方法無法實(shí)現(xiàn)對(duì)圖像內(nèi)容的準(zhǔn)確識(shí)別.2)對(duì)圖像場(chǎng)景文本進(jìn)行檢測(cè)與識(shí)別[12-13].該類方法在圖像中檢測(cè)文本區(qū)域,然后提取文本區(qū)域的字符前景,使用字符識(shí)別技術(shù)識(shí)別圖像區(qū)域中的文本,一旦檢測(cè)出文本所在的區(qū)域之后就不再關(guān)心圖像其他部分的內(nèi)容.3)利用圖像周邊文本輔助圖像識(shí)別[14].這類方法利用圖像周圍文本,如圖像的標(biāo)題、鏈接、錨定文本以及替代文本等,建立圖像和文本之間的關(guān)聯(lián)關(guān)系,輔助圖像識(shí)別,這類方法適用于具有周圍文本的網(wǎng)絡(luò)圖像識(shí)別.
本文提出一種能夠同時(shí)利用圖像視覺信息與圖像上嵌入的文本信息的方法,將每個(gè)模態(tài)的識(shí)別結(jié)果作為一種最簡(jiǎn)單的語義信息用于協(xié)同,而不涉及更高層級(jí)的語義內(nèi)容.具體來說,同時(shí)提取圖像視覺特征信息和文本特征信息,獲取文本語義信息,然后利用文本語義信息輔助圖像視覺信息進(jìn)行建模,建立聯(lián)合后驗(yàn)概率.模型可分解為:單模態(tài)文本語義識(shí)別、單模態(tài)圖像內(nèi)容識(shí)別以及兩模態(tài)類別相關(guān)程度計(jì)算.通過對(duì)以上模型的訓(xùn)練,建立各圖像類識(shí)別器,對(duì)新圖像進(jìn)行識(shí)別.
利用文本模態(tài)輔助圖像視覺模態(tài)進(jìn)行圖像識(shí)別的過程可以看作是一種利用“跨模態(tài)(crossmodality)”信息進(jìn)行識(shí)別的過程.單模態(tài)的識(shí)別過程一般是在觀察到屬性特征x的條件下對(duì)類別屬性ω的后驗(yàn)概率進(jìn)行建模的過程.而在跨模態(tài)假設(shè)之下,其中某一模態(tài)類別屬性的后驗(yàn)概率需要使用兩個(gè)模態(tài)的特征屬性共同建模.即對(duì)圖像類別ωI的識(shí)別不僅需要圖像視覺模態(tài)的特征xI,同時(shí)還需要考慮圖像中文本模態(tài)的特征 xT,即需要對(duì)進(jìn)行建模,這里將稱作聯(lián)合后驗(yàn)概率,它可以通過以下兩種方式建模.
從理論上講,聯(lián)合后驗(yàn)概率只是擴(kuò)大了識(shí)別對(duì)象的特征屬性集合,可以采用一般的識(shí)別方法進(jìn)行建模,即通過擴(kuò)大特征向量維數(shù)直接對(duì)多模態(tài)信息建模.然而對(duì)于實(shí)際問題來說,直接對(duì)聯(lián)合后驗(yàn)概率建模往往存在著一定的困難,原因是:
1)特征的描述方式不同.來自于不同模態(tài)的特征可能是以不同方式描述的,如圖像內(nèi)容特征可以用顏色或梯度直方圖描述,顯著性區(qū)域的散列表示,甚至是采用多示例包的方式描述;而文本和文字特征則可以描述為筆劃的密度,傅里葉變換、小波變換系數(shù)、筆劃之間的結(jié)構(gòu)關(guān)系等等.按照不同方式描述的特征很難采用統(tǒng)一的形式建模,更適合于分別采用不同的模型描述.
2)模型學(xué)習(xí)困難.即使來自于不同模態(tài)的特征可以采用相同的方式描述,如果將兩個(gè)模態(tài)的特征組合為擴(kuò)大的特征集合,勢(shì)必造成描述聯(lián)合后驗(yàn)概率的模型的復(fù)雜度的增加.而在圖像識(shí)別的實(shí)際應(yīng)用中,可獲得的學(xué)習(xí)樣本一般是有限的,采用數(shù)量不足的樣本學(xué)習(xí)一個(gè)復(fù)雜的模型,無法保證模型的泛化能力.
為解決聯(lián)合后驗(yàn)概率直接建模和學(xué)習(xí)的困難,本文提出使用文本模態(tài)輔助視覺模態(tài)對(duì)聯(lián)合后驗(yàn)概率建模,如圖2所示.
圖2 語義級(jí)文本協(xié)同的圖像識(shí)別過程
模型主要通過Stieltjes積分實(shí)現(xiàn)聯(lián)合后驗(yàn)概率的簡(jiǎn)化,具體簡(jiǎn)化為
1)直接方式.已知某模態(tài)特征和另一個(gè)模態(tài)語義類別信息條件下,協(xié)同后驗(yàn)概率描述的是該模態(tài)類別的發(fā)生概率.因此可以在學(xué)習(xí)階段,按照一個(gè)模態(tài)的類別監(jiān)督信息將樣本劃分成不同的子集,分別學(xué)習(xí)當(dāng)該模態(tài)屬于某個(gè)類別時(shí)另一個(gè)模態(tài)的分類器.協(xié)同識(shí)別時(shí)根據(jù)一個(gè)模態(tài)的識(shí)別結(jié)果分別使用不同的分類器計(jì)算另一個(gè)模態(tài)的類別后驗(yàn)概率.
直接方式計(jì)算的好處是可以模型化一個(gè)模態(tài)的特征與另一個(gè)模態(tài)語義類別信息之間的關(guān)聯(lián)性,其缺點(diǎn)是學(xué)習(xí)時(shí)需要對(duì)樣本集合進(jìn)行劃分,這就造成了單個(gè)分類器的學(xué)習(xí)樣本較少,降低了模型的泛化能力.
2)間接方式.一般情況下,假設(shè)一個(gè)模態(tài)的特征與另一個(gè)模態(tài)的語義信息之間相互獨(dú)立是合理的,例如在不同場(chǎng)景下,某字符的特征是由所屬文本類別決定的,與其所處的環(huán)境無關(guān).在此假設(shè)下,協(xié)同后驗(yàn)概率可被簡(jiǎn)化為
將式(1)、(2)結(jié)合可以得到
由于語義類別信息是一個(gè)離散隨機(jī)變量,因此協(xié)同識(shí)別可以將式(1)和式(3)的Stieltjes積分轉(zhuǎn)化為有限求和式直接進(jìn)行計(jì)算.這樣式(3)可轉(zhuǎn)化為
式中:c為文本語義類別數(shù).需要強(qiáng)調(diào)一點(diǎn),上述模型適合于僅利用圖像中的單字協(xié)同圖像識(shí)別的情況.考慮到多字情況,如 N個(gè)字,則可對(duì)式(1)~(4)進(jìn)行擴(kuò)展,得到
文本識(shí)別的過程可歸結(jié)為文本定位、分割、二值化、特征提取以及識(shí)別的過程.其中前兩個(gè)過程本文采用文獻(xiàn)[12]的方法,首先將圖像劃分成塊,通過濾波器結(jié)合邊分析進(jìn)行文本定位;然后對(duì)確定的文本塊分別進(jìn)行垂直和水平投影,通過得到的垂直和水平柱條進(jìn)行文本分割.對(duì)分割出的每個(gè)字符圖像進(jìn)行二值化處理后可將得到的二進(jìn)制文本塊放縮到某一指定大小,并拉成一行向量,經(jīng)PCA處理后得到最終的文本向量,即特征向量.對(duì)通過以上過程得到的一組訓(xùn)練樣本,采用樸素貝葉斯方法可得到各文本類結(jié)構(gòu)P(ωT|xT),其中:ωT=1,2,…,cT,cT為文本類別總數(shù).
圖像內(nèi)容識(shí)別可以根據(jù)具體應(yīng)用提取相應(yīng)的視覺特征,構(gòu)造相應(yīng)的識(shí)別器.當(dāng)需要對(duì)整體場(chǎng)景屬性分類時(shí),可以以顏色分布、紋理特征為基礎(chǔ)構(gòu)建圖像分類器,而當(dāng)需要識(shí)別圖像中某類目標(biāo)時(shí),則需要提取圖像的局部描述特征(如顯著性區(qū)域,Blob區(qū)域特征等)構(gòu)成Bag of Features,然后采用Constellation模型或多示例的方式構(gòu)造分類器.本文在實(shí)驗(yàn)中分別提取了顏色分布特征、小波紋理特征以及Blob量化特征.同樣,在識(shí)別器設(shè)計(jì)過程中,基于提取的圖像視覺特征采用樸素貝葉斯方法訓(xùn)練出多個(gè)視覺模態(tài)識(shí)別器結(jié)構(gòu)P(ωI|xI),其中:ωI=1,2,…,cI,cI為圖像類別總數(shù).
為了檢驗(yàn)本文本協(xié)同模型對(duì)圖像識(shí)別問題的有效性,這里對(duì)本協(xié)同模型與單模態(tài)分類器的識(shí)別性能進(jìn)行比較.單模態(tài)分類器選擇了樸素貝葉斯方法.
本實(shí)驗(yàn)采集的圖像數(shù)據(jù)是從CCTV5網(wǎng)絡(luò)電視臺(tái)下載的包括籃球、排球、短道速滑、羽毛球等4類視頻,從中抽取了360張帶文本的視頻幀,建立體育視頻圖像數(shù)據(jù)庫,其中3/5用于訓(xùn)練,2/5用于測(cè)試,即有216張用于訓(xùn)練,144張用于測(cè)試.對(duì)文本數(shù)據(jù),在訓(xùn)練階段,一部分取自前面帶文本的圖像中的文本,另一部分為人工生成文本.增加人工生成文本的目的,主要是擴(kuò)大文本樣本數(shù)量,提高識(shí)別的泛化能力;在測(cè)試階段的文本,直接取自從測(cè)試圖像中獲得的文本.需要注意的是,本文在視頻圖像中提取的文本主要是體育視頻在后期制作中所添加的標(biāo)題文本(caption text或superimposed text),做這樣的選擇主要基于兩個(gè)原因:1)標(biāo)題文本是人為添加的,與視頻內(nèi)容具有更強(qiáng)的相關(guān)性和概括性;2)標(biāo)題文本相對(duì)于可能出現(xiàn)的場(chǎng)景文本(scene text)更清晰、更容易識(shí)別,并且識(shí)別準(zhǔn)確率高.本文在標(biāo)題文本定位過程中,除了使用文獻(xiàn)[12]中的方法外,還考慮到標(biāo)題文本通常在位置、高、寬等方面的限制,從而大大排除了場(chǎng)景文本的影響.
本文在實(shí)驗(yàn)過程中,分別提取了圖像的全局顏色、全局紋理、Blob特征,設(shè)定的文本類別為8類,其目的是驗(yàn)證本文本協(xié)同方法是否對(duì)不同的圖像視覺特征具有普遍適用性.
圖3 視覺特征取全局顏色特征的分類結(jié)果
圖4 視覺特征取全局紋理特征的分類結(jié)果
圖5 視覺特征取Blob特征的分類結(jié)果
在與單模態(tài)方法進(jìn)行的對(duì)比實(shí)驗(yàn)中,圖像識(shí)別的性能通過識(shí)別準(zhǔn)確率進(jìn)行衡量,具體的識(shí)別結(jié)果如圖3~5所示,準(zhǔn)確百分率如表1所示.實(shí)驗(yàn)表明:由于本文方法使用了除視覺模態(tài)信息外的文本模態(tài)信息,圖像表示更為全面和恰當(dāng).因此,本文方法的識(shí)別結(jié)果優(yōu)于單模態(tài)方法.特別是在單模態(tài)識(shí)別性能較低的情況下,本文方法能顯著提高性能.如在視覺特征取全局紋理時(shí),單模態(tài)方法的準(zhǔn)確率為64.58%,本文方法的準(zhǔn)確率可達(dá)94.44%,提高了29.86%;在視覺特征取Blob特征時(shí),單模態(tài)方法的準(zhǔn)確率為53.47%,本文方法的準(zhǔn)確率可達(dá)82.64%,提高了29.17%.
表1 識(shí)別準(zhǔn)確率比較 %
對(duì)上述結(jié)果進(jìn)行分析,可以得出:對(duì)選擇的不同圖像視覺特征,本文的文本協(xié)同方法都一定程度地提高了圖像識(shí)別的準(zhǔn)確率,從而驗(yàn)證了本文最初想法的正確性和合理性.需要指出的是,本方法取得較好效果取決于文本識(shí)別要有較高精度,因而對(duì)標(biāo)題文本進(jìn)行操作可得到理想結(jié)果.
1)本文提出一種使用文本模態(tài)信息輔助圖像視覺模態(tài)進(jìn)行圖像識(shí)別的方法,即一種語義級(jí)文本協(xié)同圖像識(shí)別方法.其優(yōu)勢(shì)在于:能夠全面地利用圖像中的視覺模態(tài)信息和文本模態(tài)信息.
2)該圖像識(shí)別方法的精度取決于選擇的圖像特征、選擇的文本類別數(shù)以及文本分類器的分類能力等方面.在選擇的幾種圖像視覺特征上實(shí)驗(yàn),本識(shí)別方法的識(shí)別準(zhǔn)確率均高于單模態(tài)方法.
3)需要指出的是,本文選擇的文本是體育視頻圖像中相對(duì)清晰的標(biāo)題文本,對(duì)場(chǎng)景文本情況并不理想.
[1]PANDA N,CHANG E Y.Efficient top-k hyperplane query processing for multimedia information retrieval[C]//Proceedings of the 14th annual ACM international conference on Multimedia.New York,NY:ACM,2006:317-326.
[2]LU Zhiwu,IP H H S.Image categorization with spatial mismatch kernels[C]//IEEE Conference on Computer Vision and Pattern Recognition.Miami,F(xiàn)L:IEEE,2009:397-404.
[3]SONG X,JIAO L C,YANG S,et al.Sparse coding and classifier ensemble based multi-instance learning for image categorization[J].Signal Processing,2013,93(1):1-11.
[4]RUSSELL B C,F(xiàn)REEMAN W T,EFROS A A,et al.Using multiple segmentations to discover objects and their extent in image collections[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2006:1605-1614.
[5]VAILAYA A,F(xiàn)IGUEIREDO M A T,JAIN A K,et al.Image classification for content-based indexing[J].IEEE Transactions on Image Processing,2001,10(1):117-130.
[6]LI F F,PERONA P.A bayesian hierarchical model for learning natural scene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2005:524-531.
[7]LIU D,CHEN T.Unsupervised image categorization and object localization using topic models and correspondences between images[C]//International Conference on ComputerVision. Piscataway. NJ:IEEE,2007:1-7.
[8]FERGUS R,PERONA P,ZISSERMAN A.Object class recognition by unsupervised scale-invariant learning[C]//IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2003:264-271.
[9]LIU Y,GOTO S,IKENAGA T.A robust algorithm for text detection in color images[C]//Proceedings of the Eighth InternationalConference on DocumentAnalysis and Recognition.Piscataway,NJ:IEEE,2005:399-403.
[10]CHEN Y,WANG J Z.Image categorization by learning and reasoning with regions[J].The Journal of Machine Learning Research,2004,5(12):913-939.
[11]ZHU L,ZHAO B,GAO Y.Multi-class multi-instance learning for lung cancer image classification based on bag feature selection [C]//Fifth International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway,NJ:IEEE,2008:487-492.
[12]SHIVAKUMARA P,HUANG W,TAN C L.An efficient edge based technique for text detection in video frames[C]//The Eighth IAPR International Workshop on Document Analysis Systems.Piscataway,NJ:IEEE,2008:307-314.
[13]MISHRA A,ALAHARI K,JAWAHAR C V.Top-down and bottom-up cues for scene text recognition[C]//2012 IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2008:2687-2694.
[14]許紅濤,周向東,向宇,等.一種自適應(yīng)的Web圖像語義自動(dòng)標(biāo)注方法[J].軟件學(xué)報(bào),2010,21(9):2183-2195.
A collaborative image recognition method based on semantic level of text
DUAN Xiping1,2,3,LIU Jiafeng1,WANG Jianhua2,3,TANG Xianglong1
(1.School of Computer Science and Technology,Harbin Institute of Technology,150001 Harbin,China;2.Computer Science and Information Engineering College,Harbin Normal University,150025 Harbin,China;3.Heilongjiang Provincial Key Laboratory of Intelligence Education and Information Engineering,150025 Harbin,China)
To solve the problem that singular-modal image recognition using only the low-level visual features has low accuracy,considering that many images have embedded-in textual information,a collaborative method using the embedded-in text to aid the recognition of images is proposed.The method includes three steps.Firstly,after localization,segmentation,binarization and feature extraction,semantics of text is gotten.Secondly,the collaborative posterior probability is calculated by extracting visual features of images and counting correlation of visual and textual modals.At last,for each class of images,the joint posterior probability is calculated using the previous two items.A new image is recognized to the class with maximal joint posterior probability.Experiments on the self-built data set of sports video frames showed that the proposed method performed better than the singular-modal method on three different visual features and had higher accuracy.
text localization;image recognition;multi-modal
TP391.41
A
0367-6234(2014)03-0049-05
2013-05-24.
國家自然科學(xué)基金資助項(xiàng)目(61173087,41071262).
段喜萍(1980—),女,博士研究生;
唐降龍(1960—),男,教授,博士生導(dǎo)師.
段喜萍,xpduan_1999@126.com.
(編輯 張 紅)