周文歡
(天津大學(xué)檔案館 天津 300072)
隨著數(shù)碼相機(jī),手機(jī)等成像設(shè)備的普及和互聯(lián)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,現(xiàn)有的檔案信息量越來越大,信息的種類和形式也越來越豐富,尤其數(shù)字化(無紙)辦公產(chǎn)生大量電子文件,檔案中的照片檔案的數(shù)量成爆炸式的增長,同時(shí)大數(shù)據(jù)技術(shù)的產(chǎn)生也給照片檔案處理帶來了新的挑戰(zhàn)和機(jī)遇。目前每年檔案館歸檔入庫的照片檔案占相當(dāng)比例,再加上館中庫存存檔的照片,其中絕大部分照片都不包含任何的標(biāo)簽類別信息,如何對這些海量的照片進(jìn)行檢索利用是一個(gè)很大的挑戰(zhàn)。如何自動的對大量的照片檔案進(jìn)行類別標(biāo)記以解決這一困難,進(jìn)而提高照片檢索的準(zhǔn)確率和效率,一直是研究人員所關(guān)注的熱點(diǎn)問題[1]。
本文的研究內(nèi)容是針對圖像檢索的關(guān)鍵技術(shù)研究所遇到的問題展開的,研究的切入點(diǎn)是檔案中照片自動標(biāo)注,在對圖像檢索中圖像自動標(biāo)注算法進(jìn)行了全面[2],深入的研究前提下,依據(jù)現(xiàn)有的理論基礎(chǔ),對現(xiàn)有的特征和算法進(jìn)行分析和總結(jié),并提出了改進(jìn)的特征和算法。
照片檔案利用的核心在于照片檢索,檢索的任務(wù)是高效的管理和組織照片數(shù)據(jù),以幫助用戶快速、準(zhǔn)確、全面的從中找到感興趣的內(nèi)容,其核心在于研究如何有效的利用檔案照片數(shù)據(jù)的文字、內(nèi)容、語義信息學(xué)習(xí)訓(xùn)練得到分類模型,再建立高效的索引,讓用戶在合理的時(shí)間內(nèi)以較好的準(zhǔn)確度找到所需要的照片,目前主要的照片標(biāo)注方式有基于照片關(guān)鍵詞標(biāo)注方式等
照片關(guān)鍵詞標(biāo)注是基于文本的照片檔案檢索的基礎(chǔ),沿用傳統(tǒng)的文本檢索技術(shù),通常用提供關(guān)鍵詞形式來查詢照片,或者是以類別等級目錄的方式呈現(xiàn),用戶通過瀏覽查找特定類別下的照[3][4]。
1.1.1 具體實(shí)現(xiàn)方式
具體的實(shí)現(xiàn)過程中,首先分析照片所屬的主題、照片的文件名稱、環(huán)繞圖像的文字內(nèi)容、照片的鏈接地址等,分析出這些文本的結(jié)果,推斷出照片的關(guān)鍵字,然后以照片相關(guān)的關(guān)鍵字建立文本索引[5]。
1.1.2 局限性
但隨著照片檔案的激增,采用照片關(guān)鍵詞標(biāo)注這種基于文本的檢索方式已經(jīng)不能滿足圖像檢索的要求,局限性越來越顯著,原因如下:由人工對圖像進(jìn)行標(biāo)注,不僅工作性質(zhì)乏味枯燥,而且耗費(fèi)大量人力物力,因此人工標(biāo)注的速度已經(jīng)不能適應(yīng)快速增長的檔案照片數(shù)量[6];同時(shí)人們對于圖像含義的理解有著一定程度的主觀性,簡單幾個(gè)詞匯遠(yuǎn)不能描述圖像所蘊(yùn)含的豐富含義,同一個(gè)人在不同時(shí)間對相同圖像的認(rèn)識的也不盡相同,所以人工標(biāo)注具有相當(dāng)?shù)闹饔^性和不完整性[7]。
為了解決基于文本的照片檢索所遇到的種種問題,上世紀(jì)90年代以來,基于內(nèi)容的照片檢索成為了研究熱點(diǎn),與基于文本的照片檢索不同,基于內(nèi)容的照片檢索不再以文本信息為照片特征,而是以照片的視覺信息為特征來描述照片,所使用的特征包括顏色,紋理,形狀等特征。系統(tǒng)自動的從圖像庫中提取這些視覺特征,保存到數(shù)據(jù)庫中。當(dāng)用戶提交一幅查詢照片時(shí),系統(tǒng)首先提取查詢照片的特征,將這個(gè)特征拿到圖像特征數(shù)據(jù)庫中進(jìn)行比對,找出與其特征相似的照片,并以相似度排序的方式返回。
基于內(nèi)容的圖像檢索立足于圖像低層視覺特征:顏色、形狀、紋理、gabor、SIFT等特征,通過低層視覺的高維特征來表達(dá)一幅圖像,接著采用相似度算法計(jì)算查詢圖像與數(shù)據(jù)庫圖像的相似度。最后進(jìn)行相似度排序返回給用戶,匹配過程常利用特征向量之間的距離函數(shù)來進(jìn)行相似性度量,模仿人類的認(rèn)知過程,得到數(shù)據(jù)庫的相似度排序。常用的距離度量公式有:Minkowsky距離、Manhattan距離、Euclidean距離、加權(quán)Euclidean距離、Chebyshev距離、Mahalanobis距離等距離范數(shù),基于內(nèi)容的圖像檢索系統(tǒng)一般包括圖像處理模塊、查詢模塊、對象庫、特征庫和知識庫。
這些基于內(nèi)容對照片進(jìn)行標(biāo)注的方式,可以通過計(jì)算機(jī)自動化處理快速地處理大量照片,減少人工消耗,提升照片標(biāo)注速度,適應(yīng)快速增長的檔案照片數(shù)量,但這種方式在照片檢索利用時(shí)有很大的局限性,適用于以圖尋圖的模式,難以適用于以主題詞或關(guān)鍵詞進(jìn)行照片查找,同時(shí)對于很多顏色相近的照片標(biāo)注的準(zhǔn)確性和穩(wěn)定性也不高。
雖然基于照片內(nèi)容標(biāo)注方式解決了人們在搜索圖像時(shí)過于依賴關(guān)鍵字標(biāo)簽但不確定目標(biāo)圖像類別和含義的問題,然而很多時(shí)候人們并不十分清楚的理解數(shù)字化的照片的低層視覺特征到高層的語義之間的映射關(guān)系。也就是 “語義鴻溝”(Semantic gap)問題。為了使照片檢索系統(tǒng)更加接近人對圖像的理解,事實(shí)上,人們判斷圖像的相似性并非僅僅建立在視覺特征的相似性上。更多的狀況下,用戶主要根據(jù)返回圖像的含義而不是顏色、紋理、形狀等物理特征來判別圖像滿足自己需要的程度。這些圖像的含義就是圖像的高層語義特征,它包含了人對圖像內(nèi)容的理解,這種理解不是直接從圖像的視覺特征獲得的,需要融入人的經(jīng)驗(yàn)和知識。本文所研究的即是基于照片目標(biāo)對象層次和區(qū)域的圖像高層語義特征的提取方法,從一幅圖像中通過圖像分割和目標(biāo)識別的方法提取出高層語義特征,即圖像自動標(biāo)注,使得計(jì)算機(jī)理解圖像的能力接近甚至達(dá)到人對圖像的理解水平。
照片因包含不同的目標(biāo)物體而被標(biāo)記為不同的類別標(biāo)簽,但標(biāo)簽與照片中目標(biāo)物體之間的對應(yīng)關(guān)系不明確,每幅照片所包含的目標(biāo)物體的數(shù)量不盡相同,因此照片自動標(biāo)注的是一種信息不對稱的多分類問題。多示例多標(biāo)簽學(xué)習(xí)是一種有效解決這種信息不對稱分類問題的框架。圖像自動標(biāo)注中多標(biāo)簽多示例學(xué)習(xí)的目標(biāo)是:通過機(jī)器學(xué)習(xí)算法從給定的數(shù)據(jù)集:(X1,Y1),...,(Xm,Ym)中得到一個(gè)函數(shù)映射fMIML使得:2X→2Υ,其中Xi為第i幅訓(xùn)練圖像的示例Ii是第i幅圖像的示例數(shù)目。Yi為第i幅訓(xùn)練圖像的標(biāo)簽集合,Li是第i幅圖像的標(biāo)簽數(shù)目,m為訓(xùn)練樣本數(shù)目,對于待標(biāo)記圖像XMNL,函數(shù)fMNL(Xtest)的值就是自動標(biāo)注標(biāo)簽。
多示例多標(biāo)簽學(xué)習(xí)圖像自動標(biāo)注方法中特征的選取是非常關(guān)鍵的步驟,圖像多示例的特點(diǎn)使得圖像全局特征不適合作為多示例多標(biāo)簽學(xué)習(xí)的特征,通常選取圖像的局部特征作為示例特征。多示例多標(biāo)簽照片檔案自動標(biāo)注中圖像多示例特征的生成通常采用SBN的方法[12]。SBN方法提取的圖像特征計(jì)算速度快,維數(shù)較低等。同時(shí)它反映了圖像顏色局部變化特征,但由于降采樣導(dǎo)致的信息丟失,這種特征表示方式過于粗糙,而且SBN特征的效果并不是特別好,而且每一幅圖去固定示例的數(shù)目并不科學(xué),很有可能一幅圖像里面只包含2個(gè)主要區(qū)域,同時(shí)SBN特征計(jì)算量大,訓(xùn)練模型的時(shí)間長,并不是一種很好的多示例特征。為了解決模型訓(xùn)練時(shí)間長的問題,結(jié)合多示例多學(xué)習(xí)自動標(biāo)注問題所要求的特征的特點(diǎn)和圖像特征相關(guān)知識,提出了將歸一化分割的SIFT特征替代原有的SBN特征應(yīng)用到照片標(biāo)注中的新方法。
2.1.1 照片歸一化分割
首先簡單的介紹歸一化分割(Normalized Cuts)[13]圖像分割的方法,圖像分割是一種針對圖像的聚類技術(shù),主要是按某種規(guī)則將圖像分割成多個(gè)具有相同特征的區(qū)域,比如灰度級相同,顏色相同,紋理相同等等。常用的分割方法有K-means聚類,Mean shift,EM algorithm,圖分割方法,各種方法所得到的效果不盡相同,歸一化分割方法屬于圖分割方法的一種。分割效果如下圖所示:
圖1 MSRC數(shù)據(jù)庫中一張圖像的分割效果
可以看到Normalized Cuts圖像分割的效果是令人滿意的,這種方法是基于圖的圖像分割方法,其中圖是由點(diǎn)以及點(diǎn)和點(diǎn)之間的邊構(gòu)成的的結(jié)構(gòu),將圖結(jié)構(gòu)運(yùn)用于圖像分割的步驟是,首先將圖像像素點(diǎn)映射到特征空間,然后建立權(quán)重連接圖,最后把相似的點(diǎn)歸類為一個(gè)區(qū)域。
2.1.2 SIFT 特征提取
SIFT特征是圖像的局部特征,描述的是圖像關(guān)鍵區(qū)域的梯度直方圖分布情況,SIFT算法的實(shí)質(zhì)就是從圖像中提取SIFT關(guān)鍵點(diǎn)的過程,算法[9]通過度空間的構(gòu)建,尺度空間極值檢測,特征點(diǎn)精確定位,特征點(diǎn)方向確定,SIFT描述子生成五個(gè)主要步驟,通過采取David Lower[10]建議的每個(gè)特征點(diǎn)使用4*4共16個(gè)種子點(diǎn)進(jìn)行描述,每個(gè)種子點(diǎn)有8個(gè)方向的向量信息,這樣最終形成128維的SIFT特征向量,如此高維度的特征向量進(jìn)行MIMLBOOST&MIMLSVM等算法的實(shí)驗(yàn),必定是耗費(fèi)相當(dāng)長的時(shí)間,本文通過找到嵌入高維空間中的保持高維數(shù)據(jù)結(jié)構(gòu)關(guān)系的低維空間投影的降維方法,將特征維數(shù)降到至少與SBN特征的維數(shù)相同,并且保證這種降維后的特征仍然具有相同的區(qū)分度,最后降維后的特征作為圖像的示例特征。
2.1.3 歸一化分割的SIFT提取步驟
綜上所述,歸一化分割的SIFT提取步驟,有著清晰的操作步驟和理論支持,并且保證分類準(zhǔn)確度不低于傳統(tǒng)的SBN特征。其具體提取的SIFT特征步驟如下:
步驟1:統(tǒng)計(jì)數(shù)據(jù)集中的每一張圖像的標(biāo)簽數(shù)目,并將此標(biāo)簽數(shù)目設(shè)定為Ncut圖像分割的區(qū)域數(shù)目。
步驟2:運(yùn)用Ncut算法對數(shù)據(jù)集中的圖像進(jìn)行分割,保存分割的區(qū)域標(biāo)記和坐標(biāo)信息到一個(gè)與圖像長寬維數(shù)一致的矩陣中
步驟3:提取數(shù)據(jù)集中所有圖像的SIFT特征,使用空間投影的方法將SIFT特征從128維降至10維。
步驟4:將SIFT特征點(diǎn)的坐標(biāo)位置與step2所得到的區(qū)域坐標(biāo)比較,將SIFT特征點(diǎn)按區(qū)域聚類,由于SIFT特征是以方向和scale從大到小排序的,也就是排在前面的,擁有更加穩(wěn)定的特征,這里只取每個(gè)區(qū)域選擇前三個(gè)SIFT特征,即一個(gè)標(biāo)簽對應(yīng)三個(gè)SIFT多示例。
圖像分類學(xué)習(xí)算法中最為重要的兩個(gè)過程是特征的提取和分類算法的選取,為了將前期提取的照片特征庫學(xué)習(xí)訓(xùn)練成自動標(biāo)注模型,在圖像自動標(biāo)注的多示例多標(biāo)簽學(xué)習(xí)任務(wù)中,問題的特點(diǎn)是一幅圖像包含多個(gè)區(qū)域目標(biāo),在多示例多標(biāo)簽學(xué)習(xí)中稱為示例,同時(shí)一幅圖像又被標(biāo)記為多個(gè)標(biāo)簽,當(dāng)一幅圖像被標(biāo)記為一個(gè)標(biāo)簽時(shí),那么圖像必定包含一個(gè)以上與這個(gè)標(biāo)簽相關(guān)的示例,或稱為此標(biāo)簽的正樣本。相反當(dāng)一幅圖像不被標(biāo)記為這個(gè)標(biāo)簽時(shí),那么圖像所包含的所有示例都不與此標(biāo)簽相關(guān),或稱為此標(biāo)簽的負(fù)樣本。
2.2.1 自動標(biāo)注模型
為了解決多標(biāo)簽和多示例的問題,采用Discriminative MIML Learning[11]方法迭代得到最終的最佳標(biāo)簽分配和分類模型,Discriminative MIML Learning(DMIML)是google紐約研究院的Oksana Yakhnenko等提出的一種可以擴(kuò)展到大量圖像數(shù)據(jù)的新方法,其提出的算法是線性模型,不需要去計(jì)算核矩陣。模型的最優(yōu)參數(shù)可以通過隨機(jī)梯度下降的方法解一個(gè)無約束最優(yōu)化問題很快的得到,同時(shí)可以避免在內(nèi)存里存儲所有的數(shù)據(jù),算法首先訓(xùn)練一組可鑒別的多示例分類器,一個(gè)分類器對應(yīng)可能的標(biāo)簽詞匯表里的一個(gè)標(biāo)簽,然后通過找到排序權(quán)重矩陣建立標(biāo)簽之間的關(guān)系模型。
2.2.2 圖像自動標(biāo)注框架
圖像自動標(biāo)注是SBIR和CBIR中非常具有挑戰(zhàn)性,同時(shí)又非常重要的工作。它利用已標(biāo)注的圖像作為訓(xùn)練數(shù)據(jù)集,通過機(jī)器學(xué)習(xí)算法訓(xùn)練得到圖像低層視覺特征與高層語義之間的關(guān)系模型,并使用此模型來標(biāo)注新的未知圖像的語義。
詳細(xì)說明了基于該方法的圖像自動標(biāo)注的主要流程步驟,流程圖如下圖2所示:
圖2 圖像自動標(biāo)注框架
訓(xùn)練模塊:首先根據(jù)訓(xùn)練圖像的標(biāo)簽數(shù)目,提取改進(jìn)的SIFT示例特征,再通過DMIML多示例多標(biāo)簽方法訓(xùn)練自動標(biāo)注的分類器模型。
標(biāo)記模塊:提取待標(biāo)記圖像的SIFT特征,利用訓(xùn)練的自動標(biāo)注分類模型對圖像的每個(gè)示例特征進(jìn)行類別判斷,最終將此類別標(biāo)簽作為圖像的預(yù)測標(biāo)簽。
最后將預(yù)測的多標(biāo)簽對檔案照片進(jìn)行自動標(biāo)注,以便檢索利用。
2.2.3 實(shí)驗(yàn)驗(yàn)證
為了檔案照片的安全性,本次實(shí)驗(yàn)采用的是文獻(xiàn)[12]的采用這組圖像數(shù)據(jù)集,該數(shù)據(jù)集包含2000張圖像,共5種類別標(biāo)簽。圖像標(biāo)簽預(yù)測結(jié)果和真實(shí)標(biāo)簽的比較如下表1所示:
表1展示了本文提出的自動標(biāo)注算法在測試數(shù)據(jù)集上的標(biāo)注效果,可以看出每幅圖片中最主要的目標(biāo)物體都被準(zhǔn)確的標(biāo)注出來,只有少數(shù)位置偏、在圖片中較小的次要目標(biāo)出現(xiàn)漏標(biāo)(表1中第二行第一、三列、第三行第一、三列出現(xiàn)此類情況),目標(biāo)不明確導(dǎo)致錯(cuò)誤標(biāo)記(表1中第一行第二列、第二行第三列出現(xiàn)此類情況)。上述的兩類錯(cuò)誤是主觀判斷,在可以接受的范圍之內(nèi),整體計(jì)算準(zhǔn)確率在95%以上,并且優(yōu)于根據(jù)與文獻(xiàn)[12]中采用的基于SBN特征的實(shí)驗(yàn)方法準(zhǔn)確率,同時(shí)這種準(zhǔn)確率隨著訓(xùn)練的樣本越多越來越高,通過上述實(shí)驗(yàn)證明本文提出的特征提取算法和多標(biāo)簽多示例算法都是行之有效的圖像自動標(biāo)注方法。
表1 圖像標(biāo)簽預(yù)測結(jié)果和真實(shí)標(biāo)簽的比較
本文主要介紹了照片檔案標(biāo)注的關(guān)鍵技術(shù),包括基于文本的照片檔案標(biāo)注的相關(guān)技術(shù),基于內(nèi)容的照片檔案標(biāo)注的相關(guān)技術(shù),重點(diǎn)研究了基于語義檢索中圖像自動標(biāo)注的問題。一幅圖像可能因?yàn)槠渲邪鄠€(gè)目標(biāo)物體而被標(biāo)記為多個(gè)標(biāo)簽,同時(shí)標(biāo)簽與目標(biāo)物體的對應(yīng)關(guān)系未知,根據(jù)圖像自動標(biāo)注問題的這種特點(diǎn),使用多示例多標(biāo)簽學(xué)習(xí)方法來進(jìn)行圖像自動標(biāo)注。本文的主要工作包含以下兩個(gè)方面:
a)提出了一種檔案照片的多示例多標(biāo)簽自動標(biāo)注問題的示例特征,即首先將圖像進(jìn)行分割,提取其中的目標(biāo)物體的區(qū)域特征,在分析了傳統(tǒng)的SBN示例特征的優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了一種SIFT特征描述方法,以解決示例特征提取中每幅圖像示例數(shù)目固定,不能很好的描述真實(shí)的問題中每幅圖像所包含的目標(biāo)物體的數(shù)目不同的問題,這種基于歸一化圖像分割的特征方法很好的解決了圖像目標(biāo)分割特征表示的問題,該特征具有區(qū)分性強(qiáng),數(shù)據(jù)量小等特點(diǎn)。
b)將圖像自動標(biāo)注問題轉(zhuǎn)換成多示例多標(biāo)簽問題,通過引入多示例多標(biāo)簽學(xué)習(xí),迭代得到最終的最佳標(biāo)簽分配和自動標(biāo)注的分類器模型,提出了一個(gè)完整有效的圖像自動標(biāo)注流程和步驟,實(shí)驗(yàn)證明該方法是一種有效的圖像自動標(biāo)注方法。
本文提出的一種多示例多標(biāo)簽照片檔案自動標(biāo)注技術(shù)適用于大規(guī)模海里檔案照片的快速自動標(biāo)注,對檔案照片的檢索利用有重要的促進(jìn)作用。