張揚睿,王卓燃,崔子琦,傅于窈,程世強,王偉,白晨陽
(中國礦業(yè)大學(北京)機電與信息工程學院,北京100083)
圖像自動標注是通過計算機自動分析和識別圖像,并為圖像標注標簽的技術。圖像自動標注有著人工標注無法企及的優(yōu)點,例如標注速度快,能克服人工標注的主觀性等。當前的標注方法主要有四類:①基于分類管理思想的圖像標注。它把圖像分割分類,是一種需要監(jiān)督的機器學習研究方法。②基于相關模型的圖像自動標注。它通過建立圖像分割子區(qū)域與語義關鍵詞間的概率相關模型來進行相關工作。③基于半監(jiān)督模型的圖像自動標注。它應用于圖像信息巨大的情況。④基于圖模型的自動標注。它在解決多標簽分類問題中,建立了相互映射關系,為解決多標簽分類問題提供了新的思路方向,例如,改進的BR(Binary Relevance)算法[1]。圖像自動標注技術雖然在理論上已經取得了很大的進展,但是在應用到現實復雜場景時還是存在標注準確率不高等問題。實際上,標注標簽之間通常具有一定的相關性。例如,“藍天”和“白云”、“沙灘”和“大?!苯洺M瑫r出現在一幅圖像中。如何挖掘標簽之間的相關性是提高圖像標注準確率的重要方法之一。本文介紹了一種基于條件隨機場(Conditional Random Field,CRF)的圖像標注方法,可以挖掘標注標簽之間的相關性。具體而言,在圖像分割階段把圖像分割成若干區(qū)域,每一個分割的區(qū)域都對應一個標簽,從而將圖像自動標注問題轉換成關于區(qū)域的分類問題,然后采用條件隨機場模型完成圖像標注工作,通過條件隨機場模型挖掘標簽相關性。
圖1 基于條件隨機場的圖像標注方法流程圖
基于條件隨機場的圖像標注方法的核心思想是利用條件隨機場對經過聚類后的圖像特征和標簽序列進行訓練,以區(qū)域為單位對圖像進行自動標注,圖1 是基于條件隨機場模型的圖像自動標注算法的流程圖,包含如下三步。
(1)首先采用Mean-Shift 算法對進行圖像進行分割,即將一副圖像劃分成若干區(qū)域。
(2)然后對圖像劃分網格提取圖像特征并建立視覺詞袋模型。首先對每幅圖像進行網格劃分并基于網格提取圖像特征,然后對網格特征進行聚類得到網格類別的集合,接著基于(1)中劃分的圖像區(qū)域統(tǒng)計區(qū)域網格類別頻數,并再次對這些頻數向量進行聚類從而得到視覺詞袋,即實現將圖像信息“文本化”。
(3)在圖像訓練集上訓練基于條件隨機場模型的圖像自動標注模型,在訓練好的模型上輸入圖像測試集以完成圖像自動標注。上述步驟的詳細原理如1.1-1.3 小節(jié)所示。
Mean-Shift 算法是一種高效的聚類統(tǒng)計迭代方法,該算法完全依靠空間樣本點,不需要先驗知識且收斂速度快,具有很強的穩(wěn)健性,因此被廣泛應用于圖像分割、視頻追蹤等領域[2]。在圖像中以中心點x為初始迭代點,按一定半徑選定半徑區(qū)域內的點xi,求出中心點x到所有點xi的向量的均值,通過平均向量確定下一個新的中心點。算法不斷地迭代并記錄下所有收斂點[3]。均值漂移算法可描述為:在D維空間中給定n個樣本點(x1,x2,…,xn),在x處的均值漂移向量的數學表達式為:
在Mean-Shift 向量中,h表示中心點的區(qū)域范圍大小,k表示該區(qū)域內樣本點的數量。在圖像領域中,Sh是一個半徑為h的圓形區(qū)域,滿足以下條件:
因此依據各像素點的收斂點不同可劃分出一個個小區(qū)域。在這些小區(qū)域的基礎上可繼續(xù)進行圖像合并。圖像合并主要合并一些收斂的中心點,這些中心點位置相鄰并且灰度值相差不大。均值漂移算法的優(yōu)點是可以自動調整,積分收斂速度即運動矢量的大小取決于概率密度函數的梯度。當趨近極值時,平均位移向量減小,對于均勻分布的核密度函數,收斂可以在有限的步驟內完成。經過Mean-Shift 算法進行分割后,可以得到圖像集的區(qū)域集合:
其中,D為圖像集區(qū)域集合,R為區(qū)域,N1為圖像數量,Mi為第i幅圖像的區(qū)域數量。
(1)特征提取
對原始圖像集的每幅圖像劃分大小相同的網格,并對每幅圖像基于網格進行特征提取[4]??梢允褂妙伾狈綀D、顏色矩、Gabor 紋理特征、SIFT 算法[5]提取的形狀特征組成圖像的特征向量。顏色直方圖描繪的每種顏色所占在每個網格所占比例;顏色矩描述顏色的分布;Gabor 紋理可以在頻域不同尺度、不同方向上提取相關的特征;SIFT 算法可以得到網格的形狀特征。建立每一個網格的特征向量f=(f1,f2,f3,f4),f1,f2,f3,f4子向量分別表示基于網格的顏色直方圖、顏色矩、Gabor紋理和形狀特征,則特征提取后的網格特征向量集為:
N1為圖像數量,N2為每幅圖像的網格數量,每幅圖像會有N2個特征向量fi j,特征提取得到的網格特征向量集將作為詞袋模型的輸入進行聚類。
(2)建立詞袋模型
詞袋模型最初是用在自然語言處理的文本分類中的一個模型,將文本文檔看作是一個特征向量[6]。詞袋模型應用于圖像時圖像被看做為一個文本(即若干視覺詞匯的集合),這些視覺詞匯是圖像的“圖像特點”。建立詞袋模型的步驟如下:
①特征提?。喝?.2(1)所述,得到網格特征向量的集合。
②單詞本的生成:使用K-Medoids 算法[7]對網格特征向量進行聚類,得到K1種不同的網格類別。對經過1.1 小節(jié)分割后的每幅圖像統(tǒng)計每個區(qū)域的網格分布情況,計算第i幅圖像的第j個區(qū)域中第p類網格的頻率,用K1(網格類別數)維的分布向量表示,每一維度表示這個區(qū)域中這種類別的網格的頻數:
代表第i幅圖像的第q個網格的類別,代表第i幅圖像的第q個網格所在的區(qū)域。將每個區(qū)域都進行網格頻數分布計算,得到網格頻數分布向量數據集:
其中,N1為圖像數量,Mi為第i幅圖像的區(qū)域數量。
③檢索最匹配視覺單詞:通過對②得到的每個區(qū)域的網格頻數分布向量K-Medoids 聚類后得到由K 個視覺單詞組成的詞典(也稱為詞袋),可表示為:
vi表示視覺單詞。本文采用最近鄰搜索算法,搜索出與每幅圖像的每個區(qū)域相似度最高的單詞。
圖2 鏈式條件隨機場
條件隨機場模型是基于概率圖模型的分類學習方法,它是在隱馬爾可夫模型和最大熵模型(Maximum Entropy Model,MEM)相結合的基礎上,針對這兩種方法的缺陷逐步提出改進而來[8]。條件隨機場是條件概率分布模型P(Y|X)[9],X 與Y 的關系如圖2 所示。這個條件概率分布模型是在給定一組觀測序列X=(x1,x2,…,xZi) 的條件下求另一組標簽序列Y=(y1,y2,…,yZi)的概率,條件隨機場的參數化形式為:
式中,Z(X,θ)=∑Yexp{∑c?Cφc(Yc,X,θ)} 為全部序列集合的歸一化元素。
式中,tk和sl分別是定義在無向圖邊上和節(jié)點上的特征函數,分別為狀態(tài)轉移特征和狀態(tài)特征,λk,μl是特征函數tk,sl對應的權值。在定義特征函數階段,可以將節(jié)點處的特征函數的初始值都設置為1,將邊上的特征函數的初始值也設置為1。由于每個特征函數都分配有權重參數,因此在訓練的時候,如果節(jié)點之間的特征不存在依賴關系,則該特征函數的權重參數會在訓練結束后趨近于0。這種設定簡化了條件隨機場的建立過程。
構建條件隨機場模型,需要先建立條件隨機場對應的無向加權圖,圖模型中每一個觀察點對應一個圖像區(qū)域。為了訓練特征權重參數θ,需要輸入1.2 小節(jié)得到的區(qū)域網格頻數分布向量vi的序列作為觀測序列X,以及圖像區(qū)域對應的標簽序列表示第i幅圖像第j個區(qū)域的標簽?;贑RF 模型的圖像自動標注算法就是用條件隨機場模型來表示區(qū)域的頻數分布向量集X與標簽序列Y之間的關系[10],圖像標注過程就是為每一個區(qū)域分配一個標簽yi。CRF 模型在訓練集上確定模型的參數后,對于測試集能夠對給定的觀察序列X輸出合適的標簽序列Y,該標簽序列使得條件概率P(Y|X)最大。
圖像自動標注技術是當前機器學習的研究熱點。本文介紹了一種基于條件隨機場的圖像自動標注方法,該方法包含圖像分割、特征提取、構建詞袋模型以及基于條件隨機場模型進行圖像標注的完整流程。由于條件隨機場模型的狀態(tài)轉移特征函數可以表示標簽之間的依賴關系,因此該模型可以處理標簽間的相關性問題。