多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習

2021-01-15 07:27:44鄧趙紅王士同

計算機與生活 2021年1期

馬翔，鄧趙紅，王士同

江南大學數(shù)字媒體學院，江蘇無錫214122

圖像特征學習是計算機視覺和機器學習領(lǐng)域的重要研究內(nèi)容，計算機視覺中的很多任務(wù)如圖像分類、目標檢測、圖像分割等都會將通過各種不同的特征學習方法來表示圖像作為初始步驟，然后利用其他手段完成各自的目標。圖像特征的提取，不僅直接影響后續(xù)圖像分類、檢測等相關(guān)任務(wù)的精確度，甚至關(guān)系到分類和檢測算法的可行性。由于圖像包含的信息差別很大，并且自身易受光照、形變、遮擋等因素的干擾，因此設(shè)計一種有效的圖像特征表示方法是十分困難的。根據(jù)已有研究，常用的圖像特征學習方法主要分為基于手工提取特征的方法、基于子空間學習的方法和基于深度學習的方法。

基于手工提取特征的方法包括基于全局特征提取和基于局部特征提取的這兩種圖像表示方法。圖像的全局特征往往包括圖像的形狀、顏色、紋理等這些信息。最具有代表性的全局特征提取的方法有、方向梯度直方圖（histogram of oriented gradient，HOG）[1]、局部二值模式（local binary patterns，LBP）[2]、顏色直方圖[3]等，這些方法可以快速抽取圖像的上下文信息。局部特征可以靈活地描述圖像的細節(jié)以及內(nèi)部信息，針對原始圖像的局部特征，研究者基于詞袋模型（bag of words）[4]提出了許多特征提取方法，例如軟量化算法[5-6]、局部約束線性編碼算法[7]、空間金字塔算法[8]等。但是基于手工提取圖像特征的方法對圖像旋轉(zhuǎn)、縮放以及亮度變化過于敏感，并且由于圖像具有數(shù)據(jù)量大、維度高等特點，使得手工特征的設(shè)計和提取過程十分困難，不能直接應(yīng)用于當前的高維圖像分析和處理[9]。

基于子空間學習的圖像特征學習方法是為了尋找一個映射將特征從高維空間變換到低維空間，并利用數(shù)據(jù)潛在的幾何結(jié)構(gòu)信息。研究者認為高維圖像數(shù)據(jù)實際上是位于高維空間的低維線性子空間或者低維非線性流形上的。常見的子空間學習技術(shù)有主成分分析（principal component analysis，PCA）[10]、線性判別分析（linear discriminant analysis，LDA）[11]、獨立成分分析（independent components analysis，ICA）[12]等。上述方法假設(shè)從原始空間變換到低維空間的函數(shù)映射是線性的，而復(fù)雜的圖像數(shù)據(jù)往往是需要非線性映射才能找到適當?shù)牡途S嵌入。針對該類問題，常用的方式是在線性降維的基礎(chǔ)上，使用核方法[13]。核方法通過使用核函數(shù)將待數(shù)據(jù)從原始空間映射到高維空間中，這樣可以將線性子空間學習方法推廣為非線性方法，如核偏最小二乘法[14]、核主成分分析（kernel principal component analysis，KPCA）[15]、核判別分析[16]等。但是關(guān)于核方法的選擇存在著很多不足，尤其是如何選擇合適的核函數(shù)和相關(guān)參數(shù)，都會影響特征學習的效果。

近幾年來，深度學習方法作為機器學習的一個研究方向受到廣泛關(guān)注。該方法通過組合低層特征獲取更抽象、更有效的高層語義信息，以發(fā)現(xiàn)數(shù)據(jù)的不同特征表示[17]。研究者們對深度學習進行了深入的研究，提出各種不同架構(gòu)的深度學習方法。Hinton等提出深度置信網(wǎng)絡(luò)[18]（deep belief networks，DBN），能夠提取圖像高級別視覺特征。Christian 等提出深度神經(jīng)網(wǎng)絡(luò)（deep neural networks，DNN），可以提取圖像幾何信息獲得較好分類效果，但模型容易過擬合以及計算量較大。Christian 等又提出卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN），該類網(wǎng)絡(luò)具有網(wǎng)絡(luò)參數(shù)較少和簡化訓練的優(yōu)點，被廣泛應(yīng)用于計算機視覺領(lǐng)域中[19]，并衍生很多結(jié)構(gòu)模型[20-22]。對于深度神經(jīng)網(wǎng)絡(luò)方法來說，雖然具有強大的假設(shè)空間，但需要大規(guī)模的數(shù)據(jù)驅(qū)動，當數(shù)據(jù)量較小時，神經(jīng)網(wǎng)絡(luò)往往并不能取得令人滿意的效果。此外，神經(jīng)網(wǎng)絡(luò)通常需要利用反向傳播[23]算法訓練，在網(wǎng)絡(luò)較深的情況下，會出現(xiàn)梯度消失，使得收斂很慢，導(dǎo)致模型訓練時間很長。一般情況下，神經(jīng)網(wǎng)絡(luò)通常采用隨機梯度下降（stochastic gradient descent，SGD）[24]方法來學習。然而，學習一個對分類有用的網(wǎng)絡(luò)非常依賴于參數(shù)調(diào)優(yōu)和一些特殊技巧的專業(yè)知識。特別地，神經(jīng)網(wǎng)絡(luò)通常被視為是一個黑盒模型，解釋性較差，這也限制了其在解釋性要求較高領(lǐng)域的應(yīng)用。

為了克服上述現(xiàn)有圖像特征方法的缺點，本文提出了多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習方法（multi-grained fusion image feature learning with fuzzy rule system，MGFIFL-FR）。該方法有效地綜合了基于規(guī)則的模糊系統(tǒng)的可解釋性優(yōu)點和基于學習的特征學習方法可以自動抽取抽象特征的特點。具體地，本文首先將基于模糊規(guī)則的模糊推理TSK 模糊系統(tǒng)（Takagi-Sugeno-Kang fuzzy system，TSK-FS）[25-27]作為一種直觀的、易于解釋的特征學習模型，然后通過定義特定的特征學習目標準則優(yōu)化TSK 模糊系統(tǒng)參數(shù)，進而得到可利用規(guī)則解釋的特征抽取模型。本文還通過多粒度窗口掃描策略，融合多個粒度下TSK-FS 圖像特征學習提取的特征，使得特征抽取能力進一步提升。

MGFIFL-FR 具有以下優(yōu)點：首先與手工提取特征的方法相比，MGFIFL-FR 可以自動地進行特征學習從而提取到不同的特征；與子空間學習的方法相比，不需要選擇復(fù)雜的核函數(shù)就可以實現(xiàn)從原始空間到高維空間的非線性變換；與深度神經(jīng)網(wǎng)絡(luò)相比，其不依賴于大規(guī)模數(shù)據(jù)，在不同規(guī)模的數(shù)據(jù)集上均表現(xiàn)出較好的有效性；此外，MGFIFL-FR 是基于規(guī)則和推理來實現(xiàn)特征抽取，因而特征抽取的過程具有較好的解釋性。

本文的主要貢獻可概括如下：

（1）不同于經(jīng)典的TSK-FS 通常用于分類和回歸任務(wù)，本文把TSK-FS 視為一個特征抽取模型用于圖像特征的抽取。進而提出了一種新的多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習方法（MGFIFL-FR）。

（2）為了利用TSK-FS 實現(xiàn)特征學習，本文對于TSK-FS 的前件參數(shù)基于確定性聚類算法（Var-Part）進行估計，避免了傳統(tǒng)的基于聚類的前件參數(shù)估計的初始化敏感性問題。對于TSK-FS 的后件參數(shù)，利用LDA 的目標函數(shù)進行優(yōu)化，進而使得訓練的TSKFS 能夠?qū)崿F(xiàn)具有可解釋性的原始圖像數(shù)據(jù)的非線性特征抽取。

（3）通過引入多粒度窗口掃描策略，融合多個粒度下TSK-FS 圖像特征學習提取的特征，使得特征抽取能力進一步提升。

（4）對不同規(guī)模的圖像數(shù)據(jù)集進行了廣泛的實驗，實驗結(jié)果表明在不同尺度的數(shù)據(jù)上，本文所提方法均表現(xiàn)出了較好的有效性。

1 TSK 模糊系統(tǒng)

模糊系統(tǒng)[28]是一種基于模糊規(guī)則知識和基于模糊邏輯推理的系統(tǒng)。它基于Zadeh 博士在1965 年名為“模糊集合”[29]的文章創(chuàng)立的模糊理論，通過運用模糊集合和模糊隸屬度函數(shù)，可將人類的自然語義直譯成計算機可識別的機器語言。由于模糊系統(tǒng)具有強大的學習能力和較好的可解釋性，其越來越多地被應(yīng)用到人工智能的各個領(lǐng)域，如模式識別、智能控制、數(shù)據(jù)挖掘、圖像處理等。其中TSK 型模糊系統(tǒng)[28,30]為目前最流行的模糊系統(tǒng)模型之一。本文將以TSK模糊系統(tǒng)為基礎(chǔ)模型來探討圖像特征學習，現(xiàn)將其簡介如下。

TSK-FS 包含一個模糊規(guī)則庫，其中的模糊規(guī)則可表示如下：

其中，x=[x1,x2,…,xd]T為輸入向量，為規(guī)則k中特征i對應(yīng)的模糊集，∧為模糊合取操作。當TSK 型模糊系統(tǒng)采用乘合取算子、乘蘊含算子、加法組合算子和重心反模糊化操作時，最終輸出可表示為：

其中，μAki(xi)是xi對模糊集的隸屬度[31]，μk(x)為規(guī)則k的觸發(fā)強度。在本文采用高斯函數(shù)表示模糊隸屬度：

當模糊規(guī)則的前件參數(shù)固定之后，TSK-FS 可以被重新表示為一個模糊規(guī)則張成的新特征空間的線性模型[34-35]。其細節(jié)說明如下。令：

其中，xg∈RK(d+1)×1為原始特征向量x∈Rd×1映射到新特征空間之后對應(yīng)的特征向量。pg為所有規(guī)則后件參數(shù)的組合。

評論：TSK-FS 已經(jīng)廣泛地應(yīng)用于分類和回歸任務(wù)。通過有標注數(shù)據(jù)集和監(jiān)督學習方法對TSK-FS系統(tǒng)訓練將得到基于規(guī)則的可解釋預(yù)測模型。不同于經(jīng)典的TSK-FS 分類和回歸預(yù)測模型構(gòu)建，本文將把TSK-FS 用于特征抽取任務(wù)，實現(xiàn)基于規(guī)則的具有較好可解釋性的圖像特征抽取。

2 多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習

本章將提出一種多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習算法MGFIFL-FR。該算法通過多輸出TSK-FS 的前件部分實現(xiàn)非線性變換來生成隱特征，隱空間的轉(zhuǎn)換提供了非線性特征學習能力，同時還具有良好的可解釋性。MGFIFL-FR 通過多組后件參數(shù)生成不同的新特征。該模型利用不同大小粒度的窗口進行掃描，將學到的特征進行融合，使得特征學習能力進一步提升。

2.1 模型結(jié)構(gòu)

本文提出的方法主要包括三大模塊：多粒度掃描、TSK-FS圖像特征學習和特征輸出模塊。圖1展示了包含三個粒度掃描的TSK圖像特征學習的MGFIFLFR 整體結(jié)構(gòu)。

Fig.1 Architecture of MGFIFL-FR圖1 MGFIFL-FR 的整體結(jié)構(gòu)

2.2 多輸出TSK 模糊系統(tǒng)

TSK-FS 圖像特征學習為了提取圖像的不同特征，以多輸出TSK-FS 實現(xiàn)特征轉(zhuǎn)換。多輸出TSKFS 與單輸出TSK-FS 的主要區(qū)別在于多輸出TSK-FS中規(guī)則存在多組后件參數(shù)，因此不同的后件參數(shù)可以對應(yīng)不同的輸出。TSK-FS 圖像特征學習用不同TSK-FS 的輸出來表示抽取的圖像的不同特征。

有L個輸出的TSK-FS 的模糊規(guī)則可表示如下：

多輸出TSK-FS 的第l(1 ≤l≤L）個輸出表示為：

與單輸出TSK-FS 一樣，這里d是樣本的維度，為規(guī)則k中特征i所對應(yīng)的模糊集，∧為模糊合取操作，前件參數(shù)求取的過程與單輸出TSK-FS 相同，k=1,2,…,K代表多輸出TSK-FS 有K條規(guī)則。不同的是，多輸出TSK-FS 每條規(guī)則有L組后件參數(shù)，相對應(yīng)有L個輸出表示多輸出TSK-FS 的第k條規(guī)則的第l個輸出。P是L維輸出TSK-FS 的后件參數(shù)對應(yīng)的矩陣，xg同式（6）～（8）中所定義。

2.3 多粒度掃描

滑動窗口掃描對于空間關(guān)聯(lián)性強的數(shù)據(jù)集來說有著顯著的效果，常用來處理高維的圖像數(shù)據(jù)。本文通過使用不同粒度的窗口掃描生成的樣本集，使得模型的特征學習能力進一步提升。

假設(shè)有N個訓練圖像樣本，被分成C類。即圖像數(shù)據(jù)集為，每張圖片大小為m×n，此時可把圖像數(shù)據(jù)集表示為矩陣I=[I1,I2,…,IN]。

對于大小為m×n的輸入圖像Ii，本文使用S個不同尺度的滑動窗口進行掃描，即分別采用大小為h1,h2,…,hS的正方形窗口對原始圖像進行掃描。為了更好地利用圖像的邊緣信息，本文在圖像的邊緣部分用補0 方式進行填充。這樣對于大小為hs×hs窗口來說，相當于為每個像素點取大小為hs×hs的鄰域塊。然后將每個像素點所對應(yīng)的塊轉(zhuǎn)化成列向量，可把圖像Ii對應(yīng)的向量集合表示為矩陣表示第i張圖片利用hs×hs窗口掃描所生成的第j個小塊的列向量。因此，對于所有輸入的訓練圖像集合，通過尺寸為hs×hs窗口的掃描，得到的向量集合可表示為矩陣對于其他尺寸的窗口來說，也可得到相應(yīng)的矩陣。

2.4 TSK-FS 圖像特征學習模塊

特征學習中，構(gòu)建合適的特征空間非常重要。TSK-FS 圖像特征學習包含兩個步驟：隱特征生成、特征變換。圖2 描繪了TSK-FS 圖像特征學習的流程圖。TSK-FS 圖像特征學習通過多輸出TSK-FS 的前件部分實現(xiàn)非線性變換來生成隱特征。在后件部分，經(jīng)典的單輸出TSK-FS 通常使用最小二乘法來優(yōu)化求解線性模型，從而獲得分類結(jié)果。本文使用多輸出TSK-FS 的后件部分，來實現(xiàn)隱空間的線性變換，進行特征降維，從而抽取到新特征。具體實現(xiàn)步驟將在下面詳細描述，下文描述的是在hs×hs的窗口掃描下進行TSK-FS 圖像特征學習的步驟，對于其他粒度，方法是相同的。

Fig.2 TSK-FS image feature learning圖2 TSK-FS 圖像特征學習

2.4.1 隱空間特征生成

基于TSK-FS 的原理，根據(jù)式（2）～式（5）可生成輸入樣本對應(yīng)于模糊規(guī)則前件的模糊隸屬度。FCM是估計式（5）中的前件參數(shù)的常用方法，但由于FCM的隨機初始化的特點，使得其穩(wěn)定性較差[36]。對于需要參數(shù)優(yōu)化的算法來說，基于FCM 的TSK-FS 對參數(shù)較為敏感，會導(dǎo)致算法的實用性降低。因此，本文采用了一種更穩(wěn)定的確定性聚類方法Var-Part[33]來計算TSK-FS 的前件參數(shù)。Var-Part在計算上很簡單，復(fù)雜度僅相當于一次K均值迭代[33]。

使用確定性聚類方法Var-Part 估計TSK-FS 前件參數(shù)的核心任務(wù)是對輸入數(shù)據(jù)Xs進行聚類，從而獲得K個簇。其過程如下：首先把所有數(shù)據(jù)作為一個簇，作為初始化的簇集合。然后選擇簇內(nèi)平方和誤差最大的簇，作為要劃分的下一個簇，劃分后得到兩個簇，代替被劃分的簇。重復(fù)上述過程，直到產(chǎn)生K個簇。簇劃分的過程如下：假設(shè)當前待劃分的簇為Cj，計算每個維度的方差，找到方差最大的維度，如dp。然后，令xip表示樣本xi在特征dp上的值，μjp表示該簇聚類中心在特征dp中的均值。按照下列規(guī)則將Cj分為兩個新簇Cj1和Cj2：如果xip小于或等于μjp，將xi分配給Cj1；否則，將xi賦值給Cj2。通過Var-Part 得到的K個簇，即可獲得聚類中心矩陣C。一旦確定了聚類中心矩陣C，核寬度矩陣D可利用式（18）計算。

式中，k=1,2,…,K，K是模糊規(guī)則數(shù)，p=1,2,…,d，d是樣本的維度。進一步，將每個維度的核寬度縮放到范圍[1,10]（這是經(jīng)過大量實驗得出的合理范圍）。

在模糊規(guī)則前件的隸屬度確定之后，根據(jù)式（6）～式（8），就可將原始特征Xs從原始空間映射到隱特征空間，從而得到新的隱特征空間的數(shù)據(jù)集Gs：

2.4.2 隱空間特征變換

如果將由多輸出TSK-FS 的前件部分轉(zhuǎn)換的數(shù)據(jù)視為在高維空間中的隱特征表示，則多輸出TSKFS 的后件部分可視為隱特征表示空間的線性降維。本文在求解TSK-FS 后件參數(shù)P的過程中，為了盡可能保留原數(shù)據(jù)的判別信息，從高維隱特征空間中識別出最具有鑒別能力的低維特征，使得數(shù)據(jù)在低維空間中具有最佳的可分離性。本文通過在隱特征空間中最大化類間散度的同時最小化類內(nèi)散度來保留原數(shù)據(jù)的分布信息，即采用經(jīng)典的LDA 的優(yōu)化準則來優(yōu)化TSK-FS 的后件參數(shù)P。此時，TSK-FS 后件參數(shù)P的優(yōu)化目標可以寫成如下形式：

其中，ILs是大小為Ls×Ls的單位矩陣，Sb是類間散度矩陣，Sw是類內(nèi)散度矩陣，具體形式如下：

式（23）中的Ncmn 是隱空間中屬于第c 類的樣本數(shù)，mc是隱空間中屬于第c 類的樣本的均值向量，m 是隱特征空間中所有樣本的均值向量。類內(nèi)散度矩陣Sw被定義為式（24）的形式，表示每個類別的散度矩陣之和，為屬于第c 類的散度矩陣。式（25）中的gc表示隱空間中屬于第c 類的樣本所對應(yīng)的向量。

式（22）可以通過求解廣義特征值的方式解決：

后件參數(shù)P 確定之后，可以很容易得到多輸出TSK-FS 學習到的新特征數(shù)據(jù)，即：

以上是對于掃描窗口為hs×hs生成的樣本集，經(jīng)過TSK-FS 圖像特征學習后得到的特征矩陣，對于其他尺寸的窗口來說，也可得到相應(yīng)的矩陣。

2.5 特征輸出模塊

MGFIFL-FR 的特征輸出模塊將分別對前面經(jīng)過不同粒度掃描的TSK-FS 抽取得到的特征圖進行權(quán)重二值化運算，并轉(zhuǎn)化成塊直方圖統(tǒng)計向量。最后將對應(yīng)的直方圖統(tǒng)計向量融合拼接，作為模型提取的最終特征。

2.5.1 權(quán)重二值化

特征輸出模塊首先將每個粒度輸出的特征圖像進行二值化處理，二值化函數(shù)定義如下：

對于第i 張圖片產(chǎn)生的Ls張二值化處理后的特征圖，將每張?zhí)卣鲌D相同位置點上的值視為Ls位二進制數(shù)的一位。因此可以將這Ls張二值圖合并為一張整數(shù)特征圖，記為，像素值范圍為[0,2Ls-1]。

此時，N 幅訓練圖像對應(yīng)的所有整數(shù)特征圖可表示為如下矩陣

2.5.2 分塊直方圖

使用與之前一樣大小的hs×hs窗口滑動遍歷整數(shù)特征圖并設(shè)重疊率為Cr（默認取0.5，即步長為將分為B 個區(qū)域，在每個區(qū)域內(nèi)做直方圖統(tǒng)計，統(tǒng)計范圍在[0,2Ls-1]內(nèi)每個整數(shù)出現(xiàn)的次數(shù)，輸出為一個2Ls維的向量，將這B 個2Ls維向量組合拼接為一個列向量，表示為R(2Ls)B×1，其中Hist()是分塊直方圖統(tǒng)計，并將結(jié)果展成向量的算子。

對于一張原始輸入圖片Ii，經(jīng)過粒度為hs×hs的窗口掃描、TSK-FS 圖像特征學習以及權(quán)重二值化和分塊直方圖統(tǒng)計運算之后，輸出的特征向量為hsi 。對于其他粒度的窗口掃描，也可以得到相應(yīng)的特征向量，將它們拼接可以得到最終的輸出向量：

根據(jù)前面的描述，本文給出所提的MGFIFL-FR 方法的具體算法描述。

算法1MGFIFL-FR

2.6 計算復(fù)雜度分析

本節(jié)將討論所提算法MGFIFL-FR 的計算復(fù)雜度，使用大O 復(fù)雜度分析法對算法的時間復(fù)雜度進行分析。已知數(shù)據(jù)集有N張圖片。經(jīng)過第一步，將原始樣本轉(zhuǎn)化為列向量矩陣，此時子樣本數(shù)為mnN，每個子樣本的維度為hshs。這樣對于第二步，計算前件參數(shù)的復(fù)雜度為O(2hshsmnNK)。第三步將樣本從原始空間轉(zhuǎn)換到隱特征空間的復(fù)雜度為O(2hshsmnNK+2mnNK)。第四步中利用廣義特征值分解求解多組后件參數(shù)P的時間復(fù)雜度為O(LsK2(hshs)2)。第五步和第六步中生成新特征空間數(shù)據(jù)的復(fù)雜度為O(LshshsmnN)。在特征輸出模塊中，將多張?zhí)卣鲌D權(quán)重二值化成一張?zhí)卣鲌D需要花費的時間為O(2LsmnN)，利用分塊直方圖算子生成最終特征向量的計算復(fù)雜度為O(NmnBLslg 2)。通常情況下mn?max(hs,hshs,Ls,K,B)，N?K，因此最終采用多個粒度掃描的MGFIFL-FR 的計算復(fù)雜度為O(hs2LsKmnN)。

而神經(jīng)網(wǎng)絡(luò)通常采用隨機梯度下降方法來進行迭代優(yōu)化學習，模型的參數(shù)量巨大，訓練的時間遠遠大于本文方法。

3 實驗研究

本章進行了大量實驗來驗證本文所提圖像抽取方法MGFIFL-FR 的有效性。為了有效地進行性能評估，采用分類器在抽取的圖像特征數(shù)據(jù)集上進行分類識別，以分類性能作為指標來評估特征抽取方法的性能。特別地，對于提出的圖像特征抽取方法，結(jié)合了多類線性支持向量機（support vector machine，SVM）[37]作為分類器來進行分類實驗。

3.1 數(shù)據(jù)集

將本文算法MGFIFL-FR 在三個數(shù)據(jù)集上進行了性能評估，具體地，在ORL、Extended Yale B（EYaleB）這兩個經(jīng)典的人臉數(shù)據(jù)庫[38-41]以及MNIST[20]數(shù)據(jù)集上進行了實驗驗證。

ORL 數(shù)據(jù)庫是由Olivetti實驗室制作的一個包含400 張灰度圖片的人臉數(shù)據(jù)集，共有40 個對象，每個對象10 張圖片。ORL 是最常用的基準性人臉數(shù)據(jù)庫之一。本文將原始圖像歸一化到32×32 大小。

Extended Yale B 數(shù)據(jù)集由38 個人，每個人大約64 張在不同光照下的2 414 張正面圖像組成。本節(jié)使用裁剪后的圖像并將其調(diào)整為32×32 大小。

MNIST[20]是AT&T 實驗室制作的手寫數(shù)字集。它包含60 000 張訓練圖像，以及10 000 張測試圖像。數(shù)據(jù)集由來自250 個不同人手寫的數(shù)字構(gòu)成，包含0～9 這10 個阿拉伯數(shù)字的手寫字體圖片，每張圖片由28×28 個像素點構(gòu)成。

3.2 實驗設(shè)置

本節(jié)的實驗采用兩種基準方法、兩種基于手工提取特征的圖像表示方法、三種子空間學習的圖像特征學習方法作為對比算法。由于采用的兩個人臉數(shù)據(jù)集規(guī)模較小，深度神經(jīng)網(wǎng)絡(luò)無法直接對其進行訓練，因此人臉數(shù)據(jù)集的對比算法不包括深度神經(jīng)網(wǎng)絡(luò)相關(guān)的算法。兩種基準方法分別為將原始圖像不進行特征抽取，直接輸入到多類線性SVM 分類器（SVM）以及直接輸入到TSK 分類器（TSK）。兩種基于手工提取特征的圖像表示方法分別是利用分塊直方圖做特征抽?。˙lockHist）和利用局部二值模式做特征抽取（LBP）。三種子空間特征學習方法分別是利用主成分分析做特征抽?。≒CA），利用核主成分分析做特征抽?。↘PCA）和一個利用線性判別分析（LDA）做特征提取的人臉識別經(jīng)典算法。為了驗證MGFIFL-FR 特征抽取的優(yōu)越性，除了基準算法，其他五種對比算法均使用相同的分類器，即多類線性SVM 對抽取的新特征進行分類。所有方法均使用五折交叉驗證，并通過在參數(shù)空間中搜索最優(yōu)的參數(shù)設(shè)置進行評估，取最佳均值作為實驗結(jié)果。對于LBP，將圖片等分成16 個子塊，在每個子塊里利用等價模式的LBP統(tǒng)計其分布直方圖，然后將得到的16個直方圖拼接成一個特征向量。對于PCA 和KPCA，子空間維數(shù)通過網(wǎng)格搜索m={10,12,14,…,400}來獲取最優(yōu)維度，其中KPCA 的核類型選擇高斯核，高斯核的參數(shù)通過網(wǎng)格搜索t={2-4,2-3,…,24}來獲取最佳參數(shù)。對于LDA，其子空間維度數(shù)目固定為類別數(shù)減1。

對于本文方法MGFIFL-FR，固定選擇3 個粒度大小即每個像素點所取塊大小為{5,7,9}，特征輸出階段中分塊直方圖的滑動塊覆蓋率Cr固定為0.5。對于MGFIFL-FR，其兩個重要的參數(shù)是映射到隱特征空間的規(guī)則數(shù)Ks和特征學習階段求解后件參數(shù)的組數(shù)Ls。本節(jié)實驗使用網(wǎng)格搜索Ks={2,3,…,15}，Ls={3,4,…,16}的方式來獲取每個粒度下TSK-FS 圖像特征學習的最佳參數(shù)。

為了全面地驗證MGFIFL-FR 在訓練數(shù)據(jù)量較少時也可以取得不錯的效果，本文將ORL 人臉數(shù)據(jù)庫的訓練集和測試集進行不同比例的劃分。對于每個對象10 張圖片，分別隨機選擇2、5、8 張圖片作為訓練集，其余作為測試集，劃分后的數(shù)據(jù)集命名為ORL_Train_2、ORL_Train_5、ORL_Train_8。

為了檢測MGFIFL-FR 對噪聲是否具有良好的魯棒性，在ORL_Train_8 的訓練集和測試集中加入了一些典型的噪聲，如椒鹽噪聲或高斯噪聲（部分圖片如圖3 所示），來驗證當數(shù)據(jù)有噪音時，MGFIFL-FR 對噪聲是否具有良好的魯棒性。

3.3 實驗結(jié)果分析

Fig.3 ORL samples with noise圖3 加入噪聲的ORL 圖像

表1 顯示了MGFIFL-FR 在人臉數(shù)據(jù)集上的實驗結(jié)果?？芍崴惴ㄔ贠RL 數(shù)據(jù)集和其變種數(shù)據(jù)集上都取得了最高的準確率，可以看出MGFIFL-FR 在訓練數(shù)據(jù)量較少時也可以取得不錯的效果。當數(shù)據(jù)集中加入噪聲時，所提方法的準確率依舊維持在較高的水準，而經(jīng)典的TSK-FS 和其他方法的準確率均有明顯的下降，這說明了MGFIFL-FR 對噪聲具有良好的魯棒性?？梢钥吹?，在EYaleB 數(shù)據(jù)集上，達到了99.46%的準確率，說明MGFIFL-FR 對光照的干擾不敏感，具有一定的魯棒性。

在MNIST數(shù)據(jù)集上，除了使用了人臉數(shù)據(jù)集上相同的對比算法外，為了有效地評估本文方法MGFIFLFR 的性能，還對比了一些深度神經(jīng)網(wǎng)絡(luò)的方法。其中CNN(6-2-16-2)是一個簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，包含兩個卷積層、兩個池化層和兩個輸出層。其中目標函數(shù)選擇均方誤差，激活函數(shù)選擇sigmoid 函數(shù)，優(yōu)化算法選擇隨機梯度下降算法，訓練迭代次數(shù)epochs為100。LeNet_5[20]一個用于數(shù)字識別的經(jīng)典CNN 框架。DBM（deep Boltzmann machines）[42]是一種包含多個隱含層的玻爾茲曼機。ReNet[43]是一個基于遞歸神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)結(jié)構(gòu)。表2 給出了這些方法在MNIST 數(shù)據(jù)集上的準確率，可以看出本文算法MGFIFL-FR 明顯優(yōu)于經(jīng)典的TSK-FS 和基于子空間學習等方法，與深度神經(jīng)網(wǎng)絡(luò)的方法相比，性能也具有一定的競爭力。

Table 1 Comparison of accuracy on face datasets for each method表1 各方法在人臉數(shù)據(jù)集上的準確率比較%

Table 2 Comparison of accuracy on MNIST dataset for each method表2 各方法在MNIST 數(shù)據(jù)集上的準確率比較%

3.4 模型分析

3.4.1 MGFIFL-FR 中多粒度掃描的有效性分析

本文通過融合多個粒度下圖像特征學習抽取到的特征，即采用多粒度掃描的方式，使得模型的特征學習能力進一步提升。為了驗證本文提出的MGFIFL-FR 中多粒度掃描模塊的有效性，MGFIFLFR 與只使用單個粒度進行掃描的TSK-FS 圖像特征學習方法（image feature learning with fuzzy rule system，IFL-FR）進行比較。兩種方法的區(qū)別在于：MGFIFLFR 使用多個不同尺度的滑動窗口，分別對其進行TSK-FS 圖像特征學習，然后將得到的特征進行融合。IFL-FR 是只使用一種大小的滑動窗口進行掃描并進行TSK-FS 圖像特征學習。兩種特征抽取方法和線性SVM 結(jié)合對不同數(shù)據(jù)集進行了分類實驗。圖4 顯示出MGFIFL-FR 的準確率均高于IFL-FR。由此可以反映，MGFIFL-FR 中的多粒度掃描模塊使得模型的特征學習能力進一步得到提升。

Fig.4 Comparison of accuracy between IFL-FR and MGFIFL-FR圖4 IFL-FR 與MGFIFL-FR 精度比較

3.4.2 MGFIFL-FR中特征抽取模塊的有效性分析

為了驗證本文提出的MGFIFL-FR 中TSK-FS 特征學習模塊的有效性，MGFIFL-FR 與BlockHist 方法進行了比較。兩種方法的區(qū)別在于：MGFIFL-FR 在特征輸出模塊進行分塊直方圖特征抽取之前進行了TSK-FS 圖像特征學習，而BlockHist 方法僅在原始圖像上進行了分塊直方圖特征抽取。兩種特征抽取方法和線性SVM 結(jié)合對不同數(shù)據(jù)集進行了分類實驗。圖5 顯示出MGFIFL-FR 在三個不同數(shù)據(jù)集上的準確率要遠遠高于BlockHist。由此可以反映，MGFIFLFR 中的TSK-FS 特征學習模塊大大地提高了其特征學習能力。

Fig.5 Comparison of accuracy between block histogram and MGFIFL-FR圖5 分塊直方圖與MGFIFL-FR 精度比較

3.5 參數(shù)敏感性分析

本節(jié)對MGFIFL-FR 中超參數(shù)，即TSK-FS 圖像特征學習中的規(guī)則數(shù)以及后件參數(shù)組數(shù)這兩個參數(shù)進行分析，探究所提方法對這些參數(shù)的敏感性。本節(jié)使用人臉數(shù)據(jù)集ORL、EYaleB 和手寫數(shù)字數(shù)據(jù)集MNIST 進行了分析。

3.5.1 規(guī)則數(shù)對精度的影響

為了探討規(guī)則數(shù)對MGFIFL-FR 性能的影響，實驗中將TSK-FS 圖像特征學習中的規(guī)則數(shù)設(shè)置范圍為2 到15，進行遍歷和性能比較，實驗時令間隔為1，且每個粒度中的規(guī)則數(shù)設(shè)置為相同，將其他參數(shù)固定（每個粒度中的后件參數(shù)組數(shù)為8）。從實驗結(jié)果可以發(fā)現(xiàn)，這些數(shù)據(jù)集的規(guī)則數(shù)在2、3 時，取得了較高的精度，接著隨著規(guī)則數(shù)的增加，準確率降低并且上下波動。對于高維圖像數(shù)據(jù)集來說，隨著模糊規(guī)則數(shù)的增加，MGFIFL-FR 的參數(shù)和復(fù)雜度將迅速增加。因此，從圖6 可以看出，對于高維圖像數(shù)據(jù)，少量規(guī)則就可以取得很好的精度。

Fig.6 Impact of the number of fuzzy rules for TSK-FS in MGFIFL-FR on classification performance圖6 MGFIFL-FR 中TSK-FS 規(guī)則數(shù)對分類性能的影響

3.5.2 選取后件參數(shù)組數(shù)對性能的影響

為了探究后件參數(shù)組數(shù)對MGFIFL-FR 性能的影響，本小節(jié)將TSK-FS 圖像特征學習中的后件參數(shù)組數(shù)設(shè)置范圍為3 到16，進行遍歷和性能比較。實驗時令間隔為1，且每個粒度中的后件參數(shù)組數(shù)置為相同，將其他參數(shù)固定（每個粒度中的規(guī)則數(shù)為3）。從圖7 的結(jié)果可看出，這些數(shù)據(jù)集隨著組數(shù)的增加，準確率上升，當組數(shù)在8、9、10 時，趨于平緩。

Fig.7 Impact of the number of groups of consequent part for TSK-FS in MGFIFL-FR on classification performance圖7 MGFIFL-FR 中TSK-FS 后件組數(shù)對分類性能的影響

4 結(jié)論和展望

本文提出了一種多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習算法。MGFIFL-FR 基于規(guī)則的特征學習方式帶來良好的可解釋性的同時也引入了非線性特征學習的能力，達到提升分類精度的效果，多粒度掃描也使得其特征學習能力得到進一步的提升。實驗結(jié)果顯示，與基于手工特征和基于子空間學習的特征提取方法相比，準確率有較大提高。與深度神經(jīng)網(wǎng)絡(luò)無法直接應(yīng)用到小規(guī)模數(shù)據(jù)集相比，本文算法在小規(guī)模數(shù)據(jù)集上也取得了令人滿意的準確率。在較大規(guī)模數(shù)據(jù)集上，本文方法也取得了與深度神經(jīng)網(wǎng)絡(luò)相媲美的結(jié)果。

未來，將從以下幾個方面對多粒度融合的模糊規(guī)則系統(tǒng)圖像特征學習進行深入研究。將在模型結(jié)構(gòu)的深度上進行探索，進一步提升模型的容量。此外，本文在特征學習階段采用LDA 來保持數(shù)據(jù)的判別信息，未來將嘗試引入能夠保持數(shù)據(jù)全局以及局部結(jié)構(gòu)的技術(shù)，來進一步提升算法的性能。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放