夏開建,靳勇
1.蘇州大學(xué)附屬常熟醫(yī)院(常熟市第一人民醫(yī)院) 信息科,江蘇 常熟 215500;2.常熟理工學(xué)院 計(jì)算機(jī)工程與科學(xué)學(xué)院,江蘇 常熟 215500
最小平方誤差方法(Minimum Squared Error,MSE)[1-3]由于良好的分類性能廣受人們重視,該方法試圖通過(guò)對(duì)訓(xùn)練樣本的訓(xùn)練找到線性判別函數(shù)中有效的投影向量w,用以對(duì)測(cè)試樣本進(jìn)行分類。但是現(xiàn)實(shí)中有許多問題都是非線性可分的,例如像醫(yī)學(xué)目標(biāo)識(shí)別等問題[4-6]中由于角度、噪聲、蠕動(dòng)等不同所引起的醫(yī)學(xué)目標(biāo)圖像的差異造成醫(yī)學(xué)器官圖像的分布往往是非線性的和復(fù)雜的。
核技術(shù)[7-10]的使用,使得支持向量機(jī)(Support Vector Machine,SVM)在模式識(shí)別領(lǐng)域獲得了很大的成功。其思想是通過(guò)非線性映射將輸入空間變換到一個(gè)高維特征空間F中,映射后的向量可以包含原樣本的非線性的信息,而這種非線性映射是通過(guò)定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的。它成功的避免了在高維的特征空間中廣義線性鑒別函數(shù)存在的“維數(shù)災(zāi)難”問題,提供了一種有效抽取樣本的非線性特征的方法。主分量分析(Principal Component Analysis,PCA)是線性特征抽取的最為重要的技術(shù)之一,目前仍然廣泛地應(yīng)用在醫(yī)學(xué)目標(biāo)圖像等圖像識(shí)別領(lǐng)域。
本文在傳統(tǒng)的MSE的基礎(chǔ)上引入核技術(shù),提出了一種基于核的最小模最小平方誤差方法(Kernel Minimal Mean Square Error,KMNMSE),該方法有效的解決了傳統(tǒng)的MSE方法存在的非線性可分問題。另外,針對(duì)傳統(tǒng)的MSE方法中的投影向量可能存在“超定”的問題,引入了廣義逆矩陣的概念,并給出了其求解方法。在此基礎(chǔ)上,又提出了一種一般的MNMSE分類器模型。之后,鑒于核主分量分析(Kernel Principal Component Analysis,KPCA)方法在特征抽取中的成功應(yīng)用,本文提出了一種基于KPCA與MNMSE分類器的一種新的醫(yī)學(xué)目標(biāo)識(shí)別方法,該方法不僅達(dá)到了對(duì)核樣本向量降維的目的,而且在核樣本空間中在最小均方差意義下給出了模式樣本的最優(yōu)表示,同時(shí)該方法也再次證明了MNMSE分類器的有效性。最后,在醫(yī)學(xué)圖像庫(kù)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出的理論與方法的有效性。
假設(shè)有n個(gè)m維的樣本x1,x2…xn∈Rm當(dāng)中包含兩類不同的樣本,其中n1個(gè)樣本屬于ω1,n2個(gè)樣本屬于ω2。我們要通過(guò)這n個(gè)訓(xùn)練樣本來(lái)尋找一個(gè)投影向量w,用于下面的線性判別函數(shù):
在兩類問題中,如果判別函數(shù)的值g(x)>0則x∈ω1;如果 g(x)<0 則 x∈ω2。
定義y=[x1]T×s(x)作為x標(biāo)準(zhǔn)化的向量。其中,x∈ω1時(shí)s(x)=1;x∈ω2時(shí) s(x)=-1。
再定義一個(gè)閾值向量b=[b1K bn]T,這樣線性判別函數(shù)方程組就可以用矩陣簡(jiǎn)化表示,我們的目標(biāo)也就轉(zhuǎn)化為尋找向量a使得:
如果Y是非奇異的,我們立刻可以得到a的解a=Y-1b。但是Y通常是一個(gè)長(zhǎng)方形的矩陣,當(dāng)行數(shù)大于列數(shù)時(shí)方程組的個(gè)數(shù)多于未知數(shù)的個(gè)數(shù),a是超定的,通常沒有精確的解。定義誤差向量e=Ya-b,最小平方誤差的方法就是通過(guò)定義如下的最小化誤差平方和的準(zhǔn)則函數(shù),使得誤差向量的長(zhǎng)度的平方最小化。
一旦a得出后,式(1)也可以推出,[w,w0]T=a。在YTY非奇異時(shí)a可以通過(guò)以下公式求得:
YTY在醫(yī)學(xué)目標(biāo)識(shí)別等高維小樣本問題中通常是非奇異的,這種情況下,不論a是否是超定的,式(3)的判別函數(shù)(MSE)的解總是存在。
核方法的基本思想就是要解決非線性可分的問題[11-13]。首先將原始訓(xùn)練樣本通過(guò)一個(gè)非線性映射映射到某一高維(可能是無(wú)限維)特征空間F中,然后在F中執(zhí)行線性鑒別分析方法。由于特征空間F的維數(shù)非常高甚至是無(wú)窮維,為了避免直接顯式地處理映射后的樣本,引入支持向量機(jī)中的核函數(shù)。這些核函數(shù)可以計(jì)算某些特征空間上的內(nèi)積,即k(x,y )=<(x)。在支持向量機(jī)中常用的核函數(shù)有高斯 RBF 核函數(shù) k(x,y)=exp(-‖x -y‖2/σ),多項(xiàng)式核函數(shù)k(x,y)=(x×y+c)d,其中σ、c和d都是常數(shù)。因此,我們?cè)诮?jīng)典的最小平方誤差方法中引入核的概念以解決其存在的非線性可分問題[14-16]。
將n個(gè)訓(xùn)練樣本x1,x2,…, xn∈Rm通過(guò)一個(gè)非線性映射映射到特征空間F中,對(duì)應(yīng)的訓(xùn)練樣本變?yōu)閛(x1),…,(Xn),相應(yīng)的判別函數(shù)變?yōu)?
相應(yīng)的向量v由投影后的n個(gè)樣本訓(xùn)練獲得,根據(jù)再生核理論解向量v一定位于(x1),…,(xn)張成的空間內(nèi)。既存在系數(shù)向量 α=(α1,…,αN)T∈RN,滿足 :
定義1ζk=[k(x1,xk),…,k(xN,xk)]T,稱ζk為核樣本向量(對(duì)應(yīng)于原始輸入樣本xk),稱α為核鑒別向量。
這樣我們的判別函數(shù)可以改寫為如下的形式:
與傳統(tǒng)的MSE方法類似,我們對(duì)判別函數(shù)進(jìn)行簡(jiǎn)化:
其中,H是由標(biāo)準(zhǔn)化后的核樣本向量hi=[ζi1]T×s(x)作為行向量的矩陣。同樣x∈ω1時(shí)s(x)=1;x∈ω2時(shí)s(x)=-1。α,v0也與u有如下的關(guān)系:
定義如下的核最小化誤差平方和的準(zhǔn)則函數(shù)(Kernel Minimal Square Error,KMSE),使得核樣本向量誤差向量的長(zhǎng)度的平方最
在HTH非奇異時(shí)u可以通過(guò)以下公式求得:
我們定義H的廣義逆矩陣(偽逆矩陣[])H+=(HTH)-1HT,不論H非奇異或奇異,(9)式的u是否超定(沒有精確的解),KMSE的解總是存在的。將H+定義為如下形式:
可以證明這個(gè)極限總是存在的,u=H+b就是式(9)判別函數(shù)的一個(gè)解。我們稱之為KMNMSE。
求得H+之后,我們要找的投影向量u也就得到了u=H+b。那么在接受到一個(gè)測(cè)試樣本后,這種KMNMSE又是如何判別其所屬類別呢?
假設(shè)x為一輸入的測(cè)試樣本向量,識(shí)別過(guò)程按如下步驟進(jìn)行:① 選擇核函數(shù),依照先前所述的方法轉(zhuǎn)換為核樣本向量ζ=[k(x1,x),…,k(xn,x)]T;② 得到此核樣本向量的增廣向量Γ=[ζT1]T;③ 將得到的增廣向量在求得的u向量上投影 λ=uTΓ,λ=1 則 x∈ω1;λ=-1 則 x∈ω2。
通過(guò)上一節(jié)的討論我們可以發(fā)現(xiàn)KMNMSE不僅具有良好的性質(zhì),而且簡(jiǎn)單易行。同時(shí)我們也能夠根據(jù)以上的討論得出基于MNMSE方法的分類器一般模型判別函數(shù):
其中,y為原樣本向量x經(jīng)過(guò)各種變換后的p維樣本向量;H+為如上所述的廣義逆矩陣;b為定義的任意正值的裕值向量;d為p+1維的增廣向量。
以上我們討論的是兩類模式問題,但是在像醫(yī)學(xué)目標(biāo)識(shí)別等模式識(shí)別問題中一般都是多類別問題,下面我們將兩類問題推廣為多類。
假設(shè)有c個(gè)模式類標(biāo)識(shí)為ω1K ωc,我們?cè)谶M(jìn)行第3節(jié)的訓(xùn)練過(guò)程的時(shí)候,將屬于ωi的樣本和不屬于ωi的樣本看作是兩類不同的樣本。這樣對(duì)于每一類訓(xùn)練樣本我們都可以得到一個(gè)相應(yīng)的投影向量ui=Hi+b,定義投影矩陣U由這一組投影向量組成,U=[u1…uc]。
這樣在識(shí)別過(guò)程中我們可以將測(cè)試樣本的核樣本向量在U上投影:
可以看出這里的L=[λ1…λc]T,若L中的元素λi=1則此測(cè)試樣本就歸于ωi。
主分量分析是線性特征抽取的最為重要的技術(shù)之一,目前仍然廣泛地應(yīng)用在醫(yī)學(xué)圖像融合等圖像識(shí)別領(lǐng)域,其本質(zhì)上在最小均方差意義下給出了模式樣本的最優(yōu)表示。KPCA是將K-L變換(主分量分析)推廣到用來(lái)抽取非線性特征。我們首先用KPCA的方法來(lái)抽取出對(duì)應(yīng)原始樣本的特征向量用以代表原始樣本,然后用MNNSE分類器對(duì)這些對(duì)應(yīng)原始樣本向量的特征向量進(jìn)行分類。
KPCA的基本思想是將由映射后的數(shù)據(jù)o(xi)得到的總體協(xié)方差矩陣對(duì) 角化。為此,需要對(duì)下式的特征方程求解。
這樣我們得到N個(gè)訓(xùn)練樣本的p維特征向量,然后用這N個(gè)p維向量作為MNMSE分類器的輸入向量y,如上節(jié)所述對(duì)對(duì)分類器進(jìn)行訓(xùn)練得到U。在對(duì)測(cè)試樣本進(jìn)行分類時(shí),同樣先對(duì)測(cè)試樣本進(jìn)行核主分量分析得到相應(yīng)的p維特征向量Γ,再用MNMSE分類器進(jìn)行分類識(shí)別。
本文利用采集到的1024幅包括正常肺組織、良性肺結(jié)節(jié)和肝癌3種肺部CT圖像,以及514幅包括正常甲狀腺與甲狀腺癌的兩種甲狀腺CT圖像進(jìn)行實(shí)驗(yàn),所有圖像類型均經(jīng)過(guò)臨床醫(yī)師確診,圖像類型均為JPEG格式,大小為768×576,采集于同一臺(tái)CT儀器。使用歐式距離進(jìn)行醫(yī)學(xué)圖像的分類識(shí)別。在Window 7系統(tǒng)下,使用MATLAB R2007b開發(fā)環(huán)境,實(shí)現(xiàn)了醫(yī)學(xué)圖像識(shí)別的原型算法。
對(duì)于醫(yī)學(xué)圖像識(shí)別問題,識(shí)別結(jié)果會(huì)產(chǎn)生不同的兩種結(jié)果。其中,TP表示正確識(shí)別的樣本個(gè)數(shù),TN表示正確識(shí)別的陰性樣本個(gè)數(shù)。準(zhǔn)確率(Accuacy)表示正確分類的樣本數(shù)占所有分類樣本的比例,如式(18)所示。
本試驗(yàn)的目的是驗(yàn)證本提出的KMNMSE方法的有效性。在試驗(yàn)中,通過(guò)對(duì)不同類別,不同樣本數(shù)的肺CT圖像提取的特征,用KMNMSE方法進(jìn)行分類識(shí)別。根據(jù)采集的圖像共設(shè)計(jì)7組不同的樣本。對(duì)各組樣本結(jié)果數(shù)據(jù)分析,根據(jù)前面的分析,首先計(jì)算RN空間上的核特征向量ζk(k=1,…,200),然后由ζk(k=1,…,200)進(jìn)行訓(xùn)練計(jì)算出投影矩陣U,然后計(jì)算得到256個(gè)測(cè)試樣本的核樣本向量進(jìn)行分類,識(shí)別率,見表1。此外,我們還做了該方法和傳統(tǒng)MSE方法識(shí)別率和時(shí)間的比較。
表1 不同算法在不同分組數(shù)據(jù)上的識(shí)別準(zhǔn)確率對(duì)比
通過(guò)準(zhǔn)備率對(duì)比可以看出,本文提出KMNMSE方法利用核方法的高效特征計(jì)算的優(yōu)勢(shì),與PCA特征向量相互作用,具有較高的識(shí)別率。本文方法通過(guò)非線性映射將輸入空間變換到一個(gè)高維特征空間F中,映射后的向量可以包含原樣本的非線性的信息,因此提升了識(shí)別的準(zhǔn)確性。
在識(shí)別率提高的基礎(chǔ)上,對(duì)算法運(yùn)行時(shí)間進(jìn)行測(cè)試(表2)。本文算法構(gòu)造特征空間所用時(shí)間明顯小于傳統(tǒng)算法,而識(shí)別時(shí)間基本相同。原因是核方法處理后每一塊的維數(shù)降低,對(duì)每一塊進(jìn)行傳統(tǒng)PCA算法時(shí)間明顯減少,導(dǎo)致構(gòu)造特征空間的時(shí)間減少。由于兩種算法識(shí)別部分基本相同,識(shí)別時(shí)間相差不多。最終改進(jìn)算法運(yùn)行總時(shí)間優(yōu)于傳統(tǒng)算法。
表2 不同算法的性能對(duì)比(s)
本實(shí)驗(yàn)利用醫(yī)院獲取的大量甲狀腺圖片,利用本文提出的特征提取方法進(jìn)行提取,然后利用基于核主分量分析與MNMSE分類器的醫(yī)學(xué)目標(biāo)識(shí)別方法分類識(shí)別(圖1)。
圖1 甲狀腺CT圖像
本文提出的醫(yī)學(xué)圖像識(shí)別方法對(duì)甲狀腺CT圖像進(jìn)行分類的結(jié)果,見圖2。從圖中可以看出,利用本文提出的甲狀腺PCA特征的提取方法可以對(duì)甲狀腺的正異常很好地分類,分類準(zhǔn)確率為100%。
圖2 本文算法的分類結(jié)果
本試驗(yàn)在對(duì)人體甲狀腺和肺部CT圖像及其病理研究的基礎(chǔ)上,針對(duì)其病變特點(diǎn),提出將基于核主分量分析與MNMSE分類器的醫(yī)學(xué)目標(biāo)識(shí)別方法用于甲狀腺(肺部)狀態(tài)進(jìn)行分類識(shí)別,利用核主分量分析提出的穩(wěn)定特征,為分類的成功提供了良好的基礎(chǔ)。然后,根據(jù)所提取的特征采用MNMSE分類器對(duì)甲狀腺(肺部)的正異常進(jìn)行分類。經(jīng)仿真結(jié)果驗(yàn)證,使用本文中提出的這兩個(gè)特征對(duì)甲狀腺(肺部)的正異常可以取得較好的分類效果,且具有一定的準(zhǔn)確性、可靠性和實(shí)用性,較好地實(shí)現(xiàn)了甲狀腺的計(jì)算機(jī)輔助診斷,為醫(yī)生的臨床診斷提供一定的幫助。
[1]朱旗.基于最小平方誤差的人臉特征抽取與分類算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[2]王禹.基于線性回歸分析的特征抽取及分類應(yīng)用研究[D].揚(yáng)州:揚(yáng)州大學(xué),2016.
[3]單寶堂,沈庭芝,崔玉紅,等.預(yù)估計(jì)最小平方誤差初始值方法改善交替映射算法性能[J].北京理工大學(xué)學(xué)報(bào),2007,27(5):436-440.
[4]許建華,張學(xué)工,李衍達(dá).最小平方誤差算法的正則化核形式[J].自動(dòng)化學(xué)報(bào),2004,30(1):27-36.
[5]胡正平,彭燕,趙淑歡.非最小平方誤差局部-全局加權(quán)融合的稀疏表示遮擋人臉識(shí)別[J].模式識(shí)別與人工智能,2015,28(7):633-640.
[6]Yang Y,Blum RS.MIMO radar waveform design based on mutual information and minimum mean-square error estimation[J].IEEE T Aero Elec Sys,2007,43(1):330-343.
[7]Davis B,Lorenzen P,Joshi S.Large deformation minimum mean squared error template estimation for computational anatomy[J].IEEE T Aero Elec Sys,2004(1):173-176.
[8]Wang J,Zhang Y,Cao H,et al.Dimension reduction method of independent component analysis for process monitoring based on minimum mean square error[J].J Process Contr,2012,22(2):477-487.
[9]Zhang L,Li X,Zhang D.Image denoising and zooming under the linear minimum mean square-error estimation framework[J].Image Processing Iet,2012,6(3):273-283.
[10]Lee J,Sankar R.Theoretical derivation of minimum mean square error of RBF based equalizer[J].IEEE Singal Proc Let,2007:1613-1625.
[11]溫云磊,王元全,王懷彬.基于L0二階偏導(dǎo)最小化和核回歸模型的圖像去噪方法[J].天津理工大學(xué)學(xué)報(bào),2015,31(3):16-21.
[12]劉宇.基于水平集方法和模糊模型的醫(yī)學(xué)圖像分割算法研究[D].長(zhǎng)春:吉林大學(xué),2016.
[13]胡正平,彭燕,趙淑歡.非最小平方誤差局部——全局加權(quán)融合的稀疏表示遮擋人臉識(shí)別[J].模式識(shí)別與人工智能,2015,28(7):633-640.
[14]Xia KJ,Wang JQ,Wu Y.Robust Alzheimer disease classification based on feature integration fusion model for magnetic[J].J Med Imag Health,7(6):1171-1176.
[15]Xia KJ,Wang JQ,Cai J.A novel medical image enhancement algorithm based on improvement correction strategy in wavelet transform domain[J].Cluster Comput,2017,(10):1-9.
[16]Xia KJ,Wu Y,Ren XG,et al.Research in clustering algorithm for diseases analysis[J].J Networks,2013,8(7):123-129.