文仕軍
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng)550025)
以統(tǒng)計(jì)數(shù)據(jù)分析為主要目的學(xué)習(xí)問(wèn)題被分為三個(gè)基本問(wèn)題:模式識(shí)別、回歸估計(jì)和概率密度估計(jì)。在解決學(xué)習(xí)問(wèn)題的傳統(tǒng)理論中,模式識(shí)別和回歸估計(jì)都是建立在概率密度估計(jì)的基礎(chǔ)上的。概率密度估計(jì)通常采用參數(shù)估計(jì)和非參數(shù)估計(jì)的方法[1]。參數(shù)方法是根據(jù)經(jīng)驗(yàn),假定總體的分布為某種特定的形式,如高斯分布、瑞利分布等,而未知總體分布的某些具體參數(shù)值,然后再用樣本計(jì)算出這些未知的參數(shù)值。但在實(shí)際應(yīng)用中,樣本數(shù)據(jù)總是有限的,有時(shí)并不能確定總體的具體分布。當(dāng)對(duì)總體的分布形式無(wú)法做出大致正確的判斷時(shí),需要采用一種非參數(shù)方法更為合理,直接從樣本入手進(jìn)行估計(jì),即非參數(shù)估計(jì)方法。非參數(shù)統(tǒng)計(jì)方法幾乎不對(duì)總體設(shè)立限制條件,非參數(shù)估計(jì)可以處理所有類型的數(shù)據(jù)[2]。
概率密度估計(jì)是統(tǒng)計(jì)學(xué)中的一個(gè)核心問(wèn)題,得到概率密度,就可以解決概率有關(guān)的問(wèn)題。因此,求解概率密度問(wèn)題在理論研究和實(shí)際問(wèn)題中都有重要的意義。在非參數(shù)密度估計(jì)中,常用的方法有Parzen窗法和SVM 等。Parzen 窗估計(jì)需要盡可能多的估計(jì)樣本,窗寬的取值也影響估計(jì)的精度;SVM 估計(jì)需要采用非線性規(guī)劃的手段實(shí)現(xiàn),雖然在樣本有限的情況下也能達(dá)到一定的精度,但是算法復(fù)雜,樣本規(guī)模較大時(shí)訓(xùn)練速度較慢。本文介紹一種簡(jiǎn)單有效的估計(jì)方法,稱為核非線性回歸(KNR,Kernel-based Nonlinear Regression)法。
對(duì)于隨機(jī)變量X 的分布函數(shù)F(x),存在非負(fù)函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x 有:
則稱X 為連續(xù)型隨即變量,其中函數(shù)f(x)稱為X 的概率密度函數(shù)。
1.2.1 極大似然估計(jì)
對(duì)于獨(dú)立同分布的樣本數(shù)據(jù)x1,x2,…,xN,定義似然函數(shù)為:
其中,密度是θ 的函數(shù)。
將似然函數(shù)(2)表示成對(duì)數(shù)形式:
則最大似然函數(shù)的估計(jì)量即為式(3)表示的微分方程的解[2]。
1.2.2 經(jīng)驗(yàn)方法:統(tǒng)計(jì)直方圖[3]
設(shè)X1,X2,…,Xn是取自總體X 的樣本,x1,x2,…,xn表示樣本觀測(cè)值,令:
其中i=1,2,…,n,j=1,2,…,k,則得到:
式(7)為采用經(jīng)驗(yàn)方法估計(jì)得到的密度函數(shù)。
定義以原點(diǎn)為中心,半徑為1/2 的鄰域函數(shù)為:
式(9)為Parzen 窗密度估計(jì),其中h 為窗寬[3]。
用SVM 方法來(lái)估計(jì)概率密度,就是從概率密度的定義出發(fā),直接求解該線性算子方程。它結(jié)合了不適定問(wèn)題的理論、傳統(tǒng)的非參數(shù)統(tǒng)計(jì)學(xué)以及統(tǒng)計(jì)學(xué)習(xí)理論等方面的思想。支持向量機(jī)是通過(guò)事先選擇好的某一個(gè)非線性變換,將輸入向量x 映射到高維空間Z,在這一特征空間中,構(gòu)造一個(gè)最優(yōu)超平面[4,5]。
利用SVM 求解概率密度估計(jì)問(wèn)題,主要是首先在像空間中定義相應(yīng)的回歸問(wèn)題,然后利用支持向量機(jī)法構(gòu)造求解回歸問(wèn)題的核函數(shù)K(xi,xj)和交叉函數(shù)κ(xi,t),最后根據(jù)核函數(shù),利用支持向量機(jī)方法求解回歸問(wèn)題,找出支持向量和對(duì)應(yīng)的系數(shù),具體過(guò)程為:
使用SVM 方法解線性算子方程:
方程(10)的解可以表示成如下形式:
將式(11)表示成函數(shù)集的形式:
在式(12)最小化泛函,即尋找目標(biāo)函數(shù)。通過(guò)算子A,該函數(shù)集映射為:
定義像空間中的核函數(shù)為:
利用SVM 方法解線性算子方程就可以表達(dá)為利用核函數(shù)和數(shù)據(jù)對(duì)(x1,F(xiàn)l(x1)),…,(xl,F(xiàn)l(xl))在像空間中進(jìn)行回歸估計(jì),獲得w,并通過(guò)交叉核函數(shù)得到線性算子方程的解:
其中,κ(xi,x)為核交叉函數(shù),式(16)是對(duì)未知的概率密度f(wàn)(x)進(jìn)行回歸估計(jì)得到的結(jié)果[4-5]。
KNR 是一種非線性核回歸算法,在圖像處理、模式識(shí)別中有廣泛的應(yīng)用。再生核k 定義為:設(shè)H 是Hilbert 函數(shù)空間,其元素是某個(gè)抽象集合B 上的實(shí)值或復(fù)值函數(shù),設(shè)k(t,s)是B×B 上的二元函數(shù),對(duì)于任何的s∈B,k 作為t 的函數(shù)是s 的元素,而且對(duì)于任何s∈B 及fk∈H有:
則稱設(shè)k(t,s)為Hilbert 函數(shù)空間的再生核。定義再生核函數(shù)為:
則密度函數(shù)f(x)為多個(gè)核函數(shù)疊加而成,表示如下:
其中N 表示樣本個(gè)數(shù),x 表示樣本元素,a 為系數(shù)向量,由最小二乘準(zhǔn)則估計(jì)出向量a 如下式:
符號(hào)“+”表示矩陣的Moore-Penrose 廣義逆,并且K 中的第p 行q列的元素為:
其中,x 表示訓(xùn)練向量。
式(20)中,y 表示為:
首先給定高斯分布中的參數(shù)值,用高斯分布密度產(chǎn)生100 個(gè)隨機(jī)數(shù),由分布密度(23)產(chǎn)生100 個(gè)隨機(jī)樣本,采用正態(tài)分布,用極大似然函數(shù)法求參數(shù)μ 和σ。
其中σ=0.5,μ=3。
用參數(shù)法估計(jì)的μ=3.0615,σ=0.5812,但這是在已知數(shù)據(jù)分布的基礎(chǔ)上,對(duì)已知分布的部分未知參數(shù)采用極大似然法進(jìn)行估計(jì)。然后用Parzen 估計(jì)、SVM、及KNR 方法法得到估計(jì)曲線,與理論曲線進(jìn)行了對(duì)比。由圖1 可知,經(jīng)驗(yàn)密度估計(jì)過(guò)程中,不需要先驗(yàn)知識(shí),將樣本數(shù)據(jù)的取值范圍分成若干個(gè)區(qū)間,然后把落在每個(gè)區(qū)間內(nèi)的數(shù)據(jù)數(shù)目用直方圖表示出來(lái),但是估計(jì)概率密度精度不高。圖2 采用Parzen 核密度估計(jì)的方法,根據(jù)樣本數(shù)據(jù)得到了概率密度曲線,在核密度估計(jì)過(guò)程中,窗寬h 的取值會(huì)影響估計(jì)曲線的光滑程度,h 較大,將有較多的樣本點(diǎn)對(duì)x 處的密度估計(jì)產(chǎn)生影響,Parzen 核密度估計(jì)為了提高估計(jì)精度,需要盡可能多的樣本。由圖3 支持向量機(jī)概率密度估計(jì)曲線可知,支持向量機(jī)估計(jì)時(shí)對(duì)樣本數(shù)據(jù)依賴較小,需要少數(shù)的支持向量即可,圖3 中* 號(hào)表示支持向量,估計(jì)精度較高時(shí)需要的支持向量也較多,支持向量較少的部分估計(jì)誤差很大,同時(shí)由于算法涉及大量矩陣運(yùn)算,樣本訓(xùn)練時(shí)間長(zhǎng)。由圖4 可知,采用KNR 方法后,能夠提高估計(jì)精度,算法簡(jiǎn)單,提高了執(zhí)行速度。
圖1 經(jīng)驗(yàn)密度估計(jì)曲線(直方圖)
圖2 parzen 核估計(jì)概率密度曲線
圖3 支持向量機(jī)估計(jì)概率密度曲線
圖4 核非法概率密度曲線
在對(duì)極大似然法、Parzen 等傳統(tǒng)的方法進(jìn)行研究的基礎(chǔ)上,采用了一種KNR 的密度估計(jì)方法。得到了相關(guān)方法估計(jì)結(jié)果和理論估計(jì)結(jié)果的對(duì)比曲線,由結(jié)果可看出,與參數(shù)法求解概率密度相比,非參數(shù)法可以處理任意形式的概率密度,不存在模型失配問(wèn)題,但是為了得到精確的概率密度,需要得到大量的訓(xùn)練樣本;KNR 方法能夠在有限樣本的情況下得到較為精確的密度估計(jì)。
[1]Vladimir N. Vapnik 著.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000.
[2]邊肇祺,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2000.
[3]周品.MATLAB 概率與數(shù)理統(tǒng)計(jì)[M].北京:清華大學(xué)出版社,2012.
[4]Weston Jason, Gammerman Alex, Stitson Mark, et al. Advances in Kernel Methods: Support Vector Learning[M]. Cambridge, MA: MIT Press,1999.
[5]張炤,張素,章琛曦,等.基于支持向量機(jī)的概率密度估計(jì)方法[J].系統(tǒng)仿真學(xué)報(bào),2005,17(10):2355-2357.
[6]Jing Zhang, Benyong Liu, and Hao Tan, A kernel-based nonlinear representor for eigenface classification[J]. JESTC,2004,2(2):19-22.
[7]Benyong Liu and Jing Zhang. Eigenspectra versus eigenfaces: Classification with a kernel-based nonlinear representor[J]. LNCS, 3610,2005:660-663.
[8]胡業(yè)剛,劉本永.小圖像放大:算法與評(píng)價(jià)[J].貴州大學(xué)學(xué)報(bào):自然科學(xué)版,2010,27(2):78-82.
[9]劉本永.斜投影核鑒別器的增量學(xué)習(xí):理論及算法[OL].[2012-10-29],中國(guó)科技論文在線,http://www.paper.edu.cn/ releasepaper/content/201210-288.