何武超,王曉蘭,何玉林,熊睿杰
1)滄州職業(yè)技術(shù)學(xué)院信息工程系,河北滄州 061001;2)深圳大學(xué)計算機與軟件學(xué)院,廣東深圳 518060;3)深圳大學(xué)大數(shù)據(jù)系統(tǒng)計算技術(shù)國家工程實驗室,廣東深圳 518060
帕爾森窗口(Parzen window)法[1]又稱核密度估計方法[2],它利用多正態(tài)分布的疊加去擬合數(shù)據(jù)真實的概率分布,是一種建立在大樣本理論之上的無參數(shù)概率密度函數(shù)估計方法,也是一種真正的從數(shù)據(jù)本身出發(fā)研究數(shù)據(jù)分布特征的方法[3].該方法在有監(jiān)督學(xué)習[4]、無監(jiān)督學(xué)習[5]、特征選擇[6]和圖像處理[7]等領(lǐng)域有廣泛應(yīng)用.
用帕爾森窗口法進行概率密度函數(shù)估計的關(guān)鍵在于窗口寬度(bandwidth)參數(shù)的確定[8],其中代表性的工作有SILVERMAN[9]的拇指原則(Silverman’s rule of thumb)、TERRELL[10]的過平滑窗口選取規(guī)則(over smoothed bandwidth selection rules)、ALEXANDRE[11]的solve-the-equation法、茹楊等[12-13]的迭代solve-the-equation法等.盡管帕爾森窗口法在實際應(yīng)用中有著良好的概率密度函數(shù)估計表現(xiàn),但仍存在顯著缺陷:① 計算復(fù)雜度較高,不適合較大規(guī)模數(shù)據(jù)集的概率密度函數(shù)估計;② 對窗口寬度參數(shù)敏感,估計表現(xiàn)嚴重依賴于窗口寬度參數(shù)的確定.為解決上述問題,本研究基于無放回抽樣的帕爾森窗口集成(sampling without replacement-based Parzen window ensemble,SR-PWE)機制,通過抽樣和集成策略提高了傳統(tǒng)帕爾森窗口法的效率和精度.
為簡便起見,本研究僅討論一維概率密度函數(shù)估計的情況.假設(shè)由隨機變量X的N個觀察值構(gòu)成的數(shù)據(jù)集D={x1,x2, …,xN}, 其中xn∈R,n=1, 2, …,N, 對于大多數(shù)的實際應(yīng)用而言,X的概率密度函數(shù)p(x)未知,經(jīng)典的對p(x)進行估計的方法為帕爾森窗口法,即
(1)
其中,h為窗口寬度,h>0, 它是關(guān)于N的函數(shù),取值滿足式(2)的條件
(2)
由式(1)可見,帕爾森窗口法是用N個正態(tài)分布N(xn,h)的疊加去擬合未知的概率分布.這導(dǎo)致當N過大時,帕爾森窗口法需耗費較多的計算時間去處理大規(guī)模數(shù)據(jù)的概率密度估計問題.同時,帕爾森窗口法的估計表現(xiàn)嚴重依賴窗口寬度h的選取[8]:較小的h常導(dǎo)致較為粗糙的擬合,而較大的h又易導(dǎo)致較為平滑的擬合.對于h的選取尚無統(tǒng)一準則,至今仍是學(xué)界關(guān)注的難點和熱點.
(3)
(4)
由式(4)可見,P1=P2.
SR-PWE方法的實現(xiàn)過程為:
1) 對數(shù)據(jù)集D進行Q次無放回抽樣,得到Q個D對應(yīng)的抽樣數(shù)據(jù)集
(5)
2)采用帕爾森窗口法估計抽樣數(shù)據(jù)集的基概率密度函數(shù)
(6)
其中,窗口寬度為
(7)
3)采用求和平均的方式對基概率密度函數(shù)進行集成,從而估計數(shù)據(jù)集D的概率密度函數(shù)為
(8)
為驗證SR-PWE方法的可行性和有效性,比較并分析在柯西分布和正態(tài)分布上對比帕爾森窗口法和SR-PWE方法的概率密度函數(shù)估計表現(xiàn).
表1給出了兩種經(jīng)典概率分布的詳細信息.本研究采用如式(9)[18]的Matlab命令生成服從柯西分布(Cauchyrnd)和正態(tài)分布(normrnd)的隨機數(shù).
(9)
對于概率密度函數(shù)估計方法性能的評價,本研究采用如式(10)的均方根誤差(root mean square error,RMSE)度量標準.
(10)
其中,p(xn)和p′(xn)分別表示數(shù)據(jù)xn對應(yīng)的真實和估計概率密度值,n=1, 2, …,N.
表1 兩種概率分布Table 1 Two probability distributions
為了驗證子集個數(shù)Q和子集規(guī)模M對SR-PWE方法估計表現(xiàn)的影響,本研究分別對其在柯西分布和正態(tài)分布上的RMSE值進行了分析,并進一步與使用帕爾森窗口法的估計表現(xiàn)進行對比.該估計表現(xiàn)由其RMSE值體現(xiàn),令Q={10, 20, …, 200}和M={25, 50, 75, 200}, 分別測試對于給定的Q, SR-PWE的估計表現(xiàn)隨M的變化情況,以及對于給定的M, SR-PWE的估計表現(xiàn)隨Q的變化情況.對于每種分布生成2×104個隨機樣本(結(jié)果從100次獨立實驗中隨機選取的.實驗源代碼請掃描論文末頁右下角二維碼).圖1展示了在柯西和正態(tài)兩種概率分布上參數(shù)Q和M對SR-PWE概率密度函數(shù)估計表現(xiàn)的影響情況.
從圖1可見,對于給定的子集規(guī)模M, 隨著子集個數(shù)的增加,SR-PWE在兩種概率分布上對應(yīng)的RMSE值均逐漸減少,直到趨于收斂.同時,對于給定的子集個數(shù),隨著子集規(guī)模M的增加,SR-PWE對應(yīng)的估計誤差也是逐漸減小的.這表明我們設(shè)計的基于無放回抽樣的帕爾森窗口集成方法是可行的.同時在圖1中還可發(fā)現(xiàn),SR-PWE的估計效果顯著優(yōu)于帕爾森窗口法在全部數(shù)據(jù)上的概率密度函數(shù)估計.表2給出了帕爾森窗口和SR-PWE在兩種分布上具體的估計效果對比,通過總結(jié)SR-PWE的8個(Q,M)參數(shù)對對應(yīng)的RMSE值,從中發(fā)現(xiàn)SR-PWE每個參數(shù)對對應(yīng)的RMSE值均低于帕爾森窗口,證實了SR-PWE方法的有效性.
圖1 兩種概率分布上參數(shù)Q和M對SR-PWE估計表現(xiàn)的影響Fig.1 (Color online) The impacts of Q and M on the estimation performance of SR-PWE based on Caudy and normal probability distributions
表2 SR-PWE的估計表現(xiàn)1)Table 2 The estimation performance of SR-PWE
1)·表示均方根誤差小于帕爾森窗口法
針對傳統(tǒng)帕爾森窗口法計算復(fù)雜度高、對窗口寬度參數(shù)敏感的缺陷,本研究設(shè)計了一種基于無放回抽樣的帕爾森窗口集成方法,該方法具備處理大規(guī)模數(shù)據(jù)集概率密度函數(shù)的能力,通過將大數(shù)據(jù)集切分成與大數(shù)據(jù)集保持概率分布一致性的數(shù)據(jù)子集,可將數(shù)據(jù)子集上估計的基概率密度函數(shù)集成得到原始數(shù)據(jù)集的概率密度函數(shù).實驗結(jié)果表明,該方法的概率密度函數(shù)估計效果顯著優(yōu)于經(jīng)典的帕爾森窗口法,證實該方法可行且有效.