亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于無放回抽樣的帕爾森窗口集成方法

2018-11-20 05:59:20何武超王曉蘭何玉林熊睿杰

深圳大學學報(理工版) 2018年6期

關(guān)鍵詞：方法

何武超，王曉蘭，何玉林，熊睿杰

1)滄州職業(yè)技術(shù)學院信息工程系，河北滄州 061001；2)深圳大學計算機與軟件學院，廣東深圳 518060；3)深圳大學大數(shù)據(jù)系統(tǒng)計算技術(shù)國家工程實驗室，廣東深圳 518060

帕爾森窗口(Parzen window)法[1]又稱核密度估計方法[2]，它利用多正態(tài)分布的疊加去擬合數(shù)據(jù)真實的概率分布，是一種建立在大樣本理論之上的無參數(shù)概率密度函數(shù)估計方法，也是一種真正的從數(shù)據(jù)本身出發(fā)研究數(shù)據(jù)分布特征的方法[3]．該方法在有監(jiān)督學習[4]、無監(jiān)督學習[5]、特征選擇[6]和圖像處理[7]等領(lǐng)域有廣泛應用．

用帕爾森窗口法進行概率密度函數(shù)估計的關(guān)鍵在于窗口寬度(bandwidth)參數(shù)的確定[8]，其中代表性的工作有SILVERMAN[9]的拇指原則(Silverman’s rule of thumb)、TERRELL[10]的過平滑窗口選取規(guī)則(over smoothed bandwidth selection rules)、ALEXANDRE[11]的solve-the-equation法、茹楊等[12-13]的迭代solve-the-equation法等．盡管帕爾森窗口法在實際應用中有著良好的概率密度函數(shù)估計表現(xiàn)，但仍存在顯著缺陷：① 計算復雜度較高，不適合較大規(guī)模數(shù)據(jù)集的概率密度函數(shù)估計；② 對窗口寬度參數(shù)敏感，估計表現(xiàn)嚴重依賴于窗口寬度參數(shù)的確定．為解決上述問題，本研究基于無放回抽樣的帕爾森窗口集成(sampling without replacement-based Parzen window ensemble，SR-PWE)機制，通過抽樣和集成策略提高了傳統(tǒng)帕爾森窗口法的效率和精度．

1 帕爾森窗口法

為簡便起見，本研究僅討論一維概率密度函數(shù)估計的情況．假設(shè)由隨機變量X的N個觀察值構(gòu)成的數(shù)據(jù)集D={x1,x2, …,xN}, 其中xn∈R，n=1, 2, …,N，對于大多數(shù)的實際應用而言，X的概率密度函數(shù)p(x)未知，經(jīng)典的對p(x)進行估計的方法為帕爾森窗口法，即

(1)

其中，h為窗口寬度，h>0，它是關(guān)于N的函數(shù)，取值滿足式(2)的條件

(2)

由式(1)可見，帕爾森窗口法是用N個正態(tài)分布N(xn,h)的疊加去擬合未知的概率分布．這導致當N過大時，帕爾森窗口法需耗費較多的計算時間去處理大規(guī)模數(shù)據(jù)的概率密度估計問題．同時，帕爾森窗口法的估計表現(xiàn)嚴重依賴窗口寬度h的選取[8]：較小的h常導致較為粗糙的擬合，而較大的h又易導致較為平滑的擬合．對于h的選取尚無統(tǒng)一準則，至今仍是學界關(guān)注的難點和熱點．

2 無放回抽樣

(3)

(4)

由式(4)可見，P1=P2．

3 SR-PWE方法

SR-PWE方法的實現(xiàn)過程為：

1) 對數(shù)據(jù)集D進行Q次無放回抽樣，得到Q個D對應的抽樣數(shù)據(jù)集

(5)

2)采用帕爾森窗口法估計抽樣數(shù)據(jù)集的基概率密度函數(shù)

(6)

其中，窗口寬度為

(7)

3)采用求和平均的方式對基概率密度函數(shù)進行集成，從而估計數(shù)據(jù)集D的概率密度函數(shù)為

(8)

4 實驗驗證

為驗證SR-PWE方法的可行性和有效性，比較并分析在柯西分布和正態(tài)分布上對比帕爾森窗口法和SR-PWE方法的概率密度函數(shù)估計表現(xiàn)．

4.1 實驗數(shù)據(jù)和設(shè)置

表1給出了兩種經(jīng)典概率分布的詳細信息．本研究采用如式(9)[18]的Matlab命令生成服從柯西分布(Cauchyrnd)和正態(tài)分布(normrnd)的隨機數(shù)．

(9)

對于概率密度函數(shù)估計方法性能的評價，本研究采用如式(10)的均方根誤差(root mean square error，RMSE)度量標準．

(10)

其中，p(xn)和p′(xn)分別表示數(shù)據(jù)xn對應的真實和估計概率密度值，n=1, 2, …,N．

表1 兩種概率分布Table 1 Two probability distributions

4.2 實驗結(jié)果與分析

為了驗證子集個數(shù)Q和子集規(guī)模M對SR-PWE方法估計表現(xiàn)的影響，本研究分別對其在柯西分布和正態(tài)分布上的RMSE值進行了分析，并進一步與使用帕爾森窗口法的估計表現(xiàn)進行對比．該估計表現(xiàn)由其RMSE值體現(xiàn)，令Q={10, 20, …, 200}和M={25, 50, 75, 200}，分別測試對于給定的Q， SR-PWE的估計表現(xiàn)隨M的變化情況，以及對于給定的M， SR-PWE的估計表現(xiàn)隨Q的變化情況．對于每種分布生成2×104個隨機樣本(結(jié)果從100次獨立實驗中隨機選取的．實驗源代碼請掃描論文末頁右下角二維碼)．圖1展示了在柯西和正態(tài)兩種概率分布上參數(shù)Q和M對SR-PWE概率密度函數(shù)估計表現(xiàn)的影響情況．

從圖1可見，對于給定的子集規(guī)模M，隨著子集個數(shù)的增加，SR-PWE在兩種概率分布上對應的RMSE值均逐漸減少，直到趨于收斂．同時，對于給定的子集個數(shù)，隨著子集規(guī)模M的增加，SR-PWE對應的估計誤差也是逐漸減小的．這表明我們設(shè)計的基于無放回抽樣的帕爾森窗口集成方法是可行的．同時在圖1中還可發(fā)現(xiàn)，SR-PWE的估計效果顯著優(yōu)于帕爾森窗口法在全部數(shù)據(jù)上的概率密度函數(shù)估計．表2給出了帕爾森窗口和SR-PWE在兩種分布上具體的估計效果對比，通過總結(jié)SR-PWE的8個(Q,M)參數(shù)對對應的RMSE值，從中發(fā)現(xiàn)SR-PWE每個參數(shù)對對應的RMSE值均低于帕爾森窗口，證實了SR-PWE方法的有效性．

圖1 兩種概率分布上參數(shù)Q和M對SR-PWE估計表現(xiàn)的影響Fig.1 (Color online) The impacts of Q and M on the estimation performance of SR-PWE based on Caudy and normal probability distributions

表2 SR-PWE的估計表現(xiàn)1)Table 2 The estimation performance of SR-PWE

1)·表示均方根誤差小于帕爾森窗口法

結(jié) 語

針對傳統(tǒng)帕爾森窗口法計算復雜度高、對窗口寬度參數(shù)敏感的缺陷，本研究設(shè)計了一種基于無放回抽樣的帕爾森窗口集成方法，該方法具備處理大規(guī)模數(shù)據(jù)集概率密度函數(shù)的能力，通過將大數(shù)據(jù)集切分成與大數(shù)據(jù)集保持概率分布一致性的數(shù)據(jù)子集，可將數(shù)據(jù)子集上估計的基概率密度函數(shù)集成得到原始數(shù)據(jù)集的概率密度函數(shù)．實驗結(jié)果表明，該方法的概率密度函數(shù)估計效果顯著優(yōu)于經(jīng)典的帕爾森窗口法，證實該方法可行且有效．