摘要:文章在隨機(jī)截尾模型基礎(chǔ)上建立了一種隨機(jī)截尾的Simmons模型,討論了有限總體下敏感性問(wèn)題的抽樣調(diào)查方法,以及利用這種方法所得出的估計(jì)量,并給出了無(wú)偏與方差估計(jì)量公式。還提出了一種模糊均值算法,更加有效地對(duì)訓(xùn)練樣本進(jìn)行比較準(zhǔn)確模糊分類。
關(guān)鍵詞:Simmons模型;抽樣調(diào)查;估計(jì);模糊均值算法
一、隨機(jī)截尾的Simmons模型
(一)背景與目的
被測(cè)試者對(duì)于樣本特征有著較大的敏感性,為使之更好地配合如實(shí)提供特征信息,可以建立一種隨機(jī)截尾的Simmons模型,即在隨機(jī)截尾模型基礎(chǔ)上增加一個(gè)裝置產(chǎn)生服從均勻分布的隨機(jī)變量。正是這一裝置“濾去”了被測(cè)試者的敏感性,從而可以準(zhǔn)確地估計(jì)出特征向量(體重,腰圍)的估計(jì)平均值。
(二)假設(shè)與約定
第一,x=(x1,x2)T為樣本體重與腰圍特征向量。x1=(x11,x21,…,xn1),Xi1為第i個(gè)女生ai體重?cái)?shù)據(jù);x2=(x12,x22,…,xn2)T,Xi2為第i個(gè)女生ai腰圍數(shù)據(jù);X(i)=(xi1,xi2)T為ai的兩特征向量,(i=1,2,…n)。
第二,假設(shè)xi1∈[42,63] [c1,c1+t1](千克),xi2∈[16,27] [c2,c2+t2](市寸),(i=1,2,…n)。
第三,假設(shè)樣本x(1 ),x(2),…,X(n)相互獨(dú)立同分布,f(x)=f(x1,x2)為x=(x1,x2)的概率密度,f1(x),f2(x)為相應(yīng)邊際密度,μ=(μ1,μ2)為x=(x1,x2)的數(shù)學(xué)期望。
第四,在測(cè)試實(shí)驗(yàn)中的兩次抽卡所顯示的數(shù)字Y,Z分別為服從[c1,c1+t1],[c2,c2+t2]上的均勻分布。
第五,已知樣本容量n=20。
(三)實(shí)驗(yàn)步驟
第一,取3個(gè)空盒。
1號(hào)盒子放入紅、白、黑、綠4種色小球,放入比例為1:1: (0<p<1);2號(hào)放入22張卡片,卡片上標(biāo)有重?cái)?shù)據(jù)42、43、…、63;3號(hào)放入12張卡片標(biāo)上腰圍數(shù)據(jù)16、17、…、27。將3個(gè)盒子分別搖勻。
第二,每位被測(cè)試者有放回地先從1號(hào)盒摸取一小球,并作答:
取到紅、白、黑球分別作答1、0、,取到綠球則轉(zhuǎn)到下一步。
第三,取到綠球者接著一次性從2號(hào)盒抽取兩張卡片再放回?fù)u勻,將該兩張卡片上的數(shù)字Yi1、Zi1與自身的特征數(shù)據(jù)Xi1作比較,并作答:
若Xi1>max{Yi1,Zi1},作答1;若min{Yi1,Zi1}≤Xi1≤max{Yi1,Zi1};作答0;若Xi1<min{Yi1,Zi1},作答-1。作答完畢最后從3號(hào)盒一次性抽取兩張卡片再放回?fù)u勻,將該兩張卡片上的數(shù)字Yi2、Zi2與自身的特征數(shù)據(jù)Xi2做比較,并做類似回答。
第四,記被測(cè)試者從1號(hào)盒子摸取小球、從2號(hào)盒子抽取卡片、從3號(hào)盒子抽取卡片時(shí)的作答值分別為βi,αi1,αi2。
對(duì)X1,X2均沿用數(shù)據(jù)βi,則最后得到的數(shù)據(jù)記為γi1,γi2,(i=1,2,…n)。
(四)模型的建立與分析
由上面實(shí)驗(yàn)結(jié)果有:
aij=1,xij>max{Yij,Zij}0,min{Yij,Zij}≤Xij≤max{Yi1,Zi1}-1,Xij<min{Yij,Zij}
βi=1,紅球0,白球-1,黑球,(i=1,2,…n;j=1,2)
分別求解μ1,μ2的無(wú)偏估計(jì)與方差估計(jì)之表達(dá)式:
第一,μj的無(wú)偏估計(jì)表達(dá)式:(j=1,2):
本均值為:
γj=γij①
μj的無(wú)偏估計(jì):
j=cj+ ②
第二,通過(guò)γij的方差求得μj的方差估計(jì)表達(dá)式(j=1,2):
估計(jì)量μj的方差:Var(μj)= + 于是μj的方差估計(jì)為:
Var( j)= + ③
(五)數(shù)據(jù)統(tǒng)計(jì)與結(jié)果
從上面可以看出,Var( j)關(guān)于p單調(diào)遞增,綜合考慮取p=0.4,則在1號(hào)盒子中放入30個(gè)小球:白球4,紅球4,黑球4,綠球18。
通過(guò)測(cè)試實(shí)驗(yàn)得到以下樣本數(shù)據(jù)(見(jiàn)表1):
βi所在列為空白說(shuō)明取球者αi摸取的球?yàn)榫G色。
根據(jù)表1的數(shù)據(jù)及①、②、③式可求得所要考察的兩特征估計(jì)值。
樣本均值:γ1= ,γ2=0
無(wú)偏估計(jì): 1=54.83 2=22.00
方差估計(jì):Var( 1)=13.54,Var( 2)=4.50
二、基于一種模糊均值算法的識(shí)別分類
所要識(shí)別的為參加測(cè)試男生“偏胖”、“中等”與“偏瘦”。算法給出了各男生所屬類別的模糊矩陣,在此基礎(chǔ)上構(gòu)造出模糊集并進(jìn)行了知識(shí)推理。
記號(hào):第一,X={x1,x2,…,xn},xk為第k名男生ak體重,k=1,2,…,n;第二,論域A={[z1,z2),[z2,z3),[z3,z4],(z4,z5]}為體重區(qū)間集合z1=48,z2=53,z3=58,z4=63,z5=69;第三,識(shí)別類集合Ω={C1,C2,…,Cm},m為識(shí)別的模式類個(gè)數(shù);第四,類中心集合W={y1,y2,…,ym},yi為Ci類中心,i=1,2,…,m;第五,模糊矩陣,U=[uij]m×n第i行j列元素uij為aj屬于類Ci的隸屬度;第六,m=3,n=20,分別表示模糊集偏胖、中等與偏瘦?,F(xiàn)有測(cè)得樣本數(shù)據(jù)(見(jiàn)表2):
(一)模糊均值算法
1、算法依據(jù)
構(gòu)造加權(quán)指數(shù)函數(shù):L(U,W)=(uik)t|xk-yi|2,使得L(U,W)取最小。應(yīng)用Lagrange乘子法可得:
定理:L(U,W)局部取最小的充要條件(對(duì)所有的1≤l≤m,1≤k≤n,xk≠yl):
uij=
yi=
2、算法步驟
第一,對(duì)數(shù)據(jù)集X={x1,x2,…,xn},任意給定初始模糊矩陣U(0 )=[uij(0 )]m×n;第二,計(jì)算均值yi(s )= ,s為疊代次數(shù)(1≤i≤m,s=0,1,2,…);第三,U(s )=[uij(s )]m×n替代為U(s+1 )=[uij(s+1 )]m×nuij(s+1 )= ;第四,任意給定正數(shù)ε(0<ε<0.5),若||U (s+1)-U (s) ||{uij(s+1 )-uij(s )}<ε則停止算法,否則令s=s+1返回至第二步驟。
3、算法實(shí)現(xiàn)與分析
第一,算法實(shí)現(xiàn)。
對(duì)表2中的數(shù)據(jù),事先任意給定初始矩陣:U (0 )=[uij(0)]m×n
U (0)=
取t=2,ε=0.4,算法終止于s=1,有U (1 )-U (0 )=0.38<ε且最終矩陣為:U (1 )=[uij (1 )]m×n為:
U (1)=
第二,結(jié)果分析。
比較U (0 )與U (1 )中各元素(隸屬度),第14、16、20列變化較顯著(見(jiàn)表3):
uij(s )為aj屬于類Ci的隸屬度(s=0,1;1≤m≤3;1≤j≤20)。
從表3可看出:a16與a20在事先基本上將之分類于c3(偏瘦)或者c2(中等),算法實(shí)現(xiàn)后a16與a20明顯識(shí)別為c3(偏瘦);對(duì)于a14則識(shí)別結(jié)果不同,由原來(lái)屬于類c2變成現(xiàn)在的c3類。
由表2中可知,a16、a20、a14所對(duì)應(yīng)的x16、x20、x14分別為48.8、48.8、53.8都小于均值58.22(千克),三者應(yīng)該分類為c3(偏瘦),識(shí)別結(jié)果是恰當(dāng)?shù)摹?/p>
如果將ε=(0.4)取到更小,則經(jīng)過(guò)這一模糊均值算法,其結(jié)果更為準(zhǔn)確。
參考文獻(xiàn):
1、徐春梅,呂恕.改進(jìn)的隨機(jī)截尾模型[J].統(tǒng)計(jì)與信息論壇,2006(2).
2、趙曄,檀亦麗,萬(wàn)星火.沃納模型在大學(xué)生敏感性問(wèn)題調(diào)查中的應(yīng)用[J].石家莊鐵道學(xué)院學(xué)報(bào),2005(4).
3、陳根龍.隨機(jī)化回答技術(shù)在敏感性問(wèn)題調(diào)查中的一種新應(yīng)用[J].統(tǒng)計(jì)與決策,2007(3).
4、諸克軍,蘇順華,黎金玲.模糊C-均值中的最優(yōu)聚類與最佳聚類數(shù)[J].系統(tǒng)工程理論與實(shí)踐,2005(3).
5、王元珍,王健,李晨陽(yáng).一種改進(jìn)的模糊聚類算法[J].華中科技大學(xué)學(xué)報(bào),2005(2).
6、劉蕊潔,張金波,劉銳.模糊c均值聚類算法[J].重慶工學(xué)院學(xué)報(bào),2008(2).
(作者單位:余喜生,西南財(cái)經(jīng)大學(xué)數(shù)學(xué)學(xué)院;余炳紅,江西省鄱陽(yáng)縣四十里街第二中學(xué))
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。”