文小波
摘? 要:該文首先依托樣本與中位數(shù)構(gòu)造了中心差,研究了中心差、中心差絕對(duì)值、中心差平方和的相關(guān)性質(zhì),并予以了論證。然后將非參數(shù)假設(shè)檢驗(yàn)的一些思想引入切尾均值的計(jì)算中,利用中心差絕對(duì)值排秩法來(lái)切除數(shù)據(jù),利用剩下的數(shù)據(jù)來(lái)計(jì)算切尾均值。最后引入了聚類(lèi)分析的方法來(lái)計(jì)算切尾均值。對(duì)于中心差絕對(duì)值排秩法和聚類(lèi)分析法舉例計(jì)算了某班成績(jī)的切尾均值。
關(guān)鍵詞:中心差? 排秩法? 聚類(lèi)分析? 切尾均值
中圖分類(lèi)號(hào):O211.1 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)12(a)-0216-03
在切尾均值的計(jì)算時(shí),當(dāng)數(shù)據(jù)為對(duì)稱(chēng)數(shù)據(jù)時(shí),一般采用等尾切尾就可以達(dá)到較好的效果,此時(shí)的切尾均值就能較好地體現(xiàn)數(shù)據(jù)的平均情況。但當(dāng)數(shù)據(jù)為非對(duì)稱(chēng)數(shù)據(jù)時(shí),如此時(shí)依然采用等尾切尾就可能會(huì)造成一些較大的誤差。此時(shí)對(duì)數(shù)據(jù)一般采用非等尾切尾,在確定切尾率不變的情況下,兩邊分別取截尾率為和,利用剩下的數(shù)據(jù)來(lái)計(jì)算切尾均值。此時(shí)和的比例的確定方法不唯一,常用圖像觀察法來(lái)確定兩端切尾的比例。圖像法雖然直觀,但有時(shí)不夠嚴(yán)謹(jǐn)??傮w來(lái)說(shuō),切尾率的確定以及切尾方式的確立都是一個(gè)較為困難的問(wèn)題。該文提出中心差絕對(duì)值排秩法和聚類(lèi)分析法來(lái)研究切尾均值,在一定程度上簡(jiǎn)化問(wèn)題的思考與計(jì)算。
1? 中心差及其結(jié)論
定義1? 從某總體中抽取樣本,將所得樣本按照從小到大排列為有序樣本,找出中位數(shù)m0.5,稱(chēng)為中心差。
當(dāng)n為奇數(shù)時(shí),,當(dāng)n為偶數(shù)時(shí),,中位數(shù)具有穩(wěn)健性,可以代表數(shù)據(jù)的中心。利用樣本和中位數(shù)計(jì)算中心差,這樣算的中心差會(huì)出現(xiàn)正負(fù)抵消的情況,所以一般在研究距離的時(shí)候算的都是正值,即,但由于絕對(duì)值利用的復(fù)雜性,經(jīng)常考慮使用。關(guān)于中心差、中心差絕對(duì)值、中心差平方有如下的一些結(jié)論。
定理1? 中心差,則有。
證明
特別的,當(dāng)時(shí),。
定理2? 中心差絕對(duì)值,則有:
即,在形如的函數(shù)中,是取值最小
的,其中c為任意給定的常數(shù)。
證明 當(dāng)n為奇數(shù)時(shí),,當(dāng)n為偶數(shù)時(shí),,
不妨設(shè)此時(shí)n為奇數(shù)時(shí),則有,進(jìn)一步設(shè),其中,則存在這樣的j,使得j+1≤k,且。
由于,則有n=2k-1,則有j-(n-k)=j-k+2,
又由于,所以
[j-(n-k)](c-m0.5)=[k-j-l](m0.5-c)=(k-j)(m0.5-c)+(c-m0.5)
從而
得證此時(shí)是同類(lèi)型函數(shù)中取值最小的。
同理可證明? 當(dāng)n為奇數(shù)時(shí),時(shí)亦有此結(jié)論。
同理可證明? 當(dāng)n為偶數(shù)時(shí),也是同類(lèi)型函數(shù)中取值最小的。
定理3? 中心差平方,則有:
證明,,
特別的,當(dāng)時(shí),,由于樣本S2是同類(lèi)型函數(shù)中取值最小的,所以有在形如的函數(shù)中,是取值最小的,其中α為任意給定的常數(shù)。
2? 利用中心差排秩
引入非參數(shù)假設(shè)檢驗(yàn)的一些方法來(lái)思考切尾均值問(wèn)題,m0.5為中位數(shù),中心差出現(xiàn)的正負(fù)號(hào)幾乎是一樣多的,所以利用符號(hào)檢驗(yàn)的思想,只關(guān)注正負(fù)號(hào)的個(gè)數(shù)是很難起到效果的,可以利用符號(hào)秩和的思想來(lái)思考。雖然中心差出現(xiàn)的正負(fù)號(hào)幾乎一樣多,但是正負(fù)中心差的絕對(duì)值大小不一樣,分別計(jì)算其正秩和和負(fù)秩和,一般來(lái)說(shuō)數(shù)據(jù)較為均衡的時(shí)候,其正負(fù)秩和應(yīng)該大小一致,總秩和越接近零,兩端相對(duì)均衡,當(dāng)秩和離零較遠(yuǎn),說(shuō)明中位數(shù)兩端部分不均勻。當(dāng)然由于從非參數(shù)方法中引入的符號(hào)秩和的結(jié)論有時(shí)精度不是特別高,故還是進(jìn)一步尋求排秩法來(lái)研究切尾均值。
在考慮切尾的時(shí)候,可以對(duì)中心差絕對(duì)值排秩,秩次越小說(shuō)明μi越接近零,數(shù)據(jù)離中位數(shù)越近。對(duì)于相同秩次,即結(jié)的問(wèn)題,可以借鑒一般非參數(shù)假設(shè)檢驗(yàn)的處理方式,為了計(jì)算的需要該文中采用平均秩次的表示方式,即兩個(gè)并列第一的話(huà),按照1.5名來(lái)計(jì)算其秩次,這樣保證了其秩和為3。將排秩后的數(shù)據(jù)按照切尾比例(一般為10%)切除數(shù)據(jù)。這樣思考的優(yōu)勢(shì)是不用考慮兩邊分別的切尾率,只需算一個(gè)總體的切尾率,將較大部分的|μi|按照切尾率切除即可。完全由數(shù)值大小來(lái)決定切除的數(shù)據(jù)。將離中位數(shù)較遠(yuǎn)部分的數(shù)值切除,可能是單側(cè)切尾,也可能是雙側(cè)切尾,可能是等尾切尾,也可能是非等尾切尾,完全由數(shù)據(jù)與切尾率來(lái)決定切除的數(shù)值,簡(jiǎn)化了運(yùn)算與思考。通過(guò)下面例題來(lái)使用中心差絕對(duì)值排秩法來(lái)求解切尾均值。
例1? 某班有51個(gè)同學(xué),獲得其某次考試成績(jī)?nèi)缦滤?,利用中心差排秩法,切尾率?0.1,來(lái)計(jì)算其切尾均值。
69? 69? 73? 61? 55? 76? 59? 40? 66? 48? 42? 56? 54? 68? 70? 55? 67? 71? 42? 67? 78? 83? 67? 67? 49? 79? 68? 66? 62? 71? 60? 66? 48? 62? 78? 75? 62? 76? 82? 70? 61? 65? 60? 72? 65? 65? 70? 65? 81? 85? 80
解? 將數(shù)據(jù)錄入SPSS軟件之中,通過(guò)個(gè)案排秩,將數(shù)據(jù)排序,并找出中位數(shù)=67,通過(guò)計(jì)算變量選項(xiàng)計(jì)算,得出中心差μi,然后計(jì)算中心差絕對(duì)值|μi|,然后將中心差絕對(duì)值|μi|進(jìn)行個(gè)案排秩,按照預(yù)先給定的切尾率α=0.1,切除|μi|較大的10個(gè)數(shù)據(jù),其較小部分切除的是4個(gè)數(shù),較大數(shù)字部分切除的是6個(gè)數(shù),由數(shù)據(jù)本身的特點(diǎn)決定了其非等尾切尾的情況,利用剩下的41個(gè)數(shù)據(jù)來(lái)計(jì)算切尾均值。數(shù)據(jù)較多,在此不一一呈現(xiàn)其具體軟件操作步驟了。給出其最終結(jié)果=66.9756。
利用中心差絕對(duì)值排秩法可以在一定程度上簡(jiǎn)化切尾均值的計(jì)算,可以推廣到其他需要運(yùn)算切尾均值的地方。
3? 利用聚類(lèi)分析計(jì)算切尾均值
聚類(lèi)分析是一種常用的多元統(tǒng)計(jì)分析方法,主要用于處理高維數(shù)據(jù)。該文將聚類(lèi)分析的思想和方法引入切尾均值之中,而一般情況下切尾均值所研究的數(shù)據(jù)多為一維數(shù)據(jù)。K-均值聚類(lèi)法是一種可以將樣本指定聚為幾類(lèi)的一種快速聚類(lèi)方法,將樣本聚為3類(lèi),選取其中最具代表性的第二類(lèi)(中間類(lèi))來(lái)計(jì)算其切除數(shù)據(jù)后剩下樣本的均值。通過(guò)如下例題來(lái)加以分析。
例2? 依然采用例1中的51個(gè)同學(xué)的英語(yǔ)成績(jī)的數(shù)據(jù),利用聚類(lèi)分析法來(lái)計(jì)算其切尾均值。
解? 將數(shù)據(jù)錄入SPSS軟件之中,通過(guò)K-均值快速聚類(lèi)分析,將樣本分為3類(lèi),在此給出其最終的聚類(lèi)中心和聚類(lèi)案例數(shù)。
通過(guò)分析操作得出中間類(lèi)別的案例數(shù)為26個(gè),利用其算得切尾均值=63.5769,與中間類(lèi)的聚類(lèi)中心較為一致。當(dāng)然此算法中樣本切尾率將近50%了,切除較多,可能會(huì)影響到數(shù)據(jù)真實(shí)的結(jié)論。
當(dāng)然也可以利用系統(tǒng)聚類(lèi)法,將數(shù)據(jù)聚類(lèi),利用其聚類(lèi)圖或者冰柱圖,來(lái)分析其數(shù)據(jù)聚集形式,切除離群較遠(yuǎn)的類(lèi)別或者數(shù)據(jù),利用剩下的數(shù)據(jù)來(lái)計(jì)算切尾均值。
利用聚類(lèi)分析來(lái)研究切尾均值,由數(shù)據(jù)本身來(lái)決定切尾部分,可能會(huì)使得切除部分過(guò)大,一般難以按照預(yù)先的切尾率來(lái)切除數(shù)據(jù)。如在指定切尾率的情況下,可以指定m0.5以為聚類(lèi)中心,將離聚類(lèi)中心較近的保留水平下的數(shù)據(jù)聚為一類(lèi),其余的數(shù)字為其他部分,類(lèi)似于高等數(shù)學(xué)中的一維數(shù)軸上的鄰域的思想??梢杂梅侄魏瘮?shù)的調(diào)用完成數(shù)據(jù)的篩選,最后利用保留的數(shù)字來(lái)計(jì)算切尾均值。在此不予贅述。
4? 結(jié)語(yǔ)
通過(guò)中心差的計(jì)算,利用個(gè)案排秩來(lái)計(jì)算切尾均值,是把假設(shè)檢驗(yàn)的思想引入了切尾均值的計(jì)算之中,利用聚類(lèi)分析來(lái)計(jì)算切尾均值是引入了多元統(tǒng)計(jì)分析方法的聚類(lèi)分析思想。同樣,可以思考將其他的一些分析方法與切尾均值的計(jì)算相結(jié)合,相信亦可得到較好的結(jié)論。將該文所研究的方法推廣到更廣范圍的切尾均值的計(jì)算,亦會(huì)有良好的結(jié)果,在實(shí)際運(yùn)用中要注意傳統(tǒng)切尾均值的計(jì)算方法與新方法的對(duì)比,挑選出合適的切尾均值計(jì)算方法。
參考文獻(xiàn)
[1] 茆詩(shī)松,程依明,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2006.
[2] 杜強(qiáng),賈麗艷,嚴(yán)先鋒.SPSS統(tǒng)計(jì)分析從入門(mén)到精通[M].北京:人民郵電出版社,2014.
[3] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].4版.北京:高等教育出版社,2010.
[4] 茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,2011.
[5] 胡曉華.解析顯著性水平及應(yīng)用[J].統(tǒng)計(jì)與決策,2017(13):88-91.
[6] 羅葵,馬學(xué)敏,馬志偉,等.隨機(jī)切尾均值及其自舉的統(tǒng)計(jì)分析[J].數(shù)學(xué)雜志,2015(2):237-251.