程曦
在統(tǒng)計(jì)研究中的各類(lèi)問(wèn)卷調(diào)查中,多項(xiàng)選擇題的應(yīng)用十分普遍。多項(xiàng)選擇題有較多備選項(xiàng),可以同時(shí)選擇多個(gè)選項(xiàng),其復(fù)雜度也強(qiáng)于一般分類(lèi)數(shù)據(jù)。因此,本文運(yùn)用本學(xué)期所學(xué)的非參數(shù)統(tǒng)計(jì)檢驗(yàn)知識(shí),針對(duì)各選項(xiàng)的顯著性,嘗試運(yùn)用多種方法對(duì)該類(lèi)數(shù)據(jù)進(jìn)行檢驗(yàn)與分析,也對(duì)各類(lèi)方法的效果進(jìn)行分析和比較。
在記錄多選題調(diào)查結(jié)果時(shí),為了便于定量分析,采用多重二分法(Multiple Dichotomy Method)的編碼方法,即將多項(xiàng)選擇題的每一個(gè)選項(xiàng)視為一個(gè)“處理”,每一份問(wèn)卷看作一個(gè)“區(qū)組”,并用“0”表示沒(méi)有被選中、“1”表示被選中。這樣,多項(xiàng)選擇題的數(shù)據(jù)可以表示為二元完全區(qū)組數(shù)據(jù)。
一、問(wèn)題的提出
本文的例證數(shù)據(jù)采用以下多選題的調(diào)查數(shù)據(jù):請(qǐng)問(wèn)您日常飲用下列哪種水?(多選)A 自來(lái)水,B井水,C 家用凈水器處理后的水,D 桶裝水或瓶裝水。
選取調(diào)查結(jié)果中的25份問(wèn)卷,其調(diào)查結(jié)果以多重二分法編碼如下:
二、關(guān)于隨機(jī)性的游程檢驗(yàn)
(一)模型建立
游程檢驗(yàn)是用于檢驗(yàn)取值“1”概率為p的Bernoulli試驗(yàn)中的“1”和“0”是否隨機(jī)出現(xiàn)的方法。其原理是,將連在一起的“0”或“1”作為一個(gè)游程,當(dāng)已知出現(xiàn)了多少個(gè)“1”和“0”時(shí),游程個(gè)數(shù)R服從固定的分布。
其假設(shè)為:H0:有隨機(jī)性;H1:無(wú)隨機(jī)性(有聚類(lèi)傾向)
統(tǒng)計(jì)量及其分布為:R=游程數(shù)~Y(m ,n)
其中m為“0”的個(gè)數(shù),n為“1”的個(gè)數(shù),Y代表游程分布。
其具體計(jì)算是通過(guò)累加概率求得P值:
(二)模型求解
編寫(xiě)R程序?qū)崿F(xiàn)這一檢驗(yàn)方法,得到4個(gè)選項(xiàng)檢驗(yàn)的p值分別為:(α=0.05)
可見(jiàn),均不能拒絕原假設(shè),即認(rèn)為源數(shù)據(jù)的隨機(jī)性良好,符合問(wèn)卷調(diào)查的隨機(jī)抽樣原則。也就是說(shuō),這部分問(wèn)卷在填寫(xiě)時(shí)并沒(méi)有出現(xiàn)較為嚴(yán)重的相互抄襲或人為編造等影響問(wèn)卷質(zhì)量的現(xiàn)象,因此,該數(shù)據(jù)適合進(jìn)行進(jìn)一步分析。
三、關(guān)于單對(duì)選項(xiàng)差異的McNemar檢驗(yàn)
(一)模型建立
McNemar檢驗(yàn)是用于檢驗(yàn)配對(duì)二元取值數(shù)據(jù)中取“1”的比例是否相等的檢驗(yàn)方法,對(duì)于本例,則是選擇某選項(xiàng)的比例,該方法首先將數(shù)據(jù)寫(xiě)成列聯(lián)表形式:
分別為處理1和處理2的取“1”的比例,則檢驗(yàn)的假設(shè)為:
統(tǒng)計(jì)量和近似分布為:
其p值即是統(tǒng)計(jì)量在分布中的雙邊概率值。
(二)模型求解
編寫(xiě)R程序?qū)崿F(xiàn)這一檢驗(yàn)方法,得到AD、DC、CB三對(duì)檢驗(yàn)的p值分別為:(α=0.05)
可見(jiàn),A>D>C>B中的A>D,D>C,C>B這三個(gè)關(guān)系都不是顯著的。也就是說(shuō),目前沒(méi)有足夠的理由認(rèn)為飲用“自來(lái)水”的人數(shù)多于“桶裝水或瓶裝水”,飲用“桶裝水或瓶裝水”的人數(shù)多于“家用凈水器處理后的水”,飲用“家用凈水器處理后的水”的人數(shù)多于“井水”。
那么,如果跨步檢驗(yàn),即A>C,D>B,甚至直接檢驗(yàn)A>B,大于關(guān)系是否顯著呢?檢驗(yàn)結(jié)果為:
可見(jiàn),結(jié)果發(fā)生了巨大變化,全部都非常顯著。
四、關(guān)于全部選項(xiàng)差異的Cochran檢驗(yàn)
(一)模型建立
Cochran檢驗(yàn)是對(duì)二元響應(yīng)的完全區(qū)組數(shù)據(jù)中不同處理的位置參數(shù)是否相同的檢驗(yàn)。位置參數(shù)表征四個(gè)選項(xiàng)在受訪(fǎng)者眼中的排序。假設(shè)為第i個(gè)選項(xiàng)的位置參數(shù),則檢驗(yàn)的假設(shè)為:不全相等
統(tǒng)計(jì)量及其分布為:
其中,b為區(qū)組數(shù),即問(wèn)卷數(shù);k為處理數(shù),即選項(xiàng)數(shù);Ni為第i個(gè)選項(xiàng)1出現(xiàn)的個(gè)數(shù);Lj為第j個(gè)問(wèn)卷中選1的個(gè)數(shù);N為1出現(xiàn)的總個(gè)數(shù)。
(二)模型求解
編寫(xiě)R程序?qū)崿F(xiàn)這一檢驗(yàn)方法,得到檢驗(yàn)的p值為:
可見(jiàn),顯著性是非常強(qiáng)的。也就是說(shuō),對(duì)于“自來(lái)水”“井水”“家用凈水器處理后的水”“桶裝水或瓶裝水”這幾種飲用水方式,人們對(duì)其選擇的比例差異是非常大的。這也說(shuō)明,該問(wèn)卷中該多項(xiàng)選擇題的設(shè)置是十分有意義的,收回問(wèn)卷后得到的數(shù)據(jù)也是十分有比較價(jià)值的。
五、結(jié)論
通過(guò)各個(gè)模型的建立、實(shí)際問(wèn)題的求解,以及對(duì)二元數(shù)據(jù)的新的處理方法的效果討論,可以從實(shí)際問(wèn)題和研究方法兩方面得出結(jié)論。
對(duì)于本文所示的多項(xiàng)選擇題來(lái)說(shuō),其調(diào)查所得數(shù)據(jù)的隨機(jī)性是良好的;在4個(gè)選項(xiàng)之間的兩兩大小關(guān)系的比較中,只有3個(gè)跨步大小關(guān)系是顯著的,因此A>D>C>B不是顯著成立的,只能確信A>C,D>B,A>B這三種關(guān)系。作為多選題整體來(lái)看,該題的整體選項(xiàng)差異是顯著的,因此用本例來(lái)進(jìn)行調(diào)查是有意義的。
對(duì)于研究方法來(lái)說(shuō),游程檢驗(yàn)?zāi)軌蚝芎玫嘏袛嗾{(diào)查問(wèn)卷所得數(shù)據(jù)是否具有隨機(jī)性,即是否是完全隨機(jī)抽樣;McNemar檢驗(yàn)?zāi)軌蚝芎玫乇容^兩個(gè)選項(xiàng)的差異性,即選一種選項(xiàng)的人數(shù)是否顯著大于另一種;Cochran檢驗(yàn)?zāi)軌蚝芎玫嘏袛喽噙x題整體的各個(gè)選項(xiàng)是否具有差異性,即從整體判斷多選題調(diào)查的效果;而加入隨機(jī)變量后的Friedman檢驗(yàn)方法也在本例中達(dá)到了比較好的效果,能夠以較高的準(zhǔn)確率判斷多選題整體差異性是否顯著。
參考文獻(xiàn):
[1]李燦.調(diào)查問(wèn)卷中多項(xiàng)選擇題的處理方法[J].統(tǒng)計(jì)與決策,2006(06).
[2]吳喜之,趙博娟.非參數(shù)統(tǒng)計(jì)[M].中國(guó)統(tǒng)計(jì)出版社,2013.
[3]趙江濤.多項(xiàng)選擇模型的參數(shù)估計(jì)[J].網(wǎng)絡(luò)財(cái)富,2009(15).
[4]羅明奎.配對(duì)資料McNemar檢驗(yàn)法的適用范圍[J].中國(guó)衛(wèi)生統(tǒng)計(jì),1993(03).
[5]趙國(guó)龍,杜詩(shī)軍.非虛假設(shè)綜合卡方檢驗(yàn)[J].應(yīng)用概率統(tǒng)計(jì),2003(04).