孫 萍,趙東方
(1.烏魯木齊職業(yè)大學(xué),烏魯木齊 830002;2.華中師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,武漢430079)
敏感性問(wèn)題是指與個(gè)人(或單位)的隱私(或私人利益)有關(guān)而不便向外界透漏的問(wèn)題。例如,是否存在行賄、受賄情況,考生是否存在考試作弊,個(gè)體工商戶是否偷稅、漏稅,是否為同性戀者等。對(duì)于這些敏感性問(wèn)題,若采用直接問(wèn)答的形式,被調(diào)查者就會(huì)產(chǎn)生抵觸情緒,拒絕回答,或者,接受調(diào)查但不愿據(jù)實(shí)回答。
抽樣調(diào)查中,經(jīng)常會(huì)遇到敏感性問(wèn)題的調(diào)查工作,由于涉及到被調(diào)查者的隱私問(wèn)題,很難得到被調(diào)查者的配合,因此造成了調(diào)查的困難、以及調(diào)查結(jié)果的不準(zhǔn)確。
1965年,S.L.Warner設(shè)計(jì)了一種隨機(jī)問(wèn)答方法,巧妙的解決了這個(gè)問(wèn)題[1]。1969年,B.G.Greenberg改進(jìn)了S.L.Warnerder的方法[2]?,F(xiàn)在,S.L.Warner的隨機(jī)調(diào)查法得到了廣泛的應(yīng)用[3][4]。
隨機(jī)問(wèn)答法的具體步驟如下:
第1步:調(diào)查問(wèn)卷的卡片,每張卡片只問(wèn)下列問(wèn)題之一
問(wèn)題1:你屬于集合A
問(wèn)題2:你不屬于集合A
假設(shè)問(wèn)題1共有a張卡片,問(wèn)題2共有b張卡片,要求:p=a/(a+b)≠1/2,其中,p叫做卡片參數(shù)。
第2步:被調(diào)查者隨機(jī)抽取一張卡片,卡片上只有一個(gè)問(wèn)題,被調(diào)查者只回答“Yes”,或者“No”,然后,將卡片放回卡片盒。
在整個(gè)調(diào)查過(guò)程中,調(diào)查人不知道被調(diào)查者回答的是哪個(gè)問(wèn)題,只知道回答結(jié)果Yes或No,這樣,被調(diào)查者就有很大的可能說(shuō)真話。
第3步:假設(shè)調(diào)查了n個(gè)人,m個(gè)人回答“Yes”,根據(jù)全概率公式:
于是,我們就可以得到百分比α的估計(jì)值。
【案例1】某地調(diào)查個(gè)體工商戶偷稅漏稅問(wèn)題
問(wèn)題1:我偷過(guò)稅
問(wèn)題2:我從不偷稅
卡片設(shè)計(jì):卡片參數(shù)p=1/6,即,6張卡片有一張是問(wèn)題1,其余5張是問(wèn)題2。
調(diào)查過(guò)程:被調(diào)查者隨機(jī)抽取一張卡片,看見(jiàn)問(wèn)題后,將卡片保密放回卡片盒,然后告訴調(diào)查人,Yes或No。
調(diào)查結(jié)果:隨機(jī)調(diào)查100個(gè)個(gè)體戶,共有75人回答“Yes”,根據(jù)公式計(jì)算可得:
于是,我們可以認(rèn)為,某地可能有1/8=12.5%的個(gè)體戶偷過(guò)稅。
S.L.Warner的隨機(jī)調(diào)查法,其中兩個(gè)問(wèn)題都與敏感性話題直接相關(guān),很容易引起被調(diào)查者的戒備,所以,B.G.Greenburg建議,用其它一個(gè)毫不相干的問(wèn)題代替問(wèn)題2。
調(diào)查問(wèn)卷的卡片,只問(wèn)下列問(wèn)題之一
問(wèn)題1:你屬于集合A
問(wèn)題2:你屬于集合B
假設(shè),屬于集合A的人群的百分比為αA(待求指標(biāo)),屬于集合B的人群的百分比αB(已知指標(biāo)),問(wèn)題1共有a張卡片,問(wèn)題2共有b張卡片,p=a/(a+b),被調(diào)查者共有n人,其中m人回答Yes,那么就有:
從中解出αA:
【案例2】某高中調(diào)查學(xué)生談戀愛(ài)比例
問(wèn)題1:我談過(guò)戀愛(ài)
問(wèn)題2:我的身份證尾數(shù)是奇數(shù)
相對(duì)于問(wèn)題1,αA待求;相對(duì)于問(wèn)題2,αB=1/2。
卡片參數(shù):p=9/10,即,10張卡片中有9張是問(wèn)題1。
被調(diào)查者n=100,其中,23人回答Yes,即,m=23,根據(jù)公式計(jì)算:
于是,我們可以認(rèn)為,這所高中大約有20%的學(xué)生談過(guò)戀愛(ài)。
在S.L.Warner模型中,待求百分比α=1/(2p-1)(p-1+m/n)p≠1/2,其中,卡片參數(shù)p的取值,必須使得0≤α≤1,下面,我們畫出α的圖形:
圖1 m/n<0.5的圖形
圖2 m/n>0.5的圖形
圖中p軸上方水平線對(duì)應(yīng)α=1。
通過(guò)觀察圖形,我們看到0≤α≤1的條件并不總是得到滿足,特別是在p=0.5附近,這個(gè)條件完全被破壞,于是,為了確保0≤α≤1成立,我們就要考慮卡片參數(shù)p的取值范圍。
總的原則:p的取值要遠(yuǎn)離0.5。
若取p<0.5,由,可以得到,,即,根據(jù)所調(diào)查的問(wèn)題的背景知識(shí),卡片參數(shù)p應(yīng)該盡可能的小。例如,已知患艾滋病的人群比例比較小,可以取p=1/9、p=1/10等等(此時(shí),10張卡片有一張是問(wèn)題1:你有艾滋病?)。
若取p>0.5,由,可以得到,,即,根據(jù)所調(diào)查的問(wèn)題的背景知識(shí),卡片參數(shù)p應(yīng)該盡可能的大。例如,已知有某種壞習(xí)慣的人群比例比較大,可以取p=7/10、p=9/10等等(此時(shí),10張卡片有9張是問(wèn)題1:你有×××壞習(xí)慣?)。
即,卡片參數(shù)p應(yīng)該盡可能大一點(diǎn)。
總結(jié):卡片參數(shù)p的取值范圍,總的設(shè)計(jì)原則是,(1)在S.L.Warner模型中,p的取值應(yīng)該遠(yuǎn)離0.5;(2)在B.G.Greenberg的改進(jìn)模型中,p的取值應(yīng)該盡可能靠近1。
[1]Warner,S.L.Randomized Response:A Survey Technique for Elimi?nating Evasive Answer Bias[J].Journal of the American Statistical As?sociation,1965,(60).
[2]Greenberg,B.G.,et al.The Unrelated Question Randomized Re?sponse Model:Theoretical Framework[J].Journal of the American Sta?tistical Association,1969,64(326).
[3]M.Ostapczuk,M.Moshagen,Z.Zhao,J.Musch.Assessing Sensitive Attributes Using the Randomized-response-technique:Evidence for the Importance of Response Symmetry[J].Journal of Educational and Behavioral Statistics,2009,(34).
[4]M.Ostapczuk,J.Musch,M.Moshagen.A Randomized-response In?vestigation of the Education Effect in Attitudes towards Foreigners[J].European Journal of Social Psychology,2009,(39).
[5]趙東方.數(shù)學(xué)實(shí)驗(yàn)與數(shù)學(xué)模型[M].武漢:華中師范大學(xué)出版社,2003.
[6]趙東方.數(shù)學(xué)模型與計(jì)算[M].北京:科學(xué)出版社,2007.