濮翔科高 歌阮玉華
二項選擇敏感問題兩階段抽樣調(diào)查樣本量的估計*
濮翔科1,2高 歌1△阮玉華3
目的研究二項選擇敏感問題RRT模型下兩階段抽樣調(diào)查樣本量的估計公式,探討敏感問題復(fù)雜抽樣調(diào)查設(shè)計的統(tǒng)計方法。方法使用二項選擇敏感問題西蒙斯模型,根據(jù)概率論和數(shù)理統(tǒng)計學(xué)的理論方法,在給出二項選擇敏感問題兩階段抽樣樣本比例及其方差計算公式的基礎(chǔ)上;使用哥西不等式、求條件極小值點等方法,從數(shù)學(xué)上推導(dǎo)二項選擇敏感問題西蒙斯模型下兩階段抽樣調(diào)查各階段抽樣的最優(yōu)樣本量的計算公式;通過對北京MSM人群預(yù)調(diào)查獲取相關(guān)統(tǒng)計量的數(shù)值,進而估計北京MSM人群敏感問題RRT模型下兩階段抽樣調(diào)查各階段的最優(yōu)樣本量。結(jié)果當限定抽樣誤差而使調(diào)查費用最小時需要抽取13個區(qū)縣,當限定調(diào)查費用而使抽樣誤差最小時需要抽取9個區(qū)縣;從每個被抽中的區(qū)縣中需要抽取的MSM人數(shù)平均為51人。結(jié)論本文研究的二項選擇敏感問題RRT模型下兩階段抽樣調(diào)查樣本量的估計公式及相關(guān)統(tǒng)計方法具有創(chuàng)新理論意義和很好的實際應(yīng)用價值。
敏感問題 隨機應(yīng)答技術(shù) 兩階段抽樣 樣本量 男男性行為者
調(diào)查研究中經(jīng)常需要調(diào)查一些敏感問題,例如艾滋病高危行為賣淫、吸毒、男男性行為等。這些敏感問題都涉及到個人隱私,不便于公開陳述或表態(tài),以至于調(diào)查者難以獲取有關(guān)敏感問題的真實信息。但實際上,調(diào)查者關(guān)注的并非某個特定調(diào)查對象的敏感問題情況,而是被調(diào)查的整個群體中具有敏感問題的數(shù)量特征。為解決這一矛盾,Warner提出了隨機應(yīng)答技術(shù)(randomized response technique,RRT)應(yīng)用于敏感問題調(diào)查〔1〕,能有效保護調(diào)查對象的隱私并獲取較準確的調(diào)查資料。此后,Simmons加以改進,設(shè)計了二項選擇敏感問題調(diào)查的西蒙斯模型〔2〕,由于其簡單有效,至今仍被廣泛應(yīng)用于二項選擇敏感問題的調(diào)查研究。目前,對二項選擇敏感問題復(fù)雜抽樣的調(diào)查方法已有一些研究,例如對二項選擇敏感問題分層隨機抽樣下總體比例與總體方差等參數(shù)的估計等研究??茖W(xué)地確定樣本量是調(diào)查設(shè)計的重要環(huán)節(jié)。本文對二項選擇敏感問題西蒙斯模型的兩階段抽樣調(diào)查,在給出樣本比例及其方差計算公式的基礎(chǔ)上,當限定抽樣誤差的大小而使調(diào)查費用最小及當限定調(diào)查費用的大小而使抽樣誤差最小兩種情況下,推導(dǎo)出各階段最優(yōu)樣本量的計算公式,并在北京市男男性行為人群(men who have sex w ith men,MSM)的現(xiàn)場調(diào)查中取得了成功的實際應(yīng)用效果。
1.二項選擇敏感問題的西蒙斯模型
針對一個二項選擇敏感性問題,例如:“你是同性戀嗎?”;選擇一個與該敏感性問題無關(guān)的非敏感問題,例如:“你的出生月份是奇數(shù)嗎?”。西蒙斯模型〔2〕需設(shè)計一個隨機化裝置,例如:在桌上放一個一元的硬幣。每名調(diào)查對象獨立地拋擲該硬幣,事先約定:出現(xiàn)“1元”朝上(概率為P)回答自己是否是“同性戀”?出現(xiàn)“國徽”朝上,回答自己的出生月份是否是奇數(shù)?除本人以外的任何人均不知道被調(diào)查者究竟回答的是哪一個問題。在拋擲硬幣及回答過程中,調(diào)查對象的隱私受到保護,可以消除顧慮,給出自己的真實答案。
2.兩階段抽樣方法
假定總體共劃分成M個群,第i個群包含Mi個觀察對象,i=1,2,…,M,平均每個群內(nèi)包含個調(diào)查對象。又假設(shè)第一階段從總體中隨機抽取了m個群,第二階段從第i個被抽取的群中隨機抽取了mi個調(diào)查對象,i=1,2,…,m,平均從每個抽中的群內(nèi)抽取了i個調(diào)查對象。對每個被抽中的調(diào)查對象,采用西蒙斯模型進行調(diào)查。
3.總體比例的估計量及其方差
假定隨機化裝置中要回答的敏感問題所占比例為P。Pi表示第i個群內(nèi)具有敏感問題特征的個體比例為其樣本估計量;ri表示第i個抽中群內(nèi)具有無關(guān)非敏感問題特征的個體所占的比例,ri一般是已知或可以通過專門調(diào)查獲得的。Bi表示第i個群內(nèi)調(diào)查對象回答“是”的比例,根據(jù)全概率公式〔3〕有Bi=PiP為Bi的樣本估計量,假設(shè)第i個被抽取的群內(nèi)有hi個人回答“是”,則由此可得:
根據(jù)文獻〔4〕給出的結(jié)果,得到敏感特征總體比例的估計量p為:
其方差為:
4.樣本量的估計
實際抽樣調(diào)查所需的費用一般可以用如下函數(shù)形式表示〔5〕:
其中C表示抽樣調(diào)查的總費用,C0表示整個調(diào)查所需的基本費用,C1表示每調(diào)查一個群所需的基本費用,C2表示每一個調(diào)查對象所需的直接調(diào)查費用。
由公式(3)經(jīng)過變形得:
解得(在抽樣誤差限定時使得調(diào)查費用達到最小和調(diào)查費用限定時使得抽樣誤差達到最?。?/p>
當方差V(p)的值限定為V時,由(7)式解得(抽樣誤差限定而使調(diào)查費用達到最小):
當調(diào)查費用限定為C時,由(6)式解得(調(diào)查費用限定而使抽樣誤差達到最?。?/p>
1.調(diào)查方法
調(diào)查對象來自于北京市15~49歲男男性行為人群,調(diào)查時間為2010年8月至10月。根據(jù)王麗艷、劉鵬等〔6-7〕的估算方法,結(jié)合2010年第六次全國人口普查數(shù)據(jù)〔8〕估計得北京市出入MSM活動場所的男男性行為者人數(shù)為67750人,即此次調(diào)查的研究總體。
采用兩階段抽樣方法,以北京市的16個區(qū)縣作為群,M=16;以北京市男男性行為者作為調(diào)查對象,平均每個區(qū)縣MSM人數(shù)=4234人。第一階段從北京的區(qū)縣中隨機抽取13個區(qū)縣(m=13);第二階段在被抽中的區(qū)縣共隨機抽取1523名MSM調(diào)查對象,平均從每個抽中區(qū)縣抽取約117人=117)。對抽取的1523名MSM調(diào)查對象,采用二項選擇敏感問題的西蒙斯模型作調(diào)查,調(diào)查指標為:最近一次肛交時全程使用安全套的比例、最近一年男男商業(yè)性性行為的發(fā)生比例、最近一年HIV檢測結(jié)果為陽性的比例、最近一年到正規(guī)醫(yī)療機構(gòu)進行性病檢查結(jié)果為有性病的比例等。
2.預(yù)調(diào)查結(jié)果。
使用excel 2003和SAS 9.13軟件完成調(diào)查數(shù)據(jù)的管理與計算。以肛交時是否全程使用安全套的調(diào)查為例:按公式(1)和(2),計算得北京市MSM人群最近一次肛交全程使用安全套的樣本比例為0.7763;由公式(4)和(5)計算得的樣本估計量分別為由公式(3)計算得肛交中全程使用安全套樣本比例的估計方差為0.00033,總體比例的95%CI為:0.7408~0.8118。
此次調(diào)查擬采用兩階段抽樣,以北京市的區(qū)縣為群、以MSM者為調(diào)查對象。根據(jù)預(yù)調(diào)查的實際情況預(yù)算如下:整個調(diào)查的基本費用C0=10萬元(含項目合作單位合作費、差旅費、培訓(xùn)費、印刷費等),平均每調(diào)查一個區(qū)縣的基本費用C1=10萬元(含調(diào)查協(xié)作單位協(xié)作費、MSM活動場所協(xié)作費、同伴志愿者報酬、交通費等),平均每調(diào)查一個MSM對象的直接費用C2=3元(調(diào)查員勞務(wù)費)。此次調(diào)查采用的RRT模型為西蒙斯模型,先針對每一個調(diào)查指標分別計算所需樣本量,然后取它們中的最大值?,F(xiàn)以肛交時全程使用安全套比例的調(diào)查為例,介紹樣本量計算:
根據(jù)已計算出的北京市MSM人群男男性行為肛交時全程使用安全套比例的估計方差相關(guān)統(tǒng)計量和由公式(8)計算出從每個抽中的區(qū)縣平均需要抽取的男男性行為者的人數(shù)為:
當抽樣誤差V(p)的值限定為V=0.00033(按預(yù)調(diào)查資料的估計結(jié)果)而使調(diào)查費用最小時,由公式(9)計算出從北京市16個區(qū)縣中需要抽取的區(qū)縣個數(shù)為:
當調(diào)查費用值限定為C=100萬元而使抽樣誤差最小時,由公式(10)計算出從北京市16個區(qū)縣中需要抽取的區(qū)縣個數(shù)為:
在第i個被抽中的區(qū)縣內(nèi)需抽取的男男性行為者的個數(shù)可由公式(11)計算。例如某個被抽中的區(qū)縣共有男男性行為者5738人,則應(yīng)從該區(qū)縣隨機抽取的男男性行為者人數(shù)為:
敏感問題調(diào)查的隨機應(yīng)答技術(shù)自誕生以來,由于該技術(shù)能較好地保護被調(diào)查者的個人隱私和提高真實應(yīng)答率,因此很多學(xué)者進行了研究并加以改進完善。西蒙斯模型也是較早提出的二項選擇敏感問題調(diào)查模型,因其較為簡單實用,至今應(yīng)用仍較廣泛〔9〕。西蒙斯模型的簡單隨機抽樣應(yīng)用較多,但在復(fù)雜抽樣下應(yīng)用研究較少,而且對敏感問題調(diào)查樣本量的估計也較少研究。本文對二項選擇敏感問題西蒙斯模型兩階段抽樣調(diào)查設(shè)計方法進行了研究,科學(xué)推導(dǎo)出敏感問題西蒙斯模型兩階段抽樣調(diào)查樣本量的計算公式,國內(nèi)外至今未見文獻報道。
自從改革開放以來,吸毒、艾滋病、同性戀等敏感問題正在我國受到越來越多的關(guān)注。如今我國艾滋病正從高危人群向一般人群傳播,形勢非常嚴峻。艾滋病的傳播途徑以性傳播為主,尤其是近幾年新發(fā)現(xiàn)的感染者中男男性行為者的比例逐年增高〔10-12〕,這意味著男男性行為人群是艾滋病傳播的高危人群,其高危性行為應(yīng)受到重視和干預(yù)。
1.Warner SL.Randomized response:a survey technique for eliminating evasive answer bias.Journal of the American Statistical Association,1965,60(309):63-69.
2.Horvitz DG,Shah BV,Simmons WR.The unrelated question randomized responsemodel.Proceedings of the Social Statistics Section,American Statistical Association,1967:65-72.
3.蘇良軍.高等數(shù)理統(tǒng)計.北京:北京大學(xué)出版社,2007:3.
4.Wang J,Gao G,F(xiàn)an Y,et al.The estimation of sample size in multistage sampling and its application in medical survey.Applied Mathematics and Computation,2006,178(2):239-249.
5.Cochran WG著.抽樣技術(shù).張堯庭,吳輝譯.北京:中國統(tǒng)計出版社,1985,87.
6.王麗艷,夏冬艷,吳玉華,等.乘數(shù)法估計北京、哈爾濱兩市男性同性戀人群規(guī)模的研究.華南預(yù)防醫(yī)學(xué),2006,32(3):9-11.
7.劉鵬,高歌,賀志龍,等.數(shù)量特征敏感問題加法模型二階段抽樣的統(tǒng)計方法及其應(yīng)用.蘇州大學(xué)學(xué)報(醫(yī)學(xué)版),2011,31(3):384-387.
8.北京市統(tǒng)計局,國家統(tǒng)計局北京調(diào)查總隊.北京統(tǒng)計年鑒-2011.2011.
9.高歌,范玉波.敏感問題Simmons模型的(分層)整群抽樣研究.中國衛(wèi)生統(tǒng)計,2008,25(6):562-565,569.
10.Fan S,Lu H,Ma X,etal.Behavioral and Serologic Survey of Men Who Have Sex w ith Men in Beijing,China:Implication for HIV Intervention.AIDS Patient Care and STDs,2012,26(3):148-155.
11.Li Q,Liu Y,Zhou Z,et al.Online Sex-Seeking Behaviors Among Men Who have Sex w ith Men:Implications for Investigation and Intervention.AIDS and Behavior,2012,16(6):1690-1698.
12.中華人民共和國衛(wèi)生部,聯(lián)合國艾滋病規(guī)劃署和世界衛(wèi)生組織. 2011年中國艾滋病疫情估計.2011,2-6.
(責(zé)任編輯:郭海強)
Sam ple Size Determ ination of Dichotomous Sensitive Question Survey under Twostage Sam pling
Pu Xiangke,Gao Ge,Ruan Yuhua(School of Public Health,Medical College of Soochow University(215123),Suzhou)
ObjectiveTo investigate the two-stage sampling method and determ ine the sample size for dichotomous sensitive question survey.MethodsBy using statistical theories and methods,the population proportion of dichotomous sensitive question under Simmonsmodel and its variance were estimated;Cauchy-Schwarz inequality and them inimum method were used to deduce the sample size determ ination formulae for two-stage sampling survey of dichotomous sensitive questions;the survey method and relevant formulae were applied to the two-stage sampling survey of condom use in sex behavior among MSM(men who have sex w ithmen)in Beijing.ResultsBased on the pre-survey data of MSM in Beijing,51 MSM should be extracted in each selected county.If the sampling error is to be limited,13 counties should be extracted tomake the survey costm inimum in the first stage of sampling.On the contrary,9 counties should be extracted to m inim ize the sampling error in the first stage of sampling if the survey cost is to be lim ited.ConclusionThe surveymethod and sample size determination formulae are useful in the two-stage sampling survey of dichotomous sensitive questions.An optimum sample size can be calculated by using the deduced formulae to reduce the cost and the sampling error of the survey.
Sensitive question;RRT;Two-stage sampling;Sample size;MSM
國家自然科學(xué)基金資助項目(81273188);江蘇省預(yù)防醫(yī)學(xué)科研課題立項項目(Y2012072);常州市應(yīng)用基礎(chǔ)研究計劃項目(CJ20112013)
1.蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院(215123)
2.常州市第三人民醫(yī)院肝病研究所
3.中國疾病預(yù)防控制中心性病艾滋病預(yù)防控制中心
△通信作者:高歌