靳宗達(dá) 耿國(guó)柱 傅 穎,3 楊少春 范玉波 高 歌△
【提 要】 目的 應(yīng)用計(jì)算機(jī)隨機(jī)模擬技術(shù),評(píng)價(jià)三來(lái)源捕獲-再捕獲(C-R)方法下分層三階段抽樣調(diào)查方法及統(tǒng)計(jì)公式的效度和信度,為估計(jì)艾滋病高危人群基數(shù)提供準(zhǔn)確可靠的復(fù)雜抽樣調(diào)查方法及統(tǒng)計(jì)公式,為艾滋病防控策略的制定、防治資源的合理分配提供參考依據(jù)。方法 運(yùn)用數(shù)理統(tǒng)計(jì)方法推導(dǎo)統(tǒng)計(jì)公式;在廣西壯族自治區(qū)分層三階段抽樣調(diào)查女性性工作者(female sex workers,F(xiàn)SW)人群,通過(guò)三來(lái)源C-R方法估算廣西FSW人群基數(shù);以實(shí)例調(diào)查結(jié)果作為模擬總體,應(yīng)用SAS語(yǔ)言,進(jìn)行三來(lái)源C-R方法復(fù)雜抽樣下計(jì)算機(jī)隨機(jī)模擬調(diào)查1000次,評(píng)價(jià)本研究調(diào)查方法及統(tǒng)計(jì)公式的效度和信度。結(jié)果 推導(dǎo)出總體基數(shù)的估計(jì)量及其估計(jì)方差的統(tǒng)計(jì)公式;估算出獲取時(shí)間段為三個(gè)月的廣西FSW人群基數(shù)及標(biāo)準(zhǔn)誤。計(jì)算機(jī)隨機(jī)模擬調(diào)查估算出的1000個(gè)總體基數(shù)95%置信區(qū)間基本上都包含模擬總體的基數(shù)。結(jié)論 本文研究的調(diào)查方法及統(tǒng)計(jì)公式具有良好的效度和信度,可用于艾滋病高危人群、敏感人群或特殊人群的基數(shù)估計(jì)。FSW高危人群基數(shù)提示衛(wèi)生部門應(yīng)加強(qiáng)對(duì)FSW人群精準(zhǔn)監(jiān)測(cè),對(duì)艾滋病精準(zhǔn)防控。
艾滋病是嚴(yán)重威脅公眾健康的重要公共衛(wèi)生問(wèn)題和社會(huì)問(wèn)題[1]。2018年前3個(gè)季度全國(guó)新發(fā)現(xiàn)HIV感染者/AIDS病人中,性接觸傳染占92%[2]。女性性工作者(female sex workers,F(xiàn)SW)、男同性戀等HIV感染風(fēng)險(xiǎn)高,是我國(guó)艾滋病高危群體。高危人群規(guī)模是艾滋病流行形勢(shì)分析與趨勢(shì)預(yù)測(cè)的重要依據(jù),同時(shí)也是艾滋病防治策略制定的科學(xué)依據(jù)[3]。
艾滋病高危人群基數(shù)估計(jì)的方法包括普查法、人群調(diào)查法、捕獲-再捕獲(capture-recapture,C-R)方法、乘數(shù)法[4]、網(wǎng)絡(luò)擴(kuò)展法[5-6]等,其中C-R方法在國(guó)內(nèi)外有較多的應(yīng)用[7-10]。流行病學(xué)研究中應(yīng)用較廣泛的是多來(lái)源C-R方法[11-12],其具備以下特點(diǎn):(1)允許各來(lái)源間存在相關(guān);(2)能提高樣本的代表性;(3)依據(jù)相互重疊信息和不完整數(shù)據(jù)估算目標(biāo)群體的數(shù)量;(4)可進(jìn)行統(tǒng)計(jì)推斷,提高估計(jì)的科學(xué)性[13]。
本文基于三來(lái)源C-R方法的分層三階段復(fù)雜抽樣,推導(dǎo)出總體基數(shù)的估計(jì)量及其估計(jì)方差的統(tǒng)計(jì)公式;并應(yīng)用本研究調(diào)查方法和統(tǒng)計(jì)公式調(diào)查估計(jì)廣西FSW艾滋病高危人群的基數(shù);將實(shí)例調(diào)查的樣本統(tǒng)計(jì)量作為模擬總體參數(shù),采用計(jì)算機(jī)隨機(jī)模擬評(píng)價(jià)本研究調(diào)查方法和統(tǒng)計(jì)公式的效度與信度。
表1 h層第i個(gè)初級(jí)單元第j個(gè)二級(jí)單元內(nèi)三來(lái)源C-R方法調(diào)查頻數(shù)表
(1)
(2)
(3)
(4)
(5)
其中,
(6)
(7)
(8)
(9)
(10)
其中,
(11)
(12)
(13)
(1)調(diào)查對(duì)象
2015年8月至10月對(duì)廣西各類娛樂(lè)場(chǎng)所從事商業(yè)性交易的FSW人群進(jìn)行問(wèn)卷調(diào)查。共發(fā)放問(wèn)卷4267份,有效問(wèn)卷回收4118份,問(wèn)卷有效率96.5%。以4118名廣西FSW作為此次調(diào)查的研究總體。
(2)抽樣方法
(3)調(diào)查內(nèi)容
本次調(diào)查通過(guò)問(wèn)卷形式,收集FSW對(duì)象最近三個(gè)月是否接受過(guò)艾滋病行為干預(yù)服務(wù),是否在正規(guī)醫(yī)療衛(wèi)生機(jī)構(gòu)進(jìn)行過(guò)性病艾滋病檢測(cè),是否在洗浴中心/夜總會(huì)/酒吧、賓館、酒店、招待所、民宅等場(chǎng)所發(fā)生性交易。上述三類場(chǎng)所作為本次基數(shù)調(diào)查估計(jì)的三個(gè)來(lái)源。
(1)模擬總體建立
根據(jù)實(shí)例調(diào)查中各抽中縣(區(qū))三來(lái)源C-R方法調(diào)查頻數(shù)表7個(gè)類別的頻數(shù),利用SAS語(yǔ)言有放回隨機(jī)抽樣,模擬出每層每個(gè)初級(jí)單元內(nèi)所有二級(jí)單元的各類別觀察數(shù)及總?cè)藬?shù),對(duì)二級(jí)單元求和,模擬出每層每個(gè)初級(jí)單元的各類別觀察數(shù)及總?cè)藬?shù)。合并初級(jí)單元,進(jìn)一步模擬出每一層的各類別觀察數(shù)及總?cè)藬?shù)。合并兩層,計(jì)算各類別觀察數(shù)、總?cè)藬?shù)以及各類別的背景概率。SAS語(yǔ)言根據(jù)各類別的概率生成多項(xiàng)分布隨機(jī)整數(shù),為虛擬FSW調(diào)查對(duì)象賦值,不同的隨機(jī)數(shù)字表示虛擬FSW調(diào)查對(duì)象的不同類別。以前述實(shí)例調(diào)查結(jié)果計(jì)算出的總體基數(shù)的樣本估計(jì)值作為模擬總體的總體基數(shù)。
(2)模擬抽樣調(diào)查
對(duì)建立的模擬總體,按每層的各類別觀察數(shù)進(jìn)行單純隨機(jī)抽樣,重復(fù)1000次。根據(jù)每層1000次模擬的三來(lái)源C-R方法調(diào)查表7個(gè)類別的頻數(shù),分層計(jì)算1000次模擬的總體基數(shù)的估計(jì)值與估計(jì)方差。將兩層合并,計(jì)算1000個(gè)樣本的總體基數(shù)估計(jì)值及其估計(jì)方差和95%置信區(qū)間。
經(jīng)過(guò)1000次計(jì)算機(jī)模擬,1000個(gè)樣本的總體基數(shù)估計(jì)值最小值是93270,最大值是97280。以前述實(shí)例調(diào)查結(jié)果的總體基數(shù)估計(jì)值95662(模擬總體基數(shù))為參考值,以模擬次數(shù)為橫坐標(biāo),以計(jì)算機(jī)模擬產(chǎn)生的1000個(gè)總體基數(shù)估計(jì)值95%置信區(qū)間為縱坐標(biāo)進(jìn)行制圖(圖1~4)。根據(jù)圖1~4可知,獲取時(shí)間段為最近三個(gè)月三來(lái)源C-R方法分層三階段抽樣調(diào)查估計(jì)中,1000次模擬中只有15個(gè)樣本的總體基數(shù)估計(jì)值95%置信區(qū)間不包含模擬總體基數(shù)(第2、25、42、78、241、383、472、572、574、580、606、681、687、728、752次模擬)。1000次模擬的總體基數(shù)估計(jì)值幾乎均接近于模擬總體基數(shù)(調(diào)查真實(shí)值),說(shuō)明以最近三個(gè)月為獲取時(shí)間段三來(lái)源C-R方法下分層三階段抽樣調(diào)查方法及其統(tǒng)計(jì)公式具有較高效度;同時(shí)這1000次模擬的總體基數(shù)估計(jì)值均接近于模擬總體基數(shù),說(shuō)明此調(diào)查方法及其統(tǒng)計(jì)公式具有較高信度。
本團(tuán)隊(duì)對(duì)三來(lái)源C-R方法下簡(jiǎn)單隨機(jī)抽樣、分層隨機(jī)抽樣與五來(lái)源C-R方法下分層隨機(jī)抽樣的統(tǒng)計(jì)公式進(jìn)行過(guò)研究[16-18]。在此研究基礎(chǔ)上,本文設(shè)計(jì)出三來(lái)源C-R方法下分層三階段復(fù)雜抽樣調(diào)查方法,建立數(shù)學(xué)模型,推導(dǎo)出總體基數(shù)的估計(jì)量及估計(jì)方差的統(tǒng)計(jì)公式,具有統(tǒng)計(jì)學(xué)理論意義。
圖1 獲取時(shí)間段為最近三個(gè)月三來(lái)源C-R方法分層三階段抽樣下計(jì)算機(jī)模擬第1~250次結(jié)果
圖2 獲取時(shí)間段為最近三個(gè)月三來(lái)源C-R方法分層三階段抽樣下計(jì)算機(jī)模擬第251~500次結(jié)果
圖3 獲取時(shí)間段為最近三個(gè)月三來(lái)源C-R方法分層三階段抽樣下計(jì)算機(jī)模擬第501~750次結(jié)果
本研究在調(diào)查廣西FSW人群時(shí)采用分層三階段隨機(jī)抽樣。按照FSW年齡分層,不同年齡段內(nèi)樣本同質(zhì)性增加,變異減少,抽樣誤差降低。每層內(nèi),首先隨機(jī)抽取地級(jí)市,接著從地級(jí)市隨機(jī)抽取縣(區(qū)),最后在每個(gè)被抽中的縣(區(qū))中調(diào)查隨機(jī)抽取的FSW。將現(xiàn)有的行政單位劃分為各階段抽樣單元,便于研究方案的執(zhí)行,使研究具有更高的效率[19-20]。以上兩方面使得高危人群基數(shù)的估計(jì)更加精確可靠。
評(píng)價(jià)調(diào)查方法及統(tǒng)計(jì)公式的效度與信度,需要進(jìn)行重復(fù)調(diào)查或研究。當(dāng)實(shí)際研究涉及敏感問(wèn)題或針對(duì)敏感人群時(shí),重復(fù)調(diào)查難以得到一致性的結(jié)果[21-22]。計(jì)算機(jī)隨機(jī)模擬通過(guò)使用無(wú)相關(guān)隨機(jī)數(shù)序列,對(duì)具有概率特征的實(shí)際問(wèn)題,進(jìn)行直接的抽樣試驗(yàn),通過(guò)模擬試驗(yàn)值估計(jì)統(tǒng)計(jì)量或者參數(shù)的值,最終給出實(shí)際問(wèn)題的數(shù)值解[23-24];隨著模擬次數(shù)的增加,得到趨于穩(wěn)定的結(jié)論[25-26]。
圖4 獲取時(shí)間段為最近三個(gè)月三來(lái)源C-R方法分層三階段抽樣下計(jì)算機(jī)模擬第751~1000次結(jié)果
本文基于SAS程序建立模擬總體,進(jìn)行大數(shù)量(1000次模擬)的模擬試驗(yàn),實(shí)現(xiàn)了對(duì)同一總體的重復(fù)抽樣調(diào)查與統(tǒng)計(jì)計(jì)算[27]。本文研究的三來(lái)源C-R方法下分層三階段抽樣調(diào)查方法及其統(tǒng)計(jì)公式,具有較高的效度和信度,說(shuō)明本文研究的調(diào)查方法及統(tǒng)計(jì)公式準(zhǔn)確可靠。
本研究為艾滋病高危人群的基數(shù)估計(jì)提供了科學(xué)可行的調(diào)查方法、統(tǒng)計(jì)公式及效度信度評(píng)價(jià)方法。采用本研究設(shè)計(jì)的調(diào)查方法及統(tǒng)計(jì)公式,估計(jì)廣西FSW人群基數(shù),對(duì)掌握艾滋病流行現(xiàn)狀、預(yù)測(cè)流行趨勢(shì)有重要意義,為艾滋病防制規(guī)劃的制定、資源的合理分配及防制效果的評(píng)估提供科學(xué)依據(jù)。