亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于受訪者驅(qū)動抽樣的模型推斷

        2024-03-02 06:27:30鞏紅禹
        統(tǒng)計(jì)與決策 2024年3期
        關(guān)鍵詞:特征

        鞏紅禹,董 悅

        (1.天津理工大學(xué)管理學(xué)院,天津 300382;2.內(nèi)蒙古財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,呼和浩特 010050)

        0 引言

        有限總體推斷關(guān)注總體的總量、均值、比例等目標(biāo)特征。傳統(tǒng)的概率抽樣方法自奈曼奠定數(shù)學(xué)基礎(chǔ)以來[1],一直是抽樣領(lǐng)域研究的主流問題,但由于面對構(gòu)造抽樣框的挑戰(zhàn)及高昂的調(diào)查成本,因此其有一定的局限性。對于調(diào)查同性戀、艾滋病陽性感染者、吸毒人員、流浪者構(gòu)成的隱藏總體或者難于接觸的總體,構(gòu)造抽樣框很難,傳統(tǒng)概率抽樣不可行。受訪者驅(qū)動抽樣(Respondent-Driven Sampling,RDS)利用隱藏群體成員的社會網(wǎng)絡(luò)關(guān)系來接觸并調(diào)查潛在受訪者的相關(guān)信息,推斷隱藏總體(Hidden Population)的比例、均值等總體特征。隱藏總體通常有如下特征:一是群體規(guī)模小,在總?cè)丝谥兴急壤龢O低,而且群體的規(guī)模未知,邊界不清晰,很難構(gòu)建一個完備的抽樣框;二是群體內(nèi)成員因某種原因不愿意暴露自己的身份。在RDS中,招募過程從挑選初始種子開始,通過向受訪者發(fā)放具有獨(dú)特標(biāo)識的優(yōu)惠券形式產(chǎn)生數(shù)次招募波,直到招募規(guī)模達(dá)到所需的樣本數(shù)量。

        受訪者驅(qū)動抽樣是鏈?zhǔn)阶粉櫝闃樱╟hain referral sampling)的一種形式。起初通過滾雪球抽樣法[2]調(diào)查總體中滿足要求的少數(shù)受訪者,并基于此調(diào)查新受訪者,但每輪調(diào)查中未規(guī)定受訪者招募數(shù)量,故存在較大選擇偏差。Heckathorn(1997)[3]提出受訪者驅(qū)動抽樣,采用雙重激勵機(jī)制有效減少樣本選擇偏差。Salganik 和Heckathorn(2004)[4]、Volz 和Heckathorn(2008)[5]應(yīng)用社會網(wǎng)絡(luò)分析理論豐富了RDS統(tǒng)計(jì)推斷方法。Gile等(2018)[6]通過無放回序貫抽樣估計(jì)總體參數(shù),梳理了RDS 方法的統(tǒng)計(jì)進(jìn)展。Lu和Bengtsson(2012)[7]模擬同性及雙性戀大型社交網(wǎng)絡(luò),違背RDS 抽樣方法條件測試其穩(wěn)健性。Shi 等(2019)[8]通過識別偏差類型診斷法提出一種基于模型的RDS 估計(jì)量。國內(nèi)學(xué)者蔣妍等(2022)[9]對樣本進(jìn)行事后分層,提出與逆概率加權(quán)相關(guān)的PS-IWP估計(jì)量。

        RDS現(xiàn)已成為隱藏群體研究的主要選擇,并得到了廣泛應(yīng)用。Dhawan 和Mishra(2020)[10]應(yīng)用RDS 法估計(jì)多數(shù)新德里流浪兒童使用精神活性物質(zhì)。Hakre等(2014)[11]在巴拿馬男男性接觸者中估計(jì)性傳播感染率。Bui等(2014)[12]運(yùn)用RDS方法估計(jì)坦桑尼亞達(dá)累斯薩拉姆男男性行為者的動機(jī)與危險(xiǎn)行為之間的關(guān)聯(lián)性。

        本文將隱藏總體視為社會網(wǎng)絡(luò)模型,假設(shè)總體就某一屬性具有二水平值,提出了基于RDS關(guān)于總體比例的模型推斷方法。統(tǒng)計(jì)模擬分析中提供了RDS的模擬抽樣方法,數(shù)值分析表明,模型推斷方法具有穩(wěn)健性。

        1 RDS抽樣方法

        RDS抽樣方法引入社會網(wǎng)絡(luò)的概念,利用目標(biāo)人群的社會關(guān)系網(wǎng)絡(luò)實(shí)施抽樣。它將總體中的成員視為網(wǎng)絡(luò)中的一個個節(jié)點(diǎn),將成員間的聯(lián)系視為節(jié)點(diǎn)間相互連接的線,整個社會結(jié)構(gòu)可視為由各節(jié)點(diǎn)及連線構(gòu)成的網(wǎng)絡(luò)。根據(jù)社會網(wǎng)絡(luò)理論,即使是生活在社會網(wǎng)絡(luò)中的隱藏群體成員也不可能完全與世隔絕,成員間會存在關(guān)系網(wǎng)絡(luò)。因此,可通過關(guān)系較為資深的成員獲得其所在網(wǎng)絡(luò)的結(jié)構(gòu)及特征,并研究其總體特征。如卡爾頓所說,雖然基于非概率樣本無法獲得準(zhǔn)確的估計(jì)量及效率,但若對非概率抽樣過程建模并構(gòu)建統(tǒng)計(jì)理論,則問題將迎刃而解。本文恰是利用復(fù)雜網(wǎng)絡(luò)模型研究隱藏總體特征。

        實(shí)施RDS抽樣的假設(shè)條件如下:隱藏總體成員間都存在直接或間接的聯(lián)系;RDS 是有放回抽樣,任何成員都有可能重復(fù)入樣;每位受訪者必須能估計(jì)出自身網(wǎng)絡(luò)規(guī)模,稱為“度”,即在目標(biāo)總體中認(rèn)識的人數(shù);節(jié)點(diǎn)的選擇概率與自身的度成正比;受訪者在個人網(wǎng)絡(luò)中隨機(jī)選擇新受訪者。

        RDS 工作原理如下:研究者在總體中選擇種子,種子從其社交網(wǎng)絡(luò)中招募固定數(shù)量的受訪者。在每一輪(wave)招募中,受訪者會從個人網(wǎng)絡(luò)中招募新受訪者。當(dāng)達(dá)到所需樣本量時招募過程停止。招募過程中需通過招募券記錄招募“痕跡”。假設(shè)研究需招募七輪,首輪種子“2”號招募的第3號受訪者招募的第2號受訪者,招募券記為2320000,依此類推,這是RDS 與滾雪球抽樣的顯著不同之處。

        RDS抽樣過程具有無記憶性,即受訪者被招募的行為與自身特征有關(guān),與過去招募的受訪者無關(guān),因此RDS抽樣方法可視為馬爾科夫過程。隨著招聘鏈的不斷深入,經(jīng)過足夠多的招募輪次,樣本會收斂到平衡狀態(tài)。正是由于RDS具有馬爾科夫過程的平穩(wěn)性,因此RDS樣本能夠推斷連接隱藏總體的社會網(wǎng)絡(luò)結(jié)構(gòu)。

        RDS 有兩個附加要求。第一,存在一種雙重激勵制度,被調(diào)查者因?yàn)閰⑴c調(diào)查獲得一個獎勵,介紹新受訪者也會獲得額外獎勵,與單向激勵的滾雪球抽樣相比,這能提高招募的效率。第二,招募是由受訪者驅(qū)動的,這個特性賦予了RDS名稱。正因如此,受訪者在朋友的激勵下更有可能參與其中,尤其是在關(guān)于艾滋病或吸毒等的敏感性調(diào)查中。

        2 RDS的模型推斷

        2.1 隱藏總體結(jié)構(gòu)

        受訪者驅(qū)動抽樣推斷總體特征與傳統(tǒng)抽樣法不同,由于抽樣設(shè)計(jì)未知,并不直接通過樣本估計(jì)總體特征,而是使用該樣本來估計(jì)總體社交網(wǎng)絡(luò)的特征屬性,進(jìn)而對不同特征屬性的總體比例進(jìn)行估計(jì),如圖1所示。

        圖1 傳統(tǒng)抽樣法與受訪者驅(qū)動抽樣法的差異

        為應(yīng)用RDS樣本估計(jì)總體網(wǎng)絡(luò)的結(jié)構(gòu)與特征,假設(shè)總體中成員之間的關(guān)系是彼此相互認(rèn)識,下文總體參數(shù)的推斷以此為前提。假定總體就某一屬性具有二水平值A(chǔ) 和B,在這個總體中成員之間的關(guān)系是相互的(例如,若a 成員認(rèn)識b成員,則b成員也認(rèn)識a成員)。

        如圖2 所示,通過不同的方式重新繪制相同的總體,圓圈和菱形的兩種節(jié)點(diǎn)形狀分別表示總體中某一屬性的兩組集合A和B??梢钥闯?,在該總體中,A組成員連接B組成員的邊數(shù)為6,同樣,B組成員連接A組成員的邊數(shù)也為6。假定一個包含總體網(wǎng)絡(luò)中所有信息的鄰接矩陣X,此時網(wǎng)絡(luò)中只存在無向邊,若節(jié)點(diǎn)i和j之間存在無向邊,則xij=xji=1,否則xij=xji=0。如果將節(jié)點(diǎn)i的度di定義為與節(jié)點(diǎn)i連接的邊數(shù)di=∑jxij,那么A 組中所有成員的連接邊數(shù)RA等于A組中所有成員度的總和,同樣,B組中所有成員的連接邊數(shù)RB也等于B組中所有成員度的總和,即:

        圖2 同一總體網(wǎng)絡(luò)的不同表示形式

        其中,NA表示總體中A 組成員的人數(shù),表示總體中A組成員的平均度;NB表示總體中B組成員的人數(shù),表示總體中B組成員的平均度。

        若將從A 組成員出發(fā)隨機(jī)選擇一條邊連接到B 組成員的概率記為σA,B,則有:

        其中,TAB為總體中A 組成員與B 組成員的連接邊數(shù)。對應(yīng)圖2中,TAB=6,RA=24。由于總體網(wǎng)絡(luò)是無向的,從A組成員出發(fā)連接到B組成員的邊數(shù)與從B組成員出發(fā)連接到A組成員的邊數(shù)相等,通過A組成員與B組成員之間兩種不同的連接路徑,可以得到兩種表示形式,且存在關(guān)系TAB=TBA。

        將公式(1)和公式(2)分別代入公式(4)和公式(5),并使公式(4)和公式(5)相等,可以得到:

        公式(6)中包含了節(jié)點(diǎn)特征和網(wǎng)絡(luò)特征的信息,然而總體網(wǎng)絡(luò)中A 組成員和B 組成員的總體數(shù)量NA和NB是未知的,因此可以將公式(6)兩邊同時除以總體數(shù)量N,N=NA+NB,記特征A 和特征B 的成員比例分別為和,則公式(6)可重新表示為:

        特征A和特征B的總體比例PPA和PPB分別為:

        2.2 估計(jì)總體網(wǎng)絡(luò)結(jié)構(gòu)

        2.2.1 關(guān)于RDS樣本的圖表示

        假設(shè)從隱藏總體中選擇若干成員作為樣本的初始種子,然后將初始種子選擇邊的過程定義為招募周期1,招募周期1中的邊決定了在第1波中被選擇的節(jié)點(diǎn),招募過程以這種方式持續(xù)進(jìn)行,直到達(dá)到所需的樣本量。設(shè)NI(j)w=x為在第x波中選中節(jié)點(diǎn)j的示性函數(shù),EI(ej→k)r=x為在招募周期x中選中邊ej→k的示性函數(shù),定義如下:

        假設(shè)在招募過程中,節(jié)點(diǎn)會從與其相連的相鄰節(jié)點(diǎn)中隨機(jī)招募其他節(jié)點(diǎn)概率:

        這里假設(shè)在RDS抽樣過程中總體不會發(fā)生變化。在招募過程中,初始種子通常為研究人員所熟悉,這些人與其他人擁有更多的聯(lián)系,假設(shè)一個人被選為初始種子的概率與種子節(jié)點(diǎn)自身的度成比例:

        在招募周期1中,邊ej→k被選中的概率可以表示為:

        根據(jù)公式(12)與公式(13),公式(14)可以寫為:

        公式(15)可被簡化為:

        從公式(16)可以看出,若在第0波中初始種子被選擇的概率與度成正比,則在招募周期1中每條邊被選擇的概率相等。在第1 波中節(jié)點(diǎn)j被選擇的概率等于與其相連的邊的個數(shù)dj在招募周期1中被選擇的概率之和:

        公式(17)表明,如果初始種子的選擇概率與自身的度成比例,那么第1波中的節(jié)點(diǎn)被選擇的概率也與其度成比例,依次類推,所有連續(xù)波中的節(jié)點(diǎn)都將以與其自身度成比例的概率被選擇,那么邊ej→k在招募周期x中被選擇的概率可以推廣到所有邊,表示為:

        2.2.2 應(yīng)用RDS樣本估計(jì)隱藏總體結(jié)構(gòu)

        對于隱藏總體,如上所述,σA,B(σB,A)為從A(B)組成員出發(fā)隨機(jī)選擇一條邊連接到B(A)組成員的概率,若估計(jì)隱藏總體中特征A 的比例,則需要使用樣本對σA,B和σB,A進(jìn)行估計(jì)。

        將樣本中的邊分為四組:從A組成員出發(fā)連接到A組成員的邊數(shù)表示為rAA;從A 組成員出發(fā)連接到B 組成員的邊數(shù)表示為rAB;從B 組成員出發(fā)連接到A 組成員的邊數(shù)表示為rBA;從B 組成員出發(fā)連接到B 組成員的邊數(shù)表示為rBB。每一條邊被選擇的概率是相等的,且樣本中觀測到的邊是隨機(jī)的,因此σA,B和σB,A的無偏估計(jì)可分別表示為:

        下面估計(jì)A 組和B 組中節(jié)點(diǎn)的平均度和。有兩種估計(jì)方法。

        第一種是度分布法。已知在滿足假設(shè)的情況下,在所有招募波中節(jié)點(diǎn)被選擇的概率與自身的度成比例,先運(yùn)用樣本的度分布qA(d)來估計(jì)總體的度分布pA(d),再利用總體的度分布來估計(jì)A組成員的平均度。樣本的度分布qA(d)可以表示為:

        將公式(22)代入公式(23),可以得到:

        定義樣本中A組成員的度為d的頻數(shù)分布fA(d),則,其中,nA為樣本中A組成員的數(shù)量,可以將公式(25)改寫為:

        其中,πi為節(jié)點(diǎn)i被選擇的概率。雖然πi是未知的,但πi與度di成比例。若對任意節(jié)點(diǎn)i與k的相對選擇概率是已知的,則有:

        因此,公式(28)可以重新被寫為:

        公式(31)不需要知道每個節(jié)點(diǎn)被選擇的概率,只需要知道樣本中節(jié)點(diǎn)的度。由于公式(27)和公式(31)是相同的,因此可以得到的估計(jì)量為:

        由于Horvitz-Thompson 估計(jì)量是無偏的,因此兩個Horvitz-Thompson估計(jì)量的比值也是漸近無偏的。

        將公式(19)和公式(32)代入公式(8),得到特征A 總體比例的估計(jì)量為:

        基于模型的RDS估計(jì)量也被稱為SH估計(jì)量[4],與待估計(jì)屬性的平均度與特征屬性組間的被選擇概率有關(guān)。

        3 模擬研究

        R包提供了SH的估計(jì)方法。本文將科羅拉多州高危異性戀社區(qū)HIV 數(shù)據(jù)“Project 90”的復(fù)雜社會關(guān)系網(wǎng)絡(luò)作為隱藏總體社會關(guān)系網(wǎng)絡(luò),網(wǎng)絡(luò)中包含每位受訪者的13個二水平特征屬性的觀測值,分別取值為0 和1。并通過以下模擬過程生成RDS樣本。

        步驟1:從時間為0開始,從特征屬性組中隨機(jī)選取10顆初始種子進(jìn)行招募,每位招募人員可招募1~3名新的受訪者。

        步驟2:樣本中的每位新受訪者用符號j來表示,招募時間記為tj,則:

        (1)受訪者招募0 名、1 名、2 名、3 名新受訪者的概率滿足多項(xiàng)分布(0,0.4,0.3,0.3),=0,1,2,3。

        步驟3:如果沒有達(dá)到預(yù)期的樣本量,那么將招募時間最短的潛在受訪者加入樣本中,然后重新返回步驟2。如果沒有潛在受訪者存在,那么就從未被抽樣的成員中完全隨機(jī)地添加一個新的初始種子。

        對上述抽樣過程進(jìn)行1000 次模擬,考慮RDS 實(shí)際招募過程情況,設(shè)定RDS抽樣比為15%,即RDS樣本數(shù)量為616,最終抽取1000個樣本量為616的RDS模擬樣本,應(yīng)用R軟件“RDS”包估計(jì)總體特征,結(jié)果如表1所示。

        表1 總體比例、比例估計(jì)中位數(shù)、均值(單位:%)

        從表1可以看出,Race總體比例估計(jì)的中位數(shù)與真值的差是4.98%,均值與真值的差是4.80%,在所有屬性估計(jì)的誤差中最大,其他屬性的比例估計(jì)都在1%以內(nèi),在可接受的誤差內(nèi)。

        表2 估計(jì)的均方誤差(MSE)、均方根誤差(RMSE)

        4 結(jié)束語

        RDS的抽樣方法已廣泛應(yīng)用于公共衛(wèi)生、社會學(xué)研究等領(lǐng)域。RDS 也可應(yīng)用于在線社交網(wǎng)絡(luò)調(diào)查,不僅經(jīng)濟(jì)、高效,而且能夠進(jìn)行統(tǒng)計(jì)推斷,降低樣本選擇偏差。RDSA軟件及R 包中的RDS 為受訪者驅(qū)動抽樣應(yīng)用提供了扎實(shí)的實(shí)踐平臺。RDS抽樣假設(shè)總體的屬性特征是有限的,本文假設(shè)總體就某一屬性具有二水平值,這種思想可以拓展到多水平值。

        RDS將傳統(tǒng)雪球抽樣方法的單向激勵變?yōu)殡p向激勵,提高了招募的效率;要求調(diào)查對象由同伴招募而不是由同伴向調(diào)查者推薦,減少了招募過程中拒絕的比例,同時保護(hù)了參與者的隱私;RDS通過限制推舉同伴數(shù)量延長招募的輪數(shù),使招募的調(diào)查對象盡可能深入到目標(biāo)人群中,減少了對種子的依賴性,從而提高了樣本的代表性。模型推斷方法以社會網(wǎng)絡(luò)模型為基礎(chǔ),獲得了關(guān)于隱藏總體的某一屬性特征比例的估計(jì)。RDS 的模擬抽樣過程為研究隱藏總體的推斷提供了可能性,數(shù)值分析表明模型推斷方法估計(jì)具有穩(wěn)健性。

        基于RDS抽樣的穩(wěn)健分析結(jié)果需要滿足RDS抽樣的假定條件,實(shí)踐中嚴(yán)格滿足假定條件是很困難的,分析RDS對假定條件的穩(wěn)健性需要進(jìn)一步深入研究。

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機(jī)變量的分布列與數(shù)字特征
        具有兩個P’維非線性不可約特征標(biāo)的非可解群
        月震特征及與地震的對比
        如何表達(dá)“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個特征
        詈語的文化蘊(yùn)含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        欧美国产日本高清不卡| 日韩肥臀人妻中文字幕一区| 男人吃奶摸下挵进去啪啪软件| 国产成熟人妻换╳╳╳╳| 亚洲综合欧美在线| 手机av男人天堂免费网址| 蜜臀av一区二区三区久久| 日本最新免费二区| 欧美日韩人妻| 蜜桃av夺取一区二区三区| 二区免费在线视频观看| 蜜桃av一区在线观看| 国产精品国产自产自拍高清av| 麻豆婷婷狠狠色18禁久久| 欧美情侣性视频| 国产99精品精品久久免费| 亚洲免费女女在线视频网站| 亚洲精品一品区二品区三品区| 狠狠久久亚洲欧美专区| 少妇高潮紧爽免费观看| 亚洲av一区二区三区色多多| 色吊丝中文字幕| 欧美亚洲国产日韩一区二区三区| 粉嫩的18在线观看极品精品| 一区二区三区四区国产99| 亚洲乱码中文字幕综合| 秋霞日韩一区二区三区在线观看| 国产特黄a三级三级三中国| 真人抽搐一进一出视频| 国产极品久久久久极品| 中文字幕第一页在线无码一区二区| 日本美女在线一区二区| 国产精品久久国产精品99 | 性大毛片视频| 久久精品无码专区东京热| 亚洲伊人av综合福利| 国内偷拍第一视频第一视频区| 精品厕所偷拍一区二区视频| 日本成本人三级在线观看| 国产精品一区二区三级| 丝袜美腿亚洲综合第一页|