米子川 聶瑞華 衛(wèi)軍
摘 要:在大數(shù)據(jù)時(shí)代,信息展現(xiàn)出其前所未有的能量,因此,獲取信息尤其是有價(jià)值的信息是很重要的。對(duì)于處于社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的人們而言,他們身上也蘊(yùn)含著豐富的信息,如何有效地從他們身上獲取信息至關(guān)重要。文章回顧已有的對(duì)社會(huì)網(wǎng)絡(luò)人群的抽樣方法研究后發(fā)現(xiàn),借助網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)展調(diào)查的滾雪球抽樣和同伴驅(qū)動(dòng)抽樣受到了學(xué)者們的關(guān)注,在結(jié)合了社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn)后,給出了在大數(shù)據(jù)下如何實(shí)現(xiàn)社會(huì)網(wǎng)絡(luò)人群抽樣的思考。
關(guān)鍵詞:非概率抽樣 社會(huì)網(wǎng)絡(luò) 大數(shù)據(jù)
中圖分類(lèi)號(hào):F626.5
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-4914(2016)03-030-02
一、研究意義
傳統(tǒng)的社會(huì)網(wǎng)絡(luò)主要存在于人群中的血緣關(guān)系、地緣關(guān)系、政治關(guān)系、經(jīng)濟(jì)關(guān)系、宗教關(guān)系以及其他社會(huì)性的聯(lián)系,這些或強(qiáng)或弱的人際關(guān)系形成了各種各樣的社會(huì)網(wǎng)絡(luò)。有些社會(huì)網(wǎng)絡(luò)是開(kāi)放的,可以通過(guò)多種方法進(jìn)行調(diào)查研究,比如對(duì)于親緣關(guān)系和同伴關(guān)系的研究,這些研究甚至可以通過(guò)直接的問(wèn)卷調(diào)查進(jìn)行;但有些網(wǎng)絡(luò)是封閉的,從外部很難進(jìn)入,對(duì)這些網(wǎng)絡(luò)的調(diào)查研究和深入分析比較困難,比如一些特殊人群的圈子、宗教網(wǎng)絡(luò)或者政治性群體。
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,社交型網(wǎng)絡(luò)帶來(lái)了社會(huì)網(wǎng)絡(luò)的極度膨脹和蔓延,大量虛擬的社會(huì)網(wǎng)絡(luò)呈現(xiàn)在人們面前,這個(gè)被稱為“網(wǎng)友”的社會(huì)群體逐漸成為新的社會(huì)網(wǎng)絡(luò)研究對(duì)象。人們的群體認(rèn)知和社會(huì)交往都發(fā)生了極大的改變,社會(huì)群體的規(guī)模、結(jié)構(gòu)、關(guān)聯(lián)和復(fù)雜性都大大加強(qiáng)。
同時(shí),2012年以來(lái),人們對(duì)于大數(shù)據(jù)時(shí)代的探討和研究越來(lái)越多,其中一個(gè)重要的問(wèn)題就是大數(shù)據(jù)時(shí)代是否還需要抽樣。有學(xué)者建議使用行政記錄或相關(guān)的基礎(chǔ)數(shù)據(jù)的完全統(tǒng)計(jì)分析來(lái)取代抽樣調(diào)查。就社會(huì)群體而言,群體大數(shù)據(jù)的記錄和分析同樣具有很大的困難,這是由于社會(huì)網(wǎng)絡(luò)的邊界屬性和區(qū)隔特征所決定的,大多數(shù)社會(huì)網(wǎng)絡(luò)的成員之間有著相似的群體特征,而與外部個(gè)體有著顯著的區(qū)隔。比如宗教團(tuán)體成員之間的互信關(guān)系、艾滋病患者之間的“同病相憐”關(guān)系等,都無(wú)法通過(guò)簡(jiǎn)單的大數(shù)據(jù)關(guān)系實(shí)現(xiàn)統(tǒng)計(jì)分析和推斷。因此,抽樣調(diào)查就顯得比較重要。
由于社會(huì)網(wǎng)絡(luò)的現(xiàn)實(shí)性及其成員之間的特殊關(guān)聯(lián),利用現(xiàn)有的隨機(jī)抽樣的方法幾乎無(wú)法完成調(diào)查和統(tǒng)計(jì)分析,一是因?yàn)闊o(wú)法得到一個(gè)社會(huì)網(wǎng)絡(luò)成員的抽樣框,其成員的花名冊(cè)通常是保密的或者不可知的;二是因?yàn)榧词褂谐闃涌颍瑢?duì)這些特殊群體的訪問(wèn)也是無(wú)法實(shí)現(xiàn)的;三是一些社會(huì)網(wǎng)絡(luò)人群對(duì)面向社會(huì)現(xiàn)實(shí)的抽樣調(diào)查有著天然的抗拒和排斥心理。
然而由于研究或?qū)嵺`的需要,有時(shí)需要對(duì)網(wǎng)絡(luò)人群的相關(guān)情況進(jìn)行估計(jì),通過(guò)相關(guān)理論和實(shí)踐研究發(fā)現(xiàn),一些非概率抽樣方法可以應(yīng)用于上述情況中。
本文回顧了可應(yīng)用于網(wǎng)絡(luò)人群抽樣的非概率抽樣方法。
二、利用非概率抽樣方法對(duì)社會(huì)網(wǎng)絡(luò)人群抽樣的研究現(xiàn)狀
目前來(lái)看,國(guó)內(nèi)學(xué)者對(duì)非概率抽樣方法對(duì)隱藏人群抽樣的研究還比較少,無(wú)論研究的程度和寬度均與國(guó)外學(xué)者有較大差距。
國(guó)外學(xué)者對(duì)社交網(wǎng)絡(luò)人群的的抽樣研究做了許多細(xì)致而有效的工作,其成果大體可以分為以下四類(lèi):
1.對(duì)抽樣方法的理論研究。Goodman(1961){1}詳細(xì)地介紹了S階段K推薦滾雪球抽樣的定義,并討論了如何通過(guò)抽樣樣本對(duì)總體的一些特征做出推斷,例如以S=K=1的情形為例,對(duì)如何表示總體中相互推薦的關(guān)系數(shù)目進(jìn)行了詳細(xì)論證,他指出,在對(duì)隱藏人群進(jìn)行抽樣時(shí),滾雪球抽樣比簡(jiǎn)單隨機(jī)抽樣更具效率。Salganik(2006){2}對(duì)同伴驅(qū)動(dòng)抽樣的設(shè)計(jì)效應(yīng)和抽樣規(guī)模進(jìn)行了深入討論,并發(fā)現(xiàn)在使用同伴驅(qū)動(dòng)抽樣時(shí),所需要的樣本容量是簡(jiǎn)單隨機(jī)抽樣下的2倍。Heckathorn(2007){3}提出在假設(shè)合理的情況下,同伴驅(qū)動(dòng)抽樣能夠?qū)傮w作出漸進(jìn)無(wú)偏估計(jì)。
2.結(jié)合具體案例,對(duì)抽樣方法理論進(jìn)行驗(yàn)證性研究。Malekinejad等人(2008){4}通過(guò)實(shí)際調(diào)查發(fā)現(xiàn),如果設(shè)計(jì)合理,同伴驅(qū)動(dòng)抽樣在被應(yīng)用到高危人群抽樣時(shí),是一種有效的方法。Wejnert(2009){5}論證了在使用真實(shí)數(shù)據(jù)的情況下,利用同伴驅(qū)動(dòng)抽樣是能夠給出有效的估計(jì)的。Sadler等(2010){6}討論了滾雪球抽樣在招募隱藏人群時(shí)的優(yōu)缺點(diǎn),認(rèn)為在使用滾雪球抽樣時(shí),應(yīng)當(dāng)十分慎重。Johnston等(2010){7}討論了在實(shí)際應(yīng)用同伴驅(qū)動(dòng)抽樣時(shí)所面對(duì)的優(yōu)缺點(diǎn)。Perez等(2011){8}利用實(shí)際數(shù)據(jù)證明了,在恰當(dāng)?shù)氖褂脻L雪球抽樣方法后,對(duì)少數(shù)人群的抽樣節(jié)省而高效。Korf(2012){9}利用數(shù)據(jù)再次驗(yàn)證了同伴驅(qū)動(dòng)抽樣比隨機(jī)抽樣在面對(duì)隱藏人群時(shí)更為有效。
3.對(duì)不同抽樣方法的比較研究。Heckathorn(1997){10}比較了滾雪球抽樣和同伴推動(dòng)抽樣的不同點(diǎn),他指出,同伴推動(dòng)抽樣利用二次激勵(lì)提高了抽樣者推動(dòng)和控制的效率并減少了花費(fèi)。Salganik和Heckathorn(2004){11}在比較了目標(biāo)抽樣和時(shí)間空間抽樣在對(duì)隱藏人群的估計(jì)偏差方面的不足后,提出了同伴驅(qū)動(dòng)抽樣通過(guò)充分利用社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的信息,能夠更好的對(duì)總體作出相應(yīng)估計(jì),并給出了相應(yīng)數(shù)學(xué)推導(dǎo)。Magnani等(2005){12}在研究如何對(duì)隱藏人群抽樣時(shí),比較了滾雪球抽樣、目標(biāo)抽樣、時(shí)間空間抽樣以及同伴驅(qū)動(dòng)抽樣等抽樣方法的優(yōu)劣。Semaan(2010){13}從目的、應(yīng)用、調(diào)查過(guò)程以及優(yōu)缺點(diǎn)等方面對(duì)時(shí)間空間抽樣和同伴推動(dòng)抽樣做了對(duì)比。Kral等(2010){14}以招募美國(guó)舊金山的吸毒者為例,比較了同伴驅(qū)動(dòng)抽樣和目標(biāo)抽樣的效果。他發(fā)現(xiàn),兩種方法各具優(yōu)勢(shì),綜合兩種方法也許是更好的抽樣方法。
4.將抽樣方法應(yīng)用于各種領(lǐng)域中的橫向研究。Baltar等(2011){15}在利用臉譜來(lái)研究移民時(shí),借助了滾雪球抽樣。Illenberger(2013){16}利用滾雪球抽樣設(shè)計(jì)來(lái)從已有數(shù)據(jù)中估計(jì)拓普網(wǎng)絡(luò)的特性。
三、應(yīng)用到社交網(wǎng)絡(luò)平臺(tái)的思考
從已有的研究看,由于隱藏人群的比例較小且常常難以接觸,常規(guī)的抽樣方法難以有效實(shí)施,學(xué)者們普遍認(rèn)為滾雪球抽樣以及同伴驅(qū)動(dòng)抽樣是較好的抽樣方法,這是因?yàn)樯鲜龇椒ń柚巳穗H網(wǎng)絡(luò),提高了調(diào)查效率。
對(duì)網(wǎng)絡(luò)人群的抽樣方法研究集中在滾雪球抽樣和同伴驅(qū)動(dòng)抽樣上,二者的區(qū)別在于同伴驅(qū)動(dòng)抽樣加入了二次激勵(lì)機(jī)制。已有學(xué)者借助滾雪球抽樣在虛擬網(wǎng)絡(luò)中實(shí)現(xiàn)對(duì)目標(biāo)群體的抽樣。結(jié)合上述兩種抽樣方法的特點(diǎn),當(dāng)需要在線上發(fā)起一項(xiàng)調(diào)查時(shí),同伴驅(qū)動(dòng)抽樣可能將是一種較好的調(diào)查方式,而如果想要對(duì)社交網(wǎng)絡(luò)中某一群體的特征做研究,考慮到網(wǎng)友之間的推薦關(guān)系可由已存在的“好友”關(guān)系所替代,借助網(wǎng)絡(luò)技術(shù)就能達(dá)到搜集數(shù)據(jù)的目的,滾雪球抽樣和同伴驅(qū)動(dòng)抽樣的效果是基本相同的。
四、小結(jié)
處于大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的一個(gè)重要特征就是體量巨大。在這個(gè)時(shí)代,人們能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為推動(dòng)人們生活方式變化的有價(jià)值的知識(shí)。在大數(shù)據(jù)時(shí)代,信息會(huì)展現(xiàn)出其前所未有的能量,因此,獲取信息尤其是有價(jià)值的信息是很重要的。對(duì)于處于社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的人們(尤其是特殊群體)而言,他們身上也蘊(yùn)含著豐富的信息,如何有效的從他們身上獲取信息至關(guān)重要。
對(duì)于處于社會(huì)網(wǎng)絡(luò)中的人們而言,由于無(wú)法獲取抽樣框等原因,在利用傳統(tǒng)的概率抽樣方法時(shí),很難有效地獲取所需信息。解決這一問(wèn)題的重要途徑就是利用滾雪球抽樣、同伴驅(qū)動(dòng)抽樣等非概率抽樣方法,即在充分利用社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn)之上,完成對(duì)目標(biāo)群體的抽樣,特別的,在面對(duì)社交網(wǎng)絡(luò)時(shí),應(yīng)當(dāng)注意利用其已存在并可被識(shí)別的“網(wǎng)友”關(guān)系。
本文詳細(xì)介紹了利用非概率抽樣方法對(duì)社會(huì)網(wǎng)絡(luò)人群抽樣的研究現(xiàn)狀,并在此基礎(chǔ)上給出了今后應(yīng)用的思考,當(dāng)然,就如何使用非概率抽樣方法在社會(huì)網(wǎng)絡(luò)上實(shí)現(xiàn)目標(biāo)群體的抽樣還有待進(jìn)一步的研究。
[課題支持:1.2013年山西省普通高校特色重點(diǎn)學(xué)科項(xiàng)目《山西綜改實(shí)驗(yàn)區(qū)建設(shè)統(tǒng)計(jì)調(diào)查與評(píng)價(jià)方法設(shè)計(jì)和應(yīng)用》;2.2015年山西省研究生創(chuàng)新項(xiàng)目《轉(zhuǎn)型期社會(huì)網(wǎng)絡(luò)非概率抽樣研究》編號(hào)2015SY47]
注釋?zhuān)?/p>
{1}Goodman Leo A. Snowball Sampling. Annals of Mathematical Statistics. 1961;32:148 170.
{2}Salganik Matthew J. Variance Estimation, Design Effects, and Sample Size Calculations for Respondent-Driven sampling. Journal of Urban Health. 2006;83:i98 i112.
{3}Heckathorn Douglas D. Extensions of Respondent-Driven Sampling: Analyzing Continuous Variables and Controlling for Differential Recruitment. In: Xie Yu., editor. Sociological Methodology. vol. 37. Boston, MA: Blackwell Publishing; 2007. pp. 151 207.
{4}Malekinejad M, Johnston LG, Kendall C, Kerr LR, Rifkin MR, Rutherford GW. Using Respondent-Driven Sampling Methodology for HIV Biological and Behavioral Surveillance in International Settings: A Systematic Review. AIDS and Behavior. 2008;12:105 130.
{5}Wejnert Cyprian. An Empirical Test of Respondent-Driven Sampling: Point Estimates, Variance, Degree Measures, and Out-of-Equilibrium Data. In: Xie Yu., editor. Sociological Methodology. vol. 39. Hoboken, NJ: Wiley-Blackwell; 2009. pp. 73 116.
{6}Sadler, Hau-Chen Lee, Lim, Fullerton. Recruitment of hard-to-rearch population subgroups via adaptations of the snowball sampling strategy. Nursing and Health Sciences. 2010:12:369-374.
{7}Lisa G. Johnston and Keith Sabin. Sampling hard-to-reach populations with respondent driven sampling. Methodological Innovations Oline. 2010.pp.38-48.
{8}Daniel F.Perez, Jason X.Nie, Cheis I.Ardern, Natasha Radhu, Paul Ritvo. Impact of Participant Incentives and Direct and Snowball Sampling on Survey Response Rate in an Ethnically Diverse Community:Results from a Pilot Study of Physical Activity and the Built Environment. J Immigrant Minority Health. 2011.
{9}Korf. Differential Profiles of Crack Users in Respondent-Driven and Institutional Samples:A Three-Site Comparison. European Addicition Research,2012:18,192.
{10}Heckathorn Douglas D. Respondent-Driven Sampling: A New Approach to The Study of Hidden Populations. Social Problems. 1997;44:174 0199.
{11}Salganik Matthew J, Heckathorn Douglas D. Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling. In: Stolzenberg Ross M., editor. Sociological Methodology. vol 34. Boston, MA: Blackwell Publishing; 2004. pp. 193 239.
{12}Magnani Robert, Sabin Keith, Saidel Tobi, Heckathorn Douglas D. Review of Sampling Hard-to-Reach and Hidden Populations for HIV Surveillance. AIDS 2005. 2005;19 Suppl2:S67 S72.
{13}Salaam Semaan. Time-Space Samping and Respondent-Driven Sampling with Hard-To-Reach Populations. Methodological Innovations Online. 2010:5:60-75.
{14}Kral, Malekinejad, Vaudrey, Martinez, Lorvick, McFarland, Raymond. Comparing Respondent-Driven Sampling and Targeted Sampling Methods of Recruiting Injection Drug Users in San Francisco. Bulletin of the New York Academy of medicine. 2010.
{15}Fabiola Baltar, Ignasi Brunet. Social research 2.0:virtual snowball samling method using Facebook. Internet Research. 2012:pp.57-74.
{16}Johannes Illenberger, Gunnar Fl?tter?d. Estimating network properties from snowball sampled data Working Paper 11-01. Preprint submitted to Social Networks. 2013
(作者單位:山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 山西太原 030006)
(作者簡(jiǎn)介:聶瑞華,山西太原人,山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 統(tǒng)計(jì)學(xué)碩士研究生在讀。研究方向:經(jīng)濟(jì)統(tǒng)計(jì),抽樣調(diào)查,行為金融)
(責(zé)編:鄭釗)