潘綏銘 張 娜 黃盈盈
摘要:筆者們在完成總人口的多階段抽樣的筆記本電腦輔助的實地調查之后,以縮減的同一問卷進行網(wǎng)站調查。兩者的可比性得以論證。通過對照分析,發(fā)現(xiàn)網(wǎng)站調查應答者的階層分布相比于前者出現(xiàn)了全面的統(tǒng)計學上的顯著差異,證明網(wǎng)站調查既不能代表總人口,也不能代表網(wǎng)民,甚至不能代表城市男性網(wǎng)民。網(wǎng)站調查的興旺與不受批評的現(xiàn)狀,來源于當前大眾的信息饑渴與無知rr從業(yè)者和無良傳媒商的自覺合謀制造以及學術界對社會責任的忽視。網(wǎng)站調查本質上是招募調查,因此不是做不到而是不需要總體界定與隨機抽樣。這違背了科學研究方法的基本定義,因此網(wǎng)站調查只能向著開展定性調查的方向發(fā)展。
關鍵詞:網(wǎng)絡調查;網(wǎng)站調查;隨機抽樣;調查方法論;科學性
中圖分類號:C915文獻標志碼:A
一、問題的提出與研究方法
1提出問題的背景。在互聯(lián)網(wǎng)上的某個網(wǎng)站發(fā)布、僅僅由上網(wǎng)者主動登錄該網(wǎng)站并且主動回答的定量問卷調查(網(wǎng)站調查,web survey,web-based survey),至晚從2005年開始就在我國呈現(xiàn)為幾何式的增加,其調查結果往往被大眾傳媒廣泛地、放大地傳播,不但已經在相當大的程度上影響到公眾的認知與價值判斷傾向,甚至影響到政府行政與立法;就連被認為應該是科學性要求最強的醫(yī)學領域中,居然也有人堂而皇之地使用起這樣的網(wǎng)站調查的結果。在“性”方面最典型的例子是:生產避孕套(安全套)的杜蕾斯公司2004年公布其網(wǎng)站調查結果說:中國人的性伴侶人數(shù)達到平均19.3個,是世界上最多的。經大眾媒體廣泛傳播之后,引發(fā)了中國公眾的極大困惑與爭論。盡管該公司的網(wǎng)站調查負責人信誓旦旦地說:“我們就是想盡一些社會責任,了解人們性生活全景,并和社會來分享信息。這個報告和商業(yè)沒有任何關系,也不會為商業(yè)而用?!钡菑钠渖鐣Ч麃砜?,人們仍然很有理由認為,這個網(wǎng)站調查其實從一開始就可能僅僅是該公司的一種促銷手段而已。
雖然國際上已有研究,雖然我國的一些學者在泛論式的研究成果中也涉及到這方面的問題,但是我國學術界到目前為止仍然沒有專門針對這種大行其道的網(wǎng)站調查的論文。
2問題的提出。網(wǎng)站調查既沒有一個調查總體,也不可能進行隨機抽樣,因此其結果不具有任何意義上的代表性,這是學術界一直堅持的共識(金懷玉,2002;郭繼志,2006;胡云峰,2008),某些網(wǎng)站調查的主張者也敢于公然承認這一點。(12)
但是,網(wǎng)站調查的這種非隨機抽樣方法究竟產生了多大程度的樣本偏差,這種偏差又造成了調查結果在多大程度上的失誤,我國學術界目前尚缺乏實證的研究成果。這不利于對網(wǎng)站調查方法及其結果進行科學的評價,不利于引導公眾正確看待各種網(wǎng)站調查的結果,客觀上可能造成學術界放棄引導公眾之社會責任。
筆者尤其希望論述的是:網(wǎng)站調查的這種樣本偏差為什么值得學術界高度重視?其方法論層面(而不是操作層面)的意義是什么?筆者又主張什么與建議什么?為此,筆者設計了這樣的一個研究方案:
(一)研究方法
首先,在福特基金會的資助下,筆者于2006年8月到12月完成了一項全國18—60歲總人口的多階段抽樣問卷調查。第一級抽樣單位為縣級區(qū)域,按照城鄉(xiāng)分層,以離婚率排序進行系統(tǒng)抽樣,共抽取21個省市自治區(qū)的120個縣級區(qū)域,其中75個城市縣級區(qū)域,45個農村縣級區(qū)域。第二級抽樣單位是在抽中的縣級區(qū)域里,采用隨機數(shù)確定一個街道(鎮(zhèn)、鄉(xiāng))。第三級抽樣單位是居委會(村),在城市的街道中采用隨機數(shù)抽取2個居委會,在農村的鎮(zhèn)鄉(xiāng)中采用隨機數(shù)抽取一個村,共抽取195個居委會(村)。最后以當?shù)鼐幼∪丝跒榈?級抽樣單位,按照當?shù)爻W∪丝诿麊渭捌涞乩矸秶鷥鹊牧鲃尤丝诘目側藬?shù)進行系統(tǒng)抽樣,共獲得5403個有效樣本。(以下簡稱為“總人口調查”(10)
然后,筆者從2007年8月開始,將同樣的問卷,在保留所有基本提問,刪除細節(jié)追問之后(題量大約是原來的一半),以Web格式掛在一個公共網(wǎng)站上(http://www.omni3w.net/omnisurvey/)。到2008年12月1日為止,共獲得18歲到60歲的2593人的有效回答。(以下簡稱為“網(wǎng)站調查”)
第三步,將兩組數(shù)據(jù)進行對比分析,以便發(fā)現(xiàn)其差異。其中總人口調查的數(shù)據(jù)已經按照抽樣方案,使用2005年百分之一人口普查數(shù)據(jù)進行加權。本文下列的所有統(tǒng)計表格中的所有變量均進行了交叉表的卡方檢驗(Pealsoil Chi-Square,Asymp,Sig.2-sided)與獨立樣本的T值檢驗(independent-sample T test),其統(tǒng)計量均為0.0000。(下文中不再一一列出。)
(二)可比性論證
由于筆者進行的是對比分析,因此將兩種調查方法的可比性進行論證如下:
2006年筆者所進行的全國總人口問卷調查,采用筆記本電腦輔助的調查方法(computer survey),也就是把問卷設計成電子格式,顯示在調查員隨身攜帶的筆記本電腦的屏幕上,由被調查者來按鍵回答。這是目前國際上效果最佳的實地社會調查方法。
這種方法與網(wǎng)站調查實際上已經具有完全的同質性,當然可以作為評價網(wǎng)站調查結果的對照標準。其具體表現(xiàn)為:
1筆者在總人口調查中,事先給每位被調查者送交一封預約信,說明筆者的調查目的與大概內容,邀請他們到預定的地點來接受調查。因此被調查者具有完全的自由與相應的能力來選擇是否接受調查。這與網(wǎng)站調查所采用的招募自愿者的方法,在自愿回答這一點上不存在任何性質的差異。
2筆者把被調查者請到完全封閉的獨立的訪談室,獨自面對電腦屏幕,自己作答。訪談室內只有與被調查者同性別的訪談員。他們坐在筆記本電腦的對面,由于電腦屏幕(蓋子)的遮擋,完全看不到被調查者的回答結果,只有在被調查者需要的時候才會提供適當?shù)恼f明與電腦操作上的幫助。這與網(wǎng)站調查所最著力標榜的獨立回答(因此最能保密),具有完全相同的性質。
3在被調查者能夠“真實表述”這一點上,筆者的反證是:既然筆者的調查在動員與回答的各個環(huán)節(jié)上與網(wǎng)站調查在性質上相同,那么其回答也就會具有相同性質的真實。
(三)筆者的調查內容對于本論題的特殊意義
筆者的這兩個調查都是針對性行為與性關系的高度敏感問題。調查這樣的內容,網(wǎng)站調查往往被認為具有大得多的真實性。姑且不論這一點,筆者的假設是:如果網(wǎng)站調查的樣本偏差程度在統(tǒng)計學上是顯著的,那么眾多的個體的真實回答匯集起來的恰恰就是總體認知上的謬誤。
(四)問題的凝煉
綜上所述,筆者所進行的筆記本電腦輔助的實地社會調查,在操作方法上與網(wǎng)站調查并不存在性質上的差異,那么對于調查結果來說,唯一
的差異只能是來自于是否進行了隨機抽樣。也就是說,筆者所設計的對照研究,不僅足以檢驗網(wǎng)站調查的樣本偏差的程度及其后果,而且是檢驗的最佳途徑。
二、網(wǎng)站調查樣本的社會階層分布嚴重偏離實況
1與總人口的偏差。在現(xiàn)實生活中,網(wǎng)站調查的實施者經常把大規(guī)模的樣本量當作標榜其調查結果具有代表性的最重要的指標,有時甚至是唯一標準。
我國的絕大多數(shù)相關的研究成果都已經指出了上述說法的荒謬。筆者的實證對比研究也清楚地表明:在筆者所設置的30個社會階層特征指標中,與全國總人口調查的結果相比,網(wǎng)站調查結果中基本持平的指標僅有7個,而其余的23個指標相差可以達到58個百分點,甚至相差20倍(上過大學或者研究生的比例)。這就使得任何統(tǒng)計技術層次上的矯正都失去了可能性。
2與全國網(wǎng)民總體的偏差。在大眾傳媒領域中,雖然尚無直接的理論論述,但是在使用過程中相當多的人認為,網(wǎng)站調查雖然不能代表中國的總人口,但是至少在一定程度上可以代表中國的網(wǎng)民。這成為網(wǎng)站調查結果被廣泛傳播的重要理論依據(jù)之一。
但是,筆者把全國總人口調查中的網(wǎng)民抽出來與網(wǎng)站調查結果進行對照卻發(fā)現(xiàn):即使僅僅針對網(wǎng)民這個群體,網(wǎng)站調查的對象也系統(tǒng)地偏向于城市的、30歲以下的、大學以上的、中等以上收入的科技人員與知識分子。其間的差異可以達到49個百分點,甚至5倍左右(上過大學或者研究生的比例)。顯然,網(wǎng)站調查無法代表全國的網(wǎng)民總體。
3與城市男性網(wǎng)民總體的偏差。網(wǎng)站調查樣本就連特定的網(wǎng)民小群體也無法代表。筆者把兩個調查中的城市男性網(wǎng)民這樣一個總體單獨抽取出來進行對照分析,發(fā)現(xiàn)網(wǎng)站調查在其他社會階層特征上的差異仍然很大而且具有統(tǒng)計學顯著性。上述三點匯總起來便得到下面的表1。
表1充分表明:即使網(wǎng)站調查中的某些社會階層的數(shù)據(jù),恰巧基本符合了隨機抽樣的總人口調查的結果,它也仍然因其在另外那些重要社會特征方面所存在的偏差而無法代表那些數(shù)據(jù)恰巧基本相符的社會階層。
三、網(wǎng)站調查的樣本偏差帶來的認知謬誤
表2說明:那些在網(wǎng)上回答筆者調查的人,其實都是那些性活動非?;钴S而且不遵守傳統(tǒng)性道德的人們中那些表現(xiàn)欲更強一些的人??墒牵词故莾H僅針對這些特定人,網(wǎng)站調查的結果也僅僅是表現(xiàn)出這些人的共同傾向,仍然不具有任何意義上的代表性。
如果學術界任由這樣的網(wǎng)站調查結果在大眾傳媒中擴散,那么就會夸大“性自由者”的比例,就會扭曲城市男性網(wǎng)民、全體網(wǎng)民乃至全體中國人的性的存在狀況,甚至可能引來社會管理方面的決策失誤。
四、網(wǎng)站調查興起及其社會文化原因
網(wǎng)站調查得以興起,最基本的社會推動力來自于中國公眾的“統(tǒng)計數(shù)字饑渴”。長期以來,中國的統(tǒng)計數(shù)字一是過于官方化(唯有官方機構在調查與發(fā)布),二是過于物質化(主要是調查與統(tǒng)計各種可測量的客觀存在物),對于普通人所關心的常人生活中的各種生動現(xiàn)象與人們的實踐活動卻缺乏調查與統(tǒng)計,造成了供給不足所引發(fā)的需求旺盛。
首先,無知與無良自覺合謀的“統(tǒng)計數(shù)字經濟學”是大約21世紀以來中國的獨特產物㈣。它雖然來自“眼球經濟”(注意力經濟,the economv of attention)”,但是在當今的中國,這往往是一種高度自覺的合謀行為:一些缺乏社會科學基本訓練的IT從業(yè)者,持續(xù)地、商業(yè)化地、批量化地生產出各式各樣的非隨機抽樣的網(wǎng)站調查結果,再由一些力圖吸引眼球的傳媒商人包裝為五花八門的聳人聽聞的“統(tǒng)計數(shù)字”來賺錢。他們還發(fā)出豪言壯語:“網(wǎng)絡調查必將取代傳統(tǒng)的調查方式,這是調查業(yè)發(fā)展的趨勢和方向?!苯Y果,中國公眾在信息供不應求的同時,還不得不面臨著信息的商業(yè)化選擇甚至是公然造假。
其次,中國社會科學界在社會調查與統(tǒng)計分析方面的專業(yè)化程度不夠,而普及程度更低。網(wǎng)站調查對于公眾的誤導,在相當大的程度上應該歸因于社會科學家既沒有積極抗爭“傳媒的話語霸權”,也沒有用日常語言把社會調查中隨機抽樣的必要性給公眾講清楚。
五、網(wǎng)站調查的欠科學性
表面上看來,網(wǎng)站調查與總人口調查之間在代表性方面的巨大差異,來源于網(wǎng)站調查既沒有調查總體也無法進行隨機抽樣。因此,許多網(wǎng)站調查中的有識之士已經開始努力接近隨機抽樣,不斷地提出各種解決方法,例如“正確界定目標總體”(袁峰,2005)、運用IP地址限制技術、Cookie技術(滕文杰,2005)等等。一些專業(yè)學者也試圖進行評估與控制(杜婷,2004;李軍軍,2005),或者矯正各種抽樣誤差(陳珍珍,游家興,2002;黃建,2004;徐浪,2006;杜婷,2006;顏承元,2007;王東,2007;胡云峰,2008),或者在統(tǒng)計技術層面上進行彌補(劉瑋,2005;李軍軍,2005;浦國華,2006)。還有一些學者則是提倡規(guī)范網(wǎng)站調查的應用范圍(滕文杰,2005;郭繼志,2006;),或者提倡“網(wǎng)絡調查與傳統(tǒng)調查相結合”(鐘蕾,2006;石磊,2008)。
但是筆者認為,上述努力都是治標而不治本。其實,網(wǎng)站調查與總人口調查之間所具有的方法論層次上的根本區(qū)別,或者說,是否進行隨機抽樣之所以具有方法論意義上的決定性,在于前者是依賴于調查對象主動地去尋找調查問卷,而后者則是研究者有目標有設計地去尋找被動反應的調查對象。
這是網(wǎng)站調查無法克服的根本缺陷。這又可以分為三個層次步步深入地來看。
首先,任何網(wǎng)站,即使是僅僅針對網(wǎng)民,也不可能具有起碼程度的涵蓋性。這說的是:任何網(wǎng)站調查都不可避免地會出現(xiàn)極高比例的無應答誤差(這往往被刻意隱瞞了)。它的來源,并不是潛在的應答者看到了問卷而不回答,而是他們根本就看不到發(fā)布問卷的該網(wǎng)站或者看到了而根本不去點擊。這是因為互聯(lián)網(wǎng)上永遠也不會有一個人人必須點擊之的網(wǎng)站,哪怕是最大的門戶網(wǎng)站或者搜索引擎也是如此。
其次,網(wǎng)站調查的抽樣框永遠無法涵蓋人口總體。無論科技與經濟如何發(fā)展,只要人類還存在著各種差異,那么互聯(lián)網(wǎng)使用者就永遠也不可能覆蓋任何一個較大規(guī)模的人口總體。這是因為,這不僅是能不能用上互聯(lián)網(wǎng)的問題,更是愿不愿意用的問題。總會有人不上網(wǎng)的,而這種偏差又是非實地調查而不可測定的。所謂“隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站調查的代表性會日益提高”的說法其實只是以假設來代替前提的謬誤。
第三,最根本的是對主動應答者無法進行任何抽樣。也就是說,只要調查對象是主動地、任意地參加的(這常常被認為是網(wǎng)站調查最重要的優(yōu)點),那么任何一種抽樣(哪怕是非隨機的)就不可能實現(xiàn),任何程度的代表性也就根本無從談起。在現(xiàn)存的網(wǎng)站調查中,別說抽樣,就連那些根本不適合回答本問卷的應答者也沒有去阻擋,夫
復何言?
歸根結底,網(wǎng)站調查與實地調查的本質區(qū)別在于:前者的樣本規(guī)模與代表性完完全全掌握在被調查者手中,無論調查者把問卷或者抽樣方法(如果有的話)設計得多么科學多么巧妙,都無法控制調查實際進程的任何一個環(huán)節(jié),甚至連最微小的影響與干預都無法施加。反之,在筆者所進行的電腦輔助的實地調查中,一切盡在掌控之中。
這一本質區(qū)別標識了網(wǎng)站調查方法的非科學性。
網(wǎng)站調查的方法論的實質是招募式調查,是守株待兔、愿者上鉤。這違背了任何一種問卷調查的最基本的原理。
社會科學中的問卷調查屬于方法論意義上的實證主義范疇內的科學主義流派,來源于對于自然科學基本研究方法之一的“受控條件下可重復的試驗”的模仿。后者要求“我”(調查者)必須主動地去研究被動存在的“它”(調查對象),才能得到對于“我”的假設的檢驗。
在社會調查中,經典的實地調查方法由于是調查者自己需要進行“試驗”(實地調查),因此不得不主動地追求“受控條件”(總體界定)與“可重復”(隨機抽樣),結果客觀上也就達到了模仿自然科學的效果,實現(xiàn)了自己的科學性。
可是網(wǎng)站調查卻恰恰相反。由于它一開始就沒打算進行“由調查者來操作的試驗”(實地調查)而是依賴于應答者自投羅網(wǎng),所以根本不需要任何主動尋找調查對象的設計與實施;結果也就不需要“受控條件”、“可重復”這兩大原則。也就是說,招募調查對象的網(wǎng)站調查,絕不是在總體界定與抽樣方法方面做得不夠,而是根本不需要這些東西。這就是它的非科學(不是反科學)的性質,任何基于科學性的統(tǒng)計技術都無法改善之,因為兩者牛頭不對馬嘴。
進一步說,正是由于招募調查這一實質不可改變,因此網(wǎng)站調查被認為所擁有的一切優(yōu)越之處(方便、及時、廉價、時空廣泛等等),統(tǒng)統(tǒng)都會因其調查結果在代表性上的謬誤而變成助紂為虐之舉。
更進一步說,經典的實地問卷調查是客觀測量的方法,是調查者主動去收集被動存在的數(shù)據(jù),而網(wǎng)站調查所使用的招募調查方法則在很大程度上是“主體建構”,是應答者們主動創(chuàng)造出調查數(shù)據(jù)。這兩者之間的區(qū)別已經超出統(tǒng)計技術與調查方法的操作層次,實際上是方法論層次上的科學主義與人文主義的沖突焦點,甚至需要從認識論層次上來進行分析。本文僅希望指出雙方的不同質,不再展開論述。
六、發(fā)展建議
由于“招募調查對象”這一方法論上的本質,網(wǎng)站調查不應該再朝著總體代表性這個無望的方向發(fā)展,而是應該朝著三個不同的方向前進。
第一個方向仍然在問卷調查的范疇之內,把網(wǎng)站調查作為實地調查的預調查(試調查)。這樣的網(wǎng)站調查絕對不是尋求任何絕對數(shù)與百分比,而是用來修訂調查問卷。這樣,我們就很可能提前發(fā)現(xiàn)許許多多問卷設計中的缺點。這樣,網(wǎng)站調查的各種優(yōu)點(方便、及時、廉價、時空廣泛等等)才能真正變成正向的長處,才能極大地彌補實地調查的預調查中成本高、耗時長、時空狹小等缺點。
第二個發(fā)展方向是把網(wǎng)站調查所發(fā)現(xiàn)的小概率的社會現(xiàn)實轉化為定性的表述。招募式調查不可能實現(xiàn)代表性,卻足以反映社會生活的多樣化存在。它所得到的任何數(shù)字的意義,并不是某種情況在某種群體中占百分之多少,而是在社會生活中確實存在著這種情況。因此網(wǎng)站調查應該努力去揭示那些發(fā)生概率很小甚至極小的各種現(xiàn)象,這才是其最大優(yōu)點。
這是因為,一方面,隨機抽樣的實地調查的最大缺點恰恰是很容易篩選掉這樣的小概率情況;另一方面對于任何一種小概率情況來說,最重要的并不是它有多少、占百分之多少,而首先是它究竟有沒有、存在不存在。
例如在筆者所進行的網(wǎng)站調查中,有些應答者一生中的性伴侶人數(shù)達到了4位數(shù)。反之,有些年輕夫妻雖然沒有任何相關的障礙,卻可以在上一年中連一次性生活都沒有。因此網(wǎng)站調查實施者應該這樣來發(fā)布自己的調查結果:盡管發(fā)生概率很小而且出乎大眾的意料,但是這樣的人確實存在于我們的社會之中。
這樣的表述是一種定性的認知,不但應該舍棄任何尋求絕對數(shù)與百分比的意圖,而且應該在表述中刻意把具體的數(shù)目字模糊化。
這種定性認知其實非常重要。它可以打破社會中廣泛存在的各式各樣的刻板印象,促進公眾首先在思維方式上實現(xiàn)多元化,從而發(fā)揮社會調查的積極社會作用。
說到底,即使是隨機抽樣的定量統(tǒng)計數(shù)字與相關分析的結果,最后其實也只有被當作定性認知來使用,人類才能夠思考。㈣因此在這一點上,網(wǎng)站調查恰恰可以以其對于小概率現(xiàn)象的強大的發(fā)現(xiàn)能力,在定性認知上開辟捷徑。
第三個發(fā)展方向是把網(wǎng)站調查徹底轉變?yōu)槎ㄐ哉{查的工具。
定性調查追求的并不是測量社會現(xiàn)象,而是發(fā)現(xiàn)與理解人的行為及其結果,因此不尋求代表性,而是追求資料的深度。尤其是定性調查不但不排斥而且非常歡迎調查對象的各種主動呈現(xiàn)。這不僅恰恰符合網(wǎng)站調查的性質,而且其所有優(yōu)點更有用武之地。研究者完全可以運用各種文化感召與技術手段,把網(wǎng)站設置為某一主題的磁鐵,去吸納那些日漸增多而且送貨上門的“網(wǎng)上自白”。
尤其是,在實地的定性調查中,合適的調查對象常常是可遇而不可求;而網(wǎng)站調查的招募性質及其相對更容易做到的大應招量,卻恰恰可以在更大的程度上解決這一難題。
參考文獻:
[1]方國斌、陳年紅,基于網(wǎng)絡技術的抽樣調查設計與實施研究,統(tǒng)計與決策[J],2009,(1):4—7
[2]方國斌、陳年紅,網(wǎng)絡抽樣調查組織形式及其優(yōu)缺點,統(tǒng)計與決策,2008,(24):31—32
責任編輯木宸