潘綏銘
再論生活是如何被篡改為數(shù)據(jù)的
——回應劉林平教授的質疑
潘綏銘
我在《新視野》2016年第3期發(fā)表《生活是如何被篡改為數(shù)據(jù)的?——大數(shù)據(jù)套用到研究人類的“原罪”》后,引起爭論,這是好事,求之不得。其中劉林平教授等撰寫了《大數(shù)據(jù)有“原罪”嗎?——與潘綏銘教授商榷》(以下簡稱“劉文”),對我的觀點提出全面質疑。細讀之后,覺得這些質疑未必能夠成立,撰此短文以作答復。
首先說明,我的文章說的是:在大數(shù)據(jù)產生的過程中,究竟發(fā)生了什么?也就是說,大數(shù)據(jù)究竟是“如何產生的”?其中包含了哪些先天缺陷?應該反思什么?其主題是:絕不應該認為大數(shù)據(jù)天生就是對的,更不應該盲目崇拜。可是“劉文”第一部分所質疑的卻是大數(shù)據(jù)“能不能產生”,然后反復論證其“可以產生”。這不僅與我的文章風馬牛不相及,而且恰恰是拒不反思的“大數(shù)據(jù)崇拜”的典型表現(xiàn)之一。
還應指出,“劉文”忽視了我的結論:“當然,這并不是說,量化研究和大數(shù)據(jù)就一定不能用,而是表達三層意思:首先,它們都不能質疑更不能取代各種非量化的人文社會研究;其次,只有對這些先天缺陷進行深刻反思,并且予以充分展示的量化研究,才有資格在人文社會研究中保留一席之地;第三,兩種研究就像是兩條鐵軌,缺一不可,但又平行延伸,永不交叉?!边@就是說,“劉文”實際上偷換了我的文章的主旨,自己發(fā)明出一個風車,然后與之作戰(zhàn)。為此,我必須把話說得更清楚一些。
其一,生活不是都會主動發(fā)出信息。所謂的大數(shù)據(jù),至少到目前為止,仍然主要是各式各樣的監(jiān)測,也就是收集人類生活的各種各樣的信息。由此,大數(shù)據(jù)的第一個“元假設”就是:只要信息收集得足夠多,那么就足以了解生活,也就是“越大越好”。
可是問題就出在這里。人類的某些活動是可以主動地發(fā)出信息的,例如網(wǎng)上購物或者出行等等,但是絕大多數(shù)的其他生活活動,卻不會、也不可能主動地發(fā)出任何信息,例如靜思等等。所以,大數(shù)據(jù)的“原罪”并不是“收集得不夠多或者不夠準”,而是必然忽略掉那些不主動發(fā)出信息的人類生活。也就是說,數(shù)據(jù)無論多么大,也不可避免地會遺漏生活,甚至可能掛一漏萬。
鑒于“劉文”誤解了我的本意,我在此再強調一下:我并沒有說過大數(shù)據(jù)不能產生,而是提醒大數(shù)據(jù)崇拜者,是不是意識到這樣的遺漏了呢?
其二,信息不會自己變成數(shù)據(jù)。對于大數(shù)據(jù)已經收集到的“信息”來說,從一開始,它們就是可以做出分析的“數(shù)據(jù)”嗎?凡是做過任何一種數(shù)據(jù)處理的人都知道,這絕對不可能??墒谴髷?shù)據(jù)的第二個“元假設”卻是“一切皆可量化”。那么無論是誰,他/她/它究竟如何把信息給轉化為數(shù)據(jù)的呢?這種量化的過程難道不需要界定、篩選、賦值等等司空見慣的處理工作?
還是針對“劉文”的誤解,我在此再說一遍:這不等于說信息就不能轉化為數(shù)據(jù),而是提醒大數(shù)據(jù)崇拜者,是不是意識到這種轉化中充滿了人為篡改的成分呢?
其三,加工與偽造,沒有什么可爭的?!皠⑽摹钡牡诙糠?,花了很大篇幅來論證大數(shù)據(jù)是“加工”不是“偽造”。但是這半點意義都沒有,因為我的原文是:“往好里說,這叫做無可避免地加工,往壞里說,這就是赤裸裸地偽造?!币簿褪钦f,我和“劉文”在事實層面上本無爭論,“劉文”的長篇大論,要說的其實僅僅是一句話:只許說好,不許說壞!這再次成為大數(shù)據(jù)崇拜的典型表現(xiàn)之一。
最后強調一下,在我的原文中,我曾說明:“本文所論述的一切,其實都是來自于人文社會研究中,久已存在的對于‘量化研究’的批評?!币簿褪钦f,我文章中的幾乎所有觀點,我都沒有著作權,都是100多年來人文社會科學的質性研究者不斷反思的成果。因此,“劉文”的奇怪邏輯,可能僅僅是出于不熟悉學科史而已。尤其是,“劉文”所說的“主體建構的研究取向”,真的使人感到莫名其妙。我只能提醒一下:這在方法論和認識論的層次上叫做“主體間性”,研究成果汗牛充棟,我就不再一一列舉相關文獻了。
“劉文”反復提出:社會調查與大數(shù)據(jù)是同一性質,而且把這當作得意的重大質疑。其實這可真是一個初級錯誤。而且我估計,可能還有不少人沒有意識到這個初級錯誤,因此不得不再多說一些。
在關于大數(shù)據(jù)的爭論中,其實早就有很多批判者指出:定量的社會調查和社會科學研究都是先有假設,然后收集數(shù)據(jù),最后用統(tǒng)計學來檢驗這個/這些假設是否能夠成立??墒谴髷?shù)據(jù)卻反其道而行之,是沒有任何假設地去漫無目標地收集信息,然后再大海撈針般地去得出結論。這種區(qū)別,集中起來就是一句話:任何自稱為“科學”的對于人類的研究,究竟需要不需要“假設—檢驗”這一最基本的研究方法?[1]
這是大數(shù)據(jù)崇拜的另外一個命門,也是一個根基式的爭論。但是因為它沒有涉及我文章中的主題“信息如何變?yōu)閿?shù)據(jù)”,所以我才沒有從這個方向展開論述,只是提到一句:“在最開始,你收集到的,就是可以用來分析的數(shù)據(jù)嗎?在社會學的問卷調查中,這是有可能做到的。”現(xiàn)在我也不想給出任何評判,還是希望從根子上挖一挖:與社會調查相比,大數(shù)據(jù)其實還有另外一個“原罪”。
社會科學中的問卷調查屬于方法論意義上的實證主義范疇內的科學主義流派,來源于對于自然科學基本研究方法之一的“受控條件下的、可重復的、試驗”[2]這三大原則的模仿。[3]也就是說,定量的社會調查,由于調查者自己需要進行“試驗”(實地調查),因此不得不主動地追求“受控條件”(例如問卷、調查方法和操作情境都必須嚴格統(tǒng)一)與“可重復”(例如信度檢驗);結果客觀上也就達到了模仿自然科學的效果,實現(xiàn)了自己的科學性。
可是大數(shù)據(jù)卻恰恰相反。由于它一開始就沒打算進行“由調查者來操作的試驗”(實地調查),而是依賴于對人類行為的監(jiān)測,所以也就不需要“受控條件”和“可重復”;結果自然科學研究方法的三大原則,在大數(shù)據(jù)里就蕩然無存。也就是說,大數(shù)據(jù)絕不是做得不夠,而是根本不需要這三大原則。這就是它的非科學(不是反科學)的性質,任何基于科學性的統(tǒng)計技術都無法改善之,因為兩者牛頭不對馬嘴。
因此,社會調查與大數(shù)據(jù)之間的區(qū)別,已經超出統(tǒng)計技術與調查方法的操作層次,實際上是方法論層次上的沖突焦點,甚至需要從認識論層次上來進行分析。[4]
當然,為了防止再次被人誤解,我要再說一次:“這并不是說,量化研究和大數(shù)據(jù)就一定不能用……只有對這些先天缺陷進行深刻反思,并且予以充分展示的量化研究,才有資格在人文社會研究中保留一席之地。”也就是說,我愿意相信,大數(shù)據(jù)實際上很有可能去模仿自然科學方法論的三大原則,也可能朝著檢驗自己的信度和效度的方向發(fā)展。問題僅僅在于:如果大數(shù)據(jù)崇拜者連自己的“非科學性”都意識不到,那還有什么可說的呢?
最后不得不提一句,“劉文”拿出我對性工作者的定性訪談,當作質疑的依據(jù)。這就使我不得不懷疑,該作者可能不了解定量調查與定性調查之間長達百年的爭論。[5]實際上,這不僅是兩種方法論之爭,甚至可以說是兩種世界觀的差異。[6]將定性調查與大數(shù)據(jù)相提并論,顯然混淆了兩者的性質。
注釋:
[1]張曉強、楊君游、曾國屏:《大數(shù)據(jù)方法:科學方法的變革和哲學思考》,《哲學動態(tài)》2014年第8期。
[2]金觀濤:《控制論與科學方法論》,北京:新星出版社,2005年。
[3]參見陳蓉霞:《社會科學與自然科學:此科學非彼科學》,《自然辯證法通訊》2004年第4期。
[4]以上的論說,基本上是引自我本人的論述(參見潘綏銘、張娜、黃盈盈:《網(wǎng)站調查與實地調查的實證對比研究:樣本偏差程度及其方法論意義》,《江淮論壇》2009年第4期),只是把原文中的批判對象“網(wǎng)站調查”改為“大數(shù)據(jù)”。
[5]參見張學廣:《科學主義、人文主義的演進與生存危機》,《社會科學》2007年第1期。
[6]參見秦英君:《在科學與人文之間——百年來科學與人文思潮評析》,《清華大學學報》(哲學社會科學版)2007年第1期。
責任編輯 劉秀秀
作者簡介:潘綏銘,中國人民大學性社會學研究所教授、博士生導師,北京市,100872。