亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代的社會治理與社會研究:現(xiàn)狀、問題與前景

        2016-04-10 08:51:17馮仕政
        大數(shù)據(jù) 2016年2期
        關(guān)鍵詞:社會學(xué)學(xué)科科學(xué)

        馮仕政

        中國人民大學(xué)社會與人口學(xué)院,北京 100872

        專題

        大數(shù)據(jù)時代的社會治理與社會研究:現(xiàn)狀、問題與前景

        馮仕政

        中國人民大學(xué)社會與人口學(xué)院,北京 100872

        區(qū)分大數(shù)據(jù)社會研究中科學(xué)和應(yīng)用這兩種取向及其相互關(guān)系;考察大數(shù)據(jù)給社會研究帶來的機遇、挑戰(zhàn)和面臨的困難;揭示大數(shù)據(jù)所具有的數(shù)據(jù)、社會和技術(shù)的三重面相以及相應(yīng)而來的不同學(xué)科在大數(shù)據(jù)社會研究中的地位和關(guān)系;剖析社會科學(xué)、統(tǒng)計科學(xué)和計算科學(xué)3個學(xué)科合作中的困境及其原因。

        大數(shù)據(jù);社會研究;社會治理;社會計算;社會統(tǒng)計

        1 引言

        隨著大數(shù)據(jù)的興起,基于大數(shù)據(jù)的社會治理也成為熱門話題。社會各界和多個學(xué)科莫不躍躍欲試,與大數(shù)據(jù)社會治理有關(guān)的研究項目、會議和組織一時如雨后春筍般地涌現(xiàn)。然而,即使在大數(shù)據(jù)時代,社會治理也離不開社會研究。社會治理是操作,社會研究獲得的是原理,離開原理的操作不可能走得太遠。大數(shù)據(jù)為揭示社會活動的規(guī)律提供了新的可能性,如能取得突破,其科學(xué)和應(yīng)用價值不可估量。但目前進展并不樂觀。正如杜克大學(xué)教授、TED創(chuàng)始人阿利里(Dan Ariely)所調(diào)侃的:“大數(shù)據(jù)就像青少年性行為,每個人都在說,實際都不知道怎么做;每個人都以為別人正在做,于是聲稱自己也在做?!边@句話形象地道出了大數(shù)據(jù)在大熱之下的大虛。然而,調(diào)侃歸調(diào)侃,真正需要反思的是:以大數(shù)據(jù)為基礎(chǔ)的社會研究是否必要和可能?目前存在什么問題?這些問題是怎樣形成的?又該如何突破?本文試圖回答這些看似離社會治理很遠,實則高度相關(guān)的問題。

        2 大數(shù)據(jù)開發(fā)的兩種取向:應(yīng)用與科學(xué)

        關(guān)于大數(shù)據(jù)研究,邁爾-舍恩伯格和庫克耶在《大數(shù)據(jù)時代》[1]一書中的論述在國內(nèi)外流傳甚廣,影響極大。該書的核心觀點是,大數(shù)據(jù)的崛起將給人類的信息分析工作帶來三大轉(zhuǎn)變:一是不再依賴隨機采樣,二是不再追求精確性,三是不必尋找因果關(guān)系。在他們看來,代表性、精確性和因果性都是“小數(shù)據(jù)”時代的思維觀念。在“小數(shù)據(jù)”時代,由于生產(chǎn)力和技術(shù)水平的限制,獲取和分析數(shù)據(jù)的成本比較高,所以人們傾向于用盡可能小的數(shù)據(jù)預(yù)測盡可能多的現(xiàn)象,代表性、精確性和因果性等追求應(yīng)運而生。而在大數(shù)據(jù)時代,數(shù)據(jù)的獲取是如此快捷和低成本,能夠獲取的數(shù)據(jù)又是如此全面,追求代表性、精確性和因果性也就沒有必要了。

        這一觀點可以說全面顛覆了以往社會科學(xué)的主流觀念。相應(yīng)地,它也引發(fā)激烈的爭議。那么,究竟應(yīng)該怎樣看待這一觀點呢?仔細觀察會發(fā)現(xiàn),當(dāng)前大數(shù)據(jù)開發(fā)中同時存在兩種取向:一種是應(yīng)用取向,一種是科學(xué)取向。邁爾-舍恩伯格和庫克耶的觀點雖然以縱論大數(shù)據(jù)的面目出現(xiàn),實際只是應(yīng)用取向的表現(xiàn)。見表11,這兩種取向存在多個方面的區(qū)別,混淆兩種取向之間的關(guān)系將給大數(shù)據(jù)開發(fā)造成嚴重的不良后果。

        應(yīng)用和科學(xué)這兩種取向的分野,從根本上講,源于它們對大數(shù)據(jù)分析的價值期待不同,即應(yīng)用取向追求實際功用,而科學(xué)取向追求一般原理。這是兩種既有聯(lián)系又有區(qū)別的追求。說有聯(lián)系,是因為需求驅(qū)動創(chuàng)新,實際需要經(jīng)常成為促進科學(xué)發(fā)展的強大動力,而科學(xué)原理則有利于更好地滿足實際需要;說有區(qū)別,是因為人類對實際效用的追求并不必然引起甚至可能妨礙對科學(xué)的追求,反過來,人類付出不菲代價求得的科學(xué)原理常常沒有什么即時的應(yīng)用,以致給世人造成一種不中用的感覺。這兩種取向之間的關(guān)系,就如同學(xué)術(shù)界爭論已久的應(yīng)用研究與基礎(chǔ)研究之間的關(guān)系,其中的道理很明顯,不贅述。

        表1 大數(shù)據(jù)開發(fā)中的兩種取向

        由于追求的目標不同,兩種取向面對的約束條件也就不同。應(yīng)用取向的大數(shù)據(jù)研究,由于重點是滿足實際需要,而需求又是時時變動的,所以對時效性要求比較高;而科學(xué)取向的大數(shù)據(jù)研究志在獲得一般原理,而一般原理必須經(jīng)得起時間的檢驗,所以更重視永恒性,對時效性不那么敏感。

        相應(yīng)地,在評價原則上,應(yīng)用講求結(jié)果導(dǎo)向,即完美與否是次要的,關(guān)鍵是在規(guī)定的時間內(nèi)完成規(guī)定的任務(wù);而科學(xué)則尊重探索,既然是探索,就允許試錯,所謂試錯,就是目標、任務(wù)和行動路線都可以根據(jù)新的發(fā)現(xiàn)不斷調(diào)整。在這個意義上,科學(xué)無所謂完成不完成,或者說永遠不會有完成,完美才是決定性的。

        基于不同的評價原則,兩種取向在工作標準上也存在顯著差異。應(yīng)用講求時效和績效,因此,只要邊際效益遞增即可接受,并不追求最優(yōu)解,對工作結(jié)果的容錯率較高。體現(xiàn)在大數(shù)據(jù)分析上,就是寧可粗放一些,也不能錯過時機。而科學(xué)基于完美原則,一定會不懈地追求最優(yōu)解,因此對工作結(jié)果的容錯率比較低,對邊際改進只能暫時接受。體現(xiàn)在大數(shù)據(jù)研究中,就是傾向于不惜代價地提高分析精度,不愿淺嘗輒止,“小富即安”。

        最后,從工作內(nèi)容來看,揭示事物之間的因果關(guān)系是科學(xué)的本質(zhì)所在,止步于相關(guān)關(guān)系對科學(xué)來說是不可接受的。但從應(yīng)用的角度來看,效益才是第一位的,其他的都不重要。而效益的獲得并不總是依賴于對因果關(guān)系的掌握,如果了解相關(guān)關(guān)系即可帶來足夠高的效益,就沒有必要去探究背后的因果關(guān)系,尤其是當(dāng)這個過程的代價比較高的時候。就像大數(shù)據(jù)分析發(fā)現(xiàn),很多顧客在超市買嬰兒尿布時會連帶買啤酒,那么,將尿布和啤酒擺在一起,一定可以同時提高兩種商品的銷量。對商家來說,知道這一點就夠了,至于為什么顧客在買尿布的同時會買啤酒,大可不必追究。也就是說,應(yīng)用取向的大數(shù)據(jù)分析大可知其然而不知其所以然,但科學(xué)取向的大數(shù)據(jù)分析則必須揭示“所以然”,這是兩者追求的目標不同決定的。

        綜上所述,科學(xué)和應(yīng)用對大數(shù)據(jù)分析有著不同的價值期待,進而決定了它們工作的內(nèi)容、標準、約束條件以及對工作的評價原則也有所不同。顯然,人類既需要應(yīng)用,也需要科學(xué),因此,兩種取向的大數(shù)據(jù)分析都是人類所必需的,二者只是分工不同,并無高下之別。關(guān)鍵是怎樣處理兩種取向之間的關(guān)系,處理得好可以相得益彰,處理不好則會兩敗俱傷。

        毋庸諱言,在大數(shù)據(jù)開發(fā)中,當(dāng)前占主導(dǎo)地位的是應(yīng)用取向。這樣一種局面的形成,與應(yīng)用取向的大數(shù)據(jù)研究相對來說難度更低、見效更快,同時更容易獲得市場和資本的青睞有關(guān)系,這無可厚非。但一種值得憂慮的傾向是,許多人因此而輕視甚至否定科學(xué)取向的大數(shù)據(jù)研究。邁爾-舍恩伯格和庫克耶的觀點是這一傾向的典型代表。該觀點的廣泛流行表明這一傾向的影響不容小覷。應(yīng)該說,這是一種短視而危險的傾向。人類不能滿足于眼前的實用而放棄對科學(xué)的追求。且不說科學(xué)探索本身是一種樂趣,即使出于實用目的,放棄科學(xué),最終也會損害人類的福祉。就像中國古代,曾經(jīng)有著遙遙領(lǐng)先的實用技術(shù),最終卻因為沒有發(fā)展出物理、化學(xué)等純粹的科學(xué)而落到西方國家后面。歷史的教訓(xùn)應(yīng)該記取。

        中國當(dāng)前方興未艾的大數(shù)據(jù)社會治理,雖然涉及的是公共議題,主角是政府或公共事業(yè)組織,但從其思維和行為方式來看,也非常強調(diào)應(yīng)用,急于事功而對發(fā)現(xiàn)事實背后的一般規(guī)律缺乏興趣,應(yīng)用取向色彩非常濃厚,比商界有過之而無不及。這是一種危險的傾向。沒有理論指導(dǎo)的實踐是盲目的,短期或許有一定效果,長期來看一定不可持續(xù)。特別是,社會治理的對象是人,而人是有反思性的,即可以根據(jù)對未來的預(yù)測而調(diào)整當(dāng)下的行為。這就要求大數(shù)據(jù)研究不僅能夠?qū)崟r監(jiān)測社會當(dāng)下的狀態(tài),更要求其能夠在一定程度上預(yù)測社會未來的狀態(tài),以便未雨綢繆。這就要求從當(dāng)前的、已知的事實中發(fā)現(xiàn)帶有一般性、普遍性的規(guī)律。而發(fā)現(xiàn)規(guī)律,正是科學(xué)的興趣和本職所在。因此,基于大數(shù)據(jù)的社會治理必須盡快扭轉(zhuǎn)應(yīng)用取向主導(dǎo)一切的局面,大力發(fā)展科學(xué)取向的大數(shù)據(jù)研究。

        3 大而不精——關(guān)于大數(shù)據(jù)科學(xué)價值的疑慮

        要發(fā)展科學(xué)取向的大數(shù)據(jù)研究,就必須重視社會科學(xué)的理論和方法。“社會科學(xué)(social sciences)”指用現(xiàn)代科學(xué)的思維和方法去探究社會運作規(guī)律的所有學(xué)科,是復(fù)數(shù)而非單數(shù),通常包含社會學(xué)、經(jīng)濟學(xué)、政治學(xué)等。也就是說,社會科學(xué)不等于社會學(xué)。不過,社會學(xué)有一個突出的特點,對于考察大數(shù)據(jù)與社會研究之間的關(guān)系是極有意義的,即它除了高度重視在研究中使用數(shù)據(jù)之外,還通過問卷調(diào)查、個案調(diào)查、參與觀察、社會實驗等方法親自采集數(shù)據(jù)。在這個意義上,社會學(xué)可能是社會科學(xué)中對數(shù)據(jù)的環(huán)節(jié)涉獵最完整、體驗最豐富的學(xué)科。因此,下面在討論大數(shù)據(jù)與社會研究之間的關(guān)系時,會較多地援引社會學(xué)的觀點、方法和事例。

        社會學(xué)素來重視數(shù)據(jù)的采集和使用,但面對如火如荼的大數(shù)據(jù)熱潮,卻似乎有點無動于衷。截至目前,無論國內(nèi)還是國外,應(yīng)用大數(shù)據(jù)的社會學(xué)研究屈指可數(shù)。其中固然有大數(shù)據(jù)興起時間不長,進入社會學(xué)研究尚有一個過程等客觀原因,也與社會學(xué)家對大數(shù)據(jù)的科學(xué)價值心存疑慮有關(guān)。這些疑慮集中在4個方面,即大數(shù)據(jù)不夠真、不夠全、不夠整齊、缺乏代表性。

        不夠真,是指大數(shù)據(jù)中的許多數(shù)值并不是真實社會過程的表示,比如微博數(shù)據(jù)中存在的大量假賬號、假粉絲、“灌水帖”和虛假的個人注冊信息等。造成數(shù)據(jù)失真的情況很多,大體可以分為兩種:一種是由于技術(shù)失誤或不成熟而產(chǎn)生的錯誤數(shù)據(jù),另一種則是出于某種目的,故意操縱而產(chǎn)生的虛假數(shù)據(jù)。相對而言,前一種數(shù)據(jù)失真還好處理,后一種數(shù)據(jù)失真則比較麻煩,因為在技術(shù)較量中并不能保證優(yōu)勢在研究者這一邊。任何數(shù)據(jù)的形成都存在失真的風(fēng)險。但長期以來,社會學(xué)對數(shù)據(jù)采集中的失真風(fēng)險已經(jīng)形成一套較為成熟的控制體系,而大數(shù)據(jù)目前尚無與之相埒的辦法。這是社會學(xué)家對大數(shù)據(jù)缺乏信心的原因之一。

        不夠全,是指大數(shù)據(jù)雖然大,實際上展現(xiàn)的社會信息十分有限,以致難以以之為基礎(chǔ)進行復(fù)雜、嚴密的邏輯演算。社會學(xué)本質(zhì)上是“群學(xué)”,在研究方法上特別注重分群比較。表現(xiàn)在統(tǒng)計上,就是傾向于根據(jù)個體的社會特征,比如性別、年齡、政治面貌、宗教信仰、教育程度、收入水平、職業(yè)、職級、所在行業(yè)等,將研究對象分成若干組,然后比較組內(nèi)差異和組間差異,并通過分析這些差異的原因和后果來揭示社會規(guī)律。這樣,研究對象具有的社會特征就成為社會學(xué)推理中不可或缺的變量。然而,大數(shù)據(jù)常常只有總和層次(aggregate level)的變量,并且不是很多,個體層次(individual level)的變量更是嚴重缺乏,致使社會學(xué)的大量理論構(gòu)想難以通過大數(shù)據(jù)進行檢驗和修正。這是社會學(xué)家對大數(shù)據(jù)不感興趣的原因之二。

        不夠整齊,指大數(shù)據(jù)中變量的取值往往非常雜亂、發(fā)散而不夠收斂,甚至存在大量缺失。因此造成的一個后果是,當(dāng)進行社會學(xué)需要的分組比較時,大量組別內(nèi)的個案數(shù)太少,以致統(tǒng)計結(jié)果不穩(wěn)定,甚至無法進行比較。也就是說,大數(shù)據(jù)雖然體量巨大,從社會統(tǒng)計的角度來說卻有些中看不中用。傳統(tǒng)的社會學(xué)數(shù)據(jù)則不存在這個問題,因為這些數(shù)據(jù)中變量的賦值都是按照事先確定的統(tǒng)一標準進行的,即使是開放式調(diào)查,也可以通過后編碼的方式實現(xiàn)取值的標準化。盡管從理論上說,大數(shù)據(jù)中各變量的取值也可以通過后編碼的方式實現(xiàn)標準化,但正如后文將要指出的,由于技術(shù)、組織等多方面原因,事實上實現(xiàn)起來非常困難。這是社會學(xué)家對大數(shù)據(jù)態(tài)度冷淡的原因之三。

        最后,是質(zhì)疑大數(shù)據(jù)缺乏代表性。不少人認為,大數(shù)據(jù)就是全樣本,樣本代表性的思維已經(jīng)過時?!洞髷?shù)據(jù)時代》一書就持這種觀點,這是一種錯誤的看法。從科學(xué)的角度來說,研究網(wǎng)絡(luò)社會最終還是為了探索整個社會生活。特別是社會學(xué),揭示社會整體而非局部的運行規(guī)律是其作為一門學(xué)科的核心關(guān)切。而社會治理,更是要面向全社會,不能只面向網(wǎng)絡(luò)社會。很顯然,無論信息技術(shù)如何發(fā)達,來自網(wǎng)絡(luò)社會的大數(shù)據(jù)永遠不可能覆蓋整個社會;技術(shù)再加上法律、倫理等諸多限制,使得電子數(shù)據(jù)永遠只能展現(xiàn)社會生活的局部。換言之,從社會研究和治理的角度來看,大數(shù)據(jù)再大,也只是社會總體的一個樣本,不可能是“全樣本”。更何況,被大數(shù)據(jù)遺漏的那些部分往往并不是隨機偏差,而是系統(tǒng)性偏差。如果大數(shù)據(jù)的代表性問題得不到解決,探尋社會整體運行規(guī)律從而推動全面善治的追求注定將遭到挫折。這無論對社會研究者,還是對社會治理者,都是不能接受的。大數(shù)據(jù)雖然以大著稱,但它與社會總體之間的關(guān)系仍有許多依靠大數(shù)據(jù)本身無法得到澄清的問題。這是社會學(xué)家對大數(shù)據(jù)保持疑慮的原因之四。

        比如,互聯(lián)網(wǎng)上的各種意見,集合起來堪稱海量,是當(dāng)之無愧的大數(shù)據(jù)。但是,這些聲音與全體國民的意見之間是什么關(guān)系?從社會學(xué)的角度來說,這個問題非常重要。因為一個社會中,有大量民眾是不想上網(wǎng)、不能上網(wǎng)或上不起網(wǎng)的,而這批人的意見恰恰是最容易被剝奪、被忽視的。如果簡單地以網(wǎng)民意見代替國民意見,造成的偏差及其后果將是十分嚴重的。要避免這樣的偏差,就必須追問網(wǎng)民意見在多大程度上、在什么意義上代表著國民意見。不澄清數(shù)據(jù)的代表性,理論分析就難免陷入就事論事或過度推論的困境。

        上述4個方面其實都是關(guān)于數(shù)據(jù)質(zhì)量的擔(dān)憂。一言以蔽之,就是大數(shù)據(jù)大而不精,難以滿足社會學(xué)推理對于變量的豐富程度、變量值的精確和標準化程度以及樣本代表性的要求。

        4 大數(shù)據(jù)對社會研究的機遇與挑戰(zhàn)

        不少學(xué)者因為大數(shù)據(jù)在真實、系統(tǒng)、整齊和代表性等方面存在問題而懷疑其科學(xué)價值,進而對大數(shù)據(jù)研究持觀望態(tài)度。這些問題固然是事實,但同時應(yīng)該看到,大數(shù)據(jù)也有相對于傳統(tǒng)數(shù)據(jù)的優(yōu)勢。其中最突出的一點是,傳統(tǒng)數(shù)據(jù)基本是擬態(tài)數(shù)據(jù),而大數(shù)據(jù)基本是實態(tài)數(shù)據(jù)。所謂擬態(tài)數(shù)據(jù),是指數(shù)據(jù)并非社會行為之實時的、原始的印跡,而是研究者通過某種研究設(shè)計去觀測和捕捉的結(jié)果。由此造成以下3個問題。

        第一,數(shù)據(jù)的形成高度依賴于研究設(shè)計。任何研究設(shè)計都是理論構(gòu)想的產(chǎn)物,很顯然,一個研究者無論多么追求客觀,理論構(gòu)想都不可避免地存在偏見(bias),由此造成所搜集的數(shù)據(jù)存在誤差,甚至是嚴重的、系統(tǒng)性的誤差。盡管經(jīng)驗社會學(xué)力圖通過可重復(fù)的“假設(shè)—檢驗”過程不斷消除理論構(gòu)想中的偏見,但仍然難以徹底擺脫自證預(yù)言陷阱,即基于某種研究假設(shè)而進行的數(shù)據(jù)采集,可能把一些能夠證偽這些假設(shè)的數(shù)據(jù)排除在外,從而使這些假設(shè)永遠不會被證偽。

        第二,數(shù)據(jù)的形成高度依賴于研究對象對研究設(shè)計的反應(yīng)。社會研究的對象是人,而人是有反思能力的,會主動理解外部環(huán)境并相應(yīng)調(diào)整自己的行為。同樣地,在社會研究中,研究設(shè)計作為一種外部因素,也會影響研究對象的反應(yīng),從而導(dǎo)致測量不準。比如,調(diào)查問卷中的問題設(shè)置可能對受訪者形成某種心理暗示,調(diào)查者的舉止客觀上會對受訪者形成某種壓力,從而誘導(dǎo)或迫使受訪者往特定方向作出反應(yīng),如此等等。簡而言之,在社會研究中,研究設(shè)計的介入會在不同程度上干擾研究者本來的狀態(tài),從而使通過該設(shè)計獲得的數(shù)據(jù)出現(xiàn)誤差,此即“霍桑效應(yīng)”。

        第三,傳統(tǒng)數(shù)據(jù)無論多么真實、系統(tǒng)、整齊和有代表性,相對于觀測的社會行為,它永遠都是事后構(gòu)擬的結(jié)果。即使是參與式觀察,數(shù)據(jù)的發(fā)生與行為的發(fā)生也不是同步的,同樣存在時差,只不過時差相對較小而已。至于抽樣調(diào)查等數(shù)據(jù)采集方式造成的時差就更大了。假設(shè)研究者和被研究者都有前后兩種狀態(tài),在前的記為S1,在后的記為S2,時差的存在意味著S2會影響對S1信息的捕捉,從而造成數(shù)據(jù)誤差。比如,一個勞動者在失業(yè)后回憶失業(yè)前的職業(yè)狀況時,受失業(yè)后精神狀態(tài)的影響,可能夸大失業(yè)前的職業(yè)地位。

        總之,在傳統(tǒng)的社會研究中,數(shù)據(jù)多是研究者基于一定的研究設(shè)計對社會行為進行觀測的結(jié)果,獲得的只是擬態(tài)數(shù)據(jù),并且由于多種因素影響,擬態(tài)數(shù)據(jù)對社會現(xiàn)實的觀測總是存在誤差,甚至發(fā)生嚴重的系統(tǒng)性誤差。而大數(shù)據(jù)則不同,它是實態(tài)數(shù)據(jù)。這表現(xiàn)在,它或者是社會行動者主動生成的(比如微博),或者是自動生成的(比如應(yīng)用所記錄的活動軌跡),總之是社會行為的實時印跡,而非事后的構(gòu)擬。這樣,首先是真正實現(xiàn)了數(shù)據(jù)與行為同步發(fā)生,避免了延時觀測或記錄所造成的誤差;其次,數(shù)據(jù)在形成過程中沒有研究設(shè)計的介入,避免了研究設(shè)計不周全以及霍桑效應(yīng)所造成的誤差。從這個意義上講,大數(shù)據(jù)對社會研究不啻是天賜良機。

        然而,更重要的是,對社會研究來說,大數(shù)據(jù)不僅意味著機遇,而且是一個無法回避的挑戰(zhàn),因為互聯(lián)網(wǎng)的出現(xiàn)已經(jīng)深刻地改變了社會生態(tài)。這表現(xiàn)在,隨著互聯(lián)網(wǎng)應(yīng)用的日益廣泛和深入,一方面是“社會的數(shù)字化”,即社會中各色人等有意無意留下的數(shù)據(jù)足跡越來越豐富,現(xiàn)實社會活動于是越來越多地以數(shù)據(jù)的形式表現(xiàn)出來;另一方面是“數(shù)字的社會化”,即數(shù)據(jù)足跡及其結(jié)構(gòu)本身就成為社會結(jié)構(gòu)和過程的一個環(huán)節(jié),從而不斷塑造著新的社會秩序和關(guān)系。這兩個過程連綿不絕地相互作用,使數(shù)據(jù)不再是現(xiàn)實社會的虛擬和映射,而是徹底與社會融為一體。這樣,只要研究社會,就必須研究數(shù)據(jù),因為數(shù)據(jù)已經(jīng)不再是研究者可以自主選擇的研究方法和手段,而是研究者無法選擇,也無法回避的社會本體的一部分。

        典型的例子是網(wǎng)購。消費者在網(wǎng)購之后,部分人會留下網(wǎng)評。眾所周知,首先,這些網(wǎng)評沒有代表性,因為并不是所有消費者都會通過互聯(lián)網(wǎng)購物,即使通過互聯(lián)網(wǎng)購物,也不是所有人都會留下網(wǎng)評;其次,網(wǎng)評所對應(yīng)的實質(zhì)含義并不清晰:同樣是給五星,有的是對商品質(zhì)量的評價,有的是對快遞速度的評價,有的是對商家態(tài)度的評價,如此等等,不一而足,有些商家盡管已經(jīng)在設(shè)計上把上述幾個方面分開,但消費者未必按照設(shè)計的板塊去回答;最后,有些網(wǎng)評甚至是商家或其他行動者惡意操縱、造假的結(jié)果。但是,不管怎樣,后來的消費者在購物時都會不同程度地參考這些網(wǎng)評。換言之,不管這些網(wǎng)評的真?zhèn)?、含義和代表性如何,它都會影響實際的購物行為;數(shù)據(jù)可能是虛假的、含糊的,但造成的結(jié)果卻是真實的、確定的。這樣一種現(xiàn)象意味著,網(wǎng)評作為大數(shù)據(jù)已經(jīng)與現(xiàn)實的消費行為高度融合,只要研究消費行為,就繞不開大數(shù)據(jù)。消費會影響生產(chǎn),將來關(guān)于生產(chǎn)的研究恐怕也得研究這些網(wǎng)評數(shù)據(jù)。

        現(xiàn)在流行一種觀點,說互聯(lián)網(wǎng)世界是對現(xiàn)實世界的映射,是與現(xiàn)實社會相對應(yīng)的“虛擬社會”。這種觀點是不對的。它只看到了“社會的數(shù)字化”,而未看到同時存在著另一個方面——“數(shù)字的社會化”,更未看到這兩個方面已經(jīng)實現(xiàn)高度融合,即以互聯(lián)網(wǎng)為中介,社會不斷地演變?yōu)閿?shù)據(jù),數(shù)據(jù)又不斷地演變?yōu)樯鐣?。這樣一種社會形態(tài)的出現(xiàn)決定了社會研究不面對大數(shù)據(jù)已經(jīng)不可能了;要面對大數(shù)據(jù)已無需討論,需要討論的只是怎樣面對大數(shù)據(jù)。

        5 大數(shù)據(jù)的三重面相與不同學(xué)科的角色

        大數(shù)據(jù)通常是指復(fù)雜程度大到超出常規(guī)處理能力的數(shù)據(jù)。大數(shù)據(jù)何以復(fù)雜?是因為它具有傳統(tǒng)數(shù)據(jù)所不具有的獨特特征。關(guān)于大數(shù)據(jù)的特征,分別有“3V”、“4V”和“5V”之說。所謂“3V”,是指大數(shù)據(jù)具有規(guī)模大(volume)、變化快(velocity)、結(jié)構(gòu)復(fù)雜(variety)3個特點?!?V”則是再加一個特征——價值密度低(value),即相對于傳統(tǒng)數(shù)據(jù),同樣單位大數(shù)據(jù)中的價值含量要低得多。4V再加上veracity,即是“5V”。veracity意為“真實性”。關(guān)于“真實性”怎么理解,可能有歧義。據(jù)筆者理解,這里所謂的“真實性”,不是指大數(shù)據(jù)中沒有造假。由于技術(shù)、利益或道德原因,大數(shù)據(jù)中的錯誤和操縱比比皆是。這里說的“真實性”,應(yīng)該指大數(shù)據(jù)是行動者根據(jù)本人意圖而獨立形成的,不受研究者的干涉和干擾。即使其中有造假,也是行為人基于自己獨立的原因而造假,不是出于對某種研究設(shè)計的反應(yīng)而造假。換言之,數(shù)據(jù)的形成與研究者的意圖是相互獨立的,不存在相互反饋;相對于特定的研究意圖來說,大數(shù)據(jù)是真實的、無欺的。不難發(fā)現(xiàn),這個意義上的“真實性”,其實就是前面所指出的:大數(shù)據(jù)是實態(tài)數(shù)據(jù),而非擬態(tài)數(shù)據(jù)。

        無論3V、4V,還是5V,都對大數(shù)據(jù)的特征做了很好的概括。但在這些概括之外,基于推動學(xué)科合作的目的,本文更想指出大數(shù)據(jù)的三重屬性。

        首先,如其名稱所示,大數(shù)據(jù)具有數(shù)據(jù)屬性,即它表現(xiàn)為一組有意義、有邏輯、可追尋、可計量的數(shù)值,可以用來揭示特定事物發(fā)生和演變的規(guī)律。這是任何數(shù)據(jù),不管大數(shù)據(jù),還是傳統(tǒng)數(shù)據(jù),都具有的屬性。只不過,傳統(tǒng)數(shù)據(jù)是圍繞特定意圖并根據(jù)集中設(shè)計而形成的,價值密度很高;而大數(shù)據(jù)是用戶自發(fā)形成的,比較散亂,價值密度低,追尋其意義和邏輯的工作也就更復(fù)雜。

        其次,大數(shù)據(jù)具有強烈的技術(shù)屬性。一方面,大數(shù)據(jù)的產(chǎn)生和形成與以互聯(lián)網(wǎng)為代表的信息技術(shù)的迅猛發(fā)展有關(guān);另一方面,數(shù)據(jù)的收集和處理也離不開信息技術(shù)。可以說,正是信息技術(shù)的無遠弗屆和強大處理能力,成就了大數(shù)據(jù)之大。離開信息技術(shù),不僅沒有物理意義上的大數(shù)據(jù),也不會有邏輯意義上的大數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)的搜集和處理也會運用技術(shù),但這些技術(shù)多是模塊化、標準化和單機版的,易學(xué)易用,而大數(shù)據(jù)收集和處理涉及的技術(shù)就要復(fù)雜得多。

        圖1 大數(shù)據(jù)的三重屬性與相關(guān)學(xué)科

        圖2 大數(shù)據(jù)研究的基本流程與不同學(xué)科的角色

        第三,大數(shù)據(jù)具有強烈的社會屬性。大數(shù)據(jù)有兩個基本來源[2]:一個是物理世界,比如對氣象、設(shè)施、機械等運作狀況的監(jiān)測結(jié)果,另一個便是人類社會。社會研究主要涉及第二種來源的大數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)的形成是一個高度控制性的過程不同,大數(shù)據(jù)的形成是一個高度開放性的過程。原因在于,大數(shù)據(jù)是特定人群范圍在特定時間內(nèi)活動的實時印跡和同步記錄。這意味著,民眾在數(shù)據(jù)形成中的角色由以往的被動變成了主動(包括自動)。在此過程中,參與的主體、過程和結(jié)果均不受研究者選擇和控制??梢哉f,正是民眾廣泛而主動地參與數(shù)據(jù)形成,才成就了大數(shù)據(jù)之大。民眾在數(shù)據(jù)形成過程中的廣泛參與性,就是這里所說的大數(shù)據(jù)的社會屬性。

        既然大數(shù)據(jù)同時具有上述三重屬性,那么,如圖11所示,任何關(guān)于大數(shù)據(jù)的分析和應(yīng)用就必須同時處理這三重屬性,方能修得正果。而這需要3個學(xué)科,即統(tǒng)計科學(xué)、計算機科學(xué)和社會科學(xué)的通力合作。其中,統(tǒng)計科學(xué)側(cè)重應(yīng)對數(shù)據(jù)屬性,計算機科學(xué)側(cè)重處理技術(shù)屬性,社會科學(xué)則側(cè)重探尋社會屬性。

        那么,3個學(xué)科究竟應(yīng)該怎樣分工和合作呢?這要從大數(shù)據(jù)社會研究的過程說起。基于大數(shù)據(jù)的社會研究大體可以劃分為3個階段:數(shù)據(jù)爬梳、數(shù)據(jù)分析和數(shù)據(jù)解釋。如圖22所示,隨著階段的變化,3個學(xué)科所扮演的角色及相互關(guān)系也會發(fā)生變化。

        首先來看第一階段,數(shù)據(jù)爬梳。該階段的中心任務(wù)是實現(xiàn)數(shù)據(jù)形態(tài)從雜亂數(shù)據(jù)(messy data)向主題數(shù)據(jù)(thematic data)、從物理數(shù)據(jù)(physical data)向邏輯數(shù)據(jù)(logic data)的轉(zhuǎn)變。具體來說是兩個內(nèi)容:一是數(shù)據(jù)的抽取,即根據(jù)特定的研究目的,從海量、多變而雜亂的數(shù)據(jù)足跡中把與研究主題相關(guān)的數(shù)據(jù)識別出來;二是根據(jù)分析的需要,把抽取出來的數(shù)據(jù)重新分類和賦值,實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化。巧婦難為無米之炊,只有形成符合相應(yīng)邏輯和格式要求的數(shù)據(jù),后續(xù)分析和解釋才有米下鍋。很顯然,計算機科學(xué)是完成該任務(wù)的主角。原因很簡單:以大數(shù)據(jù)之海量、多變和雜亂,傳統(tǒng)的數(shù)據(jù)處理軟件根本無法應(yīng)付,必須運用深度學(xué)習(xí)、社會計算、知識計算等專門技術(shù)[3]。而這些技術(shù)之復(fù)雜和更新速度之快,不是其他學(xué)科的學(xué)者短時間能夠掌握的,即使能夠掌握也很不符合效率原則,因此必須有計算機科學(xué)的人加入。

        但這并不是說社會科學(xué)和統(tǒng)計科學(xué)在這一階段不重要,事實正好相反。如上所述,數(shù)據(jù)爬梳的核心任務(wù)是實現(xiàn)雜亂數(shù)據(jù)向主題數(shù)據(jù)、物理數(shù)據(jù)向邏輯數(shù)據(jù)的轉(zhuǎn)變。這意味著,主題和邏輯的確定非常關(guān)鍵,否則數(shù)據(jù)的抽取和結(jié)構(gòu)化就沒有方向。而主題和邏輯來自對社會的洞察。這就需要社會科學(xué)。邁爾-舍恩伯格等人在《大數(shù)據(jù)時代》一書中提倡“讓數(shù)據(jù)自己說話”,這個說法是站不住的。數(shù)據(jù)自己不可能說話,而只有經(jīng)過理論指導(dǎo)的爬梳之后才能說話。沒有爬梳,數(shù)據(jù)就是一團亂麻,不能說話;即使說話,也是胡話。而要爬梳,就離不開理論的指導(dǎo)。

        當(dāng)然,社會科學(xué)對主題和邏輯的確定并非一蹴而就,也需要不斷地探索。所謂探索,就是在理論構(gòu)想與數(shù)據(jù)事實之間來回折中,最后選擇一個最佳方案。在此過程中,必然進行一些初步的、探索性的統(tǒng)計分析,因此,在這一階段,統(tǒng)計科學(xué)的介入也是必不可少的。

        數(shù)據(jù)爬梳一旦完成,就進入第二個階段——數(shù)據(jù)分析,即挖掘數(shù)據(jù)之間的邏輯關(guān)系。這自然要用到統(tǒng)計工具,但模型的建立、參數(shù)的選擇等,都離不開社會理論的指導(dǎo)。這已經(jīng)是社會研究的常識,不贅述。由于爬梳好的數(shù)據(jù)已經(jīng)按照一定主題和邏輯實現(xiàn)了結(jié)構(gòu)化,因此可以用傳統(tǒng)的社會統(tǒng)計軟件進行分析,計算機科學(xué)相應(yīng)就退出了這一階段的工作。

        接下來是第三個階段——數(shù)據(jù)解釋,即從當(dāng)下數(shù)據(jù)之間已知的邏輯關(guān)系出發(fā),推斷更有一般性的規(guī)律,揭示更有一般性的原理。這個過程主要靠社會科學(xué)的理論思辨發(fā)揮作用,故連統(tǒng)計科學(xué)也退出舞臺。

        綜上所述,社會科學(xué)是唯一貫穿3個階段的學(xué)科。但這并不是說社會科學(xué)具有高于其他兩個學(xué)科的特殊地位,毋寧說,社會理論對于大數(shù)據(jù)研究非常重要。這一點是連邁爾-舍恩伯格和庫克耶都不否認的。在《大數(shù)據(jù)時代》中,他們一方面聲稱要終結(jié)因果分析,以便“讓數(shù)據(jù)自己說話”,但另一方面也承認,因果關(guān)系的終結(jié)并不等于理論的終結(jié),“理論的終結(jié)”的說法是荒謬的[1]:“大數(shù)據(jù)時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面?!?/p>

        然而,當(dāng)前的大數(shù)據(jù)研究,特別是國內(nèi)的大數(shù)據(jù)研究,頗有些迷信“讓數(shù)據(jù)自己說話”,忽視甚至輕視社會理論的傾向較為嚴重。事實上,即使是持這種態(tài)度的研究,也不是完全沒有理論的指引,只是這些“理論”多屬非專業(yè)學(xué)者對社會的直覺,不夠系統(tǒng)和嚴密;或者不了解相關(guān)領(lǐng)域的理論進展,偶然發(fā)現(xiàn)一個理論便如獲至寶,然后不顧適用條件地大用特用。社會科學(xué)的加入有利于改變這種憑感覺進行數(shù)據(jù)爬梳的狀態(tài)。在大數(shù)據(jù)研究的草莽時代,憑直覺進行相關(guān)研究也許能在短期內(nèi)取得一些甚至很“驚艷”的成績,但從長期來看是沒有競爭力的,是不可持續(xù)的。畢竟大數(shù)據(jù)具有強烈的社會屬性,而術(shù)業(yè)有專攻,社會也不是憑直覺或所謂“智慧”就能參透的。

        計算機科學(xué)家格雷曾在2007年提出大數(shù)據(jù)是“第四研究范式”的觀點[4]。根據(jù)該觀點,人類歷史上先后有實驗、理論推演、電腦仿真3種科學(xué)發(fā)現(xiàn)范式。而現(xiàn)在人類能夠采集和處理的數(shù)據(jù)是如此之多和大,以致研究者能夠直接依靠現(xiàn)實的數(shù)據(jù)進行科學(xué)探索和發(fā)現(xiàn)。這就是所謂第四范式,即“數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)(dataintensive scientific discovery)”。該觀點雖然突出大數(shù)據(jù)在科學(xué)探索過程中的驅(qū)動作用,但并不否認理論的指導(dǎo)意義。第四范式的精髓并不是用大數(shù)據(jù)完全代替前三代范式中的實驗、理論和模擬,而是在新的基礎(chǔ)上將實驗、理論、模擬與數(shù)據(jù)統(tǒng)一起來。第四范式中的“格雷法則”正是理論發(fā)揮引領(lǐng)作用的體現(xiàn)。

        6 當(dāng)前大數(shù)據(jù)社會研究面臨的主要難題

        大數(shù)據(jù)的三重屬性決定了基于大數(shù)據(jù)的社會研究需要信息技術(shù)、統(tǒng)計分析和社會思想3種力量,從而需要計算機、統(tǒng)計學(xué)和社會學(xué)3個學(xué)科的緊密合作。然而,當(dāng)前大數(shù)據(jù)社會研究的主要障礙正在于這3個學(xué)科之間的合作比較困難。事實上,在小數(shù)據(jù)時代,這3個學(xué)科曾經(jīng)有過很好的合作。但大數(shù)據(jù)迥異于小數(shù)據(jù)的特征,使得原來的合作方式難以為繼,而新的合作方式又一時難以建立。造成這種局面的原因,可以概括為兩個方面:一是技術(shù)或曰生產(chǎn)力方面,即每個學(xué)科在大數(shù)據(jù)時代都面臨新的困境,難以充分滿足彼此的要求;二是體制或曰生產(chǎn)關(guān)系方面,即正是在這種情況下,不同學(xué)科之間的關(guān)系需要加緊調(diào)整和磨合,但由于學(xué)科屬性、學(xué)科建制和市場選擇等原因,調(diào)整和磨合的過程很艱難。

        在歷史上,計算機科學(xué)、統(tǒng)計學(xué)和社會學(xué)這3個學(xué)科一直有合作。相對來說,社會學(xué)與統(tǒng)計學(xué)的合作更緊密,社會學(xué)借助新的統(tǒng)計技術(shù)和模型得以迅速發(fā)展,而社會學(xué)問題的挑戰(zhàn)也是推動統(tǒng)計學(xué)不斷發(fā)展的重要動力。兩個學(xué)科的緊密結(jié)合,使社會統(tǒng)計學(xué)成為一門獨立的課程和研究領(lǐng)域。而計算機技術(shù)也為社會統(tǒng)計學(xué)的形成和發(fā)展貢獻良多,社會統(tǒng)計的軟件化和SPSS、SAS、STATA等著名統(tǒng)計軟件的推出,更是使得社會統(tǒng)計作為一種理論和方法達到前所未有的繁榮。然而,大數(shù)據(jù)的出現(xiàn)對每個學(xué)科及其相互關(guān)系都提出了挑戰(zhàn)。

        首先,對社會學(xué)來說,以前雖然也在不斷地收集和分析數(shù)據(jù),但數(shù)據(jù)爬梳的任務(wù)很少。即使有,也主要是清除其中的噪音(比如數(shù)據(jù)中的作偽和邏輯矛盾)。而且由于這些數(shù)據(jù)都是根據(jù)一定研究設(shè)計而收集的,量小、集中、形態(tài)穩(wěn)定并且結(jié)構(gòu)化,因此,即使是噪音的清除,也可以用標準化、模塊化的統(tǒng)計軟件進行,社會學(xué)家只要在既有的統(tǒng)計軟件平臺上編程即可實現(xiàn)。而到了大數(shù)據(jù)時代,數(shù)據(jù)的基本特征是海量而且價值密度低,更嚴重的是多源、多變、異構(gòu)、雜亂,數(shù)據(jù)爬梳的重點也隨之從噪音的清除轉(zhuǎn)向了數(shù)據(jù)的識別(抽?。┖徒Y(jié)構(gòu)化。也就是說,大數(shù)據(jù)是高度非標準化、非結(jié)構(gòu)化的,標準化、模塊化的統(tǒng)計軟件顯然不能勝任。由于大數(shù)據(jù)的上述特征,甚至連噪音的清除也難以通過統(tǒng)計軟件完成。

        統(tǒng)計軟件是標準化、模塊化的,相對來說易學(xué)、易用,社會學(xué)家經(jīng)過努力還能夠掌握和運用。而現(xiàn)在大數(shù)據(jù)的處理,常常要求根據(jù)研究對象的特征從頭構(gòu)造或調(diào)整算法甚至處理系統(tǒng),這就超出了一般社會學(xué)家的能力。社會學(xué)家即使努力為之,也不符合效率原則。總之,大數(shù)據(jù)使社會學(xué)對計算機科學(xué)的依賴程度大大加深。

        在大數(shù)據(jù)出現(xiàn)之前,社會學(xué)也有通過編碼把定性數(shù)據(jù)轉(zhuǎn)變成可用于統(tǒng)計分析的計量數(shù)據(jù)的做法。這個工作在基本原理上與大數(shù)據(jù)爬梳相似,即反復(fù)聚類。其工作過程大致如下:初步理論構(gòu)想→通覽原始資料→初步分類并編碼→通覽分類結(jié)果→調(diào)整理論構(gòu)想→再讀原始資料→調(diào)整分類并編碼→……如此循環(huán)往復(fù),直到分類和編碼達到理論要求為止。這樣一個工作過程,現(xiàn)在雖然有Nvivo等軟件的幫助而省力很多,但仍然無法應(yīng)付大數(shù)據(jù)。除了大數(shù)據(jù)本身規(guī)模巨大、結(jié)構(gòu)復(fù)雜等原因之外,更重要的是,以往分類和編碼的對象是確定的,而大數(shù)據(jù)的一個重要特征是頻繁變動,這意味著前后兩次分類面對的對象很可能不同(比如試圖對網(wǎng)絡(luò)公共知識分子進行分類,前后兩天抓取的網(wǎng)絡(luò)公共知識分子在人數(shù)和構(gòu)成上很可能不同),從而使前一次分類對后續(xù)的分類調(diào)整失去參考意義,通過反復(fù)聚類實現(xiàn)合理分類編碼的期望隨之落空。要適應(yīng)大數(shù)據(jù)多變的特征,必須依賴計算機技術(shù)。

        然而,可能讓社會學(xué)失望的是,計算機對大數(shù)據(jù)的處理也不是手到擒來。其挑戰(zhàn)主要在3個方面[3]:一是數(shù)據(jù)本身的復(fù)雜性,即數(shù)據(jù)的類型和模式多樣、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊,使得數(shù)據(jù)的感知、表達、理解和計算等多個環(huán)節(jié)都面臨不少難題;二是計算的復(fù)雜性,即大數(shù)據(jù)多源、異構(gòu)、量大、多變等特征使傳統(tǒng)的機器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘等計算方法不能有效支持大數(shù)據(jù)的處理、分析和計算;三是系統(tǒng)的復(fù)雜性,目前的計算硬件和軟件系統(tǒng)在系統(tǒng)架構(gòu)、計算框架和處理方法上都還難以滿足大數(shù)據(jù)處理的需要。由于這些原因,目前計算機科學(xué)在數(shù)據(jù)爬梳技術(shù)的精度、效率、成本和易用性等方面,都難以滿足社會研究的需要。當(dāng)然,除了這些技術(shù)限制之外,還有倫理、法律等方面的限制。

        其次,在社會學(xué)更加依賴計算機科學(xué)的同時,計算機科學(xué)也更加依賴社會學(xué)。原因在于,計算機科學(xué)雖然在信息處理方面技術(shù)非常強悍,但與以往不同的是,大數(shù)據(jù)是人類社會活動的產(chǎn)物,具有強烈而且不斷變動的社會屬性。離開對這些社會屬性的理解,再好的算法和系統(tǒng)都不知道派什么用場,怎么派用場。如前所述,一些計算機學(xué)者憑著對社會的直覺也可能做出不錯的大數(shù)據(jù)研究,但這并非長久之計。就此而言,計算機科學(xué)對社會學(xué)的依賴也在加深。然而,社會學(xué)的思想和理論通常比較晦澀、飄忽,讓計算機學(xué)者難以在這些思想理論與計算機的工作對象之間建立起映射關(guān)系。社會學(xué)如何將抽象的思想和理論變成計算機學(xué)者可以理解、可以操作的任務(wù),還有很長的路要走。

        第三,數(shù)據(jù)爬梳也需要統(tǒng)計學(xué)的介入,但統(tǒng)計學(xué)面對大數(shù)據(jù)同樣有自己的難題。數(shù)據(jù)爬梳并不是一個純粹的技術(shù)過程,而是一個數(shù)據(jù)與思想反復(fù)碰撞的過程。在此過程中,需要不斷對爬梳出來的數(shù)據(jù)進行統(tǒng)計分析,然后相應(yīng)調(diào)整理論方案或技術(shù)路線。大數(shù)據(jù)再大,終歸也是一種數(shù)據(jù),必然適用統(tǒng)計學(xué)。統(tǒng)計學(xué)對數(shù)據(jù)爬梳也很重要。然而,傳統(tǒng)統(tǒng)計學(xué)是基于小數(shù)據(jù)時代的條件發(fā)展起來的,無論理論還是方法都是以樣本為基礎(chǔ)展開的。但在大數(shù)據(jù)時代,數(shù)據(jù)的屬性發(fā)生了很多變化,從而對統(tǒng)計學(xué)的傳統(tǒng)理論和方法構(gòu)成嚴峻挑戰(zhàn)。比如,大數(shù)據(jù)中不同個案的發(fā)生經(jīng)常不是獨立隨機事件,而是相互之間存在著強烈的正反饋或負反饋(典型表現(xiàn)是圍繞特定事件而展開的公共討論);大數(shù)據(jù)獨特的分布特征(比如重尾分布)會導(dǎo)致方差、標準差等標準方法變得無效,分布理論、大數(shù)定律和中心極限定理的應(yīng)用也會受到限制[5]。如此等等。

        總而言之,大數(shù)據(jù)對3個學(xué)科既有的研究范式都提出了新的挑戰(zhàn)。這些挑戰(zhàn),使它們一方面更加相互依賴,但另一方面也使它們比以前更加難以滿足彼此的需要,以致難以走到一起,或者不歡而散。這就更需要3個學(xué)科求同化異,以更大的耐心和毅力推進合作。但不幸的是,合作的推進又面臨學(xué)科屬性、學(xué)科建制和學(xué)術(shù)市場等方面的障礙。

        首先,因?qū)W科屬性不同,3個學(xué)科在研究活動的組織方式上存在重大差別,從而影響相互之間的合作。在3個學(xué)科中,相對而言,計算機學(xué)科的研究活動具有更強的工程性質(zhì)。這表現(xiàn)在,它可以將研究目標分解為若干邊界比較清晰的任務(wù),然后交由不同的研究人員和組織去實施,實現(xiàn)分進合擊。相應(yīng)地,其研究活動通常采用團隊作戰(zhàn)的實驗室體制。同樣由于其活動的工程性質(zhì),計算機學(xué)科的研究進度相對可控制、可預(yù)測。而統(tǒng)計學(xué),尤其是社會學(xué)的研究活動則具有鮮明的思想屬性。思想工作是很難分解的,難以想像讓甲思考A部分,乙思考B部分,然后組合起來,就形成一個思想了。因此社會研究常常以個體的形式進行,很難采取團隊作戰(zhàn)的方式。與此同時,即使個人的思考,也比較依賴靈感,進度很難控制和預(yù)測。學(xué)科屬性的差異給學(xué)科之間的合作造成一定困難。

        舉例言之。社會學(xué)家經(jīng)常在拿到數(shù)據(jù)后,一時在理論上沒有思路,于是陷入沉思,很長時間沒有下文。也許突然有一天,理論靈感來了,他就急不可耐地想探測一下數(shù)據(jù),看看新的思路是否可行,如果不可行又該如何調(diào)整,如此反復(fù)。正因為如此,社會學(xué)家的研究工作常常顯得大起大落,節(jié)奏很不穩(wěn)定。這雖然是社會學(xué)研究活動的固有特征,但確實讓其他學(xué)科很難配合,甚至引起一些誤解,認為社會學(xué)家“不靠譜”。

        其次,還有學(xué)科建制上的障礙。按當(dāng)前體制,這3個學(xué)科往往分屬不同的研究單位。組織歸屬不同,科研議程的設(shè)置、資源的配備、績效的考核也就不同。以前,學(xué)科之間在建制上的分割并不構(gòu)成學(xué)科合作的嚴重障礙。因為在那個時候,學(xué)科之間的結(jié)合通常是知識的結(jié)合,而不需要組織建制的結(jié)合,只要有那么一兩個學(xué)術(shù)精英善于結(jié)合不同學(xué)科的知識,創(chuàng)造出若干標準化的知識模板或研究范式,其他學(xué)者只管遵循和借鑒就可以了。在此過程中,學(xué)科之間主要是在知識上打交道,無需在組織和人員上打交道,即使打交道,也無需很多,現(xiàn)在則不然。大數(shù)據(jù)的基本特征恰恰是高度復(fù)雜,亦即高度非標準化。這一方面意味著,學(xué)科合作已經(jīng)難以通過標準化的知識模板進行,而常常需要圍繞特定問題“一事一議”地、面對面地碰撞和交流,從而需要把學(xué)科合作從知識層面延伸到組織和人事層面;另一方面也意味著,學(xué)科合作涉及的知識越來越多,越來越細,越來越復(fù)雜,相應(yīng)地,標準化的知識模板也越來越難以形成。這樣,怎樣打破學(xué)科壁壘,如何通過組織和人員的融合來實現(xiàn)學(xué)科之間的融合,就成為一個重大問題,目前還沒有找到有效的破解之道。

        最后是市場選擇。在大數(shù)據(jù)開發(fā)的兩種取向中,社會研究更偏于科學(xué)取向,產(chǎn)品質(zhì)量要求高,生產(chǎn)周期長,生產(chǎn)成本高,短期內(nèi)卻難以見到效益,自然在市場上不討喜,因而在研究資源的獲取上受到很大限制。而3個學(xué)科中的統(tǒng)計學(xué),特別是計算機科學(xué),其工作更容易被市場接受,更容易走應(yīng)用路線。這樣一種局面,對3個學(xué)科能否親密合作,把一場注定艱辛的“愛情長跑”堅持到底是一個嚴峻的考驗。從目前來看,形勢并不樂觀。

        7 結(jié)論與展望

        隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的迅速發(fā)展以及國家對大數(shù)據(jù)社會治理的力推,大數(shù)據(jù)研究也越來越熱。當(dāng)前大數(shù)據(jù)開發(fā)中存在著科學(xué)和應(yīng)用兩種取向,且呈應(yīng)用取向完全壓倒科學(xué)取向之勢,這不利于大數(shù)據(jù)研究的可持續(xù)發(fā)展。大數(shù)據(jù)兼有技術(shù)、數(shù)據(jù)、社會三重屬性,要推進科學(xué)取向的大數(shù)據(jù)研究,就必須有機地結(jié)合信息技術(shù)、統(tǒng)計和社會思想3種力量。這內(nèi)在地要求計算機科學(xué)、統(tǒng)計科學(xué)和社會科學(xué)3個學(xué)科摒棄門戶之見,實現(xiàn)通力合作。大數(shù)據(jù)研究繞不過社會科學(xué),社會科學(xué)也繞不過大數(shù)據(jù)。在當(dāng)前,由于各自技術(shù)能力的局限,學(xué)科屬性的差異、學(xué)科體制的障礙、市場選擇的偏向,3個學(xué)科之間的合作還比較困難。

        這導(dǎo)致目前完整意義上的大數(shù)據(jù)研究并不多。從社會科學(xué)方面來看,多是利用一些已經(jīng)比較結(jié)構(gòu)化的大數(shù)據(jù)展開研究[6,7],真正自己從頭采集和爬梳數(shù)據(jù)的研究非常少[8]。由于這些數(shù)據(jù)的變量比較少,變量的取值和層次以及樣本的代表性等,不盡符合社會學(xué)命題的要求,以致能夠進行的社會學(xué)理論推演十分有限,甚至只能做一些粗淺的、宏觀層面的描述統(tǒng)計。而計算機科學(xué)雖然在數(shù)據(jù)爬梳方面做了很多工作,但在研究主題的凝練和對社會機制的理解方面都比較薄弱,即使拉澤爾等人著名的《計算社會科學(xué)》[9]一文亦不免此病。這是缺乏社會理論引領(lǐng)的結(jié)果??偟膩砜矗嬲龀黾扔兴枷肷疃?,又有堅實數(shù)據(jù)支撐的大數(shù)據(jù)研究,還任重而道遠。

        現(xiàn)代社會是一個復(fù)雜而多變的巨系統(tǒng),社會治理不能憑感覺率性而為。順應(yīng)社會和技術(shù)形勢的變化,在社會治理過程中主動利用大數(shù)據(jù),是社會治理方略的重大進步。與自然世界的運作一樣,社會運作也有自己的規(guī)律。大數(shù)據(jù)雖然看上去龐大而“全面”,但其中蘊含的社會規(guī)律并不會自然顯露,同樣需要經(jīng)過艱苦的科學(xué)探索,這就需要積極推進科學(xué)取向的大數(shù)據(jù)社會研究。離開堅實的社會研究,所謂以大數(shù)據(jù)為基礎(chǔ)的社會治理只會是一枕黃粱。當(dāng)前,在大數(shù)據(jù)研究領(lǐng)域,包括對大數(shù)據(jù)社會治理的研究,廣泛存在著急功近利的傾向和對應(yīng)用取向的迷戀。這要求政府應(yīng)在尊重應(yīng)用與科學(xué)兩種取向合理分工的前提下,充分發(fā)揮調(diào)節(jié)作用,把科學(xué)取向的大數(shù)據(jù)研究提上重要日程,同時加大資源投入,將大數(shù)據(jù)研究作為一個基礎(chǔ)性和戰(zhàn)略性項目來支持。

        致謝

        感謝杜小勇、周雪光、張尹霰、莊家熾以及2016年1月16日中國人民國家發(fā)展與戰(zhàn)略研究院“大數(shù)據(jù)與社會治理”會議上各位同仁的意見和建議。

        [1] 維克托·邁爾-舍恩伯格, 肯尼斯·庫克耶. 大數(shù)據(jù)時代——生活、工作與思維的大變革[M].盛楊燕, 周濤,譯. 杭州:浙江人民出版社, 2013: 27-97. M AY ER-S C H ? N B ER G ER V, C U K I ER K. Big Data: A Revolution that Will Transform How We Live, Work, and Think[M]. Translated by SHENG Y Y, ZHOU T. Hangzhou: Zhejiang People’s Publishing House, 2013: 27-97.

        [2] 李國杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國科學(xué)院院刊, 2012, 27(6): 647-657. LI G J, CHENG X Q. Research status and scientific thinking of big data[J]. Bulletin of the Chinese Academy of Sciences, 2012, 27(6): 647-657.

        [3] 程學(xué)旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報, 2014, 25(9): 1889-1908. CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytictechnology[J]. Journal of Software, 2014, 25(9): 1889-1908.

        [4] HEY T, TANSLEY S, TOLLE K. 第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M]. 潘教峰, 張曉林,譯. 北京: 科學(xué)出版社, 2012. H E Y T, TA NSL E Y S, TO L L E K. T h e Four th Paradigm: Data-Intensive Scientific Discovery[M]. Translated by PAN J F, ZHANG X L. Beijing: Science Press, 2012.

        [5] 游士兵, 張佩, 姚雪梅. 大數(shù)據(jù)對統(tǒng)計學(xué)的挑戰(zhàn)和機遇[J]. 珞珈管理評論, 2013(2):165-167. YOU S B, ZHANG P, YAO X M. The challenges and opportunities that big data brings to statistics[J]. Luojia Management Review, 2013(2): 165-167.

        [6] 陳云松. 大數(shù)據(jù)中的百年社會學(xué)——基于百萬書籍的文化影響力研究[J]. 社會學(xué)研究, 2015(1): 23-48. CHEN Y S. The trajectory of sociology over two centuries: a cultural study using millions of books[J]. Sociological Studies, 2015(1): 23-48.

        [7] RIJT A V D, SHOR E, WARD C, et al. Only 15 minutes? The social stratification of fame in printed media[J]. American Sociological Review, 2013, 78(2):266-289.

        [8] G ARY K, JENNIFER P, R O BER T S M E. Reverse-engineering censorship in China: randomized experimentation and participant observation[J]. Science, 2013, 345(6199): 1-10.

        [9] LAZER D, PENTLAND A, ADAMIC L, et al. Computational social science[J]. Science, 2009, 323(5915): 721-723.

        Big data and social studies in China’s governance: status quo, problems, and prospects

        FENG Shizheng
        School of Sociology and Population Studies, Renmin University of China, Beijing 100872, China

        The two potential orientations that are scientific research and social application, in big data studies, and their relationship were clarified. In light of this, the chances, challenges that big data brings and its weakness towards social studies were explored. Based on specifying the three properties of big data as statistical numbers, as social processes, and as technical functions, their respective positions of different disciplines in big data-based social studies, and both the difficulties and their sources in cooperation between different disciplines were shed light on.

        big data, social study, social governance, social computation, social statistics

        C91-0

        A

        10.11959/j.issn.2096-0271.2016014

        2016-01-20

        中國人民大學(xué)科研基金資助項目“當(dāng)前中國網(wǎng)絡(luò)群體性事件的形成及治理研究”(No.13XNL005)

        Foundation Item: Research Funds for Central Universities, and the Research Funds of Renmin University of China “The Online Collective Action in Current China” (No.13XNL005)

        馮仕政(1974-),男,中國人民大學(xué)社會與人口學(xué)院教授、副院長,主要研究方向為政治社會學(xué)、社會治理、社會不平等。

        猜你喜歡
        社會學(xué)學(xué)科科學(xué)
        【學(xué)科新書導(dǎo)覽】
        土木工程學(xué)科簡介
        邊疆研究的社會學(xué)理路——兼論邊疆社會學(xué)學(xué)科建構(gòu)之必要性
        第八屆全全科學(xué)社會學(xué)學(xué)術(shù)會議通知
        科學(xué)大爆炸
        “超學(xué)科”來啦
        科學(xué)
        論新形勢下統(tǒng)一戰(zhàn)線學(xué)學(xué)科在統(tǒng)戰(zhàn)工作實踐中的創(chuàng)新
        孤獨、無奈與彷徨:“空巢青年”與“獨居青年”的社會學(xué)分析
        科學(xué)拔牙
        最新日本人妻中文字幕| 亚洲人成18禁网站| 天堂av一区一区一区| 精品久久久少妇一区二区| 又大又紧又粉嫩18p少妇| 私人vps一夜爽毛片免费| 少妇放荡的呻吟干柴烈火动漫| 精品囯产成人国产在线观看| 日韩美女人妻一区二区三区 | 国产精品视频白浆免费视频| 欧美又大粗又爽又黄大片视频| 日韩av无码中文无码电影| 国产亚洲精品aaaa片小说| 亚洲AV无码资源在线观看| 特一级熟女毛片免费观看| 日韩精品免费视频久久| 亚洲天堂成人av在线观看| 欧美放荡的少妇| 欧美性群另类交| 无遮挡很爽视频在线观看| 综合中文字幕亚洲一区二区三区 | 麻豆亚洲一区| 久久久国产乱子伦精品作者| 久久精品无码专区免费青青| 久热爱精品视频在线观看久爱 | 国产免费人成视频在线观看 | 亚洲午夜久久久久中文字幕久| av资源在线免费观看| 成年性生交大片免费看| 亚洲欧洲日产国码无码久久99| 亚洲线精品一区二区三区八戒| 福利一区二区三区视频在线 | 日本h片中文字幕在线| 欧美人做人爱a全程免费| 亚洲中文字幕无码mv| 亚洲自拍另类欧美综合| 白嫩少妇在线喷水18禁| 成年免费a级毛片免费看无码| 亚洲精品午夜无码电影网| 亚洲国产成人精品无码区在线观看 | 国产精品久久久久精品一区二区|