亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代與社會科學(xué)研究范式變革

        2017-11-24 13:07:19劉濤雄尹德才
        理論探索 2017年6期
        關(guān)鍵詞:大數(shù)據(jù)

        劉濤雄 尹德才

        特邀主持人:劉濤雄(清華大學(xué)社會科學(xué)學(xué)院教授、博士生導(dǎo)師)

        主持人語:毫無疑問,大數(shù)據(jù)已經(jīng)掀起一場革命,正在深刻地改造人類社會、經(jīng)濟和政治秩序的各個方面,我國亦于2016年明確提出“十三五”期間將實施國家大數(shù)據(jù)戰(zhàn)略。無論大數(shù)據(jù)作為研究對象抑或是研究方法,均對社會科學(xué)研究范式的創(chuàng)新產(chǎn)生了深刻影響。為了加深學(xué)術(shù)界對于大數(shù)據(jù)與社會科學(xué)發(fā)展的認(rèn)識,促進學(xué)術(shù)對話與交流,我們組織了兩篇文章集中探討大數(shù)據(jù)對社會科學(xué)研究范式的復(fù)雜影響。第一篇文章區(qū)分了大數(shù)據(jù)對社會科學(xué)研究范式的直接影響和間接影響。大數(shù)據(jù)時代通過為社會科學(xué)研究提供“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)和數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)產(chǎn)生了巨大的直接影響,還間接地推動著社會科學(xué)研究范式在研究路徑、研究手段和研究功能上的深刻變革。第二篇文章以“計算社會科學(xué)”為研究對象,闡述了這一交叉學(xué)科的緣起、學(xué)科嬗變以及其推動社會科學(xué)研究范式轉(zhuǎn)換的方向。大數(shù)據(jù)為新興學(xué)科發(fā)展與范式突破創(chuàng)造了機遇,并形成了一系列圍繞著數(shù)據(jù)驅(qū)動和算法驅(qū)動采取不同融合方式的“問題解決性、應(yīng)用導(dǎo)向”多元化研究進路。作為技術(shù)進步、數(shù)據(jù)爆炸和方法創(chuàng)新的產(chǎn)物,計算社會科學(xué)融合了社會科學(xué)的計算傳統(tǒng),基于海量數(shù)據(jù)資源和多元化數(shù)據(jù)分析學(xué)推動著社會科學(xué)范式轉(zhuǎn)換。

        〔摘要〕 大數(shù)據(jù)時代的到來對社會科學(xué)研究產(chǎn)生巨大影響。除“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)以及數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)三個方面的直接影響外,大數(shù)據(jù)還將進一步推動社會科學(xué)研究范式三個層面的變革。一是研究路徑變革:大數(shù)據(jù)“數(shù)據(jù)驅(qū)動”模式與當(dāng)前社會科學(xué)“理論假設(shè)驅(qū)動”模式相結(jié)合形成新的研究模式。二是研究手段變革:大數(shù)據(jù)及相關(guān)技術(shù)將成為因果發(fā)現(xiàn)的強大武器。三是功能變革:預(yù)測問題和因果問題將得到同等重視,并將有機統(tǒng)一于有關(guān)研究特別是政策研究中。

        〔關(guān)鍵詞〕 大數(shù)據(jù),社會科學(xué)研究范式,知識發(fā)現(xiàn),傳統(tǒng)社會科學(xué)

        〔中圖分類號〕C1 〔文獻標(biāo)識碼〕A 〔文章編號〕1004-4175(2017)06-0027-06

        隨著網(wǎng)絡(luò)的普及和信息技術(shù)的發(fā)展,人類社會進入大數(shù)據(jù)時代。盡管“大數(shù)據(jù)”的定義存在差異,但大數(shù)據(jù)已深刻影響到社會的各個方面,引起人類生活、工作與思維的大變革。科學(xué)研究,特別是社會科學(xué)研究同樣受到強烈影響。大數(shù)據(jù)的出現(xiàn)不僅提供了“全樣本”數(shù)據(jù),還為社會科學(xué)研究提供新的研究方法和技術(shù)手段。同時,一些觀點認(rèn)為大數(shù)據(jù)強調(diào)重視“相關(guān)而非因果”也引起諸多爭議,對以因果探究為核心的傳統(tǒng)社會科學(xué)研究產(chǎn)生沖擊。在這種情形下,社會科學(xué)研究者該如何看待大數(shù)據(jù)帶來的機遇和挑戰(zhàn)?如何利用大數(shù)據(jù)進行社會科學(xué)研究?大數(shù)據(jù)將如何影響社會科學(xué)的研究范式?現(xiàn)有文獻對此類問題的研究較少,為此基于對大數(shù)據(jù)時代社會科學(xué)研究面臨機遇與挑戰(zhàn)的分析,本文探究大數(shù)據(jù)時代社會科學(xué)研究范式變革的方向。

        一、大數(shù)據(jù)時代社會科學(xué)研究范式面臨變革

        “大數(shù)據(jù)”一詞正式出現(xiàn)于1998年《科學(xué)》雜志刊登的《大數(shù)據(jù)的處理程序》一文,此后《自然》雜志2008年出版“大數(shù)據(jù)”??按髷?shù)據(jù)”一詞得到普遍認(rèn)可和使用。關(guān)于大數(shù)據(jù)的定義學(xué)術(shù)界并沒有達成共識,由于關(guān)注點不同,科技企業(yè)、研究學(xué)者、數(shù)據(jù)分析人員和技術(shù)實踐者對大數(shù)據(jù)有不同的定義。從狹義上講,大數(shù)據(jù)是指數(shù)據(jù)量的大小超過了傳統(tǒng)意義上的尺度,一般的工具難以進行捕捉、存儲、管理和分析?!? 〕該定義僅僅描述了大數(shù)據(jù)的“大”,沒有涉及大數(shù)據(jù)的其他屬性。當(dāng)前一般認(rèn)為,大數(shù)據(jù)的典型屬性概括為“4V”,即數(shù)據(jù)體量大、數(shù)據(jù)產(chǎn)生速度快、種類多樣和價值密度低。

        就社會科學(xué)研究而言,大數(shù)據(jù)時代到底為我們帶來什么?借鑒Einav & Hendry的概括,至少有四點很重要 〔2 〕。一是數(shù)據(jù)的實時可得。如互聯(lián)網(wǎng)上的大量信息是實時的,移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展導(dǎo)致每個人可能隨時隨地在制造數(shù)據(jù)。社會科學(xué)應(yīng)充分利用數(shù)據(jù)的實時性,大大提高研究的時效性。二是可得數(shù)據(jù)是海量的。正如Mayer-Sch.nberger 和 Cukier所言,傳統(tǒng)統(tǒng)計學(xué)處理的主要是樣本,而在大數(shù)據(jù)時代,你能得到的數(shù)據(jù)可能就是總體本身 〔3 〕17。如就個人遷徙而言,手機等隨身設(shè)備可能將每個個體的移動都記錄在案。大數(shù)據(jù)時代的到來,許多數(shù)據(jù)貧乏的學(xué)科成為數(shù)據(jù)富集的研究領(lǐng)域,而“社會科學(xué)是被‘樣本=總體撼動得最厲害的學(xué)科” 〔3 〕42。大數(shù)據(jù)提供的“全樣本”數(shù)據(jù)不僅使得許多因數(shù)據(jù)缺乏而無法開展的研究得以開展,同時也帶來新的挑戰(zhàn)。大數(shù)據(jù)其量之大超出一般傳統(tǒng)統(tǒng)計軟件所能處理的范圍,而且解釋變量增加會導(dǎo)致高維數(shù)據(jù)中的“維數(shù)災(zāi)難”,解決這些問題需要新的分析方法和工具。三是數(shù)據(jù)的非結(jié)構(gòu)化。大數(shù)據(jù)的來源和形式都十分多樣化,如互聯(lián)網(wǎng)信息包含文本、圖片以及影音等多種形式。這些信息中到底哪些包含我們所需要的信息?社會科學(xué)研究如何充分利用數(shù)據(jù)挖掘技術(shù),將這些非結(jié)構(gòu)化信息轉(zhuǎn)化為統(tǒng)計模型所能利用的形式?這些都是需要解決的問題。四是數(shù)據(jù)分析的技術(shù)手段日新月異。伴隨著數(shù)據(jù)規(guī)模的擴大,新的大數(shù)據(jù)分析技術(shù)不斷地涌現(xiàn),機器學(xué)習(xí)、并行計算等技術(shù)的發(fā)展和改進加快了大數(shù)據(jù)的處理速度。社會科學(xué)研究如何吸收和利用這些強大的技術(shù)手段,使之成為社會科學(xué)家工具箱中的利器是未來社會科學(xué)家們必須面對的問題?!? 〕

        但是,相對于上述直接影響更為重要的是,我們需要思考大數(shù)據(jù)時代到底給社會科學(xué)基本的研究范式帶來哪些影響?社會科學(xué)的研究對象為社會,目標(biāo)在于認(rèn)識各種社會現(xiàn)象并盡可能地發(fā)現(xiàn)關(guān)聯(lián),而核心在于探究因果關(guān)系。正如哈耶克所言“社會科學(xué)研究的不是物與物的關(guān)系,而是人與物或人與人的關(guān)系。它研究人的行為,它的目的是解釋許多人的行為所帶來的無意的或未經(jīng)設(shè)計的結(jié)果?!?〔5 〕7各種社會現(xiàn)象可視為已發(fā)生的不可控試驗,其背后存在某種潛在的本質(zhì)規(guī)律或因果關(guān)系??紤]到因果聯(lián)系的普遍性和復(fù)雜性,數(shù)據(jù)作為對不可控試驗的特殊描述必須盡可能的豐富,唯此才是更全面、更接近真實的描述。大數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)已經(jīng)對傳統(tǒng)社會科學(xué)認(rèn)識論和方法論的研究方法產(chǎn)生巨大挑戰(zhàn)。Steve Kelling等認(rèn)為,傳統(tǒng)的認(rèn)識論“以專家為中心”,傳統(tǒng)科學(xué)方法論的研究依賴于以“專家為中心的參量分析”,其研究中心是理論模型與經(jīng)驗證據(jù)的關(guān)系 〔6 〕。該方法論在大數(shù)據(jù)時代具有局限性,對單個專家而言大數(shù)據(jù)分析不可行〔6 〕。而且科學(xué)哲學(xué)經(jīng)驗——理論這一單線理解模式也難以應(yīng)對大數(shù)據(jù)時代的認(rèn)識論這種新情況 〔7 〕。另外,流行的觀點認(rèn)為,大數(shù)據(jù)分析關(guān)注的焦點不再是因果關(guān)系,而是相關(guān)關(guān)系。大數(shù)據(jù)的支持者認(rèn)為,“有了足夠的數(shù)據(jù),數(shù)字會自己說話”,因而“相關(guān)關(guān)系足夠了” 〔8 〕,“大數(shù)據(jù)時代最驚心動魄的挑戰(zhàn),就是社會將需要從對因果關(guān)系的某種癡迷中蛻出”?!哆B線》雜志主編Anderson甚至認(rèn)為“數(shù)據(jù)爆炸導(dǎo)致科學(xué)的研究方法落伍了” 〔8 〕,大數(shù)據(jù)時代分析和理解世界,只關(guān)注數(shù)據(jù)就足矣,數(shù)據(jù)分析可揭示一切問題,理論變得可有可無。這一觀點撼動了不少社會科學(xué)研究者,使他們開始憧憬“傳統(tǒng)方法的終結(jié)”。此外,不少研究者至今仍然認(rèn)為大數(shù)據(jù)雖然不是絕對精確,但由于數(shù)據(jù)量極大,所以誤差必然在可以接受的范圍之內(nèi)。endprint

        較之于大數(shù)據(jù)而言,傳統(tǒng)社會科學(xué)研究中使用的數(shù)據(jù)可稱之為“小數(shù)據(jù)”。傳統(tǒng)“小數(shù)據(jù)”方法的缺點是往往采用人工收集數(shù)據(jù)的方法,成本高昂,數(shù)量較小,時效性較差,滯后性嚴(yán)重。但其優(yōu)點是在嚴(yán)格的統(tǒng)計抽樣規(guī)范下形成,數(shù)據(jù)質(zhì)量相對較好;而且“小數(shù)據(jù)”通常是根據(jù)研究需要有目的獲取的,比被動收集的“大數(shù)據(jù)”具有更強的針對性。因此,對那些具有理論意義和理論突破的研究,小數(shù)據(jù)可能比大數(shù)據(jù)更適合 〔9 〕。另外,很多時候我們采集到的大數(shù)據(jù)并非真正的全樣本數(shù)據(jù),它可能是總體中某一部分的數(shù)據(jù),比如就互聯(lián)網(wǎng)上的在線數(shù)據(jù)而言,網(wǎng)民并不等同于“公民”的總體。進一步而言,實際上以當(dāng)代計算機信息技術(shù)領(lǐng)域的數(shù)據(jù)挖掘?qū)<覟榇淼拇髷?shù)據(jù)分析方法和社會科學(xué)家們拿手的小數(shù)據(jù)實證方法代表的是不同的研究范式。前者產(chǎn)生于大數(shù)據(jù)社會,充分利用信息產(chǎn)生和獲取的便捷,基于計算機計算能力的不斷增強,直接對海量的大數(shù)據(jù)進行分析處理,通過數(shù)據(jù)量之大和計算力之強減少對理論的依賴。后者是在信息收集成本高昂的工業(yè)文明時代發(fā)展形成的,注重基于已有的理論知識縮小研究范圍,以先驗的理論假設(shè)明確研究方向,依據(jù)嚴(yán)格的統(tǒng)計抽樣規(guī)范收集數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量降低收集成本。在大數(shù)據(jù)時代來臨之際,我們應(yīng)該在洞察兩類不同范式形成的不同機理,深入分析各自優(yōu)越點和應(yīng)用場景的基礎(chǔ)上,探尋未來社會科學(xué)研究的新范式。而本文認(rèn)為,大數(shù)據(jù)時代社會科學(xué)研究范式的變革至少包括以下三個方面。

        二、研究路徑變革:“數(shù)據(jù)驅(qū)動”的知識發(fā)現(xiàn)

        數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn),是指利用統(tǒng)計學(xué)、機器學(xué)習(xí)等方法從掌握的大數(shù)據(jù)中提取隱含在數(shù)據(jù)背后、人們事先不知道,但存在潛在效用、能被人理解的信息和知識的過程。其中,精細(xì)的概率模型、統(tǒng)計推理、數(shù)據(jù)挖掘與機器學(xué)習(xí)相結(jié)合,成為從大數(shù)據(jù)中提取知識的有力途徑。基于數(shù)據(jù)的知識發(fā)現(xiàn)催生了2007年圖靈獎獲得者吉姆·格雷(Jim Gray)提出的科學(xué)研究“第四范式”。他指出,科學(xué)發(fā)展經(jīng)歷了幾千年前的實驗科學(xué)(主要用于描述自然現(xiàn)象)、幾百年前的理論科學(xué)(用模型或歸納法進行科學(xué)研究)、計算科學(xué)(主要模擬復(fù)雜現(xiàn)象),而當(dāng)今“科學(xué)世界發(fā)生變化,對此毋庸置疑。新的研究范式將首先基于計算機模擬或者儀器捕捉獲取數(shù)據(jù),然后利用軟件處理數(shù)據(jù),并在計算機中保存得到的知識或信息??茖W(xué)家僅在該過程的最后階段才開始審視他們的數(shù)據(jù)。這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方法是如此不同,應(yīng)該將其作為科學(xué)探索的“第四范式”以區(qū)別于計算科學(xué)”。 〔10 〕

        相對于“數(shù)據(jù)驅(qū)動”而言,當(dāng)前社會科學(xué)的主流研究范式可稱為“理論假設(shè)驅(qū)動”。社會科學(xué)家進行一項研究時,強調(diào)首先要通過廣泛的文獻調(diào)研以了解現(xiàn)有知識體系的前沿邊界,然后提出本研究可能給現(xiàn)有知識體系帶來的貢獻,即研究的基本“問題”所在;然后從該問題出發(fā),在一定的理論框架和必要的理論推演下提出待實證檢驗的“新知識”,也即“理論假設(shè)”,然后設(shè)計統(tǒng)計模型、收集數(shù)據(jù),最后利用所得數(shù)據(jù)驗證理論假定并得出結(jié)論。這一過程深受波普爾證偽主義的影響,實證研究一般被定位為對理論假設(shè)的證偽。此外,理論假設(shè)的提出過于依賴于已有理論體系及研究者的知識和觀念,致使社會科學(xué)的知識發(fā)現(xiàn)具有兩個明顯的特征,即“路徑依賴”及對研究者主觀觀念的“個性依賴”。

        可以預(yù)見,大數(shù)據(jù)時代的社會科學(xué)研究將充分吸收“數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)”模式的優(yōu)勢,形成“數(shù)據(jù)驅(qū)動”和“理論假設(shè)驅(qū)動”相結(jié)合的新范式?!皵?shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)”對社會科學(xué)研究產(chǎn)生挑戰(zhàn)并將重構(gòu)研究過程,但這并不意味著理論假設(shè)驅(qū)動的社會科學(xué)研究范式的終結(jié),兩者的結(jié)合將更好地認(rèn)識世界。實際上理論假設(shè)驅(qū)動的研究路徑為廣大社會科學(xué)研究者所接受的重要原因是,其在信息不足條件下帶來的高效性。在傳統(tǒng)的技術(shù)條件下,社會科學(xué)研究者搜集信息、處理數(shù)據(jù)面臨著高昂的成本?;谝延兄R體系提出理論假設(shè),有助于迅速聚焦研究的問題,而基于核心問題出發(fā)收集和處理數(shù)據(jù),有利于節(jié)約成本。但這種先給出理論假設(shè)的作法也往往局限了研究的理論創(chuàng)見,因為選擇了某一理論假設(shè)就意味著放棄了很多其它的甚至更有價值的理論假設(shè)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,收集和處理數(shù)據(jù)成本大大下降,研究者可避開現(xiàn)有理論和個人知識的束縛,在先驗假設(shè)盡可能少、甚至沒有任何假設(shè)的情況下,通過大范圍的數(shù)據(jù)挖掘發(fā)現(xiàn)一些基本的模式,從中提出更重要的研究問題和理論假設(shè),并結(jié)合已有理論知識凝練理論假設(shè);然后基于理論假設(shè)對數(shù)據(jù)進行進一步的問題導(dǎo)向、更集中的深度挖掘來驗證假設(shè)的合理性;如果此時已有數(shù)據(jù)不能滿足假設(shè)驗證的要求,可進一步收集數(shù)據(jù),當(dāng)然也可以采用傳統(tǒng)方法收集小樣本數(shù)據(jù),以保證假設(shè)驗證的科學(xué)性。因此,大數(shù)據(jù)時代一項典型社會科學(xué)研究的實施過程將包括初步數(shù)據(jù)挖掘與問題發(fā)現(xiàn)、問題聚焦與理論假設(shè)確立、深度數(shù)據(jù)挖掘與假設(shè)檢驗、知識形成與研究結(jié)論等環(huán)節(jié),而基于數(shù)據(jù)的知識發(fā)現(xiàn)模式及大數(shù)據(jù)分析技術(shù)將深度融合于以上各個環(huán)節(jié)之中。

        值得注意的是,在兩類研究路徑結(jié)合的過程中常會面臨一個選擇,即應(yīng)該采用傳統(tǒng)的社會科學(xué)統(tǒng)計分析方法還是采用大數(shù)據(jù)方法。我們認(rèn)為這需要理清兩者研究目標(biāo)的異同、對數(shù)據(jù)特征的側(cè)重以及技術(shù)方法的差別,然后根據(jù)具體研究場景予以取舍。從統(tǒng)計分析的一般規(guī)律來講,假設(shè)的強度和結(jié)論的精確性、穩(wěn)健性之間存在此消彼長的關(guān)系。理論假設(shè)越多,統(tǒng)計分析的結(jié)論通常越精確,但如果假設(shè)不成立,穩(wěn)健性則越差;反之則反。傳統(tǒng)的社會科學(xué)統(tǒng)計分析方法和大數(shù)據(jù)方法反映了不同的統(tǒng)計哲學(xué)。傳統(tǒng)的統(tǒng)計分析方法往往從一定的理論假設(shè)出發(fā),構(gòu)建指標(biāo)和模型,其優(yōu)點是理論相對嚴(yán)謹(jǐn),結(jié)論明確,可證偽度較高;缺點是對假設(shè)的嚴(yán)密性及數(shù)據(jù)的質(zhì)量均有較高要求,對研究對象發(fā)生結(jié)構(gòu)性變化時的適應(yīng)性較弱?!?1 〕而大數(shù)據(jù)挖掘方法,則以“基于數(shù)據(jù)的知識發(fā)現(xiàn)”為基本原則,以數(shù)據(jù)的量大彌補理論前提的不足,優(yōu)點是前提假設(shè)少,對數(shù)據(jù)質(zhì)量要求相對較低,缺點是對內(nèi)在理論機制的揭示不足,數(shù)據(jù)量要求大。

        三、研究手段變革:大數(shù)據(jù)成為因果分析的強大手段

        在傳統(tǒng)的社會科學(xué)研究范式中,學(xué)者研究的焦點是探究因果關(guān)系。流行的觀點認(rèn)為大數(shù)據(jù)分析應(yīng)注重相關(guān)關(guān)系而忽略因果關(guān)系 〔12 〕,認(rèn)為“相關(guān)關(guān)系足夠了”,Chris Anderson甚至提出“理論的終結(jié)”。本文并不認(rèn)同上述極端觀點,盡管相關(guān)關(guān)系在大數(shù)據(jù)分析中得到凸顯,但“因果關(guān)系是人類理性行為與活動的基本依據(jù),人類理性本身不可能否定因果關(guān)系” 〔12 〕?!按髷?shù)據(jù)長于分析相關(guān)關(guān)系,而非因果關(guān)系。但這可能是一個偽命題。如何從相關(guān)關(guān)系中推斷出因果關(guān)系,才是大數(shù)據(jù)真正問題所在。” 〔13 〕本文認(rèn)為,大數(shù)據(jù)時代因果關(guān)系將得到更好的解釋,大數(shù)據(jù)不僅可以改進傳統(tǒng)方法,而且其著重探究的相關(guān)關(guān)系也有助于探究因果關(guān)系。endprint

        探究變量間因果關(guān)系的最佳方法是進行可控性試驗,基于試驗不僅可以將試驗對象分為控制組和實驗組,還可以避免外界因素干擾 〔14 〕。然而,社會科學(xué)研究對象的特殊性,致使“進行實驗的特殊困難” 〔15 〕111,而且“在社會研究題材上進行受控實驗的可能性極為狹小” 〔16 〕503。在社會科學(xué)的研究中,通?;诟怕式嵌壤斫庖蚬?,采用統(tǒng)計方法判斷因果。在實證分析中,因果關(guān)系判斷的準(zhǔn)確度通常受制于三因素 〔14 〕:變量的內(nèi)生性、變量遺漏、樣本代表性。內(nèi)生性問題是因果關(guān)系難以判斷的主要原因,它是指“在一些情況下出現(xiàn)反向因果問題:解釋變量受到被解釋變量影響,而不是我們假設(shè)的影響被解釋變量” 〔17 〕180。關(guān)于變量遺漏問題?,F(xiàn)實生活中,聯(lián)系是普遍存在的,單因單果的現(xiàn)象很難出現(xiàn)。這意味著,構(gòu)建合理的模型應(yīng)該包括所有可能影響因變量的元素,而不應(yīng)該僅僅涉及兩個變量。但由于數(shù)據(jù)等原因的限制,常常導(dǎo)致變量遺漏問題。關(guān)于樣本代表性問題。如前所述,傳統(tǒng)研究范式中的數(shù)據(jù)通常來自抽樣調(diào)查,然而研究者的主觀選擇、客觀條件限制以及操作過程失誤等均可導(dǎo)致樣本選擇性偏誤,從而導(dǎo)致樣本代表性問題。

        大數(shù)據(jù)時代,大數(shù)據(jù)試圖提供的“全樣本”數(shù)據(jù)將令上述問題得到改善。首先,更多的數(shù)據(jù)意味著更多的工具變量備選,研究中可選擇更好的工具變量;其次,“全樣本”將解決抽樣帶來的樣本代表性問題;最后,不僅因數(shù)據(jù)缺失造成的變量遺漏問題將得以解決,還可以對“全樣本”數(shù)據(jù)進行篩選,以判斷哪些變量應(yīng)該包含于模型中。關(guān)于變量的選擇,可采用Song 和 Taamouti提出的統(tǒng)計程序 〔18 〕,此外接下來提到的因果圖模型也有助于變量的篩選。

        因果圖模型由圖靈獎獲得者Pearl提出,利用有向圖探究變量間因果關(guān)系,分析數(shù)據(jù)的生成機制。〔19 〕該方法主要利用條件相關(guān)性判斷變量間是否存在因果關(guān)系,其根本機理在于,潛在的因果關(guān)系會影響變量間統(tǒng)計上的各類(條件)獨立性,因而可以利用數(shù)據(jù)分析得到的各種條件獨立性進而反推可能存在的因果關(guān)系。例如,假設(shè)變量X、Y與Z之間的因果關(guān)系存在如圖1所示四種情況。其中,圖的頂點代表變量,兩點間存在有向邊表明變量間存在因果關(guān)系,比如“XY”表示X是Y的原因。數(shù)據(jù)分析表明,Y和Z的無條件相關(guān)系數(shù)為0,但給定X時Y和Z條件相關(guān)系數(shù)不為0,則只有圖(d)所示因果關(guān)系是正確的。這種方法類似于社會科學(xué)統(tǒng)計模型中常用的工具變量法,但Pearl的方法更為強大,其強大之處在于,將這種判斷對應(yīng)到一定的有向無環(huán)圖的拓?fù)浣Y(jié)構(gòu),利用圖論的相關(guān)知識設(shè)計一套算法,當(dāng)變量數(shù)變得龐大時,展現(xiàn)出強大的分析能力。Eichler 和 Dielez進一步作出拓展,使得因果圖模型可用于時間序列的分析。 〔20 〕這些分析方法近期的蓬勃發(fā)展已經(jīng)說明,對條件相關(guān)關(guān)系的判斷可有效地幫助因果關(guān)系判斷。此外大數(shù)據(jù)條件下該方法威力更加強大,因為此時有更多的可得變量,更容易獲得變量的聯(lián)合概率分布以判斷變量間是否存在條件相關(guān)。因此,隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)蘊含的信息可極大地幫助刻畫變量間的因果關(guān)系,同時解決傳統(tǒng)方法遺漏變量的問題,進而推動相關(guān)領(lǐng)域的發(fā)展。

        四、研究功能變革:將因果分析與預(yù)測統(tǒng)一于政策

        社會科學(xué)研究重視因果判斷的根本原因在于,社會科學(xué)家普遍認(rèn)為對因果關(guān)系的明確把握是理論運用于實際的前提。就政策問題而言,政策制定者需要知道改變某一個政策工具對社會產(chǎn)生何種影響。因為改變政策工具是對系統(tǒng)的外在干預(yù),如果政策和預(yù)期結(jié)果之間沒有正向因果關(guān)系,通過外生政策干預(yù)不能取得預(yù)期結(jié)果。因此,一種流行的看法是,盡管對變量間相關(guān)關(guān)系的掌握有助于進行預(yù)測分析,但離開了因果關(guān)系,相關(guān)關(guān)系(或者預(yù)測分析)將無助于政策實施。然而,在此我們想強調(diào)的是,盡管在過去社會科學(xué)研究中預(yù)測問題沒有得到應(yīng)有的重視,但預(yù)測問題在政策研究中同樣十分重要。用天氣問題作為類比,政策問題可概括為兩類,即“雨傘”問題和“降雨”問題?!?1 〕所謂“雨傘”問題,即判斷是否會下雨以決定是否帶雨傘,這類問題也稱為預(yù)測問題或者對策問題。所謂“降雨”問題,即依據(jù)所需的降雨量決定采取何種措施,如向空中打多少干冰,這類問題也稱為干預(yù)問題,需要掌握降雨措施和降雨量之間的因果關(guān)系。盡管政策研究涉及上述兩類問題,但以往的社會科學(xué)研究主要關(guān)注后一類問題,即因果問題,而現(xiàn)有的數(shù)據(jù)挖掘技術(shù)則更關(guān)注前一類問題,即預(yù)測問題。

        事實上,現(xiàn)實中政策問題往往是兩類問題的結(jié)合。為此,不妨進一步分析“降雨”問題。在我們向空中撒入干冰前,需要研究清楚干冰對降雨的影響,這是一個因果判斷問題。假定我們針對特定區(qū)域?qū)嵤┤斯そ涤?,那么該地區(qū)的實際降雨量不僅取決于撒入空中的干冰數(shù)量,還取決于風(fēng)向。我們可以控制干冰的數(shù)量,卻無法控制風(fēng)向。為此,只能選擇在風(fēng)向合適的時候?qū)嵤┤斯そ涤辏@意味著我們需要預(yù)測風(fēng)向。事實上,幾乎所有的政策干預(yù)都需要在時機合適時實施,因此對“時機”的預(yù)測是十分必要的。圖2說明政策研究中因果問題與預(yù)測問題結(jié)合的一般模式。假設(shè)政府為取得某一效果決定進行政策干預(yù),效果的好壞受Y和Z影響,X是Z變化的原因但并非Y變化的原因。這樣政府可通過外生干預(yù)X來調(diào)節(jié)Z,對Y卻無能為力。如何恰當(dāng)?shù)馗深A(yù)X來改變Z并最終影響政策效果是一個因果問題,但僅僅抓住因果關(guān)系未必能取得理想的政策效果,因為Y同樣影響政策效果。因此,唯有Y值預(yù)測基礎(chǔ)上的政策干預(yù),才能取得理想的政策效果。這意味著,就理想政策效果的獲取而言,如何更好地預(yù)測Y與因果關(guān)系判定同等重要??梢?,對于大數(shù)據(jù)時代的政策研究,因果問題和預(yù)測問題同等重要,不可厚此薄彼。通過結(jié)合大數(shù)據(jù)預(yù)測方法,對一些制約政策效果又不可控的因素進行預(yù)測,并在此基礎(chǔ)上選擇更合理的政策措施和時機,可以幫助改進政策效果。

        圖2 大數(shù)據(jù)在政策實施中預(yù)測與因果關(guān)系的統(tǒng)一性

        五、結(jié)語

        大數(shù)據(jù)時代的到來對社會科學(xué)研究產(chǎn)生巨大影響。除“全樣本”數(shù)據(jù)、大數(shù)據(jù)技術(shù)以及數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)三個方面的直接影響外,大數(shù)據(jù)還將進一步推動社會科學(xué)研究范式三個層面的變革。但是挑戰(zhàn)也是存在的。比如,大數(shù)據(jù)的可得性不近如人意。一方面數(shù)據(jù)巨頭將數(shù)據(jù)視為核心資產(chǎn),拒絕共享數(shù)據(jù);另一方面大數(shù)據(jù)可能涉及個人隱私、商業(yè)機密或者國家安全,不能共享。再如,大數(shù)據(jù)具有相對性?!按髷?shù)據(jù)知識產(chǎn)生的前提要求大數(shù)據(jù)能夠真實、全面地反映經(jīng)驗世界和網(wǎng)絡(luò)世界?!?〔22 〕目前大數(shù)據(jù)尚未覆蓋全世界和所有領(lǐng)域,地區(qū)間網(wǎng)絡(luò)普及與信息技術(shù)的差異,勢必導(dǎo)致“大數(shù)據(jù)時代”“小數(shù)據(jù)時代”“物數(shù)據(jù)時代”并存。今天的大數(shù)據(jù)可能只是明天的小數(shù)據(jù),今天所得結(jié)論在明天也許會被否定 〔23 〕。另外,大數(shù)據(jù)分析技術(shù)尚存諸多挑戰(zhàn)。高維、復(fù)雜、多變等特性致使大數(shù)據(jù)較難處理,而如何采用降維和特征選擇技術(shù)降低處理難度存在許多挑戰(zhàn);而且,機器學(xué)習(xí)與傳統(tǒng)統(tǒng)計方法如何融合、傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和新興非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)合同樣亟待探索。盡管存在挑戰(zhàn),但我們堅信大數(shù)據(jù)這一新的偉大技術(shù)革命必將孕育社會科學(xué)研究范式的革命,中國社會科學(xué)學(xué)人唯有主動擁抱變革,迎難而上,才能實現(xiàn)跨越式發(fā)展,不負(fù)時代重托。endprint

        參考文獻:

        〔1〕黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)〔J〕.長沙理工大學(xué)學(xué)報(社會科學(xué)版),2014(2).

        〔2〕Einav, L, Hendry, D.F. The Data Revolution and Economic Analysis〔EB/OL〕. http://www.nber.org/papers/w19035. pdf.

        〔3〕維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作、思維的大變革〔M〕.盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

        〔4〕劉濤雄,徐曉飛.大數(shù)據(jù)與宏觀經(jīng)濟分析研究綜述〔J〕.國外理論動態(tài),2015(1)

        〔5〕哈耶克.科學(xué)的反革命——理性濫用之研究〔M〕.馮克利,譯.南京:譯林出版社,2003.

        〔6〕Kelling S, Hochachka W M, Fink D, et al. Data-intensive science: a new paradigm for biodiversity studies〔J〕. BioScience, 2009(7).

        〔7〕賈向桐.大數(shù)據(jù)革命與科學(xué)哲學(xué)變革的三重維度〔J〕.人民論壇,2016(5).

        〔8〕Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete〔J〕. Wired 16, 2008(7).

        〔9〕唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會科學(xué)研究方法的探討〔J〕.中山大學(xué)學(xué)報(社會科學(xué)版),2015(6).

        〔10〕Kristin M, Tolle D, Stenwrart W, et al. The Fourth Paradigm: Data-Intensive Science Scientific Discovery〔J〕. Proceedings of The IEEE, 2011(99).

        〔11〕劉濤雄,徐曉飛.互聯(lián)網(wǎng)搜素行為能幫助預(yù)測宏觀經(jīng)濟嗎?〔J〕經(jīng)濟研究,2015(12).

        〔12〕王天思.大數(shù)據(jù)中的因果關(guān)系及其哲學(xué)內(nèi)涵〔J〕.中國社會科學(xué),2016(5).

        〔13〕姜奇平.因果推斷與大數(shù)據(jù)〔J〕.互聯(lián)網(wǎng)周刊,2014(18).

        〔14〕劉林平,蔣和超,李瀟曉.規(guī)律與因果:大數(shù)據(jù)對社會科學(xué)研究沖擊之反思——以社會學(xué)為例〔J〕.社會科學(xué),2016(9).

        〔15〕卡爾·波普爾.歷史決定論的貧困〔M〕.上海:上海人民出版社,2009.

        〔16〕歐內(nèi)斯特·內(nèi)格爾.科學(xué)的結(jié)構(gòu)〔M〕.徐向東,譯.上海:上海譯文出版社,2005.

        〔17〕加里·金,羅伯特·基歐漢,悉尼·維巴.社會科學(xué)中的研究設(shè)計〔M〕.陳碩,譯.上海:格致出版社,上海人民出版社,2014.

        〔18〕 Song, X, Taamouti, A. A Better Understanding of Granger Causality Analysis: A Big Data Environment〔EB/OL〕. https://ssrn.com/abstract=2914997.

        〔19〕Pearl, J. Causal diagrams for empirical research〔J〕. Biometrika,1995(82).

        〔20〕Eichler M, Didelez V. On Granger causality and the effect of interventions in time series〔J〕. Lifetime data analysis, 2010, 16(1).

        〔21〕Kleinberg J, Ludwig J, Mullainathan S, et al. Prediction policy problems〔J〕. American Economic Review: Papers & Proceedings,2015(5).

        〔22〕蘇玉娟,魏屹東.大數(shù)據(jù)知識表征的機制及其意義〔J〕.科學(xué)技術(shù)哲學(xué)研究,2017(2).

        〔23〕邱 東.大數(shù)據(jù)時代對統(tǒng)計學(xué)的挑戰(zhàn)〔J〕.統(tǒng)計研究,2014(1).

        責(zé)任編輯 蘇玉娟endprint

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        一本一道久久a久久精品综合| 三级国产高清在线观看| 精品亚洲一区二区区别在线观看| 久久久亚洲欧洲日产国码αv| 日韩欧美一区二区三区中文精品| 亚洲va成无码人在线观看| 国产精品久久婷婷六月丁香| 国产在线精品一区二区三区| 越南女子杂交内射bbwbbw| 免费一级a毛片在线播出 | 欧洲中文字幕| 久久精品中文字幕免费| 精品国产精品久久一区免费式| 色吊丝中文字幕| 国产成人精品免费久久久久| 亚洲国产线茬精品成av| 亚洲 另类 小说 国产精品| 亚洲第一无码xxxxxx| 国内久久婷婷精品人双人| 日韩午夜三级在线视频| 99精品视频69v精品视频| av蓝导航精品导航| 亚洲高清精品50路| 中文字幕人妻久久久中出| 亚洲成a∨人片在线观看不卡| 波多野结衣有码| 国产av熟女一区二区三区老牛| 中文字幕av高清人妻| 尤物视频在线观看| 亚洲一区二区三区精品网| 国产内射一级一片内射高清视频1| 日韩精品真人荷官无码| 狠狠久久久久综合网| 亚洲一区二区女优视频| 神马影院午夜dy888| 亚洲国产综合精品 在线 一区| 国产日韩AV无码免费一区二区| 91久久国产香蕉视频| 久久久久人妻一区精品色欧美| 99在线视频精品费观看视| 日本高清一区二区不卡|