亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        喧囂之后的沉思

        2018-05-14 17:42:14賀光燁

        [摘要]大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式,也引發(fā)了一系列哲學(xué)層次的討論。大數(shù)據(jù)樂觀主義者認(rèn)為,海量數(shù)據(jù)總是可以產(chǎn)生準(zhǔn)確且具實踐性的知識,而理論可有可無。為揭示隱匿在大數(shù)據(jù)分析過程中的問題及其可能產(chǎn)生的后果,筆者將其與傳統(tǒng)的社會科學(xué)研究方法對比,從數(shù)據(jù)產(chǎn)生和分析方法兩個方面對大數(shù)據(jù)的認(rèn)識論和方法論進行探討。本文認(rèn)為,數(shù)據(jù)本身只是一個信息的載體,分析其中潛在的問題與數(shù)據(jù)的“大”小無關(guān),而是與科學(xué)哲學(xué)的思維有關(guān)。通過大數(shù)據(jù)分析得出真實而有效的社會知識,需要將知識生產(chǎn)過程建立在適當(dāng)?shù)目茖W(xué)哲學(xué)基礎(chǔ)之上,既不可完全依賴?yán)碚摚嗖豢赏耆珤仐壚碚摗?/p>

        [關(guān) 鍵 詞]大數(shù)據(jù) 認(rèn)識論 方法論 假設(shè)檢驗 機器學(xué)習(xí)

        [作者簡介]賀光燁(1985-),女,江蘇南京人,南京大學(xué)社會學(xué)院助理研究員,博士, 研究方向為社會分層與流動、定量研究方法。

        [中圖分類號]C3 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-7672(2018)02-0001-09

        近年來,大數(shù)據(jù)之風(fēng)席卷全球。大量研究顯示,有關(guān)大數(shù)據(jù)經(jīng)驗主義和數(shù)據(jù)科學(xué)的認(rèn)識論正在改變著生命科學(xué)、物理和工程學(xué)等領(lǐng)域的研究方法,也在不斷促進社會科學(xué)領(lǐng)域理論范式和研究方法的重構(gòu)。根據(jù)基欽的定義,“大數(shù)據(jù)”通常是指數(shù)據(jù)量達(dá)TB級甚至PB級的數(shù)據(jù)群。相比于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù)(即可用Excel、SPSS和STATA等統(tǒng)計軟件處理的數(shù)據(jù)),大數(shù)據(jù)中圖片、聲音、視頻等非結(jié)構(gòu)化數(shù)據(jù)占相當(dāng)比重,且其總體數(shù)據(jù)容量增長速度之迅猛,遠(yuǎn)超硬件技術(shù)的發(fā)展速度。面對如此龐大、復(fù)雜的數(shù)據(jù)集,傳統(tǒng)分析方法已不足以應(yīng)對,基于新計算機應(yīng)用程序的大數(shù)據(jù)分析方法應(yīng)運而生。安德森表示,數(shù)據(jù)洪流會令科學(xué)方法過時。通過大數(shù)據(jù)技術(shù),我們可以在不受理論預(yù)設(shè)限制的情況下發(fā)現(xiàn)更多大數(shù)據(jù)中隱含的模式和關(guān)系。2012年,《紐約時報》的科學(xué)版記者史蒂芬洛爾撰文聲稱,“大數(shù)據(jù)”時代已經(jīng)降臨,科學(xué)、商業(yè)、經(jīng)濟等各領(lǐng)域的決策從此將不再依賴于傳統(tǒng)的經(jīng)驗和直覺,而是日益基于數(shù)據(jù)和分析。大數(shù)據(jù)的產(chǎn)生和發(fā)展無疑帶來了思維方式與科學(xué)方法論的變革。不僅如此,另有學(xué)者認(rèn)為,這種基于計算機算法、程式的數(shù)據(jù)密集型分析工具開辟了繼實驗、理論、模擬之后科學(xué)研究的第四種范式,這種范式使我們能夠從堆積如山的數(shù)據(jù)金礦中挖掘出知識。

        大數(shù)據(jù)的出現(xiàn)和發(fā)展顛覆了傳統(tǒng)社會科學(xué)研究的思維方式,也引發(fā)了一系列多科學(xué)研究的認(rèn)識論的進一步討論。相比傳統(tǒng)社會科學(xué)研究的思維方式(即以一般理論為前提,進而推導(dǎo)可以驗證的系列假設(shè)),大數(shù)據(jù)分析的思維則是讓數(shù)據(jù)本身說話,不需預(yù)先決定對于某個問題哪些變量更加重要,而主要通過機器學(xué)習(xí)(人工智能中最能體現(xiàn)智能的一個分支)讓數(shù)據(jù)自行學(xué)習(xí),辨別關(guān)鍵變量,習(xí)得其中的關(guān)聯(lián)規(guī)律,進而歸納出數(shù)據(jù)背后隱藏的模式。然而,從數(shù)據(jù)出發(fā)并不意味著數(shù)據(jù)挖掘憑空而來。大數(shù)據(jù)的捕捉和分析不僅需要依賴計算機硬件、軟件系統(tǒng)的支撐,更需要由人來設(shè)定規(guī)則。物理學(xué)家馬克思·玻恩曾說,科學(xué)在每個時期都和當(dāng)時的哲學(xué)體系相互影響,它向哲學(xué)體系提供觀測事實,同時從它們那里得到思想方法。對于大數(shù)據(jù)分析,大數(shù)據(jù)技術(shù)與平臺,數(shù)據(jù)本體與監(jiān)管環(huán)境對分析過程中的每一步均會產(chǎn)生影響。若忽略在數(shù)據(jù)獲取和分析過程中研究者施加的影響,就會無形中扭曲數(shù)字痕跡,從而掩蓋了現(xiàn)象背后的本質(zhì)。

        一個著名的案例就是谷歌流感預(yù)測。2009年谷歌幾名工程師在《自然》發(fā)文——“用搜索引擎預(yù)測流感”,闡述了他們設(shè)計的谷歌流感預(yù)測系統(tǒng)。該系統(tǒng)的工作原理是使用匯總的谷歌搜索來預(yù)測流感疫情,并將預(yù)測結(jié)果與美國疾控中心的監(jiān)測報告進行比對。這一系統(tǒng)一度被視為大數(shù)據(jù)分析優(yōu)勢的明證。然而不久巴特勒發(fā)現(xiàn),通過谷歌流感預(yù)測系統(tǒng)預(yù)測的流感門診病歷數(shù)是疾控中心監(jiān)測報告的兩倍多。分析結(jié)果顯示,造成這一失誤的主要原因是谷歌流感預(yù)測系統(tǒng)中的關(guān)鍵詞搜索系統(tǒng)混淆了大眾的流感意識與真正的流感信號。這個問題從表面上看似乎是個技術(shù)性問題,實際是因為忽視了數(shù)據(jù)之外的社會情境及其與流感傳播相關(guān)的思維邏輯。

        其實,谷歌流感預(yù)測的案例在很大程度上反映了主流文獻(xiàn)對大數(shù)據(jù)認(rèn)識論的誤解。他們將數(shù)據(jù)量大與數(shù)據(jù)代表性強混淆在一起,認(rèn)為通過大數(shù)據(jù)可以極大程度地表達(dá)或者近似總體,因此基于大數(shù)據(jù)發(fā)現(xiàn)的任何模式均真實可信,無需理論指引。這引發(fā)了關(guān)于“大數(shù)據(jù)的誕生是否意味著理論的終結(jié)”的討論。需要注意的是,脫離了科學(xué)哲學(xué)體系的大數(shù)據(jù)就如同失去靈魂游走的個體。數(shù)據(jù)生產(chǎn)過程中所留下的數(shù)字痕跡很可能具有誤導(dǎo)性。就谷歌流感預(yù)測而言,其誤導(dǎo)性表現(xiàn)在,當(dāng)流感預(yù)測系統(tǒng)提到疫情,媒體就會進行報道,從而引發(fā)大眾關(guān)于流感預(yù)防和治療的大量搜索。由于這些搜索關(guān)鍵字涉及流感,從而又會加強系統(tǒng)對流感趨勢的判定,形成了對流感疫情傳播事件的過度擬合問題。因此,要挖掘出大數(shù)據(jù)背后真正的模式、生產(chǎn)出有效的知識,需要將其置于科學(xué)哲學(xué)體系之中,充分了解從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)分析的各個環(huán)節(jié)。

        為了揭示隱匿在大數(shù)據(jù)分析過程中的問題以及這些問題可能產(chǎn)生的后果,在以下部分,筆者從數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析兩個方面對大數(shù)據(jù)的認(rèn)識論和方法論進行闡述。前者從大數(shù)據(jù)產(chǎn)生方式、記錄方式入手,舉例介紹了數(shù)據(jù)挖掘過程中可能的誤差來源。后者則基于大數(shù)據(jù)的特征,進一步討論用傳統(tǒng)統(tǒng)計方法分析大數(shù)據(jù)可能帶來的問題。

        一、 數(shù)據(jù)的產(chǎn)生

        大數(shù)據(jù)分析的關(guān)鍵問題是在于大數(shù)據(jù)是否可以表達(dá)真正的社會現(xiàn)實。對于大數(shù)據(jù)分析,由于數(shù)據(jù)的獲得和分析基本都是由計算機程序完成,理解大數(shù)據(jù)技術(shù)是如何生產(chǎn)出可供計算機和人類分析的數(shù)據(jù)尤為必要。瓦格納·帕斯菲絲等學(xué)者也曾表示,在用大數(shù)據(jù)進行人文社科研究時,我們首先應(yīng)該了解大數(shù)據(jù)是如何產(chǎn)生的。

        (一) 誰參與了數(shù)據(jù)信息的編輯?

        維基百科是大數(shù)據(jù)一個資料庫。自成立以來,維基百科宗旨就是為了編譯全人類可以自由使用的網(wǎng)絡(luò)百科全書。維基百科其中大部分頁面可以由任何人瀏覽和修改。與大多出版社不同,其內(nèi)容編輯采用眾包形式,沒有特定的編輯。眾包形式不設(shè)定參與編譯人員的特征門檻,目的是鼓勵更多自愿者的參與。且對于所編譯內(nèi)容,維基百科內(nèi)容的更改與修正也是依靠眾人的協(xié)作不斷改進。從理論上講,來自不同國別、種族、教育程度、性別、年齡段的個體都可以參與網(wǎng)頁內(nèi)容編輯。然而,即便維基百科對參與者不加以任何限制,全球范圍內(nèi)每個人參與的概率也不盡相同。區(qū)別于軟件工程,維基百科缺乏類似內(nèi)置質(zhì)量監(jiān)控的系統(tǒng),內(nèi)容的客觀完整性和準(zhǔn)確性也有待考證。在這種情況下,如若具有某些特征的人群(比如,特定的偏好和品味)參與編輯的概率更大,那么在條目生產(chǎn)和內(nèi)容編輯上就有可能產(chǎn)生系統(tǒng)性的偏差。

        亞當(dāng)斯和布魯克爾指出,在維基百科核心運作的社會系統(tǒng)會通過某些方式對社會世界形象產(chǎn)生系統(tǒng)性的扭曲,使得數(shù)據(jù)生產(chǎn)過程產(chǎn)生偏差。即便眾包模式不需要太多的理論,但由于參與維基百科編輯者需要特定的技術(shù)手段,對特定的術(shù)語和網(wǎng)絡(luò)社區(qū)行為規(guī)則的了解等為參與網(wǎng)絡(luò)內(nèi)容編輯者設(shè)置了隱形的門檻。正是這些隱形的門檻導(dǎo)致了維基百科在知識生產(chǎn)上的偏差。比如說,在維基百科有關(guān)美國社會學(xué)家目錄中,女性學(xué)者代表性相對不足的一個重要原因就在于內(nèi)容條目的主要貢獻(xiàn)者通常是來自美國或歐洲的年輕白人男性計算機專家,他們在生產(chǎn)和編輯內(nèi)容條目時可能產(chǎn)生有別于一般公眾的偏好和品味。

        (二) 誰貢獻(xiàn)了數(shù)據(jù)信息?

        近年來微博和推特數(shù)據(jù)也受到了越來越多媒體研究學(xué)者的關(guān)注,它們在社會科學(xué)中被廣泛運用于對事件參與、政治運動等研究中 。這類數(shù)據(jù)通常被標(biāo)記為“大”數(shù)據(jù),因為通過計算機軟件系統(tǒng)我們可以捕捉到用戶在相關(guān)網(wǎng)站上查看、點擊、下載、上傳等數(shù)百萬條行為的記錄。然而多數(shù)情況下,微博和推特數(shù)據(jù)反映的是特定時刻活躍用戶的一個片段。根據(jù)Twopchart——一個監(jiān)控推特活動的公司發(fā)布的推特數(shù)據(jù)結(jié)果,截至2014年4月,在5.5億個推特賬戶中有43%至少一年沒有創(chuàng)建過一條記錄。50%的推特記錄僅由0.05%的推特用戶創(chuàng)建。這種由活躍用戶所致的偏斜分布數(shù)據(jù)難以對那些無法觀測到的用戶特征進行推斷。正因為數(shù)據(jù)信息主要由活躍用戶動態(tài)構(gòu)成,使得推特信息的創(chuàng)建和分析產(chǎn)生了系統(tǒng)性的偏差。

        大數(shù)據(jù)研究通?;谔囟ǖ募僭O(shè)。通過計算機軟件系統(tǒng)產(chǎn)生的數(shù)據(jù)與我們通常使用的數(shù)據(jù)并無顯著差異。數(shù)據(jù)量的大小只有在所產(chǎn)生數(shù)據(jù)樣本可以充分代表總體時才有意義。無偏的數(shù)據(jù)是準(zhǔn)確分析的前提,也是大數(shù)據(jù)能夠為自己說話的基礎(chǔ)。如微博、推特這類數(shù)據(jù),盡管數(shù)據(jù)量大,但是由于其數(shù)據(jù)的生成并非基于嚴(yán)格的統(tǒng)計設(shè)計,所產(chǎn)生的數(shù)據(jù)分布有偏差,總體代表性確實令人質(zhì)疑。更多、更大的數(shù)據(jù)并不會使其由非正態(tài)分布轉(zhuǎn)變成正態(tài)分布。然而依照統(tǒng)計常規(guī),大數(shù)據(jù)正因為其龐大的數(shù)據(jù)量使得幾乎所有的發(fā)現(xiàn)在統(tǒng)計學(xué)的意義上都顯著,這就形成了麥克法蘭所提到的有關(guān)大數(shù)據(jù)“精確的不準(zhǔn)確”問題。即便數(shù)據(jù)本身存在問題,如果分析結(jié)果的判斷基于統(tǒng)計假設(shè)檢驗,大數(shù)據(jù)所呈現(xiàn)的顯著結(jié)果使我們總是拒絕原假設(shè),而得出錯誤的統(tǒng)計推斷。

        信息技術(shù)的快速發(fā)展(如大量的計算和網(wǎng)絡(luò)工作、新數(shù)據(jù)庫設(shè)計和數(shù)據(jù)存貯方式)不僅改變了數(shù)據(jù)產(chǎn)生方式,也對當(dāng)今的統(tǒng)計學(xué)方法提出了極大的挑戰(zhàn)。對于微博、推特數(shù)據(jù)的分析,統(tǒng)計假設(shè)檢驗為什么會無效?運用傳統(tǒng)的統(tǒng)計方法進行大數(shù)據(jù)分析還會產(chǎn)生哪些問題?大數(shù)據(jù)在社會科學(xué)研究需要對這些問題特別關(guān)注。

        二、 數(shù)據(jù)分析

        如果要挖掘出數(shù)據(jù)中所蘊藏的真正的社會發(fā)展規(guī)律,我們不僅需要大量豐富可信的數(shù)據(jù),還要有合適的分析方法。對于微博、推特數(shù)據(jù)分析,假設(shè)檢驗的失利并非偶然。將傳統(tǒng)統(tǒng)計分析方法用于大數(shù)據(jù)分析會存在什么問題?如今的大數(shù)據(jù)分析技術(shù)又在多大程度上可信?回答這一問題需要我們弄清傳統(tǒng)的統(tǒng)計方法和大數(shù)據(jù)分析方法在思維邏輯和方法執(zhí)行上的差異。

        (一) 大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)分析方法的比較

        傳統(tǒng)數(shù)據(jù)分析方法通常是基于具體的問題,從少量、靜態(tài)、結(jié)構(gòu)清晰且低相關(guān)的數(shù)據(jù)集中提取信息,這些數(shù)據(jù)的產(chǎn)生來自科學(xué)抽樣,分析方法嚴(yán)格基于統(tǒng)計假設(shè)。由于假設(shè)檢驗需要事先假定可能的變化維度,在很大程度上排除了研究者看不到或者想不到的因素,這就是所謂的“分類近視”(Categorical Myopia),即我們看不到超出我們視野的東西,這也是困擾傳統(tǒng)調(diào)查數(shù)據(jù)分析和研究的最大問題。在大數(shù)據(jù)分析中,我們跳過事先的假定,直接通過數(shù)據(jù)挖掘技術(shù)分析繁復(fù)冗長、豐富多樣、動態(tài)及時的具有高度不確定性、高相關(guān)性的數(shù)據(jù)集來探尋數(shù)據(jù)背后的模式和相互關(guān)聯(lián)。面對如此高難度的挑戰(zhàn),大數(shù)據(jù)分析開始采用那些植根于人工智能和專家系統(tǒng)的新計算技術(shù),通過機器學(xué)習(xí)自動挖掘和檢驗數(shù)據(jù)模式建立預(yù)測模型、優(yōu)化結(jié)果。對于實證主義社會科學(xué)研究者來說,大數(shù)據(jù)使得用以科學(xué)研究的數(shù)據(jù)從稀缺走向豐富,從靜態(tài)走向動態(tài),從粗略的聚合數(shù)據(jù)轉(zhuǎn)向更加精細(xì)、多維度高分辨率的數(shù)據(jù)。在分析上,大數(shù)據(jù)使得用以科學(xué)研究的方法從簡單統(tǒng)計模型轉(zhuǎn)向更加復(fù)雜精細(xì)的模擬研究??梢哉f,大數(shù)據(jù)分析提供了一種全新的認(rèn)識論來觀察和理解世界。有學(xué)者認(rèn)為大數(shù)據(jù)分析很可能會為知識生產(chǎn)提供一種跨學(xué)科的新研究范式。然而,由于思維方式的差異,這種新的研究范式對傳統(tǒng)統(tǒng)計方法同時提出了挑戰(zhàn)。

        傳統(tǒng)統(tǒng)計方法是否真的不適用大數(shù)據(jù)分析呢?一般說來,統(tǒng)計學(xué)是基于已有的數(shù)據(jù)進行假設(shè)檢驗。由于檢驗時事情已經(jīng)發(fā)生,因此屬于事后檢驗。正是這種方式為科學(xué)統(tǒng)計和假設(shè)檢驗帶來了特定的困難。菲德曼曾說, 基于一個數(shù)據(jù)集的結(jié)果復(fù)制和預(yù)測相比于基于一個數(shù)據(jù)集的多模型統(tǒng)計檢驗需要更加嚴(yán)格的驗證體系,其所需的假設(shè)更少,從而使得偽相關(guān)關(guān)系出現(xiàn)的機會更小,可探索的模式更多,排除替代性解釋的概率也更高。如果用一個樣本來構(gòu)建模型或者生成一個待檢驗的假設(shè),為了得到穩(wěn)健有效的結(jié)果,則不能用同一樣本再進行假設(shè)檢驗。在現(xiàn)有研究中這一問題卻被系統(tǒng)性地忽略。而數(shù)據(jù)驅(qū)動的大數(shù)據(jù)研究通常將所使用的數(shù)據(jù)拆分成一個個單獨的數(shù)據(jù)集,其中一些用于估計模型參數(shù),剩下的用于驗證預(yù)測新發(fā)現(xiàn)的數(shù)據(jù)模式。表面上看,大數(shù)據(jù)分析似乎更符合科學(xué)分析的邏輯,然而伴隨其中的問題卻可能產(chǎn)生更加嚴(yán)重的后果。

        (二) 無力的假設(shè)檢驗

        假設(shè)檢驗是傳統(tǒng)數(shù)據(jù)分析中一種基本的統(tǒng)計推斷形式。在統(tǒng)計學(xué)中,其為根據(jù)一定假設(shè)條件由已知樣本推斷未知總體的方法,其思想源于統(tǒng)計大師費舍(Fisher)和皮爾遜(Pearson)。具體地講,當(dāng)總體分布未知時,為了推斷總體的某些特性,提出某些有關(guān)總體的假設(shè),然后基于樣本對所提出的假設(shè)進行檢驗,決定是否拒絕零假設(shè)而接受備擇假設(shè)。通常判定零假設(shè)是否被拒絕的顯著性水平為α =0.05,如果假設(shè)檢驗所得p值小于α則拒絕零假設(shè)。雖然假設(shè)檢驗在社會科學(xué)和行為科學(xué)中被廣泛運用,但是有關(guān)假設(shè)檢驗的思想其實一直存有爭議。首先,在現(xiàn)實生活中,任何事物都存在一定程度上的相關(guān),那種完全不相關(guān)的狀態(tài)幾乎不存在。因此,任何零假設(shè)都屬于“準(zhǔn)假”(quasi-false)。假設(shè)檢驗的另一個問題就在于p值。從統(tǒng)計上講,p值會隨著樣本量的增加而減小的。對于大數(shù)據(jù),其龐大的數(shù)據(jù)量和爆炸式增長速度令大多數(shù)任意生成的假設(shè)在0.05水平上均顯著。如果數(shù)據(jù)本身在數(shù)據(jù)量和總體代表性上不存在任何問題,那么當(dāng)基于大數(shù)據(jù)生成的零假設(shè)總是被拒絕時主要存在三種可能性:第一種表明任何事物都可能相互關(guān)聯(lián),那么基于假設(shè)檢驗所得結(jié)論對挖掘大數(shù)據(jù)背后的真正模式毫無意義;第二種則意味著假設(shè)檢驗有誤,那么我們則不能將其用于大數(shù)據(jù)分析;第三種是假設(shè)檢驗沒有問題,而通過假設(shè)檢驗進行統(tǒng)計推斷時存在問題。

        基于第三種可能性,弗里克在他的“大數(shù)據(jù)與認(rèn)識論中”提到,基于一個設(shè)定,多樣本比較可能與數(shù)據(jù)間的相關(guān)性及假設(shè)檢驗的第一種類型錯誤(Type I Error)有關(guān) 。例如,我們從足夠大的數(shù)據(jù)中觀察到A與B存在著相關(guān)關(guān)系,基于此,我們提出備擇假設(shè)H,即A與B相關(guān)。對于A和B的相關(guān)關(guān)系存在兩種可能性,一種情況是A確實與B相關(guān),另一種情況是A與B的相關(guān)純屬偶然。如果后者為真,那么接受假設(shè)H則犯了第一類型的錯誤。根據(jù)假設(shè)檢驗規(guī)則,是否接受備擇假設(shè)H在于p值的大小。如果統(tǒng)計檢驗顯示p值小于0.05,則接受假設(shè)H。細(xì)究顯著性水平0.05的意義,該數(shù)字表明,如果A與B確實無關(guān)(或者A與B的相關(guān)屬于偶然),那么從同一總體中抽取大量樣本,這些樣本中會有5%會落入檢驗的拒絕區(qū)間,使我們錯誤地接受A與B的相關(guān)關(guān)系。需要提及的是,第一種類型錯誤基于零假設(shè)為真或者備擇假設(shè)為假(即,假設(shè)H不成立),其不可能通過零假設(shè)被拒絕的次數(shù),或者備擇假設(shè)(假設(shè)H)成立的次數(shù)來估計。即便在100獨立的檢驗中,零假設(shè)被拒絕了100次,可能表示沒發(fā)生過一次第一種類型錯誤也可能表示發(fā)生了100次錯誤,或者介于沒有發(fā)生和發(fā)生了100次錯誤中間的某種情形。這一問題其實一直是統(tǒng)計學(xué)上的一般問題,但是當(dāng)面對依賴數(shù)據(jù)驅(qū)動的大數(shù)據(jù)分析時,這個問題愈發(fā)突出。首先,數(shù)據(jù)驅(qū)動的科學(xué)分析強調(diào)讓數(shù)據(jù)自己說話,而忽視了現(xiàn)有研究理論和分析的語境,這使我們對數(shù)據(jù)背后可能模式的把控能力減小,增加了虛假相關(guān)的概率。其次,由于這一方法主要依靠計算機技術(shù)來抓取和分析數(shù)據(jù),在大多數(shù)情況下,數(shù)據(jù)研究者也不清楚計算機算法具體是如何生成數(shù)據(jù)信息以及如何對數(shù)據(jù)進行處理的。這兩者使得所生成的用來驗證數(shù)據(jù)模式的“新”數(shù)據(jù)可能存在計算機算法方面的系統(tǒng)性偏差。弗里克表示, 任何分析,包括基于數(shù)據(jù)驅(qū)動的分析研究最好要有先驗指引,否則即便新發(fā)現(xiàn)的數(shù)據(jù)模式被反復(fù)驗證,基于算法所生成的驗證數(shù)據(jù)也無法排除偽相關(guān)的嫌疑。通俗地說,新數(shù)據(jù)模式之所以被復(fù)制和反復(fù)驗證并不是因為該模式真實存在,而可能因為基于某些算法獲得的數(shù)據(jù)更容易具有該數(shù)據(jù)模式。

        (三) 大數(shù)據(jù)分析與計算社會科學(xué)

        數(shù)據(jù)科學(xué)時代正在重塑著政治學(xué)、心理學(xué)、社會學(xué)、公共健康學(xué)、通信科學(xué)等領(lǐng)域。以大規(guī)模數(shù)據(jù)和社交媒體為中心的計算社會科學(xué)正在重塑學(xué)者們的思維與視角,也推動著研究人員培訓(xùn)方式的轉(zhuǎn)變。與傳統(tǒng)上通過社會調(diào)查獲得的基于受訪者回答或者基于儀器評估(比如,腦電波等)的結(jié)構(gòu)化數(shù)據(jù)非常不同,如今的科學(xué)研究人員開始通過海量數(shù)據(jù)庫中所發(fā)現(xiàn)的文字、物體或現(xiàn)象的圖片等非結(jié)構(gòu)化信息探索數(shù)據(jù)模式。

        這些文字、圖片等數(shù)據(jù)常常需要通過自然語言處理來獲取和縮減數(shù)據(jù)內(nèi)容。在進行可靠且有效的數(shù)據(jù)分析時,學(xué)者們將需要在很多方面達(dá)成新的協(xié)議,比如,用何種工具收集和處理數(shù)據(jù),所捕捉的數(shù)據(jù)該如何分類等等。對數(shù)據(jù)的復(fù)雜性也有了新的認(rèn)識。通過傳統(tǒng)方法獲得的數(shù)據(jù),通常需要清理、分類、建模進而發(fā)掘其中的模式來解決問題,其自始至終不接受數(shù)據(jù)的復(fù)雜性。而數(shù)據(jù)科學(xué)時代,復(fù)雜性已經(jīng)成為數(shù)據(jù)的固有特征,此外,其更多得關(guān)注數(shù)據(jù)的動態(tài)性、異構(gòu)性和跨域復(fù)雜性。這些變化為數(shù)據(jù)時代的學(xué)術(shù)研究打開了新的圖景,重新定位和改變學(xué)科的發(fā)展方向。

        1. 機器學(xué)習(xí)的矛盾與掙扎

        機器學(xué)習(xí)是順應(yīng)大數(shù)據(jù)的特征所產(chǎn)生的大數(shù)據(jù)分析方法,其指用某些算法指導(dǎo)計算機利用已知數(shù)據(jù)得出適當(dāng)?shù)哪P?,并通過所得模型對新的情境給出判斷的過程。然而從數(shù)據(jù)抓取、特征提取到模型選取,機器學(xué)習(xí)能發(fā)掘真正的社會現(xiàn)象間關(guān)系模式的前提在于,機器可以準(zhǔn)確地將現(xiàn)實生活中的問題提煉成一個可以進行機器學(xué)習(xí)的問題。這其中的關(guān)鍵不僅在于計算機編程和運行過程,更加在于研究人員對所要研究的問題的深入理解。瓦格納·帕斯菲絲等曾用“思維與機器”這一對比來說明大數(shù)據(jù)話題模型(Topic Model)的利與弊。

        話題模型是一種應(yīng)用非常廣泛的產(chǎn)生式模型,也是目前利用大數(shù)據(jù)做人文社會科學(xué)研究最常用的文本挖掘方法。其建模方法通常是利用文檔內(nèi)與文檔間的詞共現(xiàn)的信息在跨文本語料庫中生成各種話題集合。這些集合都被假設(shè)成跨文本語料庫中的共同話題。與其他基于“詞袋”技術(shù)的文本分析一樣,話題模型尤其是無監(jiān)督學(xué)習(xí)的話題模型從對語言完全無感的讀者角度出發(fā)?;谶@一特征,不同學(xué)者顯示了不同的偏好。比如,雷切爾·布瑪認(rèn)為,通過這種沒有指向性的非常規(guī)文本分析的視角可以發(fā)掘出一般讀者所無法辨識的文本屬性,進而激發(fā)和改變?nèi)祟惖乃伎紝挾群蛷V度。其他一些學(xué)者認(rèn)為,這些計算模型往往對語境、語法、語義、語氣等一無所知,可能很難捕捉到在文字內(nèi)容背后的真正情感與意義,進而影響到分析結(jié)果。因此,泰德·安德伍德在“高維空間的文學(xué)使用”中將這些模型稱為“遲鈍的解釋學(xué)工具?!?艾倫·劉也將它們描述為 “空洞的文字解讀?!?另外,由于這些模型并不受理論和經(jīng)驗限制,在探索數(shù)據(jù)模式上可能存在優(yōu)勢。然而,因為學(xué)習(xí)過程中缺乏可靠的訓(xùn)練樣本,基于這些歧義較高的樣本所產(chǎn)生模型的不確定性也隨之增加。

        2. 軟件密集型系統(tǒng)的困境

        不論是數(shù)據(jù)產(chǎn)生,還是數(shù)據(jù)分析,大數(shù)據(jù)分析在根本上依賴于計算機軟件,屬于軟件密集型系統(tǒng)。沒有計算機的輔助,研究者的想法就如同空中樓閣。計算機的使用為研究者想法的實現(xiàn)提供了必要硬件條件。但由于受限于軟件技術(shù)的發(fā)展,數(shù)據(jù)分析過程中仍舊有很多問題難以避免,比如,之前提及的有關(guān)數(shù)據(jù)驅(qū)動科學(xué)中常出現(xiàn)的基于算法的系統(tǒng)偏差。數(shù)據(jù)分析過程中還可能出現(xiàn)更加復(fù)雜的情況,這在處理復(fù)雜系統(tǒng)(Complex System)時尤為突出。復(fù)雜系統(tǒng)是由大量組分組成的網(wǎng)絡(luò),不存在中央控制,通過簡單運作規(guī)則產(chǎn)生出復(fù)雜的集體行為和復(fù)雜的信息處理,并通過學(xué)習(xí)和進化產(chǎn)生適應(yīng)性。 該系統(tǒng)活動呈現(xiàn)非線性,往往形成無數(shù)層級,且活動包含眾多未知因素。因此,分析復(fù)雜系統(tǒng)對于軟件要求上除傳統(tǒng)的計算能力外,還需要將計算機模擬整合到普通科學(xué)實踐的工具箱里來探尋其中的動力機制。對于前者,充分理解各種算法的局限性和風(fēng)險,明白這些算法會如何引致以及引致什么樣的誤差,研究者就可以決定到底多大程度可以對這些算法施以信任、加以限制。而對于后者,情況則復(fù)雜許多,由于模擬本身涉及動態(tài)過程,并不是接受某一分析解決方案就能解決,其需涉及大數(shù)據(jù)集群的部署,而部署架構(gòu)的過程大數(shù)據(jù)無法自動實現(xiàn),這些問題在分析中很棘手,大數(shù)據(jù)分析遭遇瓶頸。

        這些問題的產(chǎn)生往往與大數(shù)據(jù)的認(rèn)知模糊相關(guān)。漢弗萊斯提出,對于某一過程,當(dāng)認(rèn)知主體x在時間t對其中所有與認(rèn)知相關(guān)的元素沒有全面了解時,我們則認(rèn)為該過程存在認(rèn)知模糊。在一定程度上,認(rèn)知模糊既不屬于科學(xué)質(zhì)詢(scientific inquiry)的某個新特征,也并不僅僅局限于計算方法中。對于軟件密集型科學(xué)(SIS),這種認(rèn)知模糊出現(xiàn)在不同時期的程序代碼中(尤其是對“古董代碼”錯誤或模糊的認(rèn)知),以及不斷發(fā)展的計算方法中(用傳統(tǒng)統(tǒng)計方法進行大數(shù)據(jù)分析所呈現(xiàn)的問題),并經(jīng)由軟件誤差不斷升級(盡管在標(biāo)準(zhǔn)統(tǒng)計分析中我們常假設(shè)誤差隨機分布,但這一假設(shè)在軟件系統(tǒng)中并不成立,根本原因在于我們無法事先排除所有的非隨機因素)。又由于認(rèn)知模糊的路徑復(fù)雜性,這種誤差已經(jīng)越來越難以通過統(tǒng)計方法所探知。要改善大數(shù)據(jù)認(rèn)識論的缺陷,就必須正視誤差的影響。有學(xué)者提出,軟件系統(tǒng)的模塊化在一定程度上可以減少軟件誤差,令系統(tǒng)更加易于管理,然而隨著時間的動態(tài)變化軟件模塊很快會演化為一個復(fù)雜系統(tǒng)而產(chǎn)生新的問題,這成為軟件設(shè)計和開發(fā)中時刻需要引起重視和不斷思考的問題。

        由此可見,大數(shù)據(jù)的認(rèn)知模糊成為了大數(shù)據(jù)技術(shù)矛盾與掙扎的核心。從本質(zhì)上講,這些局限性反映了大數(shù)據(jù)技術(shù)背后的理論缺失, 體現(xiàn)了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測、修正與評估對內(nèi)在認(rèn)識論的挑戰(zhàn)。②

        三、 結(jié)語

        在當(dāng)代計算機技術(shù)的輔佐下,今天的社會科學(xué)研究者有相當(dāng)?shù)哪芰νㄟ^大數(shù)據(jù)分析技術(shù)獲得傳統(tǒng)調(diào)查研究以外的更豐富、更深層的信息。通過對知識結(jié)構(gòu)、研究過程、信息內(nèi)容以及現(xiàn)實的本質(zhì)等重要問題的重新解讀,讓人們的思維方式產(chǎn)生了根本性的轉(zhuǎn)變。大數(shù)據(jù)在豐富人們認(rèn)知的同時,對研究的本體論、價值觀也產(chǎn)生了一定程度的挑戰(zhàn)。通過對比傳統(tǒng)數(shù)據(jù)分析方法,本文從數(shù)據(jù)生產(chǎn)和數(shù)據(jù)分析兩個方面討論了大數(shù)據(jù)分析可能存在的問題。

        大數(shù)據(jù)的布道者認(rèn)為大數(shù)據(jù)的數(shù)據(jù)量龐大,基于大數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)模式和相關(guān)關(guān)系非常可靠。其所有的“理所當(dāng)然”都是基于這樣一個假設(shè),即通過算法產(chǎn)生的大數(shù)據(jù)確實反映的是真實的全數(shù)據(jù)。然而,此假設(shè)令人存疑。首先,從數(shù)據(jù)的產(chǎn)生過程來看,如果通過某些方式產(chǎn)生的大數(shù)據(jù)與真實總體存在偏差,那么基于這樣的數(shù)據(jù)所得論斷并不可靠。再次,從數(shù)據(jù)分析的角度來講,即便所產(chǎn)生的數(shù)據(jù)沒有問題,不論是基于傳統(tǒng)的假設(shè)檢驗還是通過機器學(xué)習(xí)尤其是無監(jiān)督學(xué)習(xí),所發(fā)現(xiàn)的數(shù)據(jù)模式仍有可能存在很大的爭議。如大衛(wèi)·雷澤爾等學(xué)者在《科學(xué)》上就大數(shù)據(jù)分析陷阱的闡述,數(shù)據(jù)量大并不意味著我們可以忽略有關(guān)數(shù)據(jù)的根本問題,比如測量、建構(gòu)效度與信度及數(shù)據(jù)間的相關(guān)性等。大數(shù)據(jù)本身只是一個知識和信息的載體,大數(shù)據(jù)分析的潛在問題與“大”數(shù)據(jù)的大小無關(guān),而與大數(shù)據(jù)的模糊認(rèn)知有關(guān)。造成這一模糊認(rèn)知的本質(zhì)在于大數(shù)據(jù)的產(chǎn)生和分析在一定程度上脫離了現(xiàn)有的科學(xué)哲學(xué)體系。如何讓大數(shù)據(jù)像人一樣思考,讓大數(shù)據(jù)生產(chǎn)出真實有效的知識,就需要將知識生產(chǎn)建立在科學(xué)哲學(xué)體系當(dāng)中,既不完全依賴?yán)碚?,亦不可完全拋棄理論?/p>

        近年來,越來越多的國內(nèi)學(xué)者也開始基于百度搜索、本土的社交媒體等進行大數(shù)據(jù)分析。然而,在全世界范圍內(nèi),大數(shù)據(jù)在社會科學(xué)中的應(yīng)用尚屬起步階段。不論是在國內(nèi)還是在國外,由于網(wǎng)站和媒體平臺生成方式、數(shù)據(jù)記錄方式等相似,導(dǎo)致他們在數(shù)據(jù)產(chǎn)生和分析過程中往往存在共通的問題,面臨類似的關(guān)乎認(rèn)識論和方法論的挑戰(zhàn)。這些問題多隱匿在計算科學(xué)的理論和實踐中,需要引起我們關(guān)注并加以辨別。如何將大數(shù)據(jù)應(yīng)用于實證研究問題是當(dāng)今計算科學(xué)家以及社會科學(xué)家所面臨的重要挑戰(zhàn)和機遇。本文所涉及內(nèi)容實乃大數(shù)據(jù)分析中的“冰山一角”。這里,筆者提出自己的管窺之見,以起拋磚引玉之作用,見教于大方之家。

        (責(zé)任編輯:亞立)

        中文字幕国产精品专区| 亚洲av无码1区2区久久| 无码的精品免费不卡在线| 人妻少妇久久精品一区二区| 日本人妻精品有码字幕| 中文字幕一精品亚洲无线一区| 亚洲精一区二区三av| 在熟睡夫面前侵犯我在线播放| 欧美激情在线不卡视频网站| 国产一区二区三区色区| 日韩人妻中文字幕高清在线| 免费观看a级片| 国产精品久久久久久久久岛| 成人激情四射网| 国产一区二区三区porn| 国产一区二区三区色哟哟| 国产精品久久国产精麻豆99网站| 人妻少妇中文字幕乱码| 久久久久99精品成人片试看| 亚洲av套图一区二区| 日本系列中文字幕99| 欧美亚洲色综久久精品国产| 国产999精品久久久久久| 人妻久久999精品1024| 亚洲中文字幕乱码在线视频| 亚洲中文字幕久久精品色老板| 精品福利一区二区三区免费视频| 精品少妇人妻av无码专区| 双腿张开被9个黑人调教影片| 中文字幕色视频在线播放| 午夜视频手机在线免费观看| 国产精品久人妻精品老妇| 五十路丰满中年熟女中出| 欧美日韩人妻| 免费一区二区三区av| 风韵丰满熟妇啪啪区老老熟妇| 在线观看精品视频网站| 专区国产精品第一页| av在线不卡一区二区三区| 国产精品无码素人福利| 免费人成再在线观看网站|