亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)及其“社會(huì)學(xué)后果”

        2016-02-27 06:29:37唐魁玉
        新視野 2016年3期
        關(guān)鍵詞:大數(shù)據(jù)

        文/張 旭 唐魁玉

        ?

        大數(shù)據(jù)及其“社會(huì)學(xué)后果”

        文/張 旭 唐魁玉

        摘要:隨著“大數(shù)據(jù)”一詞逐漸被人們所熟知,各學(xué)科的研究者們也開始應(yīng)用大數(shù)據(jù)進(jìn)行研究。社會(huì)學(xué)者已將大數(shù)據(jù)納入社會(huì)研究的范圍,而且有逐漸擴(kuò)大或蔓延的趨勢(shì)。大數(shù)據(jù)對(duì)社會(huì)學(xué)的影響,既體現(xiàn)為正面后果又體現(xiàn)為負(fù)面后果。即大數(shù)據(jù)思維的運(yùn)用,對(duì)社會(huì)學(xué)研究來(lái)說(shuō)既具有方法論的意義,可以激發(fā)社會(huì)科學(xué)研究的認(rèn)識(shí)論變革,同時(shí)也存在著因大數(shù)據(jù)觀念的引入而產(chǎn)生的社會(huì)學(xué)方法論的局限性。大數(shù)據(jù)為社會(huì)學(xué)研究打開了一扇新的大門,但是這些研究方法只能作為傳統(tǒng)社會(huì)學(xué)研究的補(bǔ)充,而不能完全替代傳統(tǒng)的小數(shù)據(jù)研究方法。

        關(guān)鍵詞:大數(shù)據(jù);社會(huì)學(xué)后果;社會(huì)學(xué)研究方法;方法論創(chuàng)新

        近幾年來(lái),隨著計(jì)算機(jī)科技的進(jìn)步,“大數(shù)據(jù)”一詞也逐漸被人們所熟知。這種大數(shù)據(jù)的變革為社會(huì)學(xué)研究帶來(lái)了改變的機(jī)遇以及對(duì)傳統(tǒng)社會(huì)學(xué)研究方法論的挑戰(zhàn)。一直以來(lái),有限的樣本量是社會(huì)學(xué)研究的瓶頸。即使可以收集到大量數(shù)據(jù),對(duì)這些數(shù)據(jù)的記錄、儲(chǔ)存和分析也被當(dāng)時(shí)的技術(shù)所限制。在預(yù)算范圍內(nèi),研究者們追求著合理抽樣方法和樣本量的完美組合。而在大數(shù)據(jù)時(shí)代,云儲(chǔ)存和云計(jì)算使得對(duì)大量數(shù)據(jù)的記錄、儲(chǔ)存和分析成為了可能。社會(huì)學(xué)家們也與時(shí)俱進(jìn),將大數(shù)據(jù)納入到社會(huì)學(xué)研究中;但是,要想將大數(shù)據(jù)應(yīng)用于社會(huì)學(xué)研究中,無(wú)論是研究者的思維還是研究方法,都需要進(jìn)行一些轉(zhuǎn)變。

        一 大數(shù)據(jù)對(duì)傳統(tǒng)研究方法的沖擊

        20世紀(jì)后半葉是實(shí)證社會(huì)學(xué)的黃金年代。20世紀(jì)50年代到90年代間,實(shí)證社會(huì)學(xué)通過(guò)抽樣調(diào)查和訪談將其他學(xué)科遠(yuǎn)遠(yuǎn)地拋在了后面。但是近十年來(lái)這種優(yōu)勢(shì)正在逐漸消失。抽樣調(diào)查和訪談等傳統(tǒng)社會(huì)學(xué)研究方法已經(jīng)無(wú)法使社會(huì)學(xué)繼續(xù)佇立在人文科學(xué)的塔尖。

        薩維奇(Savage)和布羅斯(Burrows)早在2007年就發(fā)表了一篇論文用以提醒社會(huì)學(xué)家們注意這種危機(jī)并采取相應(yīng)措施應(yīng)對(duì)危機(jī)。[1]這篇論文在全球社會(huì)學(xué)界獲得了較大的關(guān)注并且得到了廣泛引用。薩維奇和布羅斯也是在實(shí)際的研究過(guò)程中發(fā)現(xiàn)了實(shí)證社會(huì)學(xué)的危機(jī)。薩維奇在2004年參加了由ESRC提供基金的關(guān)于社交網(wǎng)絡(luò)研究方法的項(xiàng)目。研究者們通過(guò)對(duì)來(lái)自三個(gè)機(jī)構(gòu)的成員進(jìn)行問(wèn)卷調(diào)查,研究三個(gè)機(jī)構(gòu)成員之間的私人聯(lián)系。研究者們耗費(fèi)了大量的時(shí)間來(lái)分析問(wèn)卷數(shù)據(jù)并對(duì)部分受訪者進(jìn)行訪談以了解更多的細(xì)節(jié)。而項(xiàng)目中的一名非正式研究者則通過(guò)非常簡(jiǎn)單的分析就獲得了研究結(jié)果,只因?yàn)樗且患抑娦殴镜膯T工,并且該公司擁有這些受訪者多年來(lái)的通話記錄。一名社會(huì)學(xué)外行人僅僅通過(guò)大量數(shù)據(jù)和簡(jiǎn)單的統(tǒng)計(jì)分析就完成了與社會(huì)學(xué)家們耗費(fèi)大量時(shí)間和資源所完成的同等的研究,甚至獲得了比社會(huì)學(xué)家們更精確的結(jié)果,僅僅是因?yàn)樗麚碛写罅康臄?shù)據(jù)。布羅斯也是在研究中意識(shí)到了實(shí)證社會(huì)學(xué)潛在的危機(jī)。2005年,布羅斯也在一次實(shí)地的研究中發(fā)現(xiàn)將已經(jīng)存在的公共數(shù)據(jù)資源(如人口普查等數(shù)據(jù))集中在一起,可以迅速地繪制出某一區(qū)域的精密的社會(huì)—空間地圖。如果忽略隱私等道德問(wèn)題對(duì)研究者們的限制,這種社會(huì)—空間地圖可以呈現(xiàn)一定等級(jí)內(nèi)的細(xì)節(jié)信息,并在間隔尺寸一定的情況下將地圖的范圍進(jìn)一步擴(kuò)大。

        對(duì)于定性研究方法,如深度訪談,最初并不為社會(huì)學(xué)家所應(yīng)用,更多的則是被社工和心理學(xué)家們所應(yīng)用。直到后來(lái),實(shí)證社會(huì)學(xué)興起,社會(huì)學(xué)家們發(fā)現(xiàn)一些有影響力的人可以代表一個(gè)廣大群體的看法,而對(duì)他們進(jìn)行訪談則可以有效率地得知這部分群眾的看法。毫無(wú)疑問(wèn),這種方法在技術(shù)不發(fā)達(dá)的年代,可以有效率地收集數(shù)據(jù)。并且,通過(guò)更大覆蓋面的問(wèn)題,可以獲得一些小范圍的特質(zhì)概括用以作為將來(lái)大范圍定量研究的假設(shè)。但是在現(xiàn)在,每天產(chǎn)生的大量基于網(wǎng)絡(luò)平臺(tái)的交互性數(shù)據(jù)完全可以收集到比訪談更加豐富的數(shù)據(jù),只要技術(shù)手段可以達(dá)到,對(duì)這些數(shù)據(jù)的定性分析完全可以達(dá)到數(shù)倍于訪談的效果。[2]而對(duì)于各種人文類學(xué)科一直以來(lái)都在應(yīng)用的史料分析方法,應(yīng)用計(jì)算機(jī)技術(shù)等手段,無(wú)疑可以一次分析更大規(guī)模的資料。而且,一些大公司(如Google)這些年致力于將紙質(zhì)資料數(shù)字化,更為這種大規(guī)模的史料分析奠定了基礎(chǔ)。

        涂子沛在其風(fēng)靡全國(guó)的專著《大數(shù)據(jù)》的封面上寫到:“除了上帝,任何人都必須用數(shù)據(jù)說(shuō)話?!盵3]在數(shù)據(jù)如此豐富的現(xiàn)在,除了一些堅(jiān)持傳統(tǒng)社會(huì)學(xué)研究方法的小部分社會(huì)學(xué)家,大部分社會(huì)學(xué)家已經(jīng)開始將大數(shù)據(jù)納入到研究范圍中,并開始嘗試一些革新的研究方法以適應(yīng)新的數(shù)據(jù)。同時(shí),這些變革也正在為社會(huì)學(xué)重新回歸“社會(huì)事實(shí)”奠定方法論基礎(chǔ),而這也是社會(huì)學(xué)重新回到領(lǐng)先地位的絕好機(jī)會(huì)。

        二 大數(shù)據(jù)的正面后果:研究方法的變革與創(chuàng)新

        大數(shù)據(jù)現(xiàn)在被引申為關(guān)于某個(gè)特殊平臺(tái)或某個(gè)特殊領(lǐng)域的全部數(shù)據(jù)。對(duì)于社會(huì)學(xué)研究來(lái)說(shuō),一些特殊的平臺(tái),例如Facebook和Twitter,以及和他們具有相似功能的我國(guó)的人人網(wǎng)和微博,具有極大的意義。這些數(shù)據(jù)是動(dòng)態(tài)的,體現(xiàn)著實(shí)時(shí)的社會(huì)活動(dòng),并且這些數(shù)據(jù)記錄了人們?cè)谧匀画h(huán)境下所說(shuō)的話和所做的事,而不是像常規(guī)問(wèn)卷調(diào)查和訪談中獲得的那些僵化了的信息。[4]同時(shí),這些實(shí)時(shí)性的信息可以提供有關(guān)網(wǎng)絡(luò)信息傳播的速度以及方式和方向。區(qū)別于這種來(lái)自于某個(gè)特殊平臺(tái)的數(shù)據(jù),來(lái)自于一些特殊領(lǐng)域的數(shù)據(jù)則包括更大范圍的信息,例如Google曾經(jīng)應(yīng)用往年搜索結(jié)果建立數(shù)學(xué)模型用來(lái)預(yù)測(cè)流感疫情,以及奧倫·艾奇奧尼(Oren Etzioni)應(yīng)用以往的機(jī)票價(jià)格預(yù)計(jì)機(jī)票價(jià)格的漲跌。大數(shù)據(jù)的興起使社會(huì)學(xué)研究向更廣泛的方向發(fā)展,大量的網(wǎng)絡(luò)數(shù)據(jù)也隨之被應(yīng)用。據(jù)統(tǒng)計(jì),1995至2008年間,隨著互聯(lián)網(wǎng)的廣泛傳播,基于文字的網(wǎng)頁(yè)增長(zhǎng)了6600萬(wàn),并且還在持續(xù)增長(zhǎng),最近已經(jīng)增長(zhǎng)了超過(guò)1萬(wàn)億。[5]這些網(wǎng)頁(yè)內(nèi)的信息無(wú)疑可以作為社會(huì)學(xué)研究的數(shù)據(jù),但是社會(huì)學(xué)研究并不僅僅只能應(yīng)用這類數(shù)據(jù)。陳云松應(yīng)用Google圖書的最新語(yǔ)料庫(kù)進(jìn)行關(guān)鍵詞的詞頻統(tǒng)計(jì),用以闡釋19世紀(jì)中期以來(lái)社會(huì)學(xué)各方面的發(fā)展。[6]龍瀛及同事使用北京1周間產(chǎn)生的855萬(wàn)個(gè)公交IC卡的數(shù)據(jù)結(jié)合市民出行情況及城市地圖及土地利用信息,分析了市民的職住關(guān)系和通勤行為。[7]這類已經(jīng)被收集完成的資料可以成為社會(huì)學(xué)家們的研究對(duì)象并進(jìn)行分析和再利用,同時(shí),另一部分研究者們選擇親自收集資料用于研究和分析。

        (一)收集數(shù)據(jù)

        區(qū)別于以往社會(huì)學(xué)研究中的抽樣方法,在大數(shù)據(jù)背景下的數(shù)據(jù)收集需要有所變革才能應(yīng)對(duì)收集全部數(shù)據(jù)的要求。針對(duì)來(lái)自網(wǎng)絡(luò)社交平臺(tái)這類特殊平臺(tái)的數(shù)據(jù),可以根據(jù)他們本身提供的功能進(jìn)行收集,同時(shí),一些平臺(tái)提供專用軟件用來(lái)收集數(shù)據(jù)。以Twitter為例,它向用戶提供“發(fā)表”“轉(zhuǎn)發(fā)”“回復(fù)”這些針對(duì)微博客的功能,“關(guān)注”“取消關(guān)注”“提起”這種針對(duì)用戶的功能,以及有助用戶發(fā)表相關(guān)話題的“標(biāo)簽”功能。由于Twitter的完全開放性,研究者們可以獲得某一用戶發(fā)布的所有微博客,[8]在相關(guān)話題標(biāo)簽下的全部微博客,[9]以及通過(guò)搜索功能搜集所有包含關(guān)鍵字的微博客。[10]研究者們也可以通過(guò)應(yīng)用程序接口(Application Programming Interface,簡(jiǎn)稱API)進(jìn)行數(shù)據(jù)收集。API可以實(shí)現(xiàn)幾個(gè)方面的功能:(1)通過(guò)搜索關(guān)鍵詞和話題標(biāo)簽的微博客收集;(2)在所有微博客中抽取10%作為隨機(jī)樣本;(3)收集所有已發(fā)布的微博客。自2008年,Twitter獲得了研究者們的廣泛關(guān)注,也有很多論文發(fā)表,但是只有極少數(shù)發(fā)表在了主流期刊上。[11]我國(guó)的微博(新浪微博、騰訊微博等)也具有極其相似的功能,唯一與之區(qū)別的是在應(yīng)用程序的接口上并未完全開放,可能無(wú)法達(dá)到以上描述的全部功能。

        即使在大數(shù)據(jù)時(shí)代,研究者們主張收集全部數(shù)據(jù),而不再完全依靠隨機(jī)樣本,收集所有數(shù)據(jù)再篩選出需要的信息也是極大的工程,因此,即使是收集全部信息也需要一些相應(yīng)的方法。例如有研究者將滾雪球抽樣方法與計(jì)算機(jī)技術(shù)結(jié)合形成了一種適用于大數(shù)據(jù)時(shí)代的數(shù)據(jù)收集方法。[12]研究者首先輸入一個(gè)起始網(wǎng)頁(yè),并規(guī)定關(guān)鍵字或者對(duì)搜索目標(biāo)更細(xì)節(jié)的描述,而后該程序?qū)⒃L問(wèn)每一個(gè)與起始網(wǎng)頁(yè)相關(guān)的網(wǎng)頁(yè),如遇到與關(guān)鍵字相關(guān)的網(wǎng)頁(yè)將提取出文字資料,并在當(dāng)前網(wǎng)頁(yè)重復(fù)之前過(guò)程。如果程序一直運(yùn)行下去,將得到一種類似蜘蛛網(wǎng)的擴(kuò)散結(jié)構(gòu)。但是由于計(jì)算機(jī)的硬件限制,這種過(guò)程無(wú)法一直持續(xù)下去。而且由于網(wǎng)頁(yè)的互相關(guān)聯(lián)性,在幾輪之后,可能出現(xiàn)相關(guān)網(wǎng)頁(yè)在之前已經(jīng)被搜索過(guò)的情況。因此,用戶可以通過(guò)規(guī)定多個(gè)關(guān)鍵詞以及限定搜索的輪數(shù),得到一個(gè)接近于整體的樣本。

        (二)整理數(shù)據(jù)

        由于在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量極大,收集到的數(shù)據(jù)無(wú)法保證一致性。而我們?nèi)绻非蟠罅康臄?shù)據(jù),就必須接受隨之而來(lái)的數(shù)據(jù)的駁雜性。在分析數(shù)據(jù)之前,研究者們不可避免地需要整理這些數(shù)據(jù),減少駁雜性,使它們具有可分析性。因?yàn)橥ㄟ^(guò)互聯(lián)網(wǎng)收集的數(shù)據(jù)大多是文字性的,無(wú)論是定性還是定量的研究,都需要將這些信息加以整理。如果是定量的研究,數(shù)字性的信息可以結(jié)合某些計(jì)算機(jī)技術(shù)手段篩選后使用,而文字信息則可以通過(guò)對(duì)信息進(jìn)行量化使用。陳云松關(guān)于社會(huì)學(xué)發(fā)展的研究,就是通過(guò)統(tǒng)計(jì)Google最新語(yǔ)料庫(kù)中的某些社會(huì)學(xué)關(guān)鍵字的詞頻來(lái)闡述社會(huì)學(xué)自19世紀(jì)中期以來(lái)的發(fā)展。[13]

        由于計(jì)算機(jī)科學(xué)與社會(huì)學(xué)的學(xué)科合作并沒(méi)有非常深入,所以現(xiàn)在大部分的對(duì)于文字信息進(jìn)行定量研究都只是簡(jiǎn)單的統(tǒng)計(jì)頻率。如果社會(huì)學(xué)科可以和計(jì)算機(jī)學(xué)科進(jìn)一步合作,研究者們可以獲得更加豐富的數(shù)據(jù),并在一定程度上取代一些樣本量較大的問(wèn)卷調(diào)查。如美國(guó)的綜合社會(huì)調(diào)查(General Social Survey,簡(jiǎn)稱GSS),通過(guò)在全部成年美國(guó)公民內(nèi)抽取3000人左右的樣本,進(jìn)行登門問(wèn)卷調(diào)查。自互聯(lián)網(wǎng)興起之后,一些研究者們也在網(wǎng)絡(luò)上發(fā)布問(wèn)卷調(diào)查,但是由于網(wǎng)民群體并不是特別具有代表性的公民樣本,因此結(jié)果也無(wú)法具有特別高的代表性。如果研究者們收集來(lái)自社交平臺(tái)的數(shù)據(jù),篩選出關(guān)于某些話題的信息,再應(yīng)用計(jì)算機(jī)技術(shù)分析情緒并將之量化,可以得到民眾關(guān)于某些話題的看法。但同時(shí),這種方法也被樣本代表性限制著,只是由于數(shù)據(jù)量較大,且這些社交平臺(tái)的用戶數(shù)量在持續(xù)增長(zhǎng),可以彌補(bǔ)部分代表性的缺點(diǎn)。

        如果是定性的研究,則需要先根據(jù)關(guān)鍵字對(duì)信息進(jìn)行分類。對(duì)于這種極大量的數(shù)據(jù),全部依靠人工分類顯然不可能。依靠計(jì)算機(jī)手段也有諸多的缺陷。比如有些詞有許多同義詞或者類似含義的表述,而研究者們很難將這些表述收集完全,因此在未閱讀這些信息前,研究者們很難選出可以足夠合適并完全的關(guān)鍵字,并且由于這種方式忽略了句子中的大部分成分,很容易造成語(yǔ)義理解錯(cuò)誤?;谶@種困境,研究者們采取了一種新的方式,通過(guò)“機(jī)器學(xué)習(xí)”進(jìn)行主題建模。這種方式產(chǎn)生于社會(huì)學(xué)家、語(yǔ)言學(xué)家以及計(jì)算機(jī)學(xué)家的合作。這種方式通過(guò)對(duì)主題的描述尋找?guī)讉€(gè)詞匯同時(shí)出現(xiàn)的概率,進(jìn)而進(jìn)行分類。[14]即使這樣,對(duì)信息進(jìn)行分類依然會(huì)產(chǎn)生錯(cuò)誤。比如,這種方法假設(shè)順序無(wú)關(guān)緊要,包括詞匯的順序和在極大樣本中文字篇章的順序。而且,這種方法對(duì)分類完全采取單一結(jié)果的方式,一段文字信息只能對(duì)應(yīng)一個(gè)關(guān)鍵字,而忽略了一些關(guān)鍵字之間的聯(lián)系。為了克服這些限制,有研究者提出了在“人工前導(dǎo)”下的主題建模。研究者們先從廣泛的數(shù)據(jù)中隨機(jī)抽選出一些篇章進(jìn)行人工分類,并將結(jié)果作為機(jī)器學(xué)習(xí)的訓(xùn)練樣本?;羝战鹚梗℉opkins)和金(King)采用了這種方法進(jìn)行了研究。他們通過(guò)在2008年美國(guó)總統(tǒng)選舉期間的幾千篇相關(guān)博客分析群眾們對(duì)候選人的看法。經(jīng)過(guò)學(xué)習(xí)了一些訓(xùn)練樣本后,計(jì)算機(jī)的分類結(jié)果比人工分類更加精準(zhǔn)。[15]但是對(duì)于這種觀點(diǎn),并沒(méi)有更進(jìn)一步的驗(yàn)證。

        (三)分析數(shù)據(jù)

        在數(shù)據(jù)被整理之后,研究者們將使用這些數(shù)據(jù)進(jìn)行分析。對(duì)于定量研究來(lái)說(shuō),整理后的數(shù)據(jù)已經(jīng)可以通過(guò)相應(yīng)統(tǒng)計(jì)軟件進(jìn)行直接使用,對(duì)于定性研究來(lái)說(shuō),數(shù)據(jù)依然需要繼續(xù)處理。“主題建?!钡确绞揭廊豢梢岳^續(xù)使用,用于將信息進(jìn)一步細(xì)化并摘取出有意義的片段。比如在霍普金斯和金的研究中,在將博客按候選人進(jìn)行分類后,還要對(duì)人們對(duì)候選人的態(tài)度進(jìn)行分析,并摘錄出關(guān)鍵語(yǔ)句。[16]現(xiàn)在的社會(huì)學(xué),計(jì)算機(jī)學(xué)和語(yǔ)言學(xué)的合作還只能將這些有關(guān)于態(tài)度的內(nèi)容進(jìn)行簡(jiǎn)單分類,而對(duì)于更深層次的應(yīng)用則需要各學(xué)科之間更加深入的合作。而對(duì)于定量研究來(lái)說(shuō),分析數(shù)據(jù)也包括將現(xiàn)有數(shù)據(jù)制作成圖表,以便于更加方便地闡述研究結(jié)果。比如緹娜提(Tinati)及同事通過(guò)統(tǒng)計(jì)在學(xué)費(fèi)抗議期間Twitter上面微博客轉(zhuǎn)發(fā)數(shù)分析網(wǎng)絡(luò)數(shù)據(jù)的傳播規(guī)律。在數(shù)據(jù)整理之后通過(guò)軟件生成了散射狀的信息流動(dòng)圖,[17]這種通過(guò)統(tǒng)計(jì)極大數(shù)據(jù)而生成的圖表,如果不使用相關(guān)軟件基本無(wú)法實(shí)現(xiàn)。

        三 大數(shù)據(jù)的負(fù)面后果:更新研究方法的局限性

        對(duì)于大數(shù)據(jù)的研究雖然將社會(huì)學(xué)推上了一個(gè)新的高度,但是卻依然有其局限性,并不能完全取代傳統(tǒng)的實(shí)證社會(huì)學(xué)研究方法。

        首先,以定量分析方法抽樣調(diào)查為例,在一些案例中,抽樣調(diào)查更加適用于那些有“遺失”的數(shù)據(jù)和代表性的樣本。比如,一些沒(méi)有被警察發(fā)現(xiàn)的犯罪記錄。為了保護(hù)自己,人們一般不會(huì)在社交網(wǎng)絡(luò)平臺(tái)上袒露自己的犯罪記錄,尤其是那些警方?jīng)]有掌握證據(jù)的犯罪記錄。這些記錄就是數(shù)據(jù)庫(kù)中大量缺失的數(shù)據(jù)。而且,如果真的有人存在犯罪未被發(fā)現(xiàn)的情況,他們一般傾向于不在公共場(chǎng)合和平臺(tái)上坦白自己。在這種情況下,社會(huì)學(xué)家們可以通過(guò)統(tǒng)計(jì)方法估計(jì)這部分缺失的數(shù)據(jù),從而預(yù)測(cè)整體的行為特點(diǎn),而并非依賴于對(duì)全部所收集到的數(shù)據(jù)進(jìn)行分析。另外,社會(huì)學(xué)家們傾向于使用來(lái)自社交平臺(tái)的大數(shù)據(jù),然而由于不同社交網(wǎng)絡(luò)平臺(tái)的用戶群體在族群背景、教育、收入等方面都有所差異,在某一平臺(tái)收集的數(shù)據(jù)并非如眾多社會(huì)學(xué)家所想象的那樣,可以代表某一概念下的整體。[18]

        其次,雖然當(dāng)前的技術(shù)水平已經(jīng)足夠研究人員們儲(chǔ)存和分析如此大量的數(shù)據(jù),但是對(duì)于普通的研究者來(lái)講,如此大規(guī)模的運(yùn)算還是比較困難的。大數(shù)據(jù)的收集是一個(gè)費(fèi)時(shí)費(fèi)力的工作,需要大量的資金支持。除了谷歌和微軟這樣的大型IT公司,只有那些像沃爾瑪這樣的大型商業(yè)公司才有這樣的實(shí)力。也曾經(jīng)有社會(huì)學(xué)家收集過(guò)一些來(lái)自于社交網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù),但是由于技術(shù)和資金限制,這些數(shù)據(jù)的規(guī)模無(wú)論是縱向還是橫向都遠(yuǎn)遠(yuǎn)無(wú)法和那些大公司的數(shù)據(jù)庫(kù)相比。[19]社會(huì)學(xué)家也可以應(yīng)用政府、機(jī)構(gòu)、和企業(yè)已經(jīng)收集整理好的數(shù)據(jù)庫(kù)。但是,除了政府的開放數(shù)據(jù)和一些機(jī)構(gòu)的免費(fèi)數(shù)據(jù),大部分?jǐn)?shù)據(jù)都需要研究者們向數(shù)據(jù)的所有者購(gòu)買。對(duì)于研究經(jīng)費(fèi)有限的社會(huì)學(xué)家們,這可能是一筆不菲的支出。而且,通信領(lǐng)域和社會(huì)媒體領(lǐng)域的企業(yè)通常拒絕或者限制向研究者們分享數(shù)據(jù)。[20]即使企業(yè)統(tǒng)一分享數(shù)據(jù),由于機(jī)構(gòu)和企業(yè)收集數(shù)據(jù)時(shí)并沒(méi)有針對(duì)社會(huì)學(xué)研究的需要,所以一些數(shù)據(jù)庫(kù)可能并不能完全適用于社會(huì)學(xué)研究。因此,社會(huì)學(xué)家研究大數(shù)據(jù)的最理想選擇還是自己收集數(shù)據(jù)或者使用其他社會(huì)學(xué)家或者社會(huì)學(xué)研究機(jī)構(gòu)已經(jīng)收集好的數(shù)據(jù)。這無(wú)疑需要與其他學(xué)科,尤其是計(jì)算機(jī)學(xué)科更大程度的合作與交流。而對(duì)于整理和分析這些數(shù)據(jù),對(duì)傳統(tǒng)的社會(huì)學(xué)方法也具有很大的挑戰(zhàn)。因?yàn)閿?shù)據(jù)的巨大規(guī)模和駁雜性,用人工去整理和分析這些數(shù)據(jù)幾乎是不可能的事情。于是社會(huì)學(xué)家們同樣也需要更加先進(jìn)的方法去處理這些數(shù)據(jù)。

        第三,在大數(shù)據(jù)時(shí)代,道德也成為大數(shù)據(jù)社會(huì)學(xué)研究的限制。在傳統(tǒng)社會(huì)學(xué)研究中,研究者必須先得到受訪者的“知情同意”后才能進(jìn)行數(shù)據(jù)的收集,即數(shù)據(jù)收集者必須告訴受訪者,有哪些數(shù)據(jù)將要被收集,這些數(shù)據(jù)將用來(lái)做什么,在受訪者對(duì)研究過(guò)程充分了解的基礎(chǔ)上方可進(jìn)行。雖然這并非是數(shù)據(jù)收集的唯一方式,但已經(jīng)成為了基于隱私政策的共識(shí)性基礎(chǔ)。然而在大數(shù)據(jù)時(shí)代,許多數(shù)據(jù)在收集的時(shí)候并無(wú)意用作其他用途,而最終卻產(chǎn)生了許多創(chuàng)新性的用途。許多研究也驗(yàn)證了,大數(shù)據(jù)的價(jià)值不再單純地來(lái)自于其基本用途,更多源于對(duì)它的二次甚至于多次利用。經(jīng)常被作為數(shù)據(jù)收集對(duì)象的各種網(wǎng)絡(luò)社交平臺(tái),雖然在用戶開始使用服務(wù)之前通過(guò)一些使用許可,但這些簡(jiǎn)陋的許可并沒(méi)有規(guī)定這些數(shù)據(jù)的具體用途,同時(shí)由于冗長(zhǎng)的篇幅,很少有用戶將這些許可全部閱讀。這些都造成了大數(shù)據(jù)時(shí)代的社會(huì)學(xué)研究缺乏對(duì)受訪者隱私的嚴(yán)格保護(hù)。而由于IP地址的唯一性,用戶很容易通過(guò)IP地址被追溯,而這顯然不利于研究者們對(duì)受訪者的保護(hù)。另外,收集好的數(shù)據(jù)集可以作為資源出售,這也使得某些平臺(tái)在利益的驅(qū)動(dòng)下非法獲得用戶的隱私信息并用以進(jìn)行商業(yè)銷售,而購(gòu)買者對(duì)這些數(shù)據(jù)的應(yīng)用并不被出售者和數(shù)據(jù)相關(guān)者所掌控,從而對(duì)用戶的正常生活產(chǎn)生不良的影響。[21]

        第四,使用大數(shù)據(jù)之后也存在著對(duì)公平性的影響。以行車保險(xiǎn)業(yè)為例,很多保險(xiǎn)公司在用戶的車輛中裝載行車記錄設(shè)備,這些設(shè)備記錄了用戶的行車路線、駕駛習(xí)慣等等。保險(xiǎn)公司將這些記錄與用戶的違章記錄合并,對(duì)用戶的交通事故概率進(jìn)行預(yù)測(cè),并以此確定用戶應(yīng)當(dāng)繳納的保險(xiǎn)費(fèi)用。交通事故概率的預(yù)測(cè)值越高,則用戶需要繳納的保險(xiǎn)費(fèi)用就更高。乍看之下,這并沒(méi)有什么問(wèn)題,但是,在這其中,弱勢(shì)群體的劣勢(shì)被進(jìn)一步累計(jì)。具有更高經(jīng)濟(jì)等級(jí)的人可以選擇在工作地點(diǎn)附近居住,或者選擇在更好交通條件的地點(diǎn)居住,他們的上下班時(shí)間也更加方便他們的駕駛,從而他們擁有更高的駕駛安全系數(shù)。而那些低經(jīng)濟(jì)等級(jí)的人,可能住在距離上班地點(diǎn)比較遠(yuǎn)的地方,所行駛的道路和上下班的時(shí)間也不利于安全駕駛,因而只有較低的駕駛安全系數(shù)。由此,低經(jīng)濟(jì)等級(jí)的民眾需要繳納更高的保險(xiǎn)費(fèi)用,而高經(jīng)濟(jì)等級(jí)的人反而需要繳納較少的費(fèi)用。這從另一個(gè)方面進(jìn)一步拉大了貧富差距,導(dǎo)致了更加嚴(yán)重的社會(huì)不公平。

        不僅如此,大數(shù)據(jù)研究的強(qiáng)大預(yù)測(cè)性也可能導(dǎo)致更加嚴(yán)重的問(wèn)題。如果警察應(yīng)用大數(shù)據(jù)的預(yù)測(cè)來(lái)預(yù)防犯罪,一些素行不良的人可能會(huì)因?yàn)樯形窗l(fā)生的犯罪得到懲罰,這無(wú)疑是不公平的。而社會(huì)學(xué)研究所應(yīng)用的大規(guī)模交互性數(shù)據(jù)可能會(huì)包含某些人有犯罪意圖的信息,是否將這些信息提交給警方也將是社會(huì)學(xué)研究道德的一部分。總之,大數(shù)據(jù)為社會(huì)學(xué)研究建立了一個(gè)全新的國(guó)度,而這個(gè)國(guó)度的道德規(guī)范還沒(méi)有建立完全。

        四 結(jié) 論

        大數(shù)據(jù)對(duì)社會(huì)學(xué)的影響,體現(xiàn)為兩種社會(huì)學(xué)后果:正面后果和負(fù)面后果。它改變了社會(huì)學(xué)研究方式,開創(chuàng)了社會(huì)學(xué)研究的新時(shí)代,但是這并不代表以抽樣調(diào)查和訪談作為根本的傳統(tǒng)社會(huì)學(xué)研究方式從此退出了歷史舞臺(tái)。由于研究基金和技術(shù)等方面的限制,在很長(zhǎng)一段時(shí)間內(nèi),大部分社會(huì)學(xué)家們還將繼續(xù)使用傳統(tǒng)社會(huì)學(xué)研究方法。也許今后計(jì)算機(jī)科學(xué)技術(shù)不斷發(fā)展,同時(shí)社會(huì)學(xué)與計(jì)算機(jī)學(xué)科和語(yǔ)言學(xué)進(jìn)一步合作,基于大數(shù)據(jù)的社會(huì)學(xué)研究可以進(jìn)一步增大范圍。但是由于社會(huì)學(xué)以社會(huì)為研究對(duì)象,即使在研究基金充足、技術(shù)也達(dá)到標(biāo)準(zhǔn)的情況下,依然有研究要依賴傳統(tǒng)的抽樣調(diào)查與訪談的方法。因而,大數(shù)據(jù)社會(huì)研究方法并非是傳統(tǒng)社會(huì)學(xué)研究方法的替代,而是補(bǔ)充。

        注釋:

        [1]M.Savage, R.Burrows, “The Coming Crisis of Empirical Sociology”, Sociology, vol.41 (October 2007), pp.885-899.

        [2]R.J.Smith, “Missed Miracles and Mystical Connections: Qualitative Research, Digital Social Science and Big Data”, Studies in Qualitative Methodology,vol.13(2014), pp.181-204.

        [3]涂子沛:《大數(shù)據(jù):正在到來(lái)的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活》,桂林:廣西師范大學(xué)出版社,2015年,第4-12頁(yè)。

        [4]R.Inati, S.Halford,L.Carr,C.Pope, “Big Data: Methodological Challenges and Approaches for Sociological Analysis”, Sociology, vol.48(2014),pp. 663-681.

        [5]C.Bail, “The Cultural Environment: Measuring Culture with Big Data”, Theory & Society, vol. 43, no.3/4(2014), pp.465-482.

        [6]陳云松:《大數(shù)據(jù)中的百年社會(huì)學(xué)》,《社會(huì)學(xué)研究》2015年第1期。

        [7]龍瀛、張宇、崔承?。骸独霉凰⒖〝?shù)據(jù)分析北京職住關(guān)系和通勤出行》,《地理學(xué)報(bào)》2012年第4期。

        [8]R.Waters, J.Williams, “Squawking, Tweeting,Cooing, and Hooting: Analyzing the Communication Patterns of Government Agencies”, Journal of Public Affairs, vol.124, no.4(2011),pp.353-363.

        [9]N.Jackson, D.Lilleker, “Microblogging,Constituency Service and Impression Management: UK MPs and Their Use of Twitter”, Journal of Legislative Studies, vol.17, no.1(2011), pp.86-105.

        [10]A.Larsson, H.Moe, “Studying Political Micro-Blogging: Twitter Users in the 2012 Swedish Election Campaign”, New Media and Society, vol.14 (2011), pp.729-747.

        [11]D.Murthy, “Towards a Sociological Understanding of Social Media: Theorizing Twitter”,Sociology, vol.46 (2012), pp.1059-1073.

        [12]A.Gong, “An Automated Snowball Census of the Political Web”,http://papers.ssrn.com/sol3/ paper.cfm?abstract_id=1932024. SSRN eLibrary,2011.

        [13]陳云松:《大數(shù)據(jù)中的百年社會(huì)學(xué)》,《社會(huì)學(xué)研究》2015年第1期。

        [14]K.M.Quinn, B.L.Monroe, M.Colaresi,M.H.Crespin, D.R.Radev, “How to Analyze Political Attention with Minimal Assumptions and Costs”,American Journal of Political Science, vol. 54 (2010),pp.209-228.

        [15]D.Hopkins, G.King, “A Method of Automated Nonparametric Content Analysis for Social Science”, American Journal of Political Science, vol.54 (2010), pp.229-247.

        [16]D.Hopkins, G.King, “A Method of Automated Nonparametric Content Analysis for Social Science”, American Journal of Political Science, vol.54 (2010), pp.229-247.

        [17]R.Tinati, S.Halford, L.Carr, C.Pope,“Big Data: Methodological Challenges and Approaches for Sociological Analysis”, Sociology, vol.48(2014),pp. 663-681.

        [18]“國(guó)內(nèi)外新聞與傳播前沿問(wèn)題跟蹤研究”課題組:《大數(shù)據(jù)時(shí)間與研究:批判性反思與研究推動(dòng)》,《新聞與傳播研究》2015年第8期。

        [19]A.Edwards, W.Housley, M.Willianms,L.Sloan,“Digital Social Research, Social Media and the Sociological Zmagination: Surrogacy, Augmentation and Re-orientation”, International Journal of Social Research Methodololgy, Vol.16 (2013), pp.254-260.

        [20]孟小峰、李勇、祝建華:《社會(huì)計(jì)算:大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)》,《計(jì)算機(jī)研究與發(fā)展》2013年第12期。

        [21]沈浩、黃曉蘭:《大數(shù)據(jù)助力社會(huì)科學(xué)研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播》2013年第8期。

        責(zé)任編輯 劉秀秀

        作者簡(jiǎn)介:張旭,哈爾濱工業(yè)大學(xué)社會(huì)學(xué)系博士研究生,哈爾濱市,150001;唐魁玉,哈爾濱工業(yè)大學(xué)社會(huì)學(xué)系教授、博士生導(dǎo)師,中國(guó)網(wǎng)絡(luò)社會(huì)學(xué)會(huì)副會(huì)長(zhǎng),《哈爾濱工業(yè)大學(xué)學(xué)報(bào)》(社會(huì)科學(xué)版)副主編,哈爾濱市,150001。

        中圖分類號(hào):C91-03

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1006-0138(2016)03-0042-06

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        久久精品国产亚洲精品| 日本人视频国产一区二区三区| 人妻少妇精品久久久久久| 亚洲av无码不卡久久| 久久久精品国产亚洲AV蜜| 人妻在线中文字幕视频| 国产熟女盗摄一区二区警花91| 国产av无码专区亚洲av毛网站| 在线视频99| 成人黄网站免费永久在线观看| 国产香蕉一区二区三区在线视频| 日本亚洲欧美色视频在线播放| 亚洲男人的天堂网站| 亚洲中文字幕永久网站| 美腿丝袜在线一区二区| 亚洲国产精品第一区二区| 777国产偷窥盗摄精品品在线| 亚洲精品久久久久久| 欧美熟妇与小伙性欧美交| 日韩午夜免费视频精品一区| 亚洲熟妇自偷自拍另欧美| 国产一区视频在线免费观看| 一区二区三区在线蜜桃| 最新国产不卡在线视频| 日本乱偷人妻中文字幕在线| 狼友AV在线| 亚州中文字幕乱码中文字幕| 婷婷综合另类小说色区| 人妻丰满熟妇av无码区| 在线亚洲综合| 中文字幕av一区二区三区诱惑| 性欧美丰满熟妇xxxx性久久久| 在线永久免费观看黄网站| av手机在线天堂网| 久久精品亚洲熟女av麻豆| 日韩视频中文字幕精品偷拍| 一本久道久久综合五月丁香| 亚洲国产精品久久性色av| 亚洲爆乳精品无码一区二区三区| 无码毛片aaa在线| 亚洲av一区二区三区网站|