亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        激發(fā)更大的“社會學(xué)想象力”

        2018-06-11 08:45:53唐斌斌付雙樂劉林平
        關(guān)鍵詞:社會學(xué)文獻(xiàn)文本

        唐斌斌 付雙樂 劉林平

        [摘要]基于130篇SSCI社會學(xué)大數(shù)據(jù)文獻(xiàn),本文從文章類型、引用次數(shù)、作者信息、大數(shù)據(jù)類型、處理工具、分析方法和研究價值等方面進(jìn)行了分析。研究發(fā)現(xiàn),社會學(xué)大數(shù)據(jù)實證研究偏少;作者活躍度不高;使用比較多的大數(shù)據(jù)類型包括網(wǎng)絡(luò)社交數(shù)據(jù)、行政數(shù)據(jù)、企業(yè)數(shù)據(jù)和谷歌圖書語料庫數(shù)據(jù);利用R、Python和Gephi等編程語言和軟件進(jìn)行大數(shù)據(jù)挖掘、分析和可視化;傳統(tǒng)的統(tǒng)計分析方法仍占一定比例,但機(jī)器學(xué)習(xí)方法開始得到運(yùn)用。大數(shù)據(jù)給社會學(xué)研究注入了新的活力,有助于激發(fā)更大的“社會學(xué)想象力”、獲得更好的社會測量和開展更深入的實證研究。

        [關(guān) 鍵 詞]社會學(xué)? 大數(shù)據(jù)? 計量分析? 前沿進(jìn)展

        [中圖分類號]C91? ? [文獻(xiàn)標(biāo)識碼]A? ? [文章編號]1008-7672(2018)05-0050-16

        一、 引言

        Savage和Burrows在《實證社會學(xué)即將面臨的危機(jī)》一文指出,以抽樣理論、調(diào)查設(shè)計、定性訪談為標(biāo)志的實證社會學(xué)在方法論上嚴(yán)重落后,這與當(dāng)代社會學(xué)家固守常規(guī)方法、忽視現(xiàn)代生活激增的數(shù)據(jù)洪流有關(guān)。他們認(rèn)為,盡管抽樣調(diào)查和定性訪談仍然是重要的研究手段,但這種狀況在未來會慢慢被邊緣化甚至被拋棄。因此,他們呼吁,社會學(xué)家必須對實證社會學(xué)的方法論進(jìn)行徹底反思,必須更多地思考如何才能更好地與大量的社會數(shù)據(jù)聯(lián)系起來。

        他們在文中并沒有明確提出“大數(shù)據(jù)”概念,但該文是近10年來社會科學(xué)討論大數(shù)據(jù)相關(guān)議題被引用最多的文獻(xiàn)之一。社會學(xué)家對大數(shù)據(jù)及其研究的看法爭議不斷,有學(xué)者對此提出嚴(yán)厲批評,代表性人物有Boyd和Crawford等。他們認(rèn)為,與其他社會技術(shù)現(xiàn)象一樣,大數(shù)據(jù)存在六大挑戰(zhàn):(1)改變了知識的定義,但提供的是缺乏哲學(xué)力量的知識和信息;(2)聲稱客觀和準(zhǔn)確是有誤導(dǎo)性的;(3)并不總是更好的數(shù)據(jù);(4)脫離上下文,失去意義;(5)挑戰(zhàn)研究倫理;(6)制造更大的數(shù)據(jù)鴻溝。

        另有研究者從更具體的角度提出批評。在他們看來,大數(shù)據(jù)研究中的數(shù)據(jù)、方法和理論都值得懷疑。首先,數(shù)據(jù)有可能是偏倚的或者是不完整的,這些數(shù)據(jù)只捕獲了某些活動,特別是某些人使用特定的設(shè)備和應(yīng)用程序來記錄特定信息的活動;其次,大數(shù)據(jù)分析過于依賴計算方法和“黑盒”分析工具,伴隨一些幾乎無意義的問題或概念解釋;更重要的是,對模式(算法)和相關(guān)性的強(qiáng)調(diào)忽視了理論上值得探究的問題,并取代了社會學(xué)核心的解釋學(xué)和批判分析。

        盡管批評者詰難頗多,但社會學(xué)界及更多社會學(xué)家仍然以寬廣的胸襟擁抱大數(shù)據(jù)。首先,眾多的公共資助機(jī)構(gòu)、私人基金會和數(shù)十家大學(xué)推動了“大數(shù)據(jù)”或“數(shù)據(jù)科學(xué)”的項目發(fā)展。例如,2014年,歐洲PMC贊助商集團(tuán)(Europe PMC Funders Group)贊助舉辦了一個名為《大數(shù)據(jù)與社會》(Big Data & Society)的新學(xué)術(shù)期刊,該期刊主要為社會科學(xué)和相關(guān)交叉學(xué)科討論大數(shù)據(jù)對社會的影響提供一個辯論空間,向公眾傳播大數(shù)據(jù)如何重新配置學(xué)術(shù)、社會、工業(yè)、商業(yè)和政府關(guān)系等專業(yè)知識。其次,更多社會學(xué)家認(rèn)為,忽視大數(shù)據(jù)是拋棄了對社會研究至關(guān)重要的一系列問題,不利于社會學(xué)方法和理論的不斷發(fā)展?,F(xiàn)代社會是一個數(shù)字信息社會,社會學(xué)與數(shù)字結(jié)合是恰當(dāng)?shù)?,社會學(xué)家還在學(xué)習(xí)和改進(jìn)他們的方法和計算技能,隨著時間的推移,相關(guān)的大數(shù)據(jù)研究將會提供新的知識。

        因此,本文試圖綜述大數(shù)據(jù)在社會學(xué)研究中的情況,以拓寬人們對社會學(xué)大數(shù)據(jù)研究的理解。具體而言,本文的目標(biāo)是:

        第一,描述社會學(xué)領(lǐng)域發(fā)表的大數(shù)據(jù)文獻(xiàn)基本情況;

        第二,探討社會學(xué)大數(shù)據(jù)文獻(xiàn)中使用的數(shù)據(jù)類型、處理工具和分析方法;

        第三,分析社會學(xué)領(lǐng)域的大數(shù)據(jù)研究價值;

        第四,總結(jié)和討論社會學(xué)領(lǐng)域的大數(shù)據(jù)研究現(xiàn)狀和未來發(fā)展建議。

        總之,本文將對社會學(xué)領(lǐng)域的大數(shù)據(jù)文獻(xiàn)進(jìn)行較為全面的綜述。本文主要分為六個部分:第二部分,主要介紹本文的數(shù)據(jù)來源和大數(shù)據(jù)在社會學(xué)中的定義;第三部分是對大數(shù)據(jù)文獻(xiàn)的基本情況進(jìn)行分析,包括文獻(xiàn)類型、引用情況和作者信息等,以期為讀者勾勒出一個整體性的社會學(xué)大數(shù)據(jù)文獻(xiàn)圖景;第四部分則著重介紹大數(shù)據(jù)文獻(xiàn)使用的數(shù)據(jù)類型、處理工具和分析方法,讓讀者對社會學(xué)大數(shù)據(jù)研究有一個更為細(xì)致的了解;第五部分則是闡述大數(shù)據(jù)研究價值,具體包括對社會學(xué)的理論發(fā)展、方法突破和實證研究深入等方面的巨大機(jī)遇;第六部分是結(jié)論和討論,指出社會學(xué)大數(shù)據(jù)研究現(xiàn)狀和未來發(fā)展建議。

        二、 數(shù)據(jù)來源和大數(shù)據(jù)定義

        (一) 數(shù)據(jù)來源

        2018年5月,筆者利用科學(xué)引文索引(Web of Science)數(shù)據(jù)庫檢索大數(shù)據(jù)文獻(xiàn)。首先,選擇Web of Science核心合集數(shù)據(jù)庫中的社會科學(xué)引文索引子數(shù)據(jù)庫,以保證搜索的期刊全部來自SSCI核心期刊;然后,將搜索主題限定在“大數(shù)據(jù)”(“Big Data”)。為了比較社會科學(xué)和社會學(xué)的大數(shù)據(jù)發(fā)文量變化趨勢,筆者將搜索領(lǐng)域限定在社會科學(xué)和社會學(xué)領(lǐng)域,所搜索的文獻(xiàn)里只要標(biāo)題、摘要、關(guān)鍵詞涉及到大數(shù)據(jù)一詞就會被檢索出來。搜索結(jié)果顯示,社會科學(xué)大數(shù)據(jù)文獻(xiàn)有3305篇,社會學(xué)大數(shù)據(jù)文獻(xiàn)有130篇,可以看出,社會學(xué)大數(shù)據(jù)文獻(xiàn)所占份額有限,僅占4%。具體情況見表1。

        大數(shù)據(jù)作為一個新興術(shù)語,進(jìn)入社會科學(xué)和社會學(xué)視野并不算早。從搜索結(jié)果來看,社會學(xué)SSCI期刊在2011年才開始出現(xiàn)與大數(shù)據(jù)相關(guān)的研究主題,這與Burrows和Savage通過谷歌趨勢(Google Trends)分析所得到結(jié)果差不多。此后,大數(shù)據(jù)文獻(xiàn)數(shù)量隨著時間的發(fā)展而增多,所討論的主題也從最開始的大數(shù)據(jù)介紹、爭論到大數(shù)據(jù)分析、方法改進(jìn)等,從整個發(fā)展脈絡(luò)來看,社會學(xué)大數(shù)據(jù)研究經(jīng)歷了“從爭議到改善”的發(fā)展態(tài)勢,顯示社會學(xué)開始積極關(guān)注大數(shù)據(jù)研究。

        (二) 大數(shù)據(jù)在社會學(xué)中的定義

        大數(shù)據(jù)是強(qiáng)大且流行的概念,它已經(jīng)被廣泛應(yīng)用于各個領(lǐng)域,但這種“共同出處導(dǎo)致了多重的、模糊的、甚至常常矛盾的定義”。大數(shù)據(jù)最開始作為一個商業(yè)術(shù)語,是由甲骨文、英特爾、微軟和IBM等信息技術(shù)公司根據(jù)其特征來定義的,其中使用比較廣泛的定義是美國高德納公司的分析師道格拉斯·蘭尼提出的“3V”(容量大、速度快、多樣性)概念,后來又拓展到“4V”(容量大、速度快、多樣性、低價值密度)、“5V”(容量大、速度快、多樣化、低價值密度、準(zhǔn)確性)。

        社會學(xué)對大數(shù)據(jù)的界定也是含混不清的。一些學(xué)者從大數(shù)據(jù)特征出發(fā),認(rèn)為社會學(xué)中的大數(shù)據(jù)也具有龐大、快速、異構(gòu)和數(shù)字化四個特征,與大數(shù)據(jù)的商業(yè)概念不同的是,這一定義將焦點從數(shù)據(jù)本身的特征轉(zhuǎn)移到大數(shù)據(jù)收集和分析的社會過程,即強(qiáng)調(diào)數(shù)據(jù)環(huán)境。例如,這里的重點不是關(guān)注大數(shù)據(jù)的“多樣性”,而是強(qiáng)調(diào)從不同的機(jī)構(gòu)數(shù)據(jù)源收集大數(shù)據(jù)。

        另一些學(xué)者從大數(shù)據(jù)的表現(xiàn)形式出發(fā),認(rèn)為除了體量大之外,“大數(shù)據(jù)是一個非常多樣化的術(shù)語”、“大數(shù)據(jù)有多種形式”。這些數(shù)據(jù)包括文本內(nèi)容(如推文、博客)、多媒體內(nèi)容(如視頻、圖像、音頻)以及多種平臺數(shù)據(jù)(如機(jī)對機(jī)通信、社交媒體網(wǎng)站、傳感器網(wǎng)絡(luò)、網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng))。Kshetri聲稱,“社交媒體、手機(jī)和其他數(shù)字通信工具產(chǎn)生的大量數(shù)據(jù)……,是真正的大數(shù)據(jù)形式”。

        還有一些學(xué)者則將大數(shù)據(jù)視為一種復(fù)雜的現(xiàn)象,它是由文化、技術(shù)和學(xué)術(shù)相互作用構(gòu)成:在技術(shù)方面,最大限度地提高計算能力和算法精度,收集、分析、鏈接和比較大型數(shù)據(jù)庫;在分析層面,利用大數(shù)據(jù)識別模式,實現(xiàn)“經(jīng)濟(jì)、社會、技術(shù)和法律主張”;在觀念神話方面,普遍相信大數(shù)據(jù)可以產(chǎn)生以前無法獲取的知識,這些知識被認(rèn)為是真實、客觀、準(zhǔn)確的。

        可以看出,盡管大數(shù)據(jù)的定義是多樣化的,但至少有一點可以肯定,社會學(xué)領(lǐng)域的大數(shù)據(jù)是關(guān)于社會生活數(shù)字化所產(chǎn)生的大數(shù)據(jù),或者是一種大數(shù)據(jù)分析、大數(shù)據(jù)技術(shù)。這些定義將大數(shù)據(jù)的討論從其起源重要性的問題中脫離出來。

        三、 大數(shù)據(jù)文獻(xiàn)基本情況

        為了勾勒出一個大致的社會學(xué)大數(shù)據(jù)研究圖景,筆者首先對獲得的130篇社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)進(jìn)行了類型分析;其次,對這些文獻(xiàn)的引用和被引情況做了一個梳理;再次,進(jìn)一步對這些文獻(xiàn)的作者基本情況進(jìn)行了一個描述。

        (一) 文獻(xiàn)類型

        從表2可以看出,社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中理論類文獻(xiàn)最多,超過50%,其次是實證類文獻(xiàn)和方法類文獻(xiàn)。這可能是因為,大數(shù)據(jù)作為一種新型數(shù)據(jù),當(dāng)社會學(xué)打算探討大數(shù)據(jù)并利用大數(shù)據(jù)來開展研究時,必然要回答兩個基本問題:(1)什么是大數(shù)據(jù)?(2)利用大數(shù)據(jù)從事研究有什么利弊?為了回應(yīng)這些問題,許多期刊刊發(fā)了大量文章,比如《社會學(xué)》(Sociology)、《社會學(xué)年評》(Annual Review of Sociology)、《媒體、文化與社會》(Media, Culture & Society)等重要刊物從大數(shù)據(jù)定義、大數(shù)據(jù)來源、大數(shù)據(jù)潛力和不足等方面進(jìn)行了較為全面的理論探討和觀點碰撞。

        同時,大數(shù)據(jù)在數(shù)據(jù)獲取、管理和處理方面是常規(guī)的方法和軟件工具所不及的,這引發(fā)了學(xué)者進(jìn)一步探索、開發(fā)新的方法和工具的熱潮。比如,如何用迭代的方式自動分析大量文本;如何使用 APP技術(shù)對使用社交媒體的組織收集和分析數(shù)據(jù)等。

        從百分比來看,大概有27%是使用大數(shù)據(jù)進(jìn)行實證研究的文獻(xiàn)。但細(xì)致分類下來,探索性研究比較多,占了實證類文獻(xiàn)的89%,而驗證類的文獻(xiàn)僅僅占11%,說明目前的社會學(xué)大數(shù)據(jù)研究還處在摸索階段。值得注意的是,實證類文獻(xiàn)中有48.5%的研究不僅僅是停留在對大數(shù)據(jù)的描述統(tǒng)計上,而是將描述和分析兩者結(jié)合起來,這在一定程度上可以看出,大數(shù)據(jù)研究開始往深入分析方向發(fā)展。

        總之,社會學(xué)的大數(shù)據(jù)研究,不管是理論上的探討、觀點上的碰撞、還是方法上的創(chuàng)新,抑或是利用大數(shù)據(jù)開展的經(jīng)驗研究,已經(jīng)吸引了越來越多的學(xué)者加入陣營。且不論學(xué)者們對大數(shù)據(jù)是支持還是反對,對開展的大數(shù)據(jù)實證研究是贊揚(yáng)還是批評,那些睿智的學(xué)術(shù)觀點、嚴(yán)謹(jǐn)?shù)难芯糠椒?,最終豐富和發(fā)展了社會學(xué)的大數(shù)據(jù)研究。

        (二) 文獻(xiàn)引用和被引

        筆者對這130篇社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)的引用和被引現(xiàn)象進(jìn)行了分析。引用是指文獻(xiàn)引用其他學(xué)者文獻(xiàn)的情況,被引是指文獻(xiàn)被其他學(xué)者引用的情況。一般來說,一篇文獻(xiàn)要引用其他學(xué)者的研究,是想要和對方進(jìn)行文獻(xiàn)對話,從而發(fā)現(xiàn)新知,而文獻(xiàn)被他人引用,則可能是該文獻(xiàn)具有重要的學(xué)術(shù)價值。因此,通過對文獻(xiàn)的引用和被引情況分析,特別是對高引和高被引文獻(xiàn)的分析,既可以評價該文獻(xiàn)的學(xué)術(shù)影響力,也可以客觀反映該研究領(lǐng)域的研究基礎(chǔ)和發(fā)展走向。

        為了分析130篇社會學(xué)SSCI大數(shù)據(jù)與哪些學(xué)者進(jìn)行對話,筆者利用CiteSpace軟件提取了這些文獻(xiàn)中共5897條參考文獻(xiàn)。通過分析,獲得了引用次數(shù)10次及以上的6篇高引用文獻(xiàn),并對其進(jìn)行了可視化處理,見圖1。

        此外,筆者整理了這130篇社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)被引用的情況。從表3可以看出,截至目前,完全沒有被引用的文獻(xiàn)有32.3%,被引1-10次的文獻(xiàn)有55.4%,被引11次以上的文獻(xiàn)加起來只有12.3%,可見大部分文獻(xiàn)的被引用次數(shù)不高,這可能是因為這些文獻(xiàn)大部分集中在2014年至2017年發(fā)表的,公開發(fā)表時間還不長,還沒有完全傳播開來。

        接下來,筆者具體分析引用和被引比較高的若干篇文獻(xiàn)。發(fā)現(xiàn),Boyd和 Crawford發(fā)表的《大數(shù)據(jù)的關(guān)鍵問題》(Critical Questions For Big Data)一文引用次數(shù)非常高,累計引用905次,其中被其他社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)引用超過38次,表明該文具有重要的學(xué)術(shù)價值。正如前文所述,該文認(rèn)為大數(shù)據(jù)時代已經(jīng)開始,各類專家學(xué)者都熱烈呼吁獲取大數(shù)據(jù),但大數(shù)據(jù)是否能幫助人們創(chuàng)建更好的工具、服務(wù)和公共產(chǎn)品?作者對這個問題的回答是悲觀的,他們認(rèn)為大數(shù)據(jù)是一種基于技術(shù)、分析和神話相互作用的現(xiàn)象,它存在“六大挑釁”,引發(fā)廣泛的烏托邦和反烏托邦式的討論。

        其他引用和被引用較高的文獻(xiàn)大致可以分為兩類,一類是對大數(shù)據(jù)的介紹和討論;一類是對大數(shù)據(jù)方法和分析工具的改進(jìn)和完善。可以看出,目前的社會學(xué)大數(shù)據(jù)研究在大數(shù)據(jù)討論和方法上關(guān)注頗多,而利用大數(shù)據(jù)進(jìn)行的相關(guān)經(jīng)驗研究暫時還沒有得到足夠的關(guān)注。

        (三) 文獻(xiàn)作者信息

        另外,筆者對文獻(xiàn)作者的基本情況進(jìn)行分析。這樣做可以從整體上了解社會學(xué)大數(shù)據(jù)研究的分布和合作狀況。

        從表4可以看出,在這130篇社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中,在國家分布方面,美國在SSCI期刊發(fā)表社會學(xué)大數(shù)據(jù)文獻(xiàn)的研究人員有111人,遙遙領(lǐng)先英國、澳大利亞、中國、丹麥、加拿大和意大利等國,發(fā)表文獻(xiàn)數(shù)量占總文獻(xiàn)數(shù)量的41%。緊接著的是英國,有64位研究員在SSCI期刊發(fā)表了占總文獻(xiàn)的22%的大數(shù)據(jù)文獻(xiàn)??梢?,美國、英國在社會學(xué)大數(shù)據(jù)研究領(lǐng)域有著眾多的科研人才和強(qiáng)大的科研能力。值得注意的是,在社會學(xué)SSCI期刊發(fā)表大數(shù)據(jù)文獻(xiàn)的作者中,占4.3%的研究人員來自中國,他們參與發(fā)表了7篇大數(shù)據(jù)相關(guān)文獻(xiàn),占全部文獻(xiàn)的5%,這表明中國在國際大數(shù)據(jù)研究舞臺上開始嶄露頭角。事實上,中國龐大的人口和多元化的產(chǎn)業(yè)組合可以產(chǎn)生大量的數(shù)據(jù),對學(xué)者而言,無疑是一個珍貴的數(shù)據(jù)寶藏。

        在職業(yè)分布方面,大學(xué)等教育機(jī)構(gòu)是研究人員主要的任職機(jī)構(gòu)。232位作者在教育機(jī)構(gòu)任職,他們依托教育機(jī)構(gòu)發(fā)表了大量文章,發(fā)表文獻(xiàn)總數(shù)超過120篇,但也有7位作者是在一些研究中心或者公司企業(yè)任職,他們也發(fā)表了具有重要學(xué)術(shù)價值的文章,比如,上文提及到的Boyd和Crawford,他們來自微軟研究院新英格蘭研究所,2012年在《信息、溝通與社會》期刊上發(fā)表了一篇高被引文章。

        在國際合作方面,學(xué)者們對跨國合作的興趣好像并不高,只有18.4%的研究人員參與了跨國合作,發(fā)表的文獻(xiàn)數(shù)量也只有13篇,只占全部文獻(xiàn)的10%。但作者合作方面,只有一位作者的文章數(shù)量有52.3%,有兩個或兩個以上作者的文章數(shù)量有47.7%,兩者幾乎平分秋色,將作者總數(shù)量和文章總數(shù)量平均下來看,一篇文章大概可以達(dá)到2位作者,說明在社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中,多位作者合作發(fā)表文章是一個趨勢。

        總體來看,研究大數(shù)據(jù)主題的研究人員還是比較多的,數(shù)量達(dá)到了329名。但值得注意的是,發(fā)表3篇大數(shù)據(jù)文獻(xiàn)的研究人員只有1名,發(fā)表2篇文獻(xiàn)的研究人員只有13名,剩下225名研究人員都只發(fā)表1篇文獻(xiàn),可見,相關(guān)的研究人員活躍度不高,離散度很大,迄今為止,主導(dǎo)社會學(xué)大數(shù)據(jù)研究領(lǐng)域的專家并不多。

        綜上,筆者從文章類型、引用次數(shù)和作者信息等方面進(jìn)行了較為全面的描述和分析,筆者認(rèn)為,目前社會學(xué)大數(shù)據(jù)研究還處于起步階段。盡管大數(shù)據(jù)研究文獻(xiàn)數(shù)量呈上升態(tài)勢,但大部分文章屬于介紹、討論類的,實證類、方法類文章偏少,而且在實證類文獻(xiàn)中,又以探索類居多、驗證類偏少;那些高引用和高被引文章表明,目前對大數(shù)據(jù)本身的討論和方法改善方面關(guān)注頗多,而利用大數(shù)據(jù)進(jìn)行的經(jīng)驗研究暫時還沒有得到更多的關(guān)注;大部分作者和研究文獻(xiàn)來自美國、英國等歐美國家,中國在這個領(lǐng)域才剛剛有所展示;這些作者更多的是在教育機(jī)構(gòu)任職的老師、研究員,他們跨國合作不多,但同一國家或地區(qū)多作者合作發(fā)表文章已經(jīng)成為了常態(tài),只是活躍度不高,離散度大,主導(dǎo)社會學(xué)大數(shù)據(jù)研究領(lǐng)域的專家不多。

        四、 大數(shù)據(jù)應(yīng)用分析

        社會學(xué)家使用什么樣的大數(shù)據(jù)?采用什么樣的工具處理大數(shù)據(jù)?常用的統(tǒng)計分析方法又有哪些?通過進(jìn)一步對大數(shù)據(jù)在社會學(xué)應(yīng)用研究情況的分析,有助于我們對社會學(xué)大數(shù)據(jù)研究現(xiàn)狀有一個更為細(xì)致的了解。

        筆者首先通過關(guān)鍵詞共詞分析來了解大數(shù)據(jù)在社會學(xué)中的應(yīng)用情況。關(guān)鍵詞是一種自然語言的索引語言,它是從文獻(xiàn)標(biāo)題、摘要和正文中抽取出來,用以揭示和描述文獻(xiàn)內(nèi)容信息的詞語或術(shù)語。共詞分析是一種文本內(nèi)容分析技術(shù),旨在通過分析同一文本主題的款目對(單詞或名詞短語)共同出現(xiàn)形式來探究文本所代表的學(xué)科發(fā)展。本文通過對社會學(xué)130篇SSCI大數(shù)據(jù)文獻(xiàn)進(jìn)行關(guān)鍵詞共詞分析,分析結(jié)果見圖2。需要說明的是,圖中顯示字體的大小代表了該關(guān)鍵詞出現(xiàn)頻次的多少,字體越大說明相應(yīng)的關(guān)鍵詞出現(xiàn)次數(shù)越多。

        從圖2可以看出,出現(xiàn)次數(shù)比較多的關(guān)鍵詞有 “大數(shù)據(jù)”、“社會媒體”、“社會學(xué)”、“政策”、“監(jiān)視”、“網(wǎng)絡(luò)”、“推特”、“臉書”、“算法”、“文本分析”、“社會網(wǎng)絡(luò)”等詞語。為了更進(jìn)一步分析,筆者對130篇社會學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中有報告數(shù)據(jù)類型、數(shù)據(jù)處理工具和統(tǒng)計方法的實證研究做了一個不完全統(tǒng)計。見表5。

        (一) 數(shù)據(jù)類型

        大數(shù)據(jù)類型多種多樣,包括文本、幾何圖形、圖像、視頻、聲音以及每個組合。Lazer和Radford認(rèn)為,大數(shù)據(jù)可能來自三個方面:數(shù)字生活,本質(zhì)上是數(shù)字化的行為數(shù)據(jù);數(shù)字痕跡,是一種行為記錄而不是行為本身的數(shù)據(jù);數(shù)字化生活,以數(shù)字形式捕捉非本質(zhì)數(shù)字生活的數(shù)據(jù)。從表5來看,社會學(xué)家經(jīng)常使用的大數(shù)據(jù)類型包括Twitter、Facebook等網(wǎng)絡(luò)行為數(shù)據(jù);城市管理、政治選舉等行政記錄數(shù)據(jù);電子商務(wù)、酒店耗能等企業(yè)記錄數(shù)據(jù);谷歌圖書語料庫等數(shù)字化數(shù)據(jù)。

        1. 網(wǎng)絡(luò)數(shù)據(jù)

        網(wǎng)絡(luò)數(shù)據(jù)是社會學(xué)家經(jīng)常使用的大數(shù)據(jù)類型之一,其中又以Twitter、Facebook這類網(wǎng)絡(luò)行為數(shù)據(jù)為主。Twitter是一個信息傳播平臺,有超過3億活躍用戶,注冊用戶每天發(fā)布5億條推文,是世界上訪問量第8大的網(wǎng)站,被描述為“互聯(lián)網(wǎng)的短信”。Twitter允許用戶選擇在每條推文中包含地理元數(shù)據(jù)(VGI),當(dāng)他們發(fā)布推文時,每條推文包含了發(fā)送消息的城市、州和國家以及緯度和經(jīng)度坐標(biāo)。這給了一個觀察人們何時何地討論特定話題的機(jī)會。推文本身很小,每條推文只有140個字符,但隨著時間的推移,大量的用戶和推文迅速積累,構(gòu)成了Twitter微觀內(nèi)容“大數(shù)據(jù)”。研究者利用大量推文集合,可以提供描述性內(nèi)容分析、情感分析、影響分析等話題。

        與Twitter注重信息傳播、觀點表達(dá)不同,F(xiàn)acebook是世界上最大的社交媒體網(wǎng)站,主要提供社交服務(wù),月活躍用戶數(shù)量達(dá)到22億。Facebook在2009年推出的Like按鈕是Facebook上最常用的功能,“喜歡”可以用于多種不同的目的,包括運(yùn)動、娛樂、社交和公民表達(dá)。因此,F(xiàn)acebook Like被證明是各種屬性的可靠預(yù)測者,如幸福、種族、宗教和政治觀點、性取向和一系列個性特征。此外,F(xiàn)acebook以各種方式影響人們的社交、生活、溝通和情緒健康,許多研究者利用Facebook大數(shù)據(jù)探索用戶行為研究。

        2. 行政數(shù)據(jù)

        行政數(shù)據(jù)一般可以被描述為源自行政系統(tǒng)運(yùn)行的數(shù)據(jù),這些數(shù)據(jù)可以來自廣泛的管理系統(tǒng),如教育、醫(yī)療、稅收、住房或車輛許可等,還包括來自登記注冊的信息,如出生、死亡和婚姻通知、選舉登記和全國人口普查等。行政數(shù)據(jù)不是為研究目的而被收集的;它可能是大而復(fù)雜的,但又沒有社交媒體、交易數(shù)據(jù)那么大;它本質(zhì)上是多維度的,通過數(shù)據(jù)鏈接將數(shù)據(jù)集連接在一起來獲得回答社會科學(xué)研究問題所需的所有信息;它通常是總體數(shù)據(jù),從整個人口中檢索信息,而不是從樣本中檢索。Connelly等認(rèn)為,行政數(shù)據(jù)完全符合大數(shù)據(jù)定義,也是一種大數(shù)據(jù)。

        一些學(xué)者使用行政大數(shù)據(jù)開展了相關(guān)和有影響力的研究。Heerwig使用來自美國官方聯(lián)邦選舉委員會(FEC)披露的超過1500萬捐款記錄構(gòu)建的原始大數(shù)據(jù)集,分析了個人捐贈對眾議院候選人的募款影響。該研究為重新評估個體捐贈者在競選募款中扮演的角色多樣性以及系統(tǒng)地分析捐贈者捐款策略變化提供了一個有說服力的案例。Brien利用波士頓市收到的超過60萬份政府服務(wù)請求數(shù)據(jù),來探究個人是如何增益城市社區(qū)福利的。研究表明,無論是報告城市社區(qū)的自然惡化還是公共不文明行為,個體的服務(wù)申請都是捍衛(wèi)社區(qū)的一種表達(dá),不同之處在于,報告公共領(lǐng)域問題表達(dá)的是個人對空間的愛護(hù),報告他人越軌行為問題表達(dá)的是對空間的維護(hù)。

        行政數(shù)據(jù)對社會不平等、人類行為和社會政策的研究提供了深刻的見解。對于特殊群體、小群體和某些罕見事件的研究具有明顯的優(yōu)勢。

        3. 企業(yè)數(shù)據(jù)

        近些年來,學(xué)界和商界對企業(yè)大數(shù)據(jù),尤其是對電子商務(wù)、連鎖酒店等領(lǐng)域的企業(yè)大數(shù)據(jù)表現(xiàn)出越來越濃厚的興趣。

        在電子商務(wù)領(lǐng)域,所謂的大數(shù)據(jù)是指通過消費者瀏覽和交易點收集的記錄數(shù)據(jù)。電子商務(wù)公司大數(shù)據(jù)大致可分為四類:交易或業(yè)務(wù)活動數(shù)據(jù),點擊流數(shù)據(jù),視頻數(shù)據(jù),語音數(shù)據(jù)。一些研究者利用電子商務(wù)大數(shù)據(jù)研究消費者偏好、行為,幫助電子商務(wù)公司改善決策過程、降低成本并產(chǎn)生效益。

        同樣,連鎖酒店每月產(chǎn)生的用電量和用水量構(gòu)成了一個大型數(shù)據(jù)集。研究者利用這樣的“大數(shù)據(jù)”對住宅、商業(yè)和工業(yè)部門的能源消耗進(jìn)行了深入了解,利用這些數(shù)據(jù)實現(xiàn)減少經(jīng)營支出和廣泛的可持續(xù)性盈利的共同目標(biāo),提高并改善酒店能源效率。

        4. 谷歌圖書語料庫數(shù)據(jù)

        谷歌圖書語料庫是谷歌數(shù)字化圖書的產(chǎn)物,大部分的書都來自世界上40多所大學(xué)的圖書館,這個語料庫使用光學(xué)字符識別(OCR)對文本進(jìn)行數(shù)字化,超過1550萬冊圖書被數(shù)字化。在2009年第一版谷歌圖書語料庫中,質(zhì)量較好的數(shù)字化文集超過500萬本,由此產(chǎn)生的語料庫包含超過5000億個單詞,包括英語(3610億)、法語(450億)、西班牙語(450億)、德語(370億)、漢語(130億)、俄語(350億)和希伯來語(20億)。在2012年第二版谷歌圖書語料庫中質(zhì)量較好的數(shù)字化文集擴(kuò)充到811萬本,其中英語語料庫就有450萬冊圖書和大約5000萬字。谷歌書籍語料庫的一個核心特征是,語料庫反映了一個圖書館,在這個圖書館中,每本書都是可用的,谷歌圖書語料庫主要利用n-gram模型計算詞匯出現(xiàn)的頻率,因此,語料庫更類似于文本集合的詞典,而不是集合本身。

        國外利用谷歌圖書語料庫進(jìn)行了多項研究,在國內(nèi),陳云松利用谷歌圖書語料庫對19 世紀(jì)中期以來社會學(xué)的發(fā)展和近三百年中國城市的國際知名度進(jìn)行了分析。從這些研究中可以看出,谷歌圖書語料庫有助于對長時間、大空間跨度的社會變遷、宏觀社會文化發(fā)展開展定量分析,為文化社會學(xué)相關(guān)議題的研究提供全新的研究資料。

        (二) 處理工具

        由于大數(shù)據(jù)容量龐大且復(fù)雜,如何處理大數(shù)據(jù)一直是社會學(xué)家首要面臨的問題之一。傳統(tǒng)的數(shù)據(jù)處理軟件不足以解決,需要開發(fā)新的工具。數(shù)據(jù)科學(xué)家利用其專業(yè)知識開發(fā)了許多大數(shù)據(jù)處理工具,從表5來看,目前社會學(xué)家更多的是借用R、Python、Gephi等編程語言和軟件對大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)可視化。

        R是統(tǒng)計計算和圖形的語言和環(huán)境,它提供各種統(tǒng)計(線性和非線性建模,經(jīng)典統(tǒng)計測試,時間序列分析,分類,聚類……)和圖形技術(shù),并且具有高度可擴(kuò)展性。標(biāo)準(zhǔn)R可以很容易地處理包含100萬記錄的數(shù)據(jù)集,如果要處理更多的數(shù)據(jù)記錄,比如10億及以上的數(shù)據(jù)集,R需要和Hadoop數(shù)據(jù)處理應(yīng)用程序框架交互使用,其方法有兩種:第一,首先使用Hadoop將PB、TB量級的數(shù)據(jù)壓縮到GB量級,然后再加載到R中進(jìn)行分析;第二,直接利用支持Hadoop軟件的R包來處理TB、PB量級的大數(shù)據(jù)。Python與R一樣是優(yōu)秀的處理大數(shù)據(jù)的編程語言,由于python很容易學(xué)習(xí)、使用,只要寫少量的編程就能解決復(fù)雜的問題,而且python對數(shù)據(jù)處理量沒有限制,因此,在大數(shù)據(jù)處理過程中備受社會學(xué)家們的青睞。

        同樣,數(shù)據(jù)可視化是大數(shù)據(jù)處理的一項重要內(nèi)容,特別是利用大數(shù)據(jù)研究社交網(wǎng)絡(luò)時,為了理解網(wǎng)絡(luò),許多重要的研究都采用數(shù)據(jù)可視化手段來幫助研究者對龐大而復(fù)雜的數(shù)據(jù)集進(jìn)行深入洞察??梢暬瘜萌祟惖母兄芰υ诰W(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)中發(fā)現(xiàn)特征是有用的,然而,這個過程本質(zhì)上是困難的,需要深入探索。

        Gephi軟件則提供了很好的大數(shù)據(jù)可視化策略,它是一個社交網(wǎng)絡(luò)可視化和操作網(wǎng)絡(luò)軟件,可以處理超過20,000個節(jié)點大型網(wǎng)絡(luò)。所開發(fā)的模塊可以導(dǎo)入、可視化、空間化、過濾、操作和導(dǎo)出所有類型的網(wǎng)絡(luò)。而且,那些不會圖論的社會科學(xué)家也能通過Gephi軟件分析社交網(wǎng)絡(luò),因此,Gephi在社會學(xué)、生物學(xué)、基因組學(xué)等學(xué)科得到廣泛應(yīng)用。

        總之,大數(shù)據(jù)作為規(guī)模超出一般數(shù)據(jù)庫的數(shù)據(jù)集,對于傳統(tǒng)的數(shù)據(jù)處理工具來說未免太大、太快、太復(fù)雜,一般的統(tǒng)計軟件無法對其進(jìn)行數(shù)據(jù)處理;需要新的處理技術(shù)來處理大數(shù)據(jù),這實際上意味著,使用大數(shù)據(jù)開展相關(guān)研究需要向新的技術(shù)過渡。目前,社會學(xué)家借用的大數(shù)據(jù)處理工具更多的是數(shù)據(jù)科學(xué)家開發(fā)出來的,未來,社會學(xué)家需要進(jìn)一步與數(shù)據(jù)科學(xué)家建立合作,不斷改進(jìn)和開發(fā)新工具。

        (三) 統(tǒng)計分析方法

        大數(shù)據(jù)的興起對傳統(tǒng)的統(tǒng)計分析提出了新的挑戰(zhàn)。一些學(xué)者認(rèn)為,由于大數(shù)據(jù)容量龐大,幾乎等于總體樣本,可以放棄對因果關(guān)系的追逐,僅僅采用頻數(shù)和百分比等描述統(tǒng)計就能準(zhǔn)確說明研究問題。從表5可以看出,目前社會學(xué)大數(shù)據(jù)研究采用頻數(shù)、百分比、回歸分析等傳統(tǒng)的統(tǒng)計分析方法仍然占有一定比例,但由于大數(shù)據(jù)75%以上是非結(jié)構(gòu)化的數(shù)據(jù),其中主要是文本數(shù)據(jù),如何對其進(jìn)行統(tǒng)計分析是一個重要問題。在機(jī)器學(xué)習(xí)的推動下,對文本數(shù)據(jù)進(jìn)行自動文本分析是大數(shù)據(jù)研究中發(fā)展比較快的數(shù)據(jù)分析方法。因此,本節(jié)主要對自動文本分析做簡要介紹。

        自動文本分析的核心任務(wù)是分類。在大數(shù)據(jù)時代,基于機(jī)器學(xué)習(xí)的自動文本分析有兩種新興技術(shù):監(jiān)督學(xué)習(xí)法和非監(jiān)督學(xué)習(xí)法。監(jiān)督學(xué)習(xí)方法和非監(jiān)督學(xué)習(xí)方法具有不同的研究渠道,通過這些渠道,非結(jié)構(gòu)化數(shù)據(jù)(如文本)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),進(jìn)而利用這些數(shù)據(jù)創(chuàng)建新的價值形式。

        所謂的監(jiān)督學(xué)習(xí)方法,就是研究人員事先閱讀并編寫訓(xùn)練文本,然后使用計算機(jī)自動對大量未閱讀文本進(jìn)行分類。具體而言,分析員從文本示例開始,在這些示例中,概念由他們自己或其他人標(biāo)識和編碼。這些概念可以是從先前的理論中獲得的,從先前的爭論中推導(dǎo)出來,或者在編碼的過程中由研究者發(fā)現(xiàn)。然后將該示例分為訓(xùn)練子樣本和測試子樣本,監(jiān)督學(xué)習(xí)方法利用與訓(xùn)練樣本中的實例相關(guān)的特征來估計統(tǒng)計模型或調(diào)整算法。然后使用經(jīng)過訓(xùn)練的模型或算法來預(yù)測測試樣本中已識別但未標(biāo)記的實例,以評估其成功與否。最后,使用成功的模型或算法來推斷無標(biāo)記的文本數(shù)據(jù)。監(jiān)督學(xué)習(xí)方法包括K-近鄰分析、簡單貝葉斯估計、決策樹等多種算法,這些算法可以最大限度地提高文本分析的可解釋性、準(zhǔn)確性。

        無監(jiān)督學(xué)習(xí)方法,即研究人員不需要手動對訓(xùn)練集進(jìn)行分類,而是使用計算機(jī)根據(jù)所觀察到的文本特征和一組假設(shè)自動對所有文本進(jìn)行分類。無監(jiān)督學(xué)習(xí)方法從無注釋文本的語料庫開始,然后發(fā)現(xiàn)并表示新的解釋結(jié)構(gòu)。它主要有4種常見的算法:聚類、網(wǎng)絡(luò)分析、主題建模和向量空間嵌入。聚類通常用于發(fā)現(xiàn)文本的分類情況,而網(wǎng)絡(luò)分析通常用于識別文本之間的關(guān)系位置。主題建模被用于粗略地描述文本內(nèi)容,向量空間嵌入模型是把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,通過計算向量之間的相似性來度量文檔間的相似性。

        在社會學(xué)分析中,由監(jiān)督學(xué)習(xí)方法或非監(jiān)督學(xué)習(xí)方法派生的基于文本的變量通常作為自變量,從文本外部預(yù)測已建立的因變量。例如,Goldberg等從文本中提取出員工在公司中的文化嵌入程度,然后用它來預(yù)測員工的個人績效評級和任期。

        五、 大數(shù)據(jù)研究價值

        大數(shù)據(jù)在工業(yè)上的成功應(yīng)用引起了學(xué)術(shù)界的注意。研究者認(rèn)為這種新型的數(shù)據(jù)類型對于學(xué)術(shù)研究來說更是不可錯過的機(jī)遇。從數(shù)據(jù)特性來看,理論上,大數(shù)據(jù)可以為學(xué)術(shù)研究提供巨大價值:比如,大數(shù)據(jù)容量龐大可以看作全樣本來分析,保證統(tǒng)計分析的穩(wěn)健性;大數(shù)據(jù)多種多樣,包含了復(fù)雜、可能是潛在變量之間的相關(guān)性,可以作為研究復(fù)雜現(xiàn)象的一種信息來源;大數(shù)據(jù)獲取速度快,獲取成本低且數(shù)據(jù)幾乎可以實時生成,用實時可用的大數(shù)據(jù)研究現(xiàn)象不僅可以提高效率,還能避免統(tǒng)計調(diào)查中存在的觀察與分析之間的滯后性。

        Lazer和Radford對大數(shù)據(jù)在社會科學(xué)領(lǐng)域可能存在的潛力進(jìn)行了相關(guān)總結(jié)。他們認(rèn)為,首先,與自我行為報告相比,大數(shù)據(jù)提供實際行為的測量,它更能捕捉到真實的一面;其次,大數(shù)據(jù)可以作為監(jiān)測社會現(xiàn)象的傳感器,這種數(shù)字化數(shù)據(jù)提供了降低成本,提高準(zhǔn)確性和增加社會監(jiān)測的能力;再次,大數(shù)據(jù)是以系統(tǒng)方式研究人類系統(tǒng)的機(jī)會,可以用以回答跨空間、跨時間等長期性問題;另外,大數(shù)據(jù)可以模擬自然或野外實驗,通過數(shù)據(jù)鏈接捕捉實地實驗的效果;最后,大數(shù)據(jù)往往內(nèi)部包含著小數(shù)據(jù),可以使用大數(shù)據(jù)對傳統(tǒng)上難以接觸的人群,或者比較罕見的事件進(jìn)行研究。

        同樣,通過大數(shù)據(jù)分析,還可以進(jìn)一步總結(jié)社會規(guī)律,幫助我們更好地預(yù)測未來。比如,在公共衛(wèi)生方面,Ginsberg等發(fā)現(xiàn),如果某一地區(qū)利用谷歌等搜索引擎搜索“流感癥狀”、“流感治療”等關(guān)鍵詞增多,那么幾周后,相應(yīng)地區(qū)醫(yī)院急診室的流感患者數(shù)量將相應(yīng)增加,這一發(fā)現(xiàn)有助于預(yù)測流感的爆發(fā)并提前部署應(yīng)對措施。在經(jīng)濟(jì)發(fā)展方面,聯(lián)合國利用自然語言處理軟件分析社交網(wǎng)站上的短信,以預(yù)測特定地區(qū)的失業(yè)率、支出削減和疾病爆發(fā)等社會問題,希望利用大數(shù)據(jù)防止地區(qū)再次陷入貧困困境。在社會安全方面,大數(shù)據(jù)分析可以通過預(yù)測“下一次恐怖襲擊”,并可能在犯罪分子發(fā)動襲擊前將其抓獲,從而確保未來的安全。因此,大數(shù)據(jù)預(yù)測分析被用于社會治理目的,以解決越來越多的社會問題。

        除此之外,在社會學(xué)領(lǐng)域,大數(shù)據(jù)對社會學(xué)有著更為特殊的意義。從130篇SSCI社會學(xué)大數(shù)據(jù)文獻(xiàn)來看,大數(shù)據(jù)對社會學(xué)的理論發(fā)展、方法突破和實證研究拓展等方面提供了巨大潛力。

        (一) 激發(fā)更大的“社會學(xué)想象力”

        有學(xué)者認(rèn)為,大數(shù)據(jù)的興起意味著“理論的終結(jié)”,只要有了足夠的數(shù)據(jù)和足夠的測量維度,就可以找到答案,無需提出任何研究問題和研究假設(shè)。Halavais認(rèn)為這種觀點在很多方面都是錯誤的,理論的作用不僅僅是提供一個重要的啟發(fā)式函數(shù)、可供驗證的假設(shè)或可預(yù)測結(jié)果的能力,理論最重要的是解釋社會結(jié)構(gòu)和變化的能力。社會學(xué)的一個核心問題是社會如何塑造了個體行為以及被個體行為所塑造?;蛘哒f,微觀的個體行為是如何整合并且在更大范圍上塑造了社會規(guī)則、期望、價值、欲望以及結(jié)構(gòu)?Mills將這種個人與社會聯(lián)系起來的能力稱之為“社會學(xué)想象力”。大數(shù)據(jù)雖然可以將變量的大規(guī)模映射作為發(fā)現(xiàn)世界的歸納工具,但大數(shù)據(jù)代表了理解世界過程的一部分,大數(shù)據(jù)方法本身不是目的,而是形成解釋理論的過程。從根本上說,社會如何塑造以及被個體行為所塑造這一問題是一個關(guān)于大社會數(shù)據(jù)的問題,是關(guān)于理解大規(guī)模社會結(jié)構(gòu)的動態(tài)演變以及如何與日常生活關(guān)聯(lián)的相關(guān)問題。

        大數(shù)據(jù)要求激發(fā)更大的“社會學(xué)想象力”,思考抽象與具體之間的關(guān)系,將宏大的社會理論融入到日常生活中去。正如Manovich所指出的那樣,大的社會數(shù)據(jù)提供了在微觀層面上對相互作用進(jìn)行實證觀察的可能,這種觀察將得到廣泛而深入的收集。

        (二) 獲得更好的社會測量

        傳統(tǒng)的社會調(diào)查往往需要花費大量的人力、物力、財力來收集研究數(shù)據(jù),這些數(shù)據(jù)的收集周期長,數(shù)據(jù)發(fā)布滯后,很多情況下數(shù)據(jù)的真實性難以保證,有一些地區(qū)囿于現(xiàn)實條件甚至無法開展調(diào)查統(tǒng)計活動,這對社會治理、政策制定、社會研究有很大影響。由于大數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)來源范圍更廣泛、更新更及時,容量更龐大,在構(gòu)建新的社會指標(biāo)或優(yōu)化/替代現(xiàn)有指標(biāo)方面有天然的優(yōu)勢。大量的文獻(xiàn)表明,大數(shù)據(jù)可以很好地近似社會指標(biāo),利用大數(shù)據(jù)有可能對相關(guān)的社會指標(biāo)有更好、更快、更低廉的估計。

        Di Bella等通過審查Scopus數(shù)據(jù)庫中的大數(shù)據(jù)文獻(xiàn)后指出,基于大數(shù)據(jù)的社會測量在發(fā)達(dá)國家和發(fā)展中國家有不同的目標(biāo)。在發(fā)達(dá)國家,大數(shù)據(jù)是創(chuàng)建可靠的社會指標(biāo)代理的高質(zhì)量信息庫。例如,Yazdani和Manovich在美國20個城市使用一年內(nèi)的Twitter圖像預(yù)測社會經(jīng)濟(jì)特征,發(fā)現(xiàn)與自我報告的社會福利、房屋均價、收入和教育水平之間高度相關(guān)性,Marchetti等利用私人車輛的GPS數(shù)據(jù),發(fā)現(xiàn)意大利一個地區(qū)的流動性和貧困程度之間有很好的相關(guān)性;在發(fā)展中國家,大數(shù)據(jù)可能是傳統(tǒng)的調(diào)查統(tǒng)計替代方案,是對某些地區(qū)難以取得監(jiān)測數(shù)據(jù)的一種有力補(bǔ)充。例如,Mao等和Blumenstock等使用手機(jī)通話記錄數(shù)據(jù)很好地預(yù)測出科特迪瓦和盧旺達(dá)無監(jiān)測數(shù)據(jù)地區(qū)的公司收入水平,Elvidge等應(yīng)用DMSP/OLS夜間燈光數(shù)據(jù)繪制世界貧困地圖,并建立了一個可供計算的貧困指數(shù)。Wesolowski等利用手機(jī)通話記錄數(shù)據(jù)建立了瘧疾風(fēng)險地圖,估計瘧疾寄生蟲如何在肯尼亞各地傳播。

        (三) 開展更深入的實證研究

        由于大數(shù)據(jù)包含了傳統(tǒng)意義上難以獲取或統(tǒng)計的數(shù)據(jù)、傳統(tǒng)調(diào)查可能難以觀察到的復(fù)雜變量的相關(guān)性,一方面使得以往很難進(jìn)行的實證研究有了新的研究可能。例如,對于政治社會學(xué)家來說,有關(guān)朝鮮核危機(jī)的研究是非常重要的議題,但鑒于朝鮮嚴(yán)厲的信息封鎖,幾乎很難開展實證研究,Whang等基于大數(shù)據(jù)分析技術(shù),使用1997年至2014年朝鮮中央通訊社(KCNA)的大量文本數(shù)據(jù)發(fā)現(xiàn),就核試驗而言,金正恩政權(quán)與金正日政權(quán)開展核計劃的目的是不同的,就核挑釁而言,“有其父必有其子”的說法也并不正確。同樣,對于文化社會學(xué)家來說,他們的研究總是局限于微觀層面的分析,大數(shù)據(jù)在更大的層次上提供了新的可能。Murthy將17世紀(jì)的數(shù)字化日記和來自谷歌書籍的5100萬本數(shù)字化書籍與當(dāng)代的Twitter數(shù)據(jù)在大尺度下進(jìn)行對比,一項重要的發(fā)現(xiàn)是,精英歷史日記和當(dāng)代社交媒體對日常生活的管理有相似之處,盡管從歷史文本到當(dāng)代推文,內(nèi)容的可訪問性和內(nèi)容量已經(jīng)隨著時間的推移發(fā)生了變化,但幾個世紀(jì)以來,人們對某些與公共情緒相關(guān)的詞匯有著明顯的偏好。

        另一方面,一些經(jīng)典的社會學(xué)理論也將得到進(jìn)一步檢驗。Golder和Macy在《數(shù)字痕跡:在線網(wǎng)絡(luò)研究的機(jī)遇和挑戰(zhàn)》一文中較為詳細(xì)地介紹了一些研究者使用網(wǎng)絡(luò)大數(shù)據(jù)對某些經(jīng)典社會學(xué)理論進(jìn)行檢驗和修正。他們指出,在經(jīng)典理論檢驗方面,Eagle等利用全國6500萬用戶的電話記錄證實了Granovetter的弱關(guān)系理論和Burt的結(jié)構(gòu)洞理論,Leskovec和Horvitz利用2.4億用戶的全球即時通訊網(wǎng)絡(luò)數(shù)據(jù)證實了Milgram針對小世界現(xiàn)象提出的“六度分割”理論。在經(jīng)典理論修正方面,Ugander等通過對全球Facebook網(wǎng)絡(luò)的分析發(fā)現(xiàn),隨著Facebook規(guī)模的擴(kuò)大,用戶之間的“六度分隔”步驟從2008年的5.3個減少到2011年的4.7個,Cha等研究了17億條推文,對Katz和Lazarsfeld提出的兩級傳播理論提出質(zhì)疑,認(rèn)為那些網(wǎng)絡(luò)“意見領(lǐng)袖”對推文的轉(zhuǎn)發(fā)和話題熱度提高并不一定有影響,這讓人們對Twitter上受廣泛關(guān)注的用戶的影響力產(chǎn)生了懷疑。

        六、 結(jié)論與討論

        從130篇SSCI社會學(xué)大數(shù)據(jù)文獻(xiàn)的計量分析來看,社會學(xué)大數(shù)據(jù)研究才剛剛開始起步。盡管相關(guān)的研究文獻(xiàn)逐年增多,但目前實證類的研究文獻(xiàn)偏少。社會學(xué)家們使用比較多的大數(shù)據(jù)類型包括網(wǎng)絡(luò)社交數(shù)據(jù)、行政數(shù)據(jù)、企業(yè)數(shù)據(jù)和谷歌圖書語料庫數(shù)據(jù),利用R、Python和Gephi等編程語言和軟件進(jìn)行大數(shù)據(jù)挖掘、分析和可視化。在統(tǒng)計分析方面,目前的大數(shù)據(jù)研究依然會采用頻數(shù)、百分比、回歸等傳統(tǒng)的統(tǒng)計分析方法進(jìn)行描述統(tǒng)計分析,但在機(jī)器學(xué)習(xí)的推動下,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的自動文本分析法已經(jīng)開始得到運(yùn)用。

        在許多研究者看來,大數(shù)據(jù)為社會學(xué)研究提供了新的資源,注入了新的活力。與傳統(tǒng)的統(tǒng)計調(diào)查相比,大數(shù)據(jù)在數(shù)據(jù)收集方面更方便、成本更低、速度更快,分析結(jié)果更穩(wěn)健。對于社會學(xué)家來說,大數(shù)據(jù)更能激發(fā)更大的“社會學(xué)想象力”、更能協(xié)助獲取有效的社會測量指標(biāo)、更能幫助克服研究中的問題,進(jìn)行更深入的研究分析。

        然而,大數(shù)據(jù)在社會學(xué)中的應(yīng)用仍然面臨一些挑戰(zhàn):比如,大數(shù)據(jù)帶來一種新的數(shù)據(jù)鴻溝,由于大數(shù)據(jù)的產(chǎn)生、收集和分析是割裂的,能獲得大數(shù)據(jù)的人與無法獲得大數(shù)據(jù)的人之間可能產(chǎn)生不平等,能分析大數(shù)據(jù)的人更可能決定如何使用大數(shù)據(jù)以及誰能參與其中。其次,使用大數(shù)據(jù)、對大數(shù)據(jù)進(jìn)行分析都需要專門的專業(yè)知識,社會學(xué)家對傳統(tǒng)社會調(diào)查、統(tǒng)計分析比較擅長,但對數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等數(shù)據(jù)處理方法相對陌生,要很好地掌握這些專業(yè)知識的入門成本相對較高,這在一定程度上限制了大數(shù)據(jù)在社會學(xué)研究中的應(yīng)用。再次,大數(shù)據(jù)引發(fā)了較大的研究倫理爭議,傳統(tǒng)的社會調(diào)查需要得到被調(diào)查者的知情同意才能收集數(shù)據(jù),但大數(shù)據(jù)獲取一般不直接與產(chǎn)生數(shù)據(jù)的個體發(fā)生接觸,而是通過第三方平臺獲取或抓取數(shù)據(jù),數(shù)據(jù)收集過程未獲得許可、數(shù)據(jù)使用目的未被告知,在一定程度上來說,侵犯了用戶隱私。

        因此,在數(shù)字媒介社會活動日益增多、社會生活日益數(shù)字化的今天,如何理解日益數(shù)字化的世界、如何更好地利用大數(shù)據(jù)開展社會研究,對社會學(xué)而言是非常重要的。其一,應(yīng)當(dāng)鼓勵社會學(xué)家與擁有大數(shù)據(jù)資源的企業(yè)、政府、社會組織展開合作,特別是與數(shù)據(jù)科學(xué)家合作,以降低大數(shù)據(jù)獲取、大數(shù)據(jù)分析的難度。其二,開展社會學(xué)大數(shù)據(jù)研究技能培訓(xùn)項目,培養(yǎng)高質(zhì)量復(fù)合型社會學(xué)家,以適應(yīng)大數(shù)據(jù)時代的社會學(xué)研究工作。三是探討解決大數(shù)據(jù)社會學(xué)研究存在的隱私侵犯等道德倫理問題,建立使用大數(shù)據(jù)資源的機(jī)制和渠道。四是繼續(xù)加強(qiáng)對大數(shù)據(jù)基礎(chǔ)理論工作的研究,夯實基于大數(shù)據(jù)的社會學(xué)理論基石。

        Inspire Greater “Sociological Imagination”

        — Based on the Quantitative Analysis of 130 SSCI Literatures on Big Data of Sociology

        TANG Binbin,? FU Shuangle,? LIU Linping

        (School of Social and Behavior Sciences, Nanjing University, Nanjing? 210023, Jiangsu, China)

        Abstract:Based on 130 SSCI sociology big data literatures, this paper analyzes the types of articles, citations, author information, big data types, processing tools, analytical methods and research values. The study found that there are few empirical studies on big data in sociology; the authors are not active; big data types used more include online social data, administrative data, enterprise data, and Google Books corpus data. Traditional statistical analysis methods still account for a certain proportion, but machine learning methods are beginning to be applied. Big data has injected new vitality into sociology research, helping to stimulate greater “sociological imagination”, gaining better social measurement and conducting more in-depth empirical research.

        Key words:sociology; big data; quantitative analysis; frontier progress

        猜你喜歡
        社會學(xué)文獻(xiàn)文本
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        邊疆研究的社會學(xué)理路——兼論邊疆社會學(xué)學(xué)科建構(gòu)之必要性
        第八屆全全科學(xué)社會學(xué)學(xué)術(shù)會議通知
        在808DA上文本顯示的改善
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        孤獨、無奈與彷徨:“空巢青年”與“獨居青年”的社會學(xué)分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲无码一二专区| 国产三级精品三级| 国产精品无码久久久久| 久久综合五月天| 亚洲日本一区二区在线观看| 麻豆精品久久久久久久99蜜桃 | 亚洲av成人噜噜无码网站| 国产微拍精品一区二区| 久久国产精品免费一区六九堂| 青青草在线免费观看视频| 无码人妻丰满熟妇啪啪网不卡| 朝鲜女子内射杂交bbw| 亚洲性69影视| 白白色免费视频一区二区在线| 人妻无码一区二区三区| 最近中文字幕完整版| 国产视频不卡在线| 天堂丝袜美腿在线观看| 亚洲av成人精品日韩在线播放 | 久久精品国产亚洲综合色| 男生自撸视频在线观看| 成人欧美一区二区三区在线| 国产在线无码制服丝袜无码| 91免费国产| 久久综合国产精品一区二区| 国模无码一区二区三区不卡| 国产精品欧美日韩在线一区| 久久色悠悠亚洲综合网| 黄色av一区二区在线观看| 中国凸偷窥xxxx自由视频妇科| av中文字幕少妇人妻| 国产精品自拍盗摄自拍 | 亚洲国产精品成人av在线不卡 | 中国老熟女重囗味hdxx| 91精品国产丝袜在线拍| 羞涩色进入亚洲一区二区av | 日韩亚洲欧美中文在线| 99热成人精品国产免| 国产蜜桃传媒在线观看| 国产产区一二三产区区别在线| 一区二区三区日韩亚洲中文视频|