何匯江
(中原工學(xué)院,河南 鄭州 450007)
隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,人類社會(huì)正進(jìn)入一個(gè)新時(shí)代,即大數(shù)據(jù)時(shí)代。正如哈佛大學(xué)社會(huì)學(xué)教授加里·金所說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”[1]大數(shù)據(jù)是一場革命,而大數(shù)據(jù)之所以是一場社會(huì)革命,是因?yàn)樗褂昧诵碌墓ぞ邅硎占訌V泛的資料,而新工具在本質(zhì)上是一種數(shù)據(jù)收集方法和分析方法。
社會(huì)研究方法是借助于收集到的資料對(duì)社會(huì)現(xiàn)象進(jìn)行研究的一種方法,由于大數(shù)據(jù)對(duì)資料收集以及分析方法的影響,大數(shù)據(jù)也必然會(huì)對(duì)社會(huì)研究方法產(chǎn)生影響。社會(huì)研究方法雖然有定性研究與定量研究兩種取向,但是一直以來基于實(shí)證主義方法論的定量研究始終占據(jù)主導(dǎo)地位,社會(huì)研究方法更加強(qiáng)調(diào)定量研究。在定量社會(huì)研究方法中,涉及定量資料的收集和分析,因而大數(shù)據(jù)在社會(huì)研究方法中的應(yīng)用也主要體現(xiàn)在數(shù)據(jù)資料的收集和分析環(huán)節(jié)。
大數(shù)據(jù)時(shí)代已經(jīng)來臨,相關(guān)文獻(xiàn)對(duì)于大數(shù)據(jù)背景下定量社會(huì)研究方法創(chuàng)新的研究可以從以下兩個(gè)層面來概括。其一,認(rèn)為大數(shù)據(jù)會(huì)從根本上改變傳統(tǒng)社會(huì)研究方法的范式,導(dǎo)致社會(huì)研究范式從傳統(tǒng)定量社會(huì)研究的“理論假設(shè)驅(qū)動(dòng)”模式走向大數(shù)據(jù)的“數(shù)據(jù)驅(qū)動(dòng)”模式,進(jìn)入到以數(shù)據(jù)挖掘?yàn)楹诵姆椒ǖ难芯糠妒剑?],大數(shù)據(jù)背景下社會(huì)科學(xué)研究數(shù)據(jù)驅(qū)動(dòng)型學(xué)術(shù)研究將成為社會(huì)科學(xué)研究的主流[3],大數(shù)據(jù)計(jì)算取代社會(huì)模擬成為計(jì)算社會(huì)科學(xué)的核心議題[4]。大數(shù)據(jù)對(duì)傳統(tǒng)社會(huì)研究方法的沖擊是根本性的,定量社會(huì)研究方法的范式需要重構(gòu)與再造。其二,認(rèn)為大數(shù)據(jù)只是改變了數(shù)據(jù)資料收集和分析的方法,大數(shù)據(jù)是社會(huì)科學(xué)研究的新工具[5],大數(shù)據(jù)并不能從根本上改變傳統(tǒng)社會(huì)研究方法的范式,大數(shù)據(jù)背景下定量社會(huì)研究方法的創(chuàng)新也是整個(gè)研究過程中的階段性創(chuàng)新。具體表現(xiàn)在兩個(gè)方面:一方面是大數(shù)據(jù)對(duì)抽樣方法進(jìn)而對(duì)獲得樣本的影響上。大數(shù)據(jù)背景下抽樣調(diào)查面臨嚴(yán)峻挑戰(zhàn)[6],但大數(shù)據(jù)無法完全替代抽樣調(diào)查[7]。另一個(gè)方面是分析大數(shù)據(jù)在社會(huì)研究方法數(shù)據(jù)收集和分析階段應(yīng)用中的優(yōu)勢和局限性。大數(shù)據(jù)特征與社會(huì)科學(xué)研究密切相關(guān)[8],大數(shù)據(jù)有可“計(jì)算”的邊界,因而大數(shù)據(jù)計(jì)算所得出的結(jié)論并不一定是絕對(duì)客觀的真理,可能還需要通過傳統(tǒng)社會(huì)研究方法加以補(bǔ)充和驗(yàn)證[9],因此大數(shù)據(jù)需要與傳統(tǒng)社會(huì)研究方法的小數(shù)據(jù)方法相結(jié)合[10]。
綜合以上相關(guān)研究成果,可以認(rèn)為,由于存在“大數(shù)據(jù)可獲得性”障礙以及大數(shù)據(jù)統(tǒng)計(jì)分析“技術(shù)的易用性”缺乏,目前階段大數(shù)據(jù)并不能從根本上改變傳統(tǒng)定量社會(huì)研究方法的范式,而只是對(duì)數(shù)據(jù)資料的收集方法和分析方法進(jìn)行創(chuàng)新。針對(duì)以往研究較為缺乏有針對(duì)性的大數(shù)據(jù)背景下定量社會(huì)研究方法創(chuàng)新的系統(tǒng)論述,本文立足傳統(tǒng)社會(huì)研究方法的范式進(jìn)行相應(yīng)的補(bǔ)充與完善。
最早提出“大數(shù)據(jù)”概念的管理咨詢公司麥肯錫認(rèn)為:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”[11]大數(shù)據(jù)是指數(shù)據(jù)量非常大,大數(shù)據(jù)就是海量的數(shù)據(jù)。2012年以后,大數(shù)據(jù)越來越多地滲透到人們的工作和生活中,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),以及與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。
大數(shù)據(jù)不僅是相對(duì)于小數(shù)據(jù)而言的,而且是具有特定含義的新概念。大數(shù)據(jù)最重要的特征無疑體現(xiàn)在“大”上,大數(shù)據(jù)具有的顯著特征是它的規(guī)模性。從數(shù)據(jù)的量上來看,可以說它是巨量的、海量的數(shù)據(jù),是傳統(tǒng)手段無法獲得的巨大的數(shù)據(jù)。隨著互聯(lián)網(wǎng)和存儲(chǔ)技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模從BT擴(kuò)大到ZB,數(shù)據(jù)的存量和增量越來越大,與此同時(shí)對(duì)數(shù)據(jù)的處理能力也不斷提高。互聯(lián)網(wǎng)時(shí)代,個(gè)人用戶不僅通過網(wǎng)絡(luò)獲取信息,而且個(gè)人用戶還是信息的制造者與傳播者。眾多的用戶通過網(wǎng)絡(luò)聯(lián)結(jié)成為一個(gè)整體,不僅使得數(shù)據(jù)總量呈現(xiàn)爆炸式增長,而且使得數(shù)據(jù)種類變得異常多樣。大數(shù)據(jù)除了包含簡單的文本信息,還包含了傳感器數(shù)據(jù)、音頻、視頻、日志文件、點(diǎn)擊流量等其他類別的信息,這都體現(xiàn)了大數(shù)據(jù)“大”的特征。大數(shù)據(jù)是對(duì)全世界每一個(gè)人每時(shí)每刻所做的每一件事的即時(shí)記錄。如果全世界每一個(gè)人的生命全過程和每天24小時(shí)的所作所為都被以圖像、文字、視頻或者音頻的方式記錄下來并且匯總到計(jì)算機(jī)上,那么現(xiàn)有的數(shù)量詞就已經(jīng)無法描述其量之大,就需要?jiǎng)?chuàng)造新的量詞來表示了,這個(gè)新的量詞就是所謂的“大數(shù)據(jù)”。
社會(huì)研究方法是一門方法類學(xué)科,在定量社會(huì)研究過程中,包括數(shù)據(jù)資料的收集、整理、分析等不同環(huán)節(jié),這與大數(shù)據(jù)都密切相關(guān)。另外,異常龐大的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)形式也給大數(shù)據(jù)的整理和分析帶來了困難,給統(tǒng)計(jì)分析提出了新的要求。
其一,社會(huì)環(huán)境的大背景發(fā)生了變化。大數(shù)據(jù)的發(fā)展以及它們對(duì)人們生活的不斷滲透,使得大數(shù)據(jù)的挖掘和統(tǒng)計(jì)分析成為可能。大數(shù)據(jù)對(duì)原有的以抽樣、問卷以及統(tǒng)計(jì)分析為基礎(chǔ)的定量社會(huì)研究方法產(chǎn)生了影響,并且在社會(huì)研究的領(lǐng)域中,特別是在公共政策以及公共管理領(lǐng)域中,一些社會(huì)研究者正越來越多地利用互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)來研究選舉、民意等社會(huì)問題,這樣的社會(huì)背景是促使社會(huì)研究方法創(chuàng)新的環(huán)境條件。
其二,傳統(tǒng)的社會(huì)研究方法體系需要大數(shù)據(jù)方法加以補(bǔ)充和完善。傳統(tǒng)的社會(huì)研究方法是基于大數(shù)據(jù)時(shí)代之前的社會(huì)研究方法的理論和實(shí)踐建立起來的,進(jìn)入大數(shù)據(jù)時(shí)代以后的很多新方法沒有引入到社會(huì)研究方法中來,使得社會(huì)研究方法體系較為陳舊,因此需要對(duì)社會(huì)研究方法加以改進(jìn)。大數(shù)據(jù)對(duì)定量社會(huì)研究方法提出了新的要求,社會(huì)研究方法要對(duì)新的要求加以回應(yīng)。
傳統(tǒng)社會(huì)研究方法以資料收集為基礎(chǔ),運(yùn)用問卷調(diào)查以及個(gè)案訪談等形式收集資料,這是基于研究目的對(duì)研究對(duì)象資料的收集,是根據(jù)研究需要“制造”數(shù)據(jù),其與數(shù)據(jù)的關(guān)系體現(xiàn)了研究者的主動(dòng)性,獲得的是小數(shù)據(jù)資料。
大數(shù)據(jù)本身就是一種數(shù)據(jù)資料,是一種不再需要研究者收集的現(xiàn)存資料,因此研究者需要做的工作不再是收集新的資料,而是要對(duì)已有的大數(shù)據(jù)資料進(jìn)行選擇、清理和分析。大數(shù)據(jù)是先有資料,但是這些資料并不是根據(jù)研究目的而收集的,因此有很多無用的資料,這就需要進(jìn)一步選擇,選取有用的資料。同時(shí)由于大數(shù)據(jù)資料并不是依據(jù)某個(gè)研究目的而收集的資料,因此大數(shù)據(jù)資料也面臨效度問題,即大數(shù)據(jù)資料能否準(zhǔn)確地描述研究的概念與變量的問題。依靠大數(shù)據(jù)進(jìn)行研究只能被動(dòng)地分析這些已經(jīng)收集到的資料、客觀發(fā)生了的行為信息,社會(huì)研究只能是對(duì)數(shù)據(jù)資料的適應(yīng),類似于二次分析的研究過程??梢哉J(rèn)為,大數(shù)據(jù)進(jìn)一步豐富了定量社會(huì)研究中資料收集的方法。
傳統(tǒng)社會(huì)研究方法通過樣本實(shí)現(xiàn)對(duì)總體的認(rèn)識(shí)。抽樣作為人們從部分認(rèn)識(shí)總體的關(guān)鍵環(huán)節(jié),其基本作用是提供一種實(shí)現(xiàn)“由部分認(rèn)識(shí)總體”的途徑。傳統(tǒng)社會(huì)研究方法中,尤其調(diào)查研究的方法存在一些自身無法克服的困境,比如抽樣過程中隨機(jī)性無法得到充分保證、資料源于自我報(bào)告的方式等問題,不僅導(dǎo)致獲得的樣本不能完全充分地代表總體,而且由于調(diào)查對(duì)象“說的”和“做的”可能不一致導(dǎo)致資料的真實(shí)性存在疑問,都會(huì)使得社會(huì)研究的信度降低。
大數(shù)據(jù)正好可以彌補(bǔ)傳統(tǒng)社會(huì)研究方法的這些不足。大數(shù)據(jù)一個(gè)方面的優(yōu)勢就是不必?fù)?dān)心數(shù)據(jù)資料的代表性問題。大數(shù)據(jù)是有關(guān)研究總體的資料而不是樣本的資料,不會(huì)因?yàn)闃颖镜拇硇詥栴}而產(chǎn)生抽樣誤差。通過大數(shù)據(jù)得出的結(jié)論直接是關(guān)于研究總體的結(jié)論,不需要再進(jìn)行統(tǒng)計(jì)推論,因此,大數(shù)據(jù)資料具有更高的可信度。而另一個(gè)方面,大數(shù)據(jù)記錄的是研究對(duì)象已經(jīng)發(fā)生了的實(shí)際行為,不存在由于調(diào)查對(duì)象“說的”和“做的”不一致導(dǎo)致的資料不真實(shí)問題,可以確保資料的真實(shí)可靠。大數(shù)據(jù)超越“樣本—總體”的認(rèn)識(shí)途徑直接認(rèn)識(shí)“總體”的優(yōu)勢在于消除了抽樣誤差,提高了研究的精確性。
傳統(tǒng)社會(huì)研究方法在研究題材上有主觀的觀念和客觀的行為,主客觀兩個(gè)方面雖然包含的范圍廣,但是能夠作為研究的內(nèi)容有限,研究題材的收集不僅受到個(gè)人隱私的屏蔽,還會(huì)受到社會(huì)倫理道德的限制,有些資料難以獲得。相比傳統(tǒng)的社會(huì)研究方法,大數(shù)據(jù)可以比較完整地記錄個(gè)人的網(wǎng)上行為。大數(shù)據(jù)是對(duì)個(gè)體生命的全記錄,包括了個(gè)人工作、生活的方方面面,只要運(yùn)用了互聯(lián)網(wǎng)就會(huì)留下痕跡記錄,個(gè)人每天的生命全過程都會(huì)被記錄下來,形成個(gè)人“全生命”大數(shù)據(jù)資料。
大數(shù)據(jù)的優(yōu)勢不僅在于記錄個(gè)人行為,而且還可以描述個(gè)人主觀的觀念。大數(shù)據(jù)通過全面記錄個(gè)人的行為痕跡,比如生理活動(dòng)及其變化等,來感知個(gè)人的心理,并可以進(jìn)一步推測個(gè)人的主觀觀念。大數(shù)據(jù)對(duì)個(gè)人行為的記錄不僅可以用來描述現(xiàn)狀,而且還可以用來預(yù)測未來。傳統(tǒng)社會(huì)研究方法對(duì)未來的預(yù)測是基于主觀“觀念”,而大數(shù)據(jù)對(duì)未來的預(yù)測則是基于以往的客觀“行為”。與個(gè)人的主觀觀念相比,基于個(gè)人客觀行為習(xí)慣的預(yù)測更加準(zhǔn)確。
傳統(tǒng)社會(huì)研究方法在定量分析的過程中,先收集資料,然后再分析資料,資料的收集和分析可以分為先后不同的兩個(gè)階段。而大數(shù)據(jù)既可以作為一種資料收集的方法,又可以作為一種資料分析的方法,大數(shù)據(jù)可以將數(shù)據(jù)資料的收集和分析過程整合起來,形成一個(gè)綜合性的環(huán)節(jié),實(shí)現(xiàn)“大數(shù)據(jù)方法”的融合。大數(shù)據(jù)是已經(jīng)記錄并可以隨時(shí)調(diào)用的資料,并且可以根據(jù)需要自動(dòng)生成統(tǒng)計(jì)結(jié)果。大數(shù)據(jù)不再需要進(jìn)行收集,只要進(jìn)行數(shù)據(jù)的篩選、整理就可以進(jìn)行分析了。大數(shù)據(jù)資料的分析不用再借助于專門的統(tǒng)計(jì)分析軟件,而是直接通過大數(shù)據(jù)平臺(tái)就可以得出大數(shù)據(jù)分析的結(jié)果。而借助于大數(shù)據(jù)平臺(tái)提供直接的結(jié)果,這也同時(shí)整合了數(shù)據(jù)收集和數(shù)據(jù)分析兩個(gè)階段。
大數(shù)據(jù)收集的是總體的資料,但是收集到資料的總體不一定是研究總體。因?yàn)榇髷?shù)據(jù)資料的收集借助于網(wǎng)絡(luò),因而資料總體往往是全體網(wǎng)民,這就與研究總體存在偏差。其一,網(wǎng)民并不能代表全部人口,因?yàn)椴⒎撬械娜硕忌暇W(wǎng),大數(shù)據(jù)收集資料的總體就沒有包括不在互聯(lián)網(wǎng)上留下痕跡的部分人口,主要是老人和孩子,也包括一些不上網(wǎng)的部分成年人。其二,即使大數(shù)據(jù)收集資料的總體包括了全部的研究對(duì)象,但是由于這個(gè)總體與研究總體并不完全重合,它還包括了研究總體以外的一些人口,因此大數(shù)據(jù)資料收集的總體也不是研究總體,這一總體的代表性就存在偏差。
雖然大數(shù)據(jù)已經(jīng)滲透到了生活的方方面面,有關(guān)大數(shù)據(jù)研究的結(jié)果也并不少見,但是作為一個(gè)研究者要對(duì)原始的大數(shù)據(jù)資料進(jìn)行研究并不容易,因?yàn)榇髷?shù)據(jù)資料并不是很容易獲得的,當(dāng)前“大數(shù)據(jù)可獲得性”缺失阻礙了大數(shù)據(jù)在社會(huì)研究中的應(yīng)用,研究者往往缺乏獲得大數(shù)據(jù)的途徑。
通常認(rèn)為,大數(shù)據(jù)是公開的、透明的,有些情況下也確實(shí)如此,例如一些政府網(wǎng)站為了提高信息透明度而公布的數(shù)據(jù),然而在很多其他方面,大數(shù)據(jù)資料并不是公開的,也不容易獲得。因?yàn)榇髷?shù)據(jù)不僅涉及個(gè)人隱私問題,而且還涉及倫理道德問題,研究者甚至根本無法得到這些涉及商業(yè)或政府行為的數(shù)據(jù),即便是某個(gè)研究者通過個(gè)人渠道獲取了此類大數(shù)據(jù),也只能用于個(gè)人研究,不能公開,更無法共享。而無法共享的大數(shù)據(jù)不能被驗(yàn)證,就不具有研究的可行性。而且,研究者如果只能依靠政府公布的大數(shù)據(jù)來尋找研究題目,則無法根據(jù)自己的研究興趣和特長選擇研究課題,這對(duì)于把大數(shù)據(jù)作為一種數(shù)據(jù)資料的社會(huì)研究來說,就限制了社會(huì)研究題目的范圍。
大數(shù)據(jù)的數(shù)量雖然巨大,但是有價(jià)值的、可以被研究者利用的數(shù)據(jù)可能并不多,與傳統(tǒng)社會(huì)研究方法通過抽樣獲取的數(shù)據(jù)相比,大數(shù)據(jù)的價(jià)值就顯得相對(duì)較低了。要把大數(shù)據(jù)應(yīng)用到社會(huì)研究方法中,必須要對(duì)大數(shù)據(jù)進(jìn)行選擇、整理,這就增大了大數(shù)據(jù)利用的難度。因此從這個(gè)意義上說,大數(shù)據(jù)資料使得數(shù)據(jù)的選擇和整理工作變得更加復(fù)雜。而且大數(shù)據(jù)的非結(jié)構(gòu)化特征使其在社會(huì)研究中的應(yīng)用較為困難。大數(shù)據(jù)中的絕大部分都屬于非結(jié)構(gòu)化數(shù)據(jù),其中最重要的是文本數(shù)據(jù),對(duì)其處理必須借助人工智能技術(shù),而不能使用傳統(tǒng)的統(tǒng)計(jì)分析軟件。另外,商業(yè)領(lǐng)域的“水軍”“刷單”等現(xiàn)象,會(huì)導(dǎo)致大數(shù)據(jù)中虛假數(shù)據(jù)的產(chǎn)生,影響大數(shù)據(jù)分析的結(jié)果。
大數(shù)據(jù)不是一種新的社會(huì)研究方法,因此無法取代傳統(tǒng)的社會(huì)研究方法。如果把大數(shù)據(jù)看作是一種新的數(shù)據(jù)資料收集和分析方法,則大數(shù)據(jù)背景下定量社會(huì)研究方法的創(chuàng)新就是數(shù)據(jù)資料收集方法和分析方法的創(chuàng)新。大數(shù)據(jù)可以起到對(duì)定量社會(huì)研究方法補(bǔ)充和完善的作用。
大數(shù)據(jù)與定量社會(huì)研究方法之間相互促進(jìn)。大數(shù)據(jù)的發(fā)展不僅不能取代傳統(tǒng)的定量社會(huì)研究方法,而且大數(shù)據(jù)需要借助于傳統(tǒng)的社會(huì)研究方法才可能有進(jìn)一步的發(fā)展。大數(shù)據(jù)可以描述個(gè)人行為及其發(fā)展變化,卻無法解釋行為發(fā)生的原因,這些內(nèi)容的研究中必須借助調(diào)查研究和實(shí)驗(yàn)研究等手段,也就是傳統(tǒng)社會(huì)研究方法,而調(diào)查研究和實(shí)驗(yàn)研究則可以借助于大數(shù)據(jù)所發(fā)現(xiàn)的關(guān)鍵詞、不同變量之間的聯(lián)系等更有針對(duì)性地設(shè)計(jì)問卷和實(shí)驗(yàn)條件,對(duì)大數(shù)據(jù)資料進(jìn)行更加深入的研究。
大數(shù)據(jù)數(shù)量之大超出一般統(tǒng)計(jì)軟件所能處理的范圍,而且解釋變量的增加會(huì)導(dǎo)致高維數(shù)據(jù)中的“維數(shù)災(zāi)難”,這些問題不是一般統(tǒng)計(jì)軟件能夠處理的。[12]傳統(tǒng)的統(tǒng)計(jì)分析軟件無法對(duì)其進(jìn)行統(tǒng)計(jì)分析,因此需要進(jìn)一步發(fā)展大數(shù)據(jù)的統(tǒng)計(jì)分析方法。大數(shù)據(jù)統(tǒng)計(jì)分析方法包括統(tǒng)計(jì)分析的技術(shù)和運(yùn)用這些技術(shù)的統(tǒng)計(jì)分析軟件。雖然對(duì)于大數(shù)據(jù)的統(tǒng)計(jì)分析可以運(yùn)用小數(shù)據(jù)的統(tǒng)計(jì)分析技術(shù),但是不能運(yùn)用小數(shù)據(jù)的統(tǒng)計(jì)分析軟件對(duì)大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
大數(shù)據(jù)的意義不僅在于龐大的數(shù)據(jù)信息,還在于對(duì)于這些含有一定意義的數(shù)據(jù)進(jìn)行專業(yè)化的分析處理。如果把大數(shù)據(jù)看作是一個(gè)產(chǎn)業(yè)的話,那么大數(shù)據(jù)利用的關(guān)鍵在于提高對(duì)數(shù)據(jù)進(jìn)行“加工處理能力”,從而實(shí)現(xiàn)數(shù)據(jù)價(jià)值的“增值”,對(duì)大數(shù)據(jù)進(jìn)行社會(huì)研究也是實(shí)現(xiàn)大數(shù)據(jù)增值的一個(gè)途徑。大數(shù)據(jù)需要特殊的處理技術(shù),大數(shù)據(jù)與云計(jì)算密不可分,大數(shù)據(jù)無法運(yùn)用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須依賴云計(jì)算的分布式數(shù)據(jù)挖掘。大數(shù)據(jù)統(tǒng)計(jì)分析要在數(shù)據(jù)挖掘、數(shù)據(jù)選擇以及數(shù)據(jù)清理的基礎(chǔ)上實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析。盡管目前已經(jīng)有了一些專門針對(duì)大數(shù)據(jù)的統(tǒng)計(jì)分析軟件,比如,Node XL,Gephi,DMI Issue Crawler等,但是這些數(shù)據(jù)分析軟件主要用在商業(yè)領(lǐng)域,基于學(xué)術(shù)研究的數(shù)據(jù)分析工具還仍處于發(fā)展的初期階段。[13但是隨著大數(shù)據(jù)在社會(huì)研究中的應(yīng)用越來越廣泛,開發(fā)大數(shù)據(jù)統(tǒng)計(jì)分析軟件也成為當(dāng)務(wù)之急,這有助于促進(jìn)大數(shù)據(jù)統(tǒng)計(jì)分析方法的發(fā)展。
大數(shù)據(jù)背景下,一方面政府以及互聯(lián)網(wǎng)企業(yè)有著巨量的數(shù)據(jù)資料,另一方面社會(huì)研究者又無法獲得這些巨量的數(shù)據(jù)資料進(jìn)行相關(guān)的研究。研究者缺乏研究的大數(shù)據(jù)資料,同時(shí)大數(shù)據(jù)資料沒有成為研究資源而造成了大量的浪費(fèi)。因此基于這種狀況,有必要建立大數(shù)據(jù)運(yùn)用、研究的協(xié)調(diào)機(jī)制,把大數(shù)據(jù)擁有者和使用者聯(lián)系起來,同時(shí)為兩者服務(wù)。
建立大數(shù)據(jù)運(yùn)用的協(xié)調(diào)機(jī)制,就需要為社會(huì)研究大數(shù)據(jù)資料的獲得提供一條可行的途徑。通過設(shè)立相關(guān)的協(xié)調(diào)機(jī)構(gòu),在社會(huì)研究者需要相關(guān)大數(shù)據(jù)時(shí),可以提供聯(lián)系的途徑,為大數(shù)據(jù)的獲得提供幫助。一方面,社會(huì)研究也是大數(shù)據(jù)利用的一種方式,可以實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值增值,這對(duì)于大數(shù)據(jù)的擁有者來說也是有利的;另一方面,在開放、利用大數(shù)據(jù)資料的同時(shí),要規(guī)范大數(shù)據(jù)使用的程序和方法,避免大數(shù)據(jù)運(yùn)用導(dǎo)致泄露個(gè)人隱私問題,以及違背社會(huì)研究的倫理道德問題。大數(shù)據(jù)不能得到有效運(yùn)用是一種資源的浪費(fèi),但是過度使用、不加規(guī)則的任意使用又會(huì)帶來負(fù)面影響,所以必須提前做好防范。在建立大數(shù)據(jù)運(yùn)用、研究的協(xié)調(diào)機(jī)制的同時(shí),要對(duì)大數(shù)據(jù)的運(yùn)用進(jìn)行約束,為更好地運(yùn)用大數(shù)據(jù)提供保障。