張琳
(河北省科技工程學(xué)校,河北 保定 071000)
(一)定義
維基百科對大數(shù)據(jù)給出的定義是:“大數(shù)據(jù)(Big Data 或MegaData)或巨量數(shù)據(jù)、海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模大到無法通過人工在合理時間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息?!边@是從數(shù)量的級別 (PB或 ZB)來定義大數(shù)據(jù)的,主要講的是數(shù)據(jù)量巨大使得用常規(guī)的數(shù)據(jù)分析技術(shù)無法挖掘和處理。
(二)類型
傳統(tǒng)數(shù)據(jù)的類型以結(jié)構(gòu)化為主,這是基于明確的研究目標(biāo)而設(shè)置的標(biāo)準(zhǔn)化的數(shù)據(jù)收集規(guī)范。與此相對應(yīng),大數(shù)據(jù)的類型除了少量的結(jié)構(gòu)化數(shù)據(jù)之外,大量以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,類型多樣的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求。
(三)來源
傳統(tǒng)數(shù)據(jù)多數(shù)來源于抽樣調(diào)查或統(tǒng)計調(diào)查。而抽樣調(diào)查一般按照隨機原則,設(shè)計嚴(yán)格的抽樣程序來獲取樣本數(shù)據(jù)。國內(nèi)外學(xué)術(shù)界有影響的問卷調(diào)查數(shù)據(jù)多數(shù)采用多階段、多層次與人口或勞動力規(guī)模成比例的概率抽樣方法 (PPS)以確定最終的抽樣單位,通常采用面訪的方式獲得樣本數(shù)據(jù);而大數(shù)據(jù)是基于現(xiàn)代科技手段,采取實時監(jiān)控、測量、存儲的方式及時獲得數(shù)據(jù)。例如,基于互聯(lián)網(wǎng)和現(xiàn)代智能技術(shù)所獲得的交通流量、醫(yī)療衛(wèi)生健康、氣象水文、環(huán)境變化、社交娛樂互動、商業(yè)物流等方面的記錄,尤其是近年來基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為產(chǎn)生的數(shù)據(jù),成為大數(shù)據(jù)的主要代表。
(四)時效性
傳統(tǒng)數(shù)據(jù)的收集和清理的時間較長、處理速度較慢、時效性不強。多數(shù)傳統(tǒng)數(shù)據(jù)是靜態(tài)的截面數(shù)據(jù),即使追蹤調(diào)查數(shù)據(jù) (Panel Data)也至多是兩三年以后對同一期群的事后回溯性訪問;大數(shù)據(jù)的處理速度快,時效性高。大數(shù)據(jù)可以及時更新、及時變化、及時追蹤。這是大數(shù)據(jù)挖掘區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的一個特征。
在企業(yè)、政府和社會各界紛紛為大數(shù)據(jù)時代的到來而歡欣鼓舞之際,我們還更需要進(jìn)行更為深入的理性思考。我們認(rèn)為,在社會學(xué)方法論和研究方法上如何突破,仍然是亟待社會學(xué)家解決的首要問題。大數(shù)據(jù)挖掘技術(shù)和分析方法給社會學(xué)學(xué)科發(fā)展帶來難得的歷史機遇的同時,也給社會學(xué)研究帶來了嚴(yán)峻的挑戰(zhàn)。
(一)樣本偏差問題與傳統(tǒng)的社會學(xué)定量分析相比,大數(shù)據(jù)的樣本從數(shù)量上更接近于總體,但是這個總體是有偏差的、有局限性的。中國有 7.72億網(wǎng)民,而中國總?cè)丝?13.9億,那么通過互聯(lián)網(wǎng)抓取個人信息的方式來獲得的大數(shù)據(jù)依然無法涵蓋6.18億非網(wǎng)民。在實際的研究中,研究者往往僅依靠一個或幾個門戶網(wǎng)站的后臺數(shù)據(jù)作為分析資料,那么這種大數(shù)據(jù)僅是使用該網(wǎng)站用戶的數(shù)據(jù),不能將分析結(jié)果推論到其他網(wǎng)民,更不能推論到全體國民。因此,社會學(xué)研究者應(yīng)該明白,大數(shù)據(jù)中的總體是有局限、有偏差的總體,其他難以通過大數(shù)據(jù)方法抓取的個體并未作為研究對象包含在總體中。因此,對于研究結(jié)論的推論也只能在有限總體的范圍內(nèi)才可能是有效的或可靠的;此外,互聯(lián)網(wǎng)網(wǎng)民的個人活躍度存在很大差異,其活動或痕跡被抓取的概率也不同,因此互聯(lián)網(wǎng)大數(shù)據(jù)的形成既不是抽樣,也遠(yuǎn)非隨機,而是具有極大的偶然性
(二)重要變量的缺失問題雖然一些網(wǎng)站的后臺數(shù)據(jù)也能提供網(wǎng)民的性別、年齡、職業(yè)、收入、家庭結(jié)構(gòu)、居住地、出生地等社會人口信息,但是這些自我填報沒有經(jīng)過實名認(rèn)證的信息存在著很大的水分甚至虛假成分?;ヂ?lián)網(wǎng)區(qū)別于現(xiàn)實世界的一個重要特征是其虛擬性。網(wǎng)絡(luò)世界網(wǎng)民身份具有不可靠性。作為社會學(xué)定量分析最關(guān)鍵的這些分類信息如果缺失或虛假的話,以此數(shù)據(jù)分析所得結(jié)論的可靠性就會大打折扣。
(三)相關(guān)關(guān)系解釋性不強的問題依據(jù)相關(guān)關(guān)系而非因果關(guān)系分析所獲得的結(jié)論在解釋性研究中的效度不強。如前所述,多數(shù)大數(shù)據(jù)的統(tǒng)計分析僅僅止步于相關(guān)關(guān)系。但是,社會學(xué)家很清楚,相關(guān)關(guān)系不一定是因果關(guān)系。熟悉統(tǒng)計學(xué)的學(xué)者都知道,當(dāng)數(shù)據(jù)的樣本量達(dá)到一定程度以后 (更不用說大數(shù)據(jù)這樣的海量樣本),任何兩個根本不相關(guān)的變量之間都可能存在很顯著的相關(guān)性 (很可能是虛假相關(guān)),諸如美國沃爾瑪超市數(shù)據(jù)所揭示的季節(jié)性風(fēng)暴到來時蛋撻與颶風(fēng)用品銷售量的之間統(tǒng)計相關(guān)關(guān)系、西班牙大選投票數(shù)據(jù)所發(fā)現(xiàn)的天氣狀況不佳與保守黨得票率之間統(tǒng)計相關(guān)關(guān)系的虛假性。由于缺乏更多的控制變量可以應(yīng)用,大數(shù)據(jù)的社會學(xué)統(tǒng)計分析目前基本上還沒有運用中高級統(tǒng)計模型的因果分析的成果。實際上,除了相關(guān)關(guān)系分析之外,多元回歸模型、中介模型、多層次對數(shù)模型、曲線模型等因果模型,在解釋性研究中發(fā)揮著關(guān)鍵的作用。如何運用因果模型進(jìn)行大數(shù)據(jù)的社會分析還需要進(jìn)一步的研究。
(四)各種大數(shù)據(jù)的整合還是一個難題雖然公共數(shù)據(jù)的開放與共享正在成為一種趨勢,互聯(lián)網(wǎng)門戶網(wǎng)站和互聯(lián)網(wǎng)公司所開放的數(shù)據(jù)還相當(dāng)粗放和有限,多數(shù)開放數(shù)據(jù)是研究者利用爬蟲技術(shù)從網(wǎng)站上抓取的未經(jīng)加工、篩選的原始數(shù)據(jù),政府職能部門、公立機構(gòu) (如銀行和金融機構(gòu)、通訊公司、醫(yī)療衛(wèi)生機構(gòu))和非公立部門(如私營互聯(lián)網(wǎng)公司和大數(shù)據(jù)公司)、社會組織等掌握的數(shù)據(jù)的開放程度也非常低。在我國政府將大數(shù)據(jù)產(chǎn)業(yè)作為一種基礎(chǔ)性戰(zhàn)略資源重點支持的宏觀背景下,如果各部門都將自己擁有的壟斷性大數(shù)據(jù)作為“私有資源”的話,那么勢必會形成“數(shù)據(jù)孤島”現(xiàn)象。不僅會造成現(xiàn)有數(shù)據(jù)資源的浪費,而且還會造成同類數(shù)據(jù)挖掘和分析的重復(fù)投入。國內(nèi)外關(guān)于大數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用目前主要集中于資料的收集和儲存方面,對于用什么方法分析這些海量數(shù)據(jù),用什么理論解釋互聯(lián)網(wǎng)世界的社會秩序、社會規(guī)范、社會角色、社會結(jié)構(gòu)、社會互動、社會分層與社會不平等這些社會學(xué)的經(jīng)典問題,目前國內(nèi)外還都處在同一起跑線上。因此,通過我國社會學(xué)家與其他社會科學(xué)家、自然科學(xué)工作者特別是計算機專家、統(tǒng)計學(xué)專家的協(xié)同創(chuàng)新和聯(lián)合攻關(guān),有望提出具有獨創(chuàng)性和原創(chuàng)性的分析方法、研究范式、理論體系和國際標(biāo)準(zhǔn),在全球范圍內(nèi)領(lǐng)跑。