亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺議大數(shù)據(jù)時代的社會學(xué)研究

2019-12-18 02:59:17張琳

魅力中國 2019年42期

關(guān)鍵詞：數(shù)據(jù)挖掘研究

張琳

（河北省科技工程學(xué)校，河北保定 071000）

一、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別

（一）定義

維基百科對大數(shù)據(jù)給出的定義是：“大數(shù)據(jù)（Big Data 或MegaData）或巨量數(shù)據(jù)、海量數(shù)據(jù)，指的是所涉及的數(shù)據(jù)量規(guī)模大到無法通過人工在合理時間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息?！边@是從數(shù)量的級別（PB或 ZB）來定義大數(shù)據(jù)的，主要講的是數(shù)據(jù)量巨大使得用常規(guī)的數(shù)據(jù)分析技術(shù)無法挖掘和處理。

（二）類型

傳統(tǒng)數(shù)據(jù)的類型以結(jié)構(gòu)化為主，這是基于明確的研究目標(biāo)而設(shè)置的標(biāo)準(zhǔn)化的數(shù)據(jù)收集規(guī)范。與此相對應(yīng)，大數(shù)據(jù)的類型除了少量的結(jié)構(gòu)化數(shù)據(jù)之外，大量以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在，包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等，類型多樣的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求。

（三）來源

傳統(tǒng)數(shù)據(jù)多數(shù)來源于抽樣調(diào)查或統(tǒng)計調(diào)查。而抽樣調(diào)查一般按照隨機原則，設(shè)計嚴(yán)格的抽樣程序來獲取樣本數(shù)據(jù)。國內(nèi)外學(xué)術(shù)界有影響的問卷調(diào)查數(shù)據(jù)多數(shù)采用多階段、多層次與人口或勞動力規(guī)模成比例的概率抽樣方法（PPS）以確定最終的抽樣單位，通常采用面訪的方式獲得樣本數(shù)據(jù)；而大數(shù)據(jù)是基于現(xiàn)代科技手段，采取實時監(jiān)控、測量、存儲的方式及時獲得數(shù)據(jù)。例如，基于互聯(lián)網(wǎng)和現(xiàn)代智能技術(shù)所獲得的交通流量、醫(yī)療衛(wèi)生健康、氣象水文、環(huán)境變化、社交娛樂互動、商業(yè)物流等方面的記錄，尤其是近年來基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為產(chǎn)生的數(shù)據(jù)，成為大數(shù)據(jù)的主要代表。

（四）時效性

傳統(tǒng)數(shù)據(jù)的收集和清理的時間較長、處理速度較慢、時效性不強。多數(shù)傳統(tǒng)數(shù)據(jù)是靜態(tài)的截面數(shù)據(jù)，即使追蹤調(diào)查數(shù)據(jù) （Panel Data）也至多是兩三年以后對同一期群的事后回溯性訪問；大數(shù)據(jù)的處理速度快，時效性高。大數(shù)據(jù)可以及時更新、及時變化、及時追蹤。這是大數(shù)據(jù)挖掘區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的一個特征。

二、大數(shù)據(jù)時代社會學(xué)的研究

在企業(yè)、政府和社會各界紛紛為大數(shù)據(jù)時代的到來而歡欣鼓舞之際，我們還更需要進(jìn)行更為深入的理性思考。我們認(rèn)為，在社會學(xué)方法論和研究方法上如何突破，仍然是亟待社會學(xué)家解決的首要問題。大數(shù)據(jù)挖掘技術(shù)和分析方法給社會學(xué)學(xué)科發(fā)展帶來難得的歷史機遇的同時，也給社會學(xué)研究帶來了嚴(yán)峻的挑戰(zhàn)。

（一）樣本偏差問題與傳統(tǒng)的社會學(xué)定量分析相比，大數(shù)據(jù)的樣本從數(shù)量上更接近于總體，但是這個總體是有偏差的、有局限性的。中國有 7.72億網(wǎng)民，而中國總?cè)丝?13.9億，那么通過互聯(lián)網(wǎng)抓取個人信息的方式來獲得的大數(shù)據(jù)依然無法涵蓋6.18億非網(wǎng)民。在實際的研究中，研究者往往僅依靠一個或幾個門戶網(wǎng)站的后臺數(shù)據(jù)作為分析資料，那么這種大數(shù)據(jù)僅是使用該網(wǎng)站用戶的數(shù)據(jù)，不能將分析結(jié)果推論到其他網(wǎng)民，更不能推論到全體國民。因此，社會學(xué)研究者應(yīng)該明白，大數(shù)據(jù)中的總體是有局限、有偏差的總體，其他難以通過大數(shù)據(jù)方法抓取的個體并未作為研究對象包含在總體中。因此，對于研究結(jié)論的推論也只能在有限總體的范圍內(nèi)才可能是有效的或可靠的；此外，互聯(lián)網(wǎng)網(wǎng)民的個人活躍度存在很大差異，其活動或痕跡被抓取的概率也不同，因此互聯(lián)網(wǎng)大數(shù)據(jù)的形成既不是抽樣，也遠(yuǎn)非隨機，而是具有極大的偶然性

（二）重要變量的缺失問題雖然一些網(wǎng)站的后臺數(shù)據(jù)也能提供網(wǎng)民的性別、年齡、職業(yè)、收入、家庭結(jié)構(gòu)、居住地、出生地等社會人口信息，但是這些自我填報沒有經(jīng)過實名認(rèn)證的信息存在著很大的水分甚至虛假成分?；ヂ?lián)網(wǎng)區(qū)別于現(xiàn)實世界的一個重要特征是其虛擬性。網(wǎng)絡(luò)世界網(wǎng)民身份具有不可靠性。作為社會學(xué)定量分析最關(guān)鍵的這些分類信息如果缺失或虛假的話，以此數(shù)據(jù)分析所得結(jié)論的可靠性就會大打折扣。

（三）相關(guān)關(guān)系解釋性不強的問題依據(jù)相關(guān)關(guān)系而非因果關(guān)系分析所獲得的結(jié)論在解釋性研究中的效度不強。如前所述，多數(shù)大數(shù)據(jù)的統(tǒng)計分析僅僅止步于相關(guān)關(guān)系。但是，社會學(xué)家很清楚，相關(guān)關(guān)系不一定是因果關(guān)系。熟悉統(tǒng)計學(xué)的學(xué)者都知道，當(dāng)數(shù)據(jù)的樣本量達(dá)到一定程度以后（更不用說大數(shù)據(jù)這樣的海量樣本），任何兩個根本不相關(guān)的變量之間都可能存在很顯著的相關(guān)性（很可能是虛假相關(guān)），諸如美國沃爾瑪超市數(shù)據(jù)所揭示的季節(jié)性風(fēng)暴到來時蛋撻與颶風(fēng)用品銷售量的之間統(tǒng)計相關(guān)關(guān)系、西班牙大選投票數(shù)據(jù)所發(fā)現(xiàn)的天氣狀況不佳與保守黨得票率之間統(tǒng)計相關(guān)關(guān)系的虛假性。由于缺乏更多的控制變量可以應(yīng)用，大數(shù)據(jù)的社會學(xué)統(tǒng)計分析目前基本上還沒有運用中高級統(tǒng)計模型的因果分析的成果。實際上，除了相關(guān)關(guān)系分析之外，多元回歸模型、中介模型、多層次對數(shù)模型、曲線模型等因果模型，在解釋性研究中發(fā)揮著關(guān)鍵的作用。如何運用因果模型進(jìn)行大數(shù)據(jù)的社會分析還需要進(jìn)一步的研究。

（四）各種大數(shù)據(jù)的整合還是一個難題雖然公共數(shù)據(jù)的開放與共享正在成為一種趨勢，互聯(lián)網(wǎng)門戶網(wǎng)站和互聯(lián)網(wǎng)公司所開放的數(shù)據(jù)還相當(dāng)粗放和有限，多數(shù)開放數(shù)據(jù)是研究者利用爬蟲技術(shù)從網(wǎng)站上抓取的未經(jīng)加工、篩選的原始數(shù)據(jù)，政府職能部門、公立機構(gòu) （如銀行和金融機構(gòu)、通訊公司、醫(yī)療衛(wèi)生機構(gòu)）和非公立部門（如私營互聯(lián)網(wǎng)公司和大數(shù)據(jù)公司）、社會組織等掌握的數(shù)據(jù)的開放程度也非常低。在我國政府將大數(shù)據(jù)產(chǎn)業(yè)作為一種基礎(chǔ)性戰(zhàn)略資源重點支持的宏觀背景下，如果各部門都將自己擁有的壟斷性大數(shù)據(jù)作為“私有資源”的話，那么勢必會形成“數(shù)據(jù)孤島”現(xiàn)象。不僅會造成現(xiàn)有數(shù)據(jù)資源的浪費，而且還會造成同類數(shù)據(jù)挖掘和分析的重復(fù)投入。國內(nèi)外關(guān)于大數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用目前主要集中于資料的收集和儲存方面，對于用什么方法分析這些海量數(shù)據(jù)，用什么理論解釋互聯(lián)網(wǎng)世界的社會秩序、社會規(guī)范、社會角色、社會結(jié)構(gòu)、社會互動、社會分層與社會不平等這些社會學(xué)的經(jīng)典問題，目前國內(nèi)外還都處在同一起跑線上。因此，通過我國社會學(xué)家與其他社會科學(xué)家、自然科學(xué)工作者特別是計算機專家、統(tǒng)計學(xué)專家的協(xié)同創(chuàng)新和聯(lián)合攻關(guān)，有望提出具有獨創(chuàng)性和原創(chuàng)性的分析方法、研究范式、理論體系和國際標(biāo)準(zhǔn)，在全球范圍內(nèi)領(lǐng)跑。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺議大數(shù)據(jù)時代的社會學(xué)研究

一、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別

二、大數(shù)據(jù)時代社會學(xué)的研究

一、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別

二、大數(shù)據(jù)時代社會學(xué)的研究