亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺議大數(shù)據(jù)時代的社會學(xué)研究

        2019-12-18 02:59:17張琳
        魅力中國 2019年42期
        關(guān)鍵詞:數(shù)據(jù)挖掘研究

        張琳

        (河北省科技工程學(xué)校,河北 保定 071000)

        一、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別

        (一)定義

        維基百科對大數(shù)據(jù)給出的定義是:“大數(shù)據(jù)(Big Data 或MegaData)或巨量數(shù)據(jù)、海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模大到無法通過人工在合理時間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息?!边@是從數(shù)量的級別 (PB或 ZB)來定義大數(shù)據(jù)的,主要講的是數(shù)據(jù)量巨大使得用常規(guī)的數(shù)據(jù)分析技術(shù)無法挖掘和處理。

        (二)類型

        傳統(tǒng)數(shù)據(jù)的類型以結(jié)構(gòu)化為主,這是基于明確的研究目標(biāo)而設(shè)置的標(biāo)準(zhǔn)化的數(shù)據(jù)收集規(guī)范。與此相對應(yīng),大數(shù)據(jù)的類型除了少量的結(jié)構(gòu)化數(shù)據(jù)之外,大量以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,類型多樣的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求。

        (三)來源

        傳統(tǒng)數(shù)據(jù)多數(shù)來源于抽樣調(diào)查或統(tǒng)計調(diào)查。而抽樣調(diào)查一般按照隨機原則,設(shè)計嚴(yán)格的抽樣程序來獲取樣本數(shù)據(jù)。國內(nèi)外學(xué)術(shù)界有影響的問卷調(diào)查數(shù)據(jù)多數(shù)采用多階段、多層次與人口或勞動力規(guī)模成比例的概率抽樣方法 (PPS)以確定最終的抽樣單位,通常采用面訪的方式獲得樣本數(shù)據(jù);而大數(shù)據(jù)是基于現(xiàn)代科技手段,采取實時監(jiān)控、測量、存儲的方式及時獲得數(shù)據(jù)。例如,基于互聯(lián)網(wǎng)和現(xiàn)代智能技術(shù)所獲得的交通流量、醫(yī)療衛(wèi)生健康、氣象水文、環(huán)境變化、社交娛樂互動、商業(yè)物流等方面的記錄,尤其是近年來基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為產(chǎn)生的數(shù)據(jù),成為大數(shù)據(jù)的主要代表。

        (四)時效性

        傳統(tǒng)數(shù)據(jù)的收集和清理的時間較長、處理速度較慢、時效性不強。多數(shù)傳統(tǒng)數(shù)據(jù)是靜態(tài)的截面數(shù)據(jù),即使追蹤調(diào)查數(shù)據(jù) (Panel Data)也至多是兩三年以后對同一期群的事后回溯性訪問;大數(shù)據(jù)的處理速度快,時效性高。大數(shù)據(jù)可以及時更新、及時變化、及時追蹤。這是大數(shù)據(jù)挖掘區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的一個特征。

        二、大數(shù)據(jù)時代社會學(xué)的研究

        在企業(yè)、政府和社會各界紛紛為大數(shù)據(jù)時代的到來而歡欣鼓舞之際,我們還更需要進(jìn)行更為深入的理性思考。我們認(rèn)為,在社會學(xué)方法論和研究方法上如何突破,仍然是亟待社會學(xué)家解決的首要問題。大數(shù)據(jù)挖掘技術(shù)和分析方法給社會學(xué)學(xué)科發(fā)展帶來難得的歷史機遇的同時,也給社會學(xué)研究帶來了嚴(yán)峻的挑戰(zhàn)。

        (一)樣本偏差問題與傳統(tǒng)的社會學(xué)定量分析相比,大數(shù)據(jù)的樣本從數(shù)量上更接近于總體,但是這個總體是有偏差的、有局限性的。中國有 7.72億網(wǎng)民,而中國總?cè)丝?13.9億,那么通過互聯(lián)網(wǎng)抓取個人信息的方式來獲得的大數(shù)據(jù)依然無法涵蓋6.18億非網(wǎng)民。在實際的研究中,研究者往往僅依靠一個或幾個門戶網(wǎng)站的后臺數(shù)據(jù)作為分析資料,那么這種大數(shù)據(jù)僅是使用該網(wǎng)站用戶的數(shù)據(jù),不能將分析結(jié)果推論到其他網(wǎng)民,更不能推論到全體國民。因此,社會學(xué)研究者應(yīng)該明白,大數(shù)據(jù)中的總體是有局限、有偏差的總體,其他難以通過大數(shù)據(jù)方法抓取的個體并未作為研究對象包含在總體中。因此,對于研究結(jié)論的推論也只能在有限總體的范圍內(nèi)才可能是有效的或可靠的;此外,互聯(lián)網(wǎng)網(wǎng)民的個人活躍度存在很大差異,其活動或痕跡被抓取的概率也不同,因此互聯(lián)網(wǎng)大數(shù)據(jù)的形成既不是抽樣,也遠(yuǎn)非隨機,而是具有極大的偶然性

        (二)重要變量的缺失問題雖然一些網(wǎng)站的后臺數(shù)據(jù)也能提供網(wǎng)民的性別、年齡、職業(yè)、收入、家庭結(jié)構(gòu)、居住地、出生地等社會人口信息,但是這些自我填報沒有經(jīng)過實名認(rèn)證的信息存在著很大的水分甚至虛假成分?;ヂ?lián)網(wǎng)區(qū)別于現(xiàn)實世界的一個重要特征是其虛擬性。網(wǎng)絡(luò)世界網(wǎng)民身份具有不可靠性。作為社會學(xué)定量分析最關(guān)鍵的這些分類信息如果缺失或虛假的話,以此數(shù)據(jù)分析所得結(jié)論的可靠性就會大打折扣。

        (三)相關(guān)關(guān)系解釋性不強的問題依據(jù)相關(guān)關(guān)系而非因果關(guān)系分析所獲得的結(jié)論在解釋性研究中的效度不強。如前所述,多數(shù)大數(shù)據(jù)的統(tǒng)計分析僅僅止步于相關(guān)關(guān)系。但是,社會學(xué)家很清楚,相關(guān)關(guān)系不一定是因果關(guān)系。熟悉統(tǒng)計學(xué)的學(xué)者都知道,當(dāng)數(shù)據(jù)的樣本量達(dá)到一定程度以后 (更不用說大數(shù)據(jù)這樣的海量樣本),任何兩個根本不相關(guān)的變量之間都可能存在很顯著的相關(guān)性 (很可能是虛假相關(guān)),諸如美國沃爾瑪超市數(shù)據(jù)所揭示的季節(jié)性風(fēng)暴到來時蛋撻與颶風(fēng)用品銷售量的之間統(tǒng)計相關(guān)關(guān)系、西班牙大選投票數(shù)據(jù)所發(fā)現(xiàn)的天氣狀況不佳與保守黨得票率之間統(tǒng)計相關(guān)關(guān)系的虛假性。由于缺乏更多的控制變量可以應(yīng)用,大數(shù)據(jù)的社會學(xué)統(tǒng)計分析目前基本上還沒有運用中高級統(tǒng)計模型的因果分析的成果。實際上,除了相關(guān)關(guān)系分析之外,多元回歸模型、中介模型、多層次對數(shù)模型、曲線模型等因果模型,在解釋性研究中發(fā)揮著關(guān)鍵的作用。如何運用因果模型進(jìn)行大數(shù)據(jù)的社會分析還需要進(jìn)一步的研究。

        (四)各種大數(shù)據(jù)的整合還是一個難題雖然公共數(shù)據(jù)的開放與共享正在成為一種趨勢,互聯(lián)網(wǎng)門戶網(wǎng)站和互聯(lián)網(wǎng)公司所開放的數(shù)據(jù)還相當(dāng)粗放和有限,多數(shù)開放數(shù)據(jù)是研究者利用爬蟲技術(shù)從網(wǎng)站上抓取的未經(jīng)加工、篩選的原始數(shù)據(jù),政府職能部門、公立機構(gòu) (如銀行和金融機構(gòu)、通訊公司、醫(yī)療衛(wèi)生機構(gòu))和非公立部門(如私營互聯(lián)網(wǎng)公司和大數(shù)據(jù)公司)、社會組織等掌握的數(shù)據(jù)的開放程度也非常低。在我國政府將大數(shù)據(jù)產(chǎn)業(yè)作為一種基礎(chǔ)性戰(zhàn)略資源重點支持的宏觀背景下,如果各部門都將自己擁有的壟斷性大數(shù)據(jù)作為“私有資源”的話,那么勢必會形成“數(shù)據(jù)孤島”現(xiàn)象。不僅會造成現(xiàn)有數(shù)據(jù)資源的浪費,而且還會造成同類數(shù)據(jù)挖掘和分析的重復(fù)投入。國內(nèi)外關(guān)于大數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用目前主要集中于資料的收集和儲存方面,對于用什么方法分析這些海量數(shù)據(jù),用什么理論解釋互聯(lián)網(wǎng)世界的社會秩序、社會規(guī)范、社會角色、社會結(jié)構(gòu)、社會互動、社會分層與社會不平等這些社會學(xué)的經(jīng)典問題,目前國內(nèi)外還都處在同一起跑線上。因此,通過我國社會學(xué)家與其他社會科學(xué)家、自然科學(xué)工作者特別是計算機專家、統(tǒng)計學(xué)專家的協(xié)同創(chuàng)新和聯(lián)合攻關(guān),有望提出具有獨創(chuàng)性和原創(chuàng)性的分析方法、研究范式、理論體系和國際標(biāo)準(zhǔn),在全球范圍內(nèi)領(lǐng)跑。

        猜你喜歡
        數(shù)據(jù)挖掘研究
        FMS與YBT相關(guān)性的實證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲动漫成人一区二区| 亚洲乱码中文字幕久久孕妇黑人| 中国少妇内射xxxx狠干| 豆国产95在线 | 亚洲| 日韩精品视频在线观看免费| 日本一区二区午夜视频| 亚洲av午夜一区二区三| 国产精品99久久久久久猫咪| 国产中出视频| av毛片一区二区少妇颜射| 日韩精品一二三区乱码| 国产成人精品2021| 国产高潮国产高潮久久久| 国产精品国产午夜免费福利看| 久久久噜噜噜久久熟女| 久久黄色视频| 亚洲男人的天堂在线播放| 久久频精品99香蕉国产| 久久国产精品免费久久久| 中文无码av一区二区三区| 午夜精品久久久久久| 久久免费观看国产精品| 亚洲av色香蕉一区二区三区软件| 精品亚洲成av人在线观看| 免费无码黄动漫在线观看| 乱人伦视频69| 性感的小蜜桃在线观看| 中国妇女做爰视频| 免费观看又色又爽又黄的韩国| 久久熟女五十路| 亚洲日本高清一区二区| 精品国产麻豆免费人成网站| 中文乱码人妻系列一区二区| 国产精品亚洲美女av网站| 亚洲不卡在线免费视频| 中国老熟女重囗味hdxx| 69av视频在线观看| 亚洲av第二区国产精品| www夜片内射视频在观看视频| 吃奶摸下的激烈视频| 国产精品女同久久免费观看|