亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)相關(guān)概念解讀

        2018-01-27 20:15:46楊秀艷

        □楊秀艷

        近年來(lái),“大數(shù)據(jù)”已成為被廣泛熱議的詞匯,有關(guān)文獻(xiàn)層出不窮。就統(tǒng)計(jì)學(xué)而言,關(guān)注重點(diǎn)無(wú)疑是大數(shù)據(jù)分析方法的創(chuàng)新與發(fā)展。與此同時(shí),人們也慢慢意識(shí)到“小數(shù)據(jù)”的重要性。然而什么是小數(shù)據(jù)?如何理解大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)的相關(guān)概念?本文就此談點(diǎn)粗淺的看法。

        大數(shù)據(jù)與小數(shù)據(jù)

        在大數(shù)據(jù)興起之前,數(shù)據(jù)幾乎沒(méi)有“大數(shù)據(jù)”和“小數(shù)據(jù)”之分。在大數(shù)據(jù)炒得如火如荼的時(shí)候,人們也開始關(guān)注“小數(shù)據(jù)”。例如,德波哈爾艾斯汀教授,記錄了其父親去世之前幾個(gè)月的行為數(shù)據(jù)——發(fā)郵件、去超市菜市場(chǎng)買菜等數(shù)據(jù),發(fā)現(xiàn)其頻率逐步下降。這些個(gè)人社會(huì)行為數(shù)據(jù)都暗示著德伯哈爾艾斯汀的父親生命特征正在逐漸衰落。然而醫(yī)院的體檢報(bào)告并未顯示出這一訊息。正因此,德伯哈爾艾斯汀意識(shí)到“小數(shù)據(jù)”的重要性,也是世界上第一個(gè)認(rèn)識(shí)到“小數(shù)據(jù)”價(jià)值的人。

        關(guān)于什么是大數(shù)據(jù),討論的文章已經(jīng)很多,本文不再贅述。那什么是小數(shù)據(jù)呢?目前主要有以下兩種觀點(diǎn):一種觀點(diǎn)認(rèn)為小數(shù)據(jù)就是樣本數(shù)據(jù)。例如,王成文認(rèn)為小數(shù)據(jù)是為回答特定問(wèn)題、通過(guò)傳統(tǒng)抽樣調(diào)查方式獲得的數(shù)據(jù),即小數(shù)據(jù)是基于抽樣調(diào)查技術(shù)而建立的數(shù)據(jù)收集、存儲(chǔ)、傳輸、處理的安全系統(tǒng),認(rèn)為抽樣調(diào)查是“小數(shù)據(jù)”的本質(zhì)特征。鄭宇認(rèn)為小數(shù)據(jù)來(lái)源于實(shí)驗(yàn)室,來(lái)自于被測(cè)試者(樣本)的調(diào)查。徐立軍認(rèn)為數(shù)據(jù)體量窄小且通過(guò)傳統(tǒng)抽樣方式采集的數(shù)據(jù)就是小數(shù)據(jù)。按照這種理解,小數(shù)據(jù)就是體量小的數(shù)據(jù),或者說(shuō)傳統(tǒng)數(shù)據(jù)即為小數(shù)據(jù)。另一種觀點(diǎn)則認(rèn)為以人為本是小數(shù)據(jù)的核心,個(gè)體信息才是小數(shù)據(jù),例如德波哈爾艾斯汀教授所記錄的其父親的行為數(shù)據(jù)。于久賀認(rèn)為“小數(shù)據(jù)”是指圍繞個(gè)人中心全方位的數(shù)據(jù),以及其配套的收集、分析、處理和對(duì)外交互的綜合系統(tǒng)。呂曉莉也相信“小數(shù)據(jù)”是圍繞不同個(gè)體的人而采集的相關(guān)興趣愛好、思想行為等數(shù)字特征化的數(shù)據(jù)。

        對(duì)于“小數(shù)據(jù)”的這兩種觀點(diǎn),我們贊同后者。作為延伸,我們認(rèn)為小數(shù)據(jù)不僅僅指來(lái)自于單個(gè)人的數(shù)據(jù),也可以是來(lái)自于單個(gè)物體的數(shù)據(jù)。只要能從微觀層面挖掘信息,一切事物都可以成為小數(shù)據(jù)研究的對(duì)象。大數(shù)據(jù)重相關(guān)關(guān)系的發(fā)現(xiàn),小數(shù)據(jù)則有利于發(fā)現(xiàn)因果關(guān)系,因?yàn)樾?shù)據(jù)是在海量數(shù)據(jù)下根據(jù)特定需要有針對(duì)地提供個(gè)性化服務(wù)或?qū)ふ乙蚬P(guān)系的依據(jù)。

        顯然,大數(shù)據(jù)與小數(shù)據(jù)之間存在著包含與被包含的關(guān)系。開展大數(shù)據(jù)分析必須從小數(shù)據(jù)著手,因?yàn)樾?shù)據(jù)是構(gòu)成大數(shù)據(jù)的基礎(chǔ),通過(guò)小數(shù)據(jù)研究可以更好地為大數(shù)據(jù)分析提供依據(jù)。完善的大數(shù)據(jù)是以真實(shí)完善的小數(shù)據(jù)為前提的,數(shù)據(jù)庫(kù)的建設(shè)必須在小數(shù)據(jù)上下工夫。

        樣本與總體

        舍恩伯格和庫(kù)克耶提出在大數(shù)據(jù)時(shí)代有三個(gè)重要的思維轉(zhuǎn)變:其一,不是隨機(jī)樣本,而是全體數(shù)據(jù);其二,不是精確性,而是混雜性;其三,不是因果關(guān)系,而是相關(guān)關(guān)系。第一個(gè)思維傳達(dá)的是“要全體不要抽樣”。大數(shù)據(jù)的“大”不僅僅是指量多,更是指量全。大數(shù)據(jù)的“大”應(yīng)含有三層含義:“全體”、“可擴(kuò)充”“有待挖掘”。其中全體是指在一定條件下的全體數(shù)據(jù),且數(shù)據(jù)量必須達(dá)到一定規(guī)模。大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的重要特征之一就是,快速動(dòng)態(tài)變化性促使“大數(shù)據(jù)=全體數(shù)據(jù)”時(shí),離不開一個(gè)前提,即“一定條件”。這個(gè)前提條件要視具體問(wèn)題而定,正所謂具體問(wèn)題具體分析??焖賱?dòng)態(tài)變化引起的可擴(kuò)充性意味著研究者獲得的數(shù)據(jù)皆為“過(guò)時(shí)數(shù)據(jù)”,對(duì)動(dòng)態(tài)總體而言,大數(shù)據(jù)仍屬于樣本,無(wú)非是大樣本與小樣本以及樣本數(shù)據(jù)類型有所差異。不少學(xué)者認(rèn)為大數(shù)據(jù)的代表性強(qiáng)于樣本數(shù)據(jù),于是認(rèn)為大數(shù)據(jù)優(yōu)于樣本數(shù)據(jù)。殊不知,大數(shù)據(jù)是計(jì)算機(jī)與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,獲取渠道多為數(shù)字電視、網(wǎng)絡(luò)、社交論壇等數(shù)據(jù)平臺(tái)?;钴S在眾多數(shù)據(jù)平臺(tái)的并不是所有的人而只是一部分人,若拋開數(shù)據(jù)背后的信息,研究結(jié)果往往有失偏頗??梢?,如果脫離一定的條件,大數(shù)據(jù)并不一定優(yōu)于小數(shù)據(jù)。

        很多人知道,2009年Nature雜志上刊登一種谷歌搜索日志進(jìn)行流感監(jiān)測(cè)的方法。用美國(guó)居民在網(wǎng)絡(luò)平臺(tái)上搜索相關(guān)特殊疾病和相關(guān)藥物的信息記錄來(lái)即時(shí)預(yù)測(cè)美國(guó)疾控中心延遲發(fā)布的疑似流感比率占比。使用2003-2007年的數(shù)據(jù)作為訓(xùn)練集構(gòu)造模型來(lái)預(yù)測(cè)2008年的流感比例占比,其預(yù)測(cè)結(jié)果與之后美國(guó)疾控中心發(fā)布的數(shù)據(jù)高度吻合。然而在2009年,使用該模型時(shí)其預(yù)測(cè)結(jié)果顯示低估,在2009年的低估的基礎(chǔ)上繼續(xù)修改算法模型,修改后的模型在2013年則呈現(xiàn)高估。就研究對(duì)象而言,其選取的大數(shù)據(jù)也是樣本,且在之后的預(yù)測(cè)中,因樣本代表性不高,才導(dǎo)致預(yù)測(cè)結(jié)果低估或高估。當(dāng)然也并不是指該研究中若采用樣本數(shù)據(jù),其模型預(yù)測(cè)結(jié)果會(huì)優(yōu)于大數(shù)據(jù),用該案例只是說(shuō)明大數(shù)據(jù)并不一定等同于總體數(shù)據(jù),大數(shù)據(jù)的代表性也不一定強(qiáng)于樣本數(shù)據(jù)。

        抽樣誤差與非抽樣誤差

        統(tǒng)計(jì)學(xué)作為一門學(xué)科存在的意義在于幫助人類去量度數(shù)據(jù)的不確定性,駕馭不確定性,從而確保人們?cè)趽p失最小或風(fēng)險(xiǎn)最小情況下做出最經(jīng)濟(jì)的決策。大數(shù)據(jù)與樣本數(shù)據(jù),對(duì)研究結(jié)果都會(huì)產(chǎn)生一定誤差,其中包括抽樣誤差和非抽樣誤差。從數(shù)據(jù)量來(lái)看,大數(shù)據(jù)量遠(yuǎn)大于樣本數(shù)據(jù),這是不是意味著大數(shù)據(jù)的誤差就會(huì)遠(yuǎn)小于小數(shù)據(jù)?答案自然是否定的。我們需要明確一點(diǎn),誤差的來(lái)源與構(gòu)成十分復(fù)雜,絕非以數(shù)據(jù)量多少來(lái)衡量。就大數(shù)據(jù)而言,我們要考慮它有沒(méi)有抽樣誤差、如果有如何測(cè)度等問(wèn)題。有人認(rèn)為大數(shù)據(jù)沒(méi)有抽樣誤差,因?yàn)樗侨w數(shù)據(jù);而我們則認(rèn)為大數(shù)據(jù)只是動(dòng)態(tài)數(shù)據(jù)總體中的一個(gè)樣本數(shù)據(jù),一定有誤差,但卻不一定是抽樣誤差,因?yàn)樗灰欢ㄊ请S機(jī)的。大數(shù)據(jù)是樣本數(shù)據(jù)但不一定是隨機(jī)樣本數(shù)據(jù)的理由有兩個(gè):一是大數(shù)據(jù)的積累是有時(shí)間性的,伴隨時(shí)間性就具有一定的系統(tǒng)性;二是大數(shù)據(jù)本身不一定覆蓋了所有的研究對(duì)象,而這種不覆蓋往往也具有系統(tǒng)性。所以大數(shù)據(jù)的誤差測(cè)度之困難遠(yuǎn)遠(yuǎn)大于隨機(jī)樣本,因?yàn)殡S機(jī)樣本的代表性是可以控制的。

        就非抽樣誤差而言,樣本數(shù)據(jù)比大數(shù)據(jù)更具有優(yōu)越性。非抽樣誤差主要是指人為在處理數(shù)據(jù)過(guò)程(收集、記錄、計(jì)算等)中帶來(lái)的誤差。樣本數(shù)據(jù)是有針對(duì)性獲得的數(shù)據(jù),在收集過(guò)程中已經(jīng)利用了人們的先驗(yàn)信息過(guò)濾了絕大部分錯(cuò)誤數(shù)據(jù),留下具有“發(fā)言權(quán)”的數(shù)據(jù),因此對(duì)非抽樣誤差具有比較好的控制。但大數(shù)據(jù)由于事先沒(méi)有設(shè)計(jì)、沒(méi)有標(biāo)準(zhǔn),來(lái)源復(fù)雜、結(jié)構(gòu)復(fù)雜,往往對(duì)小數(shù)據(jù)的真實(shí)性難以掌控,再加上對(duì)非結(jié)構(gòu)化數(shù)據(jù)解讀可能產(chǎn)生的歧義,使得非抽樣誤差、特別是登記性誤差產(chǎn)生的可能性更大,而且更加難以測(cè)度。

        所以在大數(shù)據(jù)分析中,如何控制并有效測(cè)度誤差是一個(gè)大問(wèn)題。我們必須把大數(shù)據(jù)與小數(shù)據(jù)結(jié)合起來(lái),在各個(gè)環(huán)節(jié)都要注意防控各種誤差,以便保證分析結(jié)果的可靠性和有效性。

        相關(guān)關(guān)系與因果關(guān)系

        大數(shù)據(jù)重相關(guān),小數(shù)據(jù)重因果,相關(guān)關(guān)系回答是什么,因果關(guān)系回答為什么。為此很多人提出在大數(shù)據(jù)時(shí)代用相關(guān)關(guān)系替代因果關(guān)系,不需打破砂鍋問(wèn)到底,了解“是什么”即可。任何問(wèn)題或現(xiàn)象都不是注定的內(nèi)在必然抑或偶然的巧合,而是許多具體機(jī)制的組合或聯(lián)系作用的結(jié)果。根本性地解決問(wèn)題和全面闡釋現(xiàn)象不僅僅限于了解各現(xiàn)象要素之間的關(guān)系,還要了解導(dǎo)致問(wèn)題和現(xiàn)象發(fā)生的深層結(jié)構(gòu)。換言之,解決問(wèn)題或分析現(xiàn)象不應(yīng)該只停留在外在的關(guān)聯(lián)層面上,應(yīng)進(jìn)一步挖掘其內(nèi)涵。知道“是什么”,不一定知道“為什么”,知道“為什么”,卻能知道“是什么”,即用因果關(guān)系解釋相關(guān)關(guān)系,而非相關(guān)關(guān)系解釋因果關(guān)系。當(dāng)然這并不是否認(rèn)大數(shù)據(jù)提供的相關(guān)關(guān)系價(jià)值,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)維度可以多到令我們咋舌。統(tǒng)計(jì)分析方法是建立在獨(dú)立同分布、變量個(gè)數(shù)小于樣本數(shù)(k<<n)等前提條件的基礎(chǔ)上,這就需要我們利用相關(guān)關(guān)系對(duì)解釋變量進(jìn)行降維,由“大維度”變成“小維度”,由“大數(shù)據(jù)”變成“小數(shù)據(jù)”。實(shí)現(xiàn)大數(shù)據(jù)分析的第一個(gè)物理過(guò)程,數(shù)據(jù)由大變小,由厚變薄。此外需要注意的是偽相關(guān)問(wèn)題,例如,如果某研究者參考啤酒與尿不濕的例子,去研究火鍋底料的銷售量和社會(huì)失蹤兒童數(shù)之間關(guān)系,并發(fā)現(xiàn)兩者之間有很強(qiáng)的相關(guān)系數(shù),于是得出結(jié)論說(shuō)火鍋底料的銷售量會(huì)導(dǎo)致兒童失蹤案例發(fā)生,顯然這是一謬論。大數(shù)據(jù)下,數(shù)據(jù)量大(n增加)、變量維度廣(k增加),容易造成統(tǒng)計(jì)結(jié)果顯著,得出統(tǒng)計(jì)意義上的回歸系數(shù),但不代表兩者之間有因果關(guān)系,沒(méi)有因果關(guān)系的相關(guān)關(guān)系只是大數(shù)據(jù)對(duì)小數(shù)據(jù)的過(guò)度擬合。啤酒和尿不濕的銷售量有一定的相關(guān)性,是因?yàn)槊看钨I尿不濕的老爸會(huì)順帶買瓶啤酒犒勞自己,其相關(guān)性有因可循,但我們不能說(shuō)買火鍋底料的人會(huì)順帶拐賣兒童。是否是偽相關(guān),關(guān)鍵是看兩者之間是否有因果關(guān)系,相關(guān)關(guān)系和因果關(guān)系是相互依賴、相互促進(jìn),綜合利用兩者關(guān)系才能有效地進(jìn)行統(tǒng)計(jì)分析,才能進(jìn)行大數(shù)據(jù)分析的第二個(gè)過(guò)程,即化學(xué)過(guò)程——-價(jià)值提取。

        定性分析與定量分析

        定性分析和定量分析是統(tǒng)計(jì)學(xué)兩大核心分析法,相對(duì)小數(shù)據(jù),大數(shù)據(jù)更加側(cè)重于定量分析,筆者認(rèn)為主要原因是數(shù)據(jù)背后看不見行為人,無(wú)法事先進(jìn)行深層次的定性分析。就統(tǒng)計(jì)學(xué)而言,分析現(xiàn)實(shí)問(wèn)題最終都將回歸到定性分析,定量分析只是更好地呈現(xiàn)數(shù)據(jù),以一種簡(jiǎn)單明了的方式呈現(xiàn)數(shù)據(jù),抑或說(shuō)定量分析的結(jié)果是數(shù)據(jù)的另一種表達(dá)形式,仍屬于數(shù)據(jù),屬于數(shù)據(jù)加工處理中最后一步加工后的產(chǎn)物,是數(shù)據(jù)的范疇。只有經(jīng)過(guò)進(jìn)一步的定性分析才能稱之為信息。目前有一種現(xiàn)象值得關(guān)注:那就是追捧大數(shù)據(jù),讓更多的人熱衷于定量分析而忽視定性分析。朋友圈的點(diǎn)贊數(shù)就能代表人們對(duì)帖子的喜愛程度嗎?網(wǎng)絡(luò)上搜索感冒藥就能代表搜索人有感冒癥狀?網(wǎng)絡(luò)評(píng)論就能代表網(wǎng)民對(duì)事件的真實(shí)看法?點(diǎn)贊有可能是行為人的言行不一,搜感冒藥有可能是親戚朋友生病,同樣的言語(yǔ)評(píng)論各人理解不同,同一個(gè)“呵呵”,有人認(rèn)為是真誠(chéng)傻傻地笑,有人認(rèn)為是不屑一顧地冷笑。數(shù)據(jù)分析脫離行為人就毫無(wú)意義。著名經(jīng)濟(jì)學(xué)家路德維?!ゑT·米塞斯曾提醒過(guò):“就今日言,有很多人忙碌于資料之無(wú)益累積,以致對(duì)問(wèn)題之說(shuō)明與解決,喪失了其對(duì)特殊的經(jīng)濟(jì)意義的了解。”小數(shù)據(jù)提倡“以人為本”,強(qiáng)調(diào)人是一切數(shù)據(jù)存在的根本。將人納入分析中,能得到更加準(zhǔn)確的結(jié)論、深刻的見解。大數(shù)據(jù)側(cè)重的定量分析適合解決宏觀層面的問(wèn)題,難以注重每個(gè)數(shù)據(jù)背后行為人的個(gè)體信息,小數(shù)據(jù)所含有的個(gè)體信息能更好地定性解讀微觀問(wèn)題。宏觀與微觀結(jié)合,才能全方位無(wú)死角剖析問(wèn)題。

        [1]Ginsberg J,Mohebbi M H,Patel R S,et al. Detecting influenza epidemics using search engine query data[J]. Nature,2009,457(7232):1012- 1014.

        [2]Marcus,Gary and Davis,Ernest. 2014. Eight(No,Nine!)Problems With Big Data. New York Time s.April 6.

        [3]胡雄偉,張寶林,李抵飛 .大數(shù)據(jù)研究與應(yīng)用綜述(下)[J].標(biāo)準(zhǔn)科學(xué),2013(第 11 期).

        [4]呂曉莉.大數(shù)據(jù)時(shí)代高校圖書館小數(shù)據(jù)的應(yīng)用價(jià)值與路徑[J].四川圖書館學(xué)報(bào),2016,(第4期).

        [5]劉軍.大數(shù)據(jù)是原油不是汽油[J].決策與信息,2015(第 12 期).

        国产人妖直男在线视频| 亚洲另类激情综合偷自拍图 | 国产精品精品| 天天爽天天爽天天爽| 亚洲日本三级| 亚洲一区二区三在线播放| 成年女人午夜特黄特色毛片免| 国产优质av一区二区三区| 亚洲天堂一区二区偷拍| 日本肥老妇色xxxxx日本老妇| 精品久久无码中文字幕| 丝袜人妻无码中文字幕综合网| 综合图区亚洲偷自拍熟女| 国产老熟女伦老熟妇露脸| 亚洲国产成人极品综合| 五月四房播播| 国产办公室沙发系列高清| 亚洲综合精品成人| 日韩黑人欧美在线视频观看| 在线视频中文字幕乱人伦| 国产激情小视频在线观看的| 风韵丰满熟妇啪啪区老熟熟女| 中国老熟女重囗味hdxx| 秋霞午夜无码鲁丝片午夜精品| 久久精品国产亚洲av大全相关| 国产又大大紧一区二区三区| 国产婷婷色一区二区三区深爱网| 久久精品国产网红主播| 亚洲国产一区二区三区亚瑟| 国产网友自拍亚洲av| 日本一级三级在线观看| 亚洲人成网线在线播放va蜜芽 | 中国女人做爰视频| 国产亚洲视频在线观看网址| 国产 在线播放无码不卡| 国产一区二区三区在线视频观看| 久久天堂av综合合色| 少妇性荡欲视频| 国产在线不卡免费播放| 在线亚洲免费精品视频| 狠狠cao日日橹夜夜十橹|