亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)分析

        2018-05-07 06:52:04褚慧敏
        關(guān)鍵詞:相關(guān)統(tǒng)計(jì)分析總體

        褚慧敏

        摘 要:大數(shù)據(jù)對(duì)社會(huì)經(jīng)濟(jì)的各個(gè)方面產(chǎn)生的巨大影響,本文討論了大數(shù)據(jù)下的統(tǒng)計(jì)思維原理:總體代替抽樣可以改善取樣分析的準(zhǔn)確性;用相關(guān)代替因果,在一定程度上對(duì)研究有量變引起質(zhì)變的作用;接受數(shù)據(jù)不準(zhǔn)確和不完美,可以更好地模擬和了解世界。基于這一原理,討論統(tǒng)計(jì)業(yè)務(wù),如數(shù)據(jù)搜集、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用所面臨的挑戰(zhàn)。

        關(guān)鍵詞:大數(shù)據(jù) 統(tǒng)計(jì)分析 總體 相關(guān) 近似

        中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)01(a)-0166-03

        隨著物聯(lián)網(wǎng)、云計(jì)算、傳感器的快速發(fā)展,大數(shù)據(jù)已經(jīng)引起全球廣泛的關(guān)注[1]。企業(yè)的IT高管們已然開始意識(shí)到,如果沒有強(qiáng)大的分析系統(tǒng),大數(shù)據(jù)幾乎沒什么價(jià)值。所以,最關(guān)鍵的并非大數(shù)據(jù)本身,而是數(shù)據(jù)價(jià)值的獲取。如果企業(yè)管理者能夠從他們收集的數(shù)據(jù)中得到真實(shí)的信息,他們可以做出更好的決策,并提升企業(yè)乃至整個(gè)行業(yè)中的地位。

        小數(shù)據(jù)統(tǒng)計(jì)的最基本的思想就是抽樣方法,利用樣本的信息去估計(jì)總體信息以減少不必要的損失。其中最常見的應(yīng)用就是,在測(cè)量某家廠商生產(chǎn)電視的壽命時(shí),不必每一臺(tái)都去測(cè)量,而是從中取出樣本測(cè)量,再利用樣本和總體的關(guān)系,得到總體的電視壽命的大概分布,再利用抽樣檢測(cè),驗(yàn)證其分布是否合理[2]。

        與小數(shù)據(jù)統(tǒng)計(jì)不同,大數(shù)據(jù)統(tǒng)計(jì)不用隨機(jī)抽樣調(diào)查,而采用全員數(shù)據(jù)參與的方法。當(dāng)數(shù)據(jù)積累到一定程度之后,數(shù)據(jù)就會(huì)引發(fā)質(zhì)變。也就是說,樣本容量越大,收集的信息就越多,

        從而估計(jì)的精度就越高,但進(jìn)行觀察所投入的費(fèi)用、人力和處理時(shí)間就越長(zhǎng)。抽樣方法,雖然節(jié)省了進(jìn)行觀察所投入的費(fèi)用、人力和處理時(shí)間,但由于收集的信息有限,影響了估計(jì)的準(zhǔn)確性,在小數(shù)據(jù)時(shí)代,這是個(gè)統(tǒng)計(jì)兩難問題。而今天,在計(jì)算機(jī)處理能力日益增長(zhǎng),特別是互聯(lián)網(wǎng)(包括移動(dòng)互聯(lián)網(wǎng))的發(fā)展、傳感技術(shù)的廣泛應(yīng)用,使得統(tǒng)計(jì)所需要的樣本的獲取變得輕而易舉,或者說大數(shù)據(jù)時(shí)代給統(tǒng)計(jì)科學(xué)帶來了新的生機(jī)。大數(shù)據(jù)價(jià)值獲取主要體現(xiàn)在以下幾個(gè)方面[2]。

        (1)可視化分析。

        數(shù)據(jù)可視化分析能夠客觀地、直觀地認(rèn)知數(shù)據(jù),其基本原理是借助于圖形化技術(shù),直觀地傳達(dá)數(shù)據(jù)潛在的特征,從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。讓數(shù)據(jù)分析人員更深入地觀察和分析,實(shí)現(xiàn)更好的用戶體驗(yàn)。

        (2)數(shù)據(jù)價(jià)值挖掘。

        數(shù)據(jù)價(jià)值挖掘指從大量有噪聲的、不完全的、隨機(jī)的、模糊的數(shù)據(jù)中,提取隱藏在數(shù)據(jù)中的、有用的信息和知識(shí)的過程。挖掘的結(jié)果是數(shù)據(jù)分析報(bào)告的素材,挖掘的越深,數(shù)據(jù)故事講得就越精彩。數(shù)據(jù)價(jià)值挖掘是數(shù)據(jù)分析的基本任務(wù)。

        (3)預(yù)測(cè)。

        大數(shù)據(jù)分析最要的目標(biāo)之一就是預(yù)測(cè)分析,其基本思想是根據(jù)客觀事物的已知信息,推測(cè)和評(píng)估估計(jì)事物在將來的某些特征和發(fā)展?fàn)顟B(tài),從而減少對(duì)事物認(rèn)知的不確定性,減少?zèng)Q策的盲目性。

        要實(shí)現(xiàn)大數(shù)據(jù)分析這些技術(shù),必須要樹立大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)理念。

        1 大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)理念

        1.1 總體取代抽樣

        在小數(shù)據(jù)時(shí)代,統(tǒng)計(jì)分析往往用盡可能少的樣本來證實(shí)總體的假設(shè),所以,一般采用隨機(jī)抽樣,隨機(jī)抽樣方法存在以下缺陷。

        (1)隨機(jī)性不容易保證;

        (2)泛化能力差;

        (3)忽略了細(xì)節(jié);

        (4)對(duì)奇異值敏感。

        隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)的發(fā)展,能很容易獲取來自傳感器、網(wǎng)站、視頻等數(shù)據(jù),計(jì)算機(jī)的處理能力越來越大。所以,在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)分析不是依靠少量的樣本抽樣數(shù)據(jù),而是依靠總體數(shù)據(jù)。如Google的流感趨勢(shì)預(yù)測(cè)是在分析了幾十億條互聯(lián)網(wǎng)社交數(shù)據(jù)而得出的結(jié)論??傮w取代抽樣能夠提高微觀層面分析的準(zhǔn)確性。

        “樣本=總體”是大數(shù)據(jù)時(shí)代數(shù)據(jù)統(tǒng)計(jì)的準(zhǔn)則,這種巨大的調(diào)整,意味著統(tǒng)計(jì)重心需要轉(zhuǎn)移。

        如果說小數(shù)據(jù)時(shí)代的統(tǒng)計(jì)分析的重心在于如何獲取數(shù)據(jù),那么在大數(shù)據(jù)時(shí)代,則重心在于如何選擇有用數(shù)據(jù)[4]。

        數(shù)據(jù)多比數(shù)據(jù)少要好,更多數(shù)據(jù)比算法系統(tǒng)更優(yōu)化還要重要。

        1.2 相關(guān)關(guān)系取代因果關(guān)系

        相關(guān)關(guān)系應(yīng)該說是統(tǒng)計(jì)科學(xué)發(fā)展的基礎(chǔ),雖然有大量的理論是以邏輯推導(dǎo)得來的,但還是有相當(dāng)一部分是先發(fā)現(xiàn)相關(guān)關(guān)系,再研究因果關(guān)系。

        針對(duì)傳統(tǒng)統(tǒng)計(jì)分析中的因果關(guān)系難以確定的缺陷,在大數(shù)據(jù)時(shí)代,更注重相關(guān)關(guān)系的發(fā)現(xiàn)。相關(guān)關(guān)系指我們?cè)谟^察研究對(duì)象X,Y時(shí),如果發(fā)現(xiàn),X的變化總是與Y的變化同步,那我們就說X和Y是相關(guān)的。事實(shí)上,我們可以確定的所有關(guān)系都是相關(guān)關(guān)系,但我們無法得出因果性結(jié)論,相關(guān)關(guān)系應(yīng)該只與變量之間連動(dòng)性的緊密程度有關(guān),而不應(yīng)受變量間形式的影響。相關(guān)關(guān)系具有“普遍性”,運(yùn)用范圍之廣、重要性之大是我們不能忽略的。傳統(tǒng)的統(tǒng)計(jì)方法已經(jīng)無法滿足發(fā)現(xiàn)相關(guān)關(guān)系的業(yè)務(wù)需求,面臨巨大挑戰(zhàn)和機(jī)遇。

        從理論上講,相關(guān)關(guān)系是發(fā)現(xiàn)因果關(guān)系的基礎(chǔ),快速排除不必要的行為。特別在研究復(fù)雜系統(tǒng)時(shí),采用相關(guān)關(guān)系分?jǐn)?shù)線因果關(guān)系具有更高的效率。相關(guān)關(guān)系的研究是一種提高研究效率的方法,在一定程度上對(duì)研究有量變引起質(zhì)變的又積極作用。

        文獻(xiàn)[5]指出:“我們沒有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲,相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界。”建立在相關(guān)關(guān)系分析法上面的預(yù)測(cè)是大數(shù)據(jù)的核心。通過找到“關(guān)聯(lián)物”并監(jiān)控它,我們就能夠預(yù)測(cè)未來。

        1.3 近似取代精確

        精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才能處理另外的95%[6]。

        在大數(shù)據(jù)時(shí)代,近似性不是竭力避免,而是一種標(biāo)準(zhǔn)途徑[7]。在小數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的目的就是防止發(fā)生錯(cuò)誤,所以,在收集樣本時(shí),數(shù)據(jù)分析師會(huì)用明智的策略來減少錯(cuò)誤數(shù)據(jù),但實(shí)施規(guī)避錯(cuò)誤發(fā)生的策略非常耗費(fèi)。尤其是當(dāng)我們收集的數(shù)據(jù)大到一定規(guī)模時(shí),規(guī)避錯(cuò)誤發(fā)生的策略就行不通了,不僅是因?yàn)樘幚沓杀炯哟螅€因?yàn)樵诤A繑?shù)據(jù)上保持?jǐn)?shù)據(jù)的一致性不太現(xiàn)實(shí)。

        大數(shù)據(jù)時(shí)代要求我們重新看待數(shù)據(jù)精確性的內(nèi)涵。如果將小數(shù)據(jù)時(shí)代的思維模式運(yùn)用于大數(shù)據(jù)上,就會(huì)錯(cuò)過許多挖掘有價(jià)值數(shù)據(jù)的機(jī)會(huì)。

        執(zhí)迷于數(shù)據(jù)精確性是“小數(shù)據(jù)時(shí)代”的產(chǎn)物,因?yàn)樵凇靶?shù)據(jù)時(shí)代”,任何一個(gè)數(shù)據(jù)都對(duì)結(jié)果有影響,所以,只有保證數(shù)據(jù)的精確性,才不會(huì)導(dǎo)致分析結(jié)果出偏差。

        如今,我們掌握的數(shù)據(jù)庫越來越全面,不需要再擔(dān)心某個(gè)數(shù)據(jù)對(duì)總體分析的產(chǎn)生的不利影響。我們要做的就是要接受這些不精確的數(shù)據(jù),并從中受益,而不是以高昂的代價(jià)消除數(shù)據(jù)的不精確性。

        大數(shù)據(jù)讓我們接受數(shù)據(jù)的不精確和不完美,除了一開始會(huì)與我們的直覺相矛盾之外,隨著數(shù)據(jù)的增多,“近似”反而能夠更好地地理解世界。

        2 統(tǒng)計(jì)業(yè)務(wù)的變革

        一個(gè)新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。小數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)最得意的回歸預(yù)測(cè)方法面臨考驗(yàn)[8]。

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)的“總體、相關(guān)關(guān)系、近似”特征,增強(qiáng)了統(tǒng)計(jì)學(xué)的生命力,意味著統(tǒng)計(jì)業(yè)務(wù)將發(fā)生如下變革。

        2.1 數(shù)據(jù)搜集

        數(shù)據(jù)的搜集和存儲(chǔ)是大數(shù)據(jù)分析和數(shù)據(jù)利用的前提。如果沒有大量的數(shù)據(jù),再強(qiáng)大的分析能力也是“巧婦難為無米之炊”。在搜集和存儲(chǔ)數(shù)據(jù)方面,要有長(zhǎng)遠(yuǎn)的眼光,會(huì)分析的數(shù)據(jù)要搜集,不會(huì)分析的數(shù)據(jù)也要搜集。等到新的數(shù)據(jù)分析方式出來之后再開始搜集數(shù)據(jù)就已悔之晚矣。

        隨著傳感技術(shù)的發(fā)展,收集數(shù)據(jù)變得十分簡(jiǎn)單而且成本超便宜。即使你僅僅在討論區(qū)留言、Twitter 或 FB 發(fā)表一段文字,它都會(huì)變成新的信息,成為大數(shù)據(jù)的一部份??梢哉f你的生活離不開這片無限巨網(wǎng),即使你不上網(wǎng),手上的付款裝置同樣有機(jī)會(huì)出賣你,讓你成為大數(shù)據(jù)提供者之一,所以,傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查不再適用。

        2.2 數(shù)據(jù)處理

        提高對(duì)數(shù)據(jù)的分析能力是大數(shù)據(jù)價(jià)值體現(xiàn)的核心。再利用傳統(tǒng)的統(tǒng)計(jì)方法無法得到我們期望的結(jié)果,這就需要我們對(duì)統(tǒng)計(jì)方法進(jìn)行創(chuàng)新與發(fā)展。大數(shù)據(jù)統(tǒng)計(jì)分析是以相關(guān)關(guān)系為基礎(chǔ)展開的,它不同于傳統(tǒng)的因果關(guān)系分析,因果關(guān)系分析基本是線性相關(guān)分析,而相關(guān)關(guān)系分析的不僅是線性相關(guān),更多的是非線性相關(guān)以及不明確函數(shù)形式的線性關(guān)系。

        2.3 數(shù)據(jù)使用

        讓數(shù)據(jù)說話,用數(shù)據(jù)提高數(shù)據(jù)的決策效率和決策質(zhì)量是大數(shù)據(jù)分析的最終目標(biāo)。用戶一般情況下是不知道自己需要什么,但大數(shù)據(jù)知道。通過價(jià)值挖掘,數(shù)據(jù)會(huì)告訴管理者,用戶需要解決的問題是什么。讓數(shù)據(jù)說話就是寫出有分量、有價(jià)值、能輔助決策的數(shù)據(jù)分析報(bào)告,這樣的報(bào)告不是用數(shù)據(jù)證明你的結(jié)論,而是如何講清楚數(shù)據(jù)的故事。一般需要特別關(guān)注:(1)業(yè)務(wù)的改變,(2)異常數(shù)據(jù)。

        3 結(jié)語

        大數(shù)據(jù)不是基于人工設(shè)計(jì)的數(shù)據(jù),也不是借助傳統(tǒng)方法獲得的數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)自動(dòng)記錄、儲(chǔ)存和擴(kuò)充的數(shù)據(jù)。通過對(duì)大數(shù)據(jù)特性分析找出大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的聯(lián)系,進(jìn)一步了解在大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)學(xué)所處的地位以及大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)的變化和發(fā)展。

        參考文獻(xiàn)

        [1] 大數(shù)據(jù)時(shí)代到來百度大規(guī)模機(jī)器學(xué)習(xí)算法受追捧.2014-03-21第48期百度技術(shù)沙龍,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.

        [2] 呂浩.數(shù)據(jù)統(tǒng)計(jì)與分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m

        [3] 李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2013(6).

        [4] 邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J]。統(tǒng)計(jì)研究,2014,31(1):16-24.

        [5] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(中文版).

        [6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.

        [7] 朱建平.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.

        [8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.

        猜你喜歡
        相關(guān)統(tǒng)計(jì)分析總體
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        2020年秋糧收購總體進(jìn)度快于上年
        外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
        中國外匯(2019年6期)2019-07-13 05:44:06
        直擊高考中的用樣本估計(jì)總體
        電子商務(wù)的發(fā)展分析研究
        不同酸提取對(duì)維生素C測(cè)定結(jié)果的影響
        如何發(fā)揮新時(shí)期統(tǒng)計(jì)工作的作用之我見
        企業(yè)固定資產(chǎn)分析存在問題及對(duì)策分析
        自立人格對(duì)師范生教師職業(yè)成熟度影響的實(shí)證研究
        人間(2016年26期)2016-11-03 18:13:17
        以統(tǒng)計(jì)分析為基礎(chǔ)的房地產(chǎn)稅收優(yōu)化分析
        无码 人妻 在线 视频| 视频一区视频二区亚洲免费观看| 日韩精品综合在线视频| 日本熟女中文字幕在线| 国产日产综合| 国产视频毛片| 亚洲素人日韩av中文字幕| 粉嫩国产av一区二区三区| 久久久受www免费人成| 国产精品欧美日韩在线一区| 国产一区二区三区视频了| 国产区女主播一区在线| 天天躁日日躁狠狠久久| 亚洲丁香婷婷综合久久小说| 免费观看在线视频一区| 淫片一区二区三区av| 中文字幕亚洲乱码熟女在线 | 男人一插就想射的原因| 国产日产欧产精品精品蜜芽| 久久久精品人妻一区二区三区蜜桃| 国内精品一区二区2021在线| 国内精品少妇久久精品| 人人爽久久久噜人人看| 熟妇人妻av无码一区二区三区| 国产精品亚洲综合色区韩国| 国产在线观看一区二区三区av| 亚洲成av人片乱码色午夜| 成人小说亚洲一区二区三区| 爆乳午夜福利视频精品| 国产一级黄色录像大片| 亚洲国产av精品一区二区蜜芽| 日日摸夜夜欧美一区二区| 国产精品亚洲最新地址| 美国少妇性xxxx另类| 亚洲成a人v欧美综合天堂麻豆| 人妻少妇精品一区二区三区| 久久久中文字幕日韩精品| 狠狠色噜噜狠狠狠狠米奇777| 国产精品久久久久久久专区| 国产高清在线精品一区二区三区 | 黄色国产精品福利刺激午夜片|