亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)

        2016-10-20 07:40:30趙如煜
        商情 2016年6期
        關鍵詞:大數(shù)據(jù)

        趙如煜

        【摘要】大數(shù)據(jù)給統(tǒng)計學帶來了機遇、挑戰(zhàn)和緊迫感。本文描述大數(shù)據(jù)的環(huán)境,利用大數(shù)據(jù)的目的和大數(shù)據(jù)帶來的變革;介紹國內(nèi)外有關大數(shù)據(jù)的研究動向;探討大數(shù)據(jù)包含的信息,大數(shù)據(jù)的預處理、抽樣和分析方法。

        【關鍵詞】大數(shù)據(jù) 抽樣 數(shù)據(jù)分析方法論

        當今時代,一方面人們在主動地獲取數(shù)據(jù)。各個科學領域都在大量地獲取數(shù)據(jù),自然科學領域收集著從宏觀的天文數(shù)據(jù)到微觀的基因數(shù)據(jù),經(jīng)濟、金融和人文社會科學收集著大量的觀察和調(diào)查數(shù)據(jù)。另一方面人們在被動地囤積數(shù)據(jù)。隨著計算機互聯(lián)網(wǎng)、搜索引擎、電子商務、多種傳感器和多媒體技術的發(fā)展和廣泛使用,各種形式的數(shù)據(jù)如江河流水般地涌來。當今數(shù)據(jù)的獲取和規(guī)模發(fā)生了根本的變化,統(tǒng)計學面臨著新的機遇和挑戰(zhàn),需要在方法論上有所突破。

        一、大數(shù)據(jù)及其目的

        狹義地講,大數(shù)據(jù)是一個大樣本和高維變量的數(shù)據(jù)集合。針對樣本大的問題,統(tǒng)計學可以采用抽樣減少樣本量,達到需要的精度。目前大數(shù)據(jù)的環(huán)境包括了:數(shù)據(jù)流環(huán)境:數(shù)據(jù)快速不斷涌來,現(xiàn)有存儲設備和計算能力難以應付這種洪水般的數(shù)據(jù)流;磁盤存儲環(huán)境:數(shù)據(jù)已不能完全存儲在內(nèi)存中,需要硬盤存儲;分布存儲環(huán)境:數(shù)據(jù)分布存儲在多個計算機中;多線條環(huán)境:數(shù)據(jù)存儲在一個計算機中,多個處理器共享內(nèi)存。

        大數(shù)據(jù)的目的是將數(shù)據(jù)轉(zhuǎn)化為知識,探索數(shù)據(jù)的產(chǎn)生機制,進行預測和制定政策。把信息轉(zhuǎn)變?yōu)橛杏玫闹R還需漫長的時間。“預測”不同于“制定政策”。一個兒童的鞋子越大,可以預測他掌握的詞匯量越多;但是,制定政策強制他穿大鞋子并不能提高他的詞匯量。

        二、大數(shù)據(jù)帶來的變革

        大數(shù)據(jù)給我們的時代帶來了變革。目前,人們習慣于根據(jù)“研究問題”來驅(qū)動“收集數(shù)據(jù)”。今后,大數(shù)據(jù)到處可得,人們將會用“數(shù)據(jù)”驅(qū)動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數(shù)據(jù)做決定。目前已經(jīng)有科學家開始使用軟件搜索和匯總已發(fā)表論文中的成果。大數(shù)據(jù)中包含有各種不同目的的數(shù)據(jù)集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫(yī)院病歷數(shù)據(jù)與信用卡消費數(shù)據(jù)結(jié)合,我們能發(fā)現(xiàn)食品與健康的相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數(shù)據(jù),還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫(yī)生診斷疾病等,應用大數(shù)據(jù)可以設想的用途不計其數(shù)。

        三、大數(shù)據(jù)的處理、抽樣與分析

        (一)數(shù)據(jù)的預處理

        大數(shù)據(jù)的預處理包括數(shù)據(jù)清洗、不完全數(shù)據(jù)填補、數(shù)據(jù)糾偏與矯正。利用隨機抽樣數(shù)據(jù)矯正雜亂的、非標準的數(shù)據(jù)源。統(tǒng)計機構的數(shù)據(jù)是經(jīng)過嚴格抽樣設計獲取的,具有總體的代表性和系統(tǒng)誤差小的優(yōu)勢,但是數(shù)據(jù)獲取和更新的周期長,盡管調(diào)查項目有代表性,但難以無所不包。而互聯(lián)網(wǎng)數(shù)據(jù)的獲取速度快、量大、項目繁細,但是難以避免數(shù)據(jù)獲取的偏倚性。將統(tǒng)計機構的數(shù)據(jù)作為金標準和框架對互聯(lián)網(wǎng)數(shù)據(jù)進行矯正,將互聯(lián)網(wǎng)數(shù)據(jù)作為補充資源對統(tǒng)計機構的數(shù)據(jù)進行實時更新,也許是解決問題的一個思路。

        (二)大數(shù)據(jù)環(huán)境的抽樣

        大數(shù)據(jù)的抽樣方法有待研究?!皹颖尽辈槐厥褂盟小皵?shù)據(jù)”,不管鍋有多大,只要充分攪勻,品嘗一小勺就知道其滋味。針對大數(shù)據(jù)流環(huán)境,需要探索從源源不斷的數(shù)據(jù)流中抽取足以滿足統(tǒng)計目的和精度的樣本。需要研究新的適應性、序貫性和動態(tài)的抽樣方法。根據(jù)已獲得的樣本逐步調(diào)整感興趣的調(diào)查項目和抽樣對象,使得最近頻繁出現(xiàn)的熱門數(shù)據(jù),也是感興趣的數(shù)據(jù)進入樣本。建立數(shù)據(jù)流的緩沖區(qū),記錄新發(fā)生數(shù)據(jù)的頻數(shù),動態(tài)調(diào)整不在樣本中的數(shù)據(jù)進入樣本的概率。

        (三)大數(shù)據(jù)的分析與整合

        針對大數(shù)據(jù)的高維問題,需要研究降維和分解的方法。探討壓縮大數(shù)據(jù)的方法,直接對壓縮的數(shù)據(jù)核進行傳輸、運算和操作。除了常規(guī)的統(tǒng)計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數(shù)據(jù)的實時分析、數(shù)據(jù)流算法。不用保存數(shù)據(jù),僅掃描一遍數(shù)據(jù)的數(shù)據(jù)流算法,考慮計算機內(nèi)存和外存的數(shù)據(jù)傳送問題、分布數(shù)據(jù)和并行計算的方法。如何無信息損失或無統(tǒng)計信息損失地分解大數(shù)據(jù)集,獨立并行地在分布計算機環(huán)境進行推斷,各個計算機的中間計算結(jié)果能相互聯(lián)系溝通,構造全局統(tǒng)計結(jié)果。研究多個數(shù)據(jù)資源的融合算法。研究利用數(shù)據(jù)流尋找模型變化時間點的動態(tài)變化模型。

        在大數(shù)據(jù)環(huán)境,很多數(shù)據(jù)集不再有標識個體的關鍵字,傳統(tǒng)的關系數(shù)據(jù)庫連接方法不再適用,需要探討利用數(shù)據(jù)庫之間的重疊項目來結(jié)合不同的數(shù)據(jù)庫,利用變量間的條件獨立性整合多個不同變量集的數(shù)據(jù)為一個完整變量集的大數(shù)據(jù)庫的方法。探索不必經(jīng)過整合多數(shù)據(jù)庫,直接利用局部數(shù)據(jù)進行推斷和各推斷結(jié)果傳播的方法。另一方面,利用統(tǒng)計性質(zhì)無信息損失地分解和壓縮大數(shù)據(jù)。

        四、結(jié)束語

        一個新生事物的出現(xiàn)將必定導致傳統(tǒng)觀念和技術的革命。數(shù)碼照相機的出現(xiàn)導致傳統(tǒng)相片膠卷和影像業(yè)的已近消亡。如果大數(shù)據(jù)包含了所有父親和兒子的身高數(shù)據(jù),只要計算給定的父親身高下所有兒子的平均身高就可以預測其兒子身高了。模型不再重要,當年統(tǒng)計學最得意的回歸預測方法將被淘汰。大數(shù)據(jù)的到來將對傳統(tǒng)的統(tǒng)計方法進行考驗。統(tǒng)計學會不會象科學哲學那樣,只佩戴著歷史的光環(huán),而不再主導和引領人們分析和利用大數(shù)據(jù)資源?,F(xiàn)在其他學科和行業(yè)涌入大數(shù)據(jù)的熱潮,如果統(tǒng)計學不抓緊參與的話,將面臨著被邊緣化的危險。現(xiàn)今統(tǒng)計學的目標是通過獲取數(shù)據(jù)和分析數(shù)據(jù)發(fā)現(xiàn)真理(總體的參數(shù)和性質(zhì)),統(tǒng)計方法和理論對數(shù)據(jù)有過高的要求。而大數(shù)據(jù)充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學劃界準則,只要我們能從大數(shù)據(jù)中提煉出具有可證偽的結(jié)論,那么這個結(jié)論還是科學的,可以用于知識積累。這些可證偽的大數(shù)據(jù)結(jié)論可作為進一步科學研究的假說,以數(shù)據(jù)驅(qū)動研究。我們在看到大數(shù)據(jù)給統(tǒng)計學帶來了機遇的同時,也應該看到現(xiàn)在的統(tǒng)計方法普遍只適用于全部數(shù)據(jù)放在單個計算機內(nèi)存的環(huán)境,分布式大數(shù)據(jù)和數(shù)據(jù)流的環(huán)境給統(tǒng)計學帶來了挑戰(zhàn)。統(tǒng)計學家不應該固守傳統(tǒng)數(shù)據(jù)的環(huán)境,必須積極學習新生事物,適應新的大數(shù)據(jù)環(huán)境,擴展統(tǒng)計學的應用領域,創(chuàng)造出迎合大數(shù)據(jù)的新統(tǒng)計方法,“機遇”與“挑戰(zhàn)”并存。

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        成人国产午夜在线视频| 日本免费视频| 国产又色又爽又黄的| 亚洲av理论在线电影网| 热re99久久精品国产66热6| 熟女免费观看一区二区 | 国产婷婷色一区二区三区| 欧美日韩中文国产一区发布| 欧美成人在线视频| 老熟女毛茸茸浓毛| 亚洲中文字幕乱码一二三区| 亚洲sm另类一区二区三区| 久久国产精品一国产精品金尊| √新版天堂资源在线资源| 性夜夜春夜夜爽aa片a| 国产优质女主播在线观看| 亚洲精品一区三区三区在线| 日韩欧美成人免费观看| 一级二级中文字幕在线视频| 国产亚洲精选美女久久久久| 日韩美腿丝袜三区四区| 国内最真实的xxxx人伦| 日日噜噜噜夜夜爽爽狠狠视频| 久久波多野结衣av| 亚洲国产色图在线视频| 9久久婷婷国产综合精品性色 | 久久久久成人精品无码| 女同亚洲女同精品| 在线精品亚洲一区二区三区 | 久久婷婷色综合一区二区| 在线视频一区二区在线观看| 伊人久久大香线蕉av五月| 国产乱子伦农村叉叉叉| 99热成人精品国产免| 一个人午夜观看在线中文字幕| 国产乱妇无码大片在线观看| 老熟女重囗味hdxx70星空| 伊人久久大香线蕉免费视频 | 亚洲人成影院在线无码按摩店 | 久久久久国产亚洲AV麻豆| 国产丝袜美腿一区二区三区|