亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從數(shù)據(jù)到?jīng)Q策的大數(shù)據(jù)時(shí)代*

        2014-09-06 01:23:40陳文偉
        關(guān)鍵詞:數(shù)據(jù)挖掘決策信息

        陳文偉,陳 晟

        (1.海軍兵種指揮學(xué)院三系,廣東 廣州 510431;2.軟通動(dòng)力信息技術(shù)(集團(tuán))有限公司,北京 100193)

        從數(shù)據(jù)到?jīng)Q策的大數(shù)據(jù)時(shí)代*

        陳文偉1,陳 晟2

        (1.海軍兵種指揮學(xué)院三系,廣東 廣州 510431;2.軟通動(dòng)力信息技術(shù)(集團(tuán))有限公司,北京 100193)

        根據(jù)大數(shù)據(jù)時(shí)代的特點(diǎn)和帶來(lái)的變化,明確了大數(shù)據(jù)時(shí)代的核心是從數(shù)據(jù)到?jīng)Q策.對(duì)大數(shù)據(jù)時(shí)代興起的即時(shí)決策,從大企業(yè)到個(gè)人進(jìn)行全面的分析說(shuō)明.在數(shù)據(jù)輔助決策方面,討論了利用統(tǒng)計(jì)方法的輔助決策、從數(shù)據(jù)中歸納出數(shù)學(xué)模型、從數(shù)據(jù)中獲取知識(shí)等有效方法.大數(shù)據(jù)與云計(jì)算的結(jié)合,將會(huì)達(dá)到相互促進(jìn)和共同發(fā)展.大數(shù)據(jù)不僅支持大企業(yè)和政府的決策,也支持個(gè)人的決策.

        大數(shù)據(jù)時(shí)代;即時(shí)決策;統(tǒng)計(jì)方法;數(shù)學(xué)模型;知識(shí);云計(jì)算;決策

        1 大數(shù)據(jù)時(shí)代的簡(jiǎn)介

        2012年,“大數(shù)據(jù)”(Big Data)[1]一詞是個(gè)熱門(mén)詞匯.《紐約時(shí)報(bào)》稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析,而非基于經(jīng)驗(yàn)和直覺(jué).聯(lián)合國(guó)在2012年發(fā)布了“大數(shù)據(jù)政務(wù)白皮書(shū)”,指出大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府來(lái)說(shuō)是一個(gè)歷史性的機(jī)遇,人們?nèi)缃窨梢允褂脴O為豐富的數(shù)據(jù)資源,來(lái)對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行.

        大數(shù)據(jù)的主要來(lái)源[1-2]:社交網(wǎng)絡(luò)數(shù)據(jù)、遙測(cè)數(shù)據(jù)、傳感器數(shù)據(jù)、監(jiān)控通信數(shù)據(jù)、全球定位系統(tǒng)(GPS)的時(shí)間數(shù)據(jù)與位置數(shù)據(jù)、網(wǎng)絡(luò)上的文本數(shù)據(jù)(電子郵件、短信、微博等).這些數(shù)據(jù)來(lái)源是信息化過(guò)程(數(shù)據(jù)設(shè)備的廣泛使用和數(shù)據(jù)多渠道大量生成)產(chǎn)生的.

        王俊(英國(guó)《自然》雜志2012年評(píng)出的對(duì)世界科學(xué)影響最大的10大年度人物之一)說(shuō):“生命本身是數(shù)字化的,基因傳代的過(guò)程是數(shù)字化的過(guò)程,弄懂基因系列,通過(guò)基因排序知道哪個(gè)基因出了問(wèn)題,對(duì)癥下藥.”王俊領(lǐng)導(dǎo)的全球最大基因測(cè)序機(jī)構(gòu),每天產(chǎn)出的數(shù)據(jù)排名世界第一,他說(shuō)醫(yī)學(xué)健康產(chǎn)業(yè)未來(lái)就是大數(shù)據(jù)產(chǎn)業(yè).

        人類有個(gè)重要發(fā)現(xiàn),2010—2012年的數(shù)據(jù)總量超過(guò)以往400年.可以概括地認(rèn)為:大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型數(shù)據(jù).

        大數(shù)據(jù)具有4個(gè)基本特征:(1)數(shù)據(jù)量巨大.到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量為200 PB.(2)數(shù)據(jù)類型多樣.現(xiàn)在的數(shù)據(jù)類型有文本形式、圖片、視頻、音頻、等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù).(3)處理速度快,時(shí)效性要求高.從各種類型的數(shù)據(jù)中快速獲得有價(jià)值的信息.(4)價(jià)值密度低.例如,1 h的視頻,在不間斷的視頻監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒.

        大數(shù)據(jù)將帶來(lái)的變化[1]:(1)從掌握局部數(shù)據(jù)變?yōu)檎莆杖繑?shù)據(jù).(2)從純凈數(shù)據(jù)變?yōu)榛祀s數(shù)據(jù),可能會(huì)發(fā)現(xiàn)生活的許多層面是隨機(jī)而不是確定的.(3)從探求因果關(guān)系到掌握事物的相關(guān)性.以前總是試圖了解事件背后的深層原因,大數(shù)據(jù)轉(zhuǎn)變?yōu)榕瀣F(xiàn)象之間的聯(lián)系.大數(shù)據(jù)主要回答是什么,而不是為什么的問(wèn)題,通常有這樣的回答就足夠了.

        研究大數(shù)據(jù)的意義是不斷提高“從數(shù)據(jù)到?jīng)Q策的能力”,實(shí)現(xiàn)由數(shù)據(jù)優(yōu)勢(shì)向決策優(yōu)勢(shì)的轉(zhuǎn)化.數(shù)據(jù)是現(xiàn)實(shí)世界的記錄,它反映了現(xiàn)實(shí)世界的現(xiàn)狀.數(shù)據(jù)中包含自然界的規(guī)律,也包含人類社會(huì)的人的行為.在數(shù)據(jù)中找出這些自然規(guī)律和人的特定行為,用于決策將會(huì)取得顯著的效果.

        2 利用即時(shí)數(shù)據(jù)的決策

        國(guó)際商用機(jī)器公司(IBM)估測(cè),“數(shù)據(jù)”值錢(qián)的地方主要在于時(shí)效.對(duì)于片刻便能定輸贏的華爾街,這一時(shí)效至關(guān)重要.華爾街的斂財(cái)高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財(cái)富”,先人一步用其預(yù)判市場(chǎng)走勢(shì),而且取得了不俗的收益.利用這些數(shù)據(jù)可以做很多事,比如華爾街根據(jù)民眾情緒拋售股票;對(duì)沖基金依據(jù)購(gòu)物網(wǎng)站的顧客評(píng)論,分析企業(yè)產(chǎn)品銷(xiāo)售狀況;銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;分析全球范圍內(nèi)流感等病疫的傳播狀況等.

        即時(shí)數(shù)據(jù)的有效決策歸納為:跟著當(dāng)前潮流走;不滿足于現(xiàn)狀逆著潮流走;跟著新趨勢(shì)走;從搜索信息中做決策;存在人為制造病毒或者造謠;網(wǎng)絡(luò)豐富了個(gè)人生活和決策.

        (1)跟著潮流走.跟著潮流走的典型實(shí)例:“德溫特資本市場(chǎng)”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3~4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以1~50進(jìn)行打分,根據(jù)打分結(jié)果,霍廷決定如何處理手中數(shù)以百萬(wàn)美元計(jì)的股票.

        霍廷的判斷原則很簡(jiǎn)單:如果所有人似乎都高興,那就買(mǎi)入;如果大家的焦慮情緒上升,那就拋售.這一招收效顯著,當(dāng)年第一季度,霍廷的公司獲得了7%的收益率.

        (2)逆著潮流走.2013年6月9日,美國(guó)國(guó)家安全局承包商的愛(ài)德華·斯諾登,披露了美國(guó)國(guó)家安全局一項(xiàng)代號(hào)為“棱鏡”的計(jì)劃的細(xì)節(jié).斯諾登說(shuō):“國(guó)家安全局打造了一個(gè)系統(tǒng)可截獲幾乎所有信息.有了這種能力,該機(jī)構(gòu)可自動(dòng)收集絕大多數(shù)人的通信內(nèi)容.你的電子郵件、密碼、電話記錄和信用卡信息就都在我手上了.”斯諾登對(duì)《衛(wèi)報(bào)》記者說(shuō):“我不想生活在一個(gè)我的一言一行都被記錄在案的世界里.我不愿支持這種事,也不愿生活在這樣的控制下.”

        2010年陸軍情報(bào)分析員布拉德利·曼寧,向維基揭秘網(wǎng)發(fā)送了幾十萬(wàn)份機(jī)密文件.他說(shuō):“我希望人們看到真相,因?yàn)槿绻恢?,公眾就不可能做出明智的決定.”

        斯諾登和曼寧都知道披露美國(guó)國(guó)家安全局這樣勢(shì)力強(qiáng)大情報(bào)機(jī)關(guān)的秘密是非常危險(xiǎn)的,他們是逆著潮流走的典型.

        (3)跟著新觀念走.跟著新觀念走的典型實(shí)例:IBM在上一個(gè)10年拋棄了PC,成功轉(zhuǎn)向軟件和服務(wù),而這次將遠(yuǎn)離服務(wù)與咨詢,更多地專注于因大數(shù)據(jù)分析軟件而帶來(lái)的全新業(yè)務(wù)增長(zhǎng)點(diǎn).IBM執(zhí)行總裁羅睿蘭認(rèn)為:“數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源.”

        在個(gè)人決定前途時(shí)的選擇,跟著新觀念走的實(shí)例:海事大學(xué)信息科學(xué)技術(shù)學(xué)院某副院長(zhǎng)說(shuō),他在完成學(xué)業(yè)以后,看見(jiàn)《計(jì)算機(jī)世界報(bào)》(1997年)首次向國(guó)內(nèi)介紹“數(shù)據(jù)挖掘”新技術(shù)后,決定今后就選擇“數(shù)據(jù)挖掘”作為方向,從而形成了他的人生新軌跡.

        (4)互聯(lián)網(wǎng)絡(luò)上搜索信息.信息不對(duì)稱現(xiàn)象普遍存在于社會(huì),特別在市場(chǎng)經(jīng)濟(jì)活動(dòng)中,各類人員對(duì)有關(guān)信息的了解存在很大的差異.掌握信息多的人,有更多的機(jī)會(huì)從差距中找商機(jī)獲利.(信息不對(duì)稱理論是由喬·阿克爾洛夫等3位美國(guó)經(jīng)濟(jì)學(xué)家提出的,從而獲得2001年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng).)

        解決信息不對(duì)稱現(xiàn)象,需要利用互聯(lián)網(wǎng)絡(luò)進(jìn)行搜索,“知識(shí)在于搜索”是當(dāng)今獲取知識(shí)的新趨勢(shì),它是“知識(shí)在于學(xué)習(xí)”和“知識(shí)在于積累”的補(bǔ)充.這也造就了Google(谷歌)、百度等搜索公司的輝煌成就.例如,在識(shí)別流感疫情時(shí),谷歌比疾病控制和預(yù)防中心更有效掌握疫情,因?yàn)楣雀枥帽O(jiān)測(cè)無(wú)數(shù)個(gè)搜索詞(比如“最好的咳嗽藥”)并加入詳細(xì)地址的追蹤,所以有效掌握疫情區(qū)域.

        搜索當(dāng)前信息后做決策,已經(jīng)成為即時(shí)決策的新趨勢(shì).

        (5)開(kāi)源軟件激發(fā)了人的創(chuàng)新熱情.開(kāi)源軟件是在開(kāi)源網(wǎng)站上交流,相互之間激發(fā)出的創(chuàng)新熱情.有的人通過(guò)軟件開(kāi)發(fā)鍛煉自己,有的人想打破壟斷,也有的人想展示自己的才能.各自充分發(fā)揮自己的智慧,在別人的研究基礎(chǔ)上,增加更有用或更有效果的功能,共同開(kāi)發(fā)出免費(fèi)的軟件.例如,Linux操作系統(tǒng)打破了微軟的Windows操作系統(tǒng)的壟斷,MySQL數(shù)據(jù)庫(kù)軟件使大家對(duì)數(shù)據(jù)庫(kù)的應(yīng)用更方便.

        (6)制造病毒或者造謠.制造病毒數(shù)據(jù),破壞網(wǎng)絡(luò)系統(tǒng)或個(gè)人計(jì)算機(jī).各國(guó)之間的隱形戰(zhàn)爭(zhēng)就是制造病毒破壞敵方的網(wǎng)絡(luò)系統(tǒng).

        制造虛假信息進(jìn)行造謠,讓受騙者做愚蠢的決策,送錢(qián)或銀行帳號(hào)及密碼給騙子.例如在電話中,冒充公安機(jī)關(guān)人員,說(shuō)你家人犯罪,要你交錢(qián)贖人;或者說(shuō)你中獎(jiǎng),要你寄錢(qián)后發(fā)獎(jiǎng)品給你等等.這些受騙者都是嚴(yán)重的信息缺乏者,也是典型的法盲.最近,武漢警方查獲號(hào)稱“中國(guó)最大的網(wǎng)絡(luò)推廣網(wǎng)站”的特大網(wǎng)絡(luò)造謠團(tuán)伙,其中參與謠言傳播的“大V”的微博粉絲數(shù)量達(dá)2.2億.該公司在1年間經(jīng)營(yíng)獲利多達(dá)100多萬(wàn)元.

        (7)網(wǎng)絡(luò)豐富了個(gè)人生活和決策.個(gè)人上網(wǎng)可以在自己喜歡的網(wǎng)站上閱讀信息,下載音樂(lè)、電影,與友人通信、交談等.個(gè)人可以建網(wǎng)站、微博來(lái)發(fā)表自己的見(jiàn)解,也在制造數(shù)據(jù).個(gè)人想從事學(xué)術(shù)研究或者商業(yè)活動(dòng),都可以在網(wǎng)絡(luò)上找到自己所需要的信息,發(fā)表自己的成果和信息.個(gè)人已經(jīng)享受到了大數(shù)據(jù)時(shí)代好處,大數(shù)據(jù)時(shí)代也支持個(gè)人決策.

        大數(shù)據(jù)時(shí)代突出了即時(shí)決策.大數(shù)據(jù)時(shí)代既支持重大問(wèn)題的決策,支持領(lǐng)導(dǎo)者的決策,也開(kāi)創(chuàng)了個(gè)人決策的信息支持.

        3 利用統(tǒng)計(jì)方法的輔助決策

        分析數(shù)據(jù)離不開(kāi)統(tǒng)計(jì).在統(tǒng)計(jì)學(xué)中用總量、平均數(shù)、百分比、比率等數(shù)值,建立起對(duì)大數(shù)據(jù)的概括認(rèn)識(shí),用同類單位的比較或者用自己的歷史數(shù)據(jù)比較,來(lái)發(fā)現(xiàn)問(wèn)題和找出差距,為輔助決策提供依據(jù).“統(tǒng)計(jì)與對(duì)比”已經(jīng)得到廣泛的應(yīng)用.

        統(tǒng)計(jì)語(yǔ)言學(xué)成功地實(shí)現(xiàn)了計(jì)算機(jī)上的自然語(yǔ)言處理.自然語(yǔ)言屬于上下文有關(guān)文法,一個(gè)單詞有多個(gè)解釋,對(duì)于比較復(fù)雜的句子,用語(yǔ)法規(guī)則來(lái)理解遇到了困難(基于規(guī)則的自然語(yǔ)言處理).以前花了很大的代價(jià)一直在用語(yǔ)法規(guī)則進(jìn)行自然語(yǔ)言處理,但是進(jìn)展不大.

        利用統(tǒng)計(jì)語(yǔ)言模型有效地解決了自然語(yǔ)言處理:一個(gè)句子s(它由一串特定順序排列的詞w1,w2,…,wn組成)是否合理,就看它的可能性(概率P(s)).統(tǒng)計(jì)語(yǔ)言模型給出了計(jì)算概率P(s)的公式為

        P(s)=P(w1w2…wn)=P(w1)·P(w2︱w1)·P(w3︱w2)·…·P(wn︱wn-1).

        (1)

        (1)式中反映了單詞的上下文關(guān)系,如w2與w1,w3之間的條件概率,因此用這種方法有效地判斷了句子s的合理性.

        統(tǒng)計(jì)學(xué)還有很多方法用于數(shù)據(jù)分析迏到輔助決策效果[3].如回歸分析是研究一個(gè)變量與其他多個(gè)變量之間的關(guān)系,建立回歸方程;假設(shè)檢驗(yàn)是根據(jù)樣本對(duì)關(guān)于總體所提出的假設(shè)做出是接受還是拒絕該假設(shè)的判斷;聚類分析是將樣品或變量進(jìn)行聚類的方法;主成份分析是將多個(gè)變量化為少數(shù)的幾個(gè)綜合變量等等.

        統(tǒng)計(jì)數(shù)據(jù)以及指標(biāo)的對(duì)比是決策的依據(jù).

        4 從數(shù)據(jù)中歸納出數(shù)學(xué)模型

        自然科學(xué)發(fā)展的最重要方法是從數(shù)據(jù)中歸納出規(guī)律,用數(shù)學(xué)模型(公式或方程)這種數(shù)量形式描述[3-4].例如,牛頓的運(yùn)動(dòng)三大定律、牛頓的萬(wàn)有引力定律、開(kāi)普勒的行星運(yùn)動(dòng)三大定律、麥克斯韋的電磁方程組、愛(ài)因斯坦質(zhì)能方程、納維-斯托克流體力學(xué)方程、薛定諤量子方程等等.下面具體用典型例子說(shuō)明.

        (1)開(kāi)普勒的行星運(yùn)動(dòng)三大定律的發(fā)現(xiàn)過(guò)程.

        天文學(xué)家開(kāi)普勒是利用他老師第谷一生觀察的天文數(shù)據(jù),自己也用了一生來(lái)歸納總結(jié)出行星運(yùn)動(dòng)的三大定律.

        開(kāi)普勒先從火星的觀測(cè)數(shù)據(jù)中想找出它的運(yùn)動(dòng)規(guī)律,試探將它用一條曲線表示出來(lái).一開(kāi)始開(kāi)普勒按傳統(tǒng)觀念,認(rèn)為行星做勻速圓周運(yùn)動(dòng),因此他采用傳統(tǒng)的偏心圓軌道方程來(lái)試探計(jì)算.但是經(jīng)過(guò)反復(fù)推算發(fā)現(xiàn),不能算出與第谷觀測(cè)相符的結(jié)果.開(kāi)普勒開(kāi)始大膽設(shè)想,火星可能不是作圓周運(yùn)動(dòng).經(jīng)過(guò)多年的艱苦計(jì)算,終于發(fā)現(xiàn)了火星沿橢圓軌道繞太陽(yáng)運(yùn)行,得到行星運(yùn)動(dòng)的第一定律(橢圓軌道定律).經(jīng)過(guò)了9 a的苦戰(zhàn),開(kāi)普勒終于得出行星公轉(zhuǎn)周期的平方與它距太陽(yáng)的距離的立方成正比的結(jié)論(p2/d3= 常數(shù)).這就是著名的開(kāi)普勒行星運(yùn)動(dòng)第三定律.

        (2)歐拉常數(shù)和公式以及陳文偉常數(shù)和公式的發(fā)現(xiàn)[5-6].

        歐拉在研究調(diào)和級(jí)數(shù)與lnn之間,在n越大時(shí),它們之間的差接近一個(gè)常數(shù).他在求證它們之間的差的極限后,得到如下公式和值,該數(shù)稱為歐拉常數(shù):

        陳文偉研究了調(diào)和級(jí)數(shù)公式,證明了尾項(xiàng)εn的級(jí)數(shù)和收斂為一個(gè)常數(shù),定義常數(shù)為μ,它的計(jì)算公式為

        (2)

        它的值為μ=0.130 330 700 753 906 311 477 07….陳文偉再利用阿貝爾求和公式,證明了自然對(duì)數(shù)的底e、圓周率π和新常數(shù)θ三者存在一個(gè)新公式

        (3)

        其中θ=1+γ+2μ=1.837 877 066 409 345 483 560 65….

        (2),(3)式均將2個(gè)著名常數(shù)e和 π緊密聯(lián)系起來(lái),它們都是形式化的公式.

        自然界中,電和磁、質(zhì)量和能量、圓周率π和自然對(duì)數(shù)的底e,它們都是不同概念,將它們聯(lián)系起來(lái)既開(kāi)闊了人們的視野,也開(kāi)辟了科學(xué)的新天地.可以說(shuō),包含不同概念的簡(jiǎn)潔公式反映了科學(xué)的本質(zhì),也體現(xiàn)了自然之美.斯坦福大學(xué)教授德福林說(shuō):“聯(lián)系、結(jié)合在一起的事物比相互分開(kāi)的事物更為重要、更有價(jià)值,也更加絢麗多姿.”

        (3)2013年諾貝爾獎(jiǎng)化學(xué)獎(jiǎng)的“復(fù)雜化學(xué)系統(tǒng)的多尺度模型”.

        馬丁·卡普拉斯等3位科學(xué)家將量子力學(xué)和經(jīng)典力學(xué)計(jì)算相結(jié)合,用量子化學(xué)計(jì)算小區(qū)間(小分子計(jì)算量龐大)的化學(xué)反應(yīng),用經(jīng)典力學(xué)處理小區(qū)間外的環(huán)境(大分子計(jì)算簡(jiǎn)單)的影響,彌補(bǔ)了經(jīng)典力學(xué)無(wú)法模擬反應(yīng)過(guò)程及量子化學(xué)無(wú)法完成環(huán)境的海量計(jì)算的缺陷.

        諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的獲得者中,不少是利用大量的數(shù)據(jù)建立經(jīng)濟(jì)學(xué)的數(shù)學(xué)模型,用于解釋當(dāng)前世界經(jīng)濟(jì)現(xiàn)象的.

        (4)計(jì)算機(jī)上利用數(shù)據(jù)歸納出數(shù)學(xué)模型的方法是數(shù)據(jù)挖掘的公式發(fā)現(xiàn).

        典型的方法有Pat Langley研制的BACON系統(tǒng)、陳文偉研制的FDD系統(tǒng).FDD系統(tǒng)的啟發(fā)式中包含了初等函數(shù),這就使FDD系統(tǒng)發(fā)現(xiàn)的公式比BACON系統(tǒng)發(fā)現(xiàn)的更廣泛.

        5 從數(shù)據(jù)中獲取知識(shí)

        在計(jì)算機(jī)中,知識(shí)屬于定性的,一般表示為規(guī)則形式.從數(shù)據(jù)中獲取知識(shí)主要是利用數(shù)據(jù)挖掘技術(shù),典型的數(shù)據(jù)挖掘方法大的分類有[4]:屬性約簡(jiǎn)方法、信息論挖掘方法、集合論挖掘方法、Web挖掘、流數(shù)據(jù)挖掘等.每個(gè)大類中又有很多具體的方法.下面概括說(shuō)明.

        (1)屬性約簡(jiǎn).例如,汽車(chē)數(shù)據(jù)庫(kù)(CTR)有9個(gè)條件屬性(類型、汽缸、渦輪式、燃料、排氣量、壓縮率、功率、換檔、重量),1個(gè)決策屬性(里程).利用屬性約簡(jiǎn)方法,可以得到等價(jià)的4個(gè)條件屬性(燃料、排氣量、壓縮率、重量),1個(gè)決策屬性(里程).數(shù)據(jù)庫(kù)約簡(jiǎn)后成精練的數(shù)據(jù)集.

        (2)集合論挖掘方法.集合論原理是數(shù)據(jù)挖掘的重要理論基礎(chǔ),可用于分類問(wèn)題、聚類問(wèn)題和關(guān)聯(lián)規(guī)則挖掘.

        集合論原理用于分類問(wèn)題時(shí),主要是利用集合之間的覆蓋關(guān)系,如粗糙集方法是對(duì)條件屬性和決策(類別)屬性中的等價(jià)類(1個(gè)或多個(gè)屬性取值均相同的元組)之間的覆蓋關(guān)系;AQ11方法是對(duì)覆蓋正例排斥反例的種子(多個(gè)屬性取值的“與”關(guān)系),構(gòu)成規(guī)則知識(shí).

        集合論原理用于聚類問(wèn)題時(shí),主要是按數(shù)據(jù)集中元組間的距離遠(yuǎn)近或相似度大小,聚成多個(gè)類別集合.如K-均值聚類方法.

        集合論原理用于關(guān)聯(lián)規(guī)則挖掘時(shí),計(jì)算數(shù)據(jù)項(xiàng)(如商品)集在整個(gè)集合中和部分集合中所占的比例,大于閾值(支持度和可信度)時(shí)構(gòu)成數(shù)據(jù)項(xiàng)之間關(guān)聯(lián)規(guī)則.

        (3)信息論挖掘方法.信息論方法一般用于分類問(wèn)題.在已知有各實(shí)例的類別的數(shù)據(jù)中,找出確定類別的關(guān)鍵的條件屬性.求關(guān)鍵屬性是計(jì)算是各條件屬性的信息量,再?gòu)闹羞x出信息量最大的屬性,構(gòu)造決策樹(shù)或決策規(guī)則樹(shù).

        (4)Web挖掘.Web挖掘是從數(shù)以億計(jì)存儲(chǔ)大量多種多樣信息的Web頁(yè)面及其鏈接和用戶對(duì)頁(yè)面的訪問(wèn)中挖掘出需要的有用知識(shí).Web挖掘分為3類:Web內(nèi)容挖掘(網(wǎng)頁(yè)內(nèi)的信息和知識(shí))、Web結(jié)構(gòu)挖掘(網(wǎng)頁(yè)之間的鏈接信息)和Web應(yīng)用挖掘(瀏覽和使用頁(yè)面鏈接的信息).

        (5)流數(shù)據(jù)挖掘.衛(wèi)星給地球傳回大量的圖像流數(shù)據(jù);監(jiān)控?cái)z像機(jī)能夠連續(xù)不斷(比如每秒)地產(chǎn)生圖像流;Web網(wǎng)站收到的流數(shù)據(jù)包括各種類型.例如,谷歌1 d收到幾億個(gè)搜索查詢;雅虎的各個(gè)不同網(wǎng)站上收到數(shù)10億個(gè)“點(diǎn)擊”.基于這些流數(shù)據(jù)可以學(xué)習(xí)到很多有趣的結(jié)果,比如“咽喉痛或咳嗽”之類的查詢頻次的上升能夠讓人們對(duì)病毒的傳播進(jìn)行跟蹤.

        流數(shù)據(jù)挖掘中,一種通常的辦法是在工作存儲(chǔ)器上保存流數(shù)據(jù)的滑動(dòng)窗口.

        6 大數(shù)據(jù)與云計(jì)算的結(jié)合

        云計(jì)算是繼個(gè)人計(jì)算機(jī)、互聯(lián)網(wǎng)之后第3次信息技術(shù)革命[7],它與大數(shù)據(jù)的結(jié)合,將會(huì)極大推動(dòng)科學(xué)技術(shù)與社會(huì)的發(fā)展.

        (1)大數(shù)據(jù)與云計(jì)算是相輔相成的.

        云計(jì)算與大數(shù)據(jù)的關(guān)系相當(dāng)于動(dòng)與靜的關(guān)系.云計(jì)算強(qiáng)調(diào)的是計(jì)算,這是動(dòng)的概念;而數(shù)據(jù)則是計(jì)算的對(duì)象,是靜的概念.大數(shù)據(jù)時(shí)代需要處理大數(shù)據(jù)的能力(數(shù)據(jù)獲取、清潔、轉(zhuǎn)換、統(tǒng)計(jì)等能力),這正是云計(jì)算的優(yōu)勢(shì).大數(shù)據(jù)是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器.

        (2)大數(shù)據(jù)根植于云計(jì)算.

        云計(jì)算關(guān)鍵技術(shù)中的海量數(shù)據(jù)存儲(chǔ)技術(shù)(用分布式方式存儲(chǔ)數(shù)據(jù)和冗余存儲(chǔ)方式保證系統(tǒng)可靠)、海量數(shù)據(jù)管理技術(shù)、分布式編程模型(MapReduce,用于并行處理大規(guī)模數(shù)據(jù)集的軟件框架),它們也都是大數(shù)據(jù)的關(guān)鍵技術(shù).云計(jì)算有它獨(dú)特的地方,即虛擬化技術(shù)和云計(jì)算平臺(tái)管理技術(shù).

        (3)大數(shù)據(jù)技術(shù)與云計(jì)算相結(jié)合.

        大數(shù)據(jù)與云計(jì)算的結(jié)合主要體現(xiàn)為:利用云計(jì)算的強(qiáng)大計(jì)算能力(SaaS軟件服務(wù)、IaaS基礎(chǔ)設(shè)施服務(wù)、PaaS平臺(tái)服務(wù)),可以更加迅速地處理大數(shù)據(jù)中的豐富信息,為有效的決策支持服務(wù).

        對(duì)大數(shù)據(jù)的處理(海量數(shù)據(jù)存儲(chǔ)、海量數(shù)據(jù)管理和分布式并行計(jì)算),又為云計(jì)算提供了最有價(jià)值的實(shí)際應(yīng)用.即大數(shù)據(jù)為云計(jì)算提供了很有價(jià)值的用武之地.

        7 結(jié)語(yǔ)

        大數(shù)據(jù)時(shí)代是信息時(shí)代的延伸和發(fā)展(數(shù)據(jù)和信息本質(zhì)是同一個(gè)東西,數(shù)據(jù)是信息的符號(hào)表示,信息是數(shù)據(jù)的含義).信息時(shí)代的特點(diǎn)是實(shí)現(xiàn)信息化、數(shù)字化,其目的就是充分利用計(jì)算機(jī)來(lái)提高各行業(yè)的管理和決策的水平.信息時(shí)代的基礎(chǔ)在于計(jì)算機(jī).信息化過(guò)程中數(shù)字設(shè)備的進(jìn)步(如傳感器、GPS和手機(jī))以及數(shù)據(jù)的多元化(各種渠道)產(chǎn)生,極大地促進(jìn)了大數(shù)據(jù)時(shí)代的來(lái)臨.大數(shù)據(jù)時(shí)代的基礎(chǔ)在于網(wǎng)絡(luò).網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)遍及各行各業(yè),也進(jìn)入了家庭和個(gè)人.

        生活在大數(shù)據(jù)時(shí)代,就應(yīng)該充分獲取大數(shù)據(jù)中所需要的數(shù)據(jù),利用統(tǒng)計(jì)方法,或者從數(shù)據(jù)中歸納出數(shù)學(xué)模型,或者從數(shù)據(jù)中獲取知識(shí)等手段,得到輔助決策信息.

        領(lǐng)導(dǎo)者需要的是粗粒度數(shù)據(jù).對(duì)于海量數(shù)據(jù)分析,只能告訴你“大概是什么”,其精髓就是“客觀”.利用計(jì)算機(jī)從海量的數(shù)據(jù)中發(fā)現(xiàn)模式,體現(xiàn)了數(shù)據(jù)中的共性和客觀性.

        個(gè)人需要的是細(xì)粒度數(shù)據(jù).在長(zhǎng)期的知識(shí)積累的基礎(chǔ)上,并通過(guò)網(wǎng)絡(luò)上的新知識(shí)搜索,再進(jìn)行橫向或者縱向的比較,輔助個(gè)人的決策.

        大數(shù)據(jù)使決策從“支持政府和企業(yè)”走向“支持個(gè)人”.大數(shù)據(jù)時(shí)代,只要能從大數(shù)據(jù)中通過(guò)不同的方法,獲得所需要的信息就能獲益.未來(lái),數(shù)據(jù)將會(huì)像土地、石油和資本一樣,成為社會(huì)、經(jīng)濟(jì)和軍事的根本性資源.

        [1] [英]維克托·邁爾-舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2013.

        [2] [美]弗蘭克斯.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013.

        [3] 陳文偉.決策支持系統(tǒng)及其開(kāi)發(fā)[M].第4版.北京:清華大學(xué)出版社,2014.

        [4] 陳文偉.決策支持系統(tǒng)教程[M].第2版.北京:清華大學(xué)出版社,2010.

        [5] 陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].第2版.北京:清華大學(xué)出版社,2011.

        [6] 陳文偉.論新常數(shù)μ、θ和新公式 π=1/2eθ[J].高等數(shù)學(xué)研究,2009,4(4):2-5.

        [7] CHEN Wenwei.Two New Constantsμ,θand a New Formula π=1/2eθ[J].Octogon Mathematical Magazine,2012,20(2):472-480.

        (責(zé)任編輯 向陽(yáng)潔)

        EraofBigData:FromDatatoDecision

        CHEN Wenwei1,CHEN Sheng2

        (1.Naval Arms Command Academy,Guangzhou 510430,China;2.SoftStone Information Technology (Group) Co.,Ltd.,Beijing 100193,China)

        According to the characteristics of the era of Big Data and the changes it brings,it is clear that core of Big Data era is from data to decision making.The rise of real ̄time decision ̄making in the era of Big Data,from large enterprises to individual,is comprehensively analyzed and described in the paper.In the aspect of data ̄aided decision making,this paper discusses the effective methods of using statistic methods to support decision ̄making,deriving mathematical formula from data and acquiring knowledge from data.The combination of big data and cloud computing will achieve the mutual promotion and common development.Finally,this paper puts forward that big data not only support large enterprises and government making decision,but also support the personal decisions.

        Big Data era;instant decision;statistic method;mathematic model;knowledge;cloud computing;decision

        1007-2985(2014)03-0031-06

        2013-11-12

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61273306)

        陳文偉(1940-),男,江西人,海軍兵種指揮學(xué)院三系教授,博士生導(dǎo)師,主要從事決策支持系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘等研究.

        TP301

        A

        10.3969/j.issn.1007-2985.2014.03.008

        猜你喜歡
        數(shù)據(jù)挖掘決策信息
        為可持續(xù)決策提供依據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        決策為什么失誤了
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會(huì)信息
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
        軍事歷史(1997年5期)1997-08-21 02:36:06
        湘贛邊秋收起義的決策經(jīng)過(guò)
        軍事歷史(1991年5期)1991-08-16 02:17:34
        人妻少妇艳情视频中文字幕| 欧洲成人午夜精品无码区久久| 久久精品国产日本波多麻结衣| 久久se精品一区二区国产| 人妻少妇精品视频一区二区三区| 色偷偷亚洲女人的天堂| 亚洲av无一区二区三区| 北条麻妃国产九九九精品视频| 免费现黄频在线观看国产| 好爽受不了了要高潮了av| 中文字幕二区三区在线| 中文字幕本久久精品一区| 亚洲av日韩av天堂一区二区三区| 亚洲美女影院| 日产精品一区二区在线| 国产日韩厂亚洲字幕中文| 国语自产视频在线| 中文成人无字幕乱码精品区| 国内精品久久久久久无码不卡| 欧美成人a视频免费专区| 午夜免费观看国产视频| 精品欧洲av无码一区二区14 | 亚洲中文字幕av天堂自拍| 精品无码久久久久成人漫画| 亚洲大片免费| 伊人久久婷婷综合五月97色| av国产自拍在线观看| 欧美牲交a欧美牲交aⅴ| 久久久久亚洲精品中文字幕| 欧美日韩亚洲成色二本道三区| 国产精品一区二区午夜久久 | 99国产精品久久久久久久成人热| 无码人妻人妻经典| 国产nv精品你懂得| 一区二区三区精品婷婷| 一边摸一边抽搐一进一出视频| 国产超碰人人做人人爱ⅴa| 少妇特殊按摩高潮惨叫无码| 精品高清免费国产在线| 无码日韩精品一区二区三区免费 | 在线观看国产一区二区av |