亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的信息處理

        2014-07-02 07:25:40周勝利
        科學(xué)時(shí)代·上半月 2014年5期
        關(guān)鍵詞:挖掘信息時(shí)代分析

        周勝利

        【摘 要】信息時(shí)代的特征之一就是數(shù)據(jù)的密集爆發(fā),人們積累的數(shù)據(jù)越來(lái)越多,而這種數(shù)據(jù)的變化沒有一個(gè)循序漸進(jìn)的過(guò)程,而是呈現(xiàn)跨越式的特征,因此傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘有效信息的需求。從而就需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),即數(shù)據(jù)挖掘技術(shù)。本文深入淺出地闡述了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,概念以及數(shù)據(jù)挖掘的常用技術(shù)。

        【關(guān)鍵詞】信息時(shí)代;數(shù)據(jù);挖掘;分析

        一、大數(shù)據(jù)的定義

        所謂“大數(shù)據(jù)”,一般具有幾個(gè)特點(diǎn):首先是數(shù)據(jù)量很大,已經(jīng)從TB級(jí)躍升至PB級(jí);其次是區(qū)別于傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),“大數(shù)據(jù)”時(shí)代的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,超過(guò)80%都是非結(jié)構(gòu)化數(shù)據(jù),比如道路上的視頻監(jiān)控?cái)?shù)據(jù)、網(wǎng)上的流媒體數(shù)據(jù)、物聯(lián)網(wǎng)中RFID的感應(yīng)數(shù)據(jù),以及社交網(wǎng)絡(luò)上產(chǎn)生的各種數(shù)據(jù)等。這兩個(gè)特點(diǎn),給數(shù)據(jù)存儲(chǔ)、管理和挖掘帶來(lái)了困難。第三,數(shù)據(jù)更新快,比如視頻監(jiān)控每秒鐘都在進(jìn)行,微博隨時(shí)都有人在更新;最后,是對(duì)數(shù)據(jù)的隨機(jī)訪問(wèn),這些更個(gè)人化的數(shù)據(jù)在存儲(chǔ)后被再次訪問(wèn)的時(shí)間是不確定的。這兩點(diǎn)就要求新的IT系統(tǒng)更夠更快地處理數(shù)據(jù),并且能夠更智能地保存和管理數(shù)據(jù)。比如在某一天,你需要從監(jiān)控錄像中找出某個(gè)人,那么就需要能夠迅速地查找、調(diào)用、分析之前保存的海量數(shù)據(jù)?!按髷?shù)據(jù)”的這些特點(diǎn),對(duì)數(shù)據(jù)搜索及管理提出了更高要求,因?yàn)樵凇按髷?shù)據(jù)”時(shí)代只有經(jīng)過(guò)分析提煉的關(guān)鍵數(shù)據(jù)才有價(jià)值。

        二、數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程,它是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式,它并不是用規(guī)范的數(shù)據(jù)庫(kù)查詢語(yǔ)言進(jìn)行查詢,而是對(duì)查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報(bào)表處理只是得到事件發(fā)生的結(jié)果,并沒有深入研究發(fā)生的原因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對(duì)未來(lái)進(jìn)行預(yù)測(cè),用來(lái)為決策行為提供有利的支持。

        (1)統(tǒng)計(jì)學(xué)

        統(tǒng)計(jì)學(xué)在數(shù)據(jù)樣本選擇、數(shù)據(jù)預(yù)處理及評(píng)價(jià)抽取知識(shí)的步驟中有非常重要的作用。以往許多統(tǒng)計(jì)學(xué)的工作是針對(duì)數(shù)據(jù)和假設(shè)檢驗(yàn)的模型進(jìn)行評(píng)價(jià),很明顯也包括了評(píng)價(jià)數(shù)據(jù)挖掘的結(jié)果。在數(shù)據(jù)預(yù)處理步驟中,統(tǒng)計(jì)學(xué)提出了估計(jì)噪聲參數(shù)過(guò)程中要用的平滑處理的技術(shù),在一定程度上對(duì)補(bǔ)足丟失數(shù)據(jù)有相當(dāng)?shù)淖饔?。統(tǒng)計(jì)學(xué)對(duì)檢測(cè)數(shù)據(jù)分析、聚類和實(shí)驗(yàn)數(shù)據(jù)參數(shù)設(shè)計(jì)上也有用。但統(tǒng)計(jì)學(xué)研究的焦點(diǎn)是在于處理小規(guī)模數(shù)據(jù)樣本采集和小規(guī)模數(shù)據(jù)集處理的問(wèn)題上。統(tǒng)計(jì)學(xué)的工作大多是針對(duì)技術(shù)和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計(jì)和嚴(yán)格分類參數(shù)模型上。只有在進(jìn)行相近模式區(qū)別時(shí)才強(qiáng)調(diào)尋優(yōu)。

        (2)模式識(shí)別

        在模式識(shí)別工作中,傳統(tǒng)上是把注意力集中在符號(hào)形式化直接結(jié)合實(shí)際技術(shù)的工作過(guò)程中。模式識(shí)別主要用于分類技術(shù)和數(shù)據(jù)的聚類技術(shù)上。模式識(shí)別中的分類和含義分析是對(duì)數(shù)據(jù)挖掘概念形成的開端。多數(shù)模式識(shí)別的算法和方法對(duì)降維、變換和設(shè)置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識(shí)別比統(tǒng)計(jì)學(xué)更為重要,因?yàn)樗鼜?qiáng)調(diào)了計(jì)算機(jī)算法、更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和更多的搜索。典型的數(shù)據(jù)分類是用一定的分類技術(shù)把數(shù)據(jù)從一個(gè)向量空間映射到另外一個(gè)向量空間。但這種映射并不總是有意義的。比如,形狀上“方”與“圓”的差別就很難說(shuō)比性別上“男”與“女”的差別大。顯然,這其中應(yīng)當(dāng)注重其語(yǔ)言的含義。

        (3)人工智能

        人工智能對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)原來(lái)一直是在符號(hào)的層次上處理數(shù)據(jù),而對(duì)于連續(xù)變量注意較少。在機(jī)器學(xué)習(xí)和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對(duì)于其結(jié)果,并不象模式識(shí)別和統(tǒng)計(jì)學(xué)在數(shù)學(xué)上的精確和要求嚴(yán)格分析。隨著計(jì)算機(jī)學(xué)習(xí)理論的發(fā)展。人工智能把注意力集中在了表達(dá)廣義分類的模糊邊緣上。機(jī)器學(xué)習(xí)主要是對(duì)數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)變量選擇處理極有幫助,在通過(guò)大量搜索表達(dá)式和選擇變量上有很大作用。另外,機(jī)器學(xué)習(xí)對(duì)于發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu),特別是人工智能中的不確定推理技術(shù)和基于貝葉斯模型推理是統(tǒng)計(jì)學(xué)意義上的分布密度估計(jì)的強(qiáng)有力的工具。人工智能技術(shù)建立了關(guān)于特定領(lǐng)域知識(shí)和數(shù)據(jù)的已有知識(shí)的相對(duì)容易理解和自然的框架。人工智能的其他技術(shù),包括知識(shí)獲取技術(shù)、知識(shí)搜索和知識(shí)表達(dá)在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟中都有作用。

        (4)數(shù)據(jù)庫(kù)

        數(shù)據(jù)庫(kù)及其相關(guān)技術(shù)顯然與數(shù)據(jù)挖掘有直接的關(guān)系。數(shù)據(jù)庫(kù)是原始數(shù)據(jù)的處理、儲(chǔ)存和操作的基礎(chǔ)。隨著平行和分布式數(shù)據(jù)庫(kù)的使用,對(duì)數(shù)據(jù)錄入和檢索有更高的要求。數(shù)據(jù)挖掘中很重要的一個(gè)問(wèn)題是對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)的在線分析,主要是如何利用多種方法對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和分析。一般來(lái)說(shuō),通過(guò)相關(guān)數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化可以克服要求特殊存取數(shù)據(jù)的困難。在數(shù)據(jù)挖掘中為了對(duì)數(shù)據(jù)進(jìn)行特定的統(tǒng)計(jì)和計(jì)數(shù),則要對(duì)各個(gè)特征屬性進(jìn)行組合形成新的數(shù)據(jù)庫(kù)。其中,對(duì)于數(shù)據(jù)挖掘所得知識(shí)支持率的研究是個(gè)新領(lǐng)域。

        三、數(shù)據(jù)挖掘技術(shù)的方法

        數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,如多種分類法。根據(jù)開采任務(wù)分,可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)開采對(duì)象分,有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)開采方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。

        四、結(jié)束語(yǔ)

        數(shù)據(jù)挖掘技術(shù)是一個(gè)發(fā)展十分快的領(lǐng)域,隨著對(duì)數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來(lái)巨大的成功。21世紀(jì)是信息時(shí)代的社會(huì),“信息不僅是資源,更是財(cái)富”,要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進(jìn)行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫(kù)的應(yīng)用開辟了廣闊的前景,也為人類的文明開辟了一個(gè)嶄新的時(shí)代。

        數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國(guó)際上的一個(gè)研究熱點(diǎn),并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場(chǎng)營(yíng)銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿ΑT谛畔⒐芾眍I(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。

        參考文獻(xiàn):

        [1]韓家煒,堪博著,范明,孟小峰譯數(shù)據(jù)挖掘概念與技術(shù)(第2版)[M]北京:機(jī)械工業(yè)出版社2007

        [2]鄧納姆(Dunham,M.H.)著,郭崇慧,田鳳占,靳曉明等譯數(shù)據(jù)挖掘教程[M]北京:清華大學(xué)出版社2005

        [3]王軍.數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)世界,1998

        [4]朱延劭.科學(xué)研究的好幫手[J].計(jì)算機(jī)世界,1998

        [5]唐紀(jì),王景.組合預(yù)測(cè)方法評(píng)述[J].預(yù)測(cè),1999

        猜你喜歡
        挖掘信息時(shí)代分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        面對(duì)信息時(shí)代 成長(zhǎng)的孩子們
        中華家教(2018年8期)2018-09-25 03:22:42
        信息時(shí)代的智慧教育
        商周刊(2018年14期)2018-07-14 02:41:08
        統(tǒng)計(jì)工作如何應(yīng)對(duì)信息時(shí)代的挑戰(zhàn)
        信息時(shí)代
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        將“再也沒有”帶向更有深度的思考中
        古詩(shī)詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
        關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
        亚洲综合激情另类小说区| 国产精品亚洲美女av网站| 亚洲精品第一页国产精品| 久久久久亚洲精品美女| 巨乳av夹蜜桃站台蜜桃机成人| 视频二区精品中文字幕| 射进去av一区二区三区| 国产精品国产亚洲精品看不卡 | 亚洲av免费看一区二区三区| 亚洲大尺度无码无码专区| 五级黄高潮片90分钟视频| 国模精品二区| 国产91大片在线观看| 日韩 亚洲 制服 欧美 综合| 亚洲欧美激情在线一区| 色婷婷日日躁夜夜躁| 国产精品九九热| 久久精品综合国产二区| 男女动态91白浆视频| 午夜天堂一区人妻| 久久久久久国产精品无码超碰动画| 免费现黄频在线观看国产| 日韩欧美在线播放视频| 日韩精品中文字幕综合| 日本最新一区二区三区在线| 亚洲夜夜性无码| 精品人人妻人人澡人人爽牛牛| 国产亚洲AV无码一区二区二三区| 在线无码精品秘 在线观看 | 国产一区二区三区三区四区精品| 久久精品aⅴ无码中文字字幕| 亚洲av无码乱码国产精品fc2| 亚洲五月激情综合图片区| 国产在线视频一区二区三区| 欧美肥妇毛多水多bbxx水蜜桃 | 人妻少妇精品中文字幕av| 日日躁夜夜躁狠狠躁超碰97| 日日噜噜噜夜夜爽爽狠狠视频| 一区二区亚洲熟女偷拍| 中文字幕亚洲综合久久| a级黑人大硬长爽猛出猛进 |