亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)及應(yīng)用

        2019-10-21 05:12:45朱芷瑩余思賢
        科學(xué)與財(cái)富 2019年20期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        朱芷瑩 余思賢

        摘 要:當(dāng)今世界正處于從IT時(shí)代向DT時(shí)代邁進(jìn)的過渡階段,大數(shù)據(jù)時(shí)代。數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)處理技術(shù),其前景非常理想,本文以數(shù)據(jù)挖掘的定義為出發(fā)點(diǎn),細(xì)致的介紹了各種數(shù)據(jù)挖掘的技術(shù)方法,總結(jié)其特點(diǎn),并給出相應(yīng)的應(yīng)用領(lǐng)域。

        關(guān)鍵詞:DT時(shí)代;數(shù)據(jù)挖掘;應(yīng)用領(lǐng)域

        大數(shù)據(jù)的概念最先出現(xiàn)于網(wǎng)絡(luò)上,它用于描述一個(gè)現(xiàn)象:互聯(lián)網(wǎng)公司日常運(yùn)營(yíng)所產(chǎn)生和積累的客戶數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),導(dǎo)致現(xiàn)有數(shù)據(jù)管理軟件無法駕馭,其難點(diǎn)在于,數(shù)據(jù)的獲取、存儲(chǔ)、處理和分析。這種數(shù)據(jù)量,不是用日常衡量單位G或T來衡量,而是P(220G)、E(230G)或Z(240G)或者更大的數(shù)量級(jí)來度量。所以被稱為大數(shù)據(jù)[1]。大數(shù)據(jù)的主要來源有4個(gè)方面,分別為傳感器、網(wǎng)站點(diǎn)擊流、移動(dòng)設(shè)備和射頻識(shí)別。其特點(diǎn)是數(shù)據(jù)源異構(gòu)復(fù)雜和種類繁多、數(shù)據(jù)量體量大、實(shí)時(shí)處理困難。

        數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),能有效從大量數(shù)據(jù)中獲取有效信息,能較好針對(duì)大數(shù)據(jù)特點(diǎn),處理大數(shù)據(jù)。因此,其在大數(shù)據(jù)時(shí)代背景下,有遠(yuǎn)大的前景和充足的應(yīng)用空間。

        1.數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科[2],其廣義上的定義為,從數(shù)據(jù)集里面獲取隱晦的有用的信息和知識(shí)的過程。其操作的核心理念:基于對(duì)數(shù)據(jù)集的深刻認(rèn)識(shí),高度抽象并概括數(shù)據(jù)本質(zhì),將數(shù)據(jù)隱藏的信息變得易于讀取。這些數(shù)據(jù)集往往具有大規(guī)模性、不完全性、參雜噪聲、模糊性和隨機(jī)性的特點(diǎn),涵蓋了大數(shù)據(jù)的特點(diǎn)。所以,數(shù)據(jù)挖掘技術(shù)能很好地應(yīng)對(duì)大數(shù)據(jù)。

        數(shù)據(jù)挖掘一般有五個(gè)步驟,分別是數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表達(dá)。

        1.1數(shù)據(jù)選擇

        由于原始數(shù)據(jù)集具有規(guī)模大、參雜噪聲的特點(diǎn),所以必須根據(jù)想要獲取信息的特點(diǎn),選擇相應(yīng)的數(shù)據(jù)集來進(jìn)行數(shù)據(jù)挖掘操作。這樣可以極大的減少運(yùn)算量,提升挖掘效率。

        1.2數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)中各類數(shù)據(jù)的單位、量級(jí)通常不同,為保證能快速挖掘出有用信息,必須進(jìn)行數(shù)據(jù)預(yù)處理操作。預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約、數(shù)據(jù)離散化等。需要根據(jù)數(shù)據(jù)的特點(diǎn)和挖掘目標(biāo)選擇相應(yīng)的方法。

        1.3模式發(fā)現(xiàn)

        這是數(shù)據(jù)挖掘過程的關(guān)鍵環(huán)節(jié),是從預(yù)處理后的數(shù)據(jù)中進(jìn)行知識(shí)發(fā)現(xiàn)的過程。

        1.4模式評(píng)估

        這是評(píng)價(jià)環(huán)節(jié),對(duì)發(fā)現(xiàn)的知識(shí)進(jìn)行評(píng)估,得到對(duì)應(yīng)的知識(shí)模式。

        1.5知識(shí)表示

        這是數(shù)據(jù)挖掘的結(jié)果展示環(huán)節(jié)。將挖掘出的知識(shí)模式通過直觀感性的方式展示出來,把機(jī)器可讀的數(shù)據(jù)變成人類可讀的圖文。

        2.數(shù)據(jù)挖掘的技術(shù)方法

        數(shù)據(jù)挖掘的技術(shù)方法按模型建立方式的不同,可簡(jiǎn)單歸為兩類。一類是統(tǒng)計(jì)類,有聚類分析和關(guān)聯(lián)分析等;一類是機(jī)器學(xué)習(xí)類,有監(jiān)督性學(xué)習(xí)和無監(jiān)督性學(xué)習(xí)。每種方法都有其的功能特點(diǎn)和相應(yīng)的應(yīng)用領(lǐng)域,以下介紹數(shù)據(jù)挖掘中常用的幾種技術(shù)方法。

        2.1關(guān)聯(lián)分析

        關(guān)聯(lián)分析作為一種有效的數(shù)據(jù)挖掘技術(shù),其主要用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性。其基本思路可用“W->B”表示。其中W指屬性集,B指屬性個(gè)體。操作規(guī)則簡(jiǎn)單來說,就是在數(shù)據(jù)集中,W具有真值,則B具有真值的可能性和趨勢(shì)。最典型的關(guān)聯(lián)分析為貨籃分析。其屬性值有兩個(gè),分別是支持度和置信度。這樣W屬性集就由“支持度-置信度”構(gòu)成。比如,在生產(chǎn)過程中,事件A發(fā)生了,分析事件B發(fā)生的可能性。這個(gè)對(duì)于故障檢測(cè)和維修很有應(yīng)用價(jià)值。關(guān)聯(lián)分析能從關(guān)系數(shù)據(jù)中,獲取感興趣的知識(shí)模式,在眾多行業(yè)中都有應(yīng)用價(jià)值。

        2.2 決策樹

        決策樹主要是根據(jù)數(shù)據(jù)的屬性值來對(duì)數(shù)據(jù)進(jìn)行分類,其主要的規(guī)則是“If-then”。它的主要優(yōu)點(diǎn)就是直觀性,可以顯示出得出結(jié)果的決策過程。這點(diǎn),它優(yōu)于神經(jīng)網(wǎng)絡(luò)。但是,在面對(duì)復(fù)雜的數(shù)據(jù)時(shí),決策樹會(huì)產(chǎn)生很多的分支,這不便于管理。此外,在面對(duì)數(shù)據(jù)缺值問題時(shí),它沒有較好的處理方法。目前,決策樹涵蓋的算法有ID3、CART、CHAID、SPRINT和SLIQ。

        2.3 遺傳算法

        遺傳算法用到了生物學(xué)中的一個(gè)概念--遺傳。物種的繁衍講究適者生存原則,同樣,遺傳算法也有著類似原則。其通過模擬自然界物種的進(jìn)化機(jī)制,逐漸產(chǎn)生最合適的規(guī)則,并組建新群體,而后產(chǎn)生規(guī)則的子體。因此,可利用遺傳算法獲得最佳模型,優(yōu)化數(shù)據(jù)模型。遺傳算法是一種弱方法,對(duì)信息缺少問題不敏感,效率高,運(yùn)用也較為靈活,可用于評(píng)估數(shù)據(jù)挖掘算法中的其他算法。

        該算法在處理數(shù)據(jù)分類問題上,極其合適。利用時(shí)間類比和空間類比的手段,將大量的種類豐富的信息數(shù)據(jù)系統(tǒng)化,從而發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),獲得合適的模型。在模型建立時(shí),可以與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,提高模型的可理解性。

        2.4貝葉斯網(wǎng)絡(luò)

        貝葉斯網(wǎng)絡(luò)作為建立在數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ)上一種方法,其理論依據(jù)就是后驗(yàn)概率的貝葉斯定理。其思路是將不確定事件用網(wǎng)絡(luò)關(guān)聯(lián)起來,從而預(yù)測(cè)相關(guān)事件的發(fā)生概率。其網(wǎng)絡(luò)變量沒有明確要求,可以可見,也可以隱藏于樣本中。其功能有聚類、分類、預(yù)測(cè)和因果分析。對(duì)比其他算法,貝葉斯網(wǎng)絡(luò)的優(yōu)勢(shì)在于可理解性好、預(yù)測(cè)效果好。不過,對(duì)于低概率事件的處理問題,它效果較差。

        2.5 粗糙集方法

        粗糙集方法作為一種數(shù)學(xué)工具,對(duì)于數(shù)據(jù)挖掘,意義重大。在面對(duì)含糊性的問題時(shí),該方法可以找出不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。此外,還可以進(jìn)行特征歸約和相關(guān)性分析的操作。粗糙集主要優(yōu)點(diǎn)在于,不依賴數(shù)據(jù)的初始或附加信息。這樣,在應(yīng)對(duì)不完整的信息分類時(shí),可以采用它。應(yīng)用粗糙集方法,可以極大提高數(shù)據(jù)挖掘的效率。

        2.6 神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)屬于最常見的數(shù)據(jù)挖掘技術(shù)。其基本思路是,通過模擬人腦的重復(fù)學(xué)習(xí)方式,對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,最終得到區(qū)分各種樣本的特征和模式。為保證精準(zhǔn)擬合各種樣本數(shù)據(jù),應(yīng)盡量挑選具有代表性的訓(xùn)練樣本集。它的最大特點(diǎn)在于,可理解性差,即無法知道通過何種規(guī)則得到這樣的結(jié)果。優(yōu)點(diǎn)在于,能處理復(fù)雜問題、對(duì)噪聲數(shù)據(jù)不敏感以及能對(duì)新數(shù)據(jù)進(jìn)行分類。

        2.7 統(tǒng)計(jì)分析

        統(tǒng)計(jì)分析是基于統(tǒng)計(jì)學(xué)和概率論的一種數(shù)據(jù)挖掘方法。它是基于數(shù)學(xué)模型的一種方法,具有易于理解,精準(zhǔn)計(jì)算結(jié)果的特點(diǎn)。統(tǒng)計(jì)分析主要包含回歸分析、因子分析和判別分析三種,實(shí)際應(yīng)用空間較大。

        3.數(shù)據(jù)挖掘技術(shù)的應(yīng)用

        數(shù)據(jù)挖掘技術(shù)應(yīng)用的領(lǐng)域很廣泛,下面簡(jiǎn)單的介紹四種應(yīng)用領(lǐng)域。

        3.1市場(chǎng)銷售領(lǐng)域[3]

        數(shù)據(jù)挖掘技術(shù)最早開始應(yīng)用的領(lǐng)域和應(yīng)用最多的領(lǐng)域就是市場(chǎng)銷售,旨在分析消費(fèi)者的消費(fèi)習(xí)慣和特點(diǎn),增加銷售量。同時(shí),也常用發(fā)現(xiàn)潛在客戶,增加行業(yè)效益。常用的數(shù)據(jù)挖掘技術(shù)有關(guān)聯(lián)分析、決策樹和粗糙集方法[1]。需要注意的一點(diǎn),在對(duì)客戶數(shù)據(jù)進(jìn)行挖掘的同時(shí),注意保護(hù)好客戶信息不泄露,保護(hù)客戶的個(gè)人隱私。

        3.2科研領(lǐng)域

        分析各種實(shí)驗(yàn)數(shù)據(jù),是科研的必要步驟。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)處理技術(shù),經(jīng)常會(huì)被用于分析各種實(shí)驗(yàn)數(shù)據(jù),尋找相關(guān)規(guī)律。在科研領(lǐng)域,數(shù)據(jù)挖掘就是一個(gè)工具,各種技術(shù)方法都會(huì)根據(jù)需要而被使用。

        3.3制造領(lǐng)域

        生產(chǎn)產(chǎn)品的過程中,也會(huì)生產(chǎn)出各種數(shù)據(jù)。這些數(shù)據(jù),反映著生產(chǎn)技術(shù)、產(chǎn)品、運(yùn)輸?shù)确矫娴男畔?。通過使用數(shù)據(jù)挖掘技術(shù),能找出影響產(chǎn)品質(zhì)量和生產(chǎn)效率的因素。消除這些因素,就可提高生產(chǎn)效率和產(chǎn)品質(zhì)量。在制造領(lǐng)域,常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、決策樹、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)分析。

        3.4金融領(lǐng)域

        金融行業(yè)的數(shù)據(jù)較為完整、齊全,且金融業(yè)的利潤(rùn)大。因此,數(shù)據(jù)挖掘技術(shù)在這個(gè)行業(yè)里,得到較為成熟的應(yīng)用。其主要通過數(shù)據(jù)挖掘來分析市場(chǎng)波動(dòng),建立對(duì)應(yīng)的預(yù)測(cè)模型,給投資分析提供便利。常用的數(shù)據(jù)挖掘技術(shù)有遺傳算法、粗糙集方法、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)分析。

        總結(jié)

        在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)作為能較好處理大數(shù)據(jù)的工具,其前途不可限量。

        參考文獻(xiàn):

        [1]唐雅璇, 李麗娟, 吳芬琳. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J]. 電子技術(shù)與軟件工程, 2017(21):159-159.

        作者簡(jiǎn)介:

        朱芷瑩(1998—),女,漢族,四川成都人,本科在讀,西安財(cái)經(jīng)大學(xué)信息管理與信息系統(tǒng)專業(yè)大三學(xué)生

        余思賢(1999—),女,漢族,江西上饒人,本科在讀,西安財(cái)經(jīng)大學(xué)信息管理與信息系統(tǒng)專業(yè)大三學(xué)生

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        美国又粗又长久久性黄大片| 无套中出丰满人妻无码| 精品人妻一区二区三区四区在线| 日韩人妻无码一区二区三区久久| 熟女性饥渴一区二区三区| 人妻少妇看a偷人无码精品| 国产国产人精品视频69| 国产成人精品三上悠亚久久| 亚洲综合久久久中文字幕| 超碰青青草手机在线免费观看 | 国产乱人视频在线看| 美女高潮流白浆视频在线观看| 在线视频一区二区在线观看| 自拍av免费在线观看| 久久熟女少妇一区二区三区| 亚洲天堂精品一区入口| 国产做无码视频在线观看| 成年无码av片在线| 热久久网站| 成人激情视频一区二区三区| 亚洲av产在线精品亚洲第三站| 国产性自爱拍偷在在线播放| 亚洲国产精品无码久久98| 亚洲精品无码成人片久久不卡 | 亚洲精品国产suv一区88| 在线精品一区二区三区| 91社区视频在线观看| 亚洲综合国产成人丁香五月小说| 日本一区中文字幕在线播放| 中文字幕免费人成在线网站| 黑人巨茎大战俄罗斯美女| 亚洲av电影天堂男人的天堂| 国产91精品成人不卡在线观看| 人妻无码∧V一区二区| 人妻秘书被社长浓厚接吻| 91伦理片视频国产精品久久久| 玩弄丰满奶水的女邻居| 国产精品区一区第一页| 久久综合视频网站| 国产黄色一区二区三区av| 国产精品情侣呻吟对白视频|