亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的實(shí)踐及應(yīng)用

        2021-10-30 02:35:52雷湘琦
        科學(xué)與生活 2021年19期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        雷湘琦

        摘要:過(guò)去數(shù)十年中,數(shù)據(jù)挖掘得到廣泛的應(yīng)用,作用的領(lǐng)域包括人工智能、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等等。于當(dāng)下的學(xué)生來(lái)說(shuō),數(shù)據(jù)挖掘是一門(mén)經(jīng)久不衰的學(xué)科,而對(duì)于從事數(shù)據(jù)挖掘的工作者來(lái)說(shuō),更是深刻地體會(huì)到了數(shù)據(jù)挖掘強(qiáng)有力的發(fā)展前景。對(duì)數(shù)據(jù)挖掘這個(gè)領(lǐng)域應(yīng)用最多的就是算法,掌握算法的意義就抓住了數(shù)據(jù)挖掘的核心。如今,雖然數(shù)據(jù)挖掘技術(shù)的應(yīng)用相當(dāng)廣泛,但是就算法而言其本質(zhì)并未發(fā)生改變?,F(xiàn)今運(yùn)用的都是一些比較經(jīng)典的算法,如傳統(tǒng)的決策樹(shù)算法等,同時(shí)這些算法也是學(xué)習(xí)數(shù)據(jù)挖掘算法的根基。文中主要列舉相關(guān)算法并應(yīng)用相應(yīng)的實(shí)例加以佐證,指出其中的不足和需要改進(jìn)的地方。

        關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù);鳶尾花數(shù)據(jù)

        引言

        決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)。決策樹(shù)模式呈樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一個(gè)類(lèi)別。學(xué)習(xí)時(shí)利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化的原則建立決策樹(shù)模型;預(yù)測(cè)時(shí),對(duì)新的數(shù)據(jù),利用決策樹(shù)模型進(jìn)行分類(lèi)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系決策樹(shù)是一種基本的分類(lèi)與回歸方法,本文應(yīng)用的是用于分類(lèi)的決策樹(shù)。

        1 基本原理

        決策樹(shù)學(xué)習(xí)通常包括三個(gè)步驟:特征選擇,決策樹(shù)的生成和決策樹(shù)的剪枝。

        1.1 特征選擇

        特征選擇在于選取對(duì)訓(xùn)練數(shù)據(jù)具有分類(lèi)能力的特征,這樣可以提高決策樹(shù)學(xué)習(xí)的效率。通常特征選擇的準(zhǔn)則是信息增益(或信息增益比、基尼指數(shù)等),每次計(jì)算每個(gè)特征的信息增益,并比較它們的大小,選擇信息增益最大(信息增益比最大、基尼指數(shù)最?。┑奶卣鳌?/p>

        下面重點(diǎn)介紹一下本文特征選擇的準(zhǔn)則:信息增益。首先定義信息論中廣泛使用的一個(gè)度量標(biāo)準(zhǔn)——熵(Entropy),它是表示隨機(jī)變量不確定性的度量。熵越大,隨機(jī)變量的不確定性就越大。而信息增益(Informational Entropy)表示得知某一特征后使得信息的不確定性減少的程度。簡(jiǎn)單的說(shuō),一個(gè)屬性的信息增益就是由于使用這個(gè)屬性分割樣例而導(dǎo)致的期望熵降低。信息增益、信息增益比和基尼指數(shù)的具體定義如下:信息增益:特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益,定義為集合D的經(jīng)驗(yàn)熵與特征A給定條件下D的經(jīng)驗(yàn)條件熵之差,即信息增益比:特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益比定義為其信息增益與訓(xùn)練數(shù)據(jù)集D關(guān)于特征A的值的熵之比,即其中n是特征A取值的個(gè)數(shù)。

        1.2 決策樹(shù)的生成

        ? 從根結(jié)點(diǎn)開(kāi)始,對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征,由該特征的不同取值建立子結(jié)點(diǎn),再對(duì)子結(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹(shù);直到所有特征的信息增均很小或沒(méi)有特征可以選擇為止,最后得到一個(gè)決策樹(shù)。決策樹(shù)需要有停止條件來(lái)終止其生長(zhǎng)的過(guò)程。一般來(lái)說(shuō)最低的條件是:當(dāng)該節(jié)點(diǎn)下面的所有記錄都屬于同一類(lèi),或者當(dāng)所有的記錄屬性都具有相同的值時(shí)。這兩種條件是停止決策樹(shù)的必要條件,也是最低的條件。在實(shí)際運(yùn)用中一般希望決策樹(shù)提前停止生長(zhǎng),限定葉節(jié)點(diǎn)包含的最低數(shù)據(jù)量,以防止由于過(guò)度生長(zhǎng)造成的過(guò)擬合問(wèn)題。

        1.3 決策樹(shù)的剪枝

        ? 決策樹(shù)生成算法遞歸地產(chǎn)生決策樹(shù),直到不能繼續(xù)下去為止。這樣產(chǎn)生的樹(shù)往往對(duì)訓(xùn)練數(shù)據(jù)的分類(lèi)很準(zhǔn)確,但對(duì)未知的測(cè)試數(shù)據(jù)的分類(lèi)卻沒(méi)有那么準(zhǔn)確,即出現(xiàn)過(guò)擬合現(xiàn)象。解決這個(gè)問(wèn)題的辦法是考慮決策樹(shù)的復(fù)雜度,對(duì)已生成的決策樹(shù)進(jìn)行簡(jiǎn)化,這個(gè)過(guò)程稱(chēng)為剪枝。

        本文將應(yīng)用鳶尾花數(shù)據(jù)進(jìn)行決策樹(shù)分析。

        2 決策樹(shù)的剪枝

        Iris 鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集。數(shù)據(jù)集內(nèi)包含 3 類(lèi)共 150 條記錄,每類(lèi)各 50 個(gè)數(shù)據(jù),每條記錄都有 4 項(xiàng)特征:花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度,可以通過(guò)這4個(gè)特征預(yù)測(cè)鳶尾花卉屬于(Iris-setosa,Iris-versicolour,Iris-virginica)中的哪一品種。

        2.1 利用Decision Tree分類(lèi)器對(duì)Iris data進(jìn)行分類(lèi)

        2.1.1 Decision Tree分類(lèi)過(guò)程

        如圖1-1。

        2.1.2 Decision Tree分類(lèi)結(jié)果

        如圖1-2。

        3 結(jié)束語(yǔ)

        經(jīng)上述分析,決策樹(shù)分類(lèi)算法與統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)分類(lèi)算法相比較具備以下優(yōu)點(diǎn):首先,通過(guò)決策樹(shù)分類(lèi)算法進(jìn)行分類(lèi),出現(xiàn)的分類(lèi)規(guī)則相對(duì)較容易理解,并且在決策樹(shù)中由于每一個(gè)分支都對(duì)應(yīng)不同的分類(lèi)規(guī)則,所以在最終進(jìn)行分類(lèi)的過(guò)程中,能夠說(shuō)出一個(gè)更加便于了解的規(guī)則集。其次,在使用決策樹(shù)分類(lèi)算法對(duì)數(shù)據(jù)挖掘中的數(shù)據(jù)進(jìn)行相應(yīng)的分類(lèi)過(guò)程中,與其他分類(lèi)方法相比,速率更快,效率更高。最后,決策樹(shù)分類(lèi)算法還具有較高的準(zhǔn)確度,從而確保在分類(lèi)的過(guò)程中能夠提高工作效率和工作質(zhì)量。決策樹(shù)分類(lèi)算法與其他分類(lèi)算法相比,雖然具備很多優(yōu)點(diǎn),但是也存在一定的缺點(diǎn),其缺點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:首先,在進(jìn)行決策樹(shù)的構(gòu)造過(guò)程中,由于需要對(duì)數(shù)據(jù)集進(jìn)行多次的排序和掃描,因此導(dǎo)致在實(shí)際工作過(guò)程中工作量相對(duì)較大,從而可能會(huì)使分類(lèi)算法出現(xiàn)較低能效的問(wèn)題。

        參考文獻(xiàn):

        [1]程一芳.數(shù)據(jù)挖掘中的數(shù)據(jù)分類(lèi)算法綜述[J].數(shù)字通信世界,2021(02):136-137+140.

        [2]韓成成,增思濤,林強(qiáng),曹永春,滿(mǎn)正行.基于決策樹(shù)的流數(shù)據(jù)分類(lèi)算法綜述[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,41(02):20-30.

        [3]姚奇峰,楊連賀.數(shù)據(jù)挖掘經(jīng)典分類(lèi)聚類(lèi)算法的研究綜述[J].現(xiàn)代信息科技,2019,3(24):86-88.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        91精品国产在热久久| 色播中文字幕在线视频| 初尝人妻少妇中文字幕在线| 精品女厕偷拍视频一区二区| 挺进邻居丰满少妇的身体| 疯狂做受xxxx高潮欧美日本| 人与动牲交av免费| 四虎影院在线观看| 精品国产你懂的在线观看| 久久精品免费视频亚洲| 亚洲国产aⅴ成人精品无吗| 国产第一页屁屁影院| 99久久精品久久久| 人妻经典中文字幕av| 国产福利永久在线视频无毒不卡| 亚洲av色无码乱码在线观看| 成年女人片免费视频播放A| 99久久精品一区二区国产| 高h纯肉无码视频在线观看| 无码丰满少妇2在线观看| 亚洲一区二区高清在线| 日本国产精品久久一线| 激情综合色综合久久综合| 成人区视频| 日韩av一区二区在线观看| 无码精品人妻一区二区三区漫画| 亚洲av日韩av综合| 国产在线h视频| 久亚洲精品不子伦一区| 网禁拗女稀缺资源在线观看| 日韩在线看片免费人成视频| 黄色三级一区二区三区| 国产欧美在线观看不卡 | 日韩电影一区二区三区| 成人综合亚洲欧美一区h| 久久精品国产69国产精品亚洲| 久久婷婷人人澡人人爽人人爱 | 中文亚洲av片在线观看| 国产真人无遮挡免费视频| 国产一区二区三区探花| 日本精品少妇一区二区三区|