亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹算法及其改進(jìn)

        2014-11-10 14:37:32蔡星
        科技創(chuàng)新導(dǎo)報(bào) 2014年12期
        關(guān)鍵詞:子集例子決策樹

        蔡星

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        猜你喜歡
        子集例子決策樹
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        《團(tuán)圓之后》:“戲改”的“一個(gè)鮮明的例子”
        中華戲曲(2020年1期)2020-02-12 02:29:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        初中英語課堂妙用“舉例子”
        用通俗的例子打比方
        快樂語文(2016年10期)2016-11-07 09:44:43
        基于決策樹的出租車乘客出行目的識(shí)別
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        亚洲精品国产精品国自产观看 | 国产日产高清一区二区三区| 亚洲精品国产电影| 久久久g0g0午夜无码精品| 伊人精品在线观看| 亚洲成人激情在线影院| 男人天堂亚洲天堂av| 乱子伦在线观看| 免费一级特黄欧美大片久久网| 日韩精品精品一区二区三区| 国产av一卡二卡日韩av| 亚洲国产精品无码专区| 老熟女毛茸茸浓毛| 亚洲av熟女天堂系列| 国产免费二区三区视频| 免费毛片a线观看| 国产99re在线观看只有精品| 国产精品国产三级厂七| 亚洲视频高清一区二区| 亚洲精品一区二区| 日韩女人毛片在线播放| 国产av一区二区日夜精品剧情| 亚洲av无码专区国产不卡顿| 久久久久亚洲av无码专区体验| 久久精品国产88久久综合| 蜜桃av中文字幕在线观看| 国产免费艾彩sm调教视频| 国产91中文| 国产一级r片内射视频播放| 不卡日韩av在线播放| 日出水了特别黄的视频| 国产午夜亚洲精品一级在线| 美女免费观看一区二区三区| 国产精品泄火熟女| 国产91网址| 日韩亚洲在线一区二区| 极品美女扒开粉嫩小泬图片| 无码人妻精品一区二区三区在线| 久久精品国产精品亚洲艾| 久99久精品免费视频热77| 日韩五码一区二区三区地址|