亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹算法及其改進(jìn)

        2014-11-10 14:37:32蔡星
        科技創(chuàng)新導(dǎo)報(bào) 2014年12期
        關(guān)鍵詞:子集例子決策樹

        蔡星

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        摘 要:該文對(duì)傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對(duì)該類問題,基于雙重熵平均決策樹算法,通過兩次對(duì)樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

        關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(c)-0040-02

        數(shù)據(jù)聯(lián)機(jī)分析功能是通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識(shí)和規(guī)律,該文采用決策樹方法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

        1 C4.5算法思想

        決策樹的優(yōu)點(diǎn)在于原理簡(jiǎn)單,發(fā)現(xiàn)知識(shí)較快;計(jì)算較為簡(jiǎn)單,運(yùn)算速度較快,對(duì)于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對(duì)較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對(duì)數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對(duì)于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

        C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢(shì),改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對(duì)上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對(duì)象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少?zèng)Q策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

        C4.5決策樹算法設(shè)研究對(duì)象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

        (1)類別在出現(xiàn)的概率如式(1)所示:

        (1)endprint

        猜你喜歡
        子集例子決策樹
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        《團(tuán)圓之后》:“戲改”的“一個(gè)鮮明的例子”
        中華戲曲(2020年1期)2020-02-12 02:29:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        初中英語課堂妙用“舉例子”
        用通俗的例子打比方
        快樂語文(2016年10期)2016-11-07 09:44:43
        基于決策樹的出租車乘客出行目的識(shí)別
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        久久婷婷五月综合色欧美| 亚洲欧美日韩在线中文一| 久久国产亚洲中文字幕| 中文字幕亚洲综合久久久| 日本人视频国产一区二区三区| 成人欧美一区二区三区在线观看 | avtt一区| av免费网站不卡观看| 亚洲写真成人午夜亚洲美女| 国产精品无码无卡无需播放器 | 精品久久久久久午夜| 日韩十八禁在线观看视频| 婚外情长久的相处之道| 精品国品一二三产品区别在线观看| 国产精品熟女一区二区| 欧美日韩国产成人综合在线影院| 中文字幕高清一区二区| 性生大片免费观看性少妇| 国产av国片精品有毛| 国产人妻久久精品二区三区| 日本女优中文字幕看片| 全程国语对白资源在线观看| av在线免费高清观看| 麻豆tv入口在线看| av无码久久久久久不卡网站 | gg55gg国产成人影院| 国产老熟女网站| 亚洲色偷偷综合亚洲av伊人| 亚洲AV无码日韩一区二区乱| 男女啪啪在线视频网站| 精品福利一区二区三区免费视频 | 欧美巨鞭大战丰满少妇| 西西人体444www大胆无码视频| 亚洲另类激情专区小说婷婷久| 人妻少妇偷人精品久久人妻| 亚洲天堂二区三区三州| 中国少妇内射xxxx狠干| 成人xx免费无码| 国产成年女人特黄特色毛片免| 亚洲永久国产中文字幕| 一本久道综合在线无码人妻|