亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樸素貝葉斯模型及樸素貝葉斯假設(shè)改進(jìn)

        2017-07-25 09:25:12李文超王彥焱吉林大學(xué)軟件學(xué)院
        數(shù)碼世界 2017年7期
        關(guān)鍵詞:樸素獨(dú)立性貝葉斯

        李文超 王彥焱 吉林大學(xué)軟件學(xué)院

        樸素貝葉斯模型及樸素貝葉斯假設(shè)改進(jìn)

        李文超 王彥焱 吉林大學(xué)軟件學(xué)院

        分類問題是數(shù)據(jù)挖掘領(lǐng)域內(nèi)的重要研究課題,而樸素貝葉斯分類是最常見的分類算法之一。本文系統(tǒng)的探討了對(duì)NB模型中的樸素貝葉斯假設(shè)進(jìn)行改進(jìn)的多種方法,介紹了樸素貝葉斯模型及多種擴(kuò)展模型,并對(duì)模型的優(yōu)劣進(jìn)行了簡單分析。

        樸素貝葉斯 分類模型 數(shù)據(jù)挖掘

        1 引言

        樸素貝葉斯(Naive Bayes)分類器是一種簡單而高效的分類器,它可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng)絡(luò)分類器等算法相媲美。但是樸素貝葉斯算法對(duì)各屬性相互獨(dú)立的要求過于苛刻,于是人們采用不同的辦法進(jìn)行改進(jìn)。本文對(duì)其進(jìn)行系統(tǒng)的整理。

        2 樸素貝葉斯模型

        2.1 模型描述

        樸素貝葉斯分類器(Naive Bayes Classifier,NBC)是最基本的貝葉斯模型。模型結(jié)構(gòu)如圖1所示:

        圖1 樸素貝葉斯模型結(jié)構(gòu)圖

        給定的數(shù)據(jù)集屬性過多時(shí),計(jì)算開銷可能過大。此時(shí)可以做類條件獨(dú)立的樸素假定,假設(shè)各屬性值獨(dú)立于類別變量C,此時(shí),=1

        k。若ak是分類屬性,則是屬性為ak的值為 xk的Ci類的元組數(shù)除以Ci類的總元組數(shù);若ak是連續(xù)值屬性,則可按照高斯分布計(jì)算。

        分類器訓(xùn)練完畢后,為了預(yù)測元組x的類標(biāo)號(hào),對(duì)每個(gè)類Ci,計(jì)算上述步驟(2)中分子的值,使該值最大化的即為被預(yù)測的類別。

        2.2 模型主要優(yōu)缺點(diǎn)

        優(yōu)點(diǎn):公式形式簡單,均為數(shù)學(xué)中的基本公式,可擴(kuò)展性強(qiáng);模型時(shí)間和空間復(fù)雜性小,易于實(shí)現(xiàn);算法的性能穩(wěn)定,模型的健壯性較好。

        缺點(diǎn):實(shí)際問題中元組各屬性的相互獨(dú)立性很難實(shí)現(xiàn),所以該模型無法處理組合特征產(chǎn)生的變化結(jié)果;算法依賴于所選的訓(xùn)練集的質(zhì)量,如果訓(xùn)練集含有較多噪聲,則分類結(jié)果的準(zhǔn)確性將受明顯影響。

        3 半樸素貝葉斯分類模型

        3.1 模型描述

        SNBC的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。實(shí)際上,SNBC將屬性劃分為幾個(gè)沒有交集的屬性組,使得屬性組以獨(dú)立的方式存在,這樣就實(shí)現(xiàn)了屬性組間的獨(dú)立性,放低了對(duì)屬性間完全獨(dú)立的要求。SNBC的模型圖如圖2所示:

        圖2 半樸素貝葉斯模型結(jié)構(gòu)圖

        在實(shí)際問題中應(yīng)用SNBC時(shí),最常用的一種策略是“獨(dú)依賴估計(jì)”(One-Dependent Estimator),即每個(gè)屬性在類別之外最多僅依賴于一個(gè)其他屬性。而最直接的實(shí)現(xiàn)ODE的做法是令所有屬性都指向同一個(gè)父節(jié)點(diǎn)“超父”(super-parent),然后通過模型選擇的相關(guān)算法確定超父屬性。

        3.2 模型主要優(yōu)缺點(diǎn)

        由于體育旅游專業(yè)的復(fù)合屬性,現(xiàn)有基礎(chǔ)師資構(gòu)成主要是以體育專業(yè)出身和旅游專業(yè)出身的師資為主。體育院校類和綜合高校的體育院系開設(shè)體育旅游方向的專業(yè),師資力量的構(gòu)成主要是體育學(xué)教師,旅游院系則主要是旅游管理類教師,缺乏復(fù)合型的師資體系和教學(xué)隊(duì)伍。進(jìn)一步完善教學(xué)師資力量結(jié)構(gòu)體系是體育旅游專業(yè)人才培養(yǎng)首先需要解決的問題。應(yīng)加強(qiáng)體育旅游專業(yè)人才師資隊(duì)伍的建設(shè),建立專門的培養(yǎng)機(jī)構(gòu)或者在相關(guān)高等院校開設(shè)長短期的進(jìn)修班,培養(yǎng)復(fù)合應(yīng)用型的師資隊(duì)伍。

        優(yōu)點(diǎn):通過建立屬性組,減少了過于嚴(yán)苛的獨(dú)立性假設(shè)對(duì)分類性能的負(fù)面影響。

        缺點(diǎn):如果目標(biāo)數(shù)據(jù)集太大,或者數(shù)據(jù)集中的屬性太多,那么條件互信息的計(jì)算效率將非常高,對(duì)運(yùn)行環(huán)境有較高的要求。不過,采用ODE策略可以在一定程度上緩解該問題。

        4 提升的樸素貝葉斯分類模型

        4.1 模型描述

        Freund等提出了提升的樸素貝葉斯分類模型。這種算法可以把“弱學(xué)習(xí)算法”提升為“強(qiáng)學(xué)習(xí)算法”,且并未改變獨(dú)立性假設(shè)。AdaBoost算法的大概流程如下:

        ①設(shè)總樣本數(shù)為Nm,將所有樣本的初始權(quán)重設(shè)為1/N。

        ②做T次循環(huán),T是趟數(shù)。A)訓(xùn)練弱分類器ym,直到權(quán)重誤差函數(shù)取最小值。B)計(jì)算話語權(quán)α。C)更新權(quán)重。D)得到最后的分類器

        優(yōu)點(diǎn):較大的提高了分類準(zhǔn)確性,提高了分類性能。

        缺點(diǎn):仍然沒有解決獨(dú)立性假設(shè)的限制;當(dāng)訓(xùn)練集中存在噪音數(shù)據(jù)時(shí),boosting過程會(huì)把噪音數(shù)據(jù)也當(dāng)成有用的信息而放大。

        5 基于屬性相關(guān)性分析的貝葉斯分類模型

        5.1 模型描述

        文獻(xiàn)[3]提出了基于屬性相關(guān)性分析的貝葉斯分類模型CB(Correlated Bayes),改進(jìn)了NB模型在屬性獨(dú)立性假設(shè)方面的問題。CB模型中事件 x屬于類Ci的概率計(jì)算公式為為向量相關(guān)度的估計(jì)公式:特征向量X共有n個(gè)屬性,連乘的個(gè)數(shù),β是控制參數(shù),可設(shè)置為0.1~0.3。

        要構(gòu)建CB分類模型,首先要求出屬性類條件概率及相關(guān)度,然后確定控制參數(shù)。該算法通過估算向量相關(guān)度的方法,從另一個(gè)角度改進(jìn)了對(duì)屬性獨(dú)立性的依賴。

        5.2 模型主要優(yōu)缺點(diǎn)

        優(yōu)點(diǎn):拋棄了樸素貝葉斯假設(shè),改進(jìn)了NBC。

        缺點(diǎn):控制參數(shù)的最優(yōu)值不易求出,增加了算法的計(jì)算量和成本。對(duì)連續(xù)型數(shù)據(jù)的處理不夠便利。

        6 結(jié)束語

        NBC在數(shù)據(jù)挖掘領(lǐng)域被人們廣泛利用,具有良好的效率和準(zhǔn)確性。但其條件獨(dú)立假設(shè)過于嚴(yán)苛,在實(shí)際應(yīng)用時(shí)存在一定的偏差。對(duì)于如何改進(jìn)樸素貝葉斯假設(shè)帶來的準(zhǔn)確性問題仍將是一個(gè)研究焦點(diǎn)。

        [1]Stern M, Beck J, Woolf B. Naive Bayes classifiers for user modeling[J]. Center for Knowledge Communication, Computer Science Department, University of Massachusetts, 1999

        [2]HanJiaWei,KamberM. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰等譯.北京:機(jī)械工業(yè)出版社

        [3]章舜仲,王樹梅,黃河燕等.基于屬性相關(guān)性分析的貝葉斯分類模型[J].情報(bào)學(xué)報(bào),2007,(2):271-274

        猜你喜歡
        樸素獨(dú)立性貝葉斯
        事件的相互獨(dú)立性題型例講
        隔離樸素
        培養(yǎng)幼兒獨(dú)立性的有效策略
        甘肅教育(2020年12期)2020-04-13 06:25:10
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        考慮誤差非獨(dú)立性的電力系統(tǒng)參數(shù)辨識(shí)估計(jì)
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        日本免费三片在线播放| 国产成人无码av在线播放dvd| 2021国产成人精品国产| 日韩av在线不卡观看| 蜜桃臀av一区二区三区| 国产边摸边吃奶叫床视频| 无码国产精品一区二区免费16| 日韩av东京社区男人的天堂| 无码人妻丰满熟妇精品区| 中文字幕在线观看乱码一区| 国产精品亚洲一区二区麻豆| 久久久国产打桩机| 巨大欧美黑人xxxxbbbb| 亚洲天堂av社区久久| 国产一级一片内射视频播放| 黑人上司粗大拔不出来电影| 91精品国产丝袜在线拍| 国产成人综合亚洲国产| 国产极品少妇一区二区| 亚洲精品无码成人a片| 亚洲欧洲久久久精品| 白色白色视频在线观看| 天天做天天添av国产亚洲| 亚洲av日韩av不卡在线观看| 99在线无码精品秘 入口九色 | 亚洲一区二区三区无码久久| 亚洲无毛片| 国产精品女人一区二区三区| 日韩日韩日韩日韩日韩日韩日韩| 日本japanese少妇高清| 啪啪网站免费观看| 在线日本国产成人免费精品| 无码精品人妻一区二区三区av| 免费视频一区二区| 国产自拍在线视频观看| 中文字幕免费在线观看动作大片| 日本一区午夜艳熟免费 | 免费a级毛片无码免费视频120软件 | av二区三区在线观看| 精品久久久久久综合日本| 亚洲综合精品成人|