亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        貝葉斯方法在紅酒分類中的應(yīng)用研究

        2016-11-02 06:43:26邵國(guó)強(qiáng)介龍梅蔣慶豐
        關(guān)鍵詞:分類實(shí)驗(yàn)

        邵國(guó)強(qiáng),介龍梅,蔣慶豐

        (大慶師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,黑龍江大慶 163712)

        貝葉斯方法在紅酒分類中的應(yīng)用研究

        邵國(guó)強(qiáng),介龍梅,蔣慶豐

        (大慶師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,黑龍江大慶163712)

        闡述了貝葉斯方法的基本理論,討論了分類中存在的先驗(yàn)概率等問題并給出了解決方案,貝葉斯方法適合在自動(dòng)分類中應(yīng)用。根據(jù)UCI網(wǎng)站提供的紅酒數(shù)據(jù),對(duì)分類器的性能進(jìn)行了實(shí)驗(yàn),結(jié)果達(dá)到了基本預(yù)期,在屬性關(guān)聯(lián)、屬性容量方面還需要做進(jìn)一步研究。

        貝葉斯方法;先驗(yàn)概率;分類

        0 引 言

        分類是計(jì)算機(jī)自動(dòng)化和智能化的基本概念,更進(jìn)一步則是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的核心研究課題之一。目前,已有多種分類的學(xué)習(xí)算法模型,包括決策樹、神經(jīng)網(wǎng)絡(luò)、K-最近鄰、支持向量機(jī)(SVM)和貝葉斯分類器等[1]。

        分類在現(xiàn)實(shí)生活中的應(yīng)用非常廣泛,如網(wǎng)絡(luò)安全中斷定某種行為是否安全,收到的一個(gè)郵件是垃圾郵件與否,根據(jù)水域情況考察某海域可能有哪些魚類,還有一篇新聞通過提取詞條自動(dòng)歸類的問題[2]。

        1 貝葉斯分類的特點(diǎn)

        1)在某些領(lǐng)域,貝葉斯分類的性能與神經(jīng)網(wǎng)絡(luò)、決策樹學(xué)習(xí)相當(dāng)。

        2)可以充分利用先驗(yàn)知識(shí)及訓(xùn)練樣本的數(shù)據(jù)特性。

        3)改進(jìn)后的貝葉斯分類器的通用性更佳,精度和效率更高。

        2 樸素貝葉斯分類的原理

        假設(shè)樣本空間H為t維,含有n個(gè)向量,記其中某個(gè)向量為x=(x1,x2,…,xt),類別空間為C={C1,C2,…,Cm},則分類就是找到測(cè)試t維數(shù)據(jù)空間H’(其中H’與H同構(gòu))的向量x’對(duì)應(yīng)類別空間中的某個(gè)值Ci,具體對(duì)應(yīng)關(guān)系如圖1所示。

        基于并不知道x’究竟屬于哪一類別,由此只能認(rèn)定為P(Ck|x’)(k=1,2,…,m)中最大的值對(duì)應(yīng)的類別(最可能的類別),亦即找出max{P(x’|Ck)?P(Ck)/P(x’)},k= 1,2,…,m。需要注意的是,當(dāng)討論某一樣本x’時(shí),P(x’)是相同的,即max{P(x’|Ck)?P(Ck)/P(x’)}∝max{P(x’| Ck)?P(Ck)}=max{P(x’,Ck)},其中P(x’|Ck)和P(Ck)是先驗(yàn)概率。當(dāng)屬性P1,P2,…,Pt相互獨(dú)立時(shí),P(x’| Ck)?P(Ck)=∏P(Xi|Ck)?P(Ck)。

        圖1 分類映射關(guān)系示意圖Fig.1 Sketch map of classification map

        3 存在的問題與解決方案

        3.1實(shí)驗(yàn)數(shù)據(jù)的獲取

        1)UCI數(shù)據(jù)庫。任何分類器都需要一定的訓(xùn)練數(shù)據(jù),在UCI網(wǎng)站上提供了多種基于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的實(shí)驗(yàn)數(shù)據(jù)以供研究和測(cè)試之用。

        2)現(xiàn)實(shí)生活中提取。對(duì)某些行為的刻畫,如郵件分詞,根據(jù)某些詞條的出現(xiàn)頻率可以確定垃圾郵件的標(biāo)準(zhǔn),網(wǎng)絡(luò)安全則需要對(duì)系統(tǒng)API的調(diào)用進(jìn)行區(qū)分。

        3.2現(xiàn)有類別不夠的問題

        例如,根據(jù)化石年代、地點(diǎn)、特征等對(duì)古代人類進(jìn)行分類,假定集合為{元謀人,周口店人,…,藍(lán)田人}(將集合映射為{C1,C2,…,Cm}),而測(cè)試向量不符合集合中任何分類,則定義Cm+1為“未知人類”或者“新人類”,由此不影響貝葉斯分類。

        3.3先驗(yàn)概率的獲取

        從max{P(x’|Ck)?P(Ck)}可知,P(x’|Ck)?P(Ck)或者P(x’,Ck)是確定分類的核心問題。通常情況下,上述先驗(yàn)知識(shí)并不是確定的和已知的,經(jīng)常用近似值代替。

        基于卡方擬合統(tǒng)計(jì)量可以得到如下近似值:

        其中,Count(Ck)為Ck在樣本中出現(xiàn)的個(gè)數(shù),Sk為樣本總數(shù)。其中,Count(x’,Ck)為x’與Ck在樣本中同時(shí)出現(xiàn)的個(gè)數(shù),Count(Ck)的含義則同上。

        至此,樸素貝葉斯分類的基本問題即已獲得了高效、完善的處理及解決實(shí)現(xiàn)。

        3.4學(xué)習(xí)方法的改進(jìn)

        分類算法存在如下的預(yù)設(shè)性前提:1)樣本與實(shí)際分布相差不大。2)屬性間相互獨(dú)立。3)候選類別間互斥。為了使得樸素貝葉斯方法能夠具備更好的通用性,本次研究提出了如下幾方面改進(jìn):

        1)加大樣本的數(shù)量[3]

        由大數(shù)定律知,當(dāng)樣本容量趨向于無窮大時(shí),頻率趨向于概率,而且樣本的分布接近于總體的分布。

        2)增量學(xué)習(xí)

        增大樣本容量容易造成貝葉斯學(xué)習(xí)的速度較慢,如何能夠提升學(xué)習(xí)的速度和效率,可采用增量學(xué)習(xí)的方法。

        3)加權(quán)學(xué)習(xí)[4]

        通常情況下,貝葉斯分類器會(huì)認(rèn)定每個(gè)屬性都是相等的貢獻(xiàn),而實(shí)際上當(dāng)樣本空間H中的t個(gè)屬性互有關(guān)聯(lián)的情況下,就需要為不同的屬性賦予相應(yīng)的權(quán)值,進(jìn)而可以根據(jù)P(Pi|Ck)求出P(x’|Ck)。

        4 仿真實(shí)驗(yàn)

        4.1實(shí)驗(yàn)數(shù)據(jù)

        UCI網(wǎng)站上提供了紅酒和白酒質(zhì)量實(shí)驗(yàn)數(shù)據(jù),本文中選用的是紅酒數(shù)據(jù),網(wǎng)站提供了4 898條記錄,其中前3 000條數(shù)據(jù)作為樣本數(shù)據(jù),后1 898條數(shù)據(jù)作為測(cè)試數(shù)據(jù)。部分?jǐn)?shù)據(jù)如圖2所示。

        圖2 紅酒屬性與分類數(shù)據(jù)Fig.2 The basic data and properties of red wine

        數(shù)據(jù)中總共包括非揮發(fā)性酸、揮發(fā)性酸、密度、酒精等11個(gè)屬性,結(jié)果為酒的質(zhì)量,質(zhì)量分為1~10十個(gè)等級(jí)。

        1)通過quality列可以統(tǒng)計(jì)出P(Ck)。2)計(jì)算P(Pi|Ck)求出P(x’|Ck)。

        3)將向量x’的分類設(shè)置概率最大的Ck。

        綜上可得,分類對(duì)比結(jié)果如圖3所示。

        4.2核心代碼

        1)計(jì)算每一類別的個(gè)數(shù)

        圖3 分類結(jié)果對(duì)比Fig.3 Comparison of the classification result

        2)公有變量定義

        4.3實(shí)驗(yàn)結(jié)果與分析

        quality列為真實(shí)的分類,而quality_c列是分類器算法得到的分類。對(duì)于1 898條測(cè)試數(shù)據(jù),通過貝葉斯方法得到的預(yù)測(cè)分類與實(shí)際分類相同的數(shù)量為1 651,準(zhǔn)確率為86.98%。對(duì)于屬性之間的關(guān)聯(lián)矩陣可以通過粗糙集等方法得到,增大樣本和屬性集合的容量也是提高分類算法結(jié)果的重要手段。

        5 結(jié)束語

        本文討論了基于貝葉斯分類器的重要理論,同時(shí)也進(jìn)一步研究了分類的具體問題如樣本選擇、概率計(jì)算、假定空間設(shè)計(jì)和實(shí)驗(yàn)數(shù)據(jù)獲取與驗(yàn)證。利用UCI網(wǎng)站提供的紅酒分類數(shù)據(jù),部分作為實(shí)驗(yàn)數(shù)據(jù),部分作為測(cè)試數(shù)據(jù),通過對(duì)比,分類效果比較理想。未來,關(guān)于如何提高算法的精度仍有待后續(xù)的深入研究。

        [1]孫笑微.貝葉斯分類技術(shù)在高校教師教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用[J].沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,32(1):98-102.

        [2]崔雪森,唐峰華,張衡,等.基于樸素貝葉斯的西北太平洋柔魚漁場(chǎng)預(yù)報(bào)模型的建立[J].中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,45(2):37-43.

        [3]張輪,楊文臣,劉拓,等.基于樸素貝葉斯分類的高速公路交通事件檢測(cè)[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,42(4):558-563,595.

        [4]李志義,沈之銳,義梅練.貝葉斯分類算法在社交網(wǎng)站信息過濾中的應(yīng)用分析[J].圖書情報(bào)工作,2014,58(13):100-106.

        The research on application of Bayesian method in red wine classification

        SHAO Guoqiang,JIE Longmei,JIANG Qingfeng
        (Computer science&Information technology college,Daqing Normal University,Daqing Heilongjiang 163712,China)

        The paper introduces basic theory of Bayesian method.The problems,such as prior probability,which are associated with classification,are argued.The solutions for them are given too.The Bayesian method is fit for automated classification.According to the red wine data from UCI website,the performance of the classifier is tested.The result is nearly satisfied.The attribute-association and capacity will be researched in the future.

        Bayesian method;prior probability;classification

        TP305

        A

        2095-2163(2016)03-0029-03

        2016-04-27

        邵國(guó)強(qiáng)(1981-),男,碩士,講師,主要研究方向:數(shù)據(jù)庫應(yīng)用、計(jì)算機(jī)網(wǎng)絡(luò)與通信、人工智能等。

        猜你喜歡
        分類實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲色图视频在线观看网站| 国产乱子轮xxx农村| 成人欧美一区二区三区1314| 97无码人妻Va一区二区三区| 亚洲国产AⅤ精品一区二区久 | 日本无遮挡吸乳呻吟视频| 国产一级黄色录像| 全程国语对白资源在线观看| 免费a级毛片在线播放| 99re8这里有精品热视频免费| 亚洲另类欧美综合久久图片区| 亚洲中文字幕诱惑第一页| 亚洲一区二区三区少妇| 中文字幕av免费专区| 中文字幕国产欧美| 国产精品久久夜伦鲁鲁| 中文字幕av高清人妻| 色偷偷噜噜噜亚洲男人| 亚洲日本va99在线| 亚洲天堂av中文字幕| 久久青青草原国产毛片| 99re热视频这里只精品| 亚洲AV无码成人精品区天堂| 99亚洲女人私处高清视频| 国产午夜免费高清久久影院| 99偷拍视频精品一区二区| 国产福利97精品一区二区| 亚洲1区第2区第3区在线播放| 久久综合亚洲色一区二区三区| 精品人妻伦九区久久AAA片69| 精品国产麻豆一区二区三区| 午夜免费观看日韩一级视频| 99re8这里有精品热视频免费| 亚洲AV无码成人精品区天堂| 色婷婷亚洲精品综合影院| 成人在线免费电影| 欧美在线视频免费观看| 精品人妻久久av中文字幕| 亚洲精品宾馆在线精品酒店| 日韩电影一区二区三区| 久久99亚洲网美利坚合众国|