亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于密度函數(shù)的高斯樸素貝葉斯集成算法研究

        2021-06-11 09:36:07張留決
        計算機時代 2021年3期

        張留決

        摘? 要: 本文針對數(shù)據(jù)挖掘算法中的分類問題,針對連續(xù)性數(shù)據(jù),提出了基于密度函數(shù)的高斯樸素貝葉斯集成算法。首先假設(shè)各特征值符合正態(tài)分布,計算出各特征值的均值和方差,也就是正態(tài)分布的密度函數(shù)。然后通過定義的密度函數(shù),計算出其概率密度函數(shù),利用高斯樸素貝葉斯分類器得到預(yù)測結(jié)果。在對某公司實際分類問題中應(yīng)用該算法,結(jié)果表明該算法的預(yù)測能力有很大程度的提升。

        關(guān)鍵詞: 密度函數(shù); 高斯樸素貝葉斯; 集成算法; 預(yù)測能力

        中圖分類號:TP391? ? ? ? ? 文獻標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)03-20-03

        Research on Gaussian Naive Bayes ensemble algorithm based on density function

        Zhang Liujue

        (Fuzhou University, Fuzhou, Fujian 35000, China)

        Abstract: Aiming at the classification problem in data mining algorithms, this paper proposes a Gaussian Naive Bayes ensemble algorithm based on density function for continuous data. First, assuming that each eigenvalues conforms to a normal distribution, calculate the mean and variance of each eigenvalues, which is the density function of the normal distribution. Then calculate the probability density function through the defined density function, and use the Gaussian Naive Bayes classifier to get the prediction result. The algorithm is applied to an actual classification problem of a company, and the result show that the predictive ability of the algorithm has been greatly improved.

        Key words: density function; Gaussian Naive Bayes; ensemble algorithm; predictive ability

        0 引言

        近年來,隨著數(shù)據(jù)科學(xué)的不斷進步,樸素貝葉斯算法(Native Bayes,NB)被工業(yè)企業(yè)、互聯(lián)網(wǎng)行業(yè)、證券分析領(lǐng)域、電子信息產(chǎn)業(yè)等廣泛應(yīng)用。樸素貝葉斯算法在數(shù)據(jù)挖掘領(lǐng)域得到廣泛應(yīng)用,此算法屬于監(jiān)督學(xué)習(xí),主要用于解決算法中的分類問題。由于該算法在使用時先要假設(shè)變量(特征)值之間是相互獨立的,這在一定程度上影響了該算法運用的隨機性。

        本文針對多個變量都是連續(xù)的問題,利用密度函數(shù),計算出各特征的均值和方差,也就是正態(tài)分布的密度函數(shù),然后計算出概率密度函數(shù),融合代入高斯樸素貝葉斯分類器實現(xiàn)算法,實現(xiàn)了較好的預(yù)測效果。

        1 基于密度函數(shù)的高斯樸素貝葉斯集成

        1.1 貝葉斯算法的理論基礎(chǔ)

        1.1.1 條件概率

        已知事件B發(fā)生的條件下,事件A發(fā)生的概率稱為事件A關(guān)于事件B的條件概率,記為[P(A|B)]。對于任意事件A和B,若[P(B)≠0],則“在事件B發(fā)生的條件下事件A發(fā)生的條件概率”記為[P(A|B)],定義為:

        [PA|B=P(AB)P(B)] ⑴

        1.1.2 全概率公式

        若事件組(A1,A2,…,An)滿足以下關(guān)系。

        ⑴ [Ai(i=1,2,…,n)]兩兩互斥,且[PAi>0]。

        ⑵ [i=1nAi=Ω,Ω]為樣本空間。

        則稱事件組(A1,A2,…,An)是樣本空間[Ω]的一個劃分[1]。

        全概率公式:設(shè)(A1,A2,…,An)是樣本空間[Ω]的一個劃分,B為任一事件,則有:

        [P(B)=i=1nPAiP(B|Ai)]? ⑵

        1.1.3 貝葉斯公式

        設(shè)(A1,A2,…,An)是樣本空間[Ω]的一個劃分,B為任一事件,則有:

        [PAi|B=P(AiB)P(B)=P(Ai)P(B|Ai)j=1nPAjP(B|Aj)] ⑶

        式⑶中的[Ai]常被視為導(dǎo)致實驗結(jié)果B發(fā)生的“原因”,[P(Ai)=(i=1,2,…,n)]表示各種原因的可能性大小,故稱先驗概率[2];[PAi|B (i=1,2,…,n)]則反映當(dāng)實驗產(chǎn)生了結(jié)果B之后再對各種原因概率的新認識,故稱后驗概率[3]。

        1.2 樸素貝葉斯分類

        定義貝葉斯分類準(zhǔn)則如下:

        如果[p(c1|x,y)>p(c2|x,y)],那么屬于類別[c1];如果[p(c1|x,y)

        樸素貝葉斯分類器實現(xiàn)過程相對比較簡單,這里給出離散型數(shù)據(jù)集的樸素貝葉斯分類器的實現(xiàn)原理。對于樣本量為[m]、維度為[d]、類別數(shù)目為[c]的訓(xùn)練集[D={(xi,yi)}],其中[yi∈{c1,c2,…,cc},xi=(xi1,xi2,…,xid)](i=1,2,…,m)。給定一個待測樣本x[=(x1,x2,…,xd)],判斷其類別標(biāo)簽[xlabel∈{c1,c2,…,cc}]。

        ⑴ 計算每個類別的概率

        [P(Y=cj),j=1,2,…,c] ⑷

        ⑵ 計算每個類別下每個特征的條件概率

        [P(X=xi|Y=cj)] [⑸]

        ⑶ 計算

        [argmaxP(Y=cj)i=1dP(X=xi|Y=cj)] ⑹

        ⑷ 計算值最大的類別[cj]值就是待測樣本的類別標(biāo)簽。

        1.3 密度函數(shù)集成

        針對連續(xù)性變量,在實際應(yīng)用上大體有兩種方法可以處理,一是對數(shù)據(jù)進行離散化處理,以區(qū)間的形式進行劃分;二是利用密度函數(shù),計算出各特征值的均值和方差,也就是正態(tài)分布的密度函數(shù)。其具體算法如下:

        ⑴ 計算出各特征值的均值。

        [X=x1+x2+…+xnn=1ni=1nxi] ⑺

        ⑵ 計算出各特征值的方差。

        [δ2=(x1-X)2+(x2-X)2+(x3-X)2+…+(xn-X)2n] ⑻

        ⑶ 得到概率密度函數(shù)。

        [fx=12πσ2e(-(x-μ)22σ2)] ⑼

        1.4 高斯樸素貝葉斯集成密度函數(shù)算法

        為了在采用樸素貝葉斯分類算法提升預(yù)測模型精度的同時,進一步提高模型泛化能力,本文融入了密度函數(shù)和高斯樸素貝葉斯的思想,提出了基于密度函數(shù)的高斯樸素貝葉斯集成算法,具體流程如圖1所示。

        算法具體步驟如下。

        ⑴ 根據(jù)具體應(yīng)用場景提取特征屬性,并針對每個特征值進行一定程度的劃分,然后由人工對一部分待分類項進行詳細分類,最后形成訓(xùn)練樣本集合。

        ⑵ 利用密度函數(shù)與高斯樸素貝葉斯算法集成,計算每個類別在訓(xùn)練樣本中的出現(xiàn)概率及每個特征屬性劃分對每個類別的條件概率估計,并記錄結(jié)果。這一階段由Python程序完成。

        ⑶ 使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系,這一階段主要也是由Python程序完成[4]。

        2 實驗結(jié)果與分析

        本文數(shù)據(jù)集樣本量采集于某制漿造紙企業(yè)生產(chǎn)現(xiàn)場的數(shù)據(jù),該數(shù)據(jù)集包括:反應(yīng)溫度、反應(yīng)壓力、漿濃度、氧化白液用量、O2用量、NaOH用量、漿粘度、氣體壓力、水用量、電用量等共32個特征。對數(shù)據(jù)進行分類后,所得預(yù)測結(jié)果精度對比如圖2所示。

        由此結(jié)果可知,通過對連續(xù)性變量數(shù)據(jù)利用密度函數(shù)模型計算,并經(jīng)高斯樸素貝葉斯分類器集成后,整體的預(yù)測能力得到了提升。

        3 結(jié)束語

        本文通過Python語言中sklearn模塊中的高斯樸素貝葉斯(Gaussian Naive Bayes)集成密度函數(shù)實現(xiàn)算法。除此之外,還有多項式樸素貝葉斯(Multinomial Naive Bayes)、伯努利樸素貝葉斯(Bernoulli Naive Bayes)算法[5]。不管采用哪種算法,其運行結(jié)果都會有一定的差異,我們要根據(jù)實際情況來對算法予以改進,并使預(yù)測結(jié)果更符合生產(chǎn)經(jīng)營的需要。

        參考文獻(References):

        [1] 周志華.機器學(xué)習(xí)[M].清華大學(xué)出版社,2015.

        [2] 范明,范宏建.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2006.

        [3] 于祥雨,李旭靜等.人工智能算法與實踐論[M].清華大學(xué)出版社,2020.

        [4] 鄭秋生,夏敏捷.Python項目案例開發(fā)從入門到實踐[M].清華大學(xué)出版社,2019.

        [5] 蔡天新.數(shù)學(xué)與人類文明[M].浙江大學(xué)出版社,2008.

        日本岛国大片不卡人妻| 真人作爱免费视频| 国产亚洲精久久久久久无码77777| 精品国产AⅤ一区二区三区V免费| 国产亚洲av一线观看| 欧美怡春院一区二区三区| 性色av一区二区三区| 亚洲AV永久天堂在线观看| 91青青草视频在线播放| 成人影院在线视频免费观看| 天天影视性色香欲综合网| 麻豆国产巨作AV剧情老师| 亚洲国产av午夜福利精品一区| 国产精品一区二区三久久不卡| av一区二区三区人妻少妇| 国产AV国片精品有毛| 成人亚洲av网站在线看| 亚洲av综合色区无码专区桃色| 中文字幕一区二区三区精华液| 日韩精品一区二区三区四区| 精品国产中文久久久免费| 精品无人码麻豆乱码1区2区| 亚洲av无码片一区二区三区| 中文字幕精品亚洲二区| 国产av剧情刺激对白| 亚洲av成人无码精品电影在线| 无码日韩人妻AV一区免费| 蜜臀精品一区二区三区| 亚洲小说区图片区色综合网| 无码熟妇人妻av在线影片| 99RE6在线观看国产精品| 日本乱码一区二区三区在线观看| 中文字幕无线码| 国产av无码专区亚洲av果冻传媒| 亚洲av成人无码网站大全 | 久久精品中文字幕久久| 国产在线一区二区三区四区乱码 | 观看在线人视频| 成人无码视频| 日韩精品夜色二区91久久久| 日本一区二区三区视频在线观看|