馮思捷 管建和
摘 要:樸素貝葉斯算法是數(shù)據(jù)挖掘領(lǐng)域最簡(jiǎn)單的分類算法之一。為了讓樸素貝葉斯能夠靈活地處理連續(xù)型數(shù)據(jù),分類過程就需要對(duì)數(shù)據(jù)進(jìn)行離散化處理。而使用模糊數(shù)學(xué)理論來解決離散化問題是一個(gè)不錯(cuò)的選擇。因此本文考慮將這兩種方法結(jié)合,同時(shí)在去模糊化過程中引用了一種新型去模糊化方法(“內(nèi)心法”),從而生成一種新的模糊貝葉斯混合模型。并通過一個(gè)企業(yè)評(píng)價(jià)實(shí)例簡(jiǎn)單地驗(yàn)證了模糊貝葉斯算法在應(yīng)對(duì)連續(xù)性數(shù)據(jù)時(shí)具有良好、可靠的分類效果。
關(guān)鍵詞:樸素貝葉斯;模糊數(shù)學(xué);三角模糊數(shù);去模糊化
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:The Naive Bayes algorithm is a simple and lucid classification way in the field of data mining.When meeting with continuous data,the algorithm usually needs to make discretization in its classifying process.Luckily,the application of relevant theories about fuzzy mathematics is a good choice to solve the discretization problem.Thus,this study decides to make a combination of the Naive Bayesian algorithm and fuzzy mathematics to generate a hybrid model and,in the meanwhile,introduces a new defuzzification method (named as The incenter of area) in the classification process.Through an application case of enterprise evaluation,the fuzzy Bayesian hybrid algorithm has been proved to be effective and reliable in the process of classification for continuous data.
Keywords:Naive Bayes;fuzzy math;triangular fuzzy number;defuzzification
1 引言(Introduction)
在實(shí)際生活中,某些決策型問題的處理過程通常會(huì)伴隨著一定的復(fù)雜性。為了能夠更好地解決這類問題,系統(tǒng)可以利用某些數(shù)據(jù)挖掘領(lǐng)域中的分類方法來得到良好且高效的決策結(jié)果。其中,樸素貝葉斯(Naive Bayes,NB)算法正是用于分類樣本實(shí)例的一種簡(jiǎn)單又有效的方法。然而當(dāng)它處理連續(xù)型數(shù)據(jù)時(shí),通常的做法是利用高斯分布和極大似然估計(jì)來得到樣本對(duì)應(yīng)的后驗(yàn)概率,其計(jì)算過程往往顯得較為煩瑣。而由扎德提出的模糊數(shù)學(xué)理論也可以解決“連續(xù)型數(shù)據(jù)離散化”的問題。本文特將模糊數(shù)學(xué)中的三角模糊數(shù)和NB算法融合在一起,并在去模糊化過程中引入了一種新型方法。通過將構(gòu)建的混合分類模型運(yùn)用到企業(yè)評(píng)價(jià)應(yīng)用中,體現(xiàn)了該模型能夠具有有效且良好的分類效果。
2 樸素貝葉斯算法(Fundamentals of Naive Bayes
algorithm)
樸素貝葉斯算法是最簡(jiǎn)單的一種貝葉斯分類方法,它作為一種有監(jiān)督型學(xué)習(xí)方法來解決多屬性分類問題。與貝葉斯信念網(wǎng)絡(luò)相比,有研究指出樸素貝葉斯方法因其獨(dú)特的“各屬性間相互獨(dú)立”的條件性假設(shè)而簡(jiǎn)化了整個(gè)計(jì)算過程、避免了計(jì)算帶來的復(fù)雜性[1]。基于條件獨(dú)立性假設(shè)和已有的先驗(yàn)知識(shí),人們可以根據(jù)統(tǒng)計(jì)學(xué)中的貝葉斯定理學(xué)習(xí)到有用的概率信息,并最終通過計(jì)算獲得的最大后驗(yàn)概率來獲得測(cè)試樣本的所屬類別。
盡管獨(dú)立性假設(shè)在現(xiàn)實(shí)生活中會(huì)顯得不切實(shí)際,但是NB算法依靠它可以在很多領(lǐng)域根據(jù)提供的訓(xùn)練數(shù)據(jù)來預(yù)測(cè)出測(cè)試樣本的所屬類別,它通常應(yīng)用于文本分類、決策預(yù)測(cè)、情感分析等分類問題中。有研究者對(duì)樸素貝葉斯在文本分類中的應(yīng)用做出了相關(guān)研究,并通過相關(guān)實(shí)驗(yàn)數(shù)據(jù)證實(shí)了NB算法針對(duì)小型實(shí)例數(shù)據(jù)樣本集有著高精確率[2]。
定義1:(樸素貝葉斯算法)
假設(shè)給出一個(gè)樣本數(shù)據(jù)集的類標(biāo)號(hào)集合,還有一個(gè)描述樣本屬性的集合,假定用來描述樣本的各屬性值的每個(gè)事件之間相互獨(dú)立。那么根據(jù)貝葉斯公式,類別關(guān)于樣本X的后驗(yàn)概率可以表示為
樸素貝葉斯分類器在決策時(shí)遵循了“最大后驗(yàn)法則”(the Maximum A Posterior,MAP)[3]。因此樣本X的類別可以由此而得出(需要注意的是,由于是不依賴于的常量,因此在下列公式中省略它)
根據(jù)上面的公式可以看出,樣本X的類別實(shí)際上是根據(jù)最大后驗(yàn)概率來得到的。需要注意的是,為了提升最終分類效果,如果在計(jì)算過程中當(dāng)遇到的情況時(shí),此時(shí)就需要引入“拉普拉斯標(biāo)準(zhǔn)化”(Laplace calibration)方法。也就是說,在計(jì)算的過程中對(duì)每個(gè)樣本元組計(jì)數(shù)都加上1——如果對(duì)z個(gè)計(jì)數(shù)加上1的話,就必須在用于計(jì)算概率的分母上對(duì)應(yīng)地加上z。關(guān)于條件概率的拉普拉斯校準(zhǔn)公式即為
其中,:在類別下,事件發(fā)生的樣本數(shù)量;n:在所有樣本實(shí)例中,類別的數(shù)量;z:平滑參數(shù),常將其設(shè)為事件發(fā)生的可能取值總數(shù)(屬性值的種類總數(shù));ε:是一個(gè)值大于零的常數(shù)變量,在計(jì)算中常使其取值為1。
3 關(guān)于模糊貝葉斯的改進(jìn)型決策方法(An improved
decision-making model of fuzzy Naive Bayes)endprint
人類通常在使用語言來描述描述某個(gè)事件時(shí)會(huì)伴隨一些模糊現(xiàn)象。例如我們會(huì)用“很瘦”“比較瘦”“有點(diǎn)胖”或“很胖”等詞語來形容一個(gè)人的體型。其中“很”“比較”和“有點(diǎn)”都是具有模糊性或不明確界定的詞。那么模糊現(xiàn)象的發(fā)生也就意味著該事件存在著一定的不確定性和模糊性。
為了解決實(shí)際中遇到的模糊事件,人們嘗試通過構(gòu)建相關(guān)的數(shù)學(xué)模型來將不確定型變量轉(zhuǎn)換成精確型變量。在1965年,Zadeh提出了一種新的數(shù)學(xué)理論——模糊數(shù)學(xué),這種理論可以用來描述一些由人類認(rèn)知或主觀意識(shí)而產(chǎn)生的模糊事件。根據(jù)扎德提出的思想,他利用“隸屬度”的概念來表示事件屬于其對(duì)應(yīng)模糊集合的程度,從而創(chuàng)建出模糊事件對(duì)應(yīng)的模糊集合,并將該集合用一個(gè)特殊函數(shù)來表示[4]。其中,這個(gè)函數(shù)是由一組值域?yàn)閇0,1]的隸屬度組合而成的。Zadeh在他的模糊數(shù)學(xué)理論中將這個(gè)特殊函數(shù)定義為模糊事件所在域?qū)?yīng)的隸屬度函數(shù)。
定義2:(模糊集合)
上述映射關(guān)系說明了在論域U中,模糊集S可以由一個(gè)函數(shù)來表征,而U內(nèi)的每一個(gè)點(diǎn)都對(duì)應(yīng)區(qū)間[0,1]內(nèi)的某一個(gè)實(shí)數(shù)。這個(gè)函數(shù)通常被稱作“隸屬度函數(shù)”。在這個(gè)函數(shù)中,每一個(gè)函數(shù)值被看作是的隸屬度值。因此一個(gè)模糊集S可以按照下列公式定義:
需要特別注意的是,的分號(hào)代表的并不是除法運(yùn)算,它僅僅指出了在論域U內(nèi)點(diǎn)對(duì)應(yīng)的隸屬度是。
在多數(shù)情況下,數(shù)據(jù)或者文本樣本有時(shí)因其具有主觀性和不確定性而不能精確的表達(dá)內(nèi)在信息。上面已經(jīng)提到,隸屬度是模糊數(shù)學(xué)中最基本的一個(gè)核心概念,可以通過創(chuàng)建一個(gè)適合的隸屬度函數(shù)來表達(dá)模糊的不確定性信息。經(jīng)研究者發(fā)現(xiàn),通常有兩種方法用來獲取隸屬度函數(shù):(1)利用概率統(tǒng)計(jì)學(xué)和模糊數(shù)學(xué)方面的相關(guān)理論,找到一個(gè)模糊概率統(tǒng)計(jì)模型來表述隸屬度函數(shù);(2)可以通過模糊概率分布函數(shù)來定義一個(gè)模糊隸屬度函數(shù),比如說梯形分布、三角形分布、高斯分布等。
模糊數(shù)是模糊數(shù)學(xué)中用來表述模糊性信息的一種定量方法,它可以基于相關(guān)理論和運(yùn)算方法將不確定性變量轉(zhuǎn)換成精確型數(shù)值。模糊數(shù)中最常見的概念就是三角模糊數(shù)(Triangle Fuzzy Number,TFN)。三角模糊數(shù)是一種可以用來解釋模糊現(xiàn)象、表述模糊集合的簡(jiǎn)單而高效的數(shù)學(xué)方法。它作為一種表征數(shù)據(jù)集中每個(gè)樣本屬性的隸屬度分布的數(shù)學(xué)模型,可以應(yīng)用于多個(gè)領(lǐng)域用來反映出某個(gè)事件、人類語言描述或主觀思想中存在的不確定性及模糊性,例如,模糊控制、模糊識(shí)別等方面。近幾年有一些學(xué)者認(rèn)為在一些決策系統(tǒng)或是評(píng)價(jià)系統(tǒng)中,三角模糊數(shù)可以用來表示評(píng)價(jià)權(quán)重,或是在分類問題中將其作為數(shù)學(xué)模型來用于解決決策分類問題。
實(shí)際上,三角模糊數(shù)可以看作是一個(gè)確定性和不確定性的集合體。假設(shè)一個(gè)女人測(cè)定的身高記錄為160cm;這個(gè)數(shù)值可能并不是她的精確身高數(shù)值,其真實(shí)身高可能僅僅接近于、而不完全等于160cm。那么在用一個(gè)三角模糊數(shù)表征身高值時(shí),可以用(160-x,160,160+y)來表示,其中,x和y分別是160的左、右確界。下面介紹了三角模糊數(shù)的定義。
定義3:(三角模糊數(shù))
如果一個(gè)三角模糊數(shù),那么我們就可以從下列公式中獲得對(duì)應(yīng)的隸屬度函數(shù):
根據(jù)公式(5),我們可以稱l、m和u分別是三角模糊數(shù)A的下界、中值和上界。由于中值m對(duì)應(yīng)的隸屬度為1,所以它對(duì)應(yīng)的值是一個(gè)確定值。而除m外的位于l和u之間的值對(duì)應(yīng)的隸屬度值存在于區(qū)間[0,1]內(nèi)。
數(shù)據(jù)挖掘領(lǐng)域通常會(huì)把數(shù)據(jù)分為連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)。一般情況下有以下兩種形式可能會(huì)產(chǎn)生不確定性[5]:(1)訓(xùn)練數(shù)據(jù)集的類標(biāo)簽是由一個(gè)分布函數(shù)表示而成,這種情況可能會(huì)產(chǎn)生不確定性;(2)當(dāng)連續(xù)型屬性值以區(qū)間的形式出現(xiàn)時(shí)也會(huì)產(chǎn)生不確定性。因此在分類過程中對(duì)連續(xù)型變量進(jìn)行離散化處理就顯得很有必要。樸素貝葉斯算法處理的數(shù)據(jù)類型一般是離散型數(shù)據(jù)。因此當(dāng)樸素貝葉斯處理的連續(xù)型數(shù)據(jù)時(shí),就需要對(duì)其進(jìn)行離散化。以往研究者們大多采用高斯分布來解決,但其計(jì)算過程一般較為煩瑣,且并不能完整地解釋一些由模糊現(xiàn)象產(chǎn)生的模糊性問題。因此,可以考慮將模糊數(shù)學(xué)相關(guān)理論與樸素貝葉斯算法融合在一起,可以使得生成的模糊貝葉斯混合分類器模型能夠靈活地應(yīng)對(duì)多種類型的數(shù)據(jù)來有效地解決分類問題。很多研究者對(duì)模糊貝葉斯問題進(jìn)行了相關(guān)研究。根據(jù)Hsien-Chang Wu的研究[6],在一些模糊環(huán)境下,貝葉斯可靠性評(píng)價(jià)系統(tǒng)為了簡(jiǎn)化計(jì)算過程選擇將一個(gè)原始問題轉(zhuǎn)換成四個(gè)子問題。之后Vibhor Kant和Kamal K.Bharadwaj[3]提出了一種基于內(nèi)容的過濾方法的模糊樸素貝葉斯分類器用來解決基于相關(guān)內(nèi)容的相似性問題。Kayaalp等研究學(xué)者提出了一個(gè)改進(jìn)的模糊貝葉斯混合分類器用來解基于數(shù)字型數(shù)據(jù)的決策分類問題[7]。
模糊貝葉斯算法是一種融合了模糊數(shù)學(xué)相關(guān)理論和樸素貝葉斯算法的混合模型,它在處理一些分類型問題時(shí),可以靈活、有效地應(yīng)對(duì)連續(xù)型數(shù)據(jù)。本文選擇將三角模糊數(shù)和樸素貝葉斯算法進(jìn)行混合,使得到的模糊貝葉斯混合分類器作為分類算法模型。這樣不僅使分類過程應(yīng)對(duì)不同類型的數(shù)據(jù)時(shí)的處理能力不再單一,并且還能有效地提升該過濾器的篩選能力和過濾效率。圖2展示了模糊貝葉斯混合模型的搭建思路。下面介紹其操作過程:
第一步:數(shù)據(jù)準(zhǔn)備工作。
在進(jìn)入分類操作前,數(shù)據(jù)標(biāo)準(zhǔn)化過程是最主要的數(shù)據(jù)準(zhǔn)備工作。因?yàn)椴煌膶傩酝ǔ?huì)存在不同的維度或具有不同的計(jì)量單位,因此有可能會(huì)影響到多屬性分類問題的最終數(shù)據(jù)分析結(jié)果。那么為了消除這種潛在的不良影響,在數(shù)據(jù)準(zhǔn)備前期對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理就顯得很有必要,該操作可以用來解決不同屬性間的兼容性問題,從而使得他們可以存在于同一個(gè)維度解決問題。
通常情況下大多使用“最小—最大標(biāo)準(zhǔn)化方法”來對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。即,假設(shè)x是實(shí)數(shù)區(qū)間域內(nèi)的某一個(gè)值,則經(jīng)過標(biāo)準(zhǔn)化后可以得到:
在完成數(shù)據(jù)標(biāo)準(zhǔn)化操作后,就可以開始準(zhǔn)備創(chuàng)建分類模型了。假設(shè)存在一個(gè)類別集合和一個(gè)樣本數(shù)據(jù)集,其中:每一組樣本都對(duì)應(yīng)著某一個(gè)類別;而所有的都可以由一個(gè)屬性集合表示。如果代表了第i個(gè)樣本的屬性集,那么根據(jù)定義4中的標(biāo)準(zhǔn)化方法,標(biāo)準(zhǔn)化后即被轉(zhuǎn)換為且該新值可以參與到接下來的分類過程中。endprint
第二步:模糊化處理。
基于模糊集理論,這一步驟主要將屬性值(經(jīng)過標(biāo)準(zhǔn)化處理的)轉(zhuǎn)換成它們所對(duì)應(yīng)的隸屬度函數(shù)。前面的內(nèi)容已經(jīng)提到,模糊數(shù)學(xué)的關(guān)鍵就是計(jì)算出數(shù)值在所處實(shí)數(shù)域內(nèi)的隸屬度值。因此,人們可以根據(jù)原始數(shù)據(jù)的相關(guān)特征來描述不確定型模糊信息。上面已經(jīng)介紹過,通常有兩種方法可以獲得隸屬度函數(shù):(1)第一種方法就是利用模糊概率統(tǒng)計(jì)方法來解決問題;(2)第二種方法就是根據(jù)某一分布函數(shù)而專門定義一個(gè)特殊函數(shù)來描述模糊事件。有很多人嘗試通過定義一個(gè)分布函數(shù)來得到隸屬度函數(shù)(例如:高斯分布)或者是將不確定型變量轉(zhuǎn)換成某一個(gè)特定的模糊數(shù)(例如:梯形模糊數(shù)、三角模糊數(shù)等)。那么根據(jù)人們自身定義、主觀思維或者是樣本數(shù)據(jù)本身的特征,就可以把語言型或者數(shù)字型數(shù)據(jù)轉(zhuǎn)換成一個(gè)三角模糊數(shù)()。
第三步:去模糊化處理。
在一些理論型或者現(xiàn)實(shí)生活中的控制系統(tǒng)中,去模糊化處理是重要的一步操作,它可以將模糊數(shù)或模糊變量轉(zhuǎn)換成精確的輸出數(shù)據(jù)。在此之前,研究者們大多使用三角形重心或最大均值來進(jìn)行去模糊化操作。但是,有研究者利用了三角形的內(nèi)心提出了一種新型去模糊化方法——“內(nèi)心法”(the Incentre Of Area,IOA)(注:三角形的內(nèi)心就是三角形角平分線交點(diǎn))[8]。那么根據(jù)定義(內(nèi)心法定義),就可以將三角模糊數(shù)()去模糊化處理后得到。關(guān)于“內(nèi)心法”的定義如下:
定義5:(“內(nèi)心法”去模糊化方法)
第五步:最大后驗(yàn)概率。
依據(jù)提供的訓(xùn)練數(shù)據(jù)樣本的相關(guān)數(shù)據(jù)值,由公式(9)、公式(10)求得的先驗(yàn)概率和條件概率。然后參考最大后驗(yàn)概率法則,見式(2),就可以對(duì)測(cè)試樣本數(shù)據(jù)計(jì)算、分析出測(cè)試用例的最終分類結(jié)果。
4 關(guān)于企業(yè)評(píng)價(jià)的簡(jiǎn)單實(shí)例應(yīng)用(An example of the
application on commercial enterprise evaluation)
通常專家會(huì)設(shè)定出專門的評(píng)價(jià)標(biāo)準(zhǔn)來對(duì)不同的企業(yè)進(jìn)行評(píng)估,以此將企業(yè)劃分為不同的類型。然而,不管所用的評(píng)價(jià)打分是數(shù)值型還是文本型,專家給出的評(píng)價(jià)值有時(shí)仍可能會(huì)存在著模糊性。在語言評(píng)價(jià)系統(tǒng)中可以通過將語言評(píng)價(jià)值轉(zhuǎn)換成模糊數(shù)這個(gè)方法來進(jìn)行分類[9]。根據(jù)這種思路,本文將構(gòu)建的模糊貝葉斯混合模型應(yīng)用到企業(yè)評(píng)價(jià)中,具體過程如下。
4.1 數(shù)據(jù)準(zhǔn)備
在對(duì)企業(yè)評(píng)估的過程中,專家會(huì)根據(jù)相關(guān)專業(yè)知識(shí)或者自己的經(jīng)驗(yàn)而專門設(shè)定評(píng)分規(guī)則來對(duì)企業(yè)進(jìn)行打分,并最終將企業(yè)劃分成三種類別(分別為Ⅰ、Ⅱ和Ⅲ)。在給出的企業(yè)評(píng)價(jià)樣本集中,一共考察了四種屬性,如表1所示。
根據(jù)表1提供的數(shù)據(jù),可以將每一個(gè)屬性的值域區(qū)間依次劃分成三個(gè)子區(qū)間。為了使專家能夠?qū)γ總€(gè)企業(yè)的屬性指標(biāo)做出評(píng)價(jià),特設(shè)定兩個(gè)人工語言評(píng)價(jià)集:(1)有關(guān)“財(cái)產(chǎn)效益”和“償債能力”的語言評(píng)價(jià)集合:A={L,M,H}(其中,L、M和H分別代表低、中等和高);(2)有關(guān)“資產(chǎn)營(yíng)運(yùn)”和“發(fā)展能力”的語言評(píng)價(jià)集:B={W,M,S}(其中,W、M和S分別代表弱、中等和強(qiáng))。這樣,評(píng)價(jià)集A、B中的每一個(gè)元素(即人工語言評(píng)價(jià)值)就可以分別被用來定義經(jīng)過劃分得到的屬性值域子區(qū)間。圖3展示了四個(gè)屬性的值域劃分結(jié)果,以及每個(gè)子區(qū)間對(duì)應(yīng)的評(píng)價(jià)值。
企業(yè)評(píng)價(jià)原始數(shù)據(jù)集描述了每個(gè)訓(xùn)練樣本的相關(guān)數(shù)據(jù)及對(duì)應(yīng)的專家評(píng)價(jià)值,詳見表2,即每一個(gè)屬性由兩個(gè)子屬性表示:獲得的專家打分(表2中的“d”列)和相對(duì)應(yīng)的語言評(píng)價(jià)(表2中的“v”)列。
4.2 數(shù)據(jù)標(biāo)準(zhǔn)化
準(zhǔn)備好分類所需的訓(xùn)練樣本數(shù)據(jù)后,接下來還需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理操作。雖然根據(jù)一些已設(shè)定好的打分規(guī)則,就可以獲得專家對(duì)企業(yè)樣本的打分及其對(duì)應(yīng)的語言評(píng)價(jià)值。但考慮到不同專家存在不同的主觀思想來進(jìn)行打分,且不同的屬性存在有不同的取值區(qū)間(表1),因此需要根據(jù)公式(6)來將表2中的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。經(jīng)過標(biāo)準(zhǔn)化處理后所得的數(shù)據(jù)詳見表3。
4.3 使用模糊化得到的評(píng)價(jià)值分隔經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)
在完成數(shù)據(jù)標(biāo)準(zhǔn)化操作后,可以考慮將專家打分對(duì)應(yīng)的語言評(píng)價(jià)值(即語言評(píng)價(jià)集合A和集合B中的每個(gè)元素)轉(zhuǎn)換成不同的三角模糊數(shù)。假定存在一個(gè)語言變量集合,該集合由一組有序的語言值組合而成,其中是集合I中的某一個(gè)語言評(píng)價(jià)值。那么可以將變量i_m定義成一個(gè)三角模糊數(shù)。有關(guān)評(píng)價(jià)集合元素L、M、H、W和S的三角模糊數(shù)如圖4所示。
接下來參考“內(nèi)心法”,對(duì)人工語言評(píng)價(jià)值(L、M、H、W和S)對(duì)應(yīng)的三角模糊數(shù)()進(jìn)行去模糊化處理,這樣就可以求出其對(duì)應(yīng)的精確值(也就是下面計(jì)算過程中的、 和)。具體的計(jì)算過程如下:
4.4 用例測(cè)試
將表3里每個(gè)標(biāo)準(zhǔn)化后得到的取值按照表4中的對(duì)應(yīng)區(qū)間找到對(duì)應(yīng)的新屬性值,如表5所示,就可以實(shí)現(xiàn)“將連續(xù)型數(shù)據(jù)離散化”的目的。
要想獲得T1的所屬類別,需要計(jì)算出條件概率和最大后驗(yàn)概率。
為了保證分類時(shí)的計(jì)算精準(zhǔn)率,在計(jì)算條件概率的過程中需要對(duì)其進(jìn)行拉普拉斯校準(zhǔn)(公式(10))。
(2)T2用例:
在經(jīng)過標(biāo)準(zhǔn)化處理后,T2可以被定義為。
綜上所述可知,可以看出樣例T2屬于類別Ⅱ。
在上述應(yīng)用模糊貝葉斯混合模型的簡(jiǎn)單實(shí)例中,通過提供一些企業(yè)樣本用例可以測(cè)試出該混合算法模型的分類性能??梢钥闯觯航Y(jié)合了“內(nèi)心法”創(chuàng)建的混合模型實(shí)現(xiàn)了將連續(xù)型數(shù)據(jù)實(shí)例離散化的目標(biāo),使樸素貝葉斯分類算法在處理連續(xù)型數(shù)據(jù)時(shí)的計(jì)算過程變得更為靈活,從而使得該模型能夠有效地獲得實(shí)例的所屬類別。
5 結(jié)論(Conclusion)
在數(shù)據(jù)挖掘領(lǐng)域,研究者們常常會(huì)將模糊數(shù)學(xué)和分類算法進(jìn)行結(jié)合,在分類過程中按照“模糊化—去模糊化”的模式來對(duì)數(shù)據(jù)進(jìn)行處理。在以往的研究中,人們大多采用COA方法和MOM方法進(jìn)行去模糊化操作。為了改善模糊貝葉斯混合算法,本文嘗試將一種新型去模糊化方法(“內(nèi)心法”)融入樸素貝葉斯算法中得到一個(gè)混合分類模型。在企業(yè)評(píng)價(jià)簡(jiǎn)單實(shí)例應(yīng)用中,可以看到模糊貝葉斯混合分類模型不僅實(shí)現(xiàn)了對(duì)連續(xù)型數(shù)據(jù)離散化的目標(biāo),而且使得數(shù)據(jù)能夠更好地參與樸素貝葉斯算法的分類過程中。然而本次試驗(yàn)中用于測(cè)試的實(shí)驗(yàn)用例數(shù)量并不十分充足,因此在今后的研究學(xué)習(xí)中需要繼續(xù)增加測(cè)試樣本數(shù)量,以進(jìn)一步提升該模糊貝葉斯混合分類器的分類性能。endprint
參考文獻(xiàn)(References)
[1] Jiang L,et al.Structure extended multinomial Naive Bayes[J].Information Sciences,2016,329(C):346-356.
[2] Lei L I,Huang Y G,Liu Z W.Chinese text classification for small sample set[J].Journal of China Universities of Posts & Telecommunications,2011,18:83-89.
[3] Kant V,Bharadwaj K K.Integrating Collaborative and Reclusive Methods for Effective Recommendations:A Fuzzy Bayesian Approach[J].International Journal of Intelligent Systems,2013,28(11):1099-1123.
[4] Zadeh L A.Fuzzy sets[C].Fuzzy Sets,F(xiàn)uzzy Logic & Fuzzy Systems.World Scientific Publishing Co.Inc.1996:394-432.
[5] Bounhas M,et al.Naive possibilistic classifiers for imprecise or uncertain numerical data[J].Fuzzy Sets & Systems,2014,239(1):137-156.
[6] Wu H C.Bayesian system reliability assessment under fuzzy environments[J]. Reliability Engineering & System Safety,2004,83(3):277-286.
[7] Kayaalp N.An Aggregated Fuzzy Naive Bayes Data Classifier[M].Elsevier Science Publishers B.V.2015.
[8] Rouhparvar H,Panahi A.A new definition for defuzzification of generalized fuzzy numbers and its application[M].Elsevier Science Publishers B.V.2015.
[9] Wang J,et al.A synthetic method for knowledge management performance evaluation based on triangular fuzzy number and group support systems[J].Applied Soft Computing,2016,
39(C):11-20.
作者簡(jiǎn)介:
馮思捷(1992-),女,碩士,技術(shù)員.研究領(lǐng)域:數(shù)據(jù)挖掘.
管建和(1962-),男,博士,教授.研究領(lǐng)域:數(shù)據(jù)挖掘.endprint