亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于樸素貝葉斯分類算法的金融數(shù)據(jù)挖掘研究

2016-10-21 17:53:31段繼磊

今日財(cái)富 2016年6期

段繼磊

摘要：介紹了樸素貝葉斯分類算法的理論，研究了樸素貝葉斯算法在信用卡金融數(shù)據(jù)挖掘中的應(yīng)用。實(shí)驗(yàn)結(jié)果表明了樸素貝葉斯算法是一種非常有效的算法。

關(guān)鍵詞：樸素貝葉斯算法；分類；數(shù)據(jù)

Abstract：In this paper， the na?ve bayes classification algorithm theory is introduced. The application of na?ve bayes classification algorithm in credit financial data mining is researched. The experimental results indicate that the na?ve bayes classification algorithm is an effective algorithm.

Key words：Na?ve bayes algorithm； Data mining； Credit

一、引言

近年來(lái)，數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域中的應(yīng)用備受關(guān)注[1]。樸素貝葉斯分類（Naive Bayes，NB）方法[2，3]是一種著名的數(shù)據(jù)挖掘算法，它基于貝葉斯理論，具有簡(jiǎn)單而有效的特征。本文首先說(shuō)明了樸素貝葉斯分類算法的原理和方法，而后研究了樸素貝葉斯算法在信用卡金融數(shù)據(jù)挖掘中的應(yīng)用，實(shí)驗(yàn)結(jié)果表明了樸素貝葉斯算法是一種非常有效的分類算法。

二、樸素貝葉斯分類算法

對(duì)于任意樣本，其特征為，特征中表示樣本中出現(xiàn)的第i個(gè)特征項(xiàng)。樣本的類別為k個(gè)，即。假設(shè)在給定的條件下，特征項(xiàng)之間不存在任何依賴關(guān)系，都是相互獨(dú)立的。那么根據(jù)樸素貝葉斯分類算法，樣本與已知各類的條件概率定義為：（1）

因?yàn)?對(duì)計(jì)算結(jié)果沒(méi)有影響，所以可以省略。而（2）

其中，和可以通過(guò)如下的公式來(lái)估計(jì)：（3）（4）

其中表示類中的樣本數(shù)目，為特征項(xiàng) 在類中出現(xiàn)的詞頻總數(shù)。

對(duì)樣本進(jìn)行分類，就是按公式（1）計(jì)算所有樣本類在給定情況下的概率，概率值最大的那個(gè)類就是所在的類，即：

（5）

三、實(shí)驗(yàn)分析

（一）數(shù)據(jù)集

實(shí)驗(yàn)中采用的數(shù)據(jù)集是在UCI數(shù)據(jù)庫(kù)[4]中的Credit Approval數(shù)據(jù)集。Credit Approval數(shù)據(jù)集包括了16個(gè)屬性，共有690個(gè)樣本。

（二）評(píng)價(jià)指標(biāo)

本文采用精度來(lái)衡量分類算法的性能。分類器對(duì)樣本的分類結(jié)果有4種情況。

TP：被正確地分類為屬于此類別的樣本數(shù)量。

TN：被正確地分類為不屬于此類別的樣本數(shù)量。

FP：被錯(cuò)誤地分類為屬于此類別的樣本數(shù)量。

FN：被錯(cuò)誤地分類為不屬于此類別的樣本數(shù)量。

根據(jù)以上4種情況，分類性能可以按照精度來(lái)評(píng)價(jià)，精度的定義如下：

（6）

（三）分類結(jié)果

對(duì)于分類性能的評(píng)價(jià)方法，實(shí)驗(yàn)中采用的是十折交叉驗(yàn)證法。作為對(duì)比分析，實(shí)驗(yàn)中也采用ZeroR算法對(duì)數(shù)據(jù)集進(jìn)行分類，得到其分類結(jié)果。樸素貝葉斯分類算法、ZeroR算法在Credit Approval數(shù)據(jù)集上的分類精度如圖1所示。

圖1 兩種算法的分類精度比較

圖1中的實(shí)驗(yàn)結(jié)果表明樸素貝葉斯算法的分類精度高于ZeroR的分類精度。樸素貝葉斯算法在數(shù)據(jù)集上得到的分類精度是77.6%，而ZeroR算法的分類精度為55.5%。

四、結(jié)論

本文介紹了樸素貝葉斯分類算法的原理和方法，研究了樸素貝葉斯分類算法在金融數(shù)據(jù)挖掘中的應(yīng)用實(shí)例。實(shí)驗(yàn)結(jié)果表明了樸素貝葉斯分類算法是一種有效的分類方法，在金融數(shù)據(jù)挖掘中有很好的應(yīng)用價(jià)值。

參考文獻(xiàn)：

[1] 馬超群.金融數(shù)據(jù)挖掘，科學(xué)出版社， 2007.

[2]Lewis， D.D. Naive （Bayes） at forty： the independence assumption in information retrieval. In： The 10th Euro-pean Conference on Machine Learning， New York： Springer. 1998： 4-15.

[3] 余民杰，王元亮. 樸素貝葉斯分類算法研究，商情， 2012（8）：226-227.

[4] BLAKE C L， MERZ C J. UCI repository of machine learning databases. http：//www.ics.uci.edu/～mlearn/MLRepository.html.2016.