摘要:本文主要研究在模擬實驗中,實驗數(shù)據(jù)類別是平衡也即是訓(xùn)練的數(shù)據(jù)類別比例差別不大,實驗結(jié)果關(guān)注的是正確率與錯誤率,但是隨著實際問題的處理,如信用卡錯誤交易研究、疾病癥斷研究…,實驗結(jié)果更多關(guān)注的是數(shù)據(jù)集中其中少類的分類精度,而不是整體的分類情況,因此不平衡數(shù)據(jù)的分類問題[2]評價成為了實驗員的挑戰(zhàn)。針對實際分類模型評價時,有以下幾種方法:混淆矩陣(ConfusionMatrix)、接受者操作特性曲線(ROC Chart)、收益圖(Gain Chart)、提升圖(Lift Chart)、KS圖(KS Chart)。
關(guān)鍵詞:分類問題;ROC; Gain Chart:Lift Chart;KS圖(KS Chart)
機(jī)器學(xué)習(xí)中,分類問題是一種輸出屬性類別的、離散的問題,通過對樣本數(shù)據(jù)機(jī)器學(xué)習(xí),可以將新輸入樣例指派到其中一個類別中的問題。那么模型的性能如何評價是我們研究的重點(diǎn)。在之前已經(jīng)有很多的工作者對此問題進(jìn)行了分析,使用不同的方法來,如交叉驗證的方法,選擇泛化誤差最小的模型。但是也有一些研究主要是對不同的分類器的分類精度進(jìn)行評價。
1 混淆矩陣[3]
1.1 混淆矩陣的建立
針對二類數(shù)據(jù)問題,在實驗過程中,通過在訓(xùn)練數(shù)據(jù)上訓(xùn)練得到對應(yīng)的分類器,然后在測試集上測試得到分類器的分類結(jié)果,通過將分類預(yù)測結(jié)果與真實情況進(jìn)行比較,建立混淆矩陣的表格,如表1。
由表1可以計算的指標(biāo)[4]有:
在一般的分類問題中TP和TN越高越好,混淆矩陣中的4個元素的確定都依賴于實驗者主觀設(shè)定的閾值0.5。如果只依靠混淆矩陣這種原始的方法,那么不經(jīng)過繁瑣的實驗我們無法確認(rèn)哪個閾值是最好的。一些positive事件發(fā)生概率極小的不平衡數(shù)據(jù)集(imbalanced data),混淆矩陣精確率的評價可能效果不好。比如對信用卡交易是否異常做分類的情形,很可能在成千上萬的交易中只有1筆交易是異常的,我們這時候更關(guān)心的是這筆交易異常的,而不是其他交易成功的。在醫(yī)學(xué)界,我們臨床關(guān)心的犯病的病例,但是犯病的類別占比比較少,那么一個將所有交易都判定為正常的分類器或者是所有的病人都判定為正常人的準(zhǔn)確率是99.99%。這個數(shù)字雖然很高,但是沒有任何現(xiàn)實意義。
相比較于上面列舉的各種基于混淆矩陣建立的分類模型評價方法,接受者操作特性曲線(ROC ChaIt)、收益圖(Gain Chart)、提升圖(Lift Chart)、KS圖(KS Chart)都對混淆矩陣的缺點(diǎn)的有改進(jìn)。
1.2 ROC曲線AUC面積[5]
ROC曲線也即是受試者工作特征曲線(Receiver OperatingCharacteristic Curve)。橫軸表示“False positive rate”數(shù),即在所有真實值為Negative的數(shù)據(jù)中,被模型錯誤的判斷為Positive的比例。縱軸表示“True positive rate”,即在所有真實值為Positive的數(shù)據(jù)中,被模型正確的判斷為Positive的比例。
ROC曲線上的一系列點(diǎn),代表選取一系列的閾值(thre shold)產(chǎn)生的結(jié)果。ROC曲線上眾多的點(diǎn),每個點(diǎn)都對應(yīng)著一個閩值的情況下模型的表現(xiàn),多個點(diǎn)連起來就是ROC曲線了。
AUC( Area Under Curve),即曲線下的面積,每一條ROC曲線對應(yīng)一個AUC值。AUC的取值在0與1之間,AUC -1,代表ROC曲線在縱軸上,預(yù)測完全準(zhǔn)確,0.5< AUC<1,代表ROC曲線在45度線上方,預(yù)測優(yōu)于50/50的猜測。AUC -0,代表ROC曲線在橫軸上,預(yù)測完全不準(zhǔn)確,需要選擇合適的閩值后,產(chǎn)出模型。
1.3 收益圖與提升圖[6]
收益圖,提升圖是用來評估模型找到數(shù)據(jù)中的正例與真實數(shù)據(jù)正例的比較?;煜仃囍杏幸粋€指標(biāo)RPP(Rate of positivepredictions),也是預(yù)測為正的比例。根據(jù)實驗者設(shè)置的不同閩值,RPP的范圍為[0,1]。將累計RPP作為收益圖、提升圖的橫軸,縱軸為待評價模型在預(yù)測為正的樣例中預(yù)測正確的概率,也就是TPR(True Positive Rate),TPR稱為收益值(Gain Value)。提升值(LiftValue)用TPR/RPP計算。針對一個模型的收益圖,若能快速達(dá)到很高的累計收益值,并很快趨于100%,則是較好的模型;而提升圖則是在很高的提升值上保持一段,或緩慢下降一段,然后迅速下降到1。
1.4 KS (Kolmogorov-Smirnov)曲線[7-9]
相對比與ROC曲線是把真正率和假正率當(dāng)作橫縱軸,而K-S曲線是把真正率和假正率都當(dāng)作是縱軸,橫軸則由選定的閾值來充當(dāng)。KS(Kolmogorov-Smirnov)值越大,表示模型能最大程度上將兩類分開。KS值介于0與1之間,通常來講,KS>0.2即表示模型有較好的預(yù)測準(zhǔn)確性。KS需要TPR和FPR兩個值:真正類率(truepositive rate,TPR),分類器所識別出的正樣例占所有正樣例的比例,計算公式為:
KS曲線是兩條線,其橫軸是閾值,縱軸是TPR(上面那條)與FPR(下面那條)的值,值范圍[0,1]。那么KS兩條曲線之間最大距離對應(yīng)的閾值,就是最能劃分模型的閩值。
2 模擬實驗
此模擬實驗使用的數(shù)據(jù)是ROCR包中的ROCR.simple數(shù)據(jù),有200個數(shù)據(jù),其中有樣本對應(yīng)的預(yù)測值和真實的標(biāo)簽。在預(yù)測值的基礎(chǔ)上利用caret包里的confusionMatrix可以得到結(jié)果。如表2所示。
在R軟件中利用ROCR中的performance函數(shù)得到了auc-0.8341875,得到此數(shù)據(jù)應(yīng)用的分類器預(yù)測的結(jié)果還是可以的。并利用ggplot2軟件做出Roc的圖像,如圖1所示。
圖2所示的是收益、提升圖,對于收益圖,收益圖在以斜率為2的快速增加,然后又緩慢的增長到1,而提升圖在1.8左右附近上保持一段然后迅速下降到1。由此可以看出,分類的效果也是很不錯的。
圖3中所示的是KS圖像,KS-value為0.6999297由此可以看到兩條曲線之間相差很大,分類器的分類性能較好。
3 結(jié)束語
針對于分類問題,可以有很多的不同的分類性能評價指標(biāo),本文在原有的混淆矩陣的基礎(chǔ)上建立的度量標(biāo)準(zhǔn),分析其在類別不均衡的數(shù)據(jù)中,分類效果評價不準(zhǔn)確,因此建立了Roc、收益、提升圖、KS圖像,并通過模擬實驗觀察這些評價指標(biāo)的度量性能。
參考文獻(xiàn)
[1]張濤.不平衡數(shù)據(jù)分類研究及在疾病診斷中的應(yīng)用[J].黃河科技學(xué)院學(xué)報,2019 (05):15-22..
[2]李永新.一種不平衡數(shù)據(jù)的分類方法[J].蘭州理工大學(xué)學(xué)報,2008 (03):87-90.
[3]Craig J C.A Confusion matrix for tactually presentedletters [J]. Perception&Psychophysics, 1979, 26 (5): 409-411.
[4]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版,2018,28-35.
[5] Lobo J M,Jim 6 nez-Valverde A,Real R.AUC:a misleadingmeasure of the performance of predictive distributionmodels[J]. Global Ecology&Biogeography, 2 010,17 (2):145-151.
作者簡介
趙存秀(1987-),女,山西省晉中市人。碩士研究生學(xué)歷,中級(講師)。研究方向為統(tǒng)計機(jī)器學(xué)習(xí)。