曹昌杰
成都理工大學(xué)管理科學(xué)學(xué)院
基于判別分析與Logistic回歸組合模型的蠓蟲分類方法
曹昌杰
成都理工大學(xué)管理科學(xué)學(xué)院
蠓蟲分類問題究其本質(zhì)是一個典型的數(shù)據(jù)二分類問題。在傳統(tǒng)上采用判別分析或Logistic回歸的方式進行分類判別時,往往因為其算法本身的局限性而出現(xiàn)誤判且無法避免。本文在前人的研究基礎(chǔ)上提出了判別分析修正下的Logistic回歸方法和Logistic修正下的判別分析方法解決蠓蟲分類問題。在通過誤判率的比較和對異常數(shù)據(jù)的感知等前提下,為蠓蟲避害提供一種較為可靠的篩選方式。
縱觀為數(shù)不多的蠓蟲分類問題的研究,何水明為克服傳統(tǒng)BP算法中存在網(wǎng)絡(luò)學(xué)習(xí)速度慢的問題,提出了一種將同倫與BP算法互相結(jié)合的改進算法來進行蠓蟲分類;馮增哲等運用支持向量機算法,將蠓蟲分類這一個二分類問題轉(zhuǎn)化為一個二次規(guī)劃及其對偶規(guī)劃問題進行求解;王琪運用模糊聚類從而獲得模糊模式,并通過貼進度模式識別判斷蠓蟲的分類情況。但事實上,上述算法總存在著運算時間過長等各類局限性,特別地,是無法得到個體指標(biāo)及其所屬類別之間的函數(shù)解析式,用以滿足簡明的判斷蠓蟲分類這一需求,并且對樣本數(shù)據(jù)中的異常數(shù)據(jù)點無法做出異常感知。
針對以上問題,我們采用將Logistic回歸和判別分析相結(jié)合的方式,力求簡便有效的找出一種蠓蟲分類方式,為蠓蟲避害找到一條較為便捷的途徑。
由于傳統(tǒng)Logistic回歸方法的局限性,本文提出判別分析修正下的Logistic回歸方法對其進行改進,即對蠓蟲數(shù)據(jù)采用Logistic回歸方法進行處理,但對易發(fā)生誤判的蠓蟲數(shù)據(jù)引入判別分析進行處理。主要步驟如下:
a)設(shè)n為需要進行分類的蠓蟲數(shù)據(jù)的樣本容量
b)for 1 to n do.
d)對差值的絕對值的大小進行排序,得到差值的中位數(shù)M1
f)end for
g)若找到類似的數(shù)據(jù)點則采用判別分析方法進行分類判別;否則,仍然采用Logistic回歸方法進行分類判別
e)因為蠓蟲分類問題本身是二分類問題的特殊性,在判斷出蠓蟲樣本數(shù)據(jù)不屬于無害類(Af類)蠓蟲時,即已判定該蠓蟲屬于有害類(Apf類)蠓蟲。
判別分析是通過得到某個樣本數(shù)據(jù)與各樣本重心之間的馬氏距離確定樣本數(shù)據(jù)所屬的類別。若某類樣本數(shù)據(jù)的離散程度過大,與該樣本重心之間馬氏距離較大的一些樣本數(shù)據(jù)可能會出現(xiàn)誤判的情況?;谶@樣的思想,利用Logistic回歸修正判別分析方法,主要步驟如下:
a)設(shè)n為需要進行分類的蠓蟲數(shù)據(jù)的樣本容量
b)根據(jù)蠓蟲數(shù)據(jù)進行馬氏距離判別分析,形成兩類樣本數(shù)據(jù)
c)for 1 to n do
d)在上述通過分類所得到兩類樣本數(shù)據(jù)中,分別在各類數(shù)據(jù)中,計算本類樣本數(shù)據(jù)與各自樣本重心的馬氏距離,分別記為,我們將它們分別記X1、X2類
e)將X1類和X2類的數(shù)據(jù)分別進行大小排序,找到兩類數(shù)據(jù)的中位數(shù),分別記為
g)end for
h)將通過上述過程被記錄下來的數(shù)據(jù)點進行Logistic回歸方法進行分類,否則,仍然采用判別分析進行分類
本文使用的蠓蟲數(shù)據(jù)是由生物學(xué)家W.L.Grongan和W.W.Wirt在1981年根據(jù)蠓蟲的觸角長度和翼長加以區(qū)分而得到,我們用上述方法將蠓蟲數(shù)據(jù)進行分類,并將分類數(shù)據(jù)與原數(shù)據(jù)進行比較,通過觀察誤判率即可對分類方法做出有效評判。其中,無害蠓蟲用Af標(biāo)記,有害蠓蟲用Apf標(biāo)記。
判別分析修正下的Logistic回歸方法
根據(jù)蠓蟲數(shù)據(jù)計算得出Logistic回歸函數(shù)模型如下:
并由上式可得各蠓蟲數(shù)據(jù)分類為無害蠓蟲的概率分別是:
1號: 0.7465,2號:0.8332,3號:0.7365,4號:0.7660,5號:0.6884,6號:0.7515,7號:0.5332,8號:0.3558,9號:0.2361,10號:0.4076,11號:0.4955,12號:0.2605,13號:0.2585,14號:0.1882,15號:0.3915
利用上述數(shù)據(jù)可得,M1=0.198107.
在判斷出可能得到誤判的誤判點之后,利用判別分析再對這些數(shù)據(jù)點進行判別分析,并最終得到誤判率為5.56%。即7號蠓蟲的分類出現(xiàn)錯誤。
從該類組合方法模型的判斷過程中,我們一共對6個可能出現(xiàn)誤判的點進行了重新判定,該類組合方法模型感知到蠓蟲數(shù)據(jù)中的第7點為異常數(shù)據(jù),與事實相符。
Logistic回歸修正下的判別分析方法
根據(jù)蠓蟲數(shù)據(jù)可知,各個蠓蟲樣本數(shù)據(jù)點對其樣本重心的馬氏距離分別是:
表1 1-6號蠓蟲對于Apf類蠓蟲樣本重心的馬氏距離
表2 7-15號蠓蟲對于Af類蠓蟲樣本重心的馬氏距離
則由表1、表2可得,M21=1.2393,M22=1.1345.通過選擇并記錄下的數(shù)據(jù)點,將其進行Logistic回歸,得到Logistic回歸函數(shù)模型如下:
根據(jù)最終判別結(jié)果可知,該方法的誤判率是13.89%.
通過將兩類組合模型的蠓蟲分類方式分別應(yīng)用于經(jīng)典蠓蟲數(shù)據(jù),本文得出以下結(jié)論:
就兩類組合模型自身比較而言,判別分析修正下的Logistic回歸方法具有更低的誤判率,而誤判率本身也是人為修改數(shù)據(jù)所致,可見,該組合模型不僅能夠準確的判斷出蠓蟲分類,還能對數(shù)據(jù)的異常數(shù)據(jù)做出異常感知。可見,判別分析修正下的Logistic回歸方法是一種較為有效的蠓蟲分類方法。
曹昌杰(1995-)男,現(xiàn)主要從事數(shù)據(jù)分析學(xué)習(xí)。