亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中的應(yīng)用

        2011-12-14 07:25:58米帥軍
        統(tǒng)計與決策 2011年10期
        關(guān)鍵詞:增益數(shù)據(jù)挖掘顯著性

        習(xí) 勤,米帥軍

        (華東交通大學(xué) 經(jīng)濟管理學(xué)院,南昌 330013)

        指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中的應(yīng)用

        習(xí) 勤,米帥軍

        (華東交通大學(xué) 經(jīng)濟管理學(xué)院,南昌 330013)

        文章以分類神經(jīng)網(wǎng)絡(luò)中的RBF網(wǎng)絡(luò)為例,討論了神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中指標(biāo)篩選的重要性,并以信用卡欺詐檢測神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型為實證案例,演示了指標(biāo)篩選方法能有效地提高神經(jīng)網(wǎng)絡(luò)模型的分類效率與收斂速度,同時,討論如何針對數(shù)據(jù)挖掘主題與數(shù)據(jù)特點選擇合適的指標(biāo)篩選技術(shù)。

        數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);指標(biāo)篩選;信息增益

        0 引言

        根據(jù)Universal Approximation Theore[1],即神經(jīng)網(wǎng)絡(luò)具有對任何復(fù)雜函數(shù)的模擬逼近功能,這為神經(jīng)網(wǎng)大規(guī)模應(yīng)用提供了強有力的理論依據(jù)。由于神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)網(wǎng)絡(luò)的模擬,通過不斷學(xué)習(xí)來認(rèn)識事物潛在的規(guī)律。同時,由于神經(jīng)網(wǎng)絡(luò)沒有對數(shù)據(jù)分布進行相應(yīng)的假設(shè),這使神經(jīng)網(wǎng)絡(luò)在各行業(yè)中的應(yīng)用具有廣泛的適用性。另一方面,由于沒有對數(shù)據(jù)分布進行假定,使神經(jīng)網(wǎng)絡(luò)對噪聲數(shù)據(jù)具有相當(dāng)?shù)娜嵝裕@進一步使人們在面對高維空間與海量數(shù)據(jù)時,更偏向于采用基于生物模擬的神經(jīng)網(wǎng)絡(luò),而非基于傳統(tǒng)的統(tǒng)計分析與計量方法,如多元統(tǒng)計分析等。但是,神經(jīng)網(wǎng)絡(luò)的柔性與通用逼近性在實踐中有時并未給研究分析帶來理想的效果,其根本原因在于,直接導(dǎo)入高維空間數(shù)據(jù)致使神經(jīng)網(wǎng)絡(luò)的效率急劇下降,也使得神經(jīng)網(wǎng)絡(luò)很難滿足實時響應(yīng)的要求,如實時欺詐監(jiān)控、實時風(fēng)險評級、工業(yè)實時控制等。因此,本文針對神經(jīng)網(wǎng)絡(luò)的應(yīng)用,提出了高維空間的預(yù)處理,即指標(biāo)篩選。

        1 神經(jīng)網(wǎng)絡(luò)的基本原理

        人工神經(jīng)網(wǎng)絡(luò)(Neural Networks)是對生物神經(jīng)網(wǎng)絡(luò)進行仿真研究的結(jié)果。它通過采集樣本數(shù)據(jù)進行學(xué)習(xí)的方法來建立數(shù)據(jù)模型,系統(tǒng)通過樣本不斷學(xué)習(xí),在此基礎(chǔ)上建立計算模型,從而建立神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[2]。神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練后可以執(zhí)行復(fù)雜函數(shù)的功能,能對所有函數(shù)進行逼近,即Universal Approximation Theorem。這就是說,如果一個網(wǎng)絡(luò)通過訓(xùn)練后呈收斂狀態(tài),那么神經(jīng)網(wǎng)絡(luò)就具備了執(zhí)行輸入到輸出這種線性或非線性的函數(shù)功能。當(dāng)然,這種函數(shù)不是基于理論或經(jīng)驗的假設(shè),而是基于對樣本的有監(jiān)督的訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)具備了模擬復(fù)雜系統(tǒng)的功能。根據(jù)數(shù)據(jù)挖掘主題的類型,神經(jīng)網(wǎng)絡(luò)可分為分類神經(jīng)網(wǎng)絡(luò)(含預(yù)測)與聚類神經(jīng)網(wǎng)絡(luò)。本文實證分析部分采用神經(jīng)網(wǎng)絡(luò)中的RBF網(wǎng)絡(luò),RBF網(wǎng)絡(luò)屬于分類神經(jīng)網(wǎng)絡(luò),其拓?fù)鋱D與學(xué)習(xí)原理可參閱相應(yīng)文獻(xiàn)[3]。RBF神經(jīng)網(wǎng)絡(luò)除了具有神經(jīng)網(wǎng)絡(luò)的相應(yīng)優(yōu)點外,還有兩大缺陷,一是網(wǎng)絡(luò)的訓(xùn)練時間較長,或需要高性機能計算機設(shè)備,當(dāng)然,除非工業(yè)級的實時監(jiān)控上的應(yīng)用,對一般的經(jīng)濟分析而言,這點不足為慮。另一個不足是研究者不能得到一個基于樣本訓(xùn)練出來的分類函數(shù),也即不能對輸入輸出進行結(jié)構(gòu)分析,這也是所有神經(jīng)網(wǎng)絡(luò)模型的一大缺憾。

        2 指標(biāo)篩選技術(shù)

        數(shù)據(jù)挖掘需要處理的是海量的數(shù)據(jù)集,且變量(或指標(biāo))非常多(一般都在50個以上,稱為高維空間),由于不知道相應(yīng)的規(guī)則或模式,收集更多的樣品指標(biāo)以防止遺漏重要解釋變量,但是這不等于把所的指標(biāo)都應(yīng)用數(shù)據(jù)挖掘建模,這樣會嚴(yán)重影響建模的效率與對挖掘結(jié)果的解釋,少量的指標(biāo)有利于模型的結(jié)構(gòu)解釋。因此,在建模之前必須對指標(biāo)進行篩選,以挑選出對目標(biāo)變量或模式有重要影響的變量。

        指標(biāo)篩選即指標(biāo)歸約,是指用部分指標(biāo)來代替原有的指標(biāo)體系,即進行適當(dāng)降維。降維的方法主要有兩類,一是選擇指標(biāo)的子集來代替原有的指標(biāo)體系,如相關(guān)分析、回歸分析、信息增益與模糊集等。二是對原有指標(biāo)進行變換,轉(zhuǎn)化成新的綜合性指標(biāo),如主成分分析。本文所述的指標(biāo)篩選是子集的選擇。

        指標(biāo)選取的方法有多種,常用的是相關(guān)分析,基于Pearson相關(guān)定理。本節(jié)重點介紹基于回歸分析與信息增益的指標(biāo)篩選方法。

        與相關(guān)分析不同,基于回歸分析篩選方法試圖從線性因果關(guān)系來說明各個自變量對因變量的影響程度與方向?;谛畔⒃鲆娴闹笜?biāo)篩選方法與上述兩種方法完全不同。信息增益方法源于熵理論,即熱力學(xué)第二定律,目前在社會學(xué)科、管理科學(xué)以及空間科學(xué)上取得了相當(dāng)多的成功應(yīng)用,其基本思想是以指標(biāo)的信息含量來評價指標(biāo)的重性,進而篩選指標(biāo)。

        2.1 基于回歸分析的指標(biāo)篩選原理

        回歸分析有線性與非線性之分。線性回歸分析適用于取值范圍不大的指標(biāo),以防止個別指標(biāo)值對回歸線產(chǎn)生較大的拉近作用,使回歸線過分?jǐn)M合異常值(或端點值)?;貧w分析指標(biāo)篩選方法有:前進法(Forward)、后退法(Backward)以及步進法(Stepwise)。其基本原理如下:

        Forward是在回歸模型中逐步加入指標(biāo),直到?jīng)]有滿足一定顯著性要求的指標(biāo)為止。對已入選擇的指標(biāo)在有新的指標(biāo)加入后,其顯著性是否符合要求不再進行檢測,即“只進不出”。顯著性檢測一般采用Fj偏檢驗。

        Backward是先把所有的指標(biāo)納入到回歸模型中,然后根據(jù)顯著性水平,剔除顯著性水平最低的指標(biāo)(即T值絕對值最小的,且不顯著性),再由剩下的指標(biāo)重新擬合回歸模型,并剔除T值最小的指標(biāo),如此循環(huán),直到所有指標(biāo)都達(dá)到一定的顯著性要求為止。Backward最大的特點,也即缺點是對已剔除的指標(biāo)不再有機會入選回歸模型,即“只出不進”。

        Stepwise是Forward與Backward的結(jié)合,也是最為常的回歸篩選指標(biāo)的方法。其基本過程與Forward類似,不同之處在于對已剔除的指標(biāo)還有機會重新選入模型,即 “有進有出”。最為關(guān)鍵的是分別對剔除與選入設(shè)定了不同的顯著性水平,且剔除的顯著性水平αout小于進入的顯著性水平αin,即所謂的“寬進嚴(yán)出”,否則會產(chǎn)生引進后再剔除這樣的循環(huán)過程。

        基于回歸分析的指標(biāo)篩選應(yīng)用的關(guān)鍵在于對回歸函數(shù)形式的假設(shè)是否與實際相符,同時指標(biāo)的顯著性檢驗需要對數(shù)據(jù)分布作相應(yīng)的的假設(shè)。其優(yōu)點是可以從結(jié)構(gòu)上說明各指標(biāo)的重要性。

        2.2 基于信息增益的指標(biāo)篩選原理

        在進行數(shù)據(jù)挖掘時,要確定使用哪些指標(biāo),除了基于成功的經(jīng)驗與先驗理論外,一般比較困難,況且數(shù)據(jù)挖掘的目標(biāo)是發(fā)現(xiàn)潛在的有興趣的模式與規(guī)律。也就是說,事先沒有一定的理論認(rèn)識,如有相當(dāng)?shù)恼J(rèn)識,則可以采用其它統(tǒng)計手段進行分析。如果采用的指標(biāo)太少,會降低數(shù)據(jù)挖掘的效果。如果選用的指標(biāo)太多,會產(chǎn)生指標(biāo)間的共線性,導(dǎo)致挖掘主題被“淹沒”,如在判別分析中不能得到判別函數(shù),同時參數(shù)的標(biāo)準(zhǔn)差將增大,顯著性檢驗失效。因而,指標(biāo)篩選成了數(shù)據(jù)挖掘的關(guān)鍵之一。

        在介紹信息增益方法前,先對熵(entropy)的概念做相應(yīng)解釋。熵是對數(shù)據(jù)集的隨機性的一種度量,是一種量化信息的概念。愛因斯坦曾指出熱力學(xué)的第二定律(熵理論)是聯(lián)系自然界與人類社會的橋梁,由此可見熵理論的重要性。熵理論目前已廣泛應(yīng)用于信息科學(xué)、管理科學(xué)與環(huán)境空間科學(xué)等。熵表達(dá)了一種物質(zhì)狀態(tài)所能提供的信息,如果熵小,則物質(zhì)呈現(xiàn)出一種相對有序的狀況,這就意味著所包括的信息量較少。對統(tǒng)計分析而言,如果一個數(shù)據(jù)集中的所有數(shù)據(jù)都屬于同一類,概率取值為1,則沒有不確定性,此時的熵取值為0。

        假設(shè)有一個數(shù)據(jù)集S(一個樣本),被解釋變量(指標(biāo))為0,有 r個指標(biāo)值(o1,o2,…,or),根據(jù) o的取值可以把數(shù)據(jù)集 S劃成 r個子集(s1,s2,…,sr),顯然有 S=(s1∪s2∪…∪sr),s1∩s2∩…∩sr=φ。任一樣品屬于si概率為pi,則對樣本S分成r類所需要的信息為:

        采用以2為底的對數(shù)log2pi,是因為信息編碼采用二進制方式。

        解釋變量(評價指標(biāo))為 Ai(i=1,2,…,n),任取一個指標(biāo)Ai,Ai有 m 個取值(a1,a2,…,am),根據(jù)指標(biāo) Ai的取值可能把數(shù)據(jù)集 S 劃成 m 個子集(sa1,sa2,…,sam),顯然有 S=sa1∪sa2∪…∪sam,S=sa1∩sa2∩…∩sar=φ, 則 sk與 sal交集為 Ckl=sk∩sal。令 nkl為 Ckl中的樣品數(shù)目,其中(k=1,2,…,r,l=1,2,…,m)則根據(jù)指標(biāo)Ai對樣本S進行分類所需要的信息稱作Ai的熵,記為E(Ai)

        則Ai上該劃分所獲得的“信息增益”定義為:

        通過上述方法,可以計算每個n指標(biāo)的信息增益,按信息增益從大到小的順序選取部分指標(biāo)作為評價指標(biāo)。

        比較回歸分析指標(biāo)篩選技術(shù)與信息增益指標(biāo)篩選技術(shù)的原理,可以發(fā)現(xiàn),除離散化之外,基于熵理論的信息增益方法對數(shù)據(jù)分布沒有相應(yīng)的假設(shè),同時信息增益技術(shù)在決策樹ID3與C4.5算法中起著支撐作用。一般而言,在沒有數(shù)據(jù)的分布信息的情況下,使信息增益進行指標(biāo)篩選更為合理。

        3 基于指標(biāo)篩選技術(shù)的RBF神經(jīng)網(wǎng)絡(luò)信用卡評級分析

        3.1 數(shù)據(jù)來源與軟件工具說明

        基于指標(biāo)篩選的RBF神經(jīng)網(wǎng)絡(luò)信用卡評級分析所用的數(shù)據(jù)集為DMAGECR與DMAGESCR,由SAS公司提供,分別用于模型的訓(xùn)練、測試。記錄數(shù)分別為1000、75條,共有21個指標(biāo)。目標(biāo)變量為risk,“1”表示欺詐,“0”表示正常。

        分析工具采用SAS/STAT,SAS/EM4.3。SAS/STAT主要是用于一般的統(tǒng)計分析,SAS/EM4.3主要用于決策樹。

        RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘流程如圖1所示。

        3.2 指標(biāo)篩選

        由于目標(biāo)變量risk為二值型,采用Logistic回歸分析進行指標(biāo)篩選,方法為Stepwise。指標(biāo)篩選結(jié)果,按顯著性依高到 低 為 :CHECKING、INSTALLP、SAVING、PURPOSE、MARTIAL、DURATION、AMOUNT。

        根據(jù)信息增益理論可得各指標(biāo)的信息增益比,前六個指標(biāo)值分別為:CHECKING=0.052,HISTORY=0.026,DURATION=0.022,AMOUNT=0.020,SAVING=0.015、PURPOSE=0.012

        綜合回歸分析指標(biāo)篩選結(jié)果與信息增益指標(biāo)篩選結(jié)果,可以發(fā)現(xiàn),衡量客戶是否存在欺詐與社會人口信息類指標(biāo)相關(guān)性不強(只有MARTIAL,即婚姻狀況),而與客戶的消費儲蓄行為較為密切。兩類指標(biāo)篩選結(jié)論基本一致,但是在具體指標(biāo)選擇上還是有較大差別,其原因主要是兩者的原理不同,判斷指標(biāo)重要性的標(biāo)準(zhǔn)不同。

        上述指標(biāo)篩選結(jié)論說明兩個問題:一是對于信用卡欺詐建模,客戶的社會人口方面的信息并不重要,是否存在欺詐與客戶行為密切相關(guān),這種簡化的數(shù)據(jù)結(jié)構(gòu)給經(jīng)濟行為結(jié)構(gòu)分析帶來了便利。二是在進行數(shù)據(jù)挖掘時,如果把所有的相關(guān)性不明顯的指標(biāo)納入分析模型,有可能導(dǎo)致模型的挖掘性能大為下降,同時也會給后續(xù)的結(jié)構(gòu)分析帶來困難。對于一些不具有伸縮性(Flexible)的挖掘模型(如回歸分析等),過多的指標(biāo)不利于提取數(shù)據(jù)結(jié)構(gòu)信息,即使是對一些伸縮能力很強的挖掘模型(如神經(jīng)網(wǎng)絡(luò)),指標(biāo)太多也會降低挖掘模型的性能,使模型的泛化能力下降。

        3.3 基于指標(biāo)篩選技術(shù)的RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘分析

        信用卡欺詐分析RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘,分別采用所有原始指標(biāo)、基于回歸分析的指標(biāo)子集與基于信息增益的指標(biāo)子集作為輸入數(shù)據(jù)結(jié)構(gòu),以便比較其對應(yīng)的準(zhǔn)確率。

        建模流程如圖2所示。

        表1 RBF神經(jīng)網(wǎng)絡(luò)模型分類效率對比表

        圖2中SAMPSIO.DMAGECR功能為選取數(shù)據(jù)集,Data Partition功能為抽取樣本,Neural Network功能為建立RBF神經(jīng)網(wǎng)絡(luò)模型。

        分析結(jié)果對比如表1所示。

        從表1可以發(fā)現(xiàn),C模型的分類錯誤率較低 (0.017),且訓(xùn)練誤判率(0.017)高于驗證誤判率(0.013),說明C模型具有較強的泛化能力。A模型采用原始所有指標(biāo),分類誤判率較高(0.29),訓(xùn)練誤判率(0.29)低于驗證誤判率(0.32),模型泛化能力較弱。對比B模型與C模型的分類誤判率,可以發(fā)現(xiàn),基于信息增益的指標(biāo)選擇,使RBF神經(jīng)網(wǎng)絡(luò)的誤判率明顯下降。其根本原本在于,基于回歸分析的指標(biāo)篩選對數(shù)據(jù)分布有一定的假定;而基于信息增益的指標(biāo)篩選,除離散化外,對數(shù)據(jù)基本無要求。從RBF網(wǎng)絡(luò)收斂速度來看,通過指標(biāo)篩選能有效提高運行速度。由于本次實證只有1000條數(shù)據(jù),采用指標(biāo)篩選后,收斂速度提高3-4倍。經(jīng)測試,對于20000條,指標(biāo)87個的海量數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)收斂時需1-2小時(運行于普通臺式電腦),可見指標(biāo)篩選對神經(jīng)網(wǎng)絡(luò)收斂速度有很大的影響。

        4 總結(jié)

        本文首先簡要介紹了神經(jīng)網(wǎng)絡(luò)的基本原理與其在實踐中的應(yīng)用,指出了神經(jīng)網(wǎng)絡(luò)模型的高度柔性和處理高維空間數(shù)據(jù)的能力。其次,介紹了神經(jīng)網(wǎng)絡(luò)模型中指標(biāo)篩選的必要性。再次,介紹幾類常用的指標(biāo)篩選技術(shù),并著重介紹了回歸分析指標(biāo)篩選技術(shù)與信息增益指標(biāo)篩選技術(shù)。最后,基于RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型(信用卡欺詐檢測分析),比較了采用原始所有指標(biāo)、回歸分析子標(biāo)集與信息增益指標(biāo)集三種情況下,RBF模型的分類效率與收斂速度,進一步展示了指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用的必要性與可行性。事實上,本文所介紹的指標(biāo)篩選技術(shù)適合于所有高維空間的降維處理與建模分析。

        [1]Simon Haykin.Neural Networks:A Comprehensive Foundation (2ndEdition)[M].北京:清華大學(xué)出版社,2001.

        [2]張云濤,龔玲,數(shù)據(jù)挖掘,電子工業(yè)出版社,2004

        [3]張德豐,《MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計》[M].北京:機械工業(yè)出版社,2009.

        [4]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].北京:機械工業(yè)出版社,2006.

        [5]Mehmed Kantardzic.Data Mining Concepts,Models,Methodsand Algorithms[M].北京:清華大學(xué)出版社,2003.

        O236

        A

        1002-6487(2011)10-0163-03

        習(xí) 勤(1956-),男,江西南昌人,教授,研究方向:統(tǒng)計理論與方法。

        米帥軍(1974-),男,湖南長沙人,碩士,研究方向:統(tǒng)計方法與數(shù)據(jù)挖掘。

        (責(zé)任編輯/亦 民)

        猜你喜歡
        增益數(shù)據(jù)挖掘顯著性
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于單片機的程控增益放大器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        基于視覺顯著性的視頻差錯掩蓋算法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于顯著性邊緣的運動模糊圖像復(fù)原方法
        論商標(biāo)固有顯著性的認(rèn)定
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲av成人一区二区三区网址| 丰满多毛的大隂户毛茸茸| 玩弄少妇高潮ⅹxxxyw| 亚洲日韩一区二区一无码| 亚洲色图视频在线观看,| 精品国产亚洲级一区二区| 丰满少妇被粗大的猛烈进出视频| 大地资源中文第三页| 伊人色综合九久久天天蜜桃| 偷拍韩国美女洗澡一区二区三区 | 成人免费视频自偷自拍| 亚洲一区二区三区高清在线观看| 久久99精品久久水蜜桃| 久久aⅴ无码一区二区三区| 日本一区二区三区在线观看免费 | 国产乱子伦精品免费无码专区| 久久久国产精品ⅤA麻豆百度| 亚洲一区二区精品在线| 久久伊人少妇熟女大香线蕉| 在线观看国产精品日韩av| 国产午夜精品久久久久| 成人免费av色资源日日| 永久黄网站免费视频性色| 99国产精品视频无码免费| 手机av在线观看视频| 亚洲一区在线观看中文字幕| 成 人 免费 黄 色 视频| 亚洲av日韩av一卡二卡| 白白色免费视频一区二区在线| 一本色道久久综合狠狠躁篇| 7777精品久久久大香线蕉| 国产自产21区激情综合一区| 国产精品一区二区av麻豆日韩| 精品国产一区二区三区免费| 亚洲另在线日韩综合色| 亚洲国产一区二区av| 无码一区二区三区免费视频| 亚洲一二三区在线观看| 国产三级在线观看高清| 边添小泬边狠狠躁视频| 三上悠亚av影院在线看|