危明鑄 麥偉杰 袁峰
摘 ?要: 黨的十八大三中全會(huì)提出逐步簡(jiǎn)政放權(quán),要求做到便捷、規(guī)范、寬進(jìn)嚴(yán)管,這引起市場(chǎng)監(jiān)管主體職責(zé)發(fā)生變化,監(jiān)管對(duì)象呈現(xiàn)井噴式增長(zhǎng)。傳統(tǒng)的監(jiān)管方法和手段已不能適應(yīng)改革后的監(jiān)管需要,監(jiān)管方法和手段必須由傳統(tǒng)向信息化、智能化等方式轉(zhuǎn)變。本文根據(jù)廣東省廣州市有關(guān)企業(yè)的真實(shí)數(shù)據(jù)對(duì)其展開(kāi)運(yùn)行風(fēng)險(xiǎn)研究,首先運(yùn)用隨機(jī)森林算法對(duì)原始數(shù)據(jù)進(jìn)行變量選擇以便形成一個(gè)簡(jiǎn)化、高效的數(shù)據(jù)集,然后分別應(yīng)用決策樹(shù)、集成法、人工神經(jīng)網(wǎng)絡(luò)分別對(duì)數(shù)據(jù)集進(jìn)行建模及分析,最后比較各種模型的優(yōu)劣,并深入研究各性能指標(biāo)的意義。通過(guò)模型可以有效地指導(dǎo)行政人員對(duì)異常企業(yè)進(jìn)行重點(diǎn)監(jiān)管,實(shí)現(xiàn)市場(chǎng)監(jiān)管的智能化和精細(xì)化。
關(guān)鍵詞: 隨機(jī)森林;決策樹(shù);集成法;人工神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TP181 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.08.007
本文著錄格式:危明鑄,麥偉杰,袁峰,等. 基于機(jī)器學(xué)習(xí)的企業(yè)運(yùn)行風(fēng)險(xiǎn)研究[J]. 軟件,2019,40(8):2937
【Abstract】: The Third Plenary Session of the 18th National Congress of the Communist Party of China proposed to gradually simplify administration and decentralization, and to ensure that it is convenient, standardized, lenient. This has caused changes in the responsibilities of market regulators, and the regulatory objects have shown a spurt of growth. Based on the real data of relevant enterprises in Foshan city, Guangdong Province, this paper conducts operational risk research. Firstly, random forest algorithm is used to select variables from the original data in order to form a simplified and efficient data set. Then, the decision tree, ensemble methods and artificial neural network are apply to model and analyze the dataset respectively. Finally compares the advantages and disadvantages of the various models, and in-depth study of the significance of each performance indexes. Through the model, it can effectively guide the administrative staff to focus on abnormal enterprises and realize the intellectualization and refinement of market supervision.
【Key words】: Random forest; Decision tree; Ensemble methods; Artificial neural network
0 ?引言
隨著市場(chǎng)主體“寬進(jìn)嚴(yán)管”改革的不斷深入,國(guó)務(wù)院相繼頒發(fā)了《國(guó)務(wù)院辦公廳關(guān)于推廣隨機(jī)抽查規(guī)范事中事后監(jiān)管的通知》(國(guó)辦發(fā)〔2015〕58號(hào))[1]、《國(guó)務(wù)院關(guān)于“先照后證”改革后加強(qiáng)事中事后監(jiān)管的意見(jiàn)》(國(guó)發(fā)〔2015〕62號(hào))[2]和《國(guó)務(wù)院關(guān)于印發(fā)2016年推進(jìn)簡(jiǎn)政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點(diǎn)的通知》(國(guó)發(fā)〔2016〕30號(hào))[3]等相關(guān)文件,要求大力推廣“雙隨機(jī)—公開(kāi)”抽查工作,市場(chǎng)監(jiān)管模式也由“巡查制”改為“抽查制”。但目前仍存在一些不足之處,具體表現(xiàn)在:
(1)市場(chǎng)主體規(guī)模龐大,難以把握重點(diǎn)監(jiān)管 ?對(duì)象。
(2)雙隨機(jī)抽查的靶向性不強(qiáng)。
(3)市場(chǎng)主體監(jiān)管風(fēng)險(xiǎn)預(yù)判能力不強(qiáng)。
鑒于上述種種不足及企業(yè)監(jiān)管的必要性、迫切性,許多學(xué)者們把目光轉(zhuǎn)向到機(jī)器學(xué)習(xí)上。雖然政府不斷加強(qiáng)“事中事后”監(jiān)管,但諸如企業(yè)信息不透明、企業(yè)運(yùn)行存在風(fēng)險(xiǎn)等成為當(dāng)前整個(gè)社會(huì)經(jīng)濟(jì)發(fā)展過(guò)程中的突出問(wèn)題,且目前仍缺乏對(duì)企業(yè)運(yùn)行狀況科學(xué)的評(píng)估模型和預(yù)警方法。在有限的時(shí)間和人力資源等約束條件下,對(duì)不同企業(yè)進(jìn)行具針對(duì)性的服務(wù)和監(jiān)管,必須充分發(fā)揮“機(jī)器學(xué)習(xí)+大數(shù)據(jù)”相關(guān)技術(shù)的作用。
國(guó)外,Odom等人[4]早在1990年把人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到風(fēng)險(xiǎn)評(píng)估上,并將其與傳統(tǒng)的多元回歸分析比較,實(shí)驗(yàn)表明人工神經(jīng)網(wǎng)絡(luò)具有更優(yōu)越的性能;Fan運(yùn)用支持向量機(jī)(SVM)甄選與企業(yè)破產(chǎn)有影響的財(cái)務(wù)變量[5];Prinzie等人把邏輯回歸(Logistic)引入隨機(jī)森林算法并對(duì)其進(jìn)行優(yōu)化以及改進(jìn),提出一種新型的隨機(jī)森林算法,然后將改進(jìn)的算法應(yīng)用于預(yù)測(cè)公司的信用風(fēng)險(xiǎn)[6];Lin F等人研究隨機(jī)森林與KMV模型結(jié)合可能性,提出將違約距離作為隨機(jī)森林的輸入,模型對(duì)企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)性能更優(yōu)越[7];Traskin等人利用隨機(jī)森林具有篩選重要變量的特征,提出將其應(yīng)用在保險(xiǎn)公司償付判別中[8];Tanaka、Kinkyo等人把隨機(jī)森林算法應(yīng)用在OECCD國(guó)家瀕臨破產(chǎn)的銀行對(duì)其進(jìn)行危機(jī)風(fēng)險(xiǎn)預(yù)測(cè)[9]。國(guó)內(nèi),張大斌、周志剛等人采取差分進(jìn)化算法自動(dòng)聚類模型對(duì)我國(guó)上市公司展開(kāi)信用度評(píng)價(jià),并與遺傳算法、決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較,結(jié)果表明該模型具有更高的準(zhǔn)確性[10];方匡南,范新妍等人指出傳統(tǒng)的Logistic回歸建立企業(yè)運(yùn)行風(fēng)險(xiǎn)預(yù)警模型效果不夠好,提出了基于網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的Logistic模型[11];閆炳琪等人選取我國(guó)深滬兩市共74家公司2013-2014年的財(cái)務(wù)報(bào)表數(shù)據(jù),通過(guò)主成分分析降維得到濃縮的5個(gè)主成分因子,然后將5個(gè)因子作為自變量建立Logistic回歸模型[12];胡賢德、曹蓉等人借助群智能螢火蟲(GSO)算法,提出一種基于改進(jìn)離散型螢火蟲(IDGSO)算法,并將其引入到BP神經(jīng)網(wǎng)絡(luò)用于微企運(yùn)行風(fēng)險(xiǎn)評(píng)估[13];楊俊等人使用Gradient Boosting算法對(duì)中國(guó)建設(shè)銀行上海分行的企業(yè)貸款客戶數(shù)據(jù)建立模型,并和邏輯回歸以及專家規(guī)則進(jìn)行橫向比較,結(jié)果表明Gradient Boosting算法的模型要優(yōu)于另外兩種模型[14];熊正得等人利用因子分析法對(duì)深滬A股上市的制造企業(yè)財(cái)務(wù)數(shù)據(jù)構(gòu)建風(fēng)險(xiǎn)評(píng)價(jià)體系,并在違約 ? 測(cè)度階段應(yīng)用Logistic回歸對(duì)不同組樣本進(jìn)行測(cè) ?度[15];周戰(zhàn)超通過(guò)對(duì)企業(yè)的貸款數(shù)據(jù)進(jìn)行實(shí)證分析,建立基于K-均值聚類的工業(yè)企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)模型[16]。此外,機(jī)器學(xué)習(xí)還在不同的領(lǐng)域中有廣泛的應(yīng)用和研究[17-21]。
根據(jù)上述關(guān)于企業(yè)運(yùn)行風(fēng)險(xiǎn)評(píng)價(jià)研究的總結(jié),本文運(yùn)用隨機(jī)森林作為對(duì)涉企數(shù)據(jù)進(jìn)行變量甄選,然后將決策樹(shù)、集成法以及神經(jīng)網(wǎng)絡(luò)分別應(yīng)用到企業(yè)運(yùn)行風(fēng)險(xiǎn)建模中,比較和分析三個(gè)模型的性能,并將其應(yīng)用到企業(yè)風(fēng)險(xiǎn)預(yù)測(cè)。
1 ?相關(guān)技術(shù)
1.1 ?決策樹(shù)
決策樹(shù)是一種監(jiān)督學(xué)習(xí)算法(有一個(gè)預(yù)定義的目標(biāo)變量)主要用于分類問(wèn)題。如圖1,它適用于離散型(分類)和連續(xù)型(回歸)輸入和輸出變量,它會(huì)自動(dòng)識(shí)別最重要的變量并且計(jì)算該變量的信息增益來(lái)劃分?jǐn)?shù)據(jù)集,既可以做分類又可以做回歸。構(gòu)造決策樹(shù)的關(guān)鍵步驟是分裂屬性,即在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支,其目標(biāo)是讓各個(gè)分裂子集盡可能“純”。所謂“純”,就是讓同一子集的數(shù)據(jù)擁有相同的屬性,用“信息增益”(Information Gain)衡量。信息熵定量信息的大小,當(dāng)節(jié)點(diǎn)的類別均勻分布時(shí),熵值為1;當(dāng)只包含一類時(shí),熵值為0。決策樹(shù)節(jié)點(diǎn)的“純”就是根據(jù)信息熵來(lái)定義。從信息論知識(shí)中我們直到,期望信息越小,信息增益越大,從而純度越高,不純?cè)叫 ?/p>
根據(jù)式(4)的值,選擇信息增益(熵減)最大的屬性劃分集合S。
決策樹(shù)算法偽代碼如下:
輸入:訓(xùn)練集集合D={(x1,y1),(x2,y2)…,(xm,ym)},屬性集A={a1,a2,…,ak},函數(shù)TreeGenerate(D,A)
輸出:以node為根節(jié)點(diǎn)的一棵決策樹(shù)
生成節(jié)點(diǎn)node;
if D中樣本全屬于同一類別C then
將node標(biāo)記為C類節(jié)點(diǎn);return
end if
if A=Φ or D中樣本在A上取值相同 then
將node標(biāo)記為葉節(jié)點(diǎn),其它類別標(biāo)記為D中樣本數(shù)最多的類;return
end if
從A中選擇最優(yōu)劃分屬性 ;
for ?的每個(gè)值 ?do
為node生成一個(gè)分支;令Dv表示D中在 上取值為 的樣本子集;
If Dv為空 then
將分支節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),其它類別標(biāo)記為D中樣本數(shù)最多的類;return
else
以TreeGenerate(Dv,A\{a*})為分支節(jié)點(diǎn)
end if
end for
1.2 ?隨機(jī)森林
隨機(jī)森林(Random Forest)[22-23]是以決策樹(shù)為基礎(chǔ)的一種集成學(xué)習(xí)(Ensemble Learning)方法,從直觀角度來(lái)解釋,每棵決策樹(shù)都是一個(gè)分類器(分類問(wèn)題),對(duì)于一個(gè)輸入樣本,N棵樹(shù)會(huì)有N個(gè)分類結(jié)果。而隨機(jī)森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出,是一種Bagging思想[24],如圖2所示。
本文將隨機(jī)森林用于特征選擇,其目標(biāo)有兩個(gè):
(1)找出與因變量高度相關(guān)的特征變量;
(2)選擇數(shù)目較少的特征變量并能夠充分預(yù)測(cè)目標(biāo)變量結(jié)果。
假如每次選擇m個(gè)特征用于建模,步驟如下:
Step1: 初步估計(jì)和排序
a)對(duì)隨機(jī)森林中的特征變量按VI(variable importance)降序排序;
b)確定刪除的特征比例,從當(dāng)前的特征變量中剔除相應(yīng)比例不重要的特征,得到一個(gè)新的特征集;
c)用新的特征集建立新的隨機(jī)森林,并計(jì)算特征集中每個(gè)特征的VI,并排序;
d)重復(fù)以上步驟,直到剩下m個(gè)特征值。
Step2: 根據(jù)Step1中得到的每個(gè)特征集及其建立起來(lái)的隨機(jī)森林,計(jì)算對(duì)應(yīng)的袋外誤差率OOB(out-of-bag error)
Step3:把Step2中OOB最低的特征集作為選定為建模特征。
上述步驟中涉及特征值的重要性(VI)計(jì)算,在隨機(jī)森林中VI的計(jì)算方法如下:
(1)對(duì)于隨機(jī)森林中的每棵樹(shù),使用相應(yīng)的袋外數(shù)據(jù)計(jì)算它的袋外誤差率,記為OOB1;
(2)隨機(jī)地對(duì)袋外數(shù)據(jù)的特征值(假如此時(shí)為X)假如噪音干擾(例如,隨機(jī)改變樣本在特征X出的值),再次計(jì)算它的袋外數(shù)據(jù)誤差,記為OOB2;
(3)假設(shè)隨機(jī)森林中有Ntree棵樹(shù),那么對(duì)于特征X重要性為 。如果給某個(gè)特征隨機(jī)假如噪音之后,袋外的準(zhǔn)確率大幅度降低,則說(shuō)明該特征值對(duì)于樣本的分類影響大,也就是說(shuō)該特征為重要的。
此外,將隨機(jī)森林用于特征選擇還涉及到OOB的計(jì)算。我們知道,在構(gòu)建每棵樹(shù)時(shí),對(duì)訓(xùn)練集使用了不同的bootstrap sample(隨機(jī)且有放回地抽?。K詫?duì)于每棵樹(shù)而言(假設(shè)對(duì)于第k棵樹(shù)),大約有1/3的訓(xùn)練實(shí)例沒(méi)有參與第k棵樹(shù)的生成,它們稱為第k棵樹(shù)的OOB樣本,計(jì)算方法如下:
(1)對(duì)每個(gè)樣本,計(jì)算它作為OOB樣本的樹(shù)對(duì)它的分類情況(每個(gè)樣本都在所有的樹(shù)中進(jìn)行分類);
(2)然后以簡(jiǎn)單多數(shù)投票作為該樣本的分類 結(jié)果;
(3)最后用誤分個(gè)數(shù)占樣本總數(shù)的比率作為隨機(jī)森林的OOB誤分率。
1.3 ?集成方法
集成方法指有策略地建立多個(gè)模型并將其組合一起,解決特定計(jì)算智能問(wèn)題的過(guò)程。在這種方法可以擴(kuò)展至任意學(xué)習(xí)器以建立集成模型,它生產(chǎn)多個(gè)分類器,然后將這些分類器的類別預(yù)測(cè)概率作為另一個(gè)分類器的輸入特征,這樣會(huì)提高預(yù)測(cè)的準(zhǔn)確率。如圖3所示。
圖3中建立了三種不同的分類器,并使用它們的預(yù)測(cè)概率作為第四個(gè)不同分類器的輸入,以對(duì)測(cè)試集作出預(yù)測(cè)。
1.4 ?人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所作出的交互反應(yīng)。
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過(guò)程也是權(quán)重不斷調(diào)整過(guò)程,其步驟如下:
(1)標(biāo)準(zhǔn)化輸入變量在0和1之間;
(2)將網(wǎng)絡(luò)權(quán)重的初始值設(shè)定為0或隨機(jī)產(chǎn)生,通過(guò)各節(jié)點(diǎn)的函數(shù)來(lái)估計(jì)數(shù)據(jù)的目標(biāo)變量值;
(3)比較實(shí)際值和估計(jì)值之間的誤差,并根據(jù)誤差值重新調(diào)整各權(quán)重的偏置;
(4)反復(fù)執(zhí)行步驟2,直到實(shí)際值和估計(jì)值之間的誤差最小,此時(shí)停止學(xué)習(xí)以獲得最佳權(quán)重。
2 ?準(zhǔn)備工作
2.1 ?數(shù)據(jù)抽取
本文通過(guò)政務(wù)信息共享平臺(tái)歸集的數(shù)據(jù)中抽取相關(guān)的數(shù)據(jù)集進(jìn)行清洗整合,整理歸集出可用于分析建模的有效數(shù)據(jù)。過(guò)程包括清洗轉(zhuǎn)換歷史檢查結(jié)果表,關(guān)聯(lián)融合企業(yè)基本信息與企業(yè)納稅信息表,從而得到企業(yè)特征值與檢查結(jié)果的關(guān)聯(lián)表,如圖5所示。
(1)檢查結(jié)果表清洗
從數(shù)據(jù)庫(kù)中抽取企業(yè)的歷史數(shù)據(jù),如表1所以。
其中,“檢查結(jié)果”是本次項(xiàng)目的預(yù)測(cè)目標(biāo),由于檢查結(jié)果的數(shù)據(jù)是不規(guī)范的,需要進(jìn)一步整理,如表2所示。
(2)企業(yè)數(shù)據(jù)表關(guān)聯(lián)
本次項(xiàng)目建模中,我們把“檢查結(jié)果”表、“企業(yè)基本信息表”、“企業(yè)納稅金額”表進(jìn)行關(guān)聯(lián),使其關(guān)聯(lián)后整合成一整表。
2.2 ?創(chuàng)建虛擬變量
神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)準(zhǔn)備是非常重要的,因?yàn)樗械膮f(xié)變量和響應(yīng)變量都必須是數(shù)值型。為此,本文把數(shù)據(jù)集中變量為分類(factor)型的數(shù)據(jù)創(chuàng)建虛擬變量。
虛擬變量(Dummy Variables)又稱虛設(shè)變量或啞變量,用以反映質(zhì)的屬性的一個(gè)人工變量,是量化了的自變量,通常取值為0或1。引入虛擬變量會(huì)使模型變得更復(fù)雜,但對(duì)問(wèn)題描述更簡(jiǎn)明,提高模型的精度,相當(dāng)于將不同屬性的樣本合并,擴(kuò)大了樣本容量(增加了誤差自由度,從而降低了誤差方差)。
在模型中引入多個(gè)虛擬變量時(shí),原則如下:
(1)如果模型有截距項(xiàng)
有m種互斥的屬性類型,在模型中引入(m–1)個(gè)虛擬變量。
(2)如果模型無(wú)截距項(xiàng)
有m個(gè)特征,設(shè)置m個(gè)虛擬變量。
2.3 ?特征選擇
在機(jī)器學(xué)習(xí)中,我們經(jīng)常面臨這樣一個(gè)問(wèn)題:我們手頭上擁有數(shù)據(jù)集往往含有很多的自變量,甚至有些數(shù)據(jù)集的自變量數(shù)(列)比觀察值數(shù)目(行)還要多。這種情況需要對(duì)特征進(jìn)行選擇,即從原有的特征中刪除影響不大或共線變量,保留那些對(duì)目標(biāo)變量(因變量)解釋好或者影響大的重要變量。這樣一方面可以提高建模過(guò)程中的運(yùn)算速度;另一方面對(duì)模型的解釋性更直觀,減低擬合模糊性。
本文運(yùn)用隨機(jī)森林(RF)對(duì)3.1小節(jié)中抽取的原始數(shù)據(jù)(共有18個(gè)特征)進(jìn)行特征選擇,具體情況如下:
(1)改變隨機(jī)數(shù)種子,算法運(yùn)行次數(shù)k=5,只選擇那些在k次運(yùn)行中都標(biāo)記為“Confirmed”的特征;
(2)將訓(xùn)練數(shù)據(jù)分為n=10折,在沒(méi)折數(shù)據(jù)上分別進(jìn)行算法迭代,然后選擇那些在所有n折都標(biāo)記為“Confirmed”的特征;
(3)迭代次數(shù)it=100。
運(yùn)行結(jié)果如圖6所示。
從圖6可知,應(yīng)用RF對(duì)原始數(shù)據(jù)進(jìn)行特征選擇后,特征由原來(lái)的18個(gè)縮減到12個(gè)(因變量除外)??梢杂眯碌奶卣鬟M(jìn)行更深入、更有意義的數(shù)據(jù)探索,提高建模工作效率及運(yùn)行速度。
3 ?建模及分析
本文基于廣州市工商行政等有關(guān)部門的真實(shí)數(shù)據(jù),分別應(yīng)用決策樹(shù)、集成方法(決策樹(shù)、梯度提升、元多自適應(yīng)回歸樣條)、人工神經(jīng)網(wǎng)絡(luò)對(duì)其建立預(yù)測(cè)模型(以變量“檢查結(jié)果”為因變量),并對(duì)模型的性能分析比較,深入研究企業(yè)運(yùn)行風(fēng)險(xiǎn)預(yù)測(cè)。
建模環(huán)境如下:
處理器為Intel(R) Core(TM) i5-4590 CPU@ 3.3 GHz;內(nèi)存為8 G;系統(tǒng)為64位Windows 7;運(yùn)行環(huán)境為R x64 3.4.3以及RStudio。
數(shù)據(jù)集特征維度:
數(shù)據(jù)集FSH_data擁有7988行(觀察值);13個(gè)變量(含因變量)。后期添加數(shù)據(jù)行繼續(xù)進(jìn)行研究。
3.1 ?基于決策樹(shù)建模
3.1.1 ?參數(shù)設(shè)置
參數(shù)cp表示樹(shù)的復(fù)雜度,每一步分裂,模型的擬合度都會(huì)提高,但復(fù)雜度也會(huì)增加,初始設(shè)置為0.01;參數(shù)method表示構(gòu)建樹(shù)過(guò)程中所選擇的方法,一般有“連續(xù)型-anova;離散型(分類)-class,設(shè)置為class;參數(shù)minsplit表示節(jié)點(diǎn)中的樣本數(shù)量小于某個(gè)給定界限,設(shè)置為20;參數(shù)maxdepth表示樹(shù)的深度,設(shè)置為30。
3.1.2 ?數(shù)據(jù)分配
將數(shù)據(jù)集按7∶3比例分成兩個(gè)子集,其中訓(xùn)練集占7成,測(cè)試集占3成,并采用十折交叉法對(duì)其驗(yàn)證,如表8所示。
3.1.3 ?建模結(jié)果
模型tree.model的詳細(xì)性能如圖7所示。
圖7(a)為模型tree.model性能參數(shù)描述。其中,cp為樹(shù)的偏差參數(shù),也叫復(fù)雜度參數(shù),在樹(shù)的構(gòu)建過(guò)程中,如果偏差(復(fù)雜度)減少到某一個(gè)給定的臨界值,樹(shù)的構(gòu)建將結(jié)束,從(a)看到,cp從0.165到設(shè)置的0.01,cp越小,模型越復(fù)雜,可讀性越差,所以要適當(dāng)控制cp的值;nsplit為分裂屬性結(jié)點(diǎn)數(shù),從結(jié)果知道,樹(shù)分裂到3個(gè)節(jié)點(diǎn)結(jié)束;rel error為相對(duì)誤差(與根節(jié)點(diǎn)比較),此處值為0.77,對(duì)應(yīng)cp=0.01;xerror和xstd是應(yīng)用十折交叉驗(yàn)證的估計(jì)誤差和標(biāo)準(zhǔn)差,這里分別是0.77、0.016。
圖7(b)為模型tree.model交叉檢驗(yàn)(xerror)與復(fù)雜度(cp)的曲線圖,最優(yōu)的決策樹(shù)的交叉驗(yàn)證誤差為0.77(紅色虛線),對(duì)應(yīng)的cp為0.01,分裂節(jié)點(diǎn)為3個(gè),這與圖7(a)保持一致。
圖7(c)為模型tree.model的混淆矩陣,本文將混淆矩陣的各項(xiàng)指標(biāo)作為評(píng)價(jià)模型性能。其中“Accuracy”表示模型分類的準(zhǔn)確率,有一個(gè)95%的置信區(qū)間(0.7295,0.7899),其準(zhǔn)確率為76%,從數(shù)值看表現(xiàn)不錯(cuò);“Kappa”是衡量模型分類一致性參數(shù),取值范圍為0~1,值越大表示模型的分類效果與數(shù)據(jù)的真實(shí)值越一致,當(dāng)0.4 其中,Sensitivity稱之為“靈敏度”,即“召回率”,用TPR=TP/(TP+FN)表示,指所有正例中被分對(duì)的比例,衡量分類器對(duì)正例的識(shí)別能力,此出正例為“不正常”,從圖中看到模型tree.model識(shí)別“不正?!保ㄕ╊悇e能力為38.6%,表現(xiàn)欠佳;Specificity稱之為“特異度”,用TNR=TN/(FP+TN)表示,指所有負(fù)例中被分對(duì)的比例,衡量分類器對(duì)負(fù)例的識(shí)別能力,此處的負(fù)例為“正?!?,而且從圖中看到,模型tree.model識(shí)別“正?!保ㄘ?fù)例)類別能力為93.6%,表現(xiàn)甚佳。 通過(guò)圖7各項(xiàng)數(shù)值指標(biāo)看到,雖然模型tree.model的預(yù)測(cè)準(zhǔn)確率為76%,正確識(shí)別負(fù)例的概率為93.6%,且P-Value=5.652e-07顯著,但其Kappa值及Sensitivity值表明模型的整體性能表現(xiàn)一般,有待提高。 3.2 ?基于集成方法 3.2.1 ?參數(shù)設(shè)置 本文將分類算法決策樹(shù)、梯度提升、多元自適應(yīng)回歸樣條組合形成一個(gè)MLR集成方法,建立一個(gè)強(qiáng)分類器ensemble.model。基礎(chǔ)學(xué)習(xí)器base.learners設(shè)置為learns;超級(jí)學(xué)習(xí)器super.learner設(shè)置為classif.logreg;預(yù)測(cè)類型predict.type設(shè)置為prob;學(xué)習(xí)方式mothod設(shè)置為stack.cv。 3.2.2 ?數(shù)據(jù)分配 為了公平比較,數(shù)據(jù)集的劃分與表8一致,此外,要為劃分的訓(xùn)練集創(chuàng)建task對(duì)象及組合各個(gè)分類算法: FSH_data.task<-makeClassTask(id=廣州企業(yè), data=train,target=type) base<-c(‘classif.rpart,classif.boosting,classif.earth) 3.2.3 ?建模結(jié)果 模型ensemble.model的詳細(xì)性能如圖8所示。 圖8(a)為模型ensemble.model的混淆矩陣,與圖7(c)相比可以看到各項(xiàng)指標(biāo)參數(shù)都有所提高。例如,準(zhǔn)確率(Accuracy)從76%到78.7%提升,其置信區(qū)間為(0.7721,0.8015);Kappa值從0.386到0.57提升,一致性處于“可接受”水平;靈敏度(Sensitivity)、特異度(Specificity)也有所提升,分別為0.65、0.93,對(duì)比模型tree.model可知,模型ensemble.model在識(shí)別“不正常”(正例)類別能力提高明顯,而識(shí)別“正?!保ㄘ?fù)例)類別能力與模型tree.model相當(dāng),且P-Value=2.2e–16表明結(jié)果更加顯著。 圖8(b)為模型ensemble.model的ROC曲線,它是反映Sensitivity(靈敏度)和Specificity(特異性)連續(xù)變量的綜合指標(biāo)。理想情況下,TPR(敏感度)應(yīng)該接近1,F(xiàn)PR(1-特異度)應(yīng)該接近0。對(duì)于一個(gè)分類器,ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)于一個(gè)threshold,比如threshold最大時(shí),TP=FP=0,對(duì)應(yīng)于原點(diǎn);threshold最小時(shí),TN=FN=0。另外,ROC曲線下方圖形圍成面積為AUC=0.764,說(shuō)明模型ensemble.model有預(yù)測(cè)價(jià)值(注:AUC值越大,表示模型分類性能越優(yōu))。 綜合上述可知,利用集成方法建立的模型極大地提升了分類器的預(yù)測(cè)。對(duì)于結(jié)果,我們可以從直觀理解為:如果把決策樹(shù)、提升法、多元自適應(yīng)回歸樣條各自看成專家,那么,集成方法即為專家們的智慧組合。 3.3 ?基于人工神經(jīng)網(wǎng)絡(luò) 3.3.1 ?參數(shù)設(shè)置 本小節(jié)應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)FSH_data數(shù)據(jù)集建立預(yù)測(cè)模型,并通過(guò)調(diào)節(jié)一些參數(shù)逐步提高其性能。參數(shù)說(shuō)明如下: 3.3.2 ?數(shù)據(jù)分配 為了公平比較,數(shù)據(jù)集的劃分與表8一致,此外,要為劃分的訓(xùn)練集創(chuàng)建task對(duì)象及組合各個(gè)分類算法,由于因變量(檢查結(jié)果)是字符串的factor型,需要把其轉(zhuǎn)換成1/0數(shù)字的factor型: FSH_data$檢查結(jié)果<- ifelse(FSH_data$檢查結(jié)果==不正常,1,0) 另外,還要按3.2小節(jié)的方法為數(shù)據(jù)集中非數(shù)值部分創(chuàng)建虛擬變量(因變量除外)。 3.3.3 ?建模結(jié)果