劉雅卉 滕志霞
摘要 針對(duì)現(xiàn)有ATM機(jī)故障識(shí)別機(jī)制存在的診斷速度慢及多種故障場(chǎng)景下的診斷精確度低的問(wèn)題,提出了一種基于CART決策樹的隨機(jī)森林方法完成對(duì)ATM機(jī)的故障診斷。該方法對(duì)ATM機(jī)交易數(shù)據(jù)集進(jìn)行交易特征提取,針對(duì)不同故障情景將數(shù)據(jù)分為正常一異常二分類,通過(guò)Bootstrap重抽樣,建立多棵CART決策樹,形成隨機(jī)森林模型,實(shí)現(xiàn)ATM機(jī)故障的快速診斷。且隨著故障數(shù)據(jù)的增加,其自動(dòng)診斷模型可以自動(dòng)更新完善。通過(guò)ATM機(jī)實(shí)際故障數(shù)據(jù),驗(yàn)證了該方法的有效性。同時(shí),通過(guò)對(duì)隨機(jī)森林中的決策樹數(shù)目的對(duì)比分析,得出了該方法模型的最優(yōu)設(shè)計(jì)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,該方法具有0.991的準(zhǔn)確率,并且具有診斷速度快、操作簡(jiǎn)單、魯棒性強(qiáng)的優(yōu)點(diǎn)。
【關(guān)鍵詞】集成學(xué)習(xí) 隨機(jī)森林 CART決策樹交易特征選擇 故障診斷
目前,銀行業(yè)發(fā)展的一個(gè)重要方向是發(fā)展無(wú)人銀行、提高ATM類設(shè)備的應(yīng)用范圍。伴隨ATM的種類、數(shù)量,業(yè)務(wù)交易量的急速增長(zhǎng),如何準(zhǔn)確快速地識(shí)別ATM設(shè)備的異常交易狀態(tài),保障ATM設(shè)備的運(yùn)行服務(wù)狀態(tài),已經(jīng)成為擺在ATM運(yùn)營(yíng)部門面前急需解決的難題。
應(yīng)用于銀行業(yè)的ATM設(shè)備監(jiān)管系統(tǒng)主要包括兩種類型:
第一種類型是ATM設(shè)備供應(yīng)商隨機(jī)器附送的監(jiān)控軟件,該種系統(tǒng)可針對(duì)該種設(shè)備進(jìn)行較為簡(jiǎn)單的監(jiān)控狀態(tài),需要安排專門的管理人員進(jìn)行手動(dòng)監(jiān)控處理,而且該軟件運(yùn)行在銀行主機(jī)的UNIX系統(tǒng)上,使用、管理和控制難以實(shí)現(xiàn);第二種類型是設(shè)備供應(yīng)商針對(duì)自身定制開發(fā)的監(jiān)控管理軟件,這種軟件系統(tǒng)較好的考慮自身客戶的需求,使用較為簡(jiǎn)單易用,從設(shè)備的底層系統(tǒng)獲取需要的管理數(shù)據(jù),因此狀態(tài)監(jiān)控準(zhǔn)確,具有很好的效果。缺點(diǎn)在于該種軟件也只支持特定品牌的ATM設(shè)備,缺乏通用性。在此基礎(chǔ)上,銀行需要投入大量資金進(jìn)行定制開發(fā),才能將符合自身需求的管理流程融入進(jìn)系統(tǒng),其他設(shè)備也才能接入。
ATM設(shè)備在銀行業(yè)廣泛應(yīng)用后,對(duì)ATM設(shè)備的故障監(jiān)控處理提出更高的要求,而目前的ATM設(shè)備監(jiān)控只實(shí)現(xiàn)了ATM設(shè)備狀態(tài)的監(jiān)控。廣泛調(diào)研、分析可知,銀行在ATM設(shè)備故障檢測(cè)監(jiān)管方面存在以下問(wèn)題:人工管理ATM設(shè)備,效率低下;設(shè)備管理方式落后,高故障率影響其運(yùn)行成本;人工方式維護(hù),難以進(jìn)行遠(yuǎn)程控制;銀行顧客遇到操作難題和故障問(wèn)題不能得到及時(shí)有效的幫助;ATM的對(duì)賬功能較為簡(jiǎn)單;無(wú)ATM設(shè)備管理系統(tǒng)導(dǎo)致配鈔不合理;對(duì)ATM服務(wù)提供商難以量化考核。
評(píng)價(jià)ATM設(shè)備交易狀態(tài)是否正??梢院?jiǎn)化認(rèn)識(shí)為一個(gè)分類的過(guò)程。本文在分析現(xiàn)實(shí)需求的基礎(chǔ)上,采用商業(yè)銀行的交易數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,提取交易狀態(tài)特征,用決策森林的方法快速準(zhǔn)確地對(duì)交易狀態(tài)進(jìn)行預(yù)警分級(jí),在降低銀行運(yùn)行成本和通用性的基礎(chǔ)上,提高ATM設(shè)備的使用和運(yùn)行效率。RF在處理數(shù)據(jù)集上有獨(dú)特優(yōu)勢(shì),用它分析和評(píng)價(jià)ATM交易狀態(tài)可以避免一般數(shù)學(xué)方法容易陷入過(guò)擬合現(xiàn)象的問(wèn)題。RF還具有良好的抗噪聲能力,從而能提高結(jié)果的有效性和準(zhǔn)確性。
1 RF算法原理
RF算法結(jié)合了Bremam提出的思想和Ho闡述的方法。它是一個(gè)由多個(gè)決策樹( DecisionTree,DT)組成的分類器。而這些DT采用隨機(jī)產(chǎn)生的方法且非關(guān)聯(lián),即隨機(jī)決策樹( RandomDeclsion Tree.RDT)。待測(cè)數(shù)據(jù)進(jìn)入RF后就讓每一棵DT分類,得到的最終結(jié)果為DT中分類結(jié)果最多的類。RF輸出的類別由個(gè)別樹輸出類別的眾數(shù)確定。
1.1 RF算法優(yōu)點(diǎn)
(1)與其他數(shù)據(jù)集相比,其在算法上有很大的優(yōu)勢(shì);
(2)它能夠處理高維度數(shù)據(jù)且不需要進(jìn)行特征選擇,而且在訓(xùn)練完之后,可以得出“哪些維度比較重要”的結(jié)論;
(3)創(chuàng)建隨機(jī)森林,使用無(wú)偏估計(jì);
(4)能檢測(cè)到維度間的影響;
(5)實(shí)現(xiàn)過(guò)程簡(jiǎn)單,且易于使用并行化方法處理。
1.2 隨機(jī)森林基本原理
當(dāng)一個(gè)新輸入的樣本進(jìn)入森林后,森林中的決策樹逐一對(duì)其進(jìn)行判斷,觀察其應(yīng)該屬于哪一類,然后預(yù)測(cè)這一樣本是被選擇次數(shù)最多的那一類。創(chuàng)建每一棵決策樹的過(guò)程主要包括采樣與完全分裂。首先,RF對(duì)輸入的數(shù)據(jù)分別進(jìn)行有放回的行采樣和列采樣。輸入樣本與采樣樣本個(gè)數(shù)相等,使得在訓(xùn)練中每一棵樹的樣本都不會(huì)是所有的樣本,因此相對(duì)不會(huì)容易出現(xiàn)過(guò)擬合現(xiàn)象。然后,從N個(gè)維度中選取n個(gè)樣本,進(jìn)行列采樣,其中(n
RF本身的算法邏輯使用的是Bagging算法,具體的算法流程如下(表示樣本的屬性數(shù),滿足O
2 隨機(jī)森林在ATM交易狀態(tài)特征評(píng)價(jià)中的應(yīng)用
2.1 模型設(shè)計(jì)思路
本文采用隨機(jī)森林算法對(duì)ATM機(jī)交易狀態(tài)進(jìn)行分析和評(píng)價(jià)。上節(jié)所描述的4個(gè)特征參數(shù)為RF輸入的判別因子,表示為四維輸入變量,并以此擬定模型設(shè)計(jì)思路。首先提取相關(guān)數(shù)據(jù)樣本的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)建立模型,并對(duì)數(shù)據(jù)進(jìn)行相關(guān)處理。然后用訓(xùn)練數(shù)據(jù)集對(duì)RF進(jìn)行訓(xùn)練。最后利用得到的模型預(yù)測(cè)相應(yīng)數(shù)據(jù)的分類結(jié)果。
本文所制定的模型設(shè)計(jì)思路如圖1所示。
2.2 實(shí)例分析
2.2.1 數(shù)據(jù)采集
本文數(shù)據(jù)集來(lái)源于商業(yè)銀行總行數(shù)據(jù)中心。商業(yè)銀行總行數(shù)據(jù)中心為了實(shí)時(shí)掌握全行的業(yè)務(wù)狀態(tài),每分鐘對(duì)各分行的交易數(shù)據(jù)進(jìn)行匯總。匯總信息包括交易量、相應(yīng)時(shí)間、成功率三個(gè)指標(biāo)。監(jiān)控系統(tǒng)通過(guò)對(duì)每家分行的匯總統(tǒng)計(jì)信息做數(shù)據(jù)分析,來(lái)捕捉整個(gè)前端和后端整體應(yīng)用系統(tǒng)運(yùn)行情況以及時(shí)發(fā)現(xiàn)故障或異常。本文選取四個(gè)常見(jiàn)故障情景作為判別依據(jù)
(1)分行測(cè)網(wǎng)絡(luò)傳輸節(jié)點(diǎn)故障,前端交易無(wú)法上傳請(qǐng)求,導(dǎo)致業(yè)務(wù)量陡降;
(2)分行測(cè)參數(shù)數(shù)據(jù)變更或配置錯(cuò)誤,數(shù)據(jù)中心后端處理失敗率增加,影響交易成功率指標(biāo);
(3)數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng)CPU負(fù)荷過(guò)大)引起交易處理緩慢,影響交易相應(yīng)時(shí)間指標(biāo);
(4)數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進(jìn)程異常,導(dǎo)致交易失敗或相應(yīng)緩慢。
2.2.2 交易特征參數(shù)提取
針對(duì)商業(yè)銀行四個(gè)月的交易量、交易成功率、相應(yīng)時(shí)間的數(shù)據(jù)進(jìn)行分析和提取,可得出交易狀態(tài)特征參數(shù)。根據(jù)模式分類的方法和思想,本文對(duì)ATM機(jī)交易狀態(tài)特征參數(shù)進(jìn)行評(píng)價(jià)和分類,提取了下列四個(gè)主要特征參數(shù)作為評(píng)判ATM交易狀態(tài)的依據(jù)(表1):
(1)相對(duì)差值,即:下一分鐘的交易量.上一分鐘的交易量。含義是下一分鐘交易量變化程度,刻畫了交易量的變化幅度,陡降視為不正常。
(2)成功率。描述交易成功率,判斷是否發(fā)生失敗率增加的現(xiàn)象。
(3)單位響應(yīng)時(shí)間。ATM機(jī)每個(gè)交易量的反應(yīng)時(shí)間。
(4)交易量。除去時(shí)間因素影響,是否具有正常交易的能力。
2.3 創(chuàng)建RF分類器
在IBM SPSS Modeler開發(fā)環(huán)境下使用軟件的建模節(jié)點(diǎn)自動(dòng)構(gòu)建RF模型。
為便于后期預(yù)測(cè)方法間的比較,將數(shù)據(jù)隨機(jī)分為兩組:50%數(shù)據(jù)用于訓(xùn)練構(gòu)建模型,余下50%數(shù)據(jù)作為測(cè)試數(shù)據(jù)檢驗(yàn)?zāi)P?。從隨機(jī)森林輸入?yún)?shù)中除了自身訓(xùn)練樣本是關(guān)鍵因子外,還有決策樹的棵樹較為重要。因?yàn)殡S機(jī)森林中包含決策樹的棵樹對(duì)其泛化性能有一定的影響。本次仿真測(cè)試我們選取決策樹棵樹為50、100、150、200、500進(jìn)行檢驗(yàn)。
2.4 仿真測(cè)試
使用IBM SPSS modeler建立數(shù)據(jù)流模型。我們將最大樹深度定制值設(shè)為5,可以防止決策樹因分叉過(guò)多而導(dǎo)致判別錯(cuò)誤率上升而分類目標(biāo)中的雜質(zhì)測(cè)量方式采用模型構(gòu)建內(nèi)容中介紹的計(jì)算Gini系數(shù)的方式。過(guò)度擬合防止集合設(shè)為30%。
在中止規(guī)則中,選擇使用絕對(duì)值:父分支中的最小記錄數(shù)定為100;子分支中的最小記錄數(shù)定為10。使用絕對(duì)值最為中止規(guī)則的判定,可以使樹的結(jié)構(gòu)不會(huì)過(guò)于冗雜,使所建立的模型盡量簡(jiǎn)單。設(shè)定最小雜質(zhì)改變?yōu)?.0001,即指定了樹中新的分區(qū)所需要的最小雜質(zhì)改變量。若最佳分區(qū)引起的雜質(zhì)改變量低于指定值時(shí),則不會(huì)繼續(xù)分割。
建立得到的流圖如圖2。
待運(yùn)行模型之后,在運(yùn)行成功的RF節(jié)點(diǎn)處連接表格和分析兩個(gè)節(jié)點(diǎn),可直觀地觀測(cè)模型對(duì)交易狀態(tài)統(tǒng)計(jì)數(shù)據(jù)的處理情況。預(yù)測(cè)變量重要性是以Gini指數(shù)為依據(jù)計(jì)算的,該值越大就越先作為分類屬性分裂C&R二叉樹的節(jié)點(diǎn),如圖3所示。
3 結(jié)果分析
3.1 模型輸出結(jié)果分析
隨機(jī)森林算法選取500棵樹,訓(xùn)練樣本和測(cè)試樣本占比為( 0.5,0.5),節(jié)點(diǎn)隨機(jī)分類特征數(shù)量設(shè)為4,通過(guò)分析,模型輸出結(jié)果如表2。
從表2中可以看出平均誤差是O.l%,說(shuō)明模型的整體分類效果十分理想。隨機(jī)森林的錯(cuò)判率隨著決策樹的棵樹的增加不斷的減小,最終收斂為一個(gè)極小的定值。
通過(guò)對(duì)交易狀態(tài)的四個(gè)特征參數(shù)進(jìn)行數(shù)據(jù)分析,預(yù)測(cè)出ATM交易狀態(tài)情況,并立即發(fā)出預(yù)警信息,有效及時(shí)地解決ATM機(jī)故障問(wèn)題。本文是基于四種常見(jiàn)的故障場(chǎng)景進(jìn)行分析,為提高模型的預(yù)測(cè)性能,在實(shí)際應(yīng)用中,應(yīng)該盡可能收集ATM機(jī)更多的歷史故障和正常數(shù)據(jù),使得模型盡可能地覆蓋所有情況的特征,并且可以定期對(duì)模型進(jìn)行更新,不斷提高模型的適用性和魯棒性。
3.2 算法比較
為體現(xiàn)本文所采用的基于CART樹的隨機(jī)森林算法的優(yōu)越性,選取幾種已有預(yù)測(cè)分類算法建立故障診斷模型,并與本文方法進(jìn)行比較。當(dāng)Ntree大于100棵時(shí),隨機(jī)森林的準(zhǔn)確率趨近于0.991。因此取.0.991作為隨機(jī)森林的預(yù)測(cè)準(zhǔn)確率。
本文采用ID3、C4.5、CART、GBDT四種算法和RF算法進(jìn)行算法間的比較,將從模型準(zhǔn)確率和運(yùn)行時(shí)間對(duì)各類算法進(jìn)行比較。其中準(zhǔn)確率是最常見(jiàn)的指標(biāo),指的是被正確分類的樣本數(shù)占總樣本數(shù)的比例,準(zhǔn)確率越高的模型性能越好;而模型的運(yùn)行時(shí)間則能保證故障識(shí)別的及時(shí)有效性。如表3所示。
根據(jù)測(cè)試結(jié)果顯示,ID3和C4.5的分類效果沒(méi)有太大差異,分類的準(zhǔn)確率處于比較低的水平。其他三種算法,在訓(xùn)練時(shí)間上,CART要明顯優(yōu)于其他種,是因?yàn)镽F和GBDT都運(yùn)用了集成的思想,訓(xùn)練時(shí)間要比訓(xùn)練一棵樹久;在準(zhǔn)確率方面,RF和GBDT都比CART樹好,由此可見(jiàn)用多棵樹做判斷提高了判斷準(zhǔn)確率;同樣是運(yùn)用集成思想的RF和GBDT,RF在分類效果上要優(yōu)于GBDT。因此可以得出結(jié)論:在數(shù)據(jù)集小、屬性數(shù)目少的情況下,可以優(yōu)先選用CART樹算法;而在數(shù)據(jù)集大、屬性數(shù)目多的情況下,應(yīng)該使用RF分類算法。
4 結(jié)束語(yǔ)
本文提出一種基于CART樹的隨機(jī)森林故障預(yù)警模型,并將其應(yīng)用于ATM機(jī)故障識(shí)別中。與單棵樹相比,隨機(jī)森林算法運(yùn)用集成學(xué)習(xí)的方法具有需學(xué)習(xí)快速、不需要剪枝的優(yōu)點(diǎn)。同時(shí),隨著數(shù)據(jù)的增多,通過(guò)該方法建立的故障診斷模型可以自動(dòng)的更新完善,準(zhǔn)確率也在不斷地提升。實(shí)踐結(jié)果證明,該方法可以及時(shí)有效的診斷ATM機(jī)交易故障,且其決策樹棵樹為100時(shí),既可以保證診斷準(zhǔn)確率,也可以保證診斷效率。鑒于該方法具有較多的優(yōu)點(diǎn)和較好的應(yīng)用前景,以后將此方法用于研究和分析更大量、更多故障場(chǎng)景的ATM交易數(shù)據(jù),并采用相應(yīng)的隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)結(jié)合的方法能夠處理更加復(fù)雜的ATM機(jī)故障監(jiān)測(cè)預(yù)警方面的問(wèn)題。
參考文獻(xiàn)
[1]張海燕,劉巖,馬麗萌等,決策樹算法的比較與應(yīng)用研究[J].華北電力技術(shù),2017 (06).
[2]姚旭,王曉丹,張玉璽等.特征選擇方法綜述[J].控制與決策,2012 (02).
[3]李慧銘.銀行ATM軟件項(xiàng)目管理及控制的設(shè)計(jì)與實(shí)現(xiàn)[J].成都:電子科技大學(xué),2013.
[4]張治斌.基于SPSS Modeler的數(shù)據(jù)挖掘過(guò)程解析[J].數(shù)學(xué)技術(shù)與應(yīng)用,2017 (09).
[5]郭健.基于特征值提取與神經(jīng)網(wǎng)絡(luò)的抽油井故障診斷[J],電子設(shè)計(jì)工程,2014(01).
[6]張希翔,趙歡.基于隨機(jī)森林的語(yǔ)言人格預(yù)測(cè)方法[J].計(jì)算機(jī)工程,2017 (06).
[7]陳蘇雨,方宇,胡定玉,基于隨機(jī)森林的地鐵車門故障診斷[J].測(cè)控技術(shù),2018 (02).
[8]張濱,彭其淵,劉帆洨.基于并行C4.5的鐵路零散白貨客戶流失預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2018 (02).
[9]張靜,廖逸文.ATM機(jī)交易狀態(tài)預(yù)警模型的建立[J].電子設(shè)計(jì)與軟件工程,2017 (12).