徐勇
摘 要:本文將人工智能算法——隨機森林應(yīng)用到了信息殘缺的樣本的分類預(yù)測中。通過準確度、ROC和AUC等分類性能指標的計算發(fā)現(xiàn)隨機森林算法對帶標簽的信息殘缺樣本的分類預(yù)測能力令人滿意。
關(guān)鍵詞:人工智能;隨機森林;分類預(yù)測
一、引言
自從2016Alphgo與韓國圍棋世界冠軍李世石的大戰(zhàn)后,以深度學(xué)習(xí)為代表的人工智能技術(shù)再次進入人類視野。人工智能顧名思義,是研究開發(fā)用于模仿和拓展人類智能的技術(shù)科學(xué)。簡單說就是用計算機程序來實現(xiàn)人類智能的技術(shù)。人工智能大體分為模式識別、機器學(xué)習(xí)、智能算法、數(shù)據(jù)挖掘等子領(lǐng)域。本文關(guān)注的就是其在數(shù)據(jù)挖掘領(lǐng)域的具體應(yīng)用,即大數(shù)據(jù)信息的分類預(yù)測等。
在數(shù)據(jù)分析的過程中,我們經(jīng)常遇到這樣的應(yīng)用場景。大量樣本,每個樣本又包含了多個特征。這里的特征其表現(xiàn)形式可能是多樣化的,可以是數(shù)字型特征,可以是文本型特征等等,符合大數(shù)據(jù)的信息特征,同時所有的樣本又自帶標簽或者類別歸屬。所需解決的問題可能是如何從這些復(fù)雜的信息中“學(xué)習(xí)”到樣本的標簽是如何由樣本自帶的諸多特征來決定的。這樣即使有新的樣本,也能根據(jù)其標簽獲取它的類別。
二、基于人工智能的大數(shù)據(jù)預(yù)測
泰坦尼克號的沉沒是大家熟知的航海悲劇。我們可以從獲取船上乘客年齡、性別、艙位等多方面的信息,同時也確知這些乘客生還與否(生還記為1,否則記為0)的標簽。我們試圖從每位乘客的如上信息中推斷這些信息與其標簽的對應(yīng)關(guān)系。乘客部分信息如表一所示:
從中不難發(fā)現(xiàn)每位乘客包含姓名,年齡,票號,性別等多個特征信息。而標簽則是幸存與否,用0和1區(qū)別。鑒于年代已久原始信息留存未必完全,故有部分信息缺失只能以“NaN”記錄,為便于數(shù)據(jù)分析,這些缺失數(shù)據(jù)以對應(yīng)該特征在所有乘客里的均值代替。乘客總計有1316人。現(xiàn)在我們的任務(wù)就是從這1316人的特征及所帶標簽出發(fā),建立分類預(yù)測模型,從而實現(xiàn)由樣本的特征信息就能判別其生還或是死亡。
我們選擇隨機森林模型訓(xùn)練并測試數(shù)據(jù)從而建立分類預(yù)測模型。首先將1316條數(shù)據(jù)分為訓(xùn)練集和測試集,其比例為1:3。訓(xùn)練集用來訓(xùn)練模型,測試集用來測試模型的性能。由于模型中的參數(shù)需要設(shè)置。我們采用網(wǎng)格驗證法,即將隨機森林中的決策樹的數(shù)量分別設(shè)為120, 200, 300, 500, 800和1200,每顆決策樹的深度設(shè)為 5, 8, 15, 25和30,從而進行參數(shù)的交叉驗證來選擇最有參數(shù)組合。它的具體含義是在模型訓(xùn)練時決策樹數(shù)量和決策樹深度這兩個參數(shù)共計30種組合,看哪個組合能使得模型的預(yù)測準確率最高。
三、模型性能
在由訓(xùn)練集進行隨機森林的模型訓(xùn)練后,測試集用來測試模型的性能,即測試集中的乘客信息經(jīng)訓(xùn)練好的模型進行預(yù)測,看與其真實的標簽是否相符。由于采用了泛化性能更好的隨機森林,此次預(yù)測的準確率達到了0.8632??紤]到原始數(shù)據(jù)中不少信息都是缺失的,這一預(yù)測的準確率已經(jīng)非??捎^。另外我們還可以通過ROC和AUC來反映模型的性能。圖1是此次預(yù)測的ROC曲線圖。圖中藍色曲線是此次預(yù)測的ROC曲線,它代表模型對正類樣本正確分類的比率(tpr)和對正類樣本錯分的比率(fpr)對比。之所以需要tpr和fpr這兩個指標是因為,在評價模型預(yù)測性能的時候僅依靠準確率是不夠的。比如某個測試集有99個正類,1個負類,那么即使全都預(yù)測為正類,正確率也有99%,但若全都預(yù)測為負類,則正確率只有1%了。所以整體的準確率不足以體現(xiàn)正類或負類樣本分別被正確歸類的情況,這時就需要tpr和fpr來更細致表現(xiàn)模型的性能了,尤其是在數(shù)據(jù)集中的正類負類嚴重不平衡的時候。圖中這條藍色曲線(ROC)越靠近左上角表明性能越好。另外,這條藍色線下的面積(AUC)越接近1表明模型的性能越好。本次預(yù)測得到的AUC為0.8583。作為一個有不少缺失信息的分類問題而言,這個結(jié)果是非常不錯的。此次預(yù)測最優(yōu)的參數(shù)組合是120棵決策樹和樹的深度為5。這意味著由120棵深度為5的決策樹構(gòu)成的隨機森林能對訓(xùn)練集的擬合效果最好。
四、結(jié)語
采用隨機森林的預(yù)測模型本質(zhì)上就是利用了人工智能技術(shù)挖掘數(shù)據(jù)的本質(zhì)特征和規(guī)律。隨機森林的優(yōu)點在于它是有多棵決策樹組成的。在對訓(xùn)練集擬合時體現(xiàn)出兩個“隨機”。一是抽樣的隨機性,即若訓(xùn)練集包含N個樣本則在訓(xùn)練集中隨機有放回地抽樣N次組成用于訓(xùn)練的樣本集,這么做能體現(xiàn)模型的泛化性能又能保持每次訓(xùn)練結(jié)果的相關(guān)性;二是特征選取的隨機性,即在利用決策樹進行預(yù)測分類時每棵決策樹都是隨機地在所有特征中選取一部分進行篩選實現(xiàn)子節(jié)點的分裂,這樣就能避免總是利用所有特征來進行子節(jié)點分裂所帶來的過擬合的危險。隨機森林算法是集成式算法的代表,盡管近年來出現(xiàn)了很多其它集成式算法,但作為一種經(jīng)典的數(shù)據(jù)挖掘算法仍頻頻見諸于應(yīng)用。
參考文獻:
1、結(jié)合隨機森林面向?qū)ο蟮纳仲Y源分類 王猛等 測繪學(xué)報 2020 第49卷 第2期 P235-244
2、采用單類隨機森林的異常檢測方法及應(yīng)用 張西寧等 西安交通大學(xué)學(xué)報 2020 第2期 P1-8
3、基于隨機森林的黃土地貌分類研究 曹澤濤等 地球信息科學(xué)學(xué)報 2020第3期 P452-463
4、基于隨機森林的網(wǎng)絡(luò)入侵檢測方法 芶繼軍等 計算機工程與應(yīng)用 2020 第56卷 第2期 P82-88
5、基于隨機森林的駕駛?cè)笋{駛習(xí)性辨識策略 朱冰等 汽車工程 2019第41卷 第2期 P213-218
6、基于級聯(lián)隨機森林與活動輪廓3DMR圖像分割 馬超等 自動化學(xué)報 2019第4卷第5期 P1004-1014