亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林的可解釋性可視分析方法研究

        2021-03-23 03:44:32楊曄民張慧軍張小龍
        關(guān)鍵詞:決策樹視圖可視化

        楊曄民,張慧軍 ,2,張小龍

        1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600

        2.山西傳媒學(xué)院 融媒技術(shù)學(xué)院,山西 晉中 030619

        傳統(tǒng)上,隨機(jī)森林是通過組合弱學(xué)習(xí)器(決策樹)來進(jìn)行分類和回歸的有監(jiān)督學(xué)習(xí)模型。由于其具有高性能,隨機(jī)森林成為應(yīng)用廣泛的模型之一。雖然隨機(jī)森林在分類方面具有良好的表現(xiàn),但是在實(shí)際用于數(shù)據(jù)分析時(shí)會面臨諸多挑戰(zhàn)。首先,隨機(jī)森林模型的“黑盒子”[1]特性使得模型的構(gòu)建及預(yù)測過程的細(xì)節(jié)對用戶而言都是隱蔽的,用戶只能簡單地向隨機(jī)森林模型導(dǎo)入訓(xùn)練集和輸入相關(guān)參數(shù),對于領(lǐng)域?qū)<叶?,并不能理解預(yù)測結(jié)果背后的原因。其次,雖然自動的“黑盒”模型可以讓用戶免于交互,認(rèn)知“減負(fù)”,但是可解釋性很差,阻礙了用戶理解和洞察知識。Breiman等人[2]認(rèn)為隨機(jī)森林的性能排名級別是A+,但是可解釋性排名級別為F。因此,可解釋性為“F級別”的模型無法應(yīng)用于在對錯(cuò)誤預(yù)測零容忍或很小程度容忍領(lǐng)域中,比如在醫(yī)學(xué)診斷中,機(jī)器學(xué)習(xí)模型常常被用來幫助醫(yī)生做治療決策,當(dāng)模型預(yù)測結(jié)果是假陽性或假陰性,這種錯(cuò)誤預(yù)測方案對患者來說是致命的。目前有一些機(jī)器學(xué)習(xí)模型可視分析的方法[3],然而對于隨機(jī)模型,缺少有效的可視分析手段,使得該模型難以理解。對于隨機(jī)森林模型,目前流行解釋模型的方法是特征的全局重要性。Krause等人[4]提出了一個(gè)可視分析工作流程,利用“實(shí)例級解釋”來解釋單個(gè)實(shí)例的局部特征相關(guān)性度量,幫助數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<姨剿鳌⒃\斷和理解二分類模型做出決策,但該方法對于特征值的變化如何影響預(yù)測結(jié)果,特征重要性卻不能很好的解釋。可解釋機(jī)器學(xué)習(xí)模型的另一個(gè)重要角度是探索該模型的基本結(jié)構(gòu)和工作機(jī)制[5]。對于決策樹模型,用戶可以通過跟蹤根到葉的決策路徑來理解基本結(jié)構(gòu)和工作機(jī)制,但是隨機(jī)森林通常包含數(shù)百棵獨(dú)立的決策樹,決策路徑則更多,用戶需要識別更多特定的決策路徑,這將是一個(gè)非常耗費(fèi)時(shí)間和精力的過程,并且增加了用戶認(rèn)知負(fù)擔(dān)。

        為了解決上述問題,本文開發(fā)了一個(gè)交互式的可視分析系統(tǒng)FORESTVis(如圖1所示),幫助用戶從不同的角度理解隨機(jī)森林模型,提高隨機(jī)森林的可解釋性。本研究將利用部分依賴圖來探索特征重要性,解釋特征值的變化對預(yù)測值的影響,提高隨機(jī)森林的可解釋性。為了支持本研究,本文使用Kaggle競賽中泰坦尼克號數(shù)據(jù)集和MINIST手寫數(shù)字識別數(shù)據(jù)集進(jìn)行案例分析,結(jié)果表明該系統(tǒng)可以幫助用戶有效地理解、優(yōu)化隨機(jī)森林模型。

        本工作的主要貢獻(xiàn)總結(jié)如下:

        (1)設(shè)計(jì)了可視化映射、交互和布局算法并實(shí)現(xiàn)了可視分析系統(tǒng)FORESTVis,該系統(tǒng)綜合了從數(shù)據(jù)到視覺呈現(xiàn)的映射算法、多個(gè)視圖的布局算法和交互方法,幫助用戶從多個(gè)角度理解隨機(jī)森林的基本結(jié)構(gòu)、工作機(jī)制以及預(yù)測結(jié)果。

        (2)通過交互式可視化界面,幫助用戶分析訓(xùn)練后隨機(jī)森林的性能,并且提供實(shí)例、隨機(jī)森林模型特征的詳細(xì)信息,而這些詳細(xì)信息對于理解、診斷、優(yōu)化模型非常有用。

        (3)該系統(tǒng)可以由較少機(jī)器學(xué)習(xí)專業(yè)知識的領(lǐng)域?qū)<沂褂?,用戶只需要通過瀏覽器訪問,就可以連接到該系統(tǒng)。

        1 相關(guān)工作

        本章梳理了與該研究相關(guān)的一些工作,包括數(shù)據(jù)實(shí)例的理解和異常檢測,特征分析,基于樹結(jié)構(gòu)的可視化。

        1.1 理解數(shù)據(jù)

        理解數(shù)據(jù)是理解機(jī)器學(xué)習(xí)模型的第一步。在數(shù)據(jù)工程階段,數(shù)據(jù)可視化可以幫助用戶探索數(shù)據(jù)并定性地了解數(shù)據(jù)的本質(zhì)。訓(xùn)練模型本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中獲取知識,很大程度上模型的性能取決于其訓(xùn)練數(shù)據(jù)集的質(zhì)量,所以模型開發(fā)人員或數(shù)據(jù)科學(xué)家在獲取到數(shù)據(jù)更多知識的情況下,他們可以更好地診斷由于數(shù)據(jù)的質(zhì)量或數(shù)量問題而導(dǎo)致模型失敗的原因。

        理解數(shù)據(jù)主要有三個(gè)任務(wù):統(tǒng)計(jì)分析、降維和數(shù)據(jù)集診斷。

        統(tǒng)計(jì)分析的目的是總結(jié)數(shù)據(jù)集的統(tǒng)計(jì)特征,為用戶提供統(tǒng)計(jì)理解。最具影響力的可視化設(shè)計(jì)之一是盒須圖,它總結(jié)了每個(gè)特征的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù),Potter 等人[6]提出了關(guān)于盒須圖的可視化設(shè)計(jì)。然而,機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集變得越來越復(fù)雜,維度越來越高,瀏覽數(shù)百個(gè)盒須圖并不能完全理解數(shù)據(jù)集,所以需要降維來理解數(shù)據(jù)在輸入空間中的分布方式。投影是最常用的降維技術(shù)之一,可視化的作用是呈現(xiàn)降維的結(jié)果,比如使用多維縮放(MDS)將時(shí)序數(shù)據(jù)投影到2D 平面上的Time-Curves[7],在漸進(jìn)式可視分析(Progressive Visual Analytics)范式中t-分布隨機(jī)鄰域嵌入(t-SNE)的應(yīng)用[8]、流行學(xué)習(xí)、主成分分析(PCA)[9]等等。

        圖1 FORESTVis系統(tǒng)界面示意圖

        1.2 特征分析

        特征選擇在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘場景中是非常有用的,它是通過計(jì)算特征重要性來篩選有效的特征,即為每個(gè)特征分配一個(gè)數(shù)值來表示對預(yù)測結(jié)果的影響。

        目前評估特征重要性的方法主要有平均精確率減少(MDA)、Boruta、平均不純度減少(MDI)等。MDA是通過打亂每個(gè)特征的特征值順序,來度量順序變動對模型的精確率的影響,利用袋外數(shù)據(jù)錯(cuò)誤率來計(jì)算特征重要性,而且它適用于任何模型。Boruta是一個(gè)“相關(guān)”的特征選擇算法,檢查比隨機(jī)噪聲重要的特征,重復(fù)刪除比最佳特征差的特征來尋找所有對預(yù)測結(jié)果有用的特征。

        MDI[10]專門用于基于樹結(jié)構(gòu)模型,比如決策樹、隨機(jī)森林等,它表示每個(gè)特征對誤差的平均減少程度。在樹結(jié)構(gòu)中,分裂準(zhǔn)則的改進(jìn)是對分裂變量的重要度量,每次分裂都是針對一個(gè)可以使誤差最小化的特征(分裂點(diǎn)),誤差可以通過計(jì)算均方誤差、基尼純度、信息增益等等獲得。MDA、MDI、Boruta 都可以用于計(jì)算特征重要性和預(yù)測細(xì)節(jié)。但是,MDI在隨機(jī)森林模型中更受歡迎[10]。然而特征重要性無法顯示特征值的變化對預(yù)測結(jié)果的影響,Krause 等人[11]使用部分依賴圖來探索“黑盒”模型,解釋模型特征值的變化和預(yù)測值之間的關(guān)系。

        1.3 基于樹結(jié)構(gòu)的可視化

        本節(jié)將著重回顧決策樹的可視化。對于決策樹的可視化,PaintingClass[12]使用冰柱圖來揭示以感興趣的節(jié)點(diǎn)為中心的局部樹結(jié)構(gòu)。構(gòu)建決策樹通常是一個(gè)試錯(cuò)過程,需要設(shè)置參數(shù)、運(yùn)行算法、評估性能,當(dāng)用戶不了解算法內(nèi)部工作機(jī)制,而且對性能不滿意時(shí),需要調(diào)整參數(shù),算法再次運(yùn)行,重復(fù)該過程直到用戶對構(gòu)建的決策樹滿意為止,這非常耗時(shí)。人類的模式識別能力可用于提高決策樹構(gòu)建的有效性,用戶的積極參與可以幫用戶更深入地了解決策樹,所以Baobab View[13]使用節(jié)點(diǎn)鏈接樹圖和輔助混淆矩陣交互式的顯示特征,并且支持交互式的構(gòu)建和分析決策樹。Tree POD[14]通過探索樹構(gòu)造算法的參數(shù)進(jìn)行采樣而生成大量候選樹,通過定量和定性方面的可視化提供了對樹特征的全面概述,使用基于像素形式(pixel-based)的矩形樹圖(TreeMap)來幫助用戶評估決策樹的復(fù)雜性和性能,在兩個(gè)目標(biāo)之間進(jìn)行權(quán)衡時(shí),Tree POD 通過關(guān)注帕累托最優(yōu)(Paretooptimal)樹候選集來提供有效的指導(dǎo)。雖然目前決策樹的可視分析系統(tǒng)都是有效的,但不是專門針對隨機(jī)森林設(shè)計(jì)的,因?yàn)殡S機(jī)森林包含數(shù)百棵決策樹,隨機(jī)森林工作機(jī)制中決策路徑的結(jié)構(gòu)和屬性很難理解,故Zhao 等人[15]設(shè)計(jì)了iForest工具,它用來可視化特定預(yù)測中的決策路徑,但是該系統(tǒng)缺陷是對歷史數(shù)據(jù)進(jìn)行離線預(yù)訓(xùn)練和批量計(jì)算,不能在線分析隨機(jī)森林,并且只針對二分類,缺乏多類別、多標(biāo)簽的研究。Munzner等人[16]提出了新穎的焦點(diǎn)+上下文(Focus+Context)交互技術(shù)來可視化有限區(qū)域中的樹結(jié)構(gòu),保證樹結(jié)構(gòu)的可見性。

        總之,由于隨機(jī)森林的復(fù)雜性,目前隨機(jī)森林算法的可視分析研究相對較少,并且缺乏對隨機(jī)森林算法全面的分析,可擴(kuò)展性也較差,不適用于多類別、多標(biāo)簽數(shù)據(jù)集。本研究是為了增強(qiáng)隨機(jī)森林模型的可解釋性。

        2 整體架構(gòu)

        FORESTVis系統(tǒng)是基于Flask和D3.js[17]搭建的Web可視化應(yīng)用,系統(tǒng)采用B/S 模式,服務(wù)器端軟件使用Apache,實(shí)驗(yàn)中將D3和數(shù)據(jù)文件部署于Apache服務(wù)器端,客戶端選用的瀏覽器是Chrome。用戶只需要通過瀏覽器訪問,就可以連接到該系統(tǒng),并實(shí)時(shí)鏈接數(shù)據(jù)庫。如圖2 所示,F(xiàn)ORESTVis 系統(tǒng)共4 個(gè)模塊,分別為數(shù)據(jù)處理及算法模塊、數(shù)據(jù)存儲模塊、可視化及交互模塊。數(shù)據(jù)處理及算法模塊是對數(shù)據(jù)進(jìn)行清洗、統(tǒng)計(jì)、并加載隨機(jī)森林算法,并將結(jié)果傳遞到前端可視化模塊;數(shù)據(jù)存儲模塊負(fù)責(zé)存儲和檢索;可視化模塊負(fù)責(zé)向用戶提供全面的視覺總結(jié);交互模塊支持用戶交互式的分析;用戶將通過算法的部分結(jié)果通過交互傳遞到數(shù)據(jù)存儲模塊。

        圖2 FORESTVis系統(tǒng)概念圖

        3 可視化任務(wù)分析

        本文設(shè)計(jì)了FORESTVis可視分析系統(tǒng)來幫助隨機(jī)森林模型的研究人員和從業(yè)人員更好地理解該模型及其預(yù)測結(jié)果。通過觀察和采訪使用Weka等隨機(jī)森林模型的人員,確定了需求分析,根據(jù)需求開發(fā)了系統(tǒng)。FORESTVis 是在一個(gè)學(xué)期內(nèi)與幾個(gè)用戶協(xié)商設(shè)計(jì)的,他們希望通過可視分析可以更好地理解隨機(jī)森林模型。與用戶的討論后,希望達(dá)到以下分析目標(biāo):

        (1)能夠解釋特征和預(yù)測之間的關(guān)系(T1)。用戶需要了解模型的輸入和模型的輸出預(yù)測之間的關(guān)系是什么。這有助于用戶理解隨機(jī)森林模型的特征。例如,用戶想知道哪些特征對于模型的學(xué)習(xí)是重要的,以及對預(yù)測的影響。而特征重要性可以反映出特征對預(yù)測結(jié)果的影響,但是不足以揭示特征值和預(yù)測值之間的相關(guān)性,用戶可能想了解特征值的變化對預(yù)測的影響是什么。故本文編碼了部分依賴信息,映射了特征變化對預(yù)測的影響,同時(shí)可以幫助用戶進(jìn)行特征選擇,刪除不必要的特征。

        (2)能夠檢查決策路徑的結(jié)構(gòu)(T2)。隨機(jī)森林通常包含數(shù)百棵決策樹,決策路徑則更多。決策路徑結(jié)構(gòu)包括特征分裂點(diǎn)以及分裂閾值、路徑的特征順序、路徑長度等,用過可視化決策路徑可以幫助用戶理解隨機(jī)森林底層的工作機(jī)制。

        (3)能夠探索參數(shù)的影響(T3)。用戶想要探索參數(shù)對隨機(jī)森林的影響。他們希望通過系統(tǒng)直接比較不同的參數(shù)對隨機(jī)森林的影響,他們不僅關(guān)心隨機(jī)森林的性能指標(biāo),也關(guān)注隨機(jī)森林的細(xì)節(jié)。通過嘗試可視化不同參數(shù)的性能,找到隨機(jī)森林模型更優(yōu)的參數(shù)。

        (4)能夠檢查模型性能(T4)。所有用戶想知道隨機(jī)森林模型的性能,與用戶討論后,他們認(rèn)為性能指標(biāo)可以為他們提供對模型的整體評估,這對于理解模型有很大的幫助。

        (5)能夠檢查訓(xùn)練數(shù)據(jù)集的分布和檢測異常值(T5)。用戶想從訓(xùn)練數(shù)據(jù)集群(簇)的分布可以找到數(shù)據(jù)噪聲,協(xié)助用戶找到相應(yīng)的數(shù)據(jù)實(shí)例,這對數(shù)據(jù)的理解和模型性能的改進(jìn)有很大的幫助。

        (6)能夠交互式地探索模型(T6)。用戶可以交互式探索模型,比如通過探索決策路徑來理解隨機(jī)森林的工作機(jī)制,通過探索參數(shù)的變化來評估性能,通過探索訓(xùn)練數(shù)據(jù)集的分布檢測異常值等等。

        4 可視化及交互設(shè)計(jì)

        本文設(shè)計(jì)并實(shí)現(xiàn)了隨機(jī)森林模型可視分析方法,包括設(shè)置視圖、性能視圖、特征視圖、數(shù)據(jù)總覽視圖、樹視圖、散點(diǎn)圖等。

        4.1 設(shè)置視圖

        設(shè)置視圖提供控制隨機(jī)森林模型的參數(shù),本系統(tǒng)選擇了三個(gè)主要參數(shù)來探索模型,可以幫助用戶探索不同的參數(shù)對模型性能的影響(T1)。界面左上角為用戶提供了選擇數(shù)據(jù)集的下拉框,以便用戶從后臺提取數(shù)據(jù),選擇分析對象,用戶不需要在集成開發(fā)環(huán)境和可視化界面之間切換,可以直接比較不同模型參數(shù)設(shè)置對預(yù)測結(jié)果的影響。單擊RUN 按鈕時(shí),如圖3所示,模型開始訓(xùn)練,數(shù)據(jù)將傳輸?shù)娇梢暬M件,實(shí)時(shí)創(chuàng)建不同的視圖。

        圖3 設(shè)置視圖

        4.2 性能視圖

        FORESTVis 系統(tǒng)使用性能視圖評估模型。模型的性能是專家關(guān)注的焦點(diǎn),如圖4 所示,工具使用混淆矩陣來可視化性能,該指標(biāo)可幫助用戶快速了解模型性能(T4)。其中混淆矩陣的列表示預(yù)測類別,而行表示實(shí)際類別,它提供了一種非常方便的方法來比較預(yù)測標(biāo)簽與實(shí)際標(biāo)簽,機(jī)器學(xué)習(xí)研究人員和從業(yè)人員可以很容易地理解這些標(biāo)簽,視圖下面顯示了訓(xùn)練集和測試集的AUC值。

        圖4 性能視圖

        4.3 特征視圖

        如圖5 所示,特征視圖由直方圖和部分依賴圖組成,用于探索特征與預(yù)測結(jié)果的關(guān)系。隨機(jī)森林模型是反映輸入特征和輸出預(yù)測的映射關(guān)系,所以探索特征與預(yù)測結(jié)果的關(guān)系可以幫助用戶分析模型如何從訓(xùn)練數(shù)據(jù)集學(xué)習(xí),從而更好地理解隨機(jī)森林模型(T1)。圖5上面的圖表示MNIST 手寫數(shù)據(jù)集中數(shù)字5 類別的特征重要性,可以幫助用戶了解哪些特征對于模型是重要的,其中標(biāo)注(a)處可以將特征重要性按升序或者降序排列。圖5 下面的圖是特征F28 的部分依賴圖,使用折線圖表示部分依賴圖,它顯示的是一個(gè)或兩個(gè)特征對模型預(yù)測結(jié)果的邊際效應(yīng),即模型預(yù)測與“目標(biāo)特征”之間的依賴關(guān)系,它是一種“事后可解釋性”(post-hoc interpretable)方法,雖然沒有闡明預(yù)測模型運(yùn)作的內(nèi)部機(jī)制,但是顯示了模型在響應(yīng)輸入變化時(shí)的行為方式,可以幫助數(shù)據(jù)科學(xué)家識別模型的缺陷,并向利益相關(guān)者解釋他們的模型,比如信用卡申請者和醫(yī)療患者等。在部分依賴圖中(pdp),x軸表示目標(biāo)特征值,當(dāng)保持所有其他特征值不變時(shí),y軸表示模型預(yù)測的平均值。對于部分依賴信息,令特征x={x1,x2,…,xp},隨機(jī)森林模型預(yù)測函數(shù)為f(x),zs為用戶感興趣的特征,zc為zs的補(bǔ)集(x-{zs}),那么zs的部分依賴函數(shù)定義為:

        圖5 特征視圖

        pc(zc)為zc邊緣概率密度。

        實(shí)際上,不可能對zc的所有可能值進(jìn)行積分,因此通常將上述公式估計(jì)為:

        其中,zi,c(i=1,2,…,n)是zc在訓(xùn)練樣本中的值。

        4.4 數(shù)據(jù)總覽視圖

        數(shù)據(jù)總覽視圖主要由散點(diǎn)圖、數(shù)據(jù)表構(gòu)成,反映數(shù)據(jù)樣本集群和異常值情況。對于多維數(shù)據(jù)的可視化通常使用平行坐標(biāo)圖或者降維技術(shù),但是對于高維度數(shù)據(jù)集使用平行坐標(biāo)圖時(shí)空間占有率太大,容易引起視覺混淆,而降維方法可以展示訓(xùn)練數(shù)據(jù)集良好可擴(kuò)展性。為了觀察高維數(shù)據(jù)向量在特征空間的分布情況,希望能把高維數(shù)據(jù)投影到二維空間上,直觀地理解數(shù)據(jù)的結(jié)構(gòu),并通過視覺直觀驗(yàn)證效果。選擇使用t-SNE算法將高維特征向量投影到二維平面上,形成散點(diǎn)圖。如圖6上面散點(diǎn)圖中每個(gè)點(diǎn)代表一個(gè)數(shù)據(jù)實(shí)例,顏色代表數(shù)據(jù)類別。

        圖6 數(shù)據(jù)實(shí)例總覽視圖

        同時(shí)該散點(diǎn)圖也支持縮放和平移技術(shù),幫助用戶專注于視圖的特定區(qū)域,將鼠標(biāo)放在所選散點(diǎn)圖上,將展示這個(gè)數(shù)據(jù)實(shí)例的圖像,而且用戶可以通過雙擊散點(diǎn)圖來刪除數(shù)據(jù)實(shí)例。如圖6的下圖為一個(gè)數(shù)據(jù)表,可以允許用戶瀏覽整個(gè)訓(xùn)練數(shù)據(jù)集,由于性能和數(shù)據(jù)實(shí)例已經(jīng)被證明是不可分離的,所以通過數(shù)據(jù)表允許用戶查看某條數(shù)據(jù)實(shí)例的異常情況(T5)。當(dāng)特征數(shù)量增加時(shí),用戶可以使用滾動條檢查它們,不會限制數(shù)據(jù)集中的總特征數(shù)量。

        4.5 樹視圖

        隨機(jī)森林由很多決策樹構(gòu)成,為了直觀地可視化決策樹結(jié)構(gòu),F(xiàn)ORESTVis 系統(tǒng)使用節(jié)點(diǎn)鏈接圖來表示決策樹結(jié)構(gòu),因?yàn)樗哂兄庇^性而且用戶對它很熟悉。但是,當(dāng)決策樹的深度較大,導(dǎo)致沒有足夠的空間來表示固定區(qū)域的所有節(jié)點(diǎn),因此使用焦點(diǎn)+上下文技術(shù),允許用戶拖動、縮放、平移、折疊樹。如圖7 所示,節(jié)點(diǎn)之間鏈路的寬度用于表示該分支的數(shù)據(jù)實(shí)例的數(shù)量,當(dāng)選定實(shí)例時(shí),其他實(shí)例路徑為灰色,圖7 右側(cè)則顯示決策的路徑。決策路徑結(jié)構(gòu)可以幫助用戶更好地理解隨機(jī)森林模型底層的工作機(jī)制(T2)。本系統(tǒng)采用基于像素的可視化技術(shù)來編碼預(yù)測類別,每一個(gè)決策路徑將會輸出一個(gè)類別。

        圖7 樹視圖

        4.6 決策樹散點(diǎn)視圖

        FORESTVis 系統(tǒng)提供決策路徑引導(dǎo)用戶探索隨機(jī)森林的基本結(jié)構(gòu)和工作機(jī)制。隨機(jī)森林通常包含數(shù)百棵獨(dú)立的決策樹,決策路徑則更多,用戶需要識別更多特定的決策路徑。如果可視化每棵樹,空間占有率太大,容易引起視覺混淆。故將利用每棵決策樹的相似性采用t-SNE投影,如圖8所示,將決策樹投影到二維平面上,散點(diǎn)圖中每個(gè)點(diǎn)代表一棵決策樹。t-分布隨機(jī)鄰域嵌入是一種非線性降維算法,適用于高維數(shù)據(jù)降到2維或者3維,并進(jìn)行可視化。

        可視化步驟如下:

        首先通過將數(shù)據(jù)點(diǎn)之間的高維歐氏距離轉(zhuǎn)換為表示相似性的條件概率,條件概率pj|i定義為:

        圖8 決策樹散點(diǎn)視圖

        pj|i表示點(diǎn)xj出現(xiàn)在點(diǎn)xi附近的條件概率,σi為對應(yīng)高斯方差,xi、xj為高維空間的任意兩點(diǎn),pij為任意高維空間兩點(diǎn)的相似性度量局部對稱聯(lián)合概率分布。由于高維空間中的點(diǎn)映射到低維空間后過于聚集,t-SNE 定義了概率分布函數(shù)qij來度量低維空間點(diǎn)的相似性。定義如下:

        其中,yi和yj為低維空間點(diǎn)對,‖yi-yj‖則表示低維空間兩點(diǎn)的距離,而且用自由度為1 的t 分布函數(shù)代替了高斯分布,從而避免了“擁擠問題”。

        4.7 交互過程

        FORESTVis系統(tǒng)的交互設(shè)計(jì)遵循的是Shneiderman[18]提出的大規(guī)模數(shù)據(jù)可視化交互范式:“首先給出概覽,通過縮放和篩選,根據(jù)需要展示細(xì)節(jié)”。上述各個(gè)視圖之間在數(shù)據(jù)選擇、參數(shù)設(shè)置之后具有友好聯(lián)動性且數(shù)據(jù)是共享的。為了保持用戶對各個(gè)視圖的感知,將所有的視圖按圖1 所示放置,將所有視圖放置在一個(gè)屏幕,理解各種交互操作帶來的影響,從而幫助用戶從各個(gè)角度理解隨機(jī)森林模型(T6)。如圖3參數(shù)設(shè)置視圖所示,F(xiàn)ORESTVis 系統(tǒng)也支持實(shí)時(shí)修改參數(shù)重計(jì)算。用戶探索模型階段,用戶首先在設(shè)置視圖選擇模型參數(shù),并依據(jù)性能視圖的響應(yīng)確定最佳參數(shù)。分析數(shù)據(jù)階段,用戶在數(shù)據(jù)總覽視圖(圖6)查看數(shù)據(jù)的分布以及異常值,經(jīng)過篩選,查看感興趣的數(shù)據(jù)或者異常數(shù)據(jù)。理解模型階段,用戶在特征視圖中可以選擇感興趣的特征,觀察特征重要性以及特征對預(yù)測結(jié)果的影響。在決策樹散點(diǎn)視圖中,用戶可以選擇自己感興趣的決策樹,在樹視圖對該路徑進(jìn)一步探索和標(biāo)記,且支持請求式的更新操作。

        5 案例分析

        在本章中,通過Kaggle競賽中的兩個(gè)數(shù)據(jù)集來驗(yàn)證FORESTVis系統(tǒng)的有效性。在開發(fā)了FORESTVis系統(tǒng)之后,讓用戶探索系統(tǒng),他們可以使用FORESTVis系統(tǒng)在線探索隨機(jī)森林算法。在一個(gè)月后,收集了一些用戶的反饋。用戶是碩士研究生一年級的學(xué)生,他們是機(jī)器學(xué)習(xí)的初學(xué)者,希望通過FORESTVis 來理解隨機(jī)森林算法的基本結(jié)構(gòu)、工作機(jī)制以及預(yù)測結(jié)果。

        5.1 案例分析1

        用戶A 希望通過FORESTVis 系統(tǒng)理解并診斷隨機(jī)森林算法。用戶A 選擇了MNIST 手寫數(shù)據(jù)集,在設(shè)置視圖中設(shè)置了三個(gè)參數(shù),max_features 設(shè)置為10,n_estimators 為 100,min_sample_leaf 為 50,運(yùn)行算法。然后用戶A 通過觀察每個(gè)類的表現(xiàn)即每個(gè)類的混淆情況,發(fā)現(xiàn)數(shù)字2和數(shù)字3的相交的矩形框顏色最深(圖1?),故認(rèn)為數(shù)字2 和數(shù)字3 混淆程度最大。為了找到可能解釋的原因,用戶A把注意力轉(zhuǎn)到了特征視圖(圖1?、1 ?),用戶A首先選擇了混淆矩陣上顏色最淺即混淆程度最小的數(shù)字5 的類。通過點(diǎn)擊特征視圖中的排序功能,發(fā)現(xiàn)F28 特征重要性排在第一位,并且與其他特征重要性的差距很明顯(圖9(a))。用戶A 認(rèn)為特征F28在隨機(jī)森林分類器中對數(shù)字5和其他數(shù)字的分類中具有非常重要的作用。為了探索特征F28 的變化如何影響預(yù)測值,點(diǎn)擊特征視圖F28(圖1 ?),特征F28顏色變黃,觀察部分依賴圖(圖1 ?),發(fā)現(xiàn)隨著特征值F28的變大,預(yù)測值呈負(fù)相關(guān)。用戶A為了驗(yàn)證特征F28的重要性,通過點(diǎn)擊決策樹散點(diǎn)視圖中的散點(diǎn)后,在決策樹視圖中發(fā)現(xiàn)絕大部分特征F28位于樹的頂層,并且觀察了決策樹的第一層到第二層的節(jié)點(diǎn)鏈路之間寬度(圖1 ?),發(fā)現(xiàn)這一層把大部分?jǐn)?shù)字5的實(shí)例與其他實(shí)例分離,這解釋了特征F28 對數(shù)字5 具有很好的分類效果。用戶A 為了尋找數(shù)字2 和數(shù)字3 容易混淆的原因,他選擇觀察了數(shù)字2和數(shù)字3的特征重要性排序,如圖9(b),9(c)所示,發(fā)現(xiàn)數(shù)字2 和3 兩個(gè)類別的特征重要性差距不明顯,分布均勻,這解釋了數(shù)字2 和3 不易區(qū)分。故用戶A認(rèn)為沒有一個(gè)特征可以把數(shù)字2和3的實(shí)例與其他實(shí)例明顯地分開。由于性能的評估可以幫助用戶理解隨機(jī)森林算法,故用戶A打算查看數(shù)據(jù)實(shí)例的分布以及算法的AUC值了解隨機(jī)森林。用戶A在觀察實(shí)例之間的關(guān)系時(shí),發(fā)現(xiàn)了一些異常值,如圖1 ?所示,數(shù)字9被分到5的集群(簇)中,數(shù)字2被分到了3的集群(簇)中等等(圖1 ?紅色方框),點(diǎn)擊散點(diǎn)圖查看數(shù)據(jù)實(shí)例,如圖1 ?,這種錯(cuò)誤的情況很容易被錯(cuò)誤分類,因?yàn)樵瓟?shù)據(jù)中數(shù)字5 和數(shù)字6 比較相似,這些數(shù)據(jù)可以通過增加像素的分辨率來修復(fù)這些誤差,故用戶A通過重新處理數(shù)據(jù),增加其輸入分辨率,通過雙擊移除這些異常值并重新加載FORESTVis,發(fā)現(xiàn)Training AUC由0.890增加到0.912,且TestingAUC由0.880增加到0.930,即提高了模型的性能。

        圖9 數(shù)字類別5、2、3的特征重要性

        5.2 案例分析2

        用戶B 希望通過FORESTVis 系統(tǒng)直觀地理解隨機(jī)森林。首先他想了解在泰坦尼克號沉船事件中哪些人群存活下來了,他們的特征是什么,隨機(jī)森林算法是如何預(yù)測存活率的。在運(yùn)行FORESTVis 系統(tǒng)前,用戶B首先對訓(xùn)練集中891個(gè)乘客的數(shù)據(jù)進(jìn)行特征工程處理,最終生成了七個(gè)特征,分別為客艙等級(Pclass)、性別(Gender)、年齡(Age)、船票價(jià)格(Fare)、登船港口(Embarked)、乘客姓名頭銜(Title)、家庭人數(shù)是否為一個(gè)人(IsAlone)。Survival是存活狀態(tài),陽性(Survival=1)表示該乘客在沉船事件中存活,陰性(Survival=0)表示該乘客喪失,圖10 ?是該訓(xùn)練集的數(shù)據(jù)實(shí)例。如圖10?所示,用戶B 將清洗后的數(shù)據(jù)加載到FORESTVis 系統(tǒng)中,他首先觀察特征視圖中的特征重要性排序,查看那些特征在模型預(yù)測中更重要,如圖10 ?所示,通過點(diǎn)擊排序功能發(fā)現(xiàn)性別排在了第一位,故認(rèn)為所有特征中性別是隨機(jī)森林算法預(yù)測最重要的。接著用戶B 希望了解性別如何影響隨機(jī)森林模型預(yù)測結(jié)果,所以將注意力轉(zhuǎn)向了部分依賴圖(圖10 ?),通過點(diǎn)擊特征重要性視圖中的性別(Gender)特征,在部分依賴圖中發(fā)現(xiàn)當(dāng)性別是女性(Gender=1)時(shí),預(yù)測分?jǐn)?shù)即生存率較高,男性(Gender=0)的生存率較低,表明了女性在泰坦尼克號沉船事件中存活率比男性高,解釋了隨機(jī)森林模型的學(xué)習(xí)模式和女性乘客更有可能在泰坦尼克號沉船中存活的事實(shí)相符[19]。為了驗(yàn)證性別對隨機(jī)森林模型預(yù)測的重要性,用戶B 在決策樹散點(diǎn)視圖(圖10 ?)中選擇了一部分散點(diǎn)加載到樹視圖中發(fā)現(xiàn),大部分樹中頂層的特征是性別(圖10 ?),這解釋了第一個(gè)分列點(diǎn)的基尼系數(shù)最小的原因,所以用戶B認(rèn)為特征性別對模型的預(yù)測非常重要。用戶B 希望進(jìn)一步了解特征值的變化如何影響預(yù)測結(jié)果,于是選擇觀察船票價(jià)格和年齡的變化對預(yù)測的影響,如圖11 ?所示,船票價(jià)格為25左右時(shí),曲線是非常的陡峭,即25是一個(gè)臨界點(diǎn)(閾值),當(dāng)船票價(jià)格高于25 時(shí)存活率突然增大。當(dāng)船票價(jià)格大于25 時(shí),這些乘客乘坐的是頭等艙,船票價(jià)格低于25時(shí),船票是經(jīng)濟(jì)艙,故用戶B 認(rèn)為乘客的船票價(jià)格大于25 時(shí)其生存率更高,即隨著船票價(jià)格(特征值)的增加,生存的幾率(預(yù)測值)有增加的趨勢。如圖11 年齡視圖,用戶想探索年齡的變化對預(yù)測值的影響,發(fā)現(xiàn)年齡在30歲之前,乘客的生存率較高,并且隨著年齡(特征值)的增加,存活率(預(yù)測值)逐漸降低。接著用戶B 希望通過查看性能視圖(圖10 ?)評估隨機(jī)森林算法的性能,首先觀察了數(shù)據(jù)總覽視圖實(shí)例的分布,如圖10 ?所示,發(fā)現(xiàn)了一些數(shù)據(jù)噪聲,通過剔除這些數(shù)據(jù)并重新加載FORESTVis系統(tǒng),發(fā)現(xiàn)Training AUC 由0.860 增加到 0.892,且 TestingAUC由0.860增加到0.911。

        圖10 FORESTVis加載泰坦尼克數(shù)據(jù)集解釋隨機(jī)森林

        圖11 船票價(jià)格和年齡的特征視圖

        6 總結(jié)及未來工作

        本文設(shè)計(jì)了一個(gè)交互式多視圖(包括:樹圖視圖、部分依賴圖、t-SNE投影散點(diǎn)視圖、特征視圖、其他輔助信息視圖)的可視分析系統(tǒng)FORESTVis,幫助機(jī)器學(xué)習(xí)專家和領(lǐng)域?qū)<腋玫乩斫馀c使用隨機(jī)森林模型。同時(shí),該系統(tǒng)支持在線分析,實(shí)時(shí)修改參數(shù)重計(jì)算,豐富的視圖形式和交互手段,便于用戶交互式探索、理解模型,而且簡單易用。

        未來將從以下幾個(gè)方面作進(jìn)一步改進(jìn)和研究。首先計(jì)劃向公眾提供FORESTVis 系統(tǒng),并根據(jù)收集的反饋進(jìn)一步改進(jìn)系統(tǒng)。其次,增加系統(tǒng)擴(kuò)展性,計(jì)劃在線支持更多的模型,如神經(jīng)網(wǎng)絡(luò)、梯度提升樹等。

        猜你喜歡
        決策樹視圖可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        午夜福利影院成人影院| 国产69精品一区二区三区| 成人久久免费视频| 国产亚洲sss在线观看| 午夜国产精品视频免费看电影 | 在线视频制服丝袜中文字幕| 亚洲中文字幕巨乳人妻| 日韩视频午夜在线观看| 无码精品国产一区二区三区免费 | 人人色在线视频播放| 国产精品一区二区电影| 青青草久热手机在线视频观看| 国产成人av三级三级三级在线 | 男ji大巴进入女人的视频小说| 日本VA欧美VA精品发布| 九色精品国产亚洲av麻豆一| 一区二区三区高清在线观看视频| 成人免费777777被爆出| 亚洲国产精品嫩草影院久久| 精品国产迪丽热巴在线| 亚洲中文字幕精品久久吃奶| 国产永久免费高清在线| 国产乱子伦在线观看| 欧美性爱一区二区三区无a| 国产精品综合女同人妖| 久久人人爽爽爽人久久久 | 久久道精品一区二区三区| 国产专区亚洲专区久久| 国产人妻鲁鲁一区二区| 国产日韩精品中文字无码| 国产九九在线观看播放| 人妖在线一区二区三区| 人与禽性视频77777| 久久久久久久98亚洲精品| 亚洲精品视频一区二区三区四区| 热99re久久精品这里都是精品免费 | 小鲜肉自慰网站| 国产香蕉一区二区三区在线视频| 欧美日韩国产乱了伦| 少妇被躁到高潮和人狍大战| 国产大片内射1区2区|