閔素芹
(中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
集成學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)等非線性算法通??色@得較高的預(yù)測(cè)精度,但由于其在可解釋性或透明性方面普遍存在欠缺,使得醫(yī)學(xué)、金融、法律等領(lǐng)域的決策者持謹(jǐn)慎態(tài)度[1—3],黑盒模型的復(fù)雜結(jié)構(gòu)難以理解,預(yù)測(cè)模型的性能隨著時(shí)間的推移而變差的例子越來(lái)越多。IBM 沃森系統(tǒng)被用于輔助醫(yī)生進(jìn)行癌癥治療方案的選擇,然而在現(xiàn)實(shí)應(yīng)用中被專(zhuān)家批評(píng)做出了不安全或不正確的治療推薦。將重要的決策交給一個(gè)欠缺解釋性的模型存在明顯的危險(xiǎn)性,這是機(jī)器學(xué)習(xí)模型尚未在醫(yī)療等領(lǐng)域廣泛應(yīng)用的主要原因[4]。Caruana等(2015)[5]提到訓(xùn)練數(shù)據(jù)得出哮喘可以降低肺炎患者死亡風(fēng)險(xiǎn)的錯(cuò)誤結(jié)論,事實(shí)上死亡風(fēng)險(xiǎn)低的真正原因不是患哮喘,而是該類(lèi)病人被直接送至重癥監(jiān)護(hù)病房采取更為有效積極的治療,如果采用統(tǒng)計(jì)模型依據(jù)特征解釋就很容易發(fā)現(xiàn)該違反常識(shí)的現(xiàn)象,但會(huì)犧牲預(yù)測(cè)精度。當(dāng)將黑盒模型用于招聘、保費(fèi)定價(jià)、犯罪預(yù)測(cè)等領(lǐng)域的自動(dòng)化決策時(shí),可能涉及公平性相關(guān)的倫理或法律問(wèn)題,例如簡(jiǎn)歷篩選系統(tǒng)中的性別歧視傾向、再次犯罪概率預(yù)測(cè)算法對(duì)非裔美國(guó)人的偏見(jiàn)等。此時(shí),需要保證模型的透明性,即解釋各變量對(duì)預(yù)測(cè)結(jié)果起怎樣的作用。雖然不是所有機(jī)器學(xué)習(xí)算法都必須可解釋?zhuān)谟行┣榫诚轮灰趯?shí)際應(yīng)用中得到充分驗(yàn)證,即使存在誤差或誤分類(lèi)也不會(huì)導(dǎo)致嚴(yán)重的后果,但是,對(duì)特征效應(yīng)的科學(xué)解釋有助于從訓(xùn)練模型中提取可解釋的模式、尋找預(yù)測(cè)效果差的原因、提高對(duì)模型預(yù)測(cè)的信任度等[6]。
機(jī)器學(xué)習(xí)模型的使用日益普遍,理解和解釋黑盒模型如何工作的需求也越來(lái)越大。學(xué)者們提出了多種技術(shù)嘗試解決黑盒模型特征可解釋性問(wèn)題,其中一類(lèi)為應(yīng)用于監(jiān)督學(xué)習(xí)算法的與模型無(wú)關(guān)的特征效應(yīng)可視化技術(shù),該類(lèi)方法不局限于特定模型,將預(yù)測(cè)方法與解釋分開(kāi),關(guān)注輸入特征對(duì)最終預(yù)測(cè)結(jié)果產(chǎn)生的影響,可應(yīng)用于任意的通過(guò)擬合訓(xùn)練數(shù)據(jù)用輸入特征預(yù)測(cè)輸出值的模型或算法。與模型無(wú)關(guān)的特征解釋方法便于對(duì)多種結(jié)構(gòu)不同模型的解釋進(jìn)行比較,可以直接為全新的模型提供模型解釋或診斷工具,不需要重新尋找新的模型探索方法。目前黑盒模型中分析各輸入特征對(duì)預(yù)測(cè)結(jié)果影響應(yīng)用最廣泛的方法是Friedman 提出的偏相關(guān)(Partial Dependence,PD)圖,它可視化了輸入特征對(duì)預(yù)測(cè)值的平均邊際效應(yīng),前提假設(shè)是各輸入特征之間不相關(guān),在其他特征固定的情況下評(píng)估某特定輸入特征所引起的輸出特征預(yù)測(cè)值的變化。在此基礎(chǔ)上,個(gè)體條件期望(Individual Conditional Expectation,ICE)圖擴(kuò)展了PD 圖,針對(duì)每條觀測(cè)繪制不同曲線來(lái)顯示變量對(duì)其預(yù)測(cè)值的影響,并將其應(yīng)用于抑郁癥臨床試驗(yàn)等數(shù)據(jù)集[7]。ICE的條件是指對(duì)個(gè)體觀測(cè)而不是對(duì)輸入特征的條件,繪制每個(gè)估計(jì)的條件期望曲線,PD圖曲線可視為各條ICE 曲線的平均。Zhao 與Hastie(2021)[8]給出幾個(gè)說(shuō)明性的例子,使用PD 圖與ICE 圖等可視化工具找到了一些潛在的因果關(guān)系,研究指出,當(dāng)出現(xiàn)異常圖像時(shí),深入數(shù)據(jù)尋找虛假關(guān)聯(lián)的根源是重要的。Apley 與Zhu(2020)[9]提出利用累積局部效應(yīng)(Accumulated Local Effects,ALE)圖作為PD 圖的補(bǔ)充方法,能夠避免當(dāng)輸入特征存在共線性時(shí)PD圖不太可靠的問(wèn)題,且可節(jié)省時(shí)間,并將其應(yīng)用于共享自行車(chē)數(shù)據(jù)集,分析天氣狀況、體感溫度、風(fēng)速、時(shí)間等特征如何影響自行車(chē)租賃數(shù)量預(yù)測(cè)值。Xu與Reich(2021)[10]利用ALE圖處理了貝葉斯非參數(shù)分位數(shù)回歸中I-樣條基擴(kuò)展引入黑盒模型前饋神經(jīng)網(wǎng)絡(luò)替代張量積后所面臨的特征解釋性問(wèn)題??梢暬ぞ咴诮忉屧诰€購(gòu)物[11]、肺癌和支氣管癌死亡率[12]、社交媒體即時(shí)通信中的語(yǔ)言特征[13]等問(wèn)題的機(jī)器學(xué)習(xí)預(yù)測(cè)模型中發(fā)揮了重要作用。
ALE 圖克服了輸入特征間相關(guān)時(shí)采用邊緣概率密度導(dǎo)致的解釋偏差,作為一種與模型無(wú)關(guān)的事后解釋方法,可以與提升樹(shù)、隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)、非參數(shù)回歸等各種預(yù)測(cè)模型結(jié)合運(yùn)用,其應(yīng)用性能有待于進(jìn)一步研究。在實(shí)際應(yīng)用中,集成學(xué)習(xí)算法在擬合非線性關(guān)系建模中預(yù)測(cè)性能優(yōu)良,常用集成方法中的梯度提升樹(shù)(Gradient Boosted Trees)模型的表現(xiàn)通常優(yōu)于隨機(jī)森林[14,15],本文基于梯度提升樹(shù)分析ALE函數(shù)特征解釋的穩(wěn)定性及其與實(shí)際情況的一致性。通過(guò)理論推導(dǎo)和數(shù)據(jù)模擬研究輸入特征相關(guān)性對(duì)特征解釋科學(xué)性的影響;通過(guò)多次重復(fù)隨機(jī)劃分訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)繪制ALE 圖研究其穩(wěn)定性;通過(guò)構(gòu)造輸出特征生成模型研究特征解釋的效果,提出將各特征的ALE函數(shù)圖統(tǒng)一坐標(biāo)設(shè)置作為特征選擇的參考依據(jù);并基于實(shí)際數(shù)據(jù)集說(shuō)明ALE圖在預(yù)測(cè)模型中的特征解釋中的具體應(yīng)用。
在機(jī)器學(xué)習(xí)實(shí)際應(yīng)用中不斷提高精度、召回率等評(píng)價(jià)指標(biāo)的背景下,特征效應(yīng)的解釋對(duì)于這些算法的可信度與模型優(yōu)化起到輔助作用。與特定模型的特征解釋方法(如線性模型回歸參數(shù)的解釋?zhuān)┎煌?,累積局部效應(yīng)(Accumulated Local Effects,ALE)圖是一種與模型無(wú)關(guān)的事后全局解釋方法,不必訪問(wèn)模型內(nèi)部結(jié)構(gòu),不局限于特定模型,可方便地在不同模型間靈活切換與比較。
目前,機(jī)器學(xué)習(xí)中流行使用的偏相關(guān)(PD)函數(shù)fj,PD(xj)≡E[f(xj,Xj)]采用邊緣概率密度來(lái)刻畫(huà),而累積局部效應(yīng)(ALE)函數(shù)采用條件概率密度來(lái)刻畫(huà)。將輸入特征Xj的ALE函數(shù)gj,ALE(·)定義為[9]:
其中,fj(zj,xj)≡?f(xj,xj)/?xj表示xj的局部效應(yīng),gj,ALE(xj)為xj的累積局部效應(yīng)。當(dāng)輸入特征之間相關(guān)時(shí),選取條件期望更為合理。對(duì)gj,ALE(·)進(jìn)行中心化處理,即fj,ALE(xj)≡gj,ALE(xj)-E[gj,ALE(xj)],使得fj,ALE(·)關(guān)于Xj的均值為0。
估計(jì)ALE 時(shí),函數(shù)值差異計(jì)算的是落入局部區(qū)間內(nèi)的觀測(cè),把Xj的取值范圍劃分成K個(gè)區(qū)間,對(duì)每一個(gè)x∈(z0j,zKj],nj(k) 為落入第k個(gè)區(qū)間(zk-1,j,zk,j]的觀測(cè)數(shù)量,式(1)中g(shù)j,ALE(xj)的估計(jì)為[9]:
減去E[gj,ALE(Xj)]可得到中心化ALE。
從定義可以看出,ALE函數(shù)先計(jì)算落入鄰域內(nèi)的所有數(shù)據(jù)右端與左端函數(shù)值差異的平均,然后對(duì)各鄰域從左至右進(jìn)行累加,將其值繪制成ALE 圖進(jìn)行可視化以呈現(xiàn)當(dāng)某個(gè)輸入變量發(fā)生變化時(shí)引起的輸出變量預(yù)測(cè)值的變化。在實(shí)際應(yīng)用中,基于邊緣分布計(jì)算輸入特征對(duì)預(yù)測(cè)結(jié)果的影響,當(dāng)特征間相關(guān)時(shí)會(huì)造成曲解,比如房?jī)r(jià)預(yù)測(cè)中臥室個(gè)數(shù)與房屋面積存在正相關(guān)性,由于PD 圖采用邊緣分布,因此會(huì)出現(xiàn)房屋面積50 平米而臥室數(shù)為10 個(gè)的違反常識(shí)的現(xiàn)象;采用條件概率密度的ALE 圖可以避免這種情況發(fā)生。
偏相關(guān)(PD)圖是目前機(jī)器學(xué)習(xí)中常用的特征解釋工具,它假設(shè)輸入特征間不相關(guān),基于邊緣分布評(píng)估各自變量所引起預(yù)測(cè)值的變化。個(gè)體條件期望(ICE)圖則針對(duì)每條觀測(cè)繪制曲線。ALE 圖、PD 圖和ICE 圖都屬于與模型無(wú)關(guān)的事后全局解釋方法,本文通過(guò)模擬數(shù)據(jù)直觀說(shuō)明他們的區(qū)別。
生成樣本量n=5000,(X1,X2)~N(1,2,0.52,1,0.7)的隨機(jī)數(shù),生成輸出特征y=f(x1,x2)=x1x2+ε,ε~N(0,0.12)。由于ICE 圖針對(duì)每條觀測(cè)繪制曲線,因此數(shù)據(jù)過(guò)多,會(huì)出現(xiàn)堆積現(xiàn)象從而無(wú)法辨認(rèn)各條曲線的走勢(shì),為保證呈現(xiàn)效果,取5%的數(shù)據(jù)進(jìn)行預(yù)測(cè)及展示,其余95%的數(shù)據(jù)用于模型訓(xùn)練,運(yùn)用梯度提升樹(shù)進(jìn)行預(yù)測(cè),繪制ALE圖、PD圖和ICE 圖。圖1中,PD 圖是對(duì)每條觀測(cè)繪制曲線的ICE 圖(點(diǎn)線)的平均;ALE圖是基于條件概率密度對(duì)各鄰域特征效應(yīng)的累加。與平緩的PD 圖相比,ALE 圖所呈現(xiàn)的特征效應(yīng)更強(qiáng),較為符合當(dāng)相關(guān)系數(shù)為0.7、y=x1x2時(shí)x1對(duì)y的影響。
圖1 輸入特征間相關(guān)系數(shù)為0.7時(shí)的ALE圖、PD圖及ICE圖
理論上,當(dāng)輸入特征間相關(guān)程度較高時(shí),基于條件概率密度的ALE函數(shù)與估計(jì)結(jié)果更能夠反映輸入特征變化對(duì)輸出特征的影響,本文以聯(lián)合高斯分布為例分析輸入特征間相關(guān)系數(shù)引起的ALE函數(shù)與PD函數(shù)的差異。
PD圖是黑盒預(yù)測(cè)模型中分析各特征對(duì)預(yù)測(cè)結(jié)果影響非常流行的方法,設(shè)預(yù)測(cè)函數(shù)為f(x1,x2)=x1x2,則x1的PD 函數(shù)為,中心化后的PD函數(shù)為:
可以看到,PD函數(shù)與ρ無(wú)關(guān)。
x1中心化的ALE函數(shù)為:
其中,μ1、μ2、、ρ為事先給定的常數(shù)(分別為X1與X2的期望、方差及兩者間的相關(guān)系數(shù))。
可以看到,當(dāng)X1與X2不相關(guān)(ρ=0)時(shí),;但當(dāng)X1與X2相關(guān)(ρ≠0)時(shí),表現(xiàn)為線性關(guān)系,無(wú)法體現(xiàn)出兩者強(qiáng)相關(guān)時(shí)所引起的二次函數(shù)關(guān)系,此時(shí)運(yùn)用ALE 圖呈現(xiàn)特征X1對(duì)預(yù)測(cè)值的影響更合理。
特別地,如果(X1,X2)~N(0,0,1,1,ρ),那么對(duì)預(yù)測(cè)函數(shù)f(x1,x2)=x1x2而言,0。當(dāng)X1與X2兩個(gè)特征相關(guān)時(shí),呈現(xiàn)的輸入特征對(duì)輸出特征的影響始終為0,此時(shí)運(yùn)用PD 函數(shù)估計(jì)X1的效應(yīng)將出現(xiàn)較大的偏差。
設(shè)(X1,X2)~N(1,2,0.52,1,ρ),則:
關(guān)于輸入特征相關(guān)程度不同時(shí)其對(duì)輸出特征的影響,PD 函數(shù)始終呈現(xiàn)為線性效應(yīng)。當(dāng)輸入特征的期望不為0時(shí),ρ對(duì)ALE 函數(shù)的二次項(xiàng)、一次項(xiàng)及常數(shù)項(xiàng)皆產(chǎn)生影響;當(dāng)輸入特征的期望為0時(shí),ρ對(duì)ALE函數(shù)的二次項(xiàng)、常數(shù)項(xiàng)產(chǎn)生影響??傊褯Q定了ALE 的二次函數(shù)開(kāi)口方向與形狀,當(dāng)輸入特征間正相關(guān)時(shí),對(duì)預(yù)測(cè)值的影響先增后減;當(dāng)輸入特征間負(fù)相關(guān)時(shí),其影響先減后增,ALE函數(shù)包含了相關(guān)系數(shù)的作用。
ALE 圖采用的條件概率密度理論上能夠適用于特征間相關(guān)的情況,為便于說(shuō)明其估計(jì)值圖像效果,將其與基于邊緣概率密度的PD圖進(jìn)行對(duì)比。生成(X1,X2)~N(1,2,0.52,1,ρ) 的隨機(jī)數(shù),y=f(x1,x2)=x1x2+ε,ε~N(0,0.12) ,X1與X2的相關(guān)系數(shù)ρ分別取0、0.3、0.6 和0.9,生成樣本量n=10000 的數(shù)據(jù)集,隨機(jī)抽取50%作為訓(xùn)練數(shù)據(jù),其余50%作為測(cè)試數(shù)據(jù)。
當(dāng)ρ取0、0.3、0.6 和0.9 時(shí),ALE 理論函數(shù)分別為而PD函數(shù)始終為。
運(yùn)用梯度提升樹(shù)模型進(jìn)行預(yù)測(cè),訓(xùn)練過(guò)程中迭代次數(shù)設(shè)定為5000,壓縮參數(shù)取0.01,預(yù)測(cè)時(shí)基于十折交叉驗(yàn)證確定最優(yōu)迭代次數(shù)。當(dāng)相關(guān)系數(shù)ρ取0、0.3、0.6和0.9時(shí),測(cè)試數(shù)據(jù)的MSE 分別為0.148、0.015、0.014、0.017,分別對(duì)ALE與PD估計(jì)值繪制曲線。
下頁(yè)圖2顯示,隨著相關(guān)系數(shù)增加,ALE 理論函數(shù)曲線逐漸呈現(xiàn)二次函數(shù)形式,ALE估計(jì)曲線與理論曲線較為一致;PD 理論函數(shù)曲線始終為y=2x-2 的直線,PD 估計(jì)曲線在雙尾處偏離理論值的程度較大??傮w來(lái)看,在輸入特征之間相關(guān)或不相關(guān)的情境下,ALE估計(jì)均能較好地反映輸入特征對(duì)輸出特征預(yù)測(cè)值的影響。
圖2 不同相關(guān)系數(shù)下ALE理論圖與模擬數(shù)據(jù)估計(jì)圖
當(dāng)輸入特征之間相互獨(dú)立時(shí),PD 圖與ALE 圖都能體現(xiàn)輸入特征變化對(duì)預(yù)測(cè)值的影響;但在大多數(shù)機(jī)器學(xué)習(xí)算法中不過(guò)多強(qiáng)調(diào)前提假定,并不針對(duì)多重共線性進(jìn)行處理,若輸入特征之間相關(guān)程度較高,則ALE理論函數(shù)與估計(jì)值更符合實(shí)際。
為進(jìn)一步了解ALE 估計(jì)曲線的穩(wěn)定性,對(duì)模擬數(shù)據(jù)進(jìn)行訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集的50 次隨機(jī)劃分,繪制50 條ALE 折線圖(見(jiàn)圖3(a))及ALE 理論函數(shù)曲線(虛線),繪制50 條PD 折線圖(見(jiàn)圖3(c))及PD 理論函數(shù)曲線(虛線)。另外,基于樣本量為200的數(shù)據(jù)集模擬20次。圖3顯示,n=200 時(shí)的曲線較n=10000 時(shí)更加分散,表明數(shù)據(jù)集樣本量對(duì)函數(shù)曲線的穩(wěn)定性存在影響。相比于PD 圖,ALE 圖的估計(jì)值與理論值更加一致,且對(duì)于不同的測(cè)試數(shù)據(jù)集保持較好的穩(wěn)定性。另外,相關(guān)系數(shù)取其他值、重復(fù)模擬100 次時(shí)的測(cè)試數(shù)據(jù)也得出相同的結(jié)論。
圖3 樣本量不同時(shí)x1 的ALE、PD穩(wěn)定性及其理論函數(shù)曲線
綜上,從函數(shù)的理論表達(dá)式與模擬數(shù)據(jù)結(jié)果兩個(gè)視角對(duì)ALE 圖與PD 圖進(jìn)行比較,結(jié)果表明:當(dāng)特征間不相關(guān)時(shí),ALE圖與PD圖的結(jié)果一致;當(dāng)輸入特征存在較強(qiáng)相關(guān)關(guān)系時(shí),ALE圖由于采用了條件概率所呈現(xiàn)的特征效應(yīng)曲線,因此更符合實(shí)際。理解模型最終預(yù)測(cè)結(jié)果產(chǎn)生的原因有助于對(duì)信任度和模型修正提供輔助分析。輸入特征間常常存在相關(guān)性,此時(shí)ALE圖表現(xiàn)較好。
ALE圖將所關(guān)注的輸入特征取值范圍劃分為K個(gè)區(qū)間,計(jì)算每個(gè)區(qū)間內(nèi)的局部效應(yīng)之后進(jìn)行累加,函數(shù)估計(jì)值圖像體現(xiàn)出該輸入特征變化對(duì)輸出特征預(yù)測(cè)值的影響。批量生成J個(gè)特征,但僅利用其中p(p<J)個(gè)特征通過(guò)設(shè)定函數(shù)生成輸出特征,然后利用全部J個(gè)特征運(yùn)用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè),分析特征解釋技術(shù)能否識(shí)別出無(wú)關(guān)特征。
僅使用一部分輸入特征生成輸出特征,模擬生成數(shù)據(jù)集,運(yùn)用梯度提升樹(shù)進(jìn)行預(yù)測(cè),分析ALE圖呈現(xiàn)的特征效應(yīng)是否與真實(shí)函數(shù)關(guān)系一致。
第1 步:設(shè)特征間相關(guān)系數(shù)為ρ,按如下方法生成10個(gè)服從均勻分布的輸入特征Xj:
(1)生成獨(dú)立同分布的隨機(jī)變量dj~U(-1,1),j=1,2,…,10 ;(2)生成隨機(jī)變量s~U(-1,1) ;(3)生成變量,t為常數(shù)。輸入特征Xj(j=1,2,…,10)兩兩變量間的相關(guān)系數(shù):
當(dāng)t取1時(shí),ρ=0.5;當(dāng)t取2時(shí),ρ=0.8。
第2 步:10 個(gè)輸入特征中僅取部分(4 個(gè)輸入特征)參與生成輸出特征Y:
特征間相關(guān)系數(shù)設(shè)置為ρ=0.8,基于X1至X10共10個(gè)輸入特征運(yùn)用梯度提升樹(shù)預(yù)測(cè)Y,基于十折交叉驗(yàn)證確定最優(yōu)迭代次數(shù)為3450,測(cè)試集的MSE 為1.049。繪制各輸入特征的累積局部效應(yīng)圖(見(jiàn)下頁(yè)圖4),X5至X10這6個(gè)輸入特征的ALE效應(yīng)接近于0,實(shí)際上式(8)中這6個(gè)特征未參與生成輸出特征Y,ALE圖能夠合理地體現(xiàn)對(duì)預(yù)測(cè)值無(wú)作用的特征。隨著輸入特征取值由負(fù)到正逐漸增大,X1至X4的ALE效應(yīng)分別為:非線性先減后增、非線性先減后增、非線性增加、線性下降,與式(8)所呈現(xiàn)的數(shù)據(jù)生成過(guò)程基本一致。
圖4 基于ALE圖的特征解釋與選擇
在特征解釋過(guò)程中,為便于效應(yīng)的比較與特征選擇,本文將縱軸取值范圍統(tǒng)一設(shè)置,否則各特征根據(jù)自己的取值情況自動(dòng)選取坐標(biāo)值取值范圍繪制圖像僅能呈現(xiàn)該輸入特征變化對(duì)輸出特征預(yù)測(cè)值的影響。結(jié)果表明,ALE圖可正確識(shí)別出與輸出特征無(wú)關(guān)的輸入特征,各輸入特征變化所引起的預(yù)測(cè)值變化趨勢(shì)符合預(yù)先設(shè)定的模型,ALE圖的特征解釋與特征選擇效果較好。
弱解釋性的集成算法通常比可解釋的線性模型預(yù)測(cè)能力更強(qiáng)大,若結(jié)合事后解釋技術(shù),則能夠兼顧預(yù)測(cè)力和可解釋性。本文基于一個(gè)簡(jiǎn)單、常用的數(shù)據(jù)集說(shuō)明ALE圖在特征效應(yīng)解釋中的應(yīng)用與效果。
在廣告預(yù)算的銷(xiāo)量預(yù)測(cè)研究中,Advertising(廣告)數(shù)據(jù)集記錄了某產(chǎn)品在200 個(gè)不同市場(chǎng)的廣告費(fèi)用與銷(xiāo)售情況[16],輸入特征分別為T(mén)V(電視)、radio(廣播)和newspaper(報(bào)紙)三類(lèi)媒體的廣告投放費(fèi)用,輸出特征為sales(銷(xiāo)量)。運(yùn)用梯度提升樹(shù)進(jìn)行預(yù)測(cè),通過(guò)ALE 圖揭示各輸入特征對(duì)銷(xiāo)量預(yù)測(cè)效應(yīng)的清晰解釋?zhuān)ㄒ?jiàn)圖5實(shí)線),從而指導(dǎo)客戶如何調(diào)整廣告預(yù)算以增加銷(xiāo)量。在訓(xùn)練過(guò)程中,迭代次數(shù)設(shè)定為5000,壓縮參數(shù)取0.01,預(yù)測(cè)時(shí)基于十折交叉驗(yàn)證確定最優(yōu)迭代次數(shù)為2413,MSE 為0.349??梢钥闯?,TV(電視)廣告費(fèi)與radio(廣播)廣告費(fèi)分別對(duì)sales(銷(xiāo)量)存在單調(diào)的正向影響,newspaper(報(bào)紙)對(duì)sales(銷(xiāo)量)預(yù)測(cè)的效應(yīng)接近于0,這與采用最小二乘線性回歸時(shí)(MSE 為2.298)的特征效應(yīng)(見(jiàn)圖5 虛線)基本一致,說(shuō)明各輸入特征在梯度提升樹(shù)算法和線性回歸模型中對(duì)預(yù)測(cè)值的影響差不多。
圖5 基于ALE圖的特征解釋與選擇(廣告預(yù)算)
從統(tǒng)計(jì)學(xué)角度,線性回歸模型的擬合優(yōu)度為0.9012,三個(gè)輸入特征的回歸系數(shù)分別為T(mén)V(0.047,P 值<0.001)、radio(0.186,P 值<0.001)和newspaper(0.00028,P 值≈0.969),即TV 與radio 對(duì)sales 存在顯著的正向影響,newspaper不存在顯著影響。當(dāng)線性回歸模型的特征效應(yīng)通過(guò)ALE解釋?zhuān)ㄒ?jiàn)圖5虛線)時(shí),輸入特征對(duì)預(yù)測(cè)值的累積局部效應(yīng)是線性的,趨勢(shì)與自變量的顯著性分析一致。
ALE 圖反映采用某算法時(shí)輸入特征的變化對(duì)預(yù)測(cè)值的影響,走勢(shì)與形狀取決于預(yù)測(cè)精度及模型的特點(diǎn)。線性回歸模型的ALE 圖為直線,而梯度提升樹(shù)的ALE 圖則呈現(xiàn)不規(guī)則非線性趨勢(shì),因?yàn)榫€性回歸模型中運(yùn)用各輸入特征的線性組合加常數(shù)項(xiàng)預(yù)測(cè)輸出值,輸入特征對(duì)預(yù)測(cè)值的影響均為線性,斜率取決于對(duì)應(yīng)的回歸系數(shù);而梯度提升樹(shù)模型的基分類(lèi)器為回歸樹(shù),預(yù)測(cè)原理是將特征空間劃分成高維矩形,以落在同一矩形的訓(xùn)練數(shù)據(jù)輸出特征的均值作為預(yù)測(cè)值,對(duì)測(cè)試數(shù)據(jù)中落入該矩形的每條觀測(cè)取同樣的預(yù)測(cè)值,預(yù)測(cè)值是非線性的、離散化的,累積局部效應(yīng)呈現(xiàn)為不規(guī)則曲線。
作為一種與模型無(wú)關(guān)的事后特征解釋工具,ALE圖適用于各種不同預(yù)測(cè)算法。對(duì)于同一數(shù)據(jù)集采用不同算法進(jìn)行預(yù)測(cè)后,可通過(guò)圖像比較其輸入特征在各算法中所起的作用。ALE 圖僅反映輸入特征變化在某算法中對(duì)預(yù)測(cè)結(jié)果的影響,表現(xiàn)為線性或非線性、規(guī)則或不規(guī)則的曲線,曲線形狀與算法本身有關(guān)。ALE 圖默認(rèn)對(duì)各特征按函數(shù)值自動(dòng)生成不同的坐標(biāo)軸刻度與取值范圍的圖像,將縱軸修改為采用相同的坐標(biāo)值取值范圍后,那些沒(méi)有預(yù)測(cè)能力的輸入特征的ALE 圖像接近一條零值水平線,表明該特征對(duì)預(yù)測(cè)值影響不大,可以考慮從模型中剔除并重新建模,ALE圖對(duì)特征選擇具有參考意義。
在實(shí)際應(yīng)用中,人們通常愿意為提高精度而犧牲可解釋性,選擇深度神經(jīng)網(wǎng)絡(luò)與集成學(xué)習(xí)等黑盒模型。然而也存在一些案例使得高預(yù)測(cè)精度學(xué)習(xí)模型因?yàn)椴豢山忉尪柺苜|(zhì)疑,從而限制了其在一些場(chǎng)景中的應(yīng)用。特征解釋有助于開(kāi)發(fā)人員理解、調(diào)試和優(yōu)化模型,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行解釋?zhuān)黾幽P偷男湃味?。ALE圖為有監(jiān)督學(xué)習(xí)黑盒模型的特征解釋提供了較為科學(xué)、有效的可視化方式,它是一種與模型無(wú)關(guān)的特征解釋技術(shù),可直接為全新的模型提供診斷,也可對(duì)同一數(shù)據(jù)集用多種結(jié)構(gòu)不同的模型或算法預(yù)測(cè)的特征解釋進(jìn)行比較。將ALE圖可視化特征解釋與機(jī)器學(xué)習(xí)算法相結(jié)合,可為通常采用傳統(tǒng)統(tǒng)計(jì)模型的社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、傳播學(xué)等注重模型解釋的領(lǐng)域的研究提供一種新的選擇。另外,該方法可在機(jī)器學(xué)習(xí)超參數(shù)自動(dòng)優(yōu)化問(wèn)題中發(fā)揮作用,以了解哪些超參數(shù)影響模型性能,從而為優(yōu)化策略提供有價(jià)值的參考。