李 瑤, 左興權(quán), 王春露, 黃 海, 張修建
(1. 北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100876;2. 北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876; 3. 可信分布式計(jì)算與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100876; 4. 北京航天計(jì)量測試技術(shù)研究所,北京 100076;5.國家市場監(jiān)管重點(diǎn)實(shí)驗(yàn)室(人工智能計(jì)量測試與標(biāo)準(zhǔn)),北京 100076)
近年來,從智能推薦系統(tǒng)、智能電子郵件過濾到自動駕駛,人工智能的應(yīng)用越來越廣泛,其面對的問題越來越復(fù)雜,機(jī)器學(xué)習(xí)模型的復(fù)雜程度越來越高。為了獲得更好的性能,機(jī)器學(xué)習(xí)模型的參數(shù)數(shù)量可達(dá)上億量級。性能提高的代價(jià)是模型透明性的缺失,人們無法理解模型的決策邏輯,因而無法信任其做出的決策。為此,學(xué)術(shù)界在2004年提出了可解釋人工智能(Explainable Artificial Intelligence,XAI)[1]的概念。為使用戶理解、信任和管理新一代人工智能系統(tǒng),2016年10月,美國國防部高級研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)啟動了“可解釋的人工智能”[2]項(xiàng)目。
XAI 可解釋性對于機(jī)器學(xué)習(xí)研究和用戶至關(guān)重要,一方面,可解釋性是衡量模型決策合理性和算法安全性的基礎(chǔ);另一方面,缺乏可解釋性會阻礙人工智能在一些關(guān)鍵領(lǐng)域的落地應(yīng)用,例如,信用評分、醫(yī)療保健、自動駕駛以及軍事領(lǐng)域。2018年5月,歐盟出臺了《通用數(shù)據(jù)保護(hù)條例》,首次引入了關(guān)于自動決策的條款,要求為用戶提供獲得解釋權(quán)的權(quán)利。
人工智能可解釋性研究作為人工智能領(lǐng)域中一個(gè)新興的分支,目前已出現(xiàn)了多種解釋技術(shù),包括LIME[3]、SHAP[4]、顯著圖(Saliency Map)[5]及注意力機(jī)制(Attention Mechanism)[6-7]等,但如何評估XAI的可解釋性還沒有形成共識[8],XAI 可解釋性評估研究還處于早期發(fā)展階段。可解釋性評估工作需要針對具體的應(yīng)用場景、解釋模型和用戶,需要考慮主客觀因素,因而難以形成普遍認(rèn)可的科學(xué)評估體系[9]。對于可靠性要求高的領(lǐng)域[10],只有科學(xué)評估XAI的可解釋性,才能促進(jìn)XAI在這些領(lǐng)域中應(yīng)用。
XAI的可解釋性評估涉及人機(jī)交互(Human Co-mputer Interaction,HCI)、人類科學(xué)(Human Scien-ce)、可視化(Visualization)、機(jī)器學(xué)習(xí)(Machine Lear-ning)和數(shù)據(jù)科學(xué)(Data Science)等多領(lǐng)域的交叉[11],具有較大挑戰(zhàn)性。本文綜述了當(dāng)前XAI可解釋性評估方法。首先,介紹了XAI的可解釋性及其評估的基本概念和分類;然后,總結(jié)和梳理了XAI可解釋性的一些特性;進(jìn)而,從可解釋評估方法和可解釋性評估框架兩方面,分析和討論了可解釋性評估工作;最后,總結(jié)了當(dāng)前人工智能可解釋性評估研究的不足,并展望了其未來發(fā)展方向。
人工智能可解釋性研究可追溯到1991年,G.D.Garson等[12]提出了從敏感性分析的角度,分析和解釋機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果。2004年,首次提出了XAI這一術(shù)語。目前還沒有關(guān)于人工智能可解釋性標(biāo)準(zhǔn)的且普遍接受的定義,對于如何評估可解釋性也沒有標(biāo)準(zhǔn)的普遍認(rèn)可的體系[9]。
從可解釋性的角度,機(jī)器學(xué)習(xí)模型可分為透明盒(Transparent Box)模型與黑盒(Black Box)模型[13]。透明盒模型的決策機(jī)理是透明的,本身具有可解釋性,例如,決策樹模型、規(guī)則模型及線性模型等。黑盒模型的決策機(jī)理不透明,用戶無法得知決策的依據(jù),例如,神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。目前的解釋技術(shù)主要用于解釋黑盒模型。
可解釋性涉及多領(lǐng)域交叉,其定義需融合不同領(lǐng)域?qū)忉尩睦斫夂托枨螅蚨y以形成統(tǒng)一定義[14]。目前,可解釋性定義主要從技術(shù)和用戶兩方面考慮,如DARPA定義XAI為“XAI向用戶提供解釋,用以使用戶理解系統(tǒng)的整體優(yōu)勢和不足,理解系統(tǒng)在未來或不同情況下的行為,并可能允許用戶糾正系統(tǒng)的錯(cuò)誤”[2]。文獻(xiàn)[14]指出,還需考慮可解釋性功能性需求,如公平性、因果性等,因此,從解釋受眾和解釋功能的角度出發(fā),定義XAI為:“XAI能夠提供其功能的細(xì)節(jié)和原因,使其功能對用戶而言是清晰的或容易理解的”,說明XAI在不同應(yīng)用場景下的功能性目標(biāo)需考慮具體的用戶。
許多文獻(xiàn)強(qiáng)調(diào)了可解釋性評估的必要性和評估指標(biāo)的缺乏[11,14-15]。文獻(xiàn)[11]調(diào)研了381篇XAI相關(guān)文獻(xiàn),其中只有5%的研究嘗試評估XAI的可解釋性。類似地,文獻(xiàn)[16]發(fā)現(xiàn),78%的關(guān)于決策支持系統(tǒng)解釋的研究缺乏結(jié)構(gòu)化的評估工作。只有系統(tǒng)科學(xué)地評估XAI的可解釋性,才能提高XAI的可靠性和實(shí)用性,推動XAI的研究和應(yīng)用。具體來說,可解釋性評估的目標(biāo)包括:1)為解釋方法之間的比較提供科學(xué)、有效的評價(jià)標(biāo)準(zhǔn);2)評價(jià)XAI是否實(shí)現(xiàn)了預(yù)期的可解釋性目標(biāo)[17]。
文獻(xiàn)[18]將可解釋性評估分為三類:1)基于應(yīng)用(Application-ground):在實(shí)際應(yīng)用場景下,由用戶(尤其是專業(yè)人員)評估可解釋性;2)基于人(Human-ground):設(shè)計(jì)簡化的任務(wù),利用基于用戶實(shí)驗(yàn)獲得的評價(jià)指標(biāo)來評估解釋性;3)基于功能(Function-ground):無需用戶參與,通過可解釋代理模型或量化指標(biāo)來評估可解釋性,例如,決策樹的深度、模型預(yù)測的不確定性等。基于應(yīng)用的評估是最理想的,因?yàn)樗u估了XAI在實(shí)際應(yīng)用中用戶對解釋的反饋,然而用戶的參與導(dǎo)致評估成本較高,且評估結(jié)果依賴于所選的專業(yè)人員的領(lǐng)域?;诠δ艿脑u估無需人的參與,但其評估結(jié)果的有效性難以保證,因?yàn)榱炕笜?biāo)可能并不能很好地反映可解釋性?;谌说脑u估是一個(gè)折中方法,比基于應(yīng)用的評估成本低,但比基于功能的評估更有效。
文獻(xiàn)[19]根據(jù)用戶是否參與評估,將可解釋性評估分為主觀、客觀評估兩類。主觀評估利用用戶或?qū)<曳答亖碓u估XAI可解釋性;客觀評估利用客觀評估指標(biāo)來量化評估可解釋性。以上基于應(yīng)用的評估和基于人的評估屬于主觀評估,而基于功能的評估屬于客觀評估。
可解釋性的特性是指可解釋性應(yīng)具備的特性,用于評估和比較XAI的可解釋性。文獻(xiàn)[20]從解釋方法(Explanation Methods)和個(gè)體解釋(Individual Explanations)兩方面總結(jié)了可解釋性的特性。
解釋方法的特性包括4個(gè)方面:1)表達(dá)能力(Expressive Power):是指解釋方法生成的解釋的形式,如if-then規(guī)則、模糊邏輯、直方圖、決策樹、線性模型、有限制的自然語言等;2)半透明性(Translucency):是指解釋方法對機(jī)器學(xué)習(xí)模型內(nèi)部工作原理的依賴性,例如,模型無關(guān)的解釋方法與模型內(nèi)部工作原理無關(guān),其半透明性為零;3)可移植性(Portability):是指解釋方法可應(yīng)用的范圍,高半透明性的解釋方法的可移植性低;4)算法復(fù)雜性(Algorithmic Complexity):是指解釋方法的計(jì)算復(fù)雜性。此外,解釋方法的穩(wěn)定性[21]、魯棒性[22]、敏感性[23]等也是評估可解釋性的重要指標(biāo)。
個(gè)體解釋是指解釋方法生成的解釋內(nèi)容,其特性包括9方面:1)準(zhǔn)確性(Accuracy):是指解釋對未知實(shí)例預(yù)測的準(zhǔn)確性,例如:規(guī)則形式的解釋的預(yù)測準(zhǔn)確性;2)保真度(Fidelity):是指解釋是否反映模型真實(shí)預(yù)測行為,對于局部解釋,保真度是指解釋是否很好地反映模型在某一實(shí)例附近的預(yù)測行為;3)一致性(Consistency):是指對同一任務(wù)(如數(shù)據(jù)集)訓(xùn)練得到的兩個(gè)模型的解釋的相似程度,如果這兩個(gè)模型對相似實(shí)例的解釋越相似,則一致性越高;4)穩(wěn)定性(Stability):是指對相似實(shí)例生成的解釋的相似程度,與一致性不同,穩(wěn)定性是指同一模型對相似實(shí)例解釋的相似性;5)可理解性(Comprehensibility):是指用戶對解釋的理解程度,是偏主觀的特性;6)確定性(Certainty):是指解釋能否反映模型預(yù)測的確定性,許多模型只提供預(yù)測結(jié)果,而不提供模型預(yù)測正確性的置信度;7)重要性(Importance):是指解釋能否反映其所包含的信息(如特征)間的重要性程度,例如,規(guī)則集形式的解釋中各條規(guī)則的重要程度;8)新穎性(Novelty):是指解釋能否反映來自新區(qū)域(遠(yuǎn)離訓(xùn)練數(shù)據(jù)分布的區(qū)域)的解釋實(shí)例;9)代表性(Representativeness):是指解釋覆蓋實(shí)例程度,解釋可能覆蓋整個(gè)模型行為,或只能解釋部分實(shí)例。
由于解釋是面向用戶的,因此解釋需要以用戶能理解的形式呈現(xiàn)。文獻(xiàn)[24]從用戶角度出發(fā),分析了人容易理解的解釋的特性,主要包括7方面:1)對比性(Contrastiveness):又稱反事實(shí)忠實(shí)性(Counter-factual Faithfulness),人們傾向于反事實(shí)思考,通常會問為什么不是其他預(yù)測結(jié)果。好的解釋應(yīng)能突出事實(shí)和相關(guān)事件之間的差異性。2)選擇性(Selectivity):人們往往并不期望解釋能涵蓋模型預(yù)測的完整原因,而更傾向于從多個(gè)可能的原因中選擇主要原因作為解釋。因此,解釋方法應(yīng)能明確模型預(yù)測結(jié)果的主要原因。3)社會性(Sociality):解釋需要解釋者和被解釋者之間的互動,因此需考慮社會環(huán)境和目標(biāo)用戶,以適用于不同領(lǐng)域和環(huán)境。4)異常關(guān)注(Focus on the Abnormal):人們更關(guān)注異常事件(實(shí)例)發(fā)生的原因,分析異常事件的原因可提供更好的解釋。5)真實(shí)性(Truth):解釋應(yīng)反映真實(shí)的決策邏輯。6)先驗(yàn)知識一致性(Consistent with Prior Knowledge):人們更傾向于忽略與其先驗(yàn)知識不一致的信息。7)普遍性(Generality):好的解釋應(yīng)能應(yīng)用于大多數(shù)實(shí)例。
一些文獻(xiàn)從其他角度分析了解釋的特性,例如:文獻(xiàn)[14]從解釋目標(biāo)的角度分析了解釋的可信性(Trustworthiness)、因果性(Causality)、可轉(zhuǎn)移性(Transferability)、信息性(Informativeness)、置信能力(Confidence)、公平性(Fairness)、可訪問性(Accessibility)、互動性(Interactivity)及隱私意識(Privacy Awareness)。文獻(xiàn)[19]從解釋概念的角度分析了因果性、完整性(Completeness)等36個(gè)相關(guān)解釋特性。
可解釋性特性可用于評估和比較可解釋性水平,但有些特性的量化方法尚不明確,這是可解釋性評估工作的重要挑戰(zhàn)之一;另一個(gè)挑戰(zhàn)是:“好”解釋應(yīng)滿足什么特性方面還未形成共識[25],目前研究主要從直覺出發(fā),分析“好”解釋應(yīng)滿足的特性[24]。如何結(jié)合具體應(yīng)用場景、評估目標(biāo)、用戶類型,合理地選擇、組合、量化上述特性,對可解釋性評估至關(guān)重要。
根據(jù)是否需要用戶參與可解釋性評估,可將評估方法分為主觀評估方法和客觀評估方法。
若解釋有助于用戶建立XAI的決策邏輯的心理模型,則該解釋是有效的[19]。大多數(shù)可解釋性的評估工作以用戶為中心進(jìn)行評估,基于用戶的反饋評估可解釋性。評估過程一般涉及兩類用戶[26]:普通用戶和專家用戶,普通用戶是指沒有AI專業(yè)知識或技能的用戶,專家用戶是指具有一定專業(yè)水平的數(shù)據(jù)專家和AI專家等。文獻(xiàn)[27]分析了653篇XAI文獻(xiàn),將主觀評估研究分為定性研究、定量研究、定性和定量結(jié)合研究。
3.1.1 定性評估
定性評估基于開放式問題,通過采訪、問卷調(diào)查、量表分析等方式評估解釋的有用性、用戶滿意度和信任等[17]。DARPA的XAI項(xiàng)目中,R.R.Hoffman等[15]的工作是XAI可解釋性定性評估的代表,其通過建立 XAI 解釋過程的概念模型,從解釋的優(yōu)良、用戶滿意度、用戶心理模型、用戶信任與依賴以及好奇心的影響等方面評估可解釋性,并對用戶實(shí)驗(yàn)設(shè)計(jì)給出具體建議和示例,示例包括:1)設(shè)計(jì)一組詢問用戶對解釋效果的感受的問題,評估解釋對用戶好奇心的影響,如“我想知道我是否正確理解這個(gè)人工智能系統(tǒng)”;2)設(shè)計(jì)5分利克特量表(Likert Scale)評估用戶滿意度和用戶信任與依賴,量表問題如:“我喜歡用該XAI系統(tǒng)來決策”。心理模型是指用戶對XAI系統(tǒng)的理解,該評估工作列出11種提取用戶心理模型的方法,并分析了各方法的優(yōu)缺點(diǎn),其中典型的方法包括:1)預(yù)測任務(wù)(Prediction Task):用戶對給定的樣本進(jìn)行預(yù)測并解釋預(yù)測的原因;2)自解釋任務(wù)(Self-explanation Task):用戶在完成指定任務(wù)后,描述自己的理解;3)有聲思考問題解決任務(wù)(Think-aloud Problem Solving Task):用戶在完成任務(wù)的過程中,說出自己的想法、感受、意見等。
文獻(xiàn)[28]在眾包平臺上召集了120名用戶,每個(gè)用戶完成4分利克特量表和5分利克特量表,從有效性、效率、說服力、滿意度、可審查性、透明性和信任7個(gè)方面來評估一個(gè)用于推薦領(lǐng)域的XAI的可解釋性。
解釋方法有效性驗(yàn)證方面,一般通過小規(guī)模用戶實(shí)驗(yàn)來驗(yàn)證,例如,文獻(xiàn)[29]設(shè)計(jì)了一些描述題、選擇題、判斷題,請47位學(xué)過機(jī)器學(xué)習(xí)課程的學(xué)生回答,通過統(tǒng)計(jì)用戶預(yù)測的準(zhǔn)確度來驗(yàn)證解釋方法的有效性。文獻(xiàn)[30]通過70位學(xué)習(xí)機(jī)器學(xué)習(xí)課程的本科學(xué)生在線用戶實(shí)驗(yàn),以驗(yàn)證解釋方法的有效性。
3.1.2 定性與定量評估結(jié)合
主觀評估的定量研究以封閉式問題為基礎(chǔ),計(jì)算任務(wù)完成的效果[19],例如:計(jì)算人機(jī)任務(wù)性能測試的準(zhǔn)確性、反應(yīng)時(shí)間等指標(biāo)[17]。
一些評估工作結(jié)合定性和定量分析來評估和比較可解釋性[26],用戶完成預(yù)測任務(wù)后,除定量分析預(yù)測準(zhǔn)確性、所用時(shí)長等指標(biāo)外,還需用戶完成填空、量表等定性調(diào)查,以進(jìn)一步分析用戶滿意度、理解性等。文獻(xiàn)[31]為評估醫(yī)學(xué)領(lǐng)域中LIME解釋方法生成的XAI的解釋性,計(jì)算XAI預(yù)測結(jié)果中醫(yī)生贊同的比例、XAI的解釋與醫(yī)生的解釋的相似性,以評估解釋的準(zhǔn)確性和充分性,同時(shí)請醫(yī)生完成2份5分利克特量表來評估醫(yī)生對解釋的滿意與信任程度。文獻(xiàn)[32]為了研究復(fù)雜性對XAI的解釋性的影響,在眾包平臺上召集900名用戶,每個(gè)用戶完成3個(gè)任務(wù)和1份5分利克特量表,通過計(jì)算任務(wù)完成時(shí)間、準(zhǔn)確度、解釋的使用難度來評估具有不同復(fù)雜性的XAI的可解釋性。一些研究利用輔助專業(yè)設(shè)備來評估可解釋性,例如,文獻(xiàn)[33]和文獻(xiàn)[34]在用戶實(shí)驗(yàn)中利用眼球追蹤(Eye Tracker)設(shè)備來判斷用戶的注意力,同時(shí)利用量表來評估解釋的可信性和可依賴性。
3.1.3 總結(jié)和分析
如前所述,當(dāng)前有很多以用戶為中心的主觀評估方法,但還沒有用戶實(shí)驗(yàn)設(shè)計(jì)的統(tǒng)一標(biāo)準(zhǔn)[16,21]。一些研究工作提出用戶實(shí)驗(yàn)設(shè)計(jì)的建議[35],例如:在DARPA的XAI項(xiàng)目中,S.T.Muller等[36]圍繞解釋的類型、實(shí)驗(yàn)設(shè)計(jì)、用戶模型的可靠性、用戶信任等9個(gè)方面,調(diào)研和總結(jié)了從1987年至2018年間XAI可解釋性主觀評估工作,提出了一組以用戶為中心XAI設(shè)計(jì)原則[37],為可解釋性主觀評估方法提供指導(dǎo)。
由于解釋是面向用戶的[38],因此,用戶實(shí)驗(yàn)是一種高效且直接的可解釋性評估方式。采用這種方式時(shí),解釋的有效性依賴于用戶認(rèn)知能力和解釋的應(yīng)用環(huán)境。合理的用戶實(shí)驗(yàn)可以評估解釋方法的實(shí)際應(yīng)用效果[39]。然而,用戶實(shí)驗(yàn)具有隨機(jī)性和主觀性,不同用戶可能傾向于不同類型和程度的解釋,用戶認(rèn)知的局限性也可能導(dǎo)致用戶對解釋的合理性做出錯(cuò)誤判斷。此外,用戶實(shí)驗(yàn)是基于“好的解釋能提升用戶表現(xiàn)”的假設(shè),然而此假設(shè)成立的條件有待進(jìn)一步探究。文獻(xiàn)[39]中,一項(xiàng)涉及3800名參與者的研究表明,清晰、詳細(xì)的解釋反而會損害用戶表現(xiàn)。文獻(xiàn)[40]指出,基于用戶反饋的用戶實(shí)驗(yàn)可能會導(dǎo)致研究人員過于追求設(shè)計(jì)一個(gè)更有說服力的解釋方法,而不是設(shè)計(jì)一個(gè)與解釋對象一致的解釋方法。
客觀評估無需用戶參與,利用客觀指標(biāo)來評估XAI的可解釋性??山忉屝噪m然涉及人的主觀感受,但也可以通過量化評估指標(biāo)實(shí)現(xiàn)客觀評估[23]??陀^評估方法能快速地、自動地評估XAI的可解釋性[41]。相比主觀評估,客觀評估工作相對較少。文獻(xiàn)[19]調(diào)研了70篇可解釋性評估文獻(xiàn),其中客觀評估工作的占比為38.02%。
客觀評估研究可解釋特性的量化方法。本文總結(jié)了一些常用的量化特性,見表1。
表1 XAI可解釋性的客觀評估工作
3.2.1 穩(wěn)定性
穩(wěn)定性是指XAI對相似/鄰近樣本生成解釋的相似性[19]。對于同一樣本或相似的樣本,XAI 應(yīng)產(chǎn)生相似的解釋,若生成具有較大差異的解釋,則會影響用戶對XAI 的信任。例如,自動駕駛領(lǐng)域中,若在行駛情況沒有發(fā)生明顯變化時(shí),XAI向用戶提供幾種不同的解釋,則用戶會對自動駕駛系統(tǒng)失去信任[42]。
(1)
其中,fexpl為解釋方法;Bε為鄰近樣本集合;h為聚合函數(shù)。一般來說,解釋內(nèi)容的基本單元是樣本中的變量(特征或像素),當(dāng)該變量為高度、面積等用戶可理解的信息時(shí),h(xi)=xi;當(dāng)該變量為像素等用戶難以理解的信息時(shí),解釋內(nèi)容的基本單元是用戶可理解的高階變量,如像素塊,此時(shí),h(xi)為由高階變量組成的樣本。
3.2.2 敏感性
敏感性是指XAI對輸入樣本變化的敏感程度[19]。低敏感性的XAI通常更受歡迎,因?yàn)槠渚哂休^強(qiáng)的抗干擾性,當(dāng)輸入樣本受到與模型預(yù)測無關(guān)的微小擾動時(shí),XAI的解釋不會產(chǎn)生明顯變化。A.Ghorbani等[48]的研究表明,具有高敏感性的解釋可能更容易受到對抗攻擊。文獻(xiàn)[23]提出最大敏感性指標(biāo)SENSMAX(Max-sensitivity)來評估解釋的敏感性,該指標(biāo)計(jì)算鄰近樣本解釋間的最大距離作為敏感性
(2)
其中,r是一個(gè)預(yù)定義的參數(shù),表示擾動范圍;x為輸入樣本;f表示黑盒模型;Φ表示解釋方法。文獻(xiàn)[49]提出最大敏感性和平均敏感性兩個(gè)指標(biāo)來計(jì)算敏感性,這兩個(gè)指標(biāo)選取與輸入樣本預(yù)測結(jié)果相同的鄰近樣本。最大敏感性按式(3)計(jì)算
(3)
其中,D為距離函數(shù);f表示黑盒模型;g表示解釋方法;x為輸入樣本;Nr表示與x距離為r的樣本集合中與x預(yù)測結(jié)果相同的所有樣本。
一些解釋方法關(guān)注于解釋的高敏感性。例如,基于顯著圖的解釋方法,通過計(jì)算輸入特征對模型輸出影響的重要性分?jǐn)?shù)來解釋黑盒模型[14],文獻(xiàn)[51]提出Sensitivity-n指標(biāo),通過擾動來量化具有相同重要性水平的不同特征被移除時(shí)對模型預(yù)測結(jié)果的影響,以此分析解釋對重要特征的敏感性。文獻(xiàn)[52]和文獻(xiàn)[53]利用Spearman秩相關(guān)(Spearman Rank Correlation)、梯度直方圖的Pearson相關(guān)(Pearson Corre-lation of the Histogram of Gradients)、結(jié)構(gòu)相似指數(shù)(Structural Similarity Index)指標(biāo)分別評估解釋方法對模型參數(shù)和超參數(shù)的敏感性。
3.2.3 保真度
保真度是指解釋描述模型行為的準(zhǔn)確程度,即解釋與黑盒模型的一致程度。保真的解釋一方面應(yīng)能提供足夠的信息來描述從樣本輸入到模型預(yù)測過程中模型的完整行為,另一方面應(yīng)能真實(shí)反映模型行為[17]。一些研究工作通過計(jì)算解釋的預(yù)測結(jié)果與黑盒模型預(yù)測結(jié)果間的偏差來評估保真度。例如:文獻(xiàn)[46]在解釋樣本的鄰近樣本集上,計(jì)算黑盒模型預(yù)測與解釋預(yù)測的F1分?jǐn)?shù)來評估解釋的保真度。除F1分?jǐn)?shù)外,Accuracy[54]、AUC分?jǐn)?shù)[55]也是常用的指標(biāo)。更多的研究工作基于樣本的擾動來評估解釋的保真度,如文獻(xiàn)[23]、[42]、[49]等。文獻(xiàn)[56]利用均方根誤差(Root Mean Square Error, RMSE)計(jì)算預(yù)測偏差來評估保真度,且基于樣本擾動進(jìn)一步評估保真度,從3方面測試解釋所包含的特征是否真實(shí)地影響黑盒模型的行為:1)特征推斷測試(Feature Deduction Test):通過抹去測試樣本中解釋所包含的特征對應(yīng)的特征值來構(gòu)造新樣本,觀察新樣本的模型預(yù)測結(jié)果是否改變,若改變,則通過測試;2)特征增強(qiáng)測試(Feature Augmentation Test):從與測試樣本x不同類別的樣本集中隨機(jī)挑選一個(gè)樣本y,將測試樣本中解釋所包含的特征對應(yīng)的特征值替換y的特征值來構(gòu)建新樣本,觀察新樣本的預(yù)測結(jié)果是否與測試樣本的預(yù)測結(jié)果相同,若相同,則通過測試;3)綜合測試(Synthetic Test):保留測試樣本中解釋所包含的特征對應(yīng)的特征值,并將其他特征進(jìn)行隨機(jī)賦值來構(gòu)建新樣本,觀察新樣本的預(yù)測結(jié)果是否與測試樣本相同,若相同,則通過測試。在測試集上分別進(jìn)行以上三種測試,計(jì)算各測試中通過測試的樣本所占的比例來評估解釋的保真度。與上述特征推斷測試類似,文獻(xiàn)[5]和文獻(xiàn)[57]通過對圖像進(jìn)行特征遮擋來計(jì)算解釋的保真度。
此外,復(fù)雜性、因果性、有效性等也是客觀評估中普遍關(guān)注的特性。還有一些客觀評估工作只針對特定解釋方法或黑盒模型。例如,文獻(xiàn)[58]利用決策樹代理模型來解釋卷積神經(jīng)網(wǎng)絡(luò)(Convolutio-nal Neural Network, CNN),通過控制和調(diào)節(jié)CNN來計(jì)算代理模型的特征信息增益、特征稀疏性、特征完整性、決策樹的預(yù)測準(zhǔn)確性、完整性以量化評估可解釋性,該評估方法涉及CNN的調(diào)節(jié)和控制,是一種針對特定黑盒模型的評估方法。類似的評估工作見文獻(xiàn)[57]、[59]、[60],不再贅述。
3.2.4 總結(jié)和分析
客觀評估方法量化了可解釋性的特性,能快捷地評估XAI可解釋性。然而,由于解釋的特性通常是概念性的,且解釋方法、解釋形式、評估目標(biāo)具有多樣性,因此即使針對同一特性,其量化方法也不盡相同。此外,一些評估方法受限于特定黑盒模型和應(yīng)用場景,不具有通用性。對于一些重要特性,諸如解釋確定性、公平性及隱私意識等,仍缺乏可靠的量化評估方法。
XAI系統(tǒng)整個(gè)生命周期中,從最初需求確定到設(shè)計(jì)和開發(fā),再到系統(tǒng)使用,都需要解釋。將可解釋性評估與XAI設(shè)計(jì)和開發(fā)過程結(jié)合,研究XAI可解釋性評估的框架具有重要意義[71]。
XAI系統(tǒng)在不同階段具有不同設(shè)計(jì)目標(biāo),一個(gè)觀點(diǎn)是考慮XAI設(shè)計(jì)目標(biāo)和評價(jià)方法之間的依賴關(guān)系[26],根據(jù)XAI設(shè)計(jì)過程和解釋目標(biāo)來選擇合適的評估方法,從而對XAI可解釋性進(jìn)行整體評估。文獻(xiàn)[26]構(gòu)建了一個(gè)XAI系統(tǒng)設(shè)計(jì)與評估的嵌套框架,如圖1所示。XAI系統(tǒng)設(shè)計(jì)中,需根據(jù)XAI設(shè)計(jì)目標(biāo)來確定每個(gè)框架層的可解釋性要求。這些要求根據(jù)用戶需求確定,包括法規(guī)、法律、安全標(biāo)準(zhǔn)等,隨后選擇合適的評價(jià)方法來評估可解釋性是否達(dá)到預(yù)期要求。該框架結(jié)構(gòu)包括:
圖1 XAI設(shè)計(jì)與評估框架[26]Fig.1 Design and evaluation framework of XAI [26]
1)外層:XAI系統(tǒng)級設(shè)計(jì)目標(biāo)層,其解釋的要求包括:a)確定解釋的目的;b)結(jié)合應(yīng)用場景和目標(biāo)用戶類型,選擇合適的解釋內(nèi)容;c)利用XAI系統(tǒng)的輸出來定性和定量評估XAI系統(tǒng)目標(biāo)的實(shí)現(xiàn)情況。具體評估方法取決于設(shè)計(jì)目標(biāo)、應(yīng)用范圍和目標(biāo)用戶,例如:用戶信任和依賴[72-73]、人機(jī)任務(wù)性能[74]、用戶意識[75]等。
2)中間層:解釋形式和界面設(shè)計(jì),目的是以用戶可理解的、滿意的方式呈現(xiàn)解釋內(nèi)容。采用用戶對解釋的理解、用戶對解釋的滿意度、用戶心理模型等主觀評估方法,以改善解釋界面設(shè)計(jì)。
3)內(nèi)層:解釋算法設(shè)計(jì)層。XAI利用解釋技術(shù)來解釋黑盒模型,而各種解釋技術(shù)具有各自優(yōu)缺點(diǎn)和應(yīng)用范圍。因此,只有選取合適的解釋技術(shù),才能向用戶提供有用且值得信賴的解釋。可以通過定量評估XAI的可信性[76]、保真度等指標(biāo)來評估內(nèi)層解釋算法的有效性。
DARPA的XAI項(xiàng)目[2]基于XAI解釋過程的概念模型來評估XAI的可解釋性,如圖2所示。概念模型包括:用戶、XAI的解釋、用戶心理模型(User’s Mental Model)及用戶系統(tǒng)任務(wù)表現(xiàn)(User-System Task Per-formance)4個(gè)模塊。模塊之間的關(guān)系為:用戶收到XAI提供的解釋,解釋用于建立和完善用戶的心理模型,完善的心理模型可提高用戶系統(tǒng)任務(wù)表現(xiàn)。優(yōu)良的解釋可幫助用戶構(gòu)建良好的心理模型,而良好的解釋與心理模型能使用戶信任與依賴XAI的決策。針對概念模型中4個(gè)模塊,將可解釋評估劃分為以下五方面:
1)解釋優(yōu)良性(Explanation Goodness):評估解釋是否滿足優(yōu)良的解釋應(yīng)具備的特性;
2)滿意度測試(Test of Satisfaction):用戶對解釋的主觀評價(jià),包括解釋的完整性、有用性、準(zhǔn)確性和滿意度等;
3)理解性測試(Test of Understanding):測試用戶理解XAI系統(tǒng)的程度以及用戶在新場景下預(yù)測系統(tǒng)決策/行為的能力;
4)用戶任務(wù)性能(User Task Performance):用戶能成功地執(zhí)行XAI系統(tǒng)所支持的任務(wù);
5)合理的信任與信賴(Appropriate Trust and Reliance):用戶能合理地判斷XAI系統(tǒng)提供的解釋和預(yù)測,并適當(dāng)?shù)匦湃闻c依賴該系統(tǒng)。
不同類型用戶對解釋需求和理解程度存在差異,因此,多數(shù)主觀評估工作從用戶類型角度設(shè)計(jì)評估目標(biāo),而文獻(xiàn)[77]從用戶所需求信息的角度出發(fā),根據(jù)解釋中包含信息的必要性,構(gòu)建一個(gè)三層框架來分析XAI的設(shè)計(jì)與評估:解釋對XAI系統(tǒng)當(dāng)前行為的感知、解釋對XAI行為或決策原因的感知、解釋對XAI行為的反事實(shí)分析或預(yù)測。
可解釋性評估框架為XAI可解釋性評估提供指導(dǎo)思路,能夠從多方位整體評估XAI的可解釋性,發(fā)現(xiàn)XAI可解釋性的缺陷,有助于設(shè)計(jì)解釋性更好的XAI,使用戶能夠系統(tǒng)、全面地理解XAI。當(dāng)前雖然已有一些可解釋性評估框架,但這些框架的合理性和實(shí)用性還有待于進(jìn)一步的實(shí)際應(yīng)用驗(yàn)證。此外,這些框架只提供了可解釋性評估的指導(dǎo)思路,沒有提供具體的評估方法,因此在使用中需要在框架指導(dǎo)下,結(jié)合具體的XAI系統(tǒng),選取合適的評估方法與指標(biāo)。
表2總結(jié)和比較了主觀評估方法、客觀評估方法以及可解釋性評估框架的優(yōu)缺點(diǎn)。
表2 XAI可解釋性評估方法的對比
隨著XAI的快速發(fā)展,XAI可解釋性評估研究得到越來越多的關(guān)注。本文綜述了XAI可解釋性評估的研究進(jìn)展。首先,分析了可解釋性應(yīng)具備的特性,這些特性可用于評估和比較XAI的解釋性。然后,從主觀和客觀評估兩方面總結(jié)了當(dāng)前可解釋評估方法。最后,綜述了一些可解釋性評估框架。
XAI可解釋評估研究仍然處于早期發(fā)展階段,一些研究工作有待進(jìn)一步開展,未來的研究方向包括:
1)可解釋性的客觀評估方法。相較于主觀評估方法,客觀評估方法較少,這是因?yàn)椋篴)有些可解釋的特性是概念性的,與用戶主觀感受相關(guān)(如滿意度),難以客觀量化;b) 有些可解釋的特性目前還缺乏可靠的量化方法??陀^評估可以實(shí)現(xiàn)XAI的快速、自動評估,避免主觀評估成本高的不足,是可解釋性評估的未來發(fā)展方向。
2)可解釋性評估的統(tǒng)一標(biāo)準(zhǔn)。可解釋性評估標(biāo)準(zhǔn)需考慮多方面因素。一方面,不同領(lǐng)域XAI的評估目標(biāo)不同,不同類型的用戶具有不同的解釋需求,因此需結(jié)合具體應(yīng)用領(lǐng)域和用戶類型來劃分可解釋評估工作;另一方面,XAI設(shè)計(jì)者或用戶可能不清楚需要何種類型、何種程度的解釋,因此,需提供可解釋性評估列表,引導(dǎo)XAI的可解釋性評估向著規(guī)范化方向發(fā)展。
3)可解釋性評估方法比較研究。目前已存在多種可解釋性評估方法,這些方法各有優(yōu)缺點(diǎn),但鮮有研究比較這些評估方法的評估效果和適用場景??山忉屧u估方法的比較研究,對于XAI設(shè)計(jì)者和用戶選取合適的評估方法來評估XAI的可解釋性具有重要意義。
4)可解釋性的系統(tǒng)性評估方法??山忉屝栽u估需要融入XAI系統(tǒng)整個(gè)生命周期中,從多角度評估XAI系統(tǒng)的可解釋性。雖然已有一些可解釋性評估框架,但這些框架是概念性的,缺乏具體的評估細(xì)節(jié)和應(yīng)用案例。深入研究和完善可解釋性評估框架,對系統(tǒng)評估XAI的可解釋性具有重要意義。
5)可解釋性在安全方面的評估。解釋可能會給XAI和用戶帶來安全隱患:a)解釋方法往往會揭示底層模型和訓(xùn)練數(shù)據(jù)信息,其展示的信息可能包含模型和用戶信息,由此導(dǎo)致隱私泄露,因此,需要評估XAI解釋的隱私性;b)解釋中包含的信息可能會被惡意利用,以此發(fā)現(xiàn)模型漏洞和脆弱點(diǎn),實(shí)施對XAI的惡意攻擊,因此解釋需要考慮安全性因素,需要評估XAI解釋的安全性。