從文本情感分析到人臉圖像識別,深度學(xué)習(xí)模型已經(jīng)成為許多任務(wù)采用的最新技術(shù)。然而,理解為什么某些模型比其他模型表現(xiàn)得更好,或者一種模型的學(xué)習(xí)如何不同于另一種模型通常很難做到,但是這對于提高模型的有效性、預(yù)測準(zhǔn)確性和實現(xiàn)公平性又至關(guān)重要。比較模型功效的傳統(tǒng)方法,如準(zhǔn)確性、精確性和召回率,可以定量地展示這些模型的性能,但是一種模型為什么比另一種模型表現(xiàn)得更好的定性復(fù)雜性依舊是隱藏看不到的。
Sugeerth Murugesan等人2019年5月在《IEEE Computer Graphics and Applications》發(fā)表文章,研究采訪了機(jī)器學(xué)習(xí)從業(yè)者,通過了解他們的評估和比較工作流程,從中迭代設(shè)計了一種視覺分析方法——“深度比較”,系統(tǒng)地比較深度學(xué)習(xí)模型的結(jié)果,以洞察模型行為,并交互地評估2個模型之間的優(yōu)缺點。該工具允許用戶評估模型結(jié)果,識別并比較錯誤分類的激活模式,將測試結(jié)果鏈接回特定的神經(jīng)元。作者通過對2個實際案例研究進(jìn)行初步評估,表明了專家可以依據(jù)此結(jié)果,對不同類型模型的有效性做出更有根據(jù)的判斷,更詳細(xì)地了解模型的優(yōu)缺點,并全面評估模型的行為。