亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合機器學習與知識推理的可解釋性框架①

        2021-08-02 11:08:16李迪媛康達周
        計算機系統(tǒng)應用 2021年7期
        關(guān)鍵詞:規(guī)則特征

        李迪媛,康達周

        1(南京航空航天大學 計算機科學與技術(shù)學院/人工智能學院,南京 211106)

        2(南京航空航天大學 高安全系統(tǒng)的軟件開發(fā)與驗證技術(shù)工信部重點實驗室,南京 211106)

        3(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 210023)

        機器學習[1]是計算機基于數(shù)據(jù)進行和改進預測或行為的一組方法[2],在效率、規(guī)模、可重復性等方面相較人類更加出色.因此,利用機器學習技術(shù)可以解決現(xiàn)實中很多領(lǐng)域的問題,如自動駕駛[3,4]、醫(yī)療診斷[5,6]、自然語言處理[7]等.

        在很多重要領(lǐng)域,機器學習結(jié)果對最終決策具有重大影響.例如,使用機器學習技術(shù)實現(xiàn)的宮頸癌細胞圖像自動識別系統(tǒng),其識別結(jié)果能夠輔助醫(yī)師診斷宮頸癌,這不僅大幅度降低了人工成本,還提高了識別效率.然而,機器學習模型作為缺少可解釋性的黑盒,人們不理解它為什么會做出某種特定的決策,其輸出結(jié)果不能讓人完全信任.比如說,醫(yī)師很難信任缺少可解釋性的宮頸癌細胞圖像自動識別系統(tǒng)的結(jié)果.因此,賦予機器學習系統(tǒng)可解釋性非常重要.

        可解釋性是人們能夠理解決策的方法[8].在機器學習系統(tǒng)的上下文中,它是向人類解釋或以可理解的術(shù)語呈現(xiàn)的能力[9].從本質(zhì)上講,可解釋性是人類和決策模型之間的接口,它既是模型的準確代理,又是人類可以理解的[10].可解釋性能夠讓人類明白系統(tǒng)做出決策的邏輯,還可以幫助人們更好地了解結(jié)果可能失敗的原因.

        機器學習可解釋性分為本質(zhì)可解釋性和事后可解釋性兩類.本質(zhì)可解釋性意味著機器學習模型自身具有可解釋性,一般在模型較為簡單時實現(xiàn),例如線性回歸模型,它將目標預測為特征輸入的加權(quán)和,所學到的線性關(guān)系使解釋變得容易[11];決策樹模型通過遍歷決策樹的節(jié)點(類別和屬性)、根節(jié)點到葉子節(jié)點的路徑(決策規(guī)則),提供對簡單模型決策過程的模擬實現(xiàn)[12].事后可解釋性是利用可解釋性技術(shù)來解釋復雜機器學習模型,例如基于個體條件圖的可解釋性模型,它為每個實例顯示一條線,該線顯示了特征更改時實例的預測如何改變[13];基于規(guī)則的可解釋性模型通過從受訓模型中提取解釋規(guī)則的方式,提供對復雜模型尤其是黑盒模型的整體決策的邏輯的理解[14].該模型旨在以人類可理解的規(guī)則對模型做出特定決策的邏輯進行解釋,但是當它的規(guī)則或決策出現(xiàn)錯誤時,可解釋性將無法反映模型的真實決策情況.為了解決這個問題,可以思考一下人類是如何進行決策以及對決策結(jié)果進行解釋的.

        很多情況下,人類利用感知和推理共同完成決策[15].比如說,醫(yī)師在判斷一個宮頸細胞是否發(fā)生病變時,他首先能夠根據(jù)自己的篩查經(jīng)驗,對細胞圖像展現(xiàn)出來的細胞整體特征進行感知,得出一個大致的結(jié)論.然后,醫(yī)師基于宮頸細胞病變相關(guān)的醫(yī)學知識,對細胞的每個細胞形態(tài)學特征(例如細胞核大小、核質(zhì)比高低等)進行觀察,并結(jié)合這些特征和知識推理出另一個結(jié)論.醫(yī)師會結(jié)合、對比兩個結(jié)論,得出最終的診斷結(jié)果,并使用相關(guān)的醫(yī)學知識來解釋得出此診斷結(jié)果的原因.整個過程如圖1所示.

        圖1 醫(yī)師判斷宮頸細胞是否病變

        基于上述思路,本文提出了一種融合機器學習和知識推理兩種途徑的可解釋性框架.它包含兩個結(jié)果,一個是由機器學習模型感知整體特征得到的目標特征結(jié)果,另一個是通過結(jié)合多個子特征結(jié)果和規(guī)則進行知識推理得到的推理結(jié)果.框架結(jié)合兩個結(jié)果,根據(jù)它們是否相同、分別是否可靠的不同情況,來做出相應不同的演進決策.這使得框架在訓練和測試過程中不斷提高結(jié)果的分類準確率,同時賦予真實決策結(jié)果以可解釋性,在很大程度上解決了機器學習模型缺少可解釋性的問題.本文為衡量推理結(jié)果是否可靠,提出了一種評估方法,它融合了多個機器學習結(jié)果和規(guī)則的參數(shù).

        本文使用面向液基細胞學檢查圖像的融合學習與推理的某類宮頸癌細胞識別這一案例,對融合機器學習和知識推理兩種途徑的可解釋性框架進行了說明和驗證.

        1 融合機器學習與知識推理的可解釋性框架

        本文提出的融合機器學習與知識推理的可解釋框架,包含知識推理模塊、機器學習模塊、知識推理融合機器學習模塊,如表1所示.該框架的示意圖如圖2所示.

        圖2 融合機器學習與知識推理的可解釋性框架示意圖

        表1 框架模塊表

        其中,決策目標是指一個系統(tǒng)預期達到的目的,目標特征是指決策目標的整體特征,目標特征具有多個子特征,它們是專家知識和數(shù)據(jù)之間的關(guān)聯(lián)特征.例如,對于上文提到的診斷宮頸細胞是否病變的例子,決策目標是識別宮頸細胞圖像是否展現(xiàn)出癌變細胞的特征,目標特征是宮頸細胞的整體特征,而子特征是細胞形態(tài)學特征(細胞核大小、核質(zhì)比高低等).

        1.1 知識推理模塊

        知識推理模塊提供了用于推理決策的領(lǐng)域知識和業(yè)務規(guī)則,即決策目標相關(guān)的本體庫O和規(guī)則庫K.根據(jù)決策目標相關(guān)的領(lǐng)域知識,通過知識抽取、融合、加工的步驟,構(gòu)建用于決策目標的本體庫O,它表達了與決策目標有關(guān)的類和類之間的關(guān)系.本體庫O支持網(wǎng)絡(luò)本體語言(Ontology Web Language,OWL),其中目標特征類包含子特征類.將獲取到的有關(guān)決策目標的專家知識轉(zhuǎn)化為業(yè)務規(guī)則,組成規(guī)則庫K,它支持語義網(wǎng)規(guī)則語言(Semantic Web Rule Language,SWRL).知識推理模塊的示意圖如圖3所示.

        圖3 知識推理模塊示意圖

        1.2 機器學習模塊

        機器學習模塊提供了包含一個目標特征分類器C和多個子特征分類器C1~Cn的分類器組,其結(jié)果用于推理決策和結(jié)果演進.分類器組通過神經(jīng)網(wǎng)絡(luò)組結(jié)合數(shù)據(jù)集D、D1~Dn訓練得到.神經(jīng)網(wǎng)絡(luò)組由一個目標特征分類神經(jīng)網(wǎng)絡(luò)N和n個子特征分類神經(jīng)網(wǎng)絡(luò)N1~Nn組成.數(shù)據(jù)集D用于訓練N,D的數(shù)據(jù)標注以決策目標為分類標準;數(shù)據(jù)集D1~Dn分別用于訓練N1~Nn,D1~Dn的數(shù)據(jù)標注分別以它們對應的子特征為分類標準.機器學習模塊的示意圖如圖4所示.

        圖4 機器學習模塊示意圖

        1.3 知識推理融合機器學習模塊

        (1)提取子特征

        基于提取的子特征,知識推理模塊中本體庫O構(gòu)建子特征類,機器學習模塊構(gòu)建子特征分類器.子特征是與決策目標有關(guān)的專家知識和數(shù)據(jù)之間的關(guān)聯(lián)特征.其中,專家知識中高頻提及的概念為知識特征,數(shù)據(jù)本身的特征為數(shù)據(jù)特征,將知識特征與數(shù)據(jù)特征進行關(guān)聯(lián)和對應,所重合的特征為子特征.根據(jù)決策目標相關(guān)的知識特征和數(shù)據(jù)特征,框架提取出n個子特征f1~fn.那么,第1.1 節(jié)的本體庫O的子特征類依據(jù)f1~fn構(gòu)建;第1.2 節(jié)的數(shù)據(jù)集D1~Dn,其標注類別分別以f1~fn為分類標準,所構(gòu)建的n個子特征分類器C1~Cn也分別以f1~fn為標準來分類待分類數(shù)據(jù).

        (2)支持機器學習結(jié)果的知識推理

        一個待分類數(shù)據(jù)t經(jīng)過分類器組,得到目標特征分類器C的分類結(jié)果Rc、子特征分類器C1~Cn的分類結(jié)果R1~Rn.將R1~Rn分別映射為本體庫O中其對應的子特征類的實體數(shù)據(jù),并基于本體庫O和規(guī)則庫K進行知識推理,得到推理結(jié)果Rr.結(jié)果Rc、Rr都為目標特征結(jié)果,即框架做出數(shù)據(jù)t為Rc、Rr的決策.后續(xù)將對兩個目標特征結(jié)果Rc和Rr進行演進,實現(xiàn)結(jié)果的可解釋性.

        (3)機器學習結(jié)果結(jié)合推理結(jié)果演進

        結(jié)合目標特征結(jié)果Rc(機器學習結(jié)果)和目標特征結(jié)果Rr(推理結(jié)果)進行演進,框架根據(jù)Rc和Rr是否相同、Rc和Rr分別是否可靠的不同情況,做出相應不同的決策.為衡量結(jié)果是否可靠,本文引進評估結(jié)果好壞的指標——可信度.分別計算目標特征結(jié)果Rc的可信度ARc和目標特征結(jié)果Rr的可信度ARr,然后結(jié)合兩個結(jié)果進行演進,具體情況和每種情況對應的決策如表2所示.

        表2 決策表

        表2中,a為閾值,它由具體案例所屬領(lǐng)域的專家或多次案例實驗結(jié)果決定,案例對結(jié)果精度要求越嚴格則閾值越高.對于任何案例來說,結(jié)果精度要求再低也不能差于在正反類中隨機選擇一類的情況,精度要求再高也不可能好于類別全部預測正確的情況,因此a的取值區(qū)間在(0.5,1).通過對比ARc、ARr和a之間的大小關(guān)系,框架判斷Rc和Rr是否可靠.在Rc和Rr相同且兩個結(jié)果的可信度都較高的情況下,框架實現(xiàn)可解釋性,即使用子特征分類器C1~Cn的分類結(jié)果R1~Rn、知識推理使用到的規(guī)則庫K中的規(guī)則,來解釋框架做出數(shù)據(jù)t為Rc(Rr)的決策的邏輯.在Rc和Rr相同且其中一個結(jié)果可信度較低的情況下,框架提升得到低可信度結(jié)果的分類器和規(guī)則庫的信任:如果低可信度結(jié)果為Rr,則適當提高證據(jù)鏈中的參數(shù)值,證據(jù)鏈在下一節(jié)中描述;如果低可信度結(jié)果為Rc,則適當降低閾值a.在Rc和Rr不同且其中一個結(jié)果可信度較低的情況下,框架將優(yōu)化和改進得到低可信度結(jié)果過程中使用到的分類器、規(guī)則庫.

        本文規(guī)定可信度ARc為目標特征分類器C觀察Rc的概率值P與分類器C在驗證集上的準確率Acc的幾何平均值;ARr是融合了機器學習結(jié)果R1~Rn的參數(shù)值(例如結(jié)果概率值、靈敏度)和規(guī)則庫K的參數(shù)值的綜合評估值,具體計算方法在下一節(jié)描述.ARc考慮了Rc本身的可信程度和得到Rc的分類器C的性能,ARr考慮了推理Rr過程中使用到的數(shù)據(jù)R1~Rn本身的可信程度、得到R1~Rn的分類器C1~Cn的性能、規(guī)則庫K的可靠度.因此,使用可信度衡量結(jié)果質(zhì)量是較為充分的.

        2 計算推理結(jié)果可信度

        推理結(jié)果Rr是由支持機器學習結(jié)果的知識推理得到的.知識推理過程中規(guī)則使用的實體數(shù)據(jù),都是由子特征分類器的結(jié)果映射而來,不一定正確.因此,Rr也可能是不正確的.那么,如何對融合了多個機器學習結(jié)果和規(guī)則的目標特征結(jié)果進行評估呢?本文提出了一個定義?結(jié)果證據(jù)鏈,它是有向無環(huán)圖數(shù)據(jù)結(jié)構(gòu).結(jié)果證據(jù)鏈將記錄得到Rr過程中一些重要的參數(shù)值.本文基于結(jié)果證據(jù)鏈的結(jié)構(gòu),自底向上地計算Rr的可信度ARr,以評估Rr是否可靠.

        結(jié)果證據(jù)鏈是實現(xiàn)可解釋性的另一關(guān)鍵部分,它使得在Rr失敗時可能追溯到具體的原因.

        2.1 結(jié)果證據(jù)鏈

        定義1.結(jié)果證據(jù)鏈.結(jié)果證據(jù)鏈是一個有向無環(huán)圖(Directed Acyclic Graph,DAG),記為三元組G=,其中頂點集V為圖中節(jié)點的非空集合;邊集E?V×V為圖中有向邊的集合,每一條邊用節(jié)點對表示為(x,y),稱x為起點,y為終點;F是關(guān)系的集合,每一個關(guān)系F(x,y)對應一個節(jié)點對(x,y)之間的關(guān)系.

        結(jié)果證據(jù)鏈的節(jié)點,包括推理結(jié)果Rr、子特征分類器結(jié)果R1~Rn、R1~Rn的相關(guān)參數(shù)、基于的規(guī)則庫K、K的相關(guān)參數(shù),它們是V集合的組成元素.其中,子特征分類器結(jié)果Ri的相關(guān)參數(shù),包括子特征分類器Ci觀察Ri的概率值Pi、其在驗證集上的靈敏度(sensitivity)Mi和特異度(specificity)Yi;規(guī)則庫K的相關(guān)參數(shù),是人為對K可靠性的評估值Kr,它的區(qū)間是[0,1].

        本文使用知識圖譜KG來表示結(jié)果證據(jù)鏈G.知識圖譜通常用于表示和管理知識庫[16],采用三元組描述事實[17].本文采用自頂向下的方法建立KG:

        (1)將推理結(jié)果Rr與子特征分類器結(jié)果R1~Rn之間分別建立三元組,i=1,···,n;

        (2)將Rr與基于的規(guī)則庫K之間建立三元組;

        (3)將子特征分類器結(jié)果Ri與它的相關(guān)參數(shù)之間分別建立三元組,,;

        (4)將規(guī)則庫K與它的可靠性評估值Kr之間建立三元組.

        表示結(jié)果證據(jù)鏈G的知識圖譜KG結(jié)構(gòu)如圖5所示.那么,G中存儲了得到Rr過程中一些重要的參數(shù)值.

        圖5 結(jié)果證據(jù)鏈G 結(jié)構(gòu)圖

        2.2 推理結(jié)果評估

        計算ARr的方法使用了DS 證據(jù)理論的思想,它是一種不精確推理理論,被廣泛應用于證據(jù)(數(shù)據(jù))合成方面.DS 證據(jù)理論首先設(shè)辨識框架θ,它包含了所有假設(shè);然后為每一個假設(shè)分配概率,分配函數(shù)稱為Mass函數(shù);最后基于Dempster 規(guī)則融合結(jié)果,即:

        本文首先計算每個結(jié)果的靈敏度和特異度參數(shù)值.假設(shè)真陽性數(shù)量為TP,假陽性數(shù)量為FP,真陰性數(shù)量為TN,假陰性數(shù)量為FN,靈敏度M和特異度Y的計算公式如下:

        即靈敏度為正確判斷陽性的概率,而特異度為正確判斷陰性的概率.然后,對ARr進行計算:

        (1)定義Map 函數(shù)來表示每個Ri與Ri相關(guān)參數(shù)之間的映射關(guān)系,即Pi=m1(Ri)、Mi=m2(Ri)、Yi=m3(Ri);

        (2)求歸一化系數(shù)S:

        其中,n為Ri的個數(shù);

        (3)融合子特征分類結(jié)果R1~Rn的參數(shù),計算機器學習部分的可信度Ae:

        其中,Wfi為Ri對應子特征fi的權(quán)重,視具體案例而定;

        (4)融合機器學習部分的可信度Ae、規(guī)則庫K的評估值Kr,計算可信度ARr:

        后續(xù)將通過面向液基細胞學檢查圖像的融合學習與推理的某類宮頸癌細胞識別這一例子,對可解釋框架進行具體地說明.

        3 面向液基細胞學檢查圖像的融合學習與推理的某類宮頸癌細胞識別

        宮頸癌是一個嚴重的健康問題,全世界每年有近50 萬婦女患此病[19].宮頸癌篩查對于早期預防有著非常重要的作用,而宮頸鱗狀上皮異常對于宮頸癌的診斷有重大意義[20].

        3.1 子特征提取

        根據(jù)宮頸鱗狀上皮細胞圖像和ASC-H 細胞形態(tài)學的專家知識,本文提取出了4個子特征f1~f4,如表3所示.

        表3 ASC-H 細胞子特征表

        本文選擇對宮頸鱗狀上皮異常中的非典型鱗狀細胞-不除外高度鱗狀上皮內(nèi)病變(Atypical Squamous Cells:cannot exclude High-grade squamous intraepithelial lesion,ASC-H)細胞進行識別,以驗證可解釋框架的可行性.ASC-H 細胞識別框架在識別精度上有所提升,同時實現(xiàn)了識別結(jié)果的可解釋性,在醫(yī)師使用該識別框架時,能夠根據(jù)框架給出的解釋選擇是否信任結(jié)果.值得一提的是,宮頸癌篩查的過程中應該避免假陰性,即避免本來病變的細胞被認為是沒有病變的情況.因此,ASC-H 細胞識別框架將疑似ASC-H 也作為識別的一類,以避免漏掉病變細胞.

        3.2 本體庫和規(guī)則庫構(gòu)建

        (1)本體庫O

        本文從有關(guān)ASC-H 細胞形態(tài)方面的醫(yī)學知識中抽取出識別ASC-H 細胞的類和類之間的關(guān)系,并使用OWL 語言構(gòu)建ASC-H 細胞識別本體庫O,構(gòu)建平臺為Protégé.該本體的類信息如表4所示.

        表4中Cell_size、N/C、Nucleus_size、Hyperchromatic為子特征類;ASC-H、Sus-ASC-H、Non-ASC-H為目標特征類.ASC-H 細胞識別本體的屬性信息如表5所示.

        表4 ASC-H 細胞識別本體庫的類信息表

        表5 ASC-H 細胞識別本體庫的屬性信息表

        在Protégé中為4個子特征類添加實例,實例為每個子特征的類別.為Cell_size 添加實體:中等細胞(c_l)、小細胞(c_s),為N/C 添加實體:核質(zhì)比高(nc_l)、核質(zhì)比低(nc_s),為Nucleus_size 添加實體:細胞核增大(nu_l)、細胞核正常(nu_s),為Hyperchromatic 添加實體:細胞核重度深染(h_l)、細胞核輕度深染(h_s).通過上述步驟,ASC-H 細胞識別本體創(chuàng)建完成.

        (2)規(guī)則庫K

        規(guī)則庫K包括4個規(guī)則,由ASC-H的細胞形態(tài)醫(yī)學專家知識轉(zhuǎn)化而來.

        1)規(guī)則1.細胞組成部分的性質(zhì)也是細胞的性質(zhì).SWRL 規(guī)則如rule1 所示:

        rule1:is_part_of(?a,?b) ^ hasProperty(?a,?c) ->hasProperty(?b,?c)

        對規(guī)則1的解析如下:is_part_of(?a,?b)表示a是b的組成部分;hasProperty(?a,?c)表示a 具有c 性質(zhì);hasProperty(?b,?c)表示b 具有c 性質(zhì).

        2)規(guī)則2.細胞形態(tài)中,小細胞、核質(zhì)比高、細胞核增大、細胞核輕度深染全部符合,則認為細胞是ASC-H.SWRL 規(guī)則如rule2 所示:

        rule2:Squamous_epithelial_cell(?t) ^ hasProperty(?t,c_s) ^ hasProperty(?t,nc_l) ^ hasProperty(?t,nu_l) ^hasProperty(?t,h_s) ->ASC-H(?t)

        對規(guī)則2的解析如下:Squamous_epithelial_cell(?t)表示t是Squamous_epithelial_cell 類的一個實例;hasProperty(?t,c_s) 表示t 具有小細胞的性質(zhì);hasProperty(?t,nc_l) 表示t 具有核質(zhì)比高的性質(zhì);hasProperty(?t,nu_l)表示t 具有細胞核增大的性質(zhì);hasProperty(?t,h_s)表示t 具有輕度深染的性質(zhì);ASCH(?t)表示t為ASC-H 細胞.文章后面的SWRL 規(guī)則都與規(guī)則2 類似,因此不再做詳細解析.

        3)規(guī)則3.細胞形態(tài)中,核質(zhì)比高、細胞核增大有任意一項符合,則認為細胞是疑似ASC-H.SWRL 規(guī)則如rule3a、3b 所示:

        rule3a:Squamous_epithelial_cell(?t) ^ hasProperty(?t,nc_l) ->Sus-ASC-H(?t)

        rule3b:Squamous_epithelial_cell(?t) ^ hasProperty(?t,nu_l) ->Sus-ASC-H(?t)

        4)規(guī)則4.細胞形態(tài)中,小細胞、核質(zhì)比高、細胞核增大、細胞核輕度深染全部不符合,則認為細胞不是ASC-H.SWRL 規(guī)則如rule4 所示:

        rule4:Squamous_epithelial_cell(?t) ^ donot-hasPro perty(?t,c_s) ^ donot-hasProperty(?t,nc_l) ^ donot-has Property(?t,nu_l) ^ donot-hasProperty(?t,h_s) ->Non-ASC-H(?t)

        3.3 數(shù)據(jù)集和分類器組構(gòu)建

        (1)數(shù)據(jù)集

        數(shù)據(jù)集D和D1~D4都由數(shù)個大小為128×128的宮頸鱗狀上皮細胞圖像組成.D的標注類別為細胞類型,D1~D4的標注類別依據(jù)子特征f1~f4,如表6所示.

        表6 數(shù)據(jù)集標注類別表

        (2)分類器組

        目標特征分類神經(jīng)網(wǎng)絡(luò)N的架構(gòu)是任意用于分類的神經(jīng)網(wǎng)絡(luò)模型,本文選取了自己搭建的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、變分自編碼器(Variational Auto-Encoder,VAE)、CNN 經(jīng)典模型——VGG19 這3 種模型分別實現(xiàn)3 種目標特征分類器.例如,在使用VAE 作為N的架構(gòu)時,其損失函數(shù)為VAE 理論上的損失函數(shù):

        其中,j是隱變量的維度,μ、σ2是隱變量的變分概率分布的均值和方差.使用數(shù)據(jù)集D對N進行訓練:當經(jīng)過30000 步訓練或 L達到目標值時,停止訓練并保存當前模型.該模型為目標特征分類器C,它將按照ASC-H細胞形態(tài)的整體特征的標準來分類細胞.

        子特征分類神經(jīng)網(wǎng)絡(luò)N1~N4的架構(gòu)是任意用于分類的神經(jīng)網(wǎng)絡(luò)模型,本文均選用CNN 實現(xiàn)4個子特征分類器.子特征分類神經(jīng)網(wǎng)絡(luò)N1~N4均使用交叉熵作為損失函數(shù):

        其中,k是分類的類別數(shù)量,yi為指示變量(0 或1),如果該類別和樣本i的類別相同就是1,否則是0.使用數(shù)據(jù)集D1~D4對N1~N4進行訓練:當經(jīng)過10000 步訓練或 L達到目標值時,停止訓練并保存當前模型.這4個模型為子特征分類器C1~C4,它們分別按照細胞大小、核質(zhì)比高低、細胞核大小、細胞核染色程度的標準來分類細胞.

        那么,分類器組由1個目標特征分類器C和4個子特征分類器C1~C4組成.

        3.4 支持機器學習結(jié)果的知識推理

        假設(shè)將一個待識別細胞圖像t輸入到ASC-H 細胞識別框架,它經(jīng)過分類器組后,目標特征分類器C得到目標特征結(jié)果Rc;子特征分類器C1~C4得到4個子特征結(jié)果R1~R4,將R1~R4映射為ASC-H 細胞識別本體庫O中對應的子特征類(Cell_size、N/C、Nucleus_size、Hyperchromatic)的實體數(shù)據(jù),并基于本體庫O和規(guī)則庫K進行知識推理,得到推理結(jié)果Rr.后續(xù)將對兩個結(jié)果Rc和Rr進行演進,實現(xiàn)結(jié)果的可解釋性.

        3.5 機器學習結(jié)果結(jié)合推理結(jié)果演進

        (1)計算可信度

        計算目標特征結(jié)果Rc的可信度ARc,它為分類器C觀察Rc的概率值P與C 在驗證集上的準確率Acc的幾何平均值.

        計算目標特征結(jié)果Rr的可信度ARr,首先要根據(jù)2.1 節(jié)的方法構(gòu)建目標特征結(jié)果Rr的結(jié)果證據(jù)鏈G.然后,根據(jù)2.2 節(jié)的計算方法,基于結(jié)果證據(jù)鏈G的結(jié)構(gòu),自底向上地計算目標特征結(jié)果Rr的可信度ARr.對于本ASC-H 細胞識別案例,核質(zhì)比高低、細胞核大小這兩個子特征在提取的細胞特征中相對更為重要.因此,本文設(shè)置f1~f4的子特征權(quán)重值分別為:Wf1=0.2,Wf2=0.4,Wf3=0.3,Wf4=0.1.

        (2)分析處理結(jié)果

        根據(jù)Rc、Rr、ARc、ARr的情況,框架如1.5 節(jié)所述的方法做出不同的演進決策.多次實驗表明,將ASC-H細胞識別案例的閾值a取值為0.8 最合適.

        4 驗證ASC-H 細胞識別框架

        驗證集由400個大小為128×128的宮頸鱗狀上皮細胞圖像組成.本文實現(xiàn)了3.3 節(jié)中3 種目標特征分類器.為方便計算每種分類器的評估值,將正類設(shè)為Non-ASC-H,負類設(shè)為Sus-ASC-H和ASC-H的總合.在經(jīng)過不同大小的數(shù)據(jù)集訓練后,每種分類器在驗證集上的準確率、F1 值如表7所示.

        表7 每種分類器的評估值表

        通過框架中支持機器學習結(jié)果的知識推理方法,得到驗證集里每個樣本的推理結(jié)果,并使用文中提出的方法,將每個樣本的目標特征分類器結(jié)果結(jié)合其推理結(jié)果進行演進.每種目標特征分類器在結(jié)合了支持機器學習結(jié)果的知識推理方法進行演進后,準確率和F1 值均有所提升,如表8所示.每種分類器在不同數(shù)據(jù)集大小下演進前后的準確率比較如圖6、圖7、圖8所示.

        圖6 數(shù)據(jù)集大小為1000 時演進前后準確率對比圖

        圖7 數(shù)據(jù)集大小為2000 時演進前后準確率對比圖

        圖8 數(shù)據(jù)集大小為3000 時演進前后準確率對比圖

        表8 每種分類器實現(xiàn)演進后的評估值表

        實驗表明,文中提出的機器學習結(jié)果結(jié)合推理結(jié)果演進方法總會提升目標特征分類器的性能,并且在分類器自身精度較低時,提升的效果更加明顯.當分類器在訓練過程中使用的數(shù)據(jù)量和自身精度都達到了比較飽和的程度時,演進方法對于提升分類器性能方面的作用會較小.通過結(jié)合推理結(jié)果,演進方法總能將目標特征分類器的一部分錯誤結(jié)果剔除,并且在不斷地使用框架對細胞分類時,演進過程也在進行迭代,目標特征分類器將被持續(xù)優(yōu)化.

        本文使用3個具體的實例來驗證ASC-H 細胞識別框架.該框架在應用于醫(yī)學領(lǐng)域時,VAE為最合適的目標特征分類器,因為它在分類細胞的同時將細胞樣本映射為空間分布,便于醫(yī)師在近似分布的細胞圖像群中劃分細胞類型.因此,選擇數(shù)據(jù)集大小為3000的VAE 分類器,它在驗證集上的準確率Acc=0.7925.

        實例a.將一個待識別細胞圖像輸入到ASC-H 細胞識別框架,細胞圖像如圖9(a)所示.它經(jīng)過分類器組后,分類器C得到目標特征結(jié)果Rc為Non-ASC-H;分類器C1~C4得到的4個子特征結(jié)果R1~R4分別為中等細胞、核質(zhì)比低、細胞核正常、細胞核重度深染,結(jié)合R1~R4、ASC-H 細胞識別本體庫O、規(guī)則庫K的rule4規(guī)則進行知識推理,得到推理結(jié)果Rr為Non-ASC-H.

        圖9 待分類細胞圖像

        Rc的可信度ARc=0.84.Rr的結(jié)果證據(jù)鏈G的節(jié)點值如表9所示.

        表9 實例a中Rr 結(jié)果證據(jù)鏈G的節(jié)點值表

        如第2.1 節(jié)所述,規(guī)則庫K的參數(shù)Kr是人為對K的評估值.在本實例中,Kr=0.75.根據(jù)第2.2 節(jié)的計算方法,計算Rr的可信度ARr:

        1)使用式(1)求歸一化系數(shù)S=2.43;

        2)使用式(2)求機器學習部分的可信度Ae=0.77;

        3)使用式(3)得到Rr的可信度ARr=0.76.

        Rc和Rr相同,Rc的可信度ARc高于0.8,Rr的可信度ARr低于0.8.如1.5 節(jié)所述,框架做出細胞為Non-ASC-H的決策,并更加信任得到Rr過程中的分類器C1~C4和規(guī)則庫K,因此人工適當?shù)靥岣呓Y(jié)果證據(jù)鏈G中較低的參數(shù)值,例如Y1、Y4和Kr.

        實例b.將一個待識別細胞圖像輸入到ASC-H 細胞識別框架,細胞圖像如圖9(b)所示.框架得到Rc為Sus-ASC-H;Rr為Non-ASC-H.

        Rc的可信度ARc=0.87.除Pi外,Rr的結(jié)果證據(jù)鏈G的節(jié)點值因?qū)嵗齛 人工修改Y1、Y4和Kr而產(chǎn)生變化,如表10所示.

        表10 實例b中Rr 結(jié)果證據(jù)鏈G的節(jié)點值表

        在本實例中,Kr=0.80.根據(jù)相同計算方法,得到S=2.45、Ae=0.76、ARr=0.78.

        Rc和Rr不同,ARc高于0.8,ARr低于0.8.因此,框架做出細胞為Sus-ASC-H的決策,并優(yōu)化得到Rr的分類器和規(guī)則庫的規(guī)則.根據(jù)結(jié)果證據(jù)鏈G記錄的參數(shù)值,可以發(fā)現(xiàn)基于的規(guī)則庫的可靠性評估值Kr不高,即規(guī)則庫可能存在錯誤;分類器C1的特異度較低,即C1正確判斷中等細胞的概率偏低.根據(jù)Rr失敗的原因,對規(guī)則庫K的規(guī)則進行檢查,如有錯誤進行修正;對C1進行優(yōu)化,以提高框架的分類精度.

        實例c.將一個待識別細胞圖像輸入到ASC-H 細胞識別框架,細胞圖像如圖9(c)所示.框架得到Rc為ASC-H;Rr為ASC-H.

        Rc的可信度ARc=0.85.除Pi外,Rr的結(jié)果證據(jù)鏈G的節(jié)點值因?qū)嵗齜 對規(guī)則庫K和分類器C1優(yōu)化而產(chǎn)生變化,如表11所示.

        表11 實例c中Rr 結(jié)果證據(jù)鏈G的節(jié)點值表

        在本實例中,Kr=0.85.根據(jù)相同計算方法,得到S=2.54、Ae=0.77、ARr=0.81.

        Rc和Rr相同,且兩個結(jié)果的可信度都高于0.8,框架認為Rc和Rr都較為可靠.因此,框架做出細胞為ASC-H的決策,并使用子特征結(jié)果小細胞、核質(zhì)比高、細胞核增大、輕度深染,以及規(guī)則庫K的rule2 規(guī)則,對細胞圖像t為ASC-H 這一決策進行解釋說明.因此,醫(yī)師可以理解框架將此細胞識別為ASC-H的邏輯,并根據(jù)解釋來決定是否相信該識別結(jié)果.

        可以看出,實例b 通過結(jié)果證據(jù)鏈G找到了Rr失敗的原因,基于這些原因?qū)ο鄳牟糠诌M行優(yōu)化后,實例c中框架的分類精度有所提升.在兩個結(jié)果都相同且較為可靠時,框架賦予結(jié)果可解釋性,很大程度上解決了規(guī)則無法反映模型的真實決策情況的問題.

        5 結(jié)論與展望

        本文提出了一種融合機器學習和知識推理的可解釋框架,該框架在提升分類精度的同時,實現(xiàn)了機器學習結(jié)果的可解釋性.通過面向液基細胞學檢查圖像的融合學習與推理的某類宮頸癌細胞識別方法對框架進行驗證,說明該方法可靠可行.所提出的可解釋框架對實現(xiàn)機器學習模型的可解釋性具有一定參考意義.

        猜你喜歡
        規(guī)則特征
        抓住特征巧觀察
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        抓住特征巧觀察
        TPP反腐敗規(guī)則對我國的啟示
        国产男女做爰猛烈视频网站| 男女车车的车车网站w98免费| 97久久超碰国产精品2021 | 久久99中文字幕久久| 男生自撸视频在线观看 | 人妻少妇中文字幕乱码| 少妇人妻在线视频| 国产欧美亚洲另类第一页| 无码在线观看123| 国语自产啪在线观看对白| 国产亚洲一二三区精品| 亚洲日韩精品a∨片无码加勒比 | 亚洲国产成人久久综合一区77 | 色婷婷综合久久久久中文| 九色91精品国产网站| 熟女不卡精品久久av| 91色区在线免费观看国产| 国产欧美一区二区三区在线看| 国产精品麻豆aⅴ人妻| 欧洲AV秘 无码一区二区三| 亚洲第一页视频在线观看 | 国产精品一区二区熟女不卡| 日韩国产精品无码一区二区三区| 久久人妻公开中文字幕| 加勒比黑人在线| 国产亚洲精品视频网站| 美国少妇性xxxx另类| 婷婷五月综合缴情在线视频| 国产毛片A啊久久久久| 亚洲丰满熟女一区二亚洲亚洲 | 中文无码一区二区不卡αv| 亚洲AV无码一区二区三区日日强| 日本口爆吞精在线视频| 亚洲一区在线二区三区| 国产白浆在线免费观看| 国产精品爽黄69天堂a| 亚洲最大无码AV网站观看| 男人天堂插插综合搜索| 日韩人妻无码一区二区三区久久| 亚洲图区欧美| 极品少妇在线观看视频|