趙鵬飛,劉 華
(1. 昆明理工大學(xué)計(jì)算機(jī)重點(diǎn)實(shí)驗(yàn)室,昆明 650500;2. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500;3. 昆明理工大學(xué)人事處,昆明 650501)
隨著現(xiàn)代社會(huì)的不斷進(jìn)步與發(fā)展,各類創(chuàng)傷特別是高能創(chuàng)傷的發(fā)生率逐年遞增[1],且現(xiàn)代創(chuàng)傷中多發(fā)傷多、重傷多、嚴(yán)重并發(fā)癥出現(xiàn)幾率高,給患者的救治提出了新的挑戰(zhàn)。為了更好地實(shí)現(xiàn)院前院內(nèi)救治一體化[2-3],不僅要在院內(nèi)制定科學(xué)合理的救治方案,在院前對(duì)患者制定合理準(zhǔn)確的救治決策同樣具有重要意義。創(chuàng)傷救治決策與具體的傷情救治方案不同,它是在院前根據(jù)患者的創(chuàng)傷嚴(yán)重程度與即時(shí)癥狀表現(xiàn)等因素制定的綜合救治建議,旨在縮短患者入院后的急診停留時(shí)間,使患者盡快得到相應(yīng)級(jí)別的院內(nèi)醫(yī)療救治,有效降低患者的傷殘率與死亡率。然而據(jù)相關(guān)調(diào)查顯示[4],由于不同地域和不同級(jí)別的院前急救人員與醫(yī)生的專業(yè)領(lǐng)域知識(shí)、過往經(jīng)驗(yàn)積累以及個(gè)體主觀認(rèn)知存在差異,給傷情評(píng)估與標(biāo)準(zhǔn)化救治決策的制定帶來了一定阻礙。
多標(biāo)簽學(xué)習(xí)是一類經(jīng)典的監(jiān)督學(xué)習(xí)方法。近年來,隨著相關(guān)研究的不斷深入推進(jìn),多標(biāo)簽學(xué)習(xí)不再局限于文本分類等傳統(tǒng)任務(wù)的驅(qū)動(dòng),在諸多領(lǐng)域的復(fù)雜數(shù)據(jù)分析與疑難問題解決上也取得了優(yōu)良的實(shí)際應(yīng)用效果。例如,F(xiàn)olorunso 等[5]通過建立多標(biāo)簽分類模型并比較不同評(píng)估方法對(duì)尼日利亞精神疾病數(shù)據(jù)進(jìn)行了深度剖析與探究;Wang 等[6]基于多標(biāo)簽學(xué)習(xí)思想提出一種層次認(rèn)知結(jié)構(gòu)學(xué)習(xí)模型(Hierarchical cognitive structure learning model,HCSM),通過在4 個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)了該模型性能優(yōu)于最新的方法;Hou 等[7]提出了一種有效的多標(biāo)簽學(xué)習(xí)方法用于車輛的重新識(shí)別(re-ID),并通過對(duì)比實(shí)驗(yàn)證實(shí)了該方法優(yōu)于現(xiàn)有的多種車輛重新識(shí)別方法。除此之外,多標(biāo)簽學(xué)習(xí)思想也逐漸應(yīng)用于醫(yī)學(xué)影像識(shí)別、生物基因分析和工業(yè)故障診斷等領(lǐng)域的研究[8-10]。
對(duì)于創(chuàng)傷救治決策的制定,傳統(tǒng)的人工制定方法存在不同急救人員與醫(yī)生水平參差不齊、個(gè)人經(jīng)驗(yàn)積累與主觀認(rèn)知差異對(duì)救治決策制定的客觀合理性與準(zhǔn)確性存在影響等缺陷。為了克服上述缺陷并對(duì)患者制定盡可能合理準(zhǔn)確的標(biāo)準(zhǔn)化救治決策,本文基于多標(biāo)簽學(xué)習(xí)思想,將創(chuàng)傷救治整體決策劃分為若干子決策,并將子決策對(duì)應(yīng)的判定因素轉(zhuǎn)化為多標(biāo)簽學(xué)習(xí)的標(biāo)簽集,從而將創(chuàng)傷救治決策制定的問題轉(zhuǎn)化為一個(gè)多標(biāo)簽學(xué)習(xí)任務(wù),通過客觀的人工智能方法進(jìn)行標(biāo)準(zhǔn)化創(chuàng)傷救治決策的預(yù)測(cè)與制定。
對(duì)于多標(biāo)簽算法的選擇,ML-KNN 是由KNN 算法演變而來的一種優(yōu)秀的惰性學(xué)習(xí)算法。與其他各類經(jīng)典多標(biāo)簽學(xué)習(xí)算法相比,ML-KNN 不僅無數(shù)據(jù)輸入假設(shè)、準(zhǔn)確度高,而且對(duì)異常點(diǎn)不敏感,是一種被廣泛接受和采用的多標(biāo)簽學(xué)習(xí)算法。因此,本文在對(duì)各類多標(biāo)簽學(xué)習(xí)算法進(jìn)行深入研究的基礎(chǔ)上,將Classifier Chains 算法[11]的鏈?zhǔn)剿枷肱c多標(biāo)簽K 近鄰(Multi-label K-nearest neighbor,ML-KNN)算法[12]融合,通過對(duì)ML-KNN 算法進(jìn)行改進(jìn),提出一種多標(biāo)簽學(xué)習(xí)算法,稱為層鏈多標(biāo)簽K 近鄰算法(Layer chain ML-KNN,LCML-KNN)。LCML-KNN 屬于高階算法,它根據(jù)專家小組的專業(yè)輔助與指導(dǎo)將標(biāo)簽劃分為兩個(gè)層鏈,第一層鏈模型預(yù)測(cè)完畢后將預(yù)測(cè)標(biāo)簽信息經(jīng)獨(dú)熱編碼后轉(zhuǎn)化為新特征擴(kuò)充數(shù)據(jù)集的樣本維度,擴(kuò)充后的特征信息用于第二層鏈模型的學(xué)習(xí)與預(yù)測(cè)。通過與若干經(jīng)典的多標(biāo)簽學(xué)習(xí)算法以及集成學(xué)習(xí)方法的實(shí)驗(yàn)對(duì)比,證明了LCML-KNN 算法的綜合性能表現(xiàn)最佳,體現(xiàn)了該算法的有效性與優(yōu)越性。
本研究的創(chuàng)新性有:(1)將創(chuàng)傷救治決策制定轉(zhuǎn)化為多標(biāo)簽學(xué)習(xí)任務(wù):對(duì)創(chuàng)傷救治整體決策進(jìn)行子決策的劃分,提取出子決策對(duì)應(yīng)的判定因素并轉(zhuǎn)化為多標(biāo)簽學(xué)習(xí)的標(biāo)簽集,從而將創(chuàng)傷救治決策制定的問題轉(zhuǎn)化為一個(gè)多標(biāo)簽學(xué)習(xí)任務(wù),旨在通過客觀的人工智能方法對(duì)不同創(chuàng)傷患者盡可能給出合理準(zhǔn)確的標(biāo)準(zhǔn)化救治決策預(yù)測(cè)與建議。(2)提出LCML-KNN 算法:為了更好地考慮標(biāo)簽間的關(guān)聯(lián)、挖掘不同標(biāo)簽間的關(guān)系,LCML-KNN 高階算法基于鏈?zhǔn)剿枷雽?biāo)簽集中的標(biāo)簽根據(jù)專家小組的專業(yè)輔助與指導(dǎo)劃分為兩個(gè)層鏈,將第一層鏈的預(yù)測(cè)標(biāo)簽信息經(jīng)獨(dú)熱編碼后轉(zhuǎn)化后為新特征對(duì)數(shù)據(jù)集進(jìn)行樣本維度的擴(kuò)充,隨后用擴(kuò)充后的數(shù)據(jù)集繼續(xù)進(jìn)行第二層鏈模型的學(xué)習(xí)與預(yù)測(cè),相較于現(xiàn)有多標(biāo)簽算法顯示出了更為優(yōu)越的整體性能。
首先通過救治子決策的劃分將子決策對(duì)應(yīng)的判定因素轉(zhuǎn)化為多標(biāo)簽學(xué)習(xí)的標(biāo)簽集,隨后對(duì)不同標(biāo)簽的層鏈劃分進(jìn)行了細(xì)致說明;然后對(duì)多標(biāo)簽學(xué)習(xí)基本概念與常見算法進(jìn)行了簡(jiǎn)要介紹,最后著重介紹了所提出的LCML-KNN 算法的原理與特點(diǎn)。
創(chuàng)傷救治決策是在院前根據(jù)患者的創(chuàng)傷嚴(yán)重程度與即時(shí)癥狀表現(xiàn)等因素制定的綜合救治建議。為了構(gòu)建多標(biāo)簽學(xué)習(xí)的標(biāo)簽集,對(duì)整體救治決策進(jìn)行救治子決策的劃分。對(duì)于子決策劃分,首先要對(duì)患者是否具有救治意義做出準(zhǔn)確判斷,即患者的傷情是否具有生還可能,對(duì)于判定為無生還可能的患者可終止后續(xù)的決策制定與建議。然后對(duì)于具有救治意義的患者應(yīng)對(duì)其傷情嚴(yán)重程度做出客觀準(zhǔn)確的評(píng)估并制定相應(yīng)決策:無大礙的輕傷患者可就近送往社區(qū)醫(yī)院;評(píng)估為嚴(yán)重創(chuàng)傷以及多發(fā)傷的患者,應(yīng)盡快聯(lián)系醫(yī)院急救中心開辟綠色通道,盡可能在“黃金時(shí)間窗口”內(nèi)使其入院救治,降低患者死亡率[13-14]。除此之外,由于創(chuàng)傷是“時(shí)間敏感性”疾?。?5],所以整體救治決策中還包含以下兩個(gè)重要子決策:(1)對(duì)患者是否存在并發(fā)癥或嚴(yán)重癥狀進(jìn)行判斷,根據(jù)具體情況制定相應(yīng)決策并開展必要的院前急救,典型的并發(fā)癥與癥狀包括氣道堵塞、大出血、氣胸和低體溫等[16-17];(2)對(duì)創(chuàng)傷患者特別是嚴(yán)重創(chuàng)傷患者在入院途中和入院后潛在的傷情惡劣演化與并發(fā)癥發(fā)生的風(fēng)險(xiǎn)進(jìn)行合理預(yù)判,并提前制定好相應(yīng)的應(yīng)對(duì)決策與措施。
基于上述4 個(gè)子決策的分析,將4 個(gè)子決策對(duì)應(yīng)的判定因素提取出來,結(jié)果如表1 所示。
表1 子決策對(duì)應(yīng)的判定因素Table 1 Judgment factors corresponding to sub-decisions
最后,將上述4 個(gè)判定因素轉(zhuǎn)化為4 個(gè)標(biāo)簽,表示為L(zhǎng)1、L2、L3和L4,分別對(duì)應(yīng)判定因素1 至4,并由此建立了包含4 個(gè)標(biāo)簽的標(biāo)簽集。標(biāo)簽集的建立流程如圖1 所示。
圖1 標(biāo)簽集的建立流程Fig.1 Flow of establishment of label sets
為了更好地考慮與運(yùn)用標(biāo)簽間關(guān)聯(lián),將標(biāo)簽集中的4 個(gè)標(biāo)簽進(jìn)行了科學(xué)合理的層鏈劃分。具體方法為首先在專家小組的專業(yè)輔助與指導(dǎo)下考慮了不同標(biāo)簽(判定因素)的醫(yī)學(xué)意義及其潛在的相互關(guān)聯(lián)與影響。為了使第一層鏈的標(biāo)簽信息在轉(zhuǎn)化為新特征并擴(kuò)充特征維度后能夠?qū)Φ诙渔湗?biāo)簽的準(zhǔn)確預(yù)測(cè)起到促進(jìn)作用即實(shí)現(xiàn)信息層級(jí)遞進(jìn),將與患者創(chuàng)傷嚴(yán)重性相關(guān)的判定因素1(L1)和判定因素2(L2)放入第一層鏈,將判定因素3(L3)與判定因素4(L4)放入第二層鏈。這樣劃分的原因其一是對(duì)于患者來說,創(chuàng)傷嚴(yán)重程度越重,存在并發(fā)癥或嚴(yán)重癥狀的概率越大,即使當(dāng)前沒有并發(fā)癥出現(xiàn)的重傷患者,其在送院救治過程中出現(xiàn)傷情惡劣演化的風(fēng)險(xiǎn)概率較大;其二是這樣的劃分也符合創(chuàng)傷救治的實(shí)際邏輯,即患者是否具有救治意義及創(chuàng)傷嚴(yán)重程度是需要首先考慮和判斷的,在此判斷的基礎(chǔ)上再進(jìn)一步對(duì)患者是否存在并發(fā)癥或嚴(yán)重癥狀以及有無傷情惡劣演化風(fēng)險(xiǎn)進(jìn)行判斷。綜上所述,在層鏈劃分環(huán)節(jié)將標(biāo)簽L1與L2放入第一層鏈,將標(biāo)簽L3與L4放入第二層鏈,旨在將原本并行的分類器模型進(jìn)行分層處理,目的是充分挖掘標(biāo)簽相關(guān)性。
另外需要說明的是,除了不同層鏈之間存在先后順序之外,處于同一層鏈中的不同標(biāo)簽并沒有先后順序,分類器對(duì)同一層鏈中的標(biāo)簽是同時(shí)進(jìn)行分類預(yù)測(cè)的,即兩個(gè)層鏈的分類器分別對(duì)各自層鏈中的標(biāo)簽進(jìn)行了多標(biāo)簽分類。
在一般的有監(jiān)督學(xué)習(xí)中,樣本包含若干特征向量并對(duì)應(yīng)一個(gè)唯一的標(biāo)簽,稱為單標(biāo)簽學(xué)習(xí)。而在實(shí)際的許多復(fù)雜任務(wù)與問題中,一個(gè)樣本可能同時(shí)與多個(gè)標(biāo)簽相關(guān)聯(lián),通過對(duì)標(biāo)簽集中多個(gè)標(biāo)簽的同時(shí)學(xué)習(xí)來對(duì)新樣本進(jìn)行分類與預(yù)測(cè),這就是多標(biāo)簽學(xué)習(xí)。
基于目前的研究,多標(biāo)簽學(xué)習(xí)算法按照不同的思想可以分為3 類:?jiǎn)栴}轉(zhuǎn)換、算法自適應(yīng)和集成學(xué)習(xí)方法。除此之外,多標(biāo)簽學(xué)習(xí)還可以劃分成如圖2 所示的三大策略:其中一階算法包括Binary Relevance 算法、ML-DT 算法[18]和ML-KNN 算法;二階策略的代表算法包括Rank-SVM 和Calibrated Label Ranking[19];高階算法考慮了多個(gè)標(biāo)簽間的內(nèi)在聯(lián)系,包含Classifier Chains、Label Powerset[20]、ECC 和RAkEL[21]等算法。
圖2 多標(biāo)簽學(xué)習(xí)的不同策略Fig.2 Different strategies for multi-label learning
分類器鏈(Classifier Chains)算法是高階算法,同時(shí)也是一類問題轉(zhuǎn)換方法,其基本思想是將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為若干二分類問題。假設(shè)標(biāo)簽集中的標(biāo)簽總數(shù)為q,分類器鏈生成q個(gè)二進(jìn)制的分類器,鏈中每個(gè)分類器的特征空間用先前分類器的預(yù)測(cè)標(biāo)簽進(jìn)行擴(kuò)充,即鏈中的后續(xù)二進(jìn)制分類器是建立在前置預(yù)測(cè)基礎(chǔ)之上的。圖3 對(duì)Classifier Chains 的原理進(jìn)行了舉例說明,其中X代表輸入空間,Y代表標(biāo)簽。作為高階算法的Classifier Chains 以隨機(jī)鏈序的方式考慮了標(biāo)簽之間的潛在關(guān)聯(lián)性,雖然算法簡(jiǎn)單,但在一定程度上挖掘了不同標(biāo)簽之間的關(guān)系。
圖3 Classifier Chains 算法的原理Fig.3 Principle of Classifier Chains algorithm
ML-KNN 算法是一類惰性學(xué)習(xí)算法也是一階策略算法,針對(duì)多標(biāo)簽學(xué)習(xí)問題由KNN 算法改進(jìn)而來。ML-KNN 算法的思想是通過計(jì)算歐幾里得距離來尋找K個(gè)最近鄰樣本,然后利用最大后驗(yàn)概率(Maximum a posteriori,MAP)準(zhǔn)則和貝葉斯準(zhǔn)則進(jìn)行結(jié)果的判斷與預(yù)測(cè)。ML-KNN 算法的描述如下:
從而對(duì)樣本X是否含有標(biāo)簽l做出判定,并對(duì)訓(xùn)練集樣本的標(biāo)簽屬性進(jìn)行預(yù)測(cè)。
ML-KNN 算法考慮了先驗(yàn)概率,其優(yōu)點(diǎn)是準(zhǔn)確率相對(duì)優(yōu)良且對(duì)異常點(diǎn)不敏感,適用于處理類不均衡的數(shù)據(jù)集。但該算法作為一階策略的算法,其不足之處是完全忽略了標(biāo)簽信息的關(guān)聯(lián)性。
LCML-KNN算法是一種高階算法,由ML-KNN算法改進(jìn)而來,其原理示意圖如圖4 所示。LCML-KNN 首先將不同標(biāo)簽根據(jù)專家指導(dǎo)劃分為兩個(gè)層鏈,第一層鏈的標(biāo)簽包括L1和L2,第二層鏈的標(biāo)簽包括L3和L4,且每個(gè)層鏈的分類器模型都采用ML-KNN 算法;隨后,第一層鏈分類器對(duì)L1和L2預(yù)測(cè)并得到兩個(gè)預(yù)測(cè)標(biāo)簽,將預(yù)測(cè)標(biāo)簽組合經(jīng)獨(dú)熱編碼后轉(zhuǎn)化為新樣本特征擴(kuò)充數(shù)據(jù)集樣本維度;然后用擴(kuò)充后的數(shù)據(jù)集繼續(xù)進(jìn)行第二層鏈分類器的學(xué)習(xí),并得到L3與L4的預(yù)測(cè)標(biāo)簽;最后將兩個(gè)層鏈的4個(gè)預(yù)測(cè)標(biāo)簽進(jìn)行合并就得到了最終的多標(biāo)簽預(yù)測(cè)結(jié)果。
圖4 LCML-KNN 算法的原理Fig.4 Principle of the LCML-KNN algorithm
LCML-KNN 算法的特點(diǎn)如下:
(1)標(biāo)簽層鏈劃分:將不同標(biāo)簽根據(jù)專家小組的輔助與指導(dǎo)劃入兩個(gè)層鏈,在第一層鏈分類器模型預(yù)測(cè)的標(biāo)簽組合輸出后經(jīng)獨(dú)熱編碼轉(zhuǎn)化為新特征,并用擴(kuò)充的數(shù)據(jù)集進(jìn)行第二層鏈分類器模型的學(xué)習(xí)與預(yù)測(cè)。層鏈劃分處理對(duì)預(yù)測(cè)準(zhǔn)確率的提升起到了關(guān)鍵作用。
(2)新特征獨(dú)熱編碼處理:通過對(duì)第一層鏈的預(yù)測(cè)標(biāo)簽組合進(jìn)行獨(dú)熱編碼轉(zhuǎn)化的操作,有效防止了過擬合問題的出現(xiàn)。
(3)更好地考慮標(biāo)簽關(guān)聯(lián)性:LCML-KNN 算法作為一種高階算法,與ML-KNN 等一階算法相比,通過劃分層鏈更好地考慮了標(biāo)簽間的關(guān)聯(lián)性,進(jìn)一步挖掘了全局的標(biāo)簽信息,加深了分類器模型對(duì)數(shù)據(jù)的理解。
為了能夠使分類器得到更多數(shù)據(jù)樣本的充分學(xué)習(xí)與訓(xùn)練,將某軍醫(yī)院校分多次提供的小規(guī)模外科創(chuàng)傷數(shù)據(jù)集整合為了一個(gè)包含3 514 條數(shù)據(jù)的大數(shù)據(jù)集用于研究。該數(shù)據(jù)集包含了各類創(chuàng)傷患者的傷情數(shù)據(jù),從數(shù)據(jù)種類的豐富性與多樣性來看具有良好的創(chuàng)傷種類、傷情情況的數(shù)據(jù)覆蓋性。將數(shù)據(jù)樣本按照8∶2 的比例進(jìn)行了訓(xùn)練集與測(cè)試集的劃分,經(jīng)特征提取后樣本共包含特征24 個(gè),特征中包括了對(duì)救治決策制定起重要參考作用的受傷部位、組織傷型、傷類、并發(fā)癥和包括呼吸頻率與收縮壓之內(nèi)的簡(jiǎn)單生理體征等,且每個(gè)特征都轉(zhuǎn)化為了數(shù)字屬性并經(jīng)過了標(biāo)準(zhǔn)的離散化處理。多標(biāo)簽學(xué)習(xí)的標(biāo)簽集共包含4 個(gè)標(biāo)簽,分別對(duì)應(yīng)4 個(gè)判定因素L1、L2、L3和L4。
為了對(duì)本文所使用的數(shù)據(jù)進(jìn)行更為深入的挖掘與了解,接下來從多角度對(duì)數(shù)據(jù)的相關(guān)統(tǒng)計(jì)展開計(jì)算與分析。在分析之前預(yù)先定義以下符號(hào):D代表數(shù)據(jù)集;p為數(shù)據(jù)集樣本總數(shù);q為標(biāo)簽總數(shù);Yi是與樣本實(shí)例xi相關(guān)的標(biāo)簽序列;d表示特征的數(shù)量。
(1)標(biāo)簽基數(shù)
標(biāo)簽基數(shù)(Label Cardinality)是數(shù)據(jù)集中每個(gè)實(shí)例的標(biāo)簽平均數(shù)量,是一個(gè)標(biāo)準(zhǔn)度量,在一定程度上反映了總體樣本的標(biāo)簽稀疏情況[22],其表達(dá)式為
(4)數(shù)據(jù)復(fù)雜度
數(shù)據(jù)復(fù)雜度(Complexity)定義為樣本總數(shù)p、特征數(shù)量d和標(biāo)簽總數(shù)q三者的乘積,反映了多標(biāo)簽數(shù)據(jù)集的整體復(fù)雜程度,計(jì)算公式為數(shù)據(jù)的相關(guān)統(tǒng)計(jì)分析結(jié)果在表2 中進(jìn)行了詳細(xì)展示,其中n表示特征屬性為數(shù)字屬性。
表2 數(shù)據(jù)的相關(guān)統(tǒng)計(jì)分析Table 2 Relevant statistical analysis of data
在實(shí)驗(yàn)環(huán)節(jié),首先確定了評(píng)價(jià)各類算法性能的多標(biāo)簽學(xué)習(xí)評(píng)價(jià)指標(biāo)。隨后,設(shè)置了3 組對(duì)比實(shí)驗(yàn),分別令LCML-KNN 算法與經(jīng)典的多標(biāo)簽算法、經(jīng)典的集成學(xué)習(xí)算法RAkEL 和ML-KNN 算法進(jìn)行實(shí)驗(yàn)對(duì)比來探究LCML-KNN 算法的整體性能表現(xiàn)。接下來,為了進(jìn)一步驗(yàn)證算法的魯棒性和優(yōu)越性,在同屬于創(chuàng)傷類數(shù)據(jù)集的一個(gè)戰(zhàn)爭(zhēng)創(chuàng)傷數(shù)據(jù)集上進(jìn)行了不同算法的對(duì)比實(shí)驗(yàn)。最后,對(duì)兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行了總結(jié)分析與討論。
為了對(duì)各類算法的性能進(jìn)行科學(xué)的綜合評(píng)價(jià),針對(duì)該多標(biāo)簽學(xué)習(xí)任務(wù)的特點(diǎn),選取了以下5 個(gè)整體評(píng)價(jià)指標(biāo):漢明損失(Hloss)、平均準(zhǔn)確率(Average_acc)、平均精度(Average_pre)、F1-score 以及AUC值。評(píng)價(jià)指標(biāo)的部分公式如下
式中:Fβ為平均精度和平均召回率的加權(quán)調(diào)和平均值,precision(h)代表平均精度,recall(h)代表平均召回率。為了求取F1-score,參數(shù)β的值設(shè)定為1。
在第1 組對(duì)比實(shí)驗(yàn)中,將LCML-KNN 與常見的經(jīng)典多標(biāo)簽學(xué)習(xí)算法進(jìn)行對(duì)比。具體來說,選取Binary Relevance(BR)、Label Powerset(LP)和Classifier Chains(CC)3 種算法作為對(duì)照,對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。
表3 LCML-KNN 與各類算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results between LCML-KNN and various algorithms
從表3 中可以看出,Classifier Chains 的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于Binary Relevance 和Label Powerset。這是因?yàn)镃lassifier Chains 通過鏈?zhǔn)剿枷肟紤]了標(biāo)簽之間的潛在關(guān)聯(lián)性,即每預(yù)測(cè)完一個(gè)標(biāo)簽便將其作為新特征對(duì)特征空間進(jìn)行擴(kuò)充。但是,這3 種算法的評(píng)價(jià)指標(biāo)表現(xiàn)均不如LCML-KNN,即使是考慮了標(biāo)簽關(guān)聯(lián)性的Classifier Chains 算法,其平均準(zhǔn)確率與平均精度較LCML-KNN 也分別低了1.55%和1.2%。
在第2 組對(duì)比實(shí)驗(yàn)中,將LCML-KNN 與RAkEL 集成學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn)對(duì)比。
RAkEL 即隨機(jī)k標(biāo)簽集(Randomk-labelsets)算法,是一種性能優(yōu)良的集成學(xué)習(xí)方法。它的原理是將標(biāo)簽集隨機(jī)劃分為若干個(gè)標(biāo)簽子集,然后選擇n個(gè)隨機(jī)的k標(biāo)簽集并學(xué)習(xí)n個(gè)LP 分類器,每個(gè)LP 分類器為自己對(duì)應(yīng)的k標(biāo)簽集中的每個(gè)標(biāo)簽提供分類預(yù)測(cè),最后集成這n個(gè)LP 分類器得到最終預(yù)測(cè)。對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。
從表3 的各評(píng)價(jià)指標(biāo)表現(xiàn)可以看出,雖然LCML-KNN 在漢明損失、平均準(zhǔn)確率、平均精度和AUC值的性能表現(xiàn)更佳,但是F1-score 指標(biāo)的表現(xiàn)與RAkEL 相比有細(xì)微差距。但從整體來看,LCML-KNN的綜合性能表現(xiàn)是更優(yōu)的,其原因是雖然RAkEL 是一種優(yōu)良的集成學(xué)習(xí)算法,但相較于LCML-KNN而言并沒有考慮標(biāo)簽信息,沒有挖掘標(biāo)簽間的潛在關(guān)聯(lián)性。
由于本文提出的LCML-KNN 算法是基于分類器鏈的鏈?zhǔn)剿枷雽?duì)ML-KNN 改進(jìn)而來的,因此在第3 組對(duì)比實(shí)驗(yàn)中,將LCML-KNN 與ML-KNN 進(jìn)行綜合性能的比較。實(shí)驗(yàn)結(jié)果如表3 所示。
從表3 的各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果可知,屬于高階算法的LCML-KNN 在5 個(gè)評(píng)價(jià)指標(biāo)中有4 個(gè)要比MLKNN 好,特別是重要的平均準(zhǔn)確率的結(jié)果要高于ML-KNN 0.8%。而ML-KNN 算法僅在F1-score 這一項(xiàng)指標(biāo)上的表現(xiàn)要略高于LCML-KNN 0.37%。因此,所提出的LCML-KNN 算法在綜合性能表現(xiàn)上要好于傳統(tǒng)的ML-KNN 算法,體現(xiàn)了LCML-KNN 的優(yōu)越性。
LCML-KNN 的整體性能之所以要比ML-KNN 好是因?yàn)長(zhǎng)CML-KNN 充分考慮與挖掘了標(biāo)簽間的關(guān)聯(lián)性,并根據(jù)標(biāo)簽集中不同標(biāo)簽的特點(diǎn)將其進(jìn)行了層鏈劃分處理,而ML-KNN 則是完全忽略標(biāo)簽間的關(guān)聯(lián)。
為了進(jìn)一步驗(yàn)證LCML-KNN 算法的魯棒性和優(yōu)越性,本文在同屬于創(chuàng)傷類數(shù)據(jù)集的另一個(gè)戰(zhàn)爭(zhēng)創(chuàng)傷數(shù)據(jù)集上同樣進(jìn)行了不同算法的對(duì)比實(shí)驗(yàn)。
該戰(zhàn)爭(zhēng)創(chuàng)傷數(shù)據(jù)集共包含可用數(shù)據(jù)1 216 條,樣本特征維數(shù)為26,按照同樣8∶2 的比例對(duì)數(shù)據(jù)樣本進(jìn)行訓(xùn)練集與測(cè)試集的劃分,每個(gè)特征都轉(zhuǎn)化為數(shù)字屬性并經(jīng)過標(biāo)準(zhǔn)的離散化處理。對(duì)于標(biāo)簽集,因?yàn)閼?zhàn)爭(zhēng)創(chuàng)傷救治考慮的判定因素與外科創(chuàng)傷救治的判定因素不盡相同,因此標(biāo)簽集包含同樣的4 個(gè)標(biāo)簽,分別對(duì)應(yīng)4 個(gè)重要判定因素L1、L2、L3和L4。對(duì)比實(shí)驗(yàn)結(jié)果如表4 所示。
表4 LCML-KNN 與各類算法在戰(zhàn)爭(zhēng)創(chuàng)傷數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results between LCML-KNN and various algorithms on the war trauma dataset
從表4 的實(shí)驗(yàn)結(jié)果中可以看出,所提出的LCML-KNN 算法在各項(xiàng)評(píng)價(jià)指標(biāo)的性能表現(xiàn)上均優(yōu)于其他傳統(tǒng)的多標(biāo)簽學(xué)習(xí)算法,從而進(jìn)一步有力驗(yàn)證了LCML-KNN 算法的魯棒性和優(yōu)越性。
通過上述兩個(gè)數(shù)據(jù)集的不同算法的對(duì)比實(shí)驗(yàn),全面而客觀地驗(yàn)證了本文所提出的LCML-KNN 算法的魯棒性與優(yōu)越性。LCML-KNN 通過鏈?zhǔn)剿枷雽⒆記Q策對(duì)應(yīng)的判定因素進(jìn)行了層鏈劃分,充分挖掘了不同標(biāo)簽間的關(guān)聯(lián)性,對(duì)標(biāo)簽信息有了更為詳實(shí)的了解,是準(zhǔn)確率提升的關(guān)鍵。同時(shí),第一層鏈預(yù)測(cè)標(biāo)簽的特征轉(zhuǎn)化不僅擴(kuò)充了原始數(shù)據(jù)的特征維度、豐富了可用的數(shù)據(jù)信息,而且數(shù)據(jù)標(biāo)簽信息的層級(jí)遞進(jìn)預(yù)測(cè)也使分類器模型能夠更為透徹地學(xué)習(xí)與理解數(shù)據(jù)特征,提升模型性能。其次,對(duì)第一層鏈的預(yù)測(cè)信息進(jìn)行獨(dú)熱編碼操作能夠有效地避免過擬合風(fēng)險(xiǎn)的發(fā)生,保證了第二層鏈分類器模型的預(yù)測(cè)質(zhì)量。
最后需要說明的是,層鏈劃分操作雖然可以使分類器整體性能得到有效提升,但與Classifier Chains算法一樣,由于分層處理對(duì)算法準(zhǔn)確率要求更高,為了避免第一層鏈分類器模型的預(yù)測(cè)錯(cuò)誤沿鏈向后傳播而影響第二層鏈分類器模型的性能,在層鏈劃分時(shí)需盡可能地對(duì)所采用數(shù)據(jù)集的標(biāo)簽信息以及標(biāo)簽關(guān)聯(lián)性進(jìn)行深入挖掘與專業(yè)分析,以確保層鏈的科學(xué)劃分。對(duì)于本研究,在層鏈劃分時(shí)通過專家小組介入的方式確保了層鏈劃分的合理性和專業(yè)性,進(jìn)而保證了整體性能特別是準(zhǔn)確率的有效提升。
為了改善傳統(tǒng)人工制定創(chuàng)傷救治決策的缺陷與不足,本文基于多標(biāo)簽學(xué)習(xí)思想,在對(duì)創(chuàng)傷救治決策進(jìn)行深入分析與研究的基礎(chǔ)上,對(duì)救治決策進(jìn)行了子決策劃分,并提取出子決策對(duì)應(yīng)的判定因素轉(zhuǎn)化為多標(biāo)簽學(xué)習(xí)的標(biāo)簽集。接下來,為了更好地挖掘數(shù)據(jù)信息與標(biāo)簽間的關(guān)聯(lián),將Classifier Chains 算法的鏈?zhǔn)剿枷肱cML-KNN 算法進(jìn)行了融合,提出一種層鏈多標(biāo)簽學(xué)習(xí)算法LCML-KNN。LCMLKNN 根據(jù)專家小組指導(dǎo)將不同標(biāo)簽進(jìn)行了層鏈劃分處理,在第一層鏈的預(yù)測(cè)標(biāo)簽信息輸出后經(jīng)獨(dú)熱編碼轉(zhuǎn)化為新特征擴(kuò)充了數(shù)據(jù)特征維度,并將擴(kuò)充后的數(shù)據(jù)集代入第二層鏈分類器進(jìn)行進(jìn)一步的學(xué)習(xí)與預(yù)測(cè)。通過在兩個(gè)數(shù)據(jù)集上的各類多標(biāo)簽學(xué)習(xí)算法的實(shí)驗(yàn)對(duì)比,全面而客觀地驗(yàn)證了LCML-KNN 算法的魯棒性和優(yōu)越性。
在未來研究中,為了進(jìn)一步提升決策制定的準(zhǔn)確性與合理性,一方面可以通過進(jìn)一步挖掘現(xiàn)有標(biāo)簽的潛在關(guān)聯(lián)來提升LCML-KNN 算法性能,另一方面可以對(duì)救治決策進(jìn)行更為細(xì)致科學(xué)的子決策劃分并提取對(duì)應(yīng)的判定因素。