王莉莉,付忠良,陶 攀,朱 鍇
(1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041; 2.中國(guó)科學(xué)院大學(xué),北京 100049)
(*通信作者電子郵箱wanglili8773@163.com)
基于多分類AdaBoost改進(jìn)算法的TEE標(biāo)準(zhǔn)切面分類
王莉莉1,2*,付忠良1,2,陶 攀1,2,朱 鍇1,2
(1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041; 2.中國(guó)科學(xué)院大學(xué),北京 100049)
(*通信作者電子郵箱wanglili8773@163.com)
針對(duì)超聲圖像樣本冗余、不同標(biāo)準(zhǔn)切面因疾病導(dǎo)致的高度相似性、感興趣區(qū)域定位不準(zhǔn)確問(wèn)題,提出一種結(jié)合特征袋(BOF)特征、主動(dòng)學(xué)習(xí)方法和多分類AdaBoost改進(jìn)算法的經(jīng)食管超聲心動(dòng)圖(TEE)標(biāo)準(zhǔn)切面分類方法。首先采用BOF方法對(duì)超聲圖像進(jìn)行描述;然后采用主動(dòng)學(xué)習(xí)方法選擇對(duì)分類器最有價(jià)值的樣本作為訓(xùn)練集;最后,在AdaBoost算法對(duì)弱分類器的迭代訓(xùn)練中,根據(jù)臨時(shí)強(qiáng)分類器的分類情況調(diào)整樣本更新規(guī)則,實(shí)現(xiàn)對(duì)多分類AdaBoost算法的改進(jìn)和TEE標(biāo)準(zhǔn)切面的分類。在TEE數(shù)據(jù)集和三個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)表明,相比AdaBoost.SAMME算法、多分類支持向量機(jī)(SVM)算法、BP神經(jīng)網(wǎng)絡(luò)和AdaBoost.M2算法,所提算法在各個(gè)數(shù)據(jù)集上的G-mean指標(biāo)、整體分類準(zhǔn)確率和大多數(shù)類別分類準(zhǔn)確率都有不同程度的提升,且比較難分的類別分類準(zhǔn)確率提升最為顯著。實(shí)驗(yàn)結(jié)果表明,在包含類間相似樣本的數(shù)據(jù)集上,分類器的性能有顯著提升。
多分類AdaBoost;主動(dòng)學(xué)習(xí);特征袋模型;標(biāo)準(zhǔn)切面分類;超聲圖像分類
目前,經(jīng)食管超聲心動(dòng)圖(TransEsophageal Echocardiography, TEE)已被廣泛應(yīng)用于各種心臟疾病的診斷和術(shù)中監(jiān)測(cè)中,不同的標(biāo)準(zhǔn)切面在疾病診斷中起著不同的作用。近年來(lái),研究者們采用監(jiān)督學(xué)習(xí)的方法對(duì)標(biāo)準(zhǔn)切面進(jìn)行自動(dòng)識(shí)別[1-4],文獻(xiàn)[5]基于尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)特征和稀疏編碼構(gòu)造超聲心動(dòng)圖視頻詞典,構(gòu)建詞袋(Bag of Words, BOW)模型,通過(guò)多類別支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)多個(gè)標(biāo)準(zhǔn)切面的自動(dòng)識(shí)別。文獻(xiàn)[6]把不同的標(biāo)準(zhǔn)切面看作不同的人臉目標(biāo),通過(guò)手動(dòng)定位出左心室位置來(lái)調(diào)整數(shù)據(jù),使用多分類Boosting算法提取Harr-like特征,實(shí)現(xiàn)了對(duì)二維超聲心動(dòng)圖標(biāo)準(zhǔn)切面分類。文獻(xiàn)[7]基于知識(shí)庫(kù)方法,采用Probabilistic Boosting Tree (PBT) 檢測(cè)器,使用Harr-like 特征,采取由粗到細(xì)策略實(shí)現(xiàn)標(biāo)準(zhǔn)切面的識(shí)別,進(jìn)而實(shí)現(xiàn)三維超聲心動(dòng)圖標(biāo)準(zhǔn)切面的自動(dòng)檢測(cè)。
不同病人心臟大小不同,不同疾病造成的心臟形狀、腔室輪廓不同,且超聲圖像的對(duì)比度和分辨率較低,夾雜斑點(diǎn)噪聲,這些都使得感興趣區(qū)域(Region of Interest, ROI)的自動(dòng)分割非常困難,也會(huì)影響全局特征的提取,并進(jìn)一步影響到分類性能。特征袋(Bag of Features, BOF)[8-9]是一種高層語(yǔ)義特征,能夠避免ROI定位不準(zhǔn)確問(wèn)題, BOF模型采用加速魯棒特征(Speeded Up Robust Feature, SURF)[10]算法提取局部特征,與SIFT特征相比,SURF算法執(zhí)行效率更高,在醫(yī)療領(lǐng)域中也取得了一些成果[11-12]。
超聲圖像容易出現(xiàn)大量的樣本冗余問(wèn)題,訓(xùn)練集樣本的選擇對(duì)分類器的分類性能影響很大。主動(dòng)學(xué)習(xí)的思想最初是用來(lái)解決無(wú)標(biāo)記樣本數(shù)量大、且標(biāo)記代價(jià)高的問(wèn)題,其本質(zhì)是有效的樣本選擇策略。文獻(xiàn)[13]采用主動(dòng)學(xué)習(xí)方法構(gòu)造平衡的訓(xùn)練集,并提出了一種基于SVM的主動(dòng)學(xué)習(xí)樣本選擇策略,能用較少的樣本獲得較高的分類性能;但是主動(dòng)學(xué)習(xí)需要迭代多次選擇最有價(jià)值的樣本,進(jìn)行多次模型訓(xùn)練,而SVM的非線性模型優(yōu)化過(guò)程對(duì)計(jì)算和存儲(chǔ)要求太高。AdaBoost (Adaptive Boosting)算法[14]是一種集成學(xué)習(xí)方法,可以將重心放在ROI特征上,避免背景區(qū)域特征影響分類器性能。因此可以考慮將BOF模型、主動(dòng)學(xué)習(xí)方法和AdaBoost算法進(jìn)行結(jié)合,實(shí)現(xiàn)圖像描述、訓(xùn)練集樣本選擇和分類器模型構(gòu)建。
標(biāo)準(zhǔn)切面自動(dòng)識(shí)別問(wèn)題屬于典型的多分類問(wèn)題,多分類問(wèn)題的解決方法主要包括兩種類型:一種是將多分類問(wèn)題分解為多個(gè)二分類問(wèn)題;另一種是直接修改算法,使之能適應(yīng)多分類問(wèn)題。多分類SVM算法[15]是采用分解法把多分類問(wèn)題分解為二分類問(wèn)題,將二分類SVM擴(kuò)展到多類別分類問(wèn)題中;AdaBoost.M2算法[16]采用一對(duì)一分解策略,將二分類AdaBoost擴(kuò)展到多分類問(wèn)題中;AdaBoost.SAMME算法[17]是采用CART、C4.5等能直接解決多分類問(wèn)題的算法作為弱分類器,將二分類AdaBoost算法直接推廣到多分類問(wèn)題中。標(biāo)準(zhǔn)切面識(shí)別中,因疾病類型不同,類間樣本存在一定的相似性,影響分類器性能。對(duì)于相似性高的標(biāo)簽給予不同的錯(cuò)分代價(jià),可將標(biāo)簽相似問(wèn)題轉(zhuǎn)化為代價(jià)敏感問(wèn)題解決。文獻(xiàn)[18-19]在AdaBoost算法中引入標(biāo)簽相關(guān)性,對(duì)弱分類器構(gòu)造方法和權(quán)重調(diào)整規(guī)則進(jìn)行改進(jìn)。本文在多分類AdaBoost算法對(duì)弱分類器的迭代訓(xùn)練中,綜合已訓(xùn)練所得的臨時(shí)強(qiáng)分類器的分類情況,動(dòng)態(tài)調(diào)整樣本的錯(cuò)分代價(jià),對(duì)多分類 AdaBoost算法進(jìn)行改進(jìn),能綜合提高標(biāo)準(zhǔn)切面的分類性能。
在疾病診斷中最基本且最常用的三個(gè)標(biāo)準(zhǔn)切面是四腔心(four Chamber, 4C)、右室流入流出道(Right Ventricle Inflow-Outflow, RV IO)和左室長(zhǎng)軸(Left ventricular long AXis, LAX),如圖1所示。圖像包括背景區(qū)域和ROI區(qū)域,為避免ROI定位不準(zhǔn)確問(wèn)題,本文采用BOF模型完成對(duì)超聲圖像的特征描述,最后采用多分類AdaBoost改進(jìn)算法構(gòu)建分類器對(duì)標(biāo)準(zhǔn)切面進(jìn)行分類。
圖1 疾病診斷中最基本的三個(gè)標(biāo)準(zhǔn)切面Fig. 1 The three most basic standard planes in disease diagnosis
1.1 圖像預(yù)處理
儀器采集的超聲圖像的四周,包含儀器自身所標(biāo)注的文字、圖標(biāo)等相關(guān)信息,為便于后續(xù)步驟中特征提取,采用形態(tài)學(xué)濾波方法提取出包含有效信息的超聲子圖。式(1)~(4)為自定義掩膜。
(1)
(2)
(3)
(4)
采用形態(tài)學(xué)掩膜mask1和mask2進(jìn)行濾波,則在經(jīng)食管超聲圖像左側(cè)邊緣處和右側(cè)邊緣處得到的結(jié)果最大;然后采用掩膜mask3和mask4進(jìn)行濾波,則在兩個(gè)直角邊緣處得到結(jié)果最大。如圖2(a)所示為四腔心切面原圖,圖2(b)所示是對(duì)圖2(a)預(yù)處理后的結(jié)果。
圖2 圖像預(yù)處理結(jié)果Fig. 2 Image preprocessing results
1.2 BOF模型構(gòu)建
BOF的基本思想是將圖像看作相互獨(dú)立的圖像塊的集合,為每個(gè)圖像塊提取描述向量;對(duì)訓(xùn)練集的特征向量進(jìn)行聚類,生成一個(gè)包含視覺單詞的詞典;根據(jù)詞典對(duì)圖像中的描述向量進(jìn)行加權(quán)統(tǒng)計(jì),生成特征直方圖向量,該向量即代表整個(gè)圖像,完成對(duì)圖像的特征表達(dá)。
BOF構(gòu)建過(guò)程主要涉及以下步驟:
1)檢測(cè)圖像塊并生成描述向量。檢測(cè)圖像塊的常見方法有密集采樣法、隨機(jī)采樣法和網(wǎng)格劃分法等,本文使用網(wǎng)格劃分法。常見的描述算子有SIFT、PCA-SIFT (Principal Components Analysis-Scale Invariant Feature Transform)和SURF等,本文使用SURF描述算子。
2)應(yīng)用聚類算法將圖像塊描述算子聚類為視覺詞匯,常見的聚類算法有K-means等。
3)使用一種加權(quán)策略,如TF-IDF(Term Frequency-Inverse Document Frequency)加權(quán)技術(shù),將圖像的描述算子映射到視覺詞匯中,然后進(jìn)行步加權(quán)、歸一化。
1.3 基于主動(dòng)學(xué)習(xí)方法的訓(xùn)練集選擇
TEE標(biāo)準(zhǔn)切面存在大量的冗余樣本,采用主動(dòng)學(xué)習(xí)方法進(jìn)行樣本選擇。對(duì)于AdaBoost算法采用基于Margin策略的不確定性來(lái)選擇訓(xùn)練集樣本,如式(5)所示:
(5)
基于Margin策略的訓(xùn)練集樣本選擇流程:
輸入 有標(biāo)注樣本集X={(x1,y1),(x2,y2),…,(xm,ym)},其中yi∈{1,2,…,K},初始訓(xùn)練集L1,非訓(xùn)練集U1=XL1;
Fork=1,2,…,iter
1)
在訓(xùn)練集Lk上訓(xùn)練多分類AdaBoost分類器f;
2)
用分類器f對(duì)非訓(xùn)練集Uk中樣本預(yù)測(cè),如果分類模型滿足停止條件,循環(huán)終止;
3)
對(duì)Uk中每個(gè)樣本計(jì)算f(x,l1)-f(x,l2),l1和l2分別是最具有最大和第二大值的置信度輸出值,選擇最小的N個(gè)樣本,記為S;
4)
更新Lk+1=Lk∪S,Uk+1=UkS;
End
輸出 訓(xùn)練集L。
2.1 多分類AdaBoost改進(jìn)算法原理
訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xn,yn)},其中yi∈{1,2,…,K},集成學(xué)習(xí)算法通常指通過(guò)某種方式得到T個(gè)弱分類器ht(x):X×Y→[0,1]和弱分類器權(quán)重αt,然后進(jìn)行組合得到強(qiáng)分類器,即:
(6)
強(qiáng)分類器的輸出為:
(7)
訓(xùn)練到第t個(gè)弱分類器時(shí),可以得到臨時(shí)強(qiáng)分類器:
(8)
調(diào)用ft臨時(shí)強(qiáng)分類器對(duì)訓(xùn)練樣本集X進(jìn)行分類,若標(biāo)簽yi被錯(cuò)分為標(biāo)簽l的概率Pt(yi,l)>thresh(閾值),則可以認(rèn)為標(biāo)簽l是標(biāo)簽yi的相似標(biāo)簽,此時(shí)令St(yi,l)=1,否則St(yi,l)=0,如此可得標(biāo)簽相似性矩陣St。如果標(biāo)簽l是標(biāo)簽yi的相似標(biāo)簽,令ct(yi,l)=c2,否則令ct(yi,l)=c1,如此可得動(dòng)態(tài)代價(jià)矩陣Ct。
分類算法總是希望平均錯(cuò)分代價(jià)最小,即希望式(9)最小:
(9)
其中:當(dāng)條件π滿足時(shí),δ(π)為1,否則為0;c(yi,l)表示標(biāo)簽為yi的樣本xi錯(cuò)分為l的代價(jià)。假設(shè)權(quán)重更新參數(shù)αt>0,結(jié)合動(dòng)態(tài)代價(jià)矩陣得到改進(jìn)的多分類AdaBoost算法如下:
輸入 訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xn,yn)},樣本權(quán)重D,弱分類器h:X×Y→R,迭代次數(shù)T;
初始化: D1(i)=1/n,其中i=1,2,…,n;
Fort=1,2,…,T
1)
根據(jù)樣本分布Dt,訓(xùn)練弱分類器ht:X×Y→R。
2)
根據(jù)臨時(shí)強(qiáng)分類器:
計(jì)算動(dòng)態(tài)標(biāo)簽相似性矩陣St,若t=1,則令S1=I(K×K),I(K×K)為K階單位矩陣。
3)
對(duì)動(dòng)態(tài)代價(jià)矩陣Ct賦值:若l≠yi,且St(yi,l)=1,則令ct(yi,l)=c2,否則ct(yi,l)=c1,其中c1,c2>0。
4)
計(jì)算弱分類器權(quán)重αt。
5)
更新權(quán)重:
其中:
2.2 訓(xùn)練誤差有界性驗(yàn)證
證明 根據(jù)權(quán)值更新公式可得:
DT(i)=
故有:
2.3 計(jì)算弱分類器權(quán)重αt
假設(shè)ht:X×Y→R,根據(jù)文獻(xiàn)[15]的證明,由于:
2.4 錯(cuò)分代價(jià)動(dòng)態(tài)性
本文算法根據(jù)臨時(shí)強(qiáng)分類器的分類情況,可以獲得動(dòng)態(tài)的標(biāo)簽相似矩陣,在權(quán)值更新中,需要根據(jù)標(biāo)簽相似矩陣和c1,c2>0的值對(duì)錯(cuò)分代價(jià)矩陣Ct進(jìn)行動(dòng)態(tài)賦值。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)使用TEE標(biāo)準(zhǔn)切面數(shù)據(jù)集和三個(gè)UCI數(shù)據(jù)集。其中,TEE數(shù)據(jù)集中所有圖像來(lái)自華西醫(yī)院麻醉科,大多數(shù)均是患有疾病的超聲圖像,圖像采集數(shù)據(jù)以視頻格式存在,選取視頻中能包含一個(gè)心動(dòng)周期的連續(xù)6~7幀圖像作為圖像樣本集,為避免重疊,測(cè)試集和訓(xùn)練集分別來(lái)自不同的視頻。實(shí)驗(yàn)數(shù)據(jù)詳細(xì)情況如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集Tab. 1 Experimental data sets
3.2 在TEE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
3.2.1 訓(xùn)練集選擇
初始訓(xùn)練集L1的選擇:在全部訓(xùn)練集上訓(xùn)練多分類AdaBoost分類器f,然后調(diào)用分類器f對(duì)訓(xùn)練集中全部樣本進(jìn)行預(yù)測(cè),對(duì)每個(gè)樣本計(jì)算f(x,l1)-f(x,l2),其中l(wèi)1和l2分別是最具有最大和第二大值的置信度輸出值,對(duì)每個(gè)類別選擇f(x,l1)-f(x,l2)值最小的100個(gè)樣本,共得到300個(gè)樣本作為初始訓(xùn)練集。
訓(xùn)練集選擇過(guò)程:每次迭代選擇20個(gè)最有價(jià)值的樣本加入訓(xùn)練集,共迭代50次,或滿足停止條件。
4C、RV IO和LAX的原始訓(xùn)練集樣本數(shù)均為1 000,新的訓(xùn)練集樣本數(shù)分別為300、320和340。
3.2.2 實(shí)驗(yàn)設(shè)置
本文在實(shí)驗(yàn)過(guò)程中采用stump決策樹作為弱分類器,共訓(xùn)練30個(gè)弱分類器。主要對(duì)以下兩個(gè)方面進(jìn)行實(shí)驗(yàn): 1)參數(shù)thresh、c1和c2的選擇; 2)本文算法與AdaBoost.M2算法(簡(jiǎn)寫為Ada.M2)、多分類SVM算法、AdaBoost.SAMME算法(簡(jiǎn)寫為Ada.SAMME)、BP神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)寫為BP-Net)算法進(jìn)行比較。
在對(duì)參數(shù)thresh、c1和c2的最優(yōu)選擇實(shí)驗(yàn)時(shí),在[0.01,0.3]區(qū)間內(nèi)以步長(zhǎng)0.01變化,動(dòng)態(tài)錯(cuò)分代價(jià)矩陣中c1、c2值的確定通過(guò)征集10位醫(yī)學(xué)專家的意見,得到了10個(gè)不同的c1、c2值,通過(guò)升序排列,形成一個(gè)[0.1,10]的錯(cuò)分類代價(jià)區(qū)間。在實(shí)驗(yàn)時(shí)認(rèn)為對(duì)于任何屬于[0.1,10]區(qū)間里的c1、c2都是可行的,步長(zhǎng)設(shè)為0.1。
3.2.3 性能評(píng)價(jià)指標(biāo)
本文采用G-mean指標(biāo)、Accuracy和各類別的分類準(zhǔn)確率評(píng)價(jià)分類器的性能。
令ni表示屬于類別li的樣本總數(shù),K為類別個(gè)數(shù),cm(li,lj)表示類別為li的樣本被判斷為類別lj的個(gè)數(shù),則類別li的分類準(zhǔn)確率可定義為:
G-mean定義為:
Accuracy定義為:
3.2.4 實(shí)驗(yàn)對(duì)比結(jié)果
通過(guò)實(shí)驗(yàn)可知,當(dāng)thresh=0.03,c1=6.9,c2=1.3時(shí)總體識(shí)別性能最優(yōu),此時(shí)與Ada.M2算法、多分類SVM算法、AdaBoost.SAMME算法、BP-Net進(jìn)行比較,每個(gè)類別的分類準(zhǔn)確率和整體分類準(zhǔn)確率如表2所示。
表2 分類性能對(duì)比Tab. 2 Comparison of classification performance
從表2可以看出,本文算法的各個(gè)類別分類準(zhǔn)確率、G-mean指標(biāo)和Accuracy都是最優(yōu)的。多分類SVM和BP-Net算法性能較低,BP-Net算法稍好于多分類SVM算法。這是因?yàn)檫@兩種算法的性能直接跟樣本特征值相關(guān),將超聲圖像的背景區(qū)域特征和ROI區(qū)域特征同等看待,而背景區(qū)域占據(jù)圖像比例較大,影響了分類器的性能。AdaBoost.M2算法和Ada.SAMME算法在模型構(gòu)建中會(huì)選擇比較重要的特征,突出ROI區(qū)域特征、削弱背景區(qū)域特征對(duì)分類器的影響,兩種算法性能不相上下,Ada.SAMME算法略勝一籌。相比Ada.SAMME算法,本文算法的Accuracy提升了3.93%,G-mean指標(biāo)提升了2.76%,4C準(zhǔn)確率提升了2.31%,RV IO準(zhǔn)確率提升了4.38%,LAX準(zhǔn)確率提升了1.61%;相比BP-Net算法,本文算法的Accuracy提升了11.94%,G-mean指標(biāo)提升了10.3%,4C準(zhǔn)確率提升了14.51%,RV IO準(zhǔn)確率提升了8.73%,LAX準(zhǔn)確率提升了7.8%。
3.3 在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
另外對(duì)本文算法在三個(gè)UCI數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括Usps數(shù)據(jù)集、Mnist數(shù)據(jù)集和Pendigits數(shù)據(jù)集,這三個(gè)數(shù)據(jù)集都是對(duì)手寫數(shù)字0~9進(jìn)行識(shí)別。如表3所示是本文算法與其他四個(gè)對(duì)比算法在三個(gè)數(shù)據(jù)集上的G-mean指標(biāo)和Accuracy對(duì)比結(jié)果??梢钥闯霰疚乃惴ㄔ谌齻€(gè)UCI數(shù)據(jù)集上的G-mean值和Accuracy均是最優(yōu)的,而其他四個(gè)對(duì)比算法中Ada.M2算法性能較優(yōu)。
相比Ada.M2算法,在Usps數(shù)據(jù)集上,本文算法的G-mean值提升了1.5%,Accuracy提升了1.18%;在Mnist數(shù)據(jù)集上,本文算法的G-mean值提升了1.67%,Accuracy提升了1.94%;在Pendigits數(shù)據(jù)集上,本文算法的G-mean值提升了2.17%,Accuracy提升了1.72%。
相比多分類SVM算法,在Usps數(shù)據(jù)集上,本文算法的G-mean值提升了3.59%,Accuracy提升了3.28%;在Mnist數(shù)據(jù)集上,本文算法的G-mean值提升了3.66%,Accuracy提升了3.55%;在Pendigits數(shù)據(jù)集上,本文算法的G-mean值提升了3%,Accuracy提升了2.89%。
表3 在三個(gè)UCI數(shù)據(jù)集上的G-mean和Accuracy對(duì)比Tab. 3 Comparison of G-mean and Accuracy on three UCI data sets
本文算法與Ada.M2算法對(duì)各個(gè)類別的分類準(zhǔn)確率對(duì)比結(jié)果如表4所示。
表4 本文算法與Ada.M2算法對(duì)各類別的分類準(zhǔn)確率對(duì)比Tab. 4 Classification accuracy comparison of each class by using proposed algorithm and Ada.M2
表4數(shù)據(jù)表明,與Ada.M2算法相比,本文算法在三個(gè)UCI數(shù)據(jù)集上對(duì)各個(gè)類別的分類準(zhǔn)確率都有一定程度的提升,其中較難分類的類別有顯著的提升。Usps數(shù)據(jù)集中數(shù)字5的準(zhǔn)確率提升了7.96%,數(shù)字8的準(zhǔn)確率提升了6.71%左右;Mnist數(shù)據(jù)集中數(shù)字5提升了7.73%左右;Pendigits數(shù)據(jù)集中數(shù)字1提升了4.91%,數(shù)字4提升了7.82%。
本文結(jié)合BOF模型、主動(dòng)學(xué)習(xí)方法和動(dòng)態(tài)錯(cuò)分代價(jià)矩陣對(duì)TEE標(biāo)準(zhǔn)切面進(jìn)行分類。首先采用BOF模型完成超聲圖像的特征描述,BOF模型能突出ROI區(qū)域特征,削弱背景區(qū)域特征,避免ROI定位不準(zhǔn)確問(wèn)題;然后采用主動(dòng)學(xué)習(xí)方法選擇對(duì)分類器最有價(jià)值的樣本作為訓(xùn)練集,消除樣本冗余;最后對(duì)多分類AdaBoost算法進(jìn)行改進(jìn)。改進(jìn)算法在每個(gè)弱分類器的訓(xùn)練中都會(huì)將已經(jīng)訓(xùn)練得到的弱分類器集成為臨時(shí)強(qiáng)分類器,根據(jù)臨時(shí)強(qiáng)分類器的性能為不同類別的樣本賦予不同的錯(cuò)分代價(jià),調(diào)整權(quán)重更新規(guī)則,強(qiáng)迫正在訓(xùn)練的弱分類器“關(guān)注”錯(cuò)分代價(jià)較高的樣本。在TEE標(biāo)準(zhǔn)切面數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法的Accuracy、G-mean指標(biāo)和各個(gè)類別的分類準(zhǔn)確率均優(yōu)于AdaBoost.SAMME算法及其他常用的多類別分類算法。在三個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法在各個(gè)數(shù)據(jù)集上的Accuracy和G-mean指標(biāo)均優(yōu)于AdaBoost.M2算法,在易分錯(cuò)的類別上提升效果更顯著。實(shí)驗(yàn)分析表明:在存在類間相似樣本的數(shù)據(jù)集上,或者存在“難分”類別的數(shù)據(jù)集上,本文算法的提升效果最為顯著。
References)
[1] EBADOLAHI S, CHANG S F, WU H. Automatic view recognition in echocardiogram videos using parts based representation [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004, 2: 2-9.
[2] RAHMATULLAH B, PAPAGEORGHIOU A, NOBLE J A. Automated selection of standardized planes from ultrasound volume [C]// MLMI 2011: Proceedings of the 2011 International Workshop on Machine Learning in Medical Imaging, LNCS 7009. Berlin: Springer-Verlag, 2011: 35-42.
[3] PARK J H, ZHOU S K, SIMOPOULOS C, et al. Automatic cardiac view classification of echocardiogram [C]// ICCV 2007: Proceedings of the 2007 11th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8.
[4] 王勇,呂揚(yáng)生.基于紋理特征的超聲醫(yī)學(xué)圖像檢索[J].天津大學(xué)學(xué)報(bào),2005,38(1):57-60. (WANG Y, LYU Y S. Retrieval of medical ultrasound image based on texture feature [J]. Journal of Tianjin University, 2005, 38(1): 57-60.)
[5] QIAN Y, WANG L, WANG C, et al. The synergy of 3D SIFT and sparse codes for classification of viewpoints from echocardiogram videos [C]// MCBR-CDS 2012: Proceedings of the 2012 MICCAI International Workshop on Medical Content-Based Retrieval for Clinical Decision Support, LNCS 7723. Berlin: Springer-Verlag, 2012: 68-79.
[6] ZHOU S K, PARK J H, GEORGESCU B, et al. Image-based multiclass boosting and echocardiographic view classification [C]// CVPR 2006: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 1559-1565.
[7] LU X, GEORGESCU B, ZHENG Y, et al. AutoMPR: Automatic detection of standard planes in 3D echocardiography [C]// ISBI 2008: Proceedings of the 2008 5th International Symposium on Biomedical Imaging: From Nano to Macro. Piscataway, NJ: IEEE, 2008: 1279-1282.
[8] ZHOU L, ZHOU Z, HU D. Scene classification using a multi-resolution bag-of-features model [J]. Pattern Recognition, 2013, 46(1): 424-433.
[9] 梁曄,于劍,劉宏哲.基于BoF模型的圖像表示方法研究[J].計(jì)算機(jī)科學(xué),2014,41(2):36-44. (LIANG Y, YU J, LIU H Z. Study of BOF model based image representation [J]. Computer Science, 2014, 41(2): 36-44.)[10] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR 2006: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 2169-2178.
[11] BAY H, TUYTELAARS T, GOOL L V. SURF: Speeded Up Robust Features [C]// ECCV 2006: Proceedings of the 2006 European Conference on Computer Vision, LNCS 3951. Berlin: Springer-Verlag, 2006: 404-417.
[12] SHEN L, LIN J, WU S, et al. HEp-2 image classification using intensity order pooling based features and bag of words [J]. Pattern Recognition, 2014, 47(7): 2419-2427.
[13] ERTEKIN S, HUANG J, GILES C L. Active learning for class imbalance problem [C]// SIGIR 2007: Proceedings of the 2007 30th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 823-824.
[14] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.
[15] WU T-F, LIN C-J, WENG R C. Probability estimates for multi-class classification by pairwise coupling [J]. Journal of Machine Learning Research, 2004, 5: 975-1005.
[16] GURUSWAMI V, SAHAI A. Multiclass learning, boosting, and error-correcting codes [C]// COLT 1999:Proceedings of the Twelfth Annual Conference on Computational Learning Theory. New York: ACM, 1999: 145-155.
[17] ZHU J, ZOU H, ROSSET S, et al. Multi-class Adaboost [J]. Statistics and Its Interface, 2009, 2(3): 349-360.
[18] FU Z, WANG L, ZHANG D. An improved multi-label classification ensemble learning algorithm [C]// CCPR 2014: Proceedings of the 2014 Chinese Conference on Pattern Recognition, CCIS 483. Berlin: Springer-Verlag, 2014: 243-252.
[19] 王莉莉,付忠良.基于標(biāo)簽相關(guān)性的多標(biāo)簽分類AdaBoost算法[J].四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2016,48(5):91-97. (WANG L L, FU Z L. Multi-label AdaBoost algorithm based on label correlations [J]. Journal of Sichuan University (Engineering Science Edition), 2016, 48(5): 91-97.)
This work is partially supported by the Sichuan Science and Technology Support Project (2016JZ0035), the West Light Project of the Chinese Academy of Sciences.
WANGLili, born in 1987, Ph. D. candidate. Her research interests include machine learning, pattern recognition, data mining.
FUZhongliang, born in 1967, M. S., professor. His research interests include machine learning, pattern recognition.
TAOPan, born in 1988, Ph. D. candidate. His research interests include machine learning, data mining.
ZHUKai, born in 1991, Ph. D. candidate. His research interests include machine learning, data mining.
TEEstandardplaneclassificationbasedonimprovedmulti-classAdaBoostalgorithm
WANG Lili1,2*, FU Zhongliang1,2, TAO Pan1,2, ZHU Kai1,2
(1.ChengduInstituteofComputerApplication,ChineseAcademyofSciences,ChengduSichuan610041,China;2.UniversityofChineseAcademyofSciences,Beijing100049,China)
Due to redundancy of ultrasound image samples, high similarity between different planes caused by disease, and inaccurate positioning of region-of-interest, a classification method of TransEsophageal Echocardiography (TEE) standard plane was proposed by combining with Bag of Features (BOF) model, active learning and improved multi-class AdaBoost algorithm. Firstly, BOF model was constructed to describe ultrasound image. Secondly, active learning was adopted to select the most informative samples for classifiers as training data set. Lastly, improved multi-class AdaBoost algorithm was proposed, where the weight update rule of multi-class AdaBoost was modified according to the classfication results of temporary strong learner, and the TEE standard plane was classified by the improved multi-class AdaBoost algorithm. The experimental results on TEE data set and three UCI data sets showed that, compared with AdaBoost.SAMME, multi-class Support Vector Machine (SVM), BP neural network and AdaBoost.M2, the G-mean value, the total classification accuracy and the classification accuracy in most classes of the proposed method were improved in varying degrees, the classification accuracy of easily misclassified class was improved most significantly. The experimental results illustrate that the improved multi-class AdaBoost algorithm can significantly improve the G-mean value and accuracy of easily misclassified class in the datasets containing similar samples between classes.
multi-class AdaBoost; active learning; Bag of Features (BOF) model; standardized plane classification; ultrasound image classification
TP391.4; TP181
A
2017- 03- 01;
2017- 04- 12。
四川省科技支撐計(jì)劃項(xiàng)目(2016JZ0035);中國(guó)科學(xué)院西部之光項(xiàng)目。
王莉莉(1987—),女,河南周口人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘; 付忠良(1967—),男,重慶合川人,教授,碩士,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別; 陶攀(1988—),男,河南安陽(yáng)人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 朱鍇(1991—),男,貴州安順人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。
1001- 9081(2017)08- 2253- 05
10.11772/j.issn.1001- 9081.2017.08.2253