?ね跚?+呂亞男+李東紅+宋立新
摘要:乳腺影像案例不僅具有圖像的底層特征,同時也有圖像的語義特征。為了實(shí)現(xiàn)乳腺影像的高效檢索,提高計算機(jī)輔助診斷的確信度,提出了一種基于關(guān)聯(lián)規(guī)則的多模檢索方法。首先,采用基于關(guān)聯(lián)規(guī)則的特征選擇算法選擇出與影像語義相關(guān)的底層特征,實(shí)現(xiàn)特征降維,利用Apriori算法挖掘被選擇的特征與語義特征之間的關(guān)聯(lián)規(guī)則。然后,利用關(guān)聯(lián)分類引擎算法根據(jù)得到的關(guān)聯(lián)規(guī)則構(gòu)建關(guān)聯(lián)分類模型,實(shí)現(xiàn)由底層特征獲知視覺語義特征的目的。最后,將關(guān)聯(lián)分類模型得到的語義特征作為輸入語義,與圖像的底層特征相結(jié)合,進(jìn)行圖像相似性度量,實(shí)現(xiàn)多模檢索。通過查準(zhǔn)率和查全率以及相關(guān)排序平均值等進(jìn)行了實(shí)驗對比,實(shí)驗結(jié)果表明,提出的多模檢索方法有效的提高了圖像的檢索精度并且能夠由圖像的底層特征獲知圖像的視覺語義特征。該方法縮減了底層特征和視覺語義特征之間的語義鴻溝,提高了圖像的檢索性能,能夠為醫(yī)生提供更有意義的決策支持。
關(guān)鍵詞:乳腺影像;關(guān)聯(lián)規(guī)則;特征選擇;關(guān)聯(lián)分類;多模檢索
DOI:1015938/jjhust201702023
中圖分類號: TN91173
文獻(xiàn)標(biāo)志碼: A
文章編號: 1007-2683(2017)02-0124-05
Abstract:The mammogram case has images of low level features and semantic features In order to achieve efficient retrieval of breast imaging cases, and enhance the certainty of computer aided diagnosis, a multimode retrieval method based on association rules is proposed in this paper First of all, feature selection algorithm based on the association rules can be used to select the low level features associated with image semantic features, to achieve the dimension reduction The associative rules which between the selected features and the semantic features can be excavated by using the Apriori algorithm And then, the associative classifier engine will be used to build the associative classification model depend on the associative rules to capture the visual semantic features Finally, take obtained semantic from the association classification as input semantic, combining with the low level features of image, to implement the mammogram case multimode retrieval We conducted experiments comparing by precision and recall rate and relevance ranking average value and so on, as the results show, multi mode retrieval method proposed by this paper can effectively improve the performance of breast imaging case retrieval, and provide visual semantic features of image by its lowlevel features Multimode retrieval reduced the semantic gap between image low level features and visual semantic features, improved the accuracy of image retrieval and provided more meaningful decision support for doctors
Keywords:mammogram;association rules;feature selection;associative classification;multimode retrieval
0引言
醫(yī)學(xué)影像是醫(yī)生診斷的一重要依據(jù)[1],作為乳腺癌診斷以及乳房健康普查的首選方法是鉬靶乳腺X線影像 [2]。如何能夠快速、準(zhǔn)確的從乳腺數(shù)據(jù)庫中找到和待查詢病例最相似的案例輔助醫(yī)生進(jìn)行判斷成為一個急需要解決的重要問題。基于文本的圖像檢索把圖像檢索問題轉(zhuǎn)換成傳統(tǒng)的文本檢索問題,但這種方法人工標(biāo)注的工作量過大并且圖像標(biāo)注具有很強(qiáng)的主觀性和不精確性[3]?;趦?nèi)容的圖像檢索在醫(yī)學(xué)領(lǐng)域應(yīng)用時,所提取的圖像底層特征無法達(dá)到人類的理解水平,圖像底層特征與語義特征間具有“語義鴻溝”(semantic gap)問題[4-6],在醫(yī)學(xué)背景下無法保證有意義的查詢[7]。為此,需要一種結(jié)合圖像底層特征和圖像語義特征的多模檢索方式。
近年來,在圖像檢索領(lǐng)域,結(jié)合圖像信息內(nèi)容和圖像高層語義的檢索方式受到越來越多的關(guān)注。謝天文[8]等提出了一種聯(lián)合圖像高級語義特征和內(nèi)容低級特征的醫(yī)學(xué)圖像檢索方法,提高了圖像的檢索效果,但需要醫(yī)生的輔助描述語義,不能根據(jù)圖像的底層特征獲知圖像的語義特征。田海曼等[9]人利用基于內(nèi)容的分級檢索方法,通過腫瘤的紋理、形狀以及邊界特征對其良性和惡性進(jìn)行計算機(jī)輔助診斷,取得了良好的效果,但無法獲得腫塊的視覺語義特征。關(guān)聯(lián)規(guī)則能夠克服這種不足,近年來被越來越多的應(yīng)用到醫(yī)學(xué)圖像的數(shù)據(jù)挖掘方面。王曙燕等[10]利用改進(jìn)的Apriori算法挖掘關(guān)聯(lián)規(guī)則,建立了醫(yī)學(xué)圖像分類器,取得了較好的圖像分類效果,蔣云等[11]構(gòu)造了增強(qiáng)關(guān)聯(lián)規(guī)則分類器對醫(yī)學(xué)圖像進(jìn)行分類,提高了分類的正確率,但這兩種方法將關(guān)聯(lián)規(guī)則直接應(yīng)用到醫(yī)學(xué)案例的正常和異常的判斷,無法提供與診斷結(jié)果相關(guān)的視覺語義特征。
針對以上問題,本文采用基于關(guān)聯(lián)規(guī)則的特征選擇算法進(jìn)行特征選擇,利用關(guān)聯(lián)規(guī)則挖掘算法獲取底層特征和語義特征之間的關(guān)聯(lián)規(guī)則,同時,降低底層特征的維數(shù)。然后通過關(guān)聯(lián)分類引擎算法建立分類模型,通過圖像的底層特征獲得圖像的視覺語義特征,實(shí)現(xiàn)機(jī)器輔助標(biāo)注,縮小語義鴻溝,并將該視覺語義特征作為語義輸入,結(jié)合圖像底層特征,實(shí)現(xiàn)了底層特征和語義特征結(jié)合的多模檢索。
1關(guān)聯(lián)分類模型的建立
11關(guān)聯(lián)規(guī)則的相關(guān)概念
通過關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)項集之間的關(guān)聯(lián)性。設(shè)I={I1,I2,I3,……},稱I為項集,D是一事務(wù)數(shù)據(jù)庫,其中每個事務(wù)TI,若A是項目集,當(dāng)且僅當(dāng)AT時,我們說事務(wù)T包含了A,關(guān)聯(lián)規(guī)則是A→B的格式,其中A和B都屬于項集I但是不相交。A稱為規(guī)則的前項,B稱為規(guī)則的后項。關(guān)聯(lián)規(guī)則里面有兩個重要的參數(shù),分別是支持度和置信度。支持度指的是在一個事務(wù)集中包含A同時包含B的概率,即P(A∪B),記為sup,反映了關(guān)聯(lián)規(guī)則在數(shù)據(jù)庫中的重要性;置信度指的是支持度與該事務(wù)集中只包含A的概率的比值,即P(A|B),記為conf,置信度衡量了關(guān)聯(lián)規(guī)則的可信程度,即:
本文挖掘關(guān)聯(lián)規(guī)則的算法采用的是由Agrawal等人[12]提出的經(jīng)典Apriori算法。在挖掘過程中,使用的是類關(guān)聯(lián)規(guī)則挖掘,規(guī)則的前項為數(shù)據(jù)項集,后項為類別屬性項集。其中數(shù)據(jù)項集是由八種特征值組成,屬性項集是由三種腫塊的形狀組成,分別為卵圓形、不規(guī)則形和分葉形。每條規(guī)則用R來代表,挖掘出的規(guī)則形式如下:R∶D→C,其中,D={Data1,Data2……Datan},為數(shù)據(jù)項集合,C={C1,C2,C3},是類標(biāo)識集合。
使用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘之后要對所得到的規(guī)則進(jìn)行剪枝,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。假定兩條規(guī)則R1和R2,若滿足下面任意條件,則稱R1的優(yōu)先級別優(yōu)于R2。
1)R1的置信度高于R2的置信度,即conf(R1)>conf(R2);
2)若conf(R1)=conf(R2),R1的支持度高于R2的支持度,即sup(R1)>sup(R2);
3)若conf(R1)=conf(R2),且sup(R1)=sup(R2),R1擁有比R2更少的項。
本文關(guān)聯(lián)規(guī)則的剪枝方案是:選擇優(yōu)先級高的規(guī)則覆蓋優(yōu)先級低的,如果優(yōu)先級別相同的話選擇前項比較多的覆蓋前項相對少的規(guī)則,最后得到強(qiáng)關(guān)聯(lián)規(guī)則,利用得到的強(qiáng)關(guān)聯(lián)規(guī)則建立關(guān)聯(lián)分類模型,對數(shù)據(jù)集進(jìn)行分類訓(xùn)練。
12特征選擇
本文采用基于關(guān)聯(lián)規(guī)則的StARMiner算法[13]挖掘了影像底層特征與形狀語義以及與腫瘤良惡性語義之間的關(guān)聯(lián)規(guī)則,達(dá)到降維目的同時實(shí)現(xiàn)底層特征與語義的有效關(guān)聯(lián)。設(shè)T是一個醫(yī)學(xué)圖像數(shù)據(jù)集,T里面包含有多種類別的圖像,X是其中的一個圖像類別的集合,Xi是X中的一個圖像,每個 都有N個特征,假設(shè)fi是Xi的第i個特征,μfi(x)和σfi(x)分別為在圖像X中fi特征的均值和方差。該算法有3個閾值,是由用戶定義的,分別為γmin、Δμmin和Δσmax。其中γmin為在H0不成立時存在的最低置信度;Δμmin為fi在類X中的均值與其它類中均值的最小差值;Δσmax為fi在類X中的最大方差值。如果滿足下面的3個條件,就可以找到X類圖像和特征之間的關(guān)聯(lián)關(guān)系,也就是說特征fi是將X類圖像與其它類圖像區(qū)分出來的關(guān)鍵,是應(yīng)該保留的特征。本文影像底層特征一共有32個,使用該算法保留的與影像形狀有關(guān)特征為8個,特征如表1所示。
13關(guān)聯(lián)分類算法
關(guān)聯(lián)分類算法是在關(guān)聯(lián)規(guī)則的基礎(chǔ)上發(fā)展起來,采用的是ACE[17](associative classifier engine)關(guān)聯(lián)分類引擎算法。在建立圖像形狀的關(guān)聯(lián)分類模型時,首先選擇作為訓(xùn)練圖像的底層特征,采用最小長度描述方法對特征進(jìn)行離散化,然后利用經(jīng)典的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并通過基于規(guī)則興趣度的關(guān)聯(lián)規(guī)則剪枝算法得到強(qiáng)關(guān)聯(lián)規(guī)則,最后采用關(guān)聯(lián)分類引擎ACE算法進(jìn)行關(guān)聯(lián)分類,實(shí)現(xiàn)關(guān)聯(lián)分類模型的構(gòu)建。
ACE算法中有4個參數(shù),分別為A(h),F(xiàn)(h),N(h)和wmin,分類算法的置信度公式如下:
w=4A(h)+F(h)4A(h)+F(h)+N(h)(6)
其中,W表示該圖像屬于某種類別的可信度,4個參數(shù)的含義如下:
1)A(h)為圖像特征滿足整個規(guī)則的個數(shù);
2)F(h)為圖像特征部分滿足規(guī)則的個數(shù);
3)N(h)為圖像特征均不滿足規(guī)則的個數(shù);
4)wmin是該圖像屬于某種類別的可信程度的最低值,本文中wmin為05。
14乳腺腫塊形狀分類模型的建立
乳腺腫塊的良惡性與不同的腫塊形狀之間存在相關(guān)性[18],如卵圓形等比較規(guī)則的類型一般表現(xiàn)為良性,而分葉和不規(guī)則類型則往往呈現(xiàn)惡性。因此,本文在使用與形狀有關(guān)的底層特征構(gòu)建關(guān)聯(lián)分類模型時,按照不同腫塊形狀的良惡性可能進(jìn)行二分類,然后再對節(jié)點(diǎn)進(jìn)行細(xì)致分類,分類方式如圖1所示。
本文選取了美國南佛羅里達(dá)大學(xué)構(gòu)建的數(shù)字乳腺X線圖像數(shù)據(jù)庫(DDSM,digital database for screening mammography)中的170幅圖像,其形狀描述語義為醫(yī)學(xué)影像專家標(biāo)注,共有170幅圖像,其中:卵圓類型為61幅,不規(guī)則類型為62幅,分葉類型為47幅,各選每種類型35幅圖像參與數(shù)據(jù)挖掘。用來進(jìn)行測試的圖像有65幅,該模型對于形狀的分類準(zhǔn)確率如表2所示。
15檢索系統(tǒng)
本文提出的檢索系統(tǒng)的模型如圖2所示。
首先獲取輸入案例的底層特征,選擇出與圖像形狀以及腫瘤良惡性有關(guān)系的特征,選取的和圖像形狀有關(guān)的特征如表1。然后利用選擇出來的形狀特征得到分類關(guān)聯(lián)規(guī)則,通過關(guān)聯(lián)分類算法構(gòu)建圖像形狀分類模型,通過該模型獲知輸入圖像的形狀語義,最后,結(jié)合圖像與良惡性有關(guān)的底層特征,與圖像特征向量數(shù)據(jù)庫中特征向量,得到和輸入案例最相似的圖像。
2檢索結(jié)果
圖像檢索中分別對特征向量中的語義和底層特征部分,分別采用歐式距離度量式(7)進(jìn)行相似度量,其中i為案例影像語義或底層的第i個特征。本文所用的底層特征均是進(jìn)行了特征歸一化的數(shù)據(jù)。在離散語義特征和連續(xù)底層特征相似度量基礎(chǔ)上。為了融合兩者的相似性采用式(8)計算。
)
其中:dk(i,j)是樣本i和樣本j在第k個屬性的相似度,這里,k=1或2,分別對應(yīng)語義特征和底層特征。 wk取0或1,對缺失屬性取0。
檢索系統(tǒng)中一共包含有170幅圖像,為了查看本文方法在乳腺腫塊圖像檢索方面的效果,與圖像檢索領(lǐng)域常用的基于內(nèi)容的圖像檢索[19]方法進(jìn)行了實(shí)驗對比,隨機(jī)選擇5個圖像進(jìn)行檢索,檢索出前10幅圖像,形狀語義參與檢索,邊緣和良惡性作為參與評價檢索性能的語義,對比實(shí)驗結(jié)果如圖3所示。
圖3(a)為按照語義相似性大小排序得到的對比結(jié)果,其中帶條紋的為本文方法所得結(jié)果,無條紋的為基于內(nèi)容的圖像檢索方法的語義結(jié)果;圖3(b)為兩種情況下語義所占百分比的對比結(jié)果。從圖3中可以看出,對于同一幅圖像本文提供出更多的語義完全相同和語義相似的案例。
輔助醫(yī)生診斷的最終目的是能夠為醫(yī)生判斷腫瘤的良惡性提供決策支持。本文通過查全率-查準(zhǔn)率曲線[20]以及相關(guān)排序平均值對多模圖像檢索方法和基于內(nèi)容圖像檢索方法的檢索性能進(jìn)行評估,對比結(jié)果如圖4所示。
圖(a)為查全率-查準(zhǔn)率曲線對比結(jié)果,從圖中可以看出,本文方法的查準(zhǔn)率與查全率均高于基于內(nèi)容的圖像檢索方法,并且通過關(guān)聯(lián)規(guī)則算法進(jìn)行特征選擇后的檢索性能比未降維的效果更好。圖(b)為降維后兩種方法的相關(guān)排序平均值對比結(jié)果,相關(guān)排序平均值越大,說明該方法的檢索效果越好,從圖中可以看出,本文方法的相關(guān)排序平均值的均值高于基于內(nèi)容的檢索方法。通過性能對比結(jié)果可知,本文這種對特征進(jìn)行選擇,并且結(jié)合腫塊圖像視覺語義特征和圖像底層特征的多模檢索方法具有較好的效果。
3結(jié)語
本文提出了一種融合圖像語義和底層特征的多模檢索方法。對于一幅腫塊圖像,先判斷出它的形狀語義,然后轉(zhuǎn)化成語義特征向量,選擇符合該形狀特征的圖像,再結(jié)合與圖像高層語義相關(guān)的底層特征進(jìn)行多模檢索。從實(shí)驗的對比結(jié)果可以看出,基于本文給出的關(guān)聯(lián)規(guī)則的多模檢索方法提供的檢索結(jié)果,在輔助語義標(biāo)注和輔助診斷上具有較好的性能,彌補(bǔ)了基于內(nèi)容單模態(tài)檢索信息不足的局限。后續(xù)可以考慮增加樣本數(shù)目,改進(jìn)關(guān)聯(lián)規(guī)則挖掘算法,為邊緣語義建立關(guān)聯(lián)分類模型,以便為腫瘤良惡性判斷提供更有效更全面的語義信息。
參 考 文 獻(xiàn):
[1]TANG H L,HANKA R, IP H H S Histological Image Retrieval Based on Semantic Content Analysis [J]. Information Technology in Biomedicine, IEEE Transactions on, 2003, 7(1): 26-36
[2]HUANG Y L, CHEN D R Watershed Segmentation for Breast Tumor in 2D Sonography [J]. Ultrasound in medicine & biology, 2004, 30(5): 625-632
[3]張磊大規(guī)?;ヂ?lián)網(wǎng)圖像檢索與模式挖掘[J].中國科學(xué):信息科學(xué),2013, 43(12):1641-1653
[4]溫超,耿國華基于內(nèi)容圖像檢索中的“語義鴻溝”問題[J].西北大學(xué)學(xué)報(自然科學(xué)版),2005,35(5):536-540
[5]SMEULDERS A W M, WORRING M, SANTINI S, et al Contentbased Image Retrieval at the End of the Early Years[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1349-1380
[6]李志欣,施智平,李志清,等 圖像檢索中語義映射方法綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2008, 20(8): 1085-1096
[7]曹厚德 醫(yī)學(xué)影像技術(shù)的主要進(jìn)展及前瞻[J]. 中國醫(yī)療器械雜志, 2003, 27(4): 234-237
[8]謝天文,湯偉軍,趙秋楓,等 聯(lián)合圖像高級語義特征和內(nèi)容低級特征的醫(yī)學(xué)圖像檢索[J]. 生物醫(yī)學(xué)工程學(xué)雜志,2009,26(6): 1237-1240
[9]田海曼,林江莉,陳科,等 基于內(nèi)容的乳腺腫瘤超聲圖像分級檢索[J]. 四川大學(xué)學(xué)報(工程科學(xué)版), 2012,44(S1):177-181
[10]王曙燕,周明全,耿國華 醫(yī)學(xué)圖像的關(guān)聯(lián)規(guī)則挖掘方法研究[J]. 計算機(jī)應(yīng)用, 2005, 25(6): 1408-1409
[11]蔣蕓,李戰(zhàn)懷,王勇,等 基于增強(qiáng)關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類新方法[J]. 西北工業(yè)大學(xué)學(xué)報, 2006,24(3): 401-404
[12]AGRAWAL R,SRIKANT R Fast Algorithms for Mining Association Rules[C]// 20th int conf Very Large Data Bases, VLDB 1994, 1215: 487-499
[13]BUGATTI P H, RIBEIRO M X,TRAINA A J M, et al Contentbased Retrieval of Medical Images by Continuous Feature Selection[C]// ComputerBased Medical Systems, 2008, CBMS′08, 21st IEEE International Symposium on IEEE, 2008: 272-277
[14]ZHENG B, LU A, HARDESTY L A, et al A Method to Improve Visual Similarity of Breast Masses for an Interactive Computeraided Diagnosis Environment [J]. Medical Physics, 2006, 33(1): 111-117.
[15]PETRICK N, CHAN H P, WEI D, et al Automated Detection of Breast Masses on Mammograms Using Adaptive Contrast Enhancement and Texture Classification [J]. Medical physics, 1996, 23(10): 1685-1696.
[16]JIN R,MENG B, SONG E, et al Computeraided Detection of Mammographic Masses Based on Contentbased Image Retrieval[C]//Medical Imaging International Society for Optics and Photonics, 2007: 65141W-65141W-8
[17]RIBEIRO M X, BUGATTI P H,TRAINA Jr C, et al Supporting Contentbased Image Retrieval and Computeraided Diagnosis Systems with Association Rulebased Techniques[J]. Data & Knowledge Engineering, 2009, 68(12): 1370-1382
[18]于代友,劉秀梅,等,BIRADS在乳腺腫塊X線診斷中的應(yīng)用價值[J]. 中國臨床醫(yī)學(xué)影像雜志,2014,25(9):615-618
[19]MENG F J, GUO B L Research on ContentBased Image Retrieval Technology [J]. Applications Research of Computer, 2004, 21(7):21-27
[20]常瑞峰, 宋立新 乳腺X線影像鈣化病灶檢索技術(shù)研究[J].中國圖象與圖形學(xué)報, 2011,16(1): 97-102
(編輯:溫澤宇)