武瑞霞,張子瑞,陳宇彬,葉蘇哲,鄭明華,柯大觀
(1.溫州醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,浙江 溫州 325035;2.溫州醫(yī)科大學(xué)附屬第一醫(yī)院 感染內(nèi)科,浙江 溫州 325015)
醫(yī)學(xué)圖像模式識(shí)別已經(jīng)成為生物醫(yī)學(xué)工程學(xué)和影像醫(yī)學(xué)的熱點(diǎn)領(lǐng)域[1-4],如何提取圖像的有效特征是該領(lǐng)域研究的重點(diǎn)。本研究中應(yīng)用的格子復(fù)雜性(lattice complexity,LC)是一種通用的時(shí)間序列分析算法[5-6],作為廣義信息度量[7],特別適用于人體這類復(fù)雜系統(tǒng)所產(chǎn)生的數(shù)據(jù)。一維LC已在腦電數(shù)據(jù)分析上取得良好效果[8],有必要驗(yàn)證其二維版本的表現(xiàn)。而預(yù)測(cè)肝癌患者術(shù)后存活時(shí)間本身是個(gè)醫(yī)學(xué)難題[9],本研究嘗試基于醫(yī)學(xué)影像圖像建立肝癌預(yù)后模型。
1.1 材料 作為回顧性研究,實(shí)驗(yàn)中采用的患者資料和數(shù)據(jù)均來(lái)自溫州醫(yī)科大學(xué)附屬第一醫(yī)院,根據(jù)臨床資料的完整性選取了年齡27~79歲的92例原發(fā)性肝癌患者,其中男80例,女12例,每位患者擁有至少28張腹部CT掃描圖像。所有患者于2005年10月到2010年5月間接受了腫瘤切除手術(shù)。在3.5年的術(shù)后跟蹤隨訪中,有62例患者存活,30例死亡。本研究經(jīng)溫州醫(yī)科大學(xué)附屬第一醫(yī)院倫理委員會(huì)審核批準(zhǔn)。
1.2 方法 醫(yī)學(xué)圖像模式識(shí)別一般過(guò)程如圖1所示。將全體數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集時(shí)通常是按比例隨機(jī)劃分,隨后保持不變。分類模型通過(guò)訓(xùn)練集數(shù)據(jù)建立,而測(cè)試集用來(lái)驗(yàn)證模型的泛化能力。當(dāng)樣本量較小時(shí),重新劃分會(huì)對(duì)結(jié)果有顯著影響。當(dāng)只考慮驗(yàn)證特征的有效區(qū)分度時(shí),也可采用全部數(shù)據(jù)交叉驗(yàn)證的手段。本研究首先用全部數(shù)據(jù)交叉驗(yàn)證挑選出有效的特征參數(shù),隨后一次性劃分訓(xùn)練集和測(cè)試集做進(jìn)一步檢驗(yàn)。
圖1 圖像模式識(shí)別流程圖
1.2.1 醫(yī)學(xué)圖像預(yù)處理:由于LC在原理上對(duì)大片相同符號(hào)的片段不敏感,為了檢驗(yàn)算法是否確實(shí)簡(jiǎn)單易用,本研究沒(méi)有在原始CT圖像上進(jìn)行目標(biāo)定位和裁剪,而是直接將平掃的腹部CT圖像連同背景(見(jiàn)圖2)一起縮小為32像素×32像素并進(jìn)行二值化。二值化的具體操作是先求整張圖片所有灰度值的均值,然后以此為“閾值”,把原始圖像里面≥均值的灰度值用“1”代替,反之用“0”代替。
圖2 原發(fā)性肝癌患者原始腹部CT圖
1.2.2 圖像維度轉(zhuǎn)換:二值化后的圖像被保存于二維矩陣中,矩陣中每個(gè)位置上的元素只有0或1兩個(gè)符號(hào)。需要先利用希爾伯特(Hilbert)曲線將二維矩陣數(shù)據(jù)轉(zhuǎn)換為一維符號(hào)序列以便進(jìn)行復(fù)雜性度量的計(jì)算。二維Hilbert曲線作為一種空間填充曲線可以遍歷方形區(qū)域的每個(gè)位置[10-11],從而實(shí)現(xiàn)從二維到一維的數(shù)據(jù)轉(zhuǎn)換并保留原數(shù)據(jù)局部和整體的結(jié)構(gòu)信息。圖3所示為三階Hilbert曲線。
圖3 三階Hilbert曲線
1.2.3 圖像復(fù)雜性特征提?。寒?dāng)前學(xué)界的共識(shí)是生命體之類的復(fù)雜系統(tǒng)應(yīng)當(dāng)處于一種“弱混沌”或者“混沌邊緣”的狀態(tài)[12-13]。LC在一定參數(shù)下對(duì)“混沌邊緣”敏感[5-6],因而在醫(yī)學(xué)領(lǐng)域有應(yīng)用潛力。LC的主要思想是:凡是有確定性因果關(guān)系的,或是歷史上已經(jīng)出現(xiàn)過(guò)的片段,都可以被壓縮,只有不可壓縮的符號(hào)數(shù)目才能代表符號(hào)序列的復(fù)雜程度。LC值依賴于一個(gè)控制參數(shù)r,稱為細(xì)?;笖?shù)或細(xì)?;驍?shù)(fine-graining order)。將一維符號(hào)序列細(xì)?;?,就是將序列中相鄰的r個(gè)符號(hào)視為整體來(lái)判斷前后次序之間的確定性因果關(guān)系。當(dāng)細(xì)?;_(dá)到一定程度時(shí),序列中所有相鄰的r個(gè)符號(hào)都不相等或周而復(fù)始,此時(shí)LC值為1,而r就是臨界細(xì)粒化序數(shù)(critical fine-graining order)[5],表示為r*。
具體而言,LC值的求取過(guò)程是依次對(duì)序列中不可壓縮的“添加”符號(hào)計(jì)數(shù)的過(guò)程。假定存在一個(gè)通用的非線性迭代系統(tǒng),通過(guò)輸入長(zhǎng)度為r的初始符號(hào)序列來(lái)迭代產(chǎn)生后續(xù)的新符號(hào)[5-6],將新符號(hào)納入初始序列并拋棄原先初始序列的第一個(gè)符號(hào),隨后繼續(xù)迭代。當(dāng)確定性的因果規(guī)律被破壞時(shí),我們先檢查前一次“添加”操作后的符號(hào)序列能否通過(guò)“復(fù)制”歷史來(lái)得到,如果不能“復(fù)制”,就認(rèn)為新符號(hào)要通過(guò)外部“添加”獲得,用“∨”表示。“添加”操作將整個(gè)序列分成段落,分段數(shù)目就是LC值,代表了原符號(hào)序列中無(wú)法壓縮的信息含量。
對(duì)于如下一串符號(hào)序列:
如果取r為2,可將任意相鄰兩符號(hào)轉(zhuǎn)化為四進(jìn)制數(shù),細(xì)?;笮滦蛄锌杀硎緸椋?/p>
則其LC值為4:
從左到右掃描序列,可以發(fā)現(xiàn)第一套迭代規(guī)則0→0被第五個(gè)0后出現(xiàn)的1破壞,只能“添加”這個(gè)1。第二套迭代規(guī)則中2→1被第二個(gè)2之后出現(xiàn)的0破壞,而檢查發(fā)現(xiàn)32120在整個(gè)掃描歷史0000132120中沒(méi)有先例,所以也不能“復(fù)制”,因而這個(gè)0也必須“添加”,以此類推。顯然,對(duì)于LC而言,無(wú)論參數(shù)r取多大,大量相同符號(hào)組成的前后“背景”會(huì)被視為簡(jiǎn)單迭代規(guī)則的產(chǎn)物,基本上不影響計(jì)算結(jié)果。但r*受前置“背景”影響較大,上述例子中,序列S的r*值為6,即當(dāng)r大于或等于前置的“背景”長(zhǎng)度6時(shí),整個(gè)序列的確定性因果律才能貫穿到底。本研究中,我們計(jì)算了所有患者每張圖像的r*并發(fā)現(xiàn)最小的r*等于69,于是就在1到69之間大致均勻地取了8個(gè)值作為r,求出對(duì)應(yīng)的LC值作為模式識(shí)別特征。表1顯示了所有患者圖像的r*以及LC值的均數(shù)和標(biāo)準(zhǔn)差。為避免特征數(shù)值大小影響機(jī)器學(xué)習(xí)結(jié)果,加快計(jì)算速度,所有特征在使用前都做了歸一化,即數(shù)值被量化到0和1之間。
表1 患者圖像的復(fù)雜度特征
1.2.4 圖像特征分類:支持向量機(jī)(support vector machines,SVM)[14]在機(jī)器學(xué)習(xí)領(lǐng)域占有重要地位,適合小樣本數(shù)據(jù)的分類。本研究采用臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的LIBSVM工具箱[15]。核函數(shù)選用徑向基函數(shù)(radial basis function,RBF)。利用SVM建模的關(guān)鍵在于搜尋合適的懲罰因子“C”和RBF寬度參數(shù)“gamma”,后者通常用“G”表示。在搜尋的過(guò)程中,一般采用K-折交叉檢驗(yàn)(K-fold cross validation)方法[14]。其做法是將樣本數(shù)據(jù)劃分為K個(gè)子集,每次先用其中K-1個(gè)子集作為訓(xùn)練集訓(xùn)練出模型,再用余下的一個(gè)子集作為測(cè)試集檢驗(yàn)?zāi)P偷淖R(shí)別準(zhǔn)確率。不斷輪換測(cè)試集,最后輸出所有測(cè)試準(zhǔn)確率的平均值作為選擇“C”和“G”的依據(jù)。但選擇特征時(shí),準(zhǔn)確率并非唯一標(biāo)準(zhǔn),一般情況下“C”和“G”越小,越能避免“過(guò)學(xué)習(xí)”狀態(tài),而太小也可能意味著存在“欠學(xué)習(xí)”的狀況,也會(huì)影響模型的泛化能力,其中“C”的作用更明顯。
在本研究中,先用全部92例患者數(shù)據(jù)進(jìn)行十折交叉驗(yàn)證,根據(jù)在“C”和“G”搜尋范圍內(nèi)的最佳結(jié)果選出合適的細(xì)?;驍?shù)。采取10折交叉驗(yàn)證是因?yàn)榧{入模型的是全部的可觀的樣本量,這對(duì)實(shí)驗(yàn)結(jié)果起到?jīng)Q定性作用。而作為一種補(bǔ)充,將對(duì)應(yīng)的LC值作為后續(xù)測(cè)試的特征,再隨機(jī)劃分出46例訓(xùn)練集和46例測(cè)試集,對(duì)訓(xùn)練集選擇3折交叉驗(yàn)證搜尋最佳的“C”和“G”,由訓(xùn)練集數(shù)據(jù)建模后再用測(cè)試集來(lái)測(cè)試模型的泛化能力。
2.1 全部數(shù)據(jù)十折交叉驗(yàn)證結(jié)果 作為預(yù)熱,我們從每位患者的圖像中先抽了最中間的單幅圖像,利用不同r參數(shù)下的8個(gè)LC值和r*分別作為特征進(jìn)行10折交叉驗(yàn)證,發(fā)現(xiàn)除了r取9時(shí)平均準(zhǔn)確率為69.6%,r*和其余參數(shù)下的LC值作為特征是無(wú)效的,對(duì)應(yīng)的模型都只是將所有樣本識(shí)別為一類。當(dāng)每位患者都采用28幅圖時(shí),如表2所示,情況有了變化,r為19時(shí)的LC全部數(shù)據(jù)10折交叉驗(yàn)證的平均準(zhǔn)確率最高,選出的“C”和“G”大小比較合適,最終對(duì)全部數(shù)據(jù)建模后模型識(shí)別準(zhǔn)確率也最高,實(shí)際上只錯(cuò)了一個(gè)。接下來(lái),我們選擇19作為細(xì)?;驍?shù)來(lái)初步驗(yàn)證LC特征的泛化能力。
2.2 測(cè)試集結(jié)果 將92例患者數(shù)據(jù)中2個(gè)類別都以1:1的比例劃分到訓(xùn)練集和測(cè)試集中,兩集合正負(fù)樣本都各有31例和15例。以r*和r=19時(shí)對(duì)應(yīng)LC值為特征,由于樣本量大減,我們采取訓(xùn)練集3折交叉驗(yàn)證的方法確定參數(shù)“C”和“G”,然后利用訓(xùn)練集全體數(shù)據(jù)建模后對(duì)測(cè)試集進(jìn)行分類測(cè)試。我們發(fā)現(xiàn)如果每位患者只取最中間的單幅圖時(shí),兩個(gè)特征及其組合都不能有效區(qū)分兩類。當(dāng)每位患者取28幅圖時(shí),分類準(zhǔn)確率結(jié)果見(jiàn)表3,當(dāng)訓(xùn)練的樣本數(shù)量降低一半后,參數(shù)為19的LC特征交叉驗(yàn)證平均準(zhǔn)確率也有所下降,這可能是訓(xùn)練樣本數(shù)量不足所引起的。將模型應(yīng)用在未經(jīng)訓(xùn)練的測(cè)試集上,識(shí)別準(zhǔn)確率沒(méi)有降低,說(shuō)明至少在這兩個(gè)集合上LC特征的模式識(shí)別效果是穩(wěn)定的,不存在“過(guò)學(xué)習(xí)”問(wèn)題。而r*的表現(xiàn)不如LC穩(wěn)定,兩者結(jié)合也沒(méi)有顯示互補(bǔ)性。
表2 不同細(xì)?;潭葘?duì)全部數(shù)據(jù)交叉驗(yàn)證結(jié)果和分類準(zhǔn)確率
表3 復(fù)雜性特征的測(cè)試集分類準(zhǔn)確率
上述多組實(shí)驗(yàn)結(jié)果表明,即便不做圖像分割,保留原有背景,直接將原始圖像大幅縮小并二值化,利用二維格子復(fù)雜性也能有效提取醫(yī)學(xué)圖像隱含的預(yù)后信息,可以用來(lái)建立SVM模型預(yù)測(cè)肝癌患者術(shù)后存活時(shí)間。由醫(yī)學(xué)圖像反映出來(lái)的人體結(jié)構(gòu)的復(fù)雜性有其他特征所不能替代的作用。人體從一個(gè)受精卵開(kāi)始發(fā)育為成熟個(gè)體并維持生理機(jī)能,可以看成確定性的迭代過(guò)程,具有分形結(jié)構(gòu),即在不同尺度下有自相似性。因而,在很多尺度下的醫(yī)學(xué)圖像復(fù)雜性都能提取出有臨床價(jià)值的信息。這是本研究將圖像尺寸大幅縮小、丟失了大量數(shù)值精度后仍然能夠捕捉到有效信息的原因。圖像縮小并二值化之后處理的速度很快,對(duì)外部噪音也有很強(qiáng)的魯棒性,意味著本研究的方法對(duì)設(shè)備不敏感。
本研究旨在對(duì)二維LC在醫(yī)學(xué)圖像上的應(yīng)用價(jià)值進(jìn)行初步驗(yàn)證,由于數(shù)據(jù)和計(jì)算資源有限,實(shí)驗(yàn)結(jié)果存在如下不足:①?zèng)]有充分測(cè)試更多不同參數(shù)下LC的效果,而是只選取了8個(gè)參數(shù),除了LC與r*結(jié)合,也沒(méi)有測(cè)試不同參數(shù)下的LC特征組合;②沒(méi)有嘗試與臨床指標(biāo)之間的特征組合,追求最佳識(shí)別效果;③盡管在理論和實(shí)驗(yàn)上都證實(shí)LC對(duì)單調(diào)背景不敏感,但r*顯然受背景影響較大,可以嘗試去除背景或改變希爾伯特曲線的搜索方式來(lái)改善r*的表現(xiàn);④將圖像大幅縮小雖然有種種優(yōu)勢(shì)但也有可能錯(cuò)失一些有用信息,在計(jì)算資源更豐富的前提下,有必要探索更合適的壓縮尺寸;⑤患者數(shù)量?jī)H92例,且來(lái)源單一,樣本量太小可能導(dǎo)致偏差,如果能獲得更多病例或其他形式的醫(yī)學(xué)圖像如超聲醫(yī)學(xué)圖像、核磁共振圖像等等,會(huì)更有說(shuō)服力。
未來(lái)的工作除了彌補(bǔ)上述不足,在預(yù)處理技術(shù)上仍然存在大幅改進(jìn)的余地,比如先對(duì)圖像進(jìn)行二維經(jīng)驗(yàn)?zāi)B(tài)分解(bidimensional empirical mode decomposition)[16]獲取不同層次的紋理圖像,在較大的圖像中設(shè)立可移動(dòng)的窗口來(lái)提取局部復(fù)雜性特征并和全局特征相結(jié)合等等。
總之,由于二維LC算法簡(jiǎn)單易用,對(duì)圖像預(yù)處理要求低,完全有資格成為正在興起的“影像組學(xué)”[4]特征。單就CT圖像而言,更有趣的可能是將LC推廣應(yīng)用到三維圖像的分析上。三維重建后的立體圖像復(fù)雜性度量將有助于提取人體腹腔內(nèi)部的立體結(jié)構(gòu)信息,而不僅僅是平面結(jié)構(gòu)信息,從而有更大的潛力為輔助診斷和預(yù)后建模提供幫助。
[1] BISHOP C M. Pattern recognition and machine learning[M].New York: Springer International Publishing AG, 2006.
[2] LANZARINI L C, DE GIUSTI A E. Pattern recognition in medical images using neural networks[J]. J Comput Sci Technol, 2001, 1(4): 45-54.
[3] NAGARAJ S, RAO G N, KOTESWARARAO K, et al. The role of pattern recognition in computer-aided diagnosis and computer-aided detection in medical imaging: a clinical validation[J]. Int J Comput Appl, 2010, 8(5): 18-22.
[4] GILLIES R J, KINAHAN P E, HRICAK H. Radiomics:Images are more thanpictures, they are data[J]. Radiology,2016, 278(2): 563-577.
[5] 柯大觀, 張宏, 童勤業(yè). 格子復(fù)雜性和符號(hào)序列的細(xì)?;痆J]. 物理學(xué)報(bào),2005, 54(2): 534-542.
[6] KE D G, TONG Q Y. Easily adaptable complexity measure for finite time series[J]. Phys Rev E, 2008, 77(6 pt 2):066215.
[7] KE D G. Unifying complexity and information[J]. Sci Rep,2013, 3: 1585
[8] 劉軍, 鄒倩, 柯大觀, 等. 基于腦電格子復(fù)雜性分析的麻醉深度監(jiān)測(cè)研究[J]. 傳感技術(shù)學(xué)報(bào), 2015, 28(12): 1747-1753.
[9] QIAO G, LI J, HUANG A, et al. Artificial neural networking model for the prediction of post-hepatectomy survival of patients with early hepatocellular carcinoma[J]. J Gastroen Hepato, 2014, 29(12): 2014-2020.
[10] SAGAN H. Hilbert’s space-filling curve[M]. New York:Springer International Publishing AG, 1994: 9-30.
[11] BUTZ A R. Alternative algorithm for Hilbert’s space- filling curve[J]. IEEE T Comput, 1971, 20(4): 424-426.
[12] LANGTON C G. Computation at the edge of chaos: Phasetransitions and emergent computation[J]. Physica D, 1990,42 (1): 12-37.
[13] ANANOS G F J, TSALLIS C. Ensemble averages and nonextensivity at the edge of chaos of one-dimensional maps[J].Phys Rev Lett, 2004, 93: 020601.
[14] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機(jī)理論與算法研究綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2011, 40(1): 2-10.
[15] CHANG C, LIN C. LIBSVM: A library for support vector machines[J]. ACMT Intell Syst Technol, 2011, 2(3): 1-27.
[16] NUNES J, BOUAOUNE Y, DELECHELLE E, et al. Image analysis by bidimensional empirical mode decomposition[J].Image Vision Comput, 2003, 21(12): 1019-1026.