楊 麗,高美婷
(中國民航大學(xué)理學(xué)院,天津 300300)
支持向量機(jī)測定組織光學(xué)參數(shù)的仿真實(shí)驗(yàn)研究
楊 麗,高美婷
(中國民航大學(xué)理學(xué)院,天津 300300)
對新近發(fā)展的支持向量回歸機(jī)確定組織光學(xué)參數(shù)的特性和規(guī)律進(jìn)行了仿真實(shí)驗(yàn)研究。首先通過蒙特卡洛模擬獲得與336組人體組織的光學(xué)特性參數(shù)相對應(yīng)的組織表面漫反射光分布作為樣本數(shù)據(jù)集,并將其分為訓(xùn)練集和測試集兩部分。通過建立不同條件下的組織表面漫射光分布與光學(xué)參數(shù)之間的支持向量回歸模型,研究了支持向量機(jī)用于測定組織光學(xué)參數(shù)時,訓(xùn)練集樣本的個數(shù)、訓(xùn)練集與測試樣本的關(guān)系以及數(shù)據(jù)預(yù)處理方法等因素對測量精度的影響。結(jié)果表明,在小樣本條件下μt和μeff的平均相對誤差分別為0.98%和4.34%;支持向量回歸機(jī)用于組織光學(xué)參數(shù)測定不僅具有較高的精度,而且對樣本數(shù)具有很好的適應(yīng)性。
光學(xué)參數(shù);支持向量機(jī);蒙特卡洛模擬
激光與生物組織間的相互作用主要包括光子的被吸收和被散射,在組織表面形成的漫反射光分布決定于生物組織的光學(xué)特性參數(shù),能夠反映組織生理及病理狀態(tài)。因此,研究確定組織光學(xué)參數(shù)的有效方法是實(shí)現(xiàn)生物組織病理狀態(tài)光診斷的重要基礎(chǔ)[1-2]。光學(xué)特性參數(shù)主要包括吸收系數(shù)μa、優(yōu)化散射系數(shù)μs′、全衰減系數(shù)μt、有效衰減系數(shù)μeff和各向異性因子g(散射角余弦的平均值)等。目前,從漫反射光分布中確定組織光學(xué)參數(shù)的常見方法有漫射近似法[3]、神經(jīng)網(wǎng)絡(luò)(neural network,NN)[4]等。漫射近似法[5-6]只適用于高散射低吸收的介質(zhì);NN是基于樣本趨于無窮大的條件下進(jìn)行研究的一種機(jī)器學(xué)習(xí)方法[7-8],對于小樣本系統(tǒng),預(yù)測的結(jié)果存在不穩(wěn)定性。支持向量機(jī)(support vector machines,SVM)是由Vapnik等人在1995年提出的一種新的機(jī)器學(xué)習(xí)方法[9-11];該方法在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。近年來,SVM在識別、分類及回歸等研究領(lǐng)域中都獲得了較好的應(yīng)用[12]。但將其用于確定組織光學(xué)參數(shù)的研究報道尚很少見,SVM用于確定組織光學(xué)參數(shù)時的特性、規(guī)律及影響測量精度的因素等尚不十分清楚。
本文對支持向量機(jī)確定組織光學(xué)參數(shù)的特性和規(guī)律進(jìn)行了仿真實(shí)驗(yàn)研究。首先通過蒙特卡洛模擬獲得與336組人體組織的光學(xué)特性參數(shù)相對應(yīng)的組織表面漫反射光分布作為樣本數(shù)據(jù)集,并將其分為訓(xùn)練集和測試集兩部分。通過建立不同條件下的組織表面漫射光分布與光學(xué)參數(shù)之間的支持向量回歸模型,研究了支持向量回歸機(jī)用于測定組織光學(xué)參數(shù)時,訓(xùn)練集樣本的個數(shù)、訓(xùn)練集與測試樣本的關(guān)系以及數(shù)據(jù)預(yù)處理方法等因素對測量精度的影響。
支持向量回歸(support vector regression,SVR)是Vapnik等人于1995年創(chuàng)建的。設(shè)樣本集:(xi,yi)∈Rn× R,i=1,2,…,s,對于線性回歸有
式(1)為回歸函數(shù),目的是求得最佳回歸函數(shù),通過求式(2)的最小極值實(shí)現(xiàn)。其中:C為懲罰因子(為正數(shù),即控制對錯樣本的懲罰程度,C越大表示對錯誤的懲罰越重);ξ、ξ*為松弛變量的上限與下限。
對于非線性問題,以往的擬合方法通常是在線性方程后面加高階項(xiàng),這種做法增加了過擬合的風(fēng)險。SVR是采用核函數(shù)技術(shù)將數(shù)據(jù)映射到高維特征空間,然后再進(jìn)行線性回歸問題的求解。核函數(shù)作為一種由線性到非線性之間的橋梁,其作用是代替高維特征空間中的內(nèi)積運(yùn)算,這樣可避免復(fù)雜的高維運(yùn)算。常用的核函數(shù)有:
1)多項(xiàng)式核函數(shù):K(xi,xj)=(xixj+1)d;
3)sigmoid核函數(shù):K(x,xi)=tanh[υ(x·xi)+a]。
本文采用林智仁等開發(fā)設(shè)計的LIB-SVM軟件包[13],主要使用ε-SVM回歸,采用徑向基核函數(shù):k(xi,x)=由于LIB-SVM計算軟件只支持多輸入單輸出,而組織表面空間分辨漫反射光分布與一對光學(xué)參數(shù)(μa,μs)同時對應(yīng)。注意到組織光學(xué)參數(shù)的下列關(guān)系
即:一對光學(xué)參數(shù)(μa,μs)與總衰減系數(shù)μt和有效衰減系數(shù)μeff分別存在對應(yīng)關(guān)系,也即μt和μeff分別與漫射光存在對應(yīng)關(guān)系。因此,本文采用LIB-SVM計算軟件分別建立可實(shí)現(xiàn)μt和μeff預(yù)測的回歸模型,然后利用式(3)和式(4),通過對其聯(lián)立求解,可得到μa和μs。
為不失一般性,在人體組織光學(xué)參數(shù)范圍內(nèi)選定336組光學(xué)參數(shù)(μa,μs),其中光學(xué)吸收系數(shù)μa∈(0.02 cm-11 cm-1),選定數(shù)值間隔為0.05 cm-1共21個μa值;光學(xué)散射系數(shù)μs∈(25 cm-1100 cm-1),選定數(shù)值間隔為5 cm-1,共16個μs值;分別得到21×16=336組參數(shù)組合(μa,μs),以此作為樣本的光學(xué)特性參數(shù)。設(shè)樣本的折射率為1.4,各向異性因子g=0.8,利用Li-Hong,V.Wang等人研究的MC模擬程序[14]獲得對應(yīng)的組織表面空間分辨漫反射光,從而獲得用于模擬實(shí)驗(yàn)研究的336組樣本數(shù)據(jù)。
為獲得最佳的預(yù)測能力,SVM在建模過程中需要調(diào)節(jié)相應(yīng)的參數(shù),包括核函數(shù)的參數(shù)γ以及懲罰因子C。C是控制SVM預(yù)測性能的一個重要參數(shù),它可以控制最大化邊界和最小化訓(xùn)練誤差之間的平衡。如果參數(shù)C太小,會出現(xiàn)訓(xùn)練數(shù)據(jù)的欠擬合。如果參數(shù)C太大,將會過擬合訓(xùn)練數(shù)據(jù)。因此,C選擇的好壞直接影響SVM的訓(xùn)練速度和泛化性能。本文結(jié)合網(wǎng)格搜索法(grid search)和十折交叉驗(yàn)證法,確定SVM預(yù)測模型中最優(yōu)核函數(shù)的參數(shù)γ以及懲罰因子C。
2.1 訓(xùn)練樣本數(shù)量對SVM預(yù)測精度的影響
選擇μa=1 cm-1的最后15個樣本數(shù)據(jù)作為測試集,從剩下的樣本數(shù)據(jù)中分別隨機(jī)選擇訓(xùn)練集樣本數(shù)為:N=300,256,128,64,32,15,建立μt和μeff最優(yōu)SVM預(yù)測模型。通過參數(shù)尋優(yōu)法分別獲得最優(yōu)核函數(shù)的參數(shù)γ、懲罰因子C以及建模時間,如表1所示。不同預(yù)測模型的預(yù)測結(jié)果用平均相對誤差表示為
預(yù)測平均相對誤差如表2所示。
表1 不同SVM模型的最優(yōu)參數(shù)Tab.1 Best parameters of different SVM models
表2 不同預(yù)測模型的預(yù)測誤差Tab.2 Average relative prediction errors of different models
由表1可見,訓(xùn)練集的樣本個數(shù)對于μt最佳模型的建模時間影響不大,但隨著訓(xùn)練集樣本數(shù)的減少,μeff最佳模型的建模時間明顯縮短。
由表2可見,隨著訓(xùn)練集樣本數(shù)目的減少,各參數(shù)的平均預(yù)測誤差均逐漸增大,但即使對于樣本數(shù)為15的預(yù)測模型,μt、μeff平均預(yù)測誤差僅分別為0.98%、4.34%,μs′、μa的平均相對誤差分別為1.6%、7.1%。即在小樣本訓(xùn)練集下,SVM也能達(dá)到很高的預(yù)測精度。
2.2 SVM的預(yù)測能力范圍
為了考察SVM預(yù)測模型的預(yù)測能力范圍,選擇μa∈(0.02 cm-10.07 cm-1)的15組樣本作為訓(xùn)練集,分別建立μt、μeff的最優(yōu)SVM預(yù)測模型。對余下的321組數(shù)據(jù),按照μa的大小,依次選取18個測試集:μa∈(0.1 cm-10.15 cm-1)的15個樣本作為測試集1,μa∈(0.2 cm-10.25 cm-1)的15個樣本作為測試集2,…,μa∈(0.95 cm-11 cm-1)的15個樣本作為測試集18。對18個測試集的光學(xué)參數(shù)進(jìn)行預(yù)測,預(yù)測結(jié)果的相對誤差如圖1所示。
圖1 不同測試集的預(yù)測相對誤差Fig.1 Relative predicting errors of different testing sets
由圖1可以看出,利用同一訓(xùn)練集建立的模型,對于訓(xùn)練集以外的測試集進(jìn)行預(yù)測,當(dāng)測試集距離訓(xùn)練集較近時,其預(yù)測誤差的平均值相對較??;從第1組到第10組,隨著測試集距離訓(xùn)練集越來越遠(yuǎn)(μa越大),預(yù)測的平均相對誤差越來越大;但隨著距離的進(jìn)一步增加,增幅越來越小,最終趨于穩(wěn)定。μt、μeff的最大平均預(yù)測誤差分別為19.1%和81.8%,其預(yù)測精度仍在可接受范圍[15]。
以上討論都是圍繞用人體組織范圍內(nèi)的數(shù)據(jù)建立的模型,預(yù)測人體組織范圍內(nèi)的組織光學(xué)參數(shù),下面討論了利用人體組織內(nèi)的數(shù)據(jù)建立的預(yù)測模型去預(yù)測人體組織范圍外的光學(xué)參數(shù)。利用μa∈(0.02 cm-10.07 cm-1)的15個樣本數(shù)據(jù)作為訓(xùn)練集,基于SVM分別建立μt和μeff的預(yù)測模型。上述預(yù)測模型已建好,又通過MC模擬出人體組織范圍外16組數(shù)據(jù)作為測試集,預(yù)測結(jié)果如表3所示。
表3 人體組織范圍外的光學(xué)參數(shù)預(yù)測情況Tab.3 Predicted results of optical parameters outside human scope
其中,μt和μeff的最大相對誤差、平均相對誤差分別為32%、98%和19.95%、44.2%。結(jié)果表明,對于人體組織范圍外的μt和μeff的預(yù)測精度相比人體組織范圍內(nèi)的預(yù)測精度相差不大。說明SVM有一定的推廣能力,不僅在人體組織范圍內(nèi)得到很好的應(yīng)用,在其范圍外也可以進(jìn)行光學(xué)參數(shù)的預(yù)測。
2.3 數(shù)據(jù)預(yù)處理方式對SVM預(yù)測精度的影響
實(shí)際應(yīng)用中,有可能需要對漫射光數(shù)據(jù)預(yù)處理,主要有兩種預(yù)處理方式:0-1歸一化和標(biāo)準(zhǔn)化。選擇μa=1cm-1的最后15個作為測試集,選擇μa∈(0.95cm-11 cm-1)的15個樣本數(shù)據(jù)作為訓(xùn)練集。分別將樣本漫射光數(shù)據(jù)用上述兩種方法進(jìn)行預(yù)處理后建立的模型對光學(xué)參數(shù)預(yù)測精度影響情況如表4所示。
表4 不同數(shù)據(jù)預(yù)處理方式的預(yù)測誤差Tab.4 Error comparison of different data preprocessing ways
由表4可見,采用兩種預(yù)處理之后的數(shù)據(jù)所建立的SVM模型用于光學(xué)參數(shù)μt和μeff的預(yù)測,其精度及建模時間的改變不大,即漫射光強(qiáng)數(shù)據(jù)預(yù)處理對預(yù)測精度的影響很小。
利用LIB-SVM分別建立μt、μeff的回歸模型,系統(tǒng)地研究了訓(xùn)練集數(shù)量、數(shù)據(jù)預(yù)處理方式以及測試集與訓(xùn)練集的包含關(guān)系等因素對預(yù)測精度的影響。結(jié)果表明:SVM用于組織光學(xué)參數(shù)預(yù)測時,在小樣本條件下具有較高的精度;對訓(xùn)練樣本數(shù)據(jù)有很高的適應(yīng)性;漫射光數(shù)據(jù)預(yù)處理對預(yù)測精度的影響很小。
[1]GHOSH N,MOHANTY S K,MAJUMDER S K,et al.Measurement of opticaltransportproperties of normal andmalignant human breast tissue [J].Appl Opt,2001,40:176-184.
[2]AMELINK A,STERENBORG H J.Measurement of the local optical properties of turbid media by differential path-length spectroscopy[J]. Appl Opt,2004,43(15):3048-3054.
[3]KIENLA A,LILGE L,PATTERSON M S,et al.Spatially resolved absolute diffuse reflectance measurements for noninvasive determination of the optical scattering and absorption coefficients of biological tissue[J]. Appl Opt,1996,35(13):2304-2314.
[4]ISHAN BARMAN,NARAHARA CHARI DINGARI,NARASIMHAN RAJARAM,et al.Rapid and accurate determination of tissue optical properties using least-squares support vector machines[J].Biomedical Optics Express,2011,2(3):593-599.
[5]FARRELL T J,WILSON B C,PATTERSON M S.A diffusion theory model of spatially resolved steady state diffuse reflectance for the noninvasive determination of tissue optical properties in-vivo[J].Med Phys,1992,19:879-888.
[6]MARTELLI F,SASSAROLI A,BIANCO S D,et al.Solution of the time-dependent diffusion equation for layered diffusive media by the eigenfunction method[J].Physical Review E,2003,67(5):1-14.
[7]LI C-X.Artificial neural network method for determining optical properties from double-integrating-spheres measurements[J].C Opt Letters,2010,10:174-176.
[8]FARRELL T J,WILSON B C,PATTERSON M S.The use of a neural network to determine tissue optical properties from spatially resolved diffuse reflectance measurements[J].Physics in Medicine and Biology,1992,37(12):2281-2286.
[9]CORTES C,VAPNIK V N.Support vector networks[J].Machine Learning,1995,20(3):273-297.
[10]OSUNAS E,F(xiàn)REUND R,GUOSI F.Training Support Vector Machines:An Application to FaceDetection[C]//Proceedings of IEEE Conference on CVPRE.Puerto Ricl,1997:130-136.
[11]PLATT J.Fast Training of Support Vector Machines using Sequential Minimal Optimization[C]//Advances in Kernel Methods.MIT Press,1999:185-208.
[12]MACIEJ ZIEBA,JAKUB M TOMCZAK,MAREK LUBICZ.Boosted SVM for extracting rules from imbalanced data in application to prediction of the post-operative life expectancy in the lung cancer patients[J]. Appl Soft Comput J,2013,7:99-108.
[13]Support Vector Machines Software[EB/OL].[2014-04-10].http://www. csie.ntu.edu.tw/:cjlin/libsvm.
[14]Monte Carlo Simulation Software[EB/OL].[2014-04-10].http://oilab. tamu.edu/mc.html(accessed Feb 5,2005).
[15]XU HEPING,PATTERSON MICHAEL S.Determination of the optical properties of tissue-simulating phantoms from interstitial frequency domain measurements of relative fluence and phase difference[J].Optics Express,2006,14(14):6485-6501.
(責(zé)任編輯:楊媛媛)
Simulation experimental study on determination of tissue optical parameters by SVM method
YANG Li,GAO Mei-ting
(College of Science,CAUC,Tianjin 300300,China)
Characteristics and laws of optical parameters measuring by recent development of support vector regression algorithm are simulated and studied.Firstly 336 optical parameter samples and the corresponding diffuse reflectance distribution are obtained by Monte Carlo simulation,and the samples are divided into training set and testing set.By establishment of support vector machines(SVM)models between optical parameters and diffuse reflectance distribution in different conditions,various factors on prediction accuracy of SVM are researched,including the numbers of training set,the relationship between training set and testing set and the data preprocessing methods.Results show that in small sample condition the maximum average relative error of μtand μeffare 0.98%and 4.34%respectively.The SVM used for determination of tissue optical parameters has high accuracy and good adaptability to the number of samples.
optical parameters;support vector machines;Monte Carlo simulation
R318.51
:A
:1674-5590(2015)04-0042-04
2014-04-15;
:2014-05-29
:國家自然科學(xué)基金項(xiàng)目(61179047)
楊麗(1959—),女,河北束鹿人,教授,博士,研究方向?yàn)榧す饧夹g(shù)及其應(yīng)用.