翟明陽 趙遠(yuǎn) 高浩尚 林偉 徐浩 尹建華
摘 要 傅里葉變換紅外光譜成像(FTIRSI)技術(shù)可同時(shí)獲得樣本組織的顯微結(jié)構(gòu)信息和紅外光譜信息,結(jié)合化學(xué)計(jì)量學(xué)算法可用于樣品光譜信息的定量分析和組織判別的研究。基于此,本實(shí)驗(yàn)采用FTIRSI技術(shù)結(jié)合支持向量機(jī)分類(SVC),實(shí)現(xiàn)健康和病變關(guān)節(jié)軟骨組織的判別,其識(shí)別率分別為100.0%和95.4%,準(zhǔn)確率達(dá)到97.7%; 基于FTIRSI建立支持向量回歸(SVR)模型定量研究關(guān)節(jié)軟骨樣本中膠原蛋白和蛋白多糖兩種生物大分子的含量與分布,發(fā)現(xiàn)病變關(guān)節(jié)軟骨中蛋白多糖的含量發(fā)生流失,尤其在表層區(qū)。研究結(jié)果表明,F(xiàn)TIRSI與支持向量機(jī)(SVM)相結(jié)合有望成為一種新型的骨關(guān)節(jié)炎診斷工具,對(duì)骨關(guān)節(jié)炎監(jiān)測(cè)和診斷研究具有重要意義。
關(guān)鍵詞 關(guān)節(jié)軟骨; 骨關(guān)節(jié)炎; 傅里葉變換紅外光譜成像; 支持向量機(jī); 蛋白多糖; 膠原蛋白
1 引 言
關(guān)節(jié)軟骨是維持關(guān)節(jié)正常生理功能的重要組織之一,在關(guān)節(jié)運(yùn)動(dòng)時(shí)可與其周圍組織(滑液、韌帶以及骨小梁等)精確地相互作用,使關(guān)節(jié)的磨損度降到最小。健康關(guān)節(jié)軟骨組織主要由軟骨細(xì)胞和細(xì)胞外基質(zhì)構(gòu)成,表面光滑且有一定的彈性。細(xì)胞外基質(zhì)的主要成分有膠原蛋白(Ⅱ型膠原)、蛋白多糖、水和無機(jī)鹽,此外還有結(jié)構(gòu)糖蛋白及少量脂肪等[1]。膠原蛋白和蛋白多糖作為基質(zhì)的兩種主要成分,膠原蛋白纖維排列成網(wǎng)絡(luò)結(jié)構(gòu)以維持軟骨的結(jié)構(gòu)和形狀[2],蛋白多糖包埋于膠原纖維網(wǎng)絡(luò)中,具有一定的抗壓和分散負(fù)荷的能力[3]。關(guān)節(jié)軟骨具有明顯的板層狀結(jié)構(gòu),大多分為表層區(qū)(Superficial zone, SZ)、過渡區(qū)(Transitional zone, TZ)、放射區(qū)(Radial zone, RZ)和鈣化區(qū)(Calcified zone, CZ)。值得注意的是,不同區(qū)域的膠原蛋白和蛋白多糖的濃度、分布以及結(jié)構(gòu)不同[4]。
若膠原纖維網(wǎng)絡(luò)破壞或者蛋白多糖缺失,關(guān)節(jié)軟骨的組織功能便開始退化,最終會(huì)導(dǎo)致骨關(guān)節(jié)炎(Osteoarthritis, OA)等關(guān)節(jié)疾病的發(fā)生。目前大多數(shù)OA患者表現(xiàn)出明顯的臨床癥狀時(shí)已經(jīng)處于OA的中后期,難以進(jìn)行有效的治療,而OA早期的癥狀不明顯,僅表現(xiàn)為軟骨基質(zhì)主成分濃度及細(xì)胞形態(tài)和活性的改變[5]。因此,采用常規(guī)的臨床手段和實(shí)驗(yàn)手段[6~10]很難進(jìn)行OA的早期診斷。
傅里葉變換紅外光譜成像(Fourier transform infrared spectroscopic imaging, FTIRSI)技術(shù)將傅里葉變換紅外光譜測(cè)量和微區(qū)成像技術(shù)有機(jī)結(jié)合起來,可同時(shí)采集樣品的分子光譜和表面形貌信息,具有高精度、高靈敏度以及高空間分辨率等優(yōu)點(diǎn)[11,12]。支持向量機(jī)(Support vector machine, SVM)由Vapnik等在1995年首次提出,是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展起來的一種模式識(shí)別方法,通過非線性映射將數(shù)據(jù)樣本映射到高維特征空間,以尋求最小化結(jié)構(gòu)風(fēng)險(xiǎn),從而在這個(gè)空間獲得良好的線性分類或回歸結(jié)果[13]。從某種意義上講,支持向量機(jī)分類(Support vector machine classification, SVC)和支持向量回歸(Support vector regression, SVR)的本質(zhì)是相同的。SVC是通過尋找最優(yōu)分類超平面,讓兩個(gè)分類集合的支持向量或者所有的數(shù)據(jù)離分類平面最遠(yuǎn); SVR是通過尋找最優(yōu)回歸平面,讓一個(gè)集合的所有數(shù)據(jù)到該平面的距離最近。SVM相較于其它傳統(tǒng)方法,它的分類和回歸能力在解決小樣本數(shù)、非線性以及高維數(shù)據(jù)空間等問題上有其獨(dú)特的優(yōu)勢(shì)[14,15]。首先,通過尋求最小化結(jié)構(gòu)風(fēng)險(xiǎn),提高了回歸模型的泛化能力,經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍最小化也因此得以實(shí)現(xiàn),進(jìn)而可以使小樣本訓(xùn)練集有良好的回歸預(yù)測(cè)結(jié)果; 其次,該算法可以轉(zhuǎn)換成一個(gè)凸優(yōu)化(二次規(guī)劃)問題,理論上,得到的將是全局最優(yōu)解,它通過引入核函數(shù),既解決了樣本分類過程中線性不可分問題,也解決了高維空間中的“維數(shù)災(zāi)難”等問題,從而避免了過擬合問題[16,17]。目前常用的核函數(shù)類型主要有以下4類:線性核函數(shù)(Linear kernel function, LF)、采用多項(xiàng)式形式的內(nèi)積核函數(shù)(Polynomial kernel function, PF)、徑向基核函數(shù)(Radial basis kernel function, RBF)以及Sigmoid核函數(shù)。支持向量機(jī)性能的優(yōu)劣主要取決于核函數(shù)及其參數(shù)的選擇,其中核函數(shù)的選擇更為重要[18],但沒有一種公式化的方法進(jìn)行二者的選擇,通常采用不斷嘗試的方式確定最優(yōu)參數(shù)。
紅外光譜技術(shù)結(jié)合SVM算法在諸多領(lǐng)域已得到廣泛應(yīng)用[19,20]。Cheng等[19]通過基于小波特征提取的傅里葉變換紅外光譜和支持向量機(jī)相結(jié)合,將正常、發(fā)育異常、早期癌變以及晚期癌變進(jìn)行分類,實(shí)現(xiàn)早期結(jié)腸癌的診斷檢測(cè)。張錄達(dá)等[20]用小麥樣品蛋白質(zhì)含量與其近紅外光譜建立SVR模型,以此預(yù)測(cè)小麥樣品中蛋白質(zhì)的含量,預(yù)測(cè)結(jié)果與凱氏定氮法確定的結(jié)果平均誤差小于0.32,并與偏最小二乘(PLS)回歸模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,表明所建SVR模型可與近紅外光譜相結(jié)合用于實(shí)際樣品的定量分析,且有較好的分析效果。本研究將傅里葉變換紅外光譜技術(shù)與SVM算法相結(jié)合用于OA的研究,首先(SVC)對(duì)健康和2年病變的關(guān)節(jié)軟骨樣本進(jìn)行判別分類研究,進(jìn)而(SVR)研究兩種主成分在兩種樣本中的定量分布和含量變化,為軟骨的退化和修復(fù)過程研究提供實(shí)驗(yàn)依據(jù)。本方法有助于發(fā)展新型的OA診斷工具。
圖2是健康和2年病變關(guān)節(jié)軟骨組織的可見光圖像,全吸收?qǐng)D像以及AmideⅡ、糖帶的特征吸收?qǐng)D像。通過觀察健康關(guān)節(jié)軟骨AmideⅡ(圖2C)以及糖帶(圖2D)的特征吸收?qǐng)D像,發(fā)現(xiàn)從軟骨表層區(qū)到軟骨下組織,膠原蛋白的含量分布不均勻,表層區(qū)高于深層區(qū),而蛋白多糖恰相反,表層區(qū)含量明顯少于深層區(qū)。根據(jù)以上的定性分析可知,關(guān)節(jié)軟骨組織中膠原蛋白和蛋白多糖的含量隨組織徑向深度的增加呈不同的含量分布。
將健康和病變關(guān)節(jié)軟骨的紅外光譜圖像進(jìn)行對(duì)比分析發(fā)現(xiàn),OA關(guān)節(jié)軟骨組織中軟骨細(xì)胞的數(shù)量減少,大小和形態(tài)也發(fā)生了變化,已不能將軟骨細(xì)胞與周圍物質(zhì)明顯區(qū)分(圖2A); OA關(guān)節(jié)軟骨在表層區(qū)和過渡區(qū)吸光強(qiáng)度減弱,說明此區(qū)域組織內(nèi)生物大分子物質(zhì)含量可能有損失(圖2B)。OA關(guān)節(jié)軟骨的膠原蛋白含量在表層區(qū)和過渡區(qū)出現(xiàn)少量丟失,深層區(qū)基本沒變(圖2C),膠原蛋白含量的損失則可能代表OA的發(fā)生時(shí)間較長[24],而蛋白多糖在表層區(qū)和過渡區(qū)出現(xiàn)了明顯的丟失,深層區(qū)相對(duì)較弱(圖2D)。客觀上,紅外吸收?qǐng)D像中的吸光度代表同一樣本成分含量的相對(duì)變化,不能表示不同樣本之間的絕對(duì)含量差異。因此,對(duì)健康和病變關(guān)節(jié)軟骨進(jìn)行定量判斷與預(yù)測(cè),需要借助化學(xué)計(jì)量學(xué)算法進(jìn)行分析。
3.2 SVC模型的評(píng)估和預(yù)測(cè)
通過不同核函數(shù)(LF,RBF,2nd-PF和3rd-PF)及其相應(yīng)參數(shù)的不斷嘗試,幾組較優(yōu)SVC模型對(duì)預(yù)測(cè)集的準(zhǔn)確率如表1所示,核函數(shù)及其參數(shù)的選擇會(huì)影響SVC模型預(yù)測(cè)能力。通過對(duì)比預(yù)測(cè)集的結(jié)果,SVC模型的構(gòu)建最終選用徑向基核函數(shù),參數(shù)C=1,且G=10。
SVC預(yù)測(cè)集的結(jié)果如表2所示,健康組全部被正確識(shí)別; 對(duì)于OA-2Y組,3個(gè)光譜被誤判到健康組,即來自于切片OA-2Y-2sec的最后3組光譜。兩組最終預(yù)測(cè)鑒別準(zhǔn)確率為97.69%。出現(xiàn)誤判的原因可能是:其一,該軟骨組織切片較其它切片OA病變程度輕,蛋白多糖含量丟失主要發(fā)生在SZ,而TZ及更深區(qū)域含量變化較小,因而造成誤判[25]; 其二,因OA軟骨細(xì)胞形態(tài)、大小等發(fā)生變化[26],可能會(huì)帶來更強(qiáng)的光散射效應(yīng),這也會(huì)對(duì)判別
結(jié)果造成影響。
前期的研究工作中,采用FTIRSI結(jié)合各種化學(xué)計(jì)量學(xué)算法來識(shí)別軟骨的退化程度[21,27],其中,偏最小二乘判別分析(PLS-DA)和主成分分析-Fisher判別分析(PCA-FDA)的鑒別準(zhǔn)確率分別為90.2%和86.7%,相比之下,SVC模型具有極高的判別準(zhǔn)確率。最重要的是,SVC可以通過使用特定的核函數(shù),克服了關(guān)節(jié)軟骨變性期間其非線性變化和不明顯的界限,更適合于不同類型的樣本分布。但是該方法有其局限性,首先,核函數(shù)及其參數(shù)的確定是非常耗時(shí)的,通常,核函數(shù)和參數(shù)的優(yōu)化組合取決于樣本的類型,需要在不斷嘗試之后確定; 其次,SVC的結(jié)果輸出是分類值而不是得分(如PCA-FDA或PLS-DA),分類值不能反映組內(nèi)每個(gè)光譜的分布情況及其退化程度,因此難以確定不同組的譜圖差異,也難以進(jìn)行有效的統(tǒng)計(jì)分析。
3.3 SVR模型的評(píng)估和預(yù)測(cè)
SVR模型中采用的預(yù)處理組合是最大值標(biāo)準(zhǔn)化(Maximum normalization)+擴(kuò)展多元散射校正(Extended multi-scatter calibration, EMSC),選用線性核函數(shù): ε=0.1, C=0.0005。SVR模型性能的優(yōu)劣可以通過均方根誤差(Root mean square error, RMSE)和擬合優(yōu)度(R-Square)兩個(gè)參數(shù)進(jìn)行評(píng)估。OA-2Y模型校正集和驗(yàn)證集的RMSE和R-Square見表3。其中,RMSE代表樣本相對(duì)于回歸線的離散程度,其值越小說明離散程度??; R-Square代表擬合優(yōu)度或相關(guān)系數(shù)的平方,其值越大,越接近1, 說明兩個(gè)集合相關(guān)程度高。由此可知,預(yù)測(cè)值與真實(shí)值二者的相關(guān)性很強(qiáng),所建SVR模型具有良好的預(yù)測(cè)能力。然而,SVR存在過擬合的問題,以上兩個(gè)參數(shù)的評(píng)估僅做參考,而最終模型好壞的確定,還需要依據(jù)模型預(yù)測(cè)未知樣本的結(jié)果,并不斷調(diào)整相關(guān)參數(shù)以達(dá)到最理想的效果。
圖3為SVR模型計(jì)算的病變關(guān)節(jié)軟骨組織中膠原蛋白和蛋白多糖的分布情況和PLS模型結(jié)果[28]的比較。發(fā)現(xiàn)SVR計(jì)算得到的OA關(guān)節(jié)軟骨膠原蛋白的平均濃度(67.6%)遠(yuǎn)高于蛋白多糖的平均濃度(32.4%),并且與PLS計(jì)算的結(jié)果接近(膠原蛋白和蛋白多糖的平均濃度分別為70.7%和31.9%),兩種方法對(duì)膠原蛋白和蛋白多糖的預(yù)測(cè)結(jié)果分別僅相差3.05%和0.52%。此結(jié)果與文獻(xiàn)[22,28]報(bào)道基本一致,并且兩種生物大分子的分布情況與其特征吸收?qǐng)D像的定性分析基本吻合(圖2C和2D),驗(yàn)證了SVR模型對(duì)病變樣本較好的預(yù)測(cè)能力。
關(guān)節(jié)軟骨中主成分含量隨組織深度變化明顯。與健康樣本預(yù)測(cè)結(jié)果對(duì)比發(fā)現(xiàn)[22,28],在2年病變關(guān)節(jié)軟骨中,蛋白多糖含量在表層區(qū)、過渡區(qū)以及深層區(qū)末端丟失比較嚴(yán)重,在深層區(qū)中部含量基本不變。蛋白多糖的損失發(fā)生在軟骨表面下200 μm深度之前,這足以引起軟骨表面纖維化及其功能變性,影響患者的正?;顒?dòng)。深層區(qū)末端蛋白多糖濃度的減弱則可能與OA期間深層區(qū)的部分鈣化有關(guān),鈣化作用及軟骨細(xì)胞功能退化造成了蛋白多糖的生成減少[29]。
4 結(jié) 論
采用FTIRSI技術(shù)對(duì)犬膝關(guān)節(jié)軟骨組織切片進(jìn)行紅外光譜成像,與化學(xué)計(jì)量學(xué)方法SVM相結(jié)合,成功應(yīng)用于關(guān)節(jié)軟骨組織的判別分析及其主成分(膠原蛋白和蛋白多糖)含量分布的研究。FTIRSI-SVC用于健康和病變關(guān)節(jié)軟骨的判別,其預(yù)測(cè)鑒別準(zhǔn)確率達(dá)97.7%,優(yōu)于PCA-FDA以及PLS-DA結(jié)果,為OA的早期臨床診斷及相關(guān)研究提供了一種方便可靠的方法,此外,因其使用特定的核函數(shù),可應(yīng)用于多組樣本數(shù)據(jù)的分類識(shí)別; FTIRSI-SVR用于定量分析關(guān)節(jié)軟骨中膠原蛋白和蛋白多糖的含量分布,一定程度揭示了病變過程中生物大分子含量的變化規(guī)律,有助于監(jiān)測(cè)關(guān)節(jié)疾病進(jìn)展及組織損傷和修復(fù)。
致 謝: 感謝美國奧克蘭大學(xué)Xia Yang教授課題組所提供的研究支持。
References
1 Kuettner K E. Clin. Biochem., 1992, 25(3): 155-163
2 Eyre D. Arthritis Res. Ther., 2001, 4(1): 30
3 Mcdevitt C A. Ann. Rheum. Dis., 1973, 32(4): 364-378
4 Ramakrishnan N, Xia Y, Bidthanapally A, Lu M. Appl. Spectros., 2007, 61(12): 1404-1409
5 MAO Zhi-Hua, ZHANG Xue-Xi, WU Yue-Chao, YIN Jian-Hua, XIA Yang. Chinese J. Anal. Chem., 2015, 43(4): 518-522
毛之華, 張學(xué)喜, 吳曰超, 尹建華, XIA Yang. 分析化學(xué), 2015, 43(4): 518-522
6 Zheng S K, Xia Y, Bidthanapally A, Badar F, Duvoisin N, Ilsar I. Magn. Reson. Imaging, 2009, 27(5): 648-655
7 Wilson W, Huyghe J M, van Donkelaar C C. Biomechan. Modeling Mechanobiol., 2007, 6(1): 43-53
8 Chen SS, Falcovitz Y H, Schneiderman R, Maroudas A, Sah R L. Osteoarthr. Cartilage, 2001, 9(6): 561-569
9 Xia Y, Alhadlaq H, Ramakrishnan N, Bidthanapall A, Badar F, Lu M. J. Struct. Biol., 2008, 164(1): 88-95
10 Tan A H, Mitra A K, Chang P C, Tay B K, Nag H L, Sim C S. J. Orthopaedic Surg., 2004, 12(2): 199-204
11 YIN Jian-Hua, HUANG Feng-Ling, QIAN Zhi-Yu, XIE Jie-Ru. Spectroscopy and Spectral Analysis, 2014, 34(2): 340-343
尹建華, 黃鳳玲, 錢志余, 謝捷如. 光譜學(xué)與光譜分析, 2014, 34(2): 340-343
12 Yin J, Xia Y. Appl. Spectros., 2010, 64(11): 1199-1208
13 Deris A M, Zain A M, Sallehuddin R. Procedia Engineer., 2011, 24(8): 308-312
14 Kumardash C S, Sahoo P, Dehuri S, Cho S B. Inter. J. Artificial Intell. Tools, 2015, 24(4): 1550013
15 Nieto P J G, Combarro E F, Díaz J J D C, Montaésb E. Appl. Mathemat. Comput., 2013, 219(17): 8923-8937
16 CHU Xiao-Li. Molecular Spectroscopy Analytical Technology Combined with Chemometrics and its Applications. Beijing: Chemical Industry Press, 2011: 41-61, 196-214
褚小立. 化學(xué)計(jì)量學(xué)方法與分子光譜分析技術(shù). 北京: 化學(xué)工業(yè)工業(yè)出版社, 2011: 41-61, 196-214
17 OUYANG Ai-Guo, TANG Tian-Yi, ZHOU Xin, LIU Yan-De. Chinese Journal of Luminescence, 2016, 37(10): 1253-1258
歐陽愛國, 唐天義, 周 鑫, 劉燕德. 發(fā)光學(xué)報(bào), 2016, 37(10): 1253-1258
18 He S, Zhou W. IEEE Comput. Soci., 2012: 2047-2051
19 Cheng C G, Tian Y M, Jin W Y. Spectroscopy, 2008, 22(5): 397-404
20 ZHANG Lu-Da, JIN Ze-Chen, SHEN Xiao-Nan, ZHAO Long-Lian. LI Jun-Hui, YAN Yan-Lu. Spectroscopy and Spectral Analysis, 2005, 25(9): 1400-1403
張錄達(dá), 金澤宸, 沈曉南, 趙龍蓮, 李軍會(huì), 嚴(yán)衍祿. 光譜學(xué)與光譜分析, 2005, 25(9): 1400-1403
21 Mao Z H, Yin J H, Zhang X X, Wang X, Xia Y. Biomed. Optics. Express., 2016, 7(2): 448-453
22 Yin J, Xia Y, Lu M. Spectrochim. Acta, 2012, 88(3): 90-96
23 WU Yue-Chao, YIN Jian-Hua, LIU Yu, MAO Zhi-Hua. Journal of Nanjing University of Aeronautics & Astronautics, 2015, 47(3): 421-427
吳曰超, 尹建華, 劉 玉, 毛之華. 南京航空航天大學(xué)學(xué)報(bào), 2015, 47(3): 421-427
24 Bi X, Yang X, Bostrom M P G, Bartusik D, Ramaswamy S, Fishbein K W, Spencer R G, Camacho N P. Anal. Bioanal. Chem., 2007, 387(5): 1601-1612
25 Yin J, Xia Y. Spectrochim. Acta A, 2014, 133: 825-830
26 Pearle A D, Warren R F, Rodeo S A. Clin. Sports. Med., 2005, 24(1): 1-12
27 Zhang X X, Yin J H, Mao Z H, Xia Y. J. Biomed. Optics., 2015, 20(6): 60501
28 Zhang X X, Mao Z H, Yin J H, Xia Y. Vib. Spectros., 2015, 78: 49-53
29 Yin J H, Xia Y, Ramakrishnan N. Vib. Spectros., 2011, 57(2): 338-341
Abstract Fourier transform infrared spectroscopic imaging (FTIRSI) technology can simultaneously obtain microstructure information and infrared spectral information of the samples. The method of FTIRSI combined with chemometric algorithms can be used for quantitative analysis of sample spectral information and tissue discrimination research. Based on this, FTIRSI and support vector machine classification (SVC) for the first time were used in this work to discriminate healthy and degenerated articular cartilage, with high accuracies of 100% and 95.4%, respectively, and sum accuracy of 97.7%. The support vector regression (SVR) model was used to quantitatively study the contents and distribution of two biomacromolecules, collagen and proteoglycan, in articular cartilage. The proteoglycan loss occurred in the degenerated articular cartilage, especially in the superficial area. This study indicates that the combination of FTIRSI and support vector machine (SVM) is expected to become a new diagnostic tool for osteoarthritis, which is of great significance for the early diagnosis and research of osteoarthritis.
Keywords Articular cartilage; Osteoarthritis; Fourier transform infrared spectroscopic imaging; Support vector machine; Proteoglycan; Collagen
(Received 8 January 2018; accepted 24 March 2018)