李瑩,周林華
(長春理工大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,長春 130022)
糖尿病是一種內(nèi)分泌疾病,患者的胰島素分泌不足或身體未能有效利用胰島素,導(dǎo)致體內(nèi)血糖過高。糖尿病患者的持續(xù)高血糖會導(dǎo)致身體器官產(chǎn)生病變,特別是對眼睛、腎臟、神經(jīng)、心臟、血管造成的慢性損害尤為嚴(yán)重[1]。據(jù)國際糖尿病聯(lián)盟公布的數(shù)據(jù),2019年全球約有4.63億年齡在20~79歲的成人患有糖尿病,預(yù)計到2045年,這一數(shù)字將上升到7億。目前臨床尚無治療糖尿病的藥物,只能使用有創(chuàng)技術(shù)控制人體血糖水平以達(dá)到控制糖尿病的目的。
有創(chuàng)技術(shù)易對患者造成傷害的缺點促進(jìn)了微創(chuàng)和無創(chuàng)血糖技術(shù)的發(fā)展。微創(chuàng)血糖檢測技術(shù)對皮膚的損傷較小,常見的微創(chuàng)技術(shù)有皮下植入式生物傳感器、超聲滲析、微滲析等[2-3]。無創(chuàng)血糖檢測技術(shù)主要集中在光學(xué)領(lǐng)域[4],光學(xué)方法優(yōu)點是安全、快速、簡單、經(jīng)濟,無創(chuàng)血糖測量技術(shù)在光學(xué)領(lǐng)域的應(yīng)用主要集中于近紅外光譜法、中紅外光譜法、拉曼光譜法等[5-7]。
近紅外光導(dǎo)檢測器的靈敏度高且近紅外光對皮膚的穿透能力高達(dá)1~100 mm,使近紅外方法成為光學(xué)技術(shù)的研究重點。葡萄糖耐量實驗(OGTT)為無創(chuàng)血糖研究中采集數(shù)據(jù)的經(jīng)典方法,可以在短時間內(nèi)采集實驗所需的光譜數(shù)據(jù)和血糖濃度數(shù)據(jù)[8],但由于實驗條件限制,采集的樣本量是有限的。在近紅外光測量人體葡萄糖濃度的研究中,通常選擇的測量部位為手指、前臂、手掌等,但測得的葡萄糖光譜極易受到環(huán)境變化、個體差異、散射等多個因素影響,采集的數(shù)據(jù)存在較大誤差[9-10]。
多因素干擾是近紅外光測量血糖技術(shù)難以向前推進(jìn)的重要原因,這些因素引起的誤差直接影響回歸模型預(yù)測血糖濃度的精確性。“M+N”理論認(rèn)為誤差來源主要為內(nèi)部誤差和外部誤差,內(nèi)部誤差是血液中非目標(biāo)成分對光譜的影響,外部誤差成分則較為復(fù)雜,包括測量過程中產(chǎn)生的隨機誤差、皮膚的散射等[11-12]。一般最常用的方法是使用數(shù)據(jù)預(yù)處理方法和非線性回歸模型聯(lián)合的方法消弱多因素導(dǎo)致的誤差。數(shù)據(jù)預(yù)處理可以有效減輕隨機誤差的影響,常用方法有歸一化處理、疊加平均處理、多元散射校正等[13]。常用的非線性回歸模型如支持向量機、神經(jīng)網(wǎng)絡(luò)、隨機森林等算法可以從采集光譜中提取血糖的有效信息,提高無創(chuàng)血糖的預(yù)測精度[14-17]。
本文的目的是消除測量區(qū)域中不同位置點的光譜數(shù)據(jù)差異,使用的數(shù)據(jù)來自于OGTT實驗獲得的實驗數(shù)據(jù)。在OGTT實驗中,選取1 338~1 667 nm范圍內(nèi)共70個波長作為實驗的測量波長,以手指指腹為測量區(qū)域。選取測量區(qū)域內(nèi)11個位置點的數(shù)據(jù)作為實驗數(shù)據(jù),支持向量回歸(SVR)作為回歸模型,驗證不同位置點數(shù)據(jù)的差異情況及減小不同位置點數(shù)據(jù)差異的可行性。
本次實驗采用OGTT葡萄糖耐量實驗,參與實驗的志愿者一名,實驗時間為上午8:00-11:00,實驗持續(xù)三天。實驗所需設(shè)備有硬件計算機、Hyperspec?NIR近紅外光譜掃描成像儀。近紅外光譜儀采用固定位置掃描模式,光譜波長范圍為1 338~1 667 nm,光譜分辨率為5 nm;積分時間為35 ms,采樣幀頻為100。具體實驗儀器和采集系統(tǒng)如圖1所示。
圖1 光譜數(shù)據(jù)采集設(shè)備和采集系統(tǒng)示意圖
圖1(a)為近紅外光譜儀,圖 1(b)為光譜數(shù)據(jù)的采集系統(tǒng)。采集過程中志愿者將手指放入光譜儀固定位置,由光源照射手指產(chǎn)生的反射光進(jìn)入光譜儀,由光譜儀成像并傳入終端的計算機中保存。采集光譜數(shù)據(jù)的同時進(jìn)行血糖濃度數(shù)據(jù)的采集,具體過程為刺取指尖一滴血,將其轉(zhuǎn)移至酶測試紙和傳感器進(jìn)行測量,其精度符合CE標(biāo)準(zhǔn)(DIN EN ISO 15197)。
實驗中以手指指腹為測量區(qū)域,以測量區(qū)域的中心點位置和左右兩側(cè)各五個位置點的數(shù)據(jù)為實驗數(shù)據(jù),共11組位置點數(shù)據(jù),分別記為中心點、左 1、左 2、左 3、左 4、左 5、右 1、右 2、右 3、右4、右5,如圖2所示。通過Beer-Lambert定律計算出11個位置點的吸光度數(shù)據(jù)。每個位置點含有3 000條光譜數(shù)據(jù),每條光譜數(shù)據(jù)有70個波長數(shù)據(jù),其中每100條光譜數(shù)據(jù)對應(yīng)同一個濃度標(biāo)簽,總共30個濃度標(biāo)簽。同一濃度對應(yīng)的11個位置的吸光度存在明顯的數(shù)據(jù)差異,因此將實驗數(shù)據(jù)進(jìn)行歸一化處理。
圖2 手指測量區(qū)域示意圖
實驗中采集到的光譜信號為手指的反射光,根據(jù)Beer-Lambert定律計算吸光度。吸光度數(shù)據(jù)作為SVR模型的特征數(shù)據(jù),對應(yīng)的血糖濃度數(shù)據(jù)作為標(biāo)簽數(shù)據(jù)。11個位置的吸光度數(shù)據(jù)共有11組,11組吸光度數(shù)據(jù)對應(yīng)同一組濃度標(biāo)簽。每一個位置點的吸光度數(shù)據(jù)X和血糖濃度數(shù)據(jù)Y可表示為:
其中,m表示光譜條數(shù);n表示波長個數(shù)。本文的實驗數(shù)據(jù)中m=3000,n=70。
本節(jié)共設(shè)計了3組實驗。第一組實驗驗證不同位置點的數(shù)據(jù)存在明顯差異;第二組實驗證明了依次增加位置點的數(shù)據(jù)作為SVR的訓(xùn)練集,從剩余位置點的數(shù)據(jù)中隨機選取數(shù)據(jù)作為測試集,仍然不能減小位置差異的影響;因此在第三組實驗中進(jìn)行改進(jìn),將11個位置點分成兩部分,一部分?jǐn)?shù)據(jù)平均后作為訓(xùn)練集,另一部分平均后作為測試集,驗證該種方法是否可以減小不同位置點的數(shù)據(jù)差異。
在本文中,評價模型的預(yù)測效果使用克拉格誤差網(wǎng)格中的平均克拉克網(wǎng)格誤差(P為落在網(wǎng)格A區(qū)的概率)和MAE、MSE作為評價指標(biāo)??死苏`差網(wǎng)格是評價血糖預(yù)測準(zhǔn)確度的一個經(jīng)典方法,網(wǎng)格的A區(qū)域代表預(yù)測效果最好的區(qū)域;MSE為均方差,是指預(yù)測值與真實值之差平方的期望值;MAE為平均絕對值誤差,是觀測值與真實值的誤差絕對值的平均值。公式如下:
3.2.1 第一組實驗
第一組實驗中一次選擇兩個不同位置點數(shù)據(jù),一個位置點數(shù)據(jù)作為訓(xùn)練集,另一個位置點數(shù)據(jù)作為測試集。為方便進(jìn)行比較,固定左1位置數(shù)據(jù)作為訓(xùn)練集,其他10個位置的數(shù)據(jù)依次作為測試集,使用SVR回歸模型得到測試集預(yù)測結(jié)果,如表1所示。在表1中,對于兩個相鄰位置點,如左1、左2,SVR的預(yù)測效果較好;對于不相鄰的位置點,預(yù)測效果較差,而且位置間隔越遠(yuǎn),訓(xùn)練效果越差。這表明鄰近位置點的數(shù)據(jù)的信息相似度更高,距離較遠(yuǎn)的位置點的數(shù)據(jù)相似度越低。
表1 第一組實驗結(jié)果
3.2.2 第二組實驗
第二組實驗考慮到使用OGTT實驗采集數(shù)據(jù)的過程中,每次手指放置在近紅外光譜儀的位置有偏差,不能保證每次采集到同一位置的光譜數(shù)據(jù),因此在實驗設(shè)計中測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)屬于不同的位置點數(shù)據(jù)。
位置點個數(shù)為3,即以中心點位置和左1、右1位置的混合數(shù)據(jù)作為訓(xùn)練集,從剩余8個位置的數(shù)據(jù)中隨機選取1 000條作為測試集,使用SVR回歸模型得到預(yù)測結(jié)果;位置點個數(shù)為5,即以中心點位置和左1、左2、右1、右2位置的混合數(shù)據(jù)作為訓(xùn)練集,從剩余6個位置的數(shù)據(jù)中隨機選取1 000條作為測試集,在實驗數(shù)據(jù)上依次累加兩個位置點的數(shù)據(jù)作為測試集,從未被訓(xùn)練過的位置點的數(shù)據(jù)中隨機抽取1 000條數(shù)據(jù)作為測試集,重復(fù)上述步驟。實驗結(jié)果如表2所示,未參與訓(xùn)練的位置點數(shù)據(jù)作為測試集的預(yù)測結(jié)果整體在75%左右,預(yù)測效果較差。
表2 第二組實驗結(jié)果
3.2.3 第三組實驗
原有11組位置點的數(shù)據(jù),選取左5、左3、左1、右1、右3、右5共6組數(shù)據(jù)進(jìn)行數(shù)據(jù)平均處理為1組數(shù)據(jù),記為新數(shù)據(jù)1,剩余5個位置的數(shù)據(jù)進(jìn)行數(shù)據(jù)平均處理為1組數(shù)據(jù),記為新數(shù)據(jù)2。將平均處理過后的2組新數(shù)據(jù),1組作為訓(xùn)練集,另一組作為測試集,使用SVR回歸模型得到測試集預(yù)測結(jié)果,得到的結(jié)果如表3所示,克拉克誤差網(wǎng)格圖如圖3所示。
表3 第三組實驗結(jié)果
圖3 兩組實驗的誤差網(wǎng)格圖
由實驗結(jié)果可以看出,經(jīng)過平均處理的兩組數(shù)據(jù)的位置差異明顯減小,并且克拉克誤差網(wǎng)格圖表明SVR模型的預(yù)測效果良好,兩次實驗在網(wǎng)格圖中A區(qū)的樣本量達(dá)到99%以上,表明第三組實驗可以有效降低位置差異的影響。
在無創(chuàng)血糖監(jiān)測領(lǐng)域,OGTT實驗是采集血糖數(shù)據(jù)的經(jīng)典方法,本文使用OGTT實驗獲得光譜數(shù)據(jù)和血糖濃度數(shù)據(jù)。針對實驗數(shù)據(jù)中不同位置點存在的數(shù)據(jù)差異問題,設(shè)計3組實驗驗證并成功減小了不同位置點的數(shù)據(jù)差異。從另一方面來看,減小不同位置點數(shù)據(jù)的差異一定程度上增加了可用的樣本量,在血糖預(yù)測的深度回歸模型中,大樣本量對模型的最終預(yù)測有一定的幫助。