崔巖
摘 要:驗(yàn)證基于Haar-like特征的健康辨識ROC-Boosting算法在不同人群中的應(yīng)用效果。在天津市南開醫(yī)院采集的32例舌部圖像及其健康辨識結(jié)果上運(yùn)行ROC-Boosting算法,將基于Haar-like特征與其他人群采集的舌部圖像及其健康辨識結(jié)果進(jìn)行比較。研究結(jié)果表明,在兩個人群中選擇出的特征均集中于舌中、后部,基于選出特征建立的模型ROC曲線下面積達(dá)到0.864。結(jié)果驗(yàn)證了ROC-Boosting算法在滿足人類觀察舌部圖像特點(diǎn)的同時,適用于不同人群。
關(guān)鍵詞:舌部圖像;健康狀態(tài);ROC-Boosting
DOIDOI:10.11907/rjdk.171143
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)007-0134-03
0 引言
Haar-like特征是用于人臉識別的一類重要特征[1]。這類特征不僅抽取速度快,而且對人臉檢測等特定問題具有高敏感性或者高特異性特征。在此基礎(chǔ)上建立的分類器,不僅準(zhǔn)確率高,而且所選出的特征有著良好的可解釋性。與應(yīng)用于人臉檢測相似,近年來在中醫(yī)舌診客觀化研究中,也發(fā)現(xiàn)Haar-like特征與高尿酸血癥存在聯(lián)系,與疾病相關(guān)特征集中在舌部中間部分,符合中醫(yī)舌診中舌苔顏色的變化特點(diǎn)[2]。在此基礎(chǔ)上,針對研究對象的健康/疾病狀態(tài)使用ROC-Boosting這一算法選擇出的Haar-like特征同樣也集中于舌中、后部[3]。相對于特征數(shù)量,用于建立模型的數(shù)據(jù)量不足,而且醫(yī)學(xué)數(shù)據(jù)獲取難度大、成本高,易受到各種條件限制。因此,在當(dāng)前研究階段,無法用分類準(zhǔn)確率等指標(biāo)評價模型性能。因此,采取通過比較所選出的特征在舌部圖像上的位置及所建模型ROC曲線下面積的方法,評價ROC-Boosting算法在新采集人群上的有效性。
1 對象與方法
數(shù)據(jù)采集的納入標(biāo)準(zhǔn)為參與健康體檢,年齡在20~70歲(含),且自愿參與研究的人群。因服藥、外傷等導(dǎo)致舌部顏色、形狀和紋理劇烈變化,且在1小時內(nèi)無法恢復(fù)的,以及舌部活動受限的,例如流涎、無法張嘴、舌頭強(qiáng)直、顫動等,加上不配合研究的,都予以排除。為了安撫研究對象人群,對于年齡超過范圍的,也可以應(yīng)邀獲取圖像和健康辨識結(jié)果,但其數(shù)據(jù)不參與研究。2015年9月-10月,從天津市南開醫(yī)院采集了32例舌部圖像,研究對象的基本情況如表1所示。采集圖像后立刻由專門人員使用調(diào)查問卷將其健康狀態(tài)劃分為疾病和健康兩類[4]。由于采集樣本數(shù)量有限,將問卷中獲取健康狀態(tài)為可疑的,都視作疾病狀態(tài)。對圖像作預(yù)處理后,連同問卷健康辨識結(jié)果形成數(shù)據(jù)庫,而后在其上運(yùn)行ROC-Boosting算法[3]。
采用以往研究中的方法預(yù)處理采集圖像,得到100*120像素的舌部圖像。圖1是一幅經(jīng)過預(yù)處理的舌部圖像。由于抽取的Haar-like特征數(shù)量較多,因而按照ROC-Boosting算法的要求過濾特征,使用t檢驗(yàn)過濾無明顯差異的特征。最終,選擇p值切點(diǎn)為0.000 1,候選特征數(shù)為9 527。在此基礎(chǔ)上,開始運(yùn)行ROC-Boosting算法。
ROC-Boosting算法過程如下:
步驟(9)采用了兩個條件,首先保證被正確分類的正類樣本數(shù)和負(fù)類樣本數(shù)與總體樣本中正類和負(fù)類的樣本數(shù)比例盡量一致。在本研究中,健康狀態(tài)的樣本為正類,疾病狀態(tài)的為負(fù)類,這一比例為10∶22。在保證這一比例的基礎(chǔ)上,選擇ROC曲線下面積最大的特征。
使用R語言3.3.0的64位版本作為統(tǒng)計(jì)工具[5]。
ROC曲線下面積使用其中的ROCR包計(jì)算。特診抽取和ROC-Boosting算法均采用R語言中的腳本完成。
2 結(jié)果與分析
2.1 結(jié)果
最終ROC-Boosting算法在現(xiàn)有特征集中選出了5個特征。共15個樣本被正確分類后,因?yàn)闆]有特征滿足步驟(9)的條件,算法結(jié)束。與以往研究中所選出特征的位置對比及最終模型分類的ROC曲線如圖2所示。其中,圖2(a)為ROC-Boosting在以往數(shù)據(jù)集上共1 322例舌部圖像及其健康辨識結(jié)果上運(yùn)行后,選擇出的Haar-like特征的累積[3];圖2(b)為在本研究中32例圖像中選擇出的特征的累積;圖2(c)為選出這5個特征后,形成組合模型的ROC曲線,曲線下面積為0.864。
2.2 分析
從圖2(b)可以看出,盡管選出的特征數(shù)量較少,但是選出特征仍舊集中在舌中部,這與在以往人群中運(yùn)行ROC-Boosting算法的結(jié)果相似。一般中醫(yī)認(rèn)為,舌苔顏色的變化是人體健康狀態(tài)的重要標(biāo)志,并將舌苔顏色分為白、黃、黑等類型。已有研究對舌苔顏色及所在位置進(jìn)行了研究,并認(rèn)為舌苔一般位于舌中、后部[6],利用ROC-Boosting算法所選出的特征集中于位于舌圖像的中、后部,如圖2(a)所示。本研究由于樣本數(shù)量的限制,選出的特征數(shù)量非常有限,僅為5個,但是已經(jīng)體現(xiàn)出舌苔在舌體所處位置。隨著研究的深入,采集樣本量的增加,所選出的特征也會進(jìn)一步增加。
盡管由現(xiàn)有數(shù)據(jù)得到的ROC曲線下面積較大,達(dá)到了0.864,但是由于沒有更多數(shù)據(jù),因而無法驗(yàn)證依照目前數(shù)據(jù)所得分類模型的分類效果。本研究正/負(fù)類樣本的比例與以往研究不同,以往研究對象中,健康對象比例數(shù)量較少,正/負(fù)類樣本的比例為0.126(148/1 174,共1 322例)。而本研究中樣本的正/負(fù)類比例為0.455(10/22,共32例)。因此也無法直接將以往研究中的模型直接用于當(dāng)前人群預(yù)測和驗(yàn)證。
ROC-Boosting算法是一種提升算法。Viola等[1]于2004年首先將基于Haar-like特征的提升算法其應(yīng)用于人臉檢測。至今為止,這類算法仍舊是人臉檢測的主要方法之一。但是這一算法成功應(yīng)用于人臉檢測的前提是人臉圖像上有鼻子、雙眼等敏感度極高但是特異度不高的單個Haar-like特征存在。而后算法可以在保證敏感度的前提下,提高特異度,最終得到幾乎完美的分類模型。這類模型用于人臉檢測時,ROC曲線下面積接近于1。將這一算法推廣到其它圖像分類問題時,面臨著以下兩個主要問題:endprint
(1)不存在單個高性能特征。例如用于舌部圖像健康辨識這一問題時,通過前期實(shí)驗(yàn)發(fā)現(xiàn)在海量的特征中不存在高敏感度或者高特異度的特征,因此無法通過原始的算法提升得到高性能的分類模型。
(2)樣本數(shù)質(zhì)量問題。在人臉識別中,盡管Viola聲稱其訓(xùn)練方法不需要負(fù)類樣本,但實(shí)際上,圖像上所有的非人臉部分都可以作為負(fù)類樣本,而且人臉圖像非常容易獲取,因此用大量樣本訓(xùn)練可靠的分類器是可行的。但是在舌診健康辨識問題上,面臨著數(shù)據(jù)采集難度高的問題,這也造成數(shù)據(jù)數(shù)量和質(zhì)量都無法訓(xùn)練出特別高性能的分類器。
為了解決以上兩個問題,將Viola的算法進(jìn)行擴(kuò)展,增加了應(yīng)對樣本不平衡的比例限制條件,即選出的特征正確預(yù)測的正負(fù)類樣本比例,必須與原始樣本中正負(fù)類的比例接近。這一條件防止分類器過分傾向于大類。例如在本研究的32例圖像中,選出5個Haar-like特征,每個都是正確預(yù)測了1個健康樣本和2個疾病樣本。此外,還增加了限制單個特征性能的條件,使每個選出的特征的ROC曲線都是上凸且不穿過ROC空間的隨機(jī)猜測線,這也保證了總體分類模型的性能逐步提升。有了以上兩個條件的限制,ROC-Boosting算法能夠隨著樣本量增加得到更好的分類模型。
在以往研究中發(fā)現(xiàn),由于參與健康辨識研究人群多由參與體檢、社區(qū)等途徑獲得,因而健康樣本數(shù)量大大少于疾病樣本數(shù)量,造成樣本間不平衡問題。這類出現(xiàn)在醫(yī)藥研究領(lǐng)域中樣本數(shù)量不平衡分類問題仍舊是研究重點(diǎn)[7]。集成分類算法,是應(yīng)對此類問題的主要手段之一。此外,本研究所采集數(shù)據(jù)量較少,因此樣本間數(shù)量較為平衡,由此對分類模型的影響也是未知的。
3 結(jié)語
通過在不同人群上運(yùn)行ROC-Boosting算法,驗(yàn)證了該算法能實(shí)現(xiàn)在不同的人群中成功提取Haar-like特征。所提取的特征數(shù)量較少,但與以往研究一致的是,特征都集中于舌的中、后部,這與中醫(yī)舌診的理論相符合。因?yàn)闃颖緮?shù)量較少且分布不同于以往研究,因而無法評價ROC-Boosting算法的預(yù)測性能。因此,進(jìn)一步規(guī)范和擴(kuò)大舌部圖像和相應(yīng)健康狀態(tài)的采集,驗(yàn)證ROC-Boosting的預(yù)測性能將是后續(xù)研究的重點(diǎn)。
參考文獻(xiàn):
[1] VIOLA P,JONES M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[2] CUI Y,LIAO S,WANG H,et al.Relationship between hyperuricemia and haar-like features on tongue images[J].BioMed Research International,2015(9):32-36.
[3] CUI Y,LIAO S,WANG H,et al.ROC-boosting:a feature selection method for health identification using tongue image[J].Computational and Mathematical Methods in Medicine,2015(11):32-36.
[4] ZHOU X,XU F,GAO J.Development and preliminary validation of the questionnaire (the First Edition) based on tcm for detecting health status in China[J].Evidence-based Complementary and Alternative Medicine,2015(2):83-85.
[5] R CORE TEAM.A language and environment for statistical computing,R foundation for statistical computing[EB/OL].https://www.R-project.org/.
[6] 陳松鶴,梁嶸,王召平.6種舌苔顏色數(shù)據(jù)的三維分布特征的描述[J].時珍國醫(yī)國藥,2009(11):2852-2854.
[7] 李玉平,夏斌.樣本不平衡的睡眠數(shù)據(jù)分期研究[J].微型機(jī)與應(yīng)用,2016(18):55-57,61.endprint