亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于面部圖像的有無早期肺癌風(fēng)險分類研究

2022-11-28 08:04:46周孟齊胡廣芹林嵐李斌張新峰

中國醫(yī)療設(shè)備 2022年11期

周孟齊，胡廣芹，林嵐，李斌，張新峰

北京工業(yè)大學(xué) a. 環(huán)境與生命學(xué)部；b. 信息學(xué)部，北京 100124

引言

據(jù)統(tǒng)計，2020年我國癌癥新發(fā)病例457萬例，其中肺癌新發(fā)病例82萬，死亡71萬例，發(fā)病率和死亡率均居首位[1]。臨床上，癌癥可根據(jù)癌細胞的擴散程度分為5個時期：Ⅰ期為產(chǎn)生癌細胞，Ⅱ期為癌細胞在癌變部位發(fā)生輕微擴散，Ⅲ期為癌細胞在周邊發(fā)生擴散，Ⅳ期為癌細胞轉(zhuǎn)移至遠端，Ⅴ期為癌細胞擴散至測量方法的極限。其中，Ⅰ期和Ⅱ期兩個時期統(tǒng)稱為癌癥早期[2]。癌癥早期患者可以通過化療、放療等方式進行治療，達到治療目的，因此早發(fā)現(xiàn)有重要意義。

中醫(yī)通過望聞問切四診合參的方式診斷，具有無創(chuàng)無痛的優(yōu)勢[3]。面診作為望診的內(nèi)容之一，在診斷過程中發(fā)揮著重要作用，如面部為全身經(jīng)絡(luò)血脈匯聚之處，面部的顏色、光澤、紋理特征表現(xiàn)可以直接反映人體內(nèi)部氣血運行狀態(tài)，并反映人體內(nèi)部器官健康狀態(tài)[4]。同時積聚患者面部皮膚狀態(tài)會發(fā)生改變，積聚即為腫瘤，如果人體某一部位發(fā)生癌變，會影響全身經(jīng)絡(luò)氣血的運行狀態(tài)，體現(xiàn)在面部的特征參數(shù)上[5]。

目前，已有關(guān)于面診信息化的研究，其中YCbCr顏色空間是YUV的國際標準化變種，在數(shù)字電視和圖像壓縮（如JPEG）方面都有應(yīng)用，其中Y與YUV中的Y含義一致，指亮度，CB和CR分別指藍色分量和紅色分量[6-8]。但關(guān)于癌癥風(fēng)險預(yù)測評估的報道較少，基于此，本研究旨在結(jié)合面部顏色和紋理特征，使用機器學(xué)習(xí)的方法，對是否具有早期肺癌風(fēng)險進行分類研究，以期為肺癌早期發(fā)現(xiàn)提供客觀依據(jù)。

1 數(shù)據(jù)處理與方法

本研究數(shù)據(jù)處理流程圖如圖1所示，通過專業(yè)設(shè)備進行人面部圖形的采集，并將所采集到的圖像按照研究所制定的標準進行篩選、分類。通過BiSeNet 進行面部圖像分割，獲取無背景噪聲的研究區(qū)域；對分割后的圖像進行顏色空間的轉(zhuǎn)換，并在YCbCr顏色空間模型中通過CB以及CR的值尋找非膚色點，利用均值濾波的方法進行降噪。對降噪后的圖像通過一階顏色矩的方法獲取亮度分量、紅色分量、藍色分量3個顏色特征值，同時采用灰度共生矩陣獲取ASM能量、熵、對比度3個紋理特征值；使用隨機森林的算法進行分類研究，并計算6個特征對分類模型的貢獻度。

圖1 數(shù)據(jù)處理流程圖

1.1 數(shù)據(jù)預(yù)處理

本研究數(shù)據(jù)來源于中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院數(shù)據(jù)庫和中國醫(yī)學(xué)科學(xué)院中醫(yī)藥健康工程研究室面部圖像數(shù)據(jù)庫。采集時均使用同一廠家同一型號的面診采集儀，并保證光照條件的一致性以及光源的穩(wěn)定，對圖像進行篩選，最終將圖像人群劃定在35～50歲的華北地區(qū)人員。在符合年齡和地區(qū)的前提下，再次進行數(shù)據(jù)篩選。

（1）患癌人群納入標準：① 采集時醫(yī)生病歷診斷顯示為早期肺癌；② 為首次接受治療。

（2）未患癌人群納入標準：體內(nèi)無任何炎癥感染。

（3）圖像納入結(jié)果：剔除不符合要求的圖像，即非早期肺癌患者、已經(jīng)治愈的患者、體內(nèi)存在炎癥的患者圖像以及采集時有異物遮擋的圖像。整理圖像，最終納入患癌圖像158例，不患癌圖像200例，數(shù)據(jù)分布較為均衡，并對數(shù)據(jù)進行標簽分類，0表示患癌，1表示不患癌。

（4）訓(xùn)練集和測試集：每次試驗將279例圖像作為訓(xùn)練集，79例圖像作為測試集。

1.2 面部圖像獲取

本研究使用BiSeNet網(wǎng)絡(luò)進行分割，將圖像中的整個面部區(qū)域作為目標前景，其他區(qū)域作為背景。BiSeNet網(wǎng)絡(luò)是一種雙路徑分割網(wǎng)絡(luò)[6-8]，即通過空間路徑（Space Path，SP）和上下文路徑（Context Path，CP）分別獲取位置信息特征和語義信息特征，將兩者通過特征融合模塊進行融和，篩選有效特征，從而準確分割目標區(qū)域。BiSeNet算法被廣泛應(yīng)用到各個領(lǐng)域的目標分割中，均取得了較高準確度的分割結(jié)果。

在本研究中的空間分支網(wǎng)絡(luò)由3個隱含層組成，每個隱含層包含一個不步長為2的卷積層（conv）、批量標準化層（bn）、激活層（relu），因此SP輸出特征圖的尺寸為原始圖像的1/8，可保存豐富的低級空間特征信息，而CP分支使用殘差網(wǎng)絡(luò)，獲取最大的感受視野，進而獲取上下文語義信息。BiSeNet結(jié)構(gòu)如圖2所示。由圖2可知，注意力提取模塊使用全局平均池化的方式來學(xué)習(xí)特征，特征融合模塊則將SP分支與上CP分支輸出的特征池化為一個特征向量，并進行權(quán)重選擇，進而識別到整個人臉區(qū)域。用100幅圖像進行面部區(qū)域標注，送入模型，進行學(xué)習(xí)。

圖2 BiSeNet結(jié)構(gòu)模型

1.3 顏色特征提取

面部顏色是中醫(yī)面診過程中的一個重要信息，在不同的顏色空間中反映出的顏色信息也不一致。面部顏色特性在YCbCr顏色空間[亮度（Y）、藍色分量（CB）、紅色分量（CR）]上具有較好的信息反映能力，且可根據(jù)CB和CR的取值范圍區(qū)分膚色點，且其取值與年齡、性別、職業(yè)等因素無關(guān)，由于YCbCr顏色空間上，具有橢圓膚色聚類的特性，需對非膚色點進行檢測[6]，因此本研究將面部圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間上，其轉(zhuǎn)換關(guān)系如公式（1）所示，將圖像轉(zhuǎn)化到Y(jié)CbCr顏色空間后，進行非膚色點檢測。YCbCr空間使用非線性分段分割膚色區(qū)域時，近似于橢圓形狀，如公式（2）～（3）所示。

式中，Y為圖像在YCbCr顏色空間模型中亮度通道上的分量，CB為其藍色通道上的分量，CR則為其紅色通道上的分量。R、G、B分別代表圖像在RGB顏色空間模型中紅色通道、綠色通道以及藍色通道上的分量。

式中，x、y分別表示圖像閾值的橫、縱坐標；a表示在YCbCr顏色空間膚色點聚類而成的橢圓模型的長軸的值；b表示短軸的值；ecx、ecy分別表示橢圓模型中心點的橫、縱坐標；θ表示坐標軸遠點到中心點的角度。

根據(jù)研究計算可得[7-8]，在YCbCr空間聚類區(qū)域中，θ=2.53，cx=109.38，cy=152.02，a=25.39，b=14.03，ecx=1.60，ecy=2.41。本研究通過轉(zhuǎn)換公式獲取圖像CB和CR的值，通過公式（3）計算出x和y的值，并帶入公式（2）的左側(cè)部分，計算其結(jié)果。若大于1則表明該點不在橢圓區(qū)域內(nèi)，即為非膚色點。將圖像中的每一像素點的CB，CR值代入，計算對應(yīng)像素點的x、y值，并入公式（2）的左側(cè)，與1比較，發(fā)現(xiàn)只有當CB、CR兩值同時滿足133≤CB≤173、77≤CR≤127時，其結(jié)果才滿足≤1，落入橢圓區(qū)域內(nèi)部[7]?；诖?，在本研究中，對像素點CB和CR值篩選，并將不能同時滿足兩值范圍的點，記為非膚色點,并使用9×9的均值濾波器進行濾波，達到降噪的目的。

在YCbCr顏色空間模型中，通過獲取Y、CR、CB的一階顏色矩，即圖像各像素點的均值作為其顏色特征值。

1.4 紋理特征提取

除了顏色特征，面部還包含了許多其他有用的信息。紋理特征是對圖像灰度空間分布模式的分析，描述圖像像素與像素之間的關(guān)系，且不受顏色和亮度的影響[8]。本研究采用灰度共生矩陣（Gray Level Co-Occurrence Matrix，GLCM）提取ASM、熵、對比度3個特性，分別反映圖像灰度分布均勻程度、平均信息量和灰度反差，三者可從不同的角度描繪出圖像在灰度空間上的局部特征，反映面部的紋理特征，計算公式如式（4）～（6）所示。

式中，P(i,j)表示在灰度空間中灰度級之間的聯(lián)合條件概率密度，對于本研究，給定空間距離d=1，采用4個共生矩陣，其角度分別為 0°、45°、90°、135°時，灰度以 i（某行）為起點，出現(xiàn)在灰度級j（某列）上的概率。同時將所有圖像二值化，獲取其灰度圖像，使用4個不同角度的共生矩陣，分別按公式（4）～（6）進行計算，并取4個矩陣計算結(jié)果的均值作為最終的紋理特征。

1.5 隨機森林模型建立

隨機森林是機器學(xué)習(xí)的一種方法，計算速度較快[9]，其是通過多個決策樹構(gòu)造而成，最終的輸出結(jié)果是由多個決策樹組合而成的結(jié)果，因此優(yōu)于任何一個單個決策樹的輸出結(jié)果[10]，因此隨機森林被廣泛應(yīng)用到分類[11]、預(yù)測[12-13]等方面。本研究在構(gòu)造隨機森林模型過程中使用ID3算法建立決策樹，并對ID3算法進行改進，在構(gòu)造時進行最大特征數(shù)的限定，通過調(diào)節(jié)最大特征數(shù)以及決策樹的個數(shù)，觀察兩者對隨機森林的分類結(jié)果的影響，尋找最優(yōu)參數(shù)。隨機即指樣本的隨機抽取和特征的隨機選擇。

本研究將數(shù)據(jù)集進行劃分，對訓(xùn)練集的279個樣本進行有放回地隨機抽取，對抽取出的K組樣本進行訓(xùn)練，其構(gòu)造過程如下：① 確定原始訓(xùn)練集：D={1,2，……279}；② 對訓(xùn)練集進行特征確定，確保所選擇的特征對分類有意義；③ 對訓(xùn)練集D進行K次有放回地隨機抽樣，每次抽取N個樣本，其中N小于訓(xùn)練集D，得到K組樣本集，本研究中，K分別取值為30、0和100，即決策樹的個數(shù)；④ 使用ID3算法，分別對K組樣本用信息增益的方法構(gòu)造決策樹，進而形成有K棵決策樹的隨機森林；⑤ 輸入待測樣本，根據(jù)步驟④的決策數(shù)據(jù)計算輸出結(jié)果。

研究以準確率作為模型的評價指標，準確率的計算方法如公式（7）所示，混淆矩陣示意表如1所示。

表1 混淆矩陣示意表

構(gòu)造隨機森林后，對特征的重要度進行分析。隨機森林中的特征選擇主要有3種方法：χ2檢驗、信息增益、Gini系數(shù)。本研究在選用信息增益的方法進行特征選擇。信息增益的選擇標準是按照每個子節(jié)點的純度達到最高純度進行的，其值越大純度越高。

特征集合A為特征信息。由于本研究是一個二分類的數(shù)據(jù)集，故i的值有2個，并根據(jù)公式（8）計算信息量。根據(jù)式（9）～（10）分別計算出其先驗熵、后驗熵。

式中，數(shù)據(jù)集D作為信息，Di為D中的一種類型；P(Di)表示輸出結(jié)果為第i類的概率。

式中，P(Di|Aj)表示在特征Aj條件下取得第i類的概率。P(aj)表示隨機選擇樣本時選擇特征aj的概率，Aj為特征aj中的一種。

信息增益是指信息從先驗熵到后驗熵減少的部分，反映了信息消除不確定性的程度，其值越大，消除不確定性的能力越強，相關(guān)性越強，計算方式如公式（11）所示。本研究，樣本集合D={Di|i=|0,1}，特征集合A={Aj|j=|1,2,3,4,5,6}。

在具體進行特征選擇時，信息增益計算步驟如下：① 根據(jù)公式（8）～（11）計算每個特征的信息增益；② 比較集合A中各個特征的信息增益的大小，選擇信息增益最大的特征最為分割的子節(jié)點，并選擇該特征下的樣本的類別作為子節(jié)點；③ 對子節(jié)點重復(fù)上訴2個步驟，直至能夠獲取最終的分類結(jié)果。

2 結(jié)果

2.1 分割結(jié)果

經(jīng)過訓(xùn)練學(xué)習(xí)，采用BiSeNet網(wǎng)絡(luò)模型圖像進行分割，其分割結(jié)果準確率為96.25%。每幅圖像均能夠較為準確的分割出人的面部區(qū)域，其分割效果如圖3所示，通過分割，獲取研究中的目標區(qū)域，即人的整個面部圖像。去除其他與面部圖像參數(shù)無關(guān)的噪聲，排除其他干擾因素。

圖3 分割效果圖

2.2 顏色特征提取結(jié)果

將分割后的圖像轉(zhuǎn)化到Y(jié)CbCr顏色空間中，通過CB以及CR的取值范圍，尋找非膚色點，并采用9×9的滑動窗口，通過均值濾波的方法進行降噪處理，并在該顏色空間中，計算3個分量的平均值，作為其顏色特征，隨機選擇2組肺癌患者與未患癌人群的特征提取結(jié)果展示如表2所示，從顏色特征數(shù)值上可以看出，癌癥患者面部的顏色特征與未患癌人群面部的顏色確實存在明顯差異，尤其表現(xiàn)在紅色分量上，特征選擇也證實了紅色分量的特征貢獻度最大。

表2 部分面部顏色特征結(jié)果

2.3 紋理特征提取結(jié)果

對彩色圖像進行二值轉(zhuǎn)化，獲取其灰度圖像，并對灰度圖像進行灰度級量化，量化后采用角度分別為0°、45°、90°、135°的4個共生矩陣，計算ASM、熵、對比度反映面部的紋理特性，隨機選擇2組肺癌患者與未患癌人群的紋理特征提取結(jié)果如表3所示，通過表3中數(shù)據(jù)對比可得出，肺癌患者面部圖像的ASM值大于0.5，而未患癌人群的面部圖像的ASM小于0.5，兩者存在較為明顯的差異；同時兩者熵和對比度在數(shù)值上差異也較明顯。

表3 部分面部紋理特征結(jié)果

2.4 隨機森林預(yù)測分類結(jié)果

本研究構(gòu)造隨機森林，設(shè)置2個超參數(shù)，即決策人樹個數(shù)和最大特征值，將決策樹個數(shù)分別設(shè)置為30、50和100，最大特征等設(shè)置為2、3和4，在不同參數(shù)下，進行訓(xùn)練和測試，并對測試結(jié)果進行分析。首先觀察混淆矩陣，并根據(jù)混淆矩陣計算模型的準確率。圖4為其中1組測試結(jié)果的混淆矩陣，根據(jù)混淆矩陣，快速獲得TP、FP、TN、FN的值，并根據(jù)公式（11）計算每次訓(xùn)練的模型所做出分類的準確率，即正確判斷的數(shù)量占測試集總數(shù)的比例。分別對數(shù)據(jù)集進行了9次訓(xùn)練和測試，9次測試結(jié)果準確率如表4所示。通過表4可以看出，當決策樹的個數(shù)一定時，隨著最大特征數(shù)的增加，其預(yù)測結(jié)果的準確率也有所提升，但是所用的時間也隨之增長。對比第3次和第6次實驗，預(yù)測結(jié)果相同，且為本研究最高，但第3次所用的時間明顯少于第6次。

圖4 1組測試結(jié)果的混淆矩陣

表4 隨機森林預(yù)測結(jié)果

參數(shù)的設(shè)置不僅影響模型的準確率和效率，同時也影響整個模型的擬合程度，設(shè)置不當會造成整個模型欠擬合和過擬合。經(jīng)過多次實驗調(diào)整，將決策樹個數(shù)設(shè)置為30，最大特征數(shù)設(shè)為4時，模型擬合程度最好，同時具有最高效率和最佳準確率。隨機森林的準確度為87.3418%，高于SVM的64.7200%。在該參數(shù)條件下的模型最優(yōu)，在該參數(shù)條件下，對特征選擇進行評估，其結(jié)果如圖5所示，可以看到6個特征中，紅色分量的貢獻度最大，其次是ASM。

圖5 特征重要度

3 討論與結(jié)論

本研究從中醫(yī)望診法中的面診法出發(fā)，通過分析面部顏色和紋理信息，針對肺部是否存在早期癌風(fēng)險進行了研究。在早期關(guān)面診的研究中，對面部的顏色特征信息進行研究而忽略了紋理特征的研究[12-13]。相關(guān)文獻[6-7]雖然是針對腸癌進行的，但也僅是在顏色特征對比上進行，而本研究中除了顏色特征外還引入了紋理特征，從灰度空間反映患者表現(xiàn)在面部上的信息。

在面部分割的過程中，使用BiSeNet算法獲取到完整的目標區(qū)域。近年來人臉識別分割算法不斷發(fā)展，但仍然存在效率低、分割不準確等問題，相關(guān)文獻[12-24]分別用不同的深度學(xué)習(xí)方法進行面部區(qū)域的分割，其分割準確率在93%～95%，且耗時近3 min。而本研究所采用的雙邊語義分割結(jié)構(gòu)模型分別從空間路徑和上下文路徑2個方面獲取圖像中面部位置信息和語義信息，在分割過程中保存了豐富的信息和最大感受視野，準確率為96.25%，且耗時為1 min左右。

本研究中，轉(zhuǎn)換顏色空間模型，獲取更為精確的顏色信息。通過YCbCr顏色空間尋找非膚色點，并使用均值濾波進行降噪處理，排除了化妝等因素導(dǎo)致的影響，從而使最終的分類結(jié)果更為可靠[25-27]。于婧潔[5]對早期肺癌與面診的相關(guān)研究中，通過梯度決策樹對面部顏色特征進行訓(xùn)練，對是否患有早期肺癌進行預(yù)測研究，但僅對額部進行研究，忽略了口唇的顏色特征，因此準確率僅在60%左右。而本研究不僅使用了在整個面部的顏色特征信息，還融入了紋理特征信息，而隨機森林的使用也提升精準度至87.3418%。為早期肺癌的發(fā)現(xiàn)提供輔助依據(jù)，表明研究中的面部分割模塊融入面診儀中，實現(xiàn)高精確度的分割，用于后續(xù)的面診分析，減少噪聲干擾。

本研究首先對面部圖像進行分割，并在YCbCr顏色空間模型中檢測非膚色點并降噪，最大可能的減少環(huán)境帶來的影響。通過顏色特征和紋理特征，使用ID3算法構(gòu)造隨機森林。通過準確率、召回率、精確度是對隨機森林模型進行評估，并調(diào)整最大特征數(shù)和決策樹個數(shù)尋找最優(yōu)模型。根據(jù)結(jié)果，針對本研究，當決策樹個數(shù)設(shè)置為50，最大特征數(shù)設(shè)為4時，參數(shù)最優(yōu)，模型最優(yōu)。

本研究未對舌部信息進行分析，未來將增大數(shù)據(jù)集并融合舌部信息進行研究，以獲取更高準確率的分類模型。