亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于代價敏感主動學習算法的2型糖尿病診斷

        2018-06-28 03:30:28許智彪
        計算機與現代化 2018年6期
        關鍵詞:血粘度代價比率

        許智彪

        (上海交通大學電子信息與電氣工程學院,上海 200240)

        0 引 言

        隨著社會經濟的發(fā)展和人民生活水平的提高,2型糖尿病已經成為嚴重威脅人類健康的重要疾病[1]。大量的研究[2-3]表明,對2型糖尿病提早進行干預是世界公認的能夠降低心血管疾病發(fā)病率的有效措施。近年來,醫(yī)療數據挖掘在解決人們的健康問題上起到了重要的作用,也越來越受到廣泛關注[4-7]。醫(yī)療數據挖掘不僅能夠幫助醫(yī)生進行診斷,使疾病在早期就能得到控制,使診斷和治療更加便利和有效,它還能促進智能醫(yī)療系統的發(fā)展,從而在一定程度上節(jié)省人力勞動,減小區(qū)域間的醫(yī)療水平差異。

        通過監(jiān)督學習構建一個疾病診斷系統通常需要大量有標記數據來確保模型的質量,然而收集大量的有標記的醫(yī)療數據并不容易。首先,病人的診斷和治療信息是高度敏感和隱私的,即使是用于科學研究,也只有極少的醫(yī)院會愿意提供醫(yī)療數據。其次,醫(yī)療機構產生的數據很多是未標記的,醫(yī)學診斷如果只使用那些標記的小部分樣本,訓練出的疾病診斷系統會缺乏泛化能力。如果人工地對這些數據進行標注不僅需要專業(yè)的醫(yī)生,而且需要耗費大量的精力。因此,本文利用主動學習算法[8],從未標注數據中有選擇地選取那些最有利于提高診斷性能的樣本進行標記,從而達到以盡可能少的標記成本獲取盡可能高的診斷性能的目的。

        糖尿病診斷可以看成是一個二分類問題,即患有糖尿病和不患糖尿病。傳統的分類算法主要是以提升分類準確率為目標,認為不同的誤分類有相同的代價或損失。然而,大部分醫(yī)療數據的類別是極其不平衡的,因為確診的病人在人群中只占小部分。在糖尿病診斷中,不同的誤分類會產生不同的代價,例如:把一個糖尿病患者誤診為正常人的代價要遠遠高于把一個正常人誤診為糖尿病患者的代價。前者會使得糖尿病患者有生命危險,而后者僅僅需要后續(xù)進一步檢驗。因此,在實際應用中需要考慮到不同的誤分類代價,可使用代價敏感分類算法來解決。

        本研究基于幾種常用的分類模型,通過基于期望誤差減小的代價敏感主動學習算法[9],從無標注數據中選擇對模型性能提升最有利的樣本進行標記,來構建2型糖尿病診斷模型。本文將基于期望誤差減小的代價敏感主動學習算法和其他主動學習算法進行對比,包括不確定性采樣[10-11]、方差減小[12]和期望損失最優(yōu)化[13],根據模型在測試集上的誤分類代價來評判各個主動學習算法的性能。

        1 材料與方法

        1.1 材料與數據

        依據上海市長寧區(qū)衛(wèi)生計生委提供的病人診療信息,共包含419868條糖尿病患者的診療信息作為正樣本,5875664條非糖尿病患者的診療信息作為負樣本。負樣本和正樣本的不平衡比率[14](imbalance ratio)是13.994。指標變量包括年齡、性別、白細胞計數、C反應蛋白(高敏)、總膽固醇、低密度膽固醇、高密度膽固醇、低密度脂蛋白、高密度脂蛋白、二小時血糖、甘油三酯、肌酐、空腹血糖、尿素氮、尿酸、尿微量白蛋白、全血粘度1、全血粘度5、全血粘度30、全血粘度50、全血粘度200、全血還原粘度:高切、全血還原粘度:低切、糖、糖化血紅蛋白、糖化血清白蛋白、同型半胱氨酸、血紅蛋白、平均紅細胞血紅蛋白含量、平均紅細胞血紅蛋白濃度、血小板、總胰島素、空腹胰島素、二小時胰島素共34個與糖尿病有關的指標。表1列出了糖尿病患者和非糖尿病患者相應指標的均值和標準差(除性別外,性別是列出了男女數目),經檢驗,34個指標的p值均<0.001,表明糖尿病和非糖尿病患者的相關影響因素之間差異均有統計學意義。

        表1 糖尿病指標統計分析表

        指標糖尿病非糖尿病指標糖尿病非糖尿病年齡70.30/11.4642.06/22.49全血粘度5(mPas)8.61/0.058.58/0.03性別(男/女)147898/2102951360311/4339790全血粘度30(mPas)5.46/0.015.43/0.01白細胞計數/(10^9/l)10.79/1.8417.05/1.15全血粘度50(mPas)4.51/0.024.56/0.02C反應蛋白/(高敏)(mg/dl)0.34/0.050.81/0.06全血粘度200(mPas)3.83/0.023.85/0.02總膽固醇/(mmol/l)4.85/0.335.05/0.19全血還原粘度:高切(mPas)5.53/0.185.48/0.07低密度膽固醇/(mmol/l)2.96/0.253.06/0.13全血還原粘度:低切(mPas)40.98/0.9541.00/0.38高密度膽固醇/(mmol/l)1.33/0.101.48/0.06糖1.26/0.051.08/0.02低密度脂蛋白/(mmol/l)2.84/0.122.92/0.09糖化血紅蛋白(%)7.18/0.455.76/0.15高密度脂蛋白/(mmol/l)1.26/0.041.41/0.04糖化血清白蛋白6.90/0.245.16/0.11二小時血糖/(mmol/l)11.31/0.537.15/0.25同型半胱氨酸(umol/l)15.28/0.9511.12/0.74甘油三酯/(mmol/l)1.81/0.381.65/0.15血紅蛋白(g/l)128.34/6.82127.45/7.47肌酐/(umol/l)81.82/22.39140.65/197.13平均紅細胞血紅蛋白含量(pg)30.28/0.7929.70/0.66空腹血糖/(mmol/l)7.72/0.715.49/0.24平均紅細胞血紅蛋白濃度(g/l)330.48/2.35331.72/2.31尿素氮/(mmol/l)8.12/2.685.16/1.15血小板(10^9/l)197.14/28.00214.80/27.30尿酸/(umol/l)327.28/33.84346.89/90.90總胰島素(uIU/ml)24.41/9.3515.94/2.90尿微量白蛋白/(mg/l)72.05/19.8566.11/15.20空腹胰島素(pmol/l)154.60/24.6764.56/7.08全血粘度/(1 mPas)19.16/0.1119.04/0.07二小時胰島素(pmol/l)424.03/28.69401.13/18.24

        1.2 邏輯回歸模型

        其中,θ是模型的參數,為了簡化,把偏差項包含在了x和θ里。進一步地,后驗概率可以被定義為:

        P(y|x;θ)=p(x;θ)y(1-p(x;θ))(1-y)

        邏輯回歸模型通常通過最大化邏輯似然函數來訓練,邏輯似然函數可以定義為:

        根據Newton-Raphson[15]方法,邏輯似然函數的最大值可以通過下面的模型參數更新法則取得:

        θ←θ-H-1Lθ

        其中,H是Hessian矩陣。給定訓練集D,在主動學習過程中,每次新添加一個樣本(x+,y+),模型需要在新擴充的數據集D+上重新訓練,為了提升效率,有效的模型更新方法[9]為:

        1.3 支持向量機模型

        支持向量機模型在實際的二分類問題中表現了良好的學習和泛化能力,在解決小樣本、高維度、非線性識別任務中展現了一定的優(yōu)勢,已被廣泛應用于圖像處理、疾病診斷等領域。建立支持向量機模型相當于解決下面的最優(yōu)化問題[9]:

        ξi≥0, i=1,2,…,n

        其中,w和b是支持向量機分隔超平面的參數,ξi為函數間隔滿足一定的限制所添加的補償,φ(xi)是從輸入空間到某個特征空間的映射,即先將數據映射到某個特征空間,然后再在特征空間內用線性學習器分類。支持向量機的決策函數可以定義為:

        f(x) =sign(wTφ(x)+b)

        其中,αi是拉格朗日乘子。

        1.4 人工神經網絡模型

        人工神經網絡模型是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一[16]。人工神經網絡模型是由一個多層神經元結構組成,每一層神經元擁有輸入(它的輸入是前一層神經元的輸出)和輸出,每一層由N個網絡神經元組成,分別與前一層的神經元相連,相連接的權重則是需要學習的模型參數。通常人工神經網絡的結構包括輸入層(Input Layer)、隱含層(Hide Layer)和輸出層(Output Layer)。

        1.5 基于期望誤差減小的代價敏感主動學習算法

        假設在訓練集D上訓練的模型記為fD(·),在D+上訓練得到的模型記為fD+(·)。在本文中,選用基于期望誤差減小[17](Expected Error Reduction)的代價敏感主動學習方法,每次選擇標記的樣本是那些標記后能夠使模型的期望誤差最小的樣本x*:

        其中,U是無標記的樣本集合,K是所有類別的數量,在本研究中K=2。P(y+=yk|x+)可以通過現有的模型fD(·)來計算,EL(x,fD+(x))是樣本x的期望損失。

        對于代價敏感分類問題,誤分類的代價通??梢杂靡粋€代價矩陣C來表示[18],其中元素C(i,j)表示把一個標簽為j類的樣本誤分類為i類的代價。特別地,二分類的代價矩陣如表2所示,其中C(0,0)=C(1,1)=0,這是因為預測正確的代價通常為0。

        表2 二分類任務的代價矩陣

        預測樣本實際樣本實際為負樣本實際為正樣本預測為負樣本C(0,0)C(0,1)預測為正樣本C(1,0)C(1,1)

        在代價敏感分類任務中,模型fD+(·)會把樣本x的標簽預測為使得它的期望損失最小的類別:

        其中,P(y=j|x)可以通過模型fD+(·)來計算。因此,在代價敏感二分類任務中,樣本x的期望損失被定義為[9]:

        =min {P(y=0|x)C(1,0),P(y=1|x)C(0,1)}

        2 實驗結果

        2.1 數據預處理

        在所有的糖尿病指標中,并不是所有的樣本都檢測了這些指標,缺失的部分用相應指標的平均值來進行填充。然后,選用min-max[19]方法將每個特征都歸一化到[0,1]范圍內:

        2.2 實驗設置

        將整個數據集隨機劃分為互不重合的3個部分[19-20]:初始訓練集、未標記的數據集和測試集。初始訓練集用來訓練初始的基礎模型,然后依據相應的主動學習算法從未標記數據集中選取樣本,標記后放入訓練集中,更新模型的參數,并在測試集上進行性能測試。本文選取整個數據集的0.001%作為初始訓練集,20%作為測試集,剩余的作為未標記的數據集。主動學習過程共迭代10次,每次迭代選取所有樣本的0.001%進行標記。為了避免結果的隨機性,每個實驗重復10次,每次實驗重新隨機劃分數據集,最終取平均結果。

        在代價敏感分類任務中,對最后的性能評估有影響的是不同誤分類代價的比率[21-22],即C(0,1)/C(1,0),而不是C(0,1)和C(1,0)本身。在本研究中,使用2種代價比率。自適應的代價比率,即代價的比率等于類別的不平衡比率:C(0,1)/C(1,0)=13.994;固定代價比率:C(0,1)/C(1,0)=20。

        為了證明期望損失減小(EER)這種主動學習方法在構建糖尿病診斷模型中的有效性,本文將它與下列主動學習算法進行對比:

        1)隨機選取(Random, RAND)。不采用任何主動學習算法,而是隨機選取樣本進行標記,常被用作比較的基準線。

        2)不確定性采樣[10-11](Uncertainty Sampling, US)。選取當前模型最不確定的樣本進行標記。

        3)方差減小[12](Variance Reduction, VR)。選取使得模型的輸出方差最小的樣本來間接地最小化模型的泛化誤差。

        4)期望損失最優(yōu)化[13](Expected Loss Optimization, ELO)。選取在當前模型下期望損失最大的樣本。

        2.3 實驗結果

        本文用Matlab軟件,分別以邏輯回歸模型、支持向量機模型和人工神經網絡模型為基礎建立糖尿病診斷模型,并在預處理后的數據集上進行實驗。5種主動學習方法在糖尿病診斷任務中的表現如圖1~圖6所示,橫軸表示主動學習過程中的迭代次數,縱軸表示在測試集上的平均誤分類代價。

        圖1 基于邏輯回歸模型在自適應比率下5種主動學習算法的性能比較

        圖2 基于邏輯回歸模型在固定比率下5種主動學習算法的性能比較

        圖3 基于支持向量機模型在自適應比率下5種主動學習算法的性能比較

        圖4 基于支持向量機模型在固定比率下5種主動學習算法的性能比較

        圖5 基于神經網絡模型在自適應比率下5種主動學習算法的性能比較

        圖6 基于神經網絡模型在固定比率下5種主動學習算法的性能比較

        從圖1~圖6可以看出,隨著主動學習次數的增加,在測試集上的誤分類代價也呈下降趨勢,說明模型的性能隨著訓練數據的增加而提升。在整個主動學習過程中,基于期望誤差減小的代價敏感主動學習算法在這5種方法中表現最優(yōu)。這是因為這種主動學習算法選取那些使得模型的期望誤分類代價最小的樣本,它考慮到了不同的誤分類帶來的不同代價。因此,在代價敏感分類任務中,期望損失減小選擇的樣本能夠更有效地提升模型的性能。此外,可以觀察到期望損失減小使得模型在測試集上的誤分類代價收斂得最快,即標記較少的樣本就能達到最低的誤分類代價。基于期望損失減小的主動學習算法在邏輯回歸模型、支持向量機模型和人工神經網絡模型上都表現最優(yōu),表明其穩(wěn)定性和普適性。

        為了更好地進行比較,本文畫出了主動學習停止點(第10次迭代)處的誤分類代價的分布情況,如圖7~圖12的箱形圖所示,橫坐標代表各個主動學習算法,縱坐標代表在測試集上的誤分類代價。圖中最上方的短橫線表示分布的最大值,第二條線表示四分之三分位數,中間的線表示中位數,第四條線表示四分之一分位數,最下面的短橫線表示分布的最小值。從圖7~圖12可以看出,期望誤差減小的表現優(yōu)于其他主動學習算法。

        圖7 基于邏輯回歸模型在自適應比率下主動學習停止點的誤分類代價的分布

        圖8 基于邏輯回歸模型在固定比率下主動學習停止點的誤分類代價的分布

        圖9 基于支持向量機模型在自適應比率下主動學習停止點的誤分類代價的分布

        圖10 基于支持向量機模型在固定比率下主動學習停止點的誤分類代價的分布

        圖11 基于神經網絡模型在自適應比率下主動學習停止點的誤分類代價的分布

        圖12 基于神經網絡模型在固定比率下主動學習停止點的誤分類代價的分布

        在預測模型的評價中,除了誤分類代價之外,靈敏度(Sensitivity)和特異度(Specificity)也是其中較為重要的指標,較高的靈敏度、特異度和AUC表示較好的預測性能。以邏輯回歸模型在自適應誤分類代價比率下為例,畫出了不同的主動學習算法迭代10次后模型的ROC曲線,如圖13所示。從圖13中可以看出在同樣的特異度下,EER得到的模型的靈敏度要比其他主動學習算法高,且EER的AUC最高,表明在代價敏感分類問題中EER主動學習算法優(yōu)于US、VR、ELO等主動學習算法。

        圖13 ROC曲線分析

        此外,本文對邏輯回歸模型的參數進行了分析(見表3),根據邏輯回歸模型的參數選出了對2型糖尿病診斷最為重要的10個檢測指標,并列出了相對應的統計檢驗p值,這10個指標分別是年齡、糖化血紅蛋白、空腹血糖、C反應蛋白(高敏)、平均紅細胞血紅蛋白含量、二小時血糖、尿素氮、甘油三酯、空腹血糖和血紅蛋白。p<0.001表明所列的指標參數均具有統計學意義。

        表3 2型糖尿病指標分析

        指標年齡糖化血紅蛋白空腹血糖C反應蛋白(高敏)平均紅細胞血紅蛋白含量參數676.211622.233520.7478-14.6567-8.4764P值<0.001<0.001<0.001<0.001<0.001指標二小時血糖尿素氮甘油三酯空腹血糖血紅蛋白參數6.95406.29495.39014.93004.8558P值<0.001<0.001<0.001<0.001<0.001

        3 結束語

        本文實驗結果表明可以利用主動學習算法有選擇地標記樣本,用盡可能少的標記成本獲得盡可能好的模型,從而解決醫(yī)療數據中標記樣本較少的問題。先前的研究大多基于提高預測準確率或減小0-1損失,而沒有考慮到不同的誤分類帶來的不同代價?;诖鷥r敏感分類模型建立的糖尿病診斷模型,可以考慮到不同的誤分類帶來的不同代價,從而更好地幫助醫(yī)生做出代價最小的診斷。

        通過比較不同的主動學習算法可以發(fā)現,期望誤差減小這一主動學習方法在糖尿病的診斷中表現最優(yōu)。在標記的樣本數一樣的情況下,由它選擇標記的樣本能夠使得模型在測試集上的誤分類代價最小。在測試集上的誤分類代價一樣的情況下,它需要選擇標記的樣本數最少。

        需要注意的是本文的實驗是基于上海市長寧區(qū)的數據,而糖尿病的患病人群分布比較廣泛,所以本文模型的泛化性能還需更多的數據進行驗證,才能證明模型可以推廣到更多人群。

        參考文獻:

        [1] Nathan D M, Buse J B, Davidson M B, et al. Medical management of hyperglycemia in type 2 diabetes: A consensus algorithm for the initiation and adjustment of therapy[J]. Clinical Diabetes, 2009,27(1):4-16.

        [2] Whiting D R, Guariguata L, Weil C, et al. IDF diabetes atlas: Global estimates of the prevalence of diabetes for 2011 and 2030[J]. Diabetes Research and Clinical Practice, 2011,94(3):311-321.

        [3] Norris S L, Kansagara D, Bougatsos C, et al. Screening adults for type 2 diabetes: A review of the evidence for the U.S. Preventive Services Task Force[J]. Annals of Internal Medicine, 2008,148(11):855-868.

        [4] Detrano R, Janosi A, Steinbrunn W, et al. International application of a new probability algorithm for the diagnosis of coronary artery disease[J]. The American Journal of Cardiology, 1989,64(5):304-310.

        [5] Gamboa A L G, Mendoza M G, Orozco R E I, et al. Hybrid fuzzy-SV clustering for heart disease identification[C]// IEEE International Conference on Computational Intelligence for Modeling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce. 2006:121.

        [6] Kahramanli H, Allahverdi N. Extracting rules for classification problems: AIS based approach[J]. Expert Systems with Applications, 2009,36(7):10494-10502.

        [7] Cascio D, Fauci F, Magro R, et al. Mammogram segmentation by contour searching and mass lesions classification with neural network[J]. IEEE Transactions on Nuclear Science, 2006,53(5):2827-2833.

        [8] Settles B. Active Learning Literature Survey[R]. University of Wisconsin-Madison, Computer Science Report 1648. 2009.

        [9] Zhang Yexun, Wang Yanfeng, Cai Wenbin, et al. From theory to practice: Efficient active cost-sensitive classification with expected error reduction[C]// Proceedings of the 2017 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics. 2017:153-161.

        [10] Liu A, Jun G, Ghosh J. A self-training approach to cost sensitive uncertainty sampling[J]. Machine Learning, 2009,76(2-3):257-270.

        [11] Lewis D D, Gale W A. A sequential algorithm for training text classifiers[C]// Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1994:3-12.

        [12] Schein A I, Ungar L H. Active learning for logistic regression: An evaluation[J]. Machine Learning, 2007,68(3):235-265.

        [13] Long Bo, Chapelle O, Zhang Ya, et al. Active learning for ranking through expected loss optimization[J]. IEEE Transactions on Knowledge and Data Engineering, 2015,27(5):1180-1191.

        [14] Lopez V, Fernandez A, Moreno-Torres J G, et al. Analysis of preprocessing vs. cost-sensitive learning for imbalanced classification. Open problems on intrinsic data characteristics[J]. Expert Systems with Applications, 2012,39(7):6585-6608.

        [15] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference and Prediction[M]. 2nd ed. Springer, 2009.

        [16] Baxt W G. Use of an artificial neural network for the diagnosis of myocardial infarction[J]. Annals of Internal Medicine, 1991,115(11):843-848.

        [17] Roy N, Mccallum A. Toward optimal active learning through sampling estimation of error reduction[C]// Proceedings of the 8th International Conference on Machine Learning. 2001:441-448.

        [18] Elkan C. The foundations of cost-sensitive learning[C]// International Joint Conference on Artificial Intelligence, 2001. 2001:973-978.

        [19] Cai Wenbin, Zhang Ya, Zhou Siyuan, et al. Active learning for support vector machines with maximum model change[C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2014:211-226.

        [20] Zhou Siyuan, Zhang Ya. Active learning for cost-sensitive classification using logistic regression model[C]// IEEE International Conference on Big Data Analysis. 2016:1-4.

        [21] Domingos P. Metacost: A general method for making classifiers cost-sensitive[C]// Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1999:155-164.

        [22] Wang Tao, Qin Zhenxing, Zhang Shicao, et al. Cost-sensitive classification with inadequate labeled data[J]. Information Systems, 2012,37(5):508-516.

        猜你喜歡
        血粘度代價比率
        一類具有時滯及反饋控制的非自治非線性比率依賴食物鏈模型
        愛的代價
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        基于單片機的血粘度測量系統設計
        代價
        高血壓患者血粘度增高怎么辦
        大眾健康(2016年5期)2016-08-03 21:48:34
        一種適用于微弱信號的新穎雙峰值比率捕獲策略
        活血化瘀結合綜合干預指導對高血壓病合并糖耐量調節(jié)受損患者的影響
        成熟的代價
        中學生(2015年12期)2015-03-01 03:43:53
        比率和比例的區(qū)別
        比率和比例的區(qū)別
        国产亚洲欧洲AⅤ综合一区| 婷婷久久香蕉五月综合加勒比| 美女视频黄的全免费视频网站| 欧美日韩国产专区| 中文字幕av人妻一区二区| 91麻豆精品国产91久久麻豆| 性做久久久久久久| 五月天精品视频在线观看| 亚洲无码vr| 男女做那个视频网站国产| 丝袜美腿一区二区三区| 国产真实乱人偷精品人妻| 国产盗摄XXXX视频XXXX| 久久精品国产熟女亚洲av麻豆| 国产日韩精品欧美一区喷水| 久久综合给合久久狠狠狠97色69| 九九精品国产99精品| 国产一品二品三区在线观看| 中文字幕日韩三级片| 99久久综合狠狠综合久久| 厕所极品偷拍一区二区三区视频| 免费观看人妻av网站| 粗大猛烈进出白浆视频| 国产99re在线观看只有精品| 日韩精品一区二区三区含羞含羞草 | 成人区人妻精品一区二区不卡网站| 国产一区二区亚洲av| 中文字日产幕码三区国产| 在线视频观看免费视频18| 久久久99精品成人片中文字幕| 中国黄色偷拍视频二区| 97精品国产一区二区三区| 丰满多毛少妇做爰视频| 麻美由真中文字幕人妻| 欲女在线一区二区三区| 在线精品一区二区三区| 国产未成女年一区二区| 二区三区日本高清视频| 国产一区二区女内射| 亚洲国产精品国语在线| 激情五月开心五月av|