亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集成學(xué)習(xí)機制下的鼻炎輔助診斷模型

        2021-09-20 10:26:02楊晶東孟一飛荀镕基余少卿
        數(shù)據(jù)采集與處理 2021年4期
        關(guān)鍵詞:分類方法模型

        楊晶東,孟一飛,荀镕基,余少卿

        (1.上海理工大學(xué)光電信息與計算機工程學(xué)院,上海 200093;2.同濟大學(xué)附屬同濟醫(yī)院耳鼻咽喉頭頸外科,上海 200065)

        引 言

        鼻炎(Rhinitis)是普遍存在的一種呼吸系統(tǒng)疾病,嚴(yán)重影響患者的正常工作和生活。據(jù)統(tǒng)計,全球有20%~30% 的普通人被過敏癥狀困擾,2015年全球哮喘患者已達3 億人,變應(yīng)性鼻炎(Allergic rhini‐tis,AR)患者達5 億人。在患病初期,咽喉有明顯干癢感,逐漸變?yōu)闊婆c刺痛感。若未及時干預(yù),初期輕癥急性鼻炎會轉(zhuǎn)化為慢性重癥鼻炎,不僅治療周期長,治療效果也難以保證。因此,AR 初期診斷和預(yù)防對于后期的有效治療和控制具有重要意義。

        近年來許多學(xué)者將機器學(xué)習(xí)算法應(yīng)用于鼻炎診斷[1],輔助醫(yī)生提高鼻炎診斷效率。Demirjian 等[2]采用改進貝葉斯理論對AR 發(fā)生概率預(yù)測,證明了免疫球蛋白(IgE)和嗜酸紅細(xì)胞(Eosinophil)是一種重要影響因素。李少華等[3]采用層次聚類分析,得出5 種鼻炎常見病癥與其特征相關(guān)性。黃嘉韻[4]提出了建立CART 決策樹和使用關(guān)聯(lián)規(guī)則算法對鼻炎5 種癥型建立了輔助診斷模型,并發(fā)現(xiàn)了一種對癥治療規(guī)律,具有較好的準(zhǔn)確率和可解釋性。

        文獻[5]采用遺傳編程算法(Genetic programming,GP)對多種醫(yī)療病癥自主分類,通過將原始數(shù)據(jù)輸送進GP 模型,并自主選擇訓(xùn)練特征,分類準(zhǔn)確率超越了決策樹和貝葉斯方法。但GP 模型訓(xùn)練過程不具可解釋性,不能直接應(yīng)用于風(fēng)險較高的診斷和臨床研究。Liu 等[6]提出了采用自動超參數(shù)優(yōu)化(AutoHPO)深度神經(jīng)網(wǎng)絡(luò)模型(DNN)解決醫(yī)療數(shù)據(jù)類別不平衡問題,總體精度上優(yōu)于隨機森林(RF)和AdaBoost 算法。機器學(xué)習(xí)算法應(yīng)用于AR 診斷過程,雖然取得了較好的效果,但仍存在方法局限性,如樣本數(shù)量不均衡[7]、數(shù)據(jù)屬性缺失、維度過高等問題[8]。

        樣本不均衡問題常出現(xiàn)于臨床樣本診斷過程。模型分類更偏向多數(shù)類樣本,導(dǎo)致多數(shù)類分類精度過高,少數(shù)類精度過低。而臨床醫(yī)學(xué)中往往更關(guān)注少數(shù)類的分類精度,如罕見病的漏診率或誤診率。解決樣本不均衡問題通常包括數(shù)據(jù)采樣、算法適應(yīng)[9]和特征選擇[10]等方法。過采樣方法包括隨機過采樣和啟發(fā)式過采樣[11],采用增加少數(shù)類樣本,與多數(shù)類平衡,但容易增加無效樣本。欠采樣方法包括隨機欠采樣和基于最優(yōu)子集搜索欠采樣[12],通過減少多數(shù)類樣本,與少數(shù)類樣本平衡,但容易丟失樣本重要特征?;旌喜蓸臃椒ú捎孟群铣蓸颖尽⒃偬蕹肼?,綜合考慮欠采樣和過采樣方法特點。代價敏感學(xué)習(xí)采用向損失函數(shù)引入代價敏感學(xué)習(xí)因子,判斷少數(shù)類與多數(shù)類錯分代價。當(dāng)多數(shù)類被錯分時,損失函數(shù)增加;少數(shù)類被錯分時,損失函數(shù)減少,從而提高少數(shù)類樣本的分類精度。還有一些學(xué)者引入集成學(xué)習(xí)方法解決樣本不均衡問題。如在過采樣或者代價敏感學(xué)習(xí)方法中融入集成學(xué)習(xí)的基分類器,如代價敏感學(xué)習(xí)boosting 方法AdaCost[13],或過采樣bagging 方法SMOTE[14]。此外在不均衡樣本集上做特征選擇也能有助于提升模型分類能力。通過選擇去除掉冗余特征,保留典型的特征子集。Ksiazek 等[15]在不均衡肝細(xì)胞癌診斷中采用了遺傳算法(GA)實現(xiàn)了特征篩選和模型參數(shù)優(yōu)化,具有較好的分類精度。綜上所述,本文構(gòu)建一種異質(zhì)集成分類模型實現(xiàn)AR 多輸出分類。本文主要貢獻如下:

        (1)提出一種異質(zhì)集成分類模型,實現(xiàn)不同證型鼻炎樣本的多輸出分類,提高了少數(shù)類樣本的分類精度。

        (2)根據(jù)鼻炎樣本分布,設(shè)計一種不平衡度計算方法,增強樣本均衡化,降低類別不平衡對分類的影響。

        (3)提出一種自適應(yīng)超參數(shù)優(yōu)化方法,動態(tài)搜索集成RFs 數(shù)量和深度,提高最優(yōu)超參數(shù)搜索效率。

        1 分類模型框架

        1.1 基于包外估計的多類別分類

        Easy ensemble(EE)[16]是一種對不均衡樣本實現(xiàn)均衡分類算法,將欠采樣技術(shù)和集成學(xué)習(xí)相融合,通過多次隨機采樣,充分利用單次欠采樣外的遺漏數(shù)據(jù),使訓(xùn)練數(shù)據(jù)集均衡化。本文變應(yīng)性鼻炎病癥有分度、分型兩類輸出,屬于多類別分類問題。采用基于包外估計(Out‐of‐bag,OOB)EE 集成分類算法OOBEE,將全部樣本作為訓(xùn)練數(shù)據(jù),采用Extra‐tree(ET)模型作為基分類器,對所有訓(xùn)練數(shù)據(jù)均衡化處理,實現(xiàn)對不平衡小樣本預(yù)測。OOBEE 算法流程圖如圖1 所示。OOBEE 從多數(shù)類中抽取與少數(shù)類相等的樣本,并組合重復(fù)使用的少數(shù)類樣本構(gòu)建多組基分類器,通過加權(quán)投票方法獲得集成分類器,以減少樣本不均衡對分類的影響。

        圖1 集成學(xué)習(xí)OOBEE 算法流程圖Fig.1 Flow chart of integrated learning model of OOBEE

        該方法數(shù)學(xué)描述為:假設(shè)訓(xùn)練樣本集Sr={(x,y) },做T次欠采樣,采用Bootstrap 隨機采樣法從多數(shù)類樣本集中得到一個子集,并且數(shù)量和少數(shù)類樣本相同,使用ET 算法對訓(xùn)練多組個體模型。

        式中:hk,j(x) 為第j個ET 子分類器,αk,j為hk,j(x) 權(quán)重,θk為子訓(xùn)練集的實際類別。ET 中隨機分裂特征數(shù)為m,由全體訓(xùn)練樣本的計算得出。m依據(jù)特征重要程度(Variable importance,VI)選取

        式中:oob1代表所有鼻炎測試樣本,oob2代表加入噪聲的測試樣本。最終模型描述為

        由于AdaBoost[17‐18]對小樣本噪聲敏感,難以獲得最優(yōu)解,因此不適合分析可能存在的少量錯誤樣本。RF 算法僅采用全部樣本的36.78% 作為包外估計,損失了部分訓(xùn)練數(shù)據(jù),ET 算法是隨機選擇最佳分叉屬性和特征分裂數(shù),將全部樣本作為訓(xùn)練或包外估計OOB。該方法采用ET 算法作為基分類器,使集成分類器方差更小,在小樣本分類中具有更好的泛化能力,同時有利于提升鼻炎樣本分度和分型的準(zhǔn)確率。因此,本文采用ET 算法作為多類別分類的基分類器。

        1.2 基于動態(tài)加權(quán)RF 多標(biāo)簽分類

        常見鼻炎樣本包括變應(yīng)性鼻炎(AR)、鼻竇炎(RS)、上呼吸道感染(URI)和其他(OTH 含鼻息肉,鼻腔腫瘤等),鼻炎預(yù)測屬于多標(biāo)簽分類。常采用樣本拆分法,選擇RF 作為基分類器[19],將多分類轉(zhuǎn)化為多個單標(biāo)簽二分類。通過調(diào)整RF 深度、分裂特征數(shù),減少模型過擬合和降低特征維度。但標(biāo)準(zhǔn)RF算法基分類器參數(shù)需要人為設(shè)定。本文提出了一種自適應(yīng)集成森林ARF 算法,根據(jù)樣本不平衡度,動態(tài)調(diào)整RF 數(shù)量和深度,提高多標(biāo)簽分類精度和效率。傳統(tǒng)的不均衡度(Ib)是少數(shù)類樣本數(shù)量Nl與多數(shù)類樣本數(shù)量Nm的比值。

        該比值越接近0 說明樣本越不均衡,越趨近于1 說明樣本越均衡。但該方法無法直接應(yīng)用于多類別分類,因此,本文針對鼻炎樣本不均衡特性,設(shè)計不均衡度計算公式,假設(shè)全體樣本個數(shù)為n,每個類標(biāo)中不同種類出現(xiàn)頻率為fj,類別個數(shù)為ci,每一類不均衡度bi計算公式為

        圖2 描述了當(dāng)樣本數(shù)據(jù)為100 時,二分類時不均衡度能力曲線??梢姳疚姆椒ㄅc改進的經(jīng)典方法[20]不平衡度接近,但當(dāng)樣本類別數(shù)量趨于平衡時,本文方法比經(jīng)典方法收斂更快,說明本文的不均衡度對不均衡樣本更加敏感。圖3 給出了三分類時不平衡度評價能力等高線,樣本總數(shù)為100,橫軸和縱軸分別代表兩個分類樣本數(shù)量,第三分類樣本數(shù)量由總數(shù)與前兩類之差表示??捎^察到(33,33)點不均衡度最低,而越向外圍發(fā)散,不均衡度越高,等高線內(nèi)部變化率也高于外圍,說明本文不均衡度計算方法對于多分類的不均衡樣本的敏感度較高。

        圖2 不均衡度在二類別樣本中的比較Fig.2 Comparison of class imbalance ratio for binary classes

        圖3 不均衡度在三分類樣本中分布Fig.3 Distribution of class imbalance ratio for three classes

        本文采用自適應(yīng)超參數(shù)優(yōu)化ARF 方法,動態(tài)調(diào)整RFs 參數(shù),其中基準(zhǔn)參數(shù)s(e,d)為固定值,基分類器數(shù)量e和深度d均需搜索確定。本文通過動態(tài)網(wǎng)格搜索法獲得多類別均衡化過程參數(shù)。在網(wǎng)格搜索過程中,RFs 算法閾值范圍為e=[10,300];d=[1,15]。圖4 給出了ARF 算法參數(shù)與精度動態(tài)關(guān)系圖。分析可知,基分類器深度對精度影響較大,d=12 時分類精度最好,基分類器數(shù)量對分類精度影響較小,但e=[10,50]過程中分類精度出現(xiàn)了一個較明顯提升,說明當(dāng)e< 60,對分類精度影響較大。經(jīng)多次測試后,參數(shù)設(shè)定為e= 70,d= 12。因此,ARF 算法可以有效調(diào)節(jié)內(nèi)嵌集的基分類器數(shù)量與訓(xùn)練時間的均衡,動態(tài)獲得集成分類器最優(yōu)精度時的基分類器匹配參數(shù)。

        圖4 ARF 模型參數(shù)與精度動態(tài)關(guān)系圖Fig.4 Dynamic relationship diagram between model parameters and accuracy

        ARF 模型采用RF 作為基學(xué)習(xí)器,采用等權(quán)重隨機采樣法生成訓(xùn)練集,每個基學(xué)習(xí)模型以等權(quán)重投票方式分類。假如一個模型測試集為X,類別數(shù)為c,基分類器數(shù)為m,則模型輸出可表示為

        式中:f為指示函數(shù),L為隨機參數(shù),g為基分類器RFs 動態(tài)搜索函數(shù),函數(shù)I為真則輸出1,若為假則輸出0。

        鼻炎證型有4 種標(biāo)簽分類,分別為變應(yīng)性鼻炎(AR)、鼻竇炎(RS)、上呼吸道感染(URI)和其他(OTH 含鼻息肉,鼻腔腫瘤等)。鼻炎樣本的多標(biāo)簽分類ARF 模型如圖5 所示,圖中總樣本集分為4 組證型子集,4 種分型鼻炎樣本根據(jù)CIR(Calculation of imbalance ratio)值確定二分類的樣本子集BS(Balanced sets)分布,分別輸入到4 組RFs 鼻炎證型分類模型中。模型每次運行會輸出預(yù)測結(jié)果與RFs包外誤差,當(dāng)包外誤差滿足優(yōu)化終止條件時,可輸出當(dāng)前預(yù)測結(jié)果。

        圖5 ARF 算法流程圖Fig.5 Flow chart of ARF model

        1.3 異質(zhì)集成結(jié)構(gòu)的多輸出分類模型

        多輸出分類是指從一個輸入產(chǎn)生多個離散輸出的分類模型,馬忠臣等[21]總結(jié)了多輸出分類類型,包括多標(biāo)簽分類、多輸出有序分類、異質(zhì)多輸出分類(Heterogeneous multi‐output,HGMO)。鼻炎樣本包含4 組常見的多標(biāo)簽鼻炎類型,每組又分度、分型。因此,鼻炎樣本屬于HGMO 分類,其數(shù)學(xué)描述為

        假設(shè)分類問題的輸出空間包含m( ≥2 )維多輸出變量Y1,…,Ym,分類目標(biāo)是尋求目標(biāo)函數(shù)h,使其準(zhǔn)確學(xué)習(xí)每個輸入x在m維輸出變量上的相應(yīng)輸出y=(y1,…,ym)

        式中:輸出變量Y1,…,Ym具有不同類型,yj∈ΩYj,|ΩYj|≥2;ΩX和ΩYj(j= 1,…,m)分別表示輸入和輸出變量所屬值域。

        根據(jù)HGMO 結(jié)構(gòu),本文提出了異質(zhì)集成鼻炎分類器模型ARF‐OOBEE 識別多種證型鼻炎,如鼻竇炎(RS)(二元變量),變應(yīng)性鼻炎(AR)嚴(yán)重程度或持續(xù)性(有序變量)等。圖6 描述了ARF‐OOBEE 模型示意圖。該模型通過將HGMO 問題轉(zhuǎn)換成4 標(biāo)簽二分類問題(Multi‐la‐bel cassification)和2 個多類別分類問題(Multi‐class classification)。這樣可有效避免多標(biāo)簽類型分類與多類別癥狀分類相互干擾,避免一個患者同時出現(xiàn)兩組或更多的分度或分型標(biāo)簽。采用多種模型分別訓(xùn)練組件分類器,利用集成學(xué)習(xí)獲得最終分類器。

        圖6 ARF-OOBEE 模型結(jié)構(gòu)框圖Fig.6 Structure block diagram of ARF-OOBEE model

        圖6 左分支描述了動態(tài)隨機森林方法ARF。ARF 根據(jù)子數(shù)據(jù)集中單一類標(biāo)的不平衡度,自動調(diào)節(jié)集成森林的群數(shù)和森林內(nèi)的基分類器數(shù)。當(dāng)出現(xiàn)均衡子標(biāo)簽時,減少森林群數(shù),計算速度最優(yōu)的單森林內(nèi)的基分類器數(shù)量;當(dāng)出現(xiàn)非均衡的子標(biāo)簽時,增加森林群數(shù);最終根據(jù)驗證集算出集成森林權(quán)重。ARF 更有利于提高分類的準(zhǔn)確率和均衡性,并通過動態(tài)增減訓(xùn)練集不均衡樣本數(shù)量,實現(xiàn)速度與精度的動態(tài)均衡。圖6 右分支描述了OOBEE 集成分類算法。該方法采用ET 算法替代Adaboost,將全部樣本作為包外估計,充分利用所有訓(xùn)練樣本,通過欠采樣集成學(xué)習(xí)方式處理多分類任務(wù)中的樣本不均衡問題,避免了對不均衡樣本的重復(fù)判斷、少數(shù)類樣本特征過于稀疏等問題,提高模型的泛化能力。

        2 實驗結(jié)果與分析

        2.1 數(shù)據(jù)預(yù)處理

        采用上海同濟大學(xué)附屬同濟醫(yī)院臨床鼻炎樣本461 例,其中男性261 例(占56.62%),平均年齡(30.48±19.66)歲;女性200 例(占43.38%),平均年齡(33.51±19.32)歲。樣本含有多種數(shù)據(jù)類型,包括患者信息(性別,年齡等),醫(yī)生問診結(jié)果(是否流涕,何種變應(yīng)原等),檢測儀器信息(CT,IgE 等)。由于輸入數(shù)據(jù)源種類多,數(shù)據(jù)類型不唯一,如果采用簡單的剔除缺失值樣本會使樣本大量減少,不利于鼻炎病癥預(yù)測。本文采用了混合型缺省值填充方法,對于患者個人信息采用K 近鄰[22]填充相似數(shù)據(jù)均值;使用了眾數(shù)插補方式填補問診數(shù)據(jù)缺失值;對于儀器測量數(shù)據(jù),將缺失值作為一種標(biāo)簽,建立RF 模型,得到預(yù)測值之后進行填充。

        鼻炎診斷可設(shè)定為6 組類別,包括4 種病癥標(biāo)簽,AR 類型2 種癥狀類別(分度或分型),數(shù)據(jù)呈不均勻分布。因此,本文采用獨熱編碼。表1 和表2 分別描述了鼻炎標(biāo)簽分布及不平衡度數(shù)據(jù)和鼻炎類型分布,AR 標(biāo)簽中陽性占比較大,RS、URI、OTH 陰性占比較大,Severity 類型中輕癥樣本較多,中癥次之,重癥最少,Duration 類型中間歇性樣本較多,持續(xù)性較少,可見鼻炎AR 樣本最多,非AR 為30 例,僅占總病例6.5%,卻包含3 種病癥標(biāo)簽,說明鼻炎樣本分布極不均衡。鼻炎樣本標(biāo)簽數(shù)及病歷分布分別如圖7、8 所示,每個病例含1~5 個輸出,病例分布數(shù)量總計461 例,分別為24、6、330、95、6。對于前4 組標(biāo)簽型預(yù)測項,每類病歷表現(xiàn)出陽性數(shù)量有1~3 個標(biāo)簽,其中單證候病例354 例,占總病例76.79%;兼證病例110 例,占總病例21.91%;三證合一病例6 例,占總病例1.3%。

        圖7 預(yù)測輸出的數(shù)量分布Fig.7 Distribution of prediction output

        表1 鼻炎標(biāo)簽分布及不平衡度數(shù)據(jù)Table 1 Distribution of rhinitis labels and its class imbalance ratio

        表2 鼻炎類型分布Table 2 Distribution of rhinitis types

        表3 給出了針對原始鼻炎樣本,采用多種不平衡度計算方法對比數(shù)據(jù),包括過采樣均衡化SMOTE 方法[23],ADASYN 方法[24],欠采樣均衡化All‐KNN 方法,原始樣本不平衡度(RAW)以及本文方法ARF‐OOBEE??梢钥闯?,原始數(shù)據(jù)不平衡度最低為分度Severity,占比55.53%,最高為AR,占比為90.98%,說明所有待預(yù)測樣本輸出值均為不均衡。采用ADASYN 和SMOTE 方法對Types預(yù)測值做均衡化處理后,與AR、Severity 和Duration 相比,不均衡度至少降低0.403 5,但是RS、URI、OTH 不均衡度無明顯變化,RS 標(biāo)簽上的不均衡度提高了0.085 8。同樣,采用SMOTE 方法對URI 標(biāo)簽均衡化后,URI 不均衡度降為0,但RS、OTH 不均衡度分別增加0.043 7、0.040 1。采用All‐KNN 欠采樣后具有較高不均衡度(>0.6)。由此可見,常規(guī)類別均衡化方法僅能在指定標(biāo)簽上具有較好的效果,無法對多輸出樣本做整體均衡化。而本文方法ARF‐OOBEE 將6 組不均衡多標(biāo)簽分類問題轉(zhuǎn)化為4 組二分類和2 組多分類問題,并在組件分類模型中分別實現(xiàn)樣本均衡化處理,較好地解決了多輸出分類中樣本不均衡問題。

        圖8 鼻炎病歷分布Fig.8 Types of rhinitis among patients

        表3 各算法樣本不平衡度b 對比Table 3 Comparison of class imbalance ratio b for different methods

        2.2 維歸約處理

        鼻炎預(yù)測模型的原始輸入特征數(shù)為66,具有不同來源的組成和數(shù)據(jù)類型。如果不做特征降維處理,會增加訓(xùn)練時間、噪音干擾和模型復(fù)雜度。常見特征降維方法有主成分分析法(PCA)[25],核主成分分析(KPCA),獨立成分分析(ICA)[26],線性判別分析(LDA)[27]等。

        本文采用4 種特征降維方法FastICA,PCA,KPCA,LDA 來對比分析,其中FastICA 方法將原66維特征降至25 維;PCA 將原特征數(shù)量降至33 維,LDA 方法則將原特征數(shù)量降至10 維,KPCA 方法將原特征降至54 維。本文使用RF 算法對樣本分類,根據(jù)分類后ROC 曲線面積AUC 值評估各算法降維效果,表4 給出了上述4 種降維算法后AUC 值,發(fā)現(xiàn)FastICA 方法效果最佳,達到了0.929,相較于PCA 算法最大提升了5.6%。

        表4 各種降維方法效果對比Table 4 Comparison of effects of vari?ous dimensional reduction methods

        本文采用安德森‐達令檢驗方法(Anderson‐darling test)檢驗鼻炎樣本分布,如圖9 所示。假設(shè)鼻炎樣本服從正態(tài)分布,當(dāng)顯著性水平α= 0.05 時,特征臨界值Critical value = 0.746,而各特征統(tǒng)計量(Sta‐tistic)均大于臨界值,因此拒絕原假設(shè),即樣本不服從正態(tài)分布。而經(jīng)典降維方法PCA 和LDA 均符合正態(tài)分布樣本。由此可見,本文采用FastICA 算法對AR 樣本進行降維處理,該方法更適用于處理非高斯分布樣本,計算簡單、要求內(nèi)存小、收斂速度快,且具有神經(jīng)網(wǎng)絡(luò)并行性、分布性等特點,能夠從多變量統(tǒng)計數(shù)據(jù)中發(fā)現(xiàn)抽象的、本質(zhì)的因素或成分。

        圖9 原始樣本的Anderson 正態(tài)分布檢驗Fig.9 Anderson normal distribution test of the original sample

        2.3 評價指標(biāo)和對比實驗

        為評價AR 樣本預(yù)測結(jié)果,選擇混淆矩陣綜合指標(biāo):真陽性(TP),假陰性(FN),假陽性(FP)和真陰性(TN)。并使用臨床常用性能量測統(tǒng)計參數(shù):精確度(Precision),靈敏度(Sensitivity),特異性(Spec‐ificity),G‐Mean,F(xiàn)1,ROC 曲線面積AUC 等作為預(yù)測評估指標(biāo)[28]。

        本文采用6 種典型集成學(xué)習(xí)分類算法進行對比實驗,包括深度森林(GCForest)、堆疊集成(GA‐Stacking)、代價敏感提升樹(AdaCost)、隨機森林(RF)、極端隨機樹(ET)和極端梯度提升樹(XG‐Boost),參數(shù)設(shè)置如下:

        (1)GCForest 算法將兩個隨機森林(RF)和兩顆極端隨機樹(ET)作為基分類器,添加進級聯(lián)層中,其中每個基分類器的子樹設(shè)定為100 棵,最大深度12。

        (2)GA‐Stacking 算法由遺傳算法進行特征篩選,采用兩點交叉,單點變異,概率均為0.8,種群規(guī)模100,迭代200 次;堆疊第一級集成了RF、AdaBoost、梯度提升樹(GBDT)、ET、支持向量機(SVM)和XGBoost 這6 種分類算法,使用10Fold 分割訓(xùn)練數(shù)據(jù);堆疊第二級采用邏輯回歸(LR)對第一級輸出預(yù)測訓(xùn)練。

        (3)AdaCost 算法為AdaBoost 改進算法,集成了50 個基分類器,代價參數(shù)為1.25。

        (4)RF 算法內(nèi)部由150 棵決策樹構(gòu)成,每個決策樹最大限制深度為12,葉節(jié)點最小分裂數(shù)為2。

        (5)ET 算法參數(shù)設(shè)置同RF。

        (6)XGBoost 算法采用200 個基學(xué)習(xí)器,學(xué)習(xí)率0.01,最大限制深度12。

        2.4 集成模型性能分析

        本文采用ARF‐OOBEE 模型與6 種典型方法對比,分別將6 類鼻炎樣本按比例、隨機有回放地分層劃分訓(xùn)練集與測試集,并進行12 次交叉驗證,訓(xùn)練集與測試集比例為7∶3,并分析模型評估指標(biāo)均值與方差。表5 給出了多種方法綜合預(yù)測指標(biāo),可以發(fā)現(xiàn)ARF‐OOBEE 算法F1 值為78.3%,均高于其他6種算法,其中相較于集成學(xué)習(xí)GCForest 算法,F(xiàn)1 值提升了3.2%,ARF‐OOBEE 算法G ‐Mean 值為79.9%,高于其他6 種算法,相較于集成學(xué)習(xí)方法XGBoost 提升了1%,表明集成學(xué)習(xí)方法可以有效地提升不均衡樣本分類性能。GCForest 算法具有復(fù)雜的串聯(lián)結(jié)構(gòu),但對于不均衡的鼻炎樣本,與RF 算法相比,GCForest 算法靈敏度提高了2.4%,G‐Mean 提高1.1%,而精確度降低了4%,這說明僅僅通過增加集成復(fù)雜度,無法提升AR 的分類精度,同時還會增加模型總體訓(xùn)練時耗。本文提出模型準(zhǔn)確率、F1值、靈敏高于其他集成分類模型約2%~3%。說明ARF‐OOBEE 模型具有自適應(yīng)特性,可以動態(tài)改變集成基分類器數(shù)量,對于數(shù)據(jù)不均衡樣本具有較好的綜合分類性能。

        表5 多種分類方法的綜合評價指標(biāo)Table 5 Comprehensive evaluation indicator of different classification methods 100%

        表6 給出了針對原始樣本6 類鼻炎病癥數(shù)據(jù)獨立分類評價指標(biāo)。數(shù)據(jù)分析可知,針對多標(biāo)簽分類鼻炎病癥AR、RS、URI、OTH 預(yù)測準(zhǔn)確度較高(>90%),而多分類鼻炎病癥Severity、Duration 分類準(zhǔn)確度較低(<90%)。這是因為前者ARF 模型是二分類輸出,后者OOBEE 模型是多類別分類。兩者基分類器均為決策樹,但是與多標(biāo)簽二分類相比,多類別分類模型中決策樹分裂次數(shù)更多,分裂機制更復(fù)雜,因此,ARF 多標(biāo)簽二分類精度高于多類別分類。此外,AR 特異性值僅為59.3%,比其他病癥類型明顯偏低,這是由于AR 型樣本不平衡度(93.27%)過大,而ARF‐OOBEE 算法會自適應(yīng)均衡化鼻炎AR類的非均衡樣本,導(dǎo)致一部分AR 樣本沒有參與樣本子集訓(xùn)練,使AR 二分類特異性降低,模型會將較少的陰性患者診斷為陽性,導(dǎo)致誤診率升高,但提高了AR 多標(biāo)簽二分類的其他評估指標(biāo)。在實際臨床中,可以通過醫(yī)師二次核查排除,從而提升AR 特異性,有效地降低鼻炎誤診率。

        表6 ARF?OOBEE 算法各分類預(yù)測評價指標(biāo)Table 6 Evaluation Indicator comparison of ARF?OOBEE for different classes 100%

        圖10 和圖11 分別給出了本文ARF‐OOBEE 方法與6 種典型分類模型ROC 和PR 曲線數(shù)據(jù)統(tǒng)計。由圖10 中可以看出,藍線曲線ARF‐OOBEE 算法從(0,0)點快速上升,增幅大于其他6 種方法,說明正例樣本檢測精度較高。ARF‐OOBEE 算法AUC 面積為0.953,均高于其他算法,比GCForest 算法提高1.4%,比RF 提高2.4%。由于ROC 曲線對數(shù)據(jù)的不均衡分布不敏感,因此本文還采用了PR 曲線作為輔助參考。PR 曲線Precision 和Recall 值都關(guān)注正類樣本檢測率。如圖11 所示,ARF‐OOBEE 模型PR曲線位于所有方法曲線的最外圍,數(shù)據(jù)變化平緩,與橫軸面積超過了其他6 種曲線,其中mAP=0.895,比典型集成GCForest 算法多0.5%,比RF 算法多2.2%,說明該模型具有較高的查準(zhǔn)率和查全率,樣本不均衡對分類影響較小,因此,本文鼻炎預(yù)測模型ARF‐OOBEE 具有較好的泛化性能。

        圖10 多種分類器ROC 曲線對比Fig.10 ROC curve for comparison different classifiers

        圖11 多種分類器PR 曲線對比Fig.11 PR curve comparison for different classifiers

        3 結(jié)束語

        針對臨床鼻炎樣本高維度、不均衡、稀疏特征,本文構(gòu)建一種異質(zhì)集成分類器,采用一種有效的不平衡類分析方法,設(shè)計自適應(yīng)動態(tài)子分類器,對多類型、不均衡鼻炎樣本實現(xiàn)多輸出分類。該方法可快速均衡化鼻炎樣本,提高多數(shù)類和少數(shù)類分類精度。本文算法訓(xùn)練時耗低于GCForest 算法,但高于RF算法。LR、NB 兩種算法分類精度與上述集成方法相似,但訓(xùn)練時耗較低。以后工作考慮對ARF‐OO‐BEE 模型自適應(yīng)參數(shù)搜索算法中增加LR 基分類器,減少訓(xùn)練時耗。由于ARF‐OOBEE 模型中含有異質(zhì)基分類器的并行計算,可以通過對多核處理器的優(yōu)化來提高模型訓(xùn)練的運算效率和分類精度。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        蜜桃av多人一区二区三区| 亚洲中文字幕无码久久| 人人看人人做人人爱精品| AV中文码一区二区三区| 黑丝美腿国产在线观看| 欧美人与善在线com| 欧洲成人午夜精品无码区久久| 亚州精品无码久久aV字幕| 精品国产乱码一区二区三区| 国产午夜视频一区二区三区| 性无码免费一区二区三区在线| 伊人久久网国产伊人| 久草精品手机视频在线观看| 伊人加勒比在线观看视频| 亚欧色一区w666天堂| 国产精品美女| 国内专区一区二区三区| 日本在线一区二区三区不卡| 国产精品久久久久久亚洲av| 亚洲成人免费无码| 日产一区一区三区区别| 日韩欧美亚洲国产精品字幕久久久 | 国产成人拍精品免费视频| 久久蜜臀av一区三区| 丰满人妻一区二区三区视频| 国产熟妇高潮呻吟喷水| 久久露脸国产精品WWW| 亚洲综合在不卡在线国产另类| 日产精品久久久一区二区| 亚洲一区二区三区偷拍女厕| 国产免费激情小视频在线观看| 免费视频无打码一区二区三区| 亚洲av无码专区在线播放中文 | 免费无码中文字幕A级毛片| 网址视频在线成人亚洲| 国产精品无码无卡无需播放器| 国产999精品久久久久久| 亚洲av乱码国产精品色| 国产极品裸体av在线激情网| 日本老熟妇毛茸茸| 欧美激情精品久久999|