亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種為輔助診斷篩選機器學(xué)習(xí)模型的方法

        2021-03-23 07:56:58鄧子云
        計算機與現(xiàn)代化 2021年3期
        關(guān)鍵詞:模型

        鄧子云

        (1.長沙商貿(mào)旅游職業(yè)技術(shù)學(xué)院經(jīng)濟湘商學(xué)院,湖南 長沙 410116;2.湖南大學(xué)國家超級計算長沙中心,湖南 長沙 410082)

        0 引 言

        判斷接受醫(yī)學(xué)檢查的人員是否患有某種疾病,常規(guī)做法是醫(yī)生根據(jù)醫(yī)學(xué)檢查結(jié)果的各項指標(biāo)值來作出知識推斷,既要求醫(yī)生對專業(yè)領(lǐng)域非常熟悉,也要求醫(yī)生能清楚各項指標(biāo)在患病時的取值區(qū)間[1]。能否借助大數(shù)據(jù)技術(shù)幫助醫(yī)生進行輔助診斷?即在積累了某種疾病足夠數(shù)量的樣本數(shù)據(jù)及診斷結(jié)果后,可以使用機器學(xué)習(xí)模型來輔助診斷新的樣本數(shù)據(jù)對應(yīng)的人員是否患有某種疾病[2]。

        可以用來輔助診斷是否患有某種疾病的機器學(xué)習(xí)模型有很多,如K-近鄰模型、支持向量機模型、邏輯回歸模型等,但是應(yīng)當(dāng)選用哪種模型更優(yōu)呢?自然是認為輔助診斷更為準確的模型更優(yōu)。但是怎么衡量更為準確?能否研發(fā)一種引擎為醫(yī)生自動推薦一種用于疾病輔助診斷的最優(yōu)的機器學(xué)習(xí)模型?本文的研究就致力于研發(fā)這種引擎,并提出選擇何種模型的篩選方法。

        1 國內(nèi)外研究現(xiàn)狀

        1)用人工智能技術(shù)作疾病輔助診斷的研究有很多,研究人員總在試圖尋找更優(yōu)的機器學(xué)習(xí)模型。有的研究人員用相似性分析技術(shù)分析出新的數(shù)據(jù)與已有病例數(shù)據(jù)的相似度來輔助診斷[3],有的研究人員用貝葉斯[4-5]、神經(jīng)網(wǎng)絡(luò)[6]等模型構(gòu)建起診斷的大數(shù)據(jù)機器學(xué)習(xí)模型。這些研究的共同點是都需要有病例和非病例數(shù)據(jù)的積累,需要醫(yī)護人員根據(jù)其認為可以作為判斷依據(jù)的特征數(shù)據(jù)項來收集數(shù)據(jù),再使用一種或多種模型在分析后作出比較,再選擇一種最優(yōu)的模型。也有的研究工作只討論用于疾病輔助診斷的一種模型的參數(shù)調(diào)優(yōu)。要比較機器學(xué)習(xí)模型,需要有衡量機器學(xué)習(xí)模型優(yōu)劣的指標(biāo),主要有準確度、查準率、召回率、F1成績、是否欠擬合、是否過擬合等[7-9]。

        2)部分研究人員已研發(fā)了大數(shù)據(jù)智能的疾病輔助診斷系統(tǒng)。有研究人員研發(fā)出了專用于體檢結(jié)果的疾病輔助診斷系統(tǒng)[10],還有研究人員研發(fā)了小型軟件用于牙科疾病[11]、糖尿病[12]、乳腺癌[13]等疾病的輔助診斷,這些系統(tǒng)多是專用系統(tǒng),有少數(shù)系統(tǒng)可以適用于多種疾病的輔助診斷,但采用的機器學(xué)習(xí)模型只支持1種或少量的幾種。

        鑒于以上分析,本文并不去尋找新的機器學(xué)習(xí)模型,而是提出篩選機器學(xué)習(xí)模型的方法,再運用這種篩選方法自動為醫(yī)生推薦最優(yōu)的機器學(xué)習(xí)模型。

        2 機器學(xué)習(xí)模型及其篩選方法

        2.1 可用于疾病輔助診斷的機器學(xué)習(xí)模型

        機器學(xué)習(xí)模型有很多,主要有監(jiān)督、無監(jiān)督、強化學(xué)習(xí)等3類[14]。利用已有病例和非病例數(shù)據(jù)作疾病輔助診斷是典型二分法分類問題,即輔助診斷的結(jié)果為是否患有某種疾病。這種分類問題適宜采用的機器學(xué)習(xí)模型是有監(jiān)督的機器學(xué)習(xí)模型,如邏輯回歸、決策樹、K-近鄰、支持向量機、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等[15],如表1所示。這些模型還可以分化出多種子類型的模型,如根據(jù)邏輯回歸模型函數(shù)中的判定邊界函數(shù)可分為1階、2階、…、n階,根據(jù)成本函數(shù)中的正則項,又可分為L1范數(shù)、L2范數(shù)等[16]。

        表1 可用于疾病輔助診斷的機器學(xué)習(xí)模型

        有如此多可以采用的機器學(xué)習(xí)模型,到底采用哪種好呢?在為醫(yī)生作疾病輔助診斷時,總不能把這些機器學(xué)習(xí)的模型都測試一遍吧?此外,醫(yī)生應(yīng)專注于醫(yī)學(xué)領(lǐng)域的專業(yè)知識研究,機器學(xué)習(xí)的專業(yè)知識應(yīng)由人工智能領(lǐng)域的專家完成,當(dāng)然也可以聯(lián)合完成。但是為了使機器學(xué)習(xí)的各種模型具有普適性,降低醫(yī)生使用機器學(xué)習(xí)模型的難度,最好能為醫(yī)生自動推薦最優(yōu)的機器學(xué)習(xí)模型。

        2.2 篩選機器學(xué)習(xí)模型的方法

        綜合已有研究人員提出的各種評價機器學(xué)習(xí)模型的做法[23-25],下面提出一種通用的篩選出最優(yōu)的機器學(xué)習(xí)模型的方法,步驟如圖1所示。

        圖1 篩選出最準確的機器學(xué)習(xí)模型的步驟

        假定支持的機器學(xué)習(xí)模型集合為:

        M={M1,M2,…,Mn},n≥1

        1)用訓(xùn)練準確度和測試準確度篩選機器學(xué)習(xí)模型。

        對已有的病例和非病例數(shù)據(jù)按9∶1的比例隨機分組訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù),在作完機器學(xué)習(xí)模型Mi的驗證測試后求得訓(xùn)練準確度和測試準確度,分別計為PAj、TAj。對機器學(xué)習(xí)模型Mi進行10次訓(xùn)練和驗證測試,求得平均訓(xùn)練準確度和平均測試準確度作為機器學(xué)習(xí)模型Mi的訓(xùn)練準確度和測試準確度,分別記為PAi、TAi。

        (1)

        (2)

        其中,i為機器學(xué)習(xí)模型的編號;j為對機器學(xué)習(xí)模型的10次訓(xùn)練中的某次訓(xùn)練的編號。

        如果機器學(xué)習(xí)模型Mi同時滿足以下條件1和條件2,則可繼續(xù)進入下一輪的篩選。

        條件1:PAi≥tand TAi≥t,t≥0.7

        條件2:|PAi-TAi|≤d, 0.1≥d>0

        條件1中,t表示用戶設(shè)置的準確度閾值,t默認設(shè)置為0.7,訓(xùn)練準確度PAi和測試準確度TAi均必須大于或等于準確度閾值。條件2表示訓(xùn)練準確度PAi和測試準確度TAi應(yīng)收斂,兩者的差值的絕對值被稱為收斂閾值,其值應(yīng)在d以內(nèi),d默認設(shè)置為0.1。

        2)用查準率、召回率和F1成績篩選機器學(xué)習(xí)模型。

        對已有數(shù)據(jù)按10%的比例分10次隨機抽取測試數(shù)據(jù),運用已訓(xùn)練出的機器學(xué)習(xí)模型Mi,計算出患病結(jié)果。再對比計算出的患病結(jié)果和實際患病情況,求出10次測試的查準率、召回率、F1成績的平均值作為機器學(xué)習(xí)模型Mi最終的查準率、召回率、F1成績。如表2所示的結(jié)果判斷表示,以幫助求得查準率、召回率。

        表2 是否患病的結(jié)果判斷表示

        表2中,True/False表示計算出的結(jié)果是否正確;Positive/Negative表示計算出的結(jié)果是1(患病)或0(未患病)。故TruePositive表示正確的計算出患??;FalsePositive表示錯誤的計算出患病;FalseNegative表示錯誤的計算出未患病。查準率、召回率的計算公式如公式(3)和公式(4)所示。

        查準率:

        (3)

        召回率:

        (4)

        查準率PRi的計算公式中,CTruePositive表示對比計算出的患病結(jié)果和實際患病情況,為TruePositive的個數(shù);CFalsePositive表示對比計算出的患病結(jié)果和實際患病情況,為FalsePositive的個數(shù)。召回率RRi的計算公式中,CFalseNegative表示對比計算出的患病結(jié)果和實際患病情況,為FalseNegative的個數(shù)。

        F1成績的計算公式如公式(5):

        (5)

        如果機器學(xué)習(xí)模型Mi同時滿足條件3則可繼續(xù)進入下一輪的篩選:

        條件3:PRi≥rand RRi≥rand F1i≥r,r≥0.7

        以上條件,表示查準率、召回率、F1成績均應(yīng)大于或等于閾值r,閾值r被稱為三率閾值,三率閾值r默認設(shè)置為0.7。

        3)用帶權(quán)值的總成績計算公式推薦最優(yōu)的機器學(xué)習(xí)模型。

        根據(jù)公式(6)計算機器學(xué)習(xí)模型Mi的總成績:

        (6)

        公式(6)中,w1和w2分別為測試準確度TAi和F1成績F1i的權(quán)值,均默認設(shè)置為0.5。最后,給出總成績最高的機器學(xué)習(xí)模型作為推薦給醫(yī)生的最優(yōu)的機器學(xué)習(xí)模型。

        11月28日,ofo創(chuàng)始人兼CEO戴威的一封內(nèi)部信流出,一向高傲倔強的戴威在信中近乎悲壯地說:“哪怕跪著也要活下去?!钡词构蛄?,就能解決問題嗎?去年還被資本和大佬熱捧的共享單車,怎么就變成了燙手山芋?

        3 乳腺癌輔助診斷實例分析

        不失一般性,下面采用TensorFlow的scikit-learn庫中自帶的乳腺癌數(shù)據(jù)集作為輔助診斷分析示例的數(shù)據(jù)集。

        3.1 訓(xùn)練與測試用的數(shù)據(jù)集

        從本文數(shù)據(jù)集中的腫瘤病灶造影圖片中提取了10個關(guān)鍵特征,如表3所示。

        表3 乳腺癌數(shù)據(jù)集的10個關(guān)鍵特征

        此外,根據(jù)這10個關(guān)鍵特征又計算形成了每個特征的標(biāo)準差、最大值,這樣形成了共計30個特征。數(shù)據(jù)集樣本一共569個,其中,陽性樣本(患有乳腺癌)357個,陰性樣本(未患乳腺癌)212個。

        3.2 實驗環(huán)境

        在Windows10操作系統(tǒng)下采用Anaconda3(64 bit)的Sypder作為開發(fā)工具,編程語言為Python3.6。軟件開發(fā)和運行的硬件環(huán)境是Thinkpad T460s機型,該機型擁有512 GB固態(tài)硬盤,內(nèi)存為8 GB,CPU為Intel(R)Core(TM)i5-6200U CPU @ 2.30 GHz 2.40 GHz。

        篩選機器學(xué)習(xí)模型方法中的參數(shù)值設(shè)置如下:

        t=0.9,d=0.02,r=0.9,w1=w2=0.5

        3.3 供篩選的機器學(xué)習(xí)模型

        為便于對比分析,充分利用scikit-learn庫中已有的機器學(xué)習(xí)模型,這里用8個機器學(xué)習(xí)模型作為篩選的備選模型:

        1)1階邏輯回歸模型。

        2)普通的K-近鄰模型。K值設(shè)為2。

        3)帶權(quán)重的K-近鄰模型。K值設(shè)為2,權(quán)重設(shè)置為“distance”,即按距離設(shè)置權(quán)值。

        4)線性的支持向量機模型。

        5)2階多項式的支持向量機模型。

        6)3階多項式的支持向量機模型。

        7)一種高斯核心函數(shù)向量機模型。其中,γ=0.1。

        8)一種高斯核心函數(shù)向量機模型。其中,γ=0.5。

        3.4 用訓(xùn)練準確度和測試準確度篩選機器學(xué)習(xí)模型

        經(jīng)過10次模型訓(xùn)練和10次驗證測試后,得出的8種機器學(xué)習(xí)模型的訓(xùn)練準確度和測試準確度如表4所示,繪制8個機器學(xué)習(xí)模型的學(xué)習(xí)曲線如圖2所示。

        表4 8個機器學(xué)習(xí)模型的訓(xùn)練準確度、測試準確度和計算時間

        (a)1階邏輯回歸

        根據(jù)條件1判斷,發(fā)現(xiàn)2階多項式的支持向量機、3階多項式的支持向量機2個學(xué)習(xí)模型不滿足條件,直接排除掉。從圖2(e)、圖2(f)這2個機器學(xué)習(xí)模型的學(xué)習(xí)曲線可以看出,2階多項式的支持向量機模型雖然訓(xùn)練準確度和測試準確度隨學(xué)習(xí)樣本、測試樣本數(shù)的增加而上升,但收斂于0.81左右;3階多項式的支持向量機訓(xùn)練準確度和測試準確度變化不大,且收斂于0.64左右。

        根據(jù)條件2,可以排除普通的K-近鄰模型,因為|PAi-TAi|=0.025>0.02;也可以排除帶權(quán)重的K-近鄰模型,因為|PAi-TAi|=0.047>0.02。排除這2個機器學(xué)習(xí)模型的原因是認為學(xué)習(xí)曲線不收斂。從圖8(b)、圖8(c)也可以看出,普通的K-近鄰模型和帶權(quán)重的K-近鄰模型這2個機器學(xué)習(xí)模型的訓(xùn)練準確率曲線和測試準確率曲線中間的間隙相對較寬。

        實驗中,通過記錄各種模型的計算時間(訓(xùn)練時間+測試時間),可得到如表4所示的結(jié)果。從表中可見,2階多項式的支持向量機模型花費時間最多,1階邏輯回歸模型花費時間最少。

        3.5 用查準率、召回率和F1成績篩選機器學(xué)習(xí)模型

        經(jīng)過上一步驟后,已經(jīng)排除掉4個機器學(xué)習(xí)模型。再對上一步篩選出來的4個機器學(xué)習(xí)模型作10次模型訓(xùn)練和10次驗證測試,得出查準率、召回率、F1成績?nèi)绫?所示。

        表5 4個機器學(xué)習(xí)模型的查準率、召回率、F1成績

        從模型訓(xùn)練和測試結(jié)果數(shù)據(jù)來看,4個機器學(xué)習(xí)模型都滿足條件3。

        3.6 用帶權(quán)值的總成績計算公式推薦最優(yōu)的機器學(xué)習(xí)模型

        經(jīng)計算,4個機器學(xué)習(xí)模型的總成績?nèi)绫?的最后1列所示??梢?,高斯核心函數(shù)向量機模型(γ=0.5)的總成績最高,作為最優(yōu)的機器學(xué)習(xí)模型推薦給醫(yī)生使用。

        4 本文研究的不足與改進建議

        本文研究工作尚存在以下不足:

        1)支持的機器學(xué)習(xí)模型數(shù)量不足。目前僅支持8種機器學(xué)習(xí)模型,應(yīng)當(dāng)加入更多可用的通用機器學(xué)習(xí)模型,如決策樹、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等類型的機器學(xué)習(xí)模型。

        2)篩選方法還有改進的空間。在應(yīng)對需要長時間的訓(xùn)練時間的機器學(xué)習(xí)模型上應(yīng)改進策略,如4階多項式及更高階的邏輯回歸、支持向量機模型需要訓(xùn)練的時間就較長,可對比發(fā)現(xiàn)相對低階多項式的機器學(xué)習(xí)模型在增加階數(shù)并不能提升準確率的情況下,應(yīng)停止嘗試更高階多項式的機器學(xué)習(xí)模型。

        改進的辦法是繼續(xù)開展研究工作,加入更多的可支持的機器學(xué)習(xí)模型,改進機器模型的篩選方法使之更為高效、普適。

        5 結(jié)束語

        本文提出的篩選機器學(xué)習(xí)模型的方法分為用訓(xùn)練準確度和測試準確度篩選機器學(xué)習(xí)模型,用查準率、召回率和F1成績篩選機器學(xué)習(xí)模型,用帶權(quán)值的總成績計算公式推薦最優(yōu)的機器學(xué)習(xí)模型3個步驟來實現(xiàn),可最終篩選出最優(yōu)的機器學(xué)習(xí)模型推薦給醫(yī)生使用。使用篩選方法前,應(yīng)設(shè)置準確度閾值t、收斂閾值d、三率閾值r、測試準確度TAi的權(quán)值w1和F1成績的權(quán)值w2這5個配置參數(shù),也可以采用默認值。

        本文提出的篩選機器學(xué)習(xí)模型的方法可用于多種疾病的輔助診斷。從乳腺癌的輔助診斷實例分析來看,最終選擇高斯核心函數(shù)向量機模型(γ=0.5)推薦給醫(yī)生使用,因為這個模型除滿足篩選方法的3個條件外,總成績最高,達到了0.985。

        下一步的研究工作將加入更多的機器學(xué)習(xí)模型并改進機器模型的篩選方法,以彌補研究工作的不足。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲日韩欧洲无码av夜夜摸| 国产一区二区三区精品毛片| 国自产偷精品不卡在线| 亚洲精品国产综合久久一线| 青青草视频在线播放观看| 国产aⅴ激情无码久久久无码| 午夜无码片在线观看影视| 亚洲精品一二区| 97超碰中文字幕久久| 亚洲性无码av中文字幕| 日韩av精品国产av精品| 四虎影视久久久免费| 国产亚洲精品综合在线网站| 性色av一二三天美传媒| 亚洲人成色777777老人头| 神马不卡一区二区三级| 女主播啪啪大秀免费观看| 日本熟妇美熟bbw| 69精品丰满人妻无码视频a片| 国产亚洲无码1024| 亚洲av熟女中文字幕| 国产精品理论片| 日韩一级特黄毛片在线看| 国产精品专区一区二区av免费看| 成人免费在线亚洲视频| 精品淑女少妇av久久免费| 亚洲日韩欧美一区二区三区| 亚洲综合小综合中文字幕| 初尝人妻少妇中文字幕| 国产精品熟妇视频国产偷人 | 亚洲一区二区三区激情在线观看| 国产伦精品一区二区三区妓女| 婷婷成人亚洲| 亚洲国产都市一区二区| 无码国产成人午夜电影在线观看| 国产95在线 | 欧美| 六月丁香久久| 国产精品不卡免费版在线观看| 亚洲av成人精品一区二区三区 | 精品人妻免费看一区二区三区| 91精品国产综合久久久蜜|