亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下ROC曲線介紹與應(yīng)用

        2021-01-04 18:19:37李子言
        科教導(dǎo)刊 2021年14期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        李子言

        摘要ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具,它通過連接真陽率與假陽率在不同切斷點(diǎn)或者閾值下的值,構(gòu)造出一條單調(diào)遞增曲線,曲線下的面積AUC即可作為衡量診斷效果的指標(biāo),面積數(shù)值越大,則代表該分類方法越有效。ROC曲線在算法效度研究,心理測評,[1]臨床醫(yī)學(xué)診斷中都有廣泛的應(yīng)用。本文簡單介紹了ROC曲線的構(gòu)造方法、基本性質(zhì)和實(shí)際意義,并以生物醫(yī)學(xué)和機(jī)器學(xué)習(xí)的三個例子深入介紹了不同情形下ROC曲線的應(yīng)用,最后總結(jié)ROC曲線的優(yōu)缺點(diǎn)和應(yīng)用場景。

        關(guān)鍵詞 ROC曲線 AUC生物醫(yī)學(xué) 機(jī)器學(xué)習(xí) 二分類

        中圖分類號:R195文獻(xiàn)標(biāo)識碼:ADOI:10.16400/j.cnki.kjdk.2021.14.026

        IntroductionandApplicationofROCCurveundertheBackgroundofBigData

        LI Ziyan

        (School of Mathematics and Statistics, Central China Normal University, Wuhan, Hubei 430079)

        AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is,the more effective the classification method is.ROC curve is widely used in algorithm validity research, psychologicalevaluation,clinicaldiagnosis.This paperbriefly introducestheconstructionmethod,basicpropertiesand practical significance of ROC curve, and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally, it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

        KeywordsROC curve; AUC; biomedical science; machine learning; dichotomy

        1 ROC曲線的介紹

        1.1 ROC曲線

        ROC曲線(Receiver Operator Characteristic Curve,接收者操作特征曲線)是一種研究二分類問題的有效工具。對于二分類問題,它的樣本只有正樣本和負(fù)樣本兩類,但某些情形中,一個實(shí)驗(yàn)可以提供多個結(jié)果而不是簡單的正樣本和負(fù)樣本,甚至在某些情形中,實(shí)驗(yàn)結(jié)果是連續(xù)性變量。因此通過以假陽率為橫軸、縱軸為真陽率,ROC曲線可以將不同閾值下計算的準(zhǔn)確值指標(biāo),比如以識別實(shí)驗(yàn)結(jié)果是正樣本或假樣本的不同切斷點(diǎn)(cut-off-point)計算出的準(zhǔn)確值指標(biāo)連成一條曲線,曲線下面積則構(gòu)成了檢驗(yàn)整個診斷精度的一個合理指標(biāo)。[2]ROC曲線常在醫(yī)學(xué)中確定診斷準(zhǔn)則時有重要應(yīng)用。

        在醫(yī)學(xué)中一個癥狀(或一組癥狀,或篩選檢驗(yàn))的真陽率是疾病發(fā)生后出現(xiàn)癥狀的概率,又稱為靈敏度。

        需要注意的是,顯然在同一種簡單的分類方法中,切斷點(diǎn)越多,對應(yīng)的ROC曲線下面積越大,因此對比兩種分類方法時,切斷點(diǎn)的數(shù)量是固定的。但并不一定要求切斷點(diǎn)數(shù)量一致,因?yàn)榍袛帱c(diǎn)的數(shù)量也可以理解為分類方法的內(nèi)容之一。通常,我們認(rèn)為有五個以上切斷點(diǎn)的分類或者連續(xù)型數(shù)據(jù)才有繪制ROC曲線的必要。[3]

        當(dāng)AUC=1時,所使用的分類器被稱為完美分類器,無論什么閾值都能獲得完全準(zhǔn)確的預(yù)測,但在現(xiàn)實(shí)情況中這樣的分類器一般不存在。

        當(dāng)0.5

        當(dāng)AUC=0.5時,使用的分類器與隨機(jī)預(yù)測相同,類似于丟硬幣,預(yù)測正確和錯誤的概率均為50%,該分類器沒有一個好的預(yù)測價值。

        當(dāng)AUC<0.5時,使用的分類器比隨機(jī)預(yù)測效果更差,但此時可以反著預(yù)測,則得到0.5

        使用AUC的原因是當(dāng)兩種分類器的ROC曲線相交的時候,很難直觀判斷出哪個分類器的性能更好,而AUC能夠比較數(shù)值大小,AUC數(shù)值越大則分類器性能越好。

        當(dāng)測試樣本很有限時,ROC曲線圖形是階梯狀的,如圖2,于是計算每個階梯下的小矩形面積之和就可以獲得AUC。

        但這個方法實(shí)際上計算是比較麻煩的,還有一種ROC AUCH法,與梯形面積法都是以逼近法求近似值。[5]

        2大數(shù)據(jù)背景下ROC曲線的實(shí)際應(yīng)用

        2.1精神衛(wèi)生

        中國人的最少精神病測驗(yàn)(CMMS)由114個項(xiàng)目組成,用于去識別老年性癡呆。這個指標(biāo)也被延伸且用到臨床。每個老人與精神病醫(yī)生及護(hù)士談話并被診斷是否有老年性癡呆。表2僅列出一部分正式受過教育的部分老人資料。

        改變分界點(diǎn)值,分別取5,10,15,20,25,30,當(dāng)CMMS合計值小于該分界點(diǎn)者識別為有老年性癡呆,計算真陽率和假陽率構(gòu)建ROC曲線如圖3。

        使用梯形面積法,計算出ROC曲線下的面積s=0.08091,這個面積意味著醫(yī)生能按照CMMS分?jǐn)?shù)的相對順序而正確地把一個非老年癡呆患者從老年癡呆患者中識別出來的概率是80.91%。當(dāng)正常受試者與不正常受試者有相同分?jǐn)?shù)時,學(xué)者可以隨機(jī)地做決定。

        一般情況下,對于相同疾病地兩個篩選檢驗(yàn)中,ROC曲線下面積大者被認(rèn)為是較好地檢驗(yàn)。但在某種特殊情形下可以例外,比如在兩個檢驗(yàn)比較中,某個值的真陽率或假陽率特別重要時,面積的比較就沒有必要了。

        2.2糖尿病預(yù)測算法分析

        糖尿病是目前世界上較普遍的一種疾病,且發(fā)病率和患病率逐年提升,甚至日漸呈現(xiàn)低齡化的趨勢,通過皮瑪族印第安女性糖尿病數(shù)據(jù)集(PimaIndiansWomenDiabetes)進(jìn)行分類預(yù)測,并繪制不同算法的ROC曲線,可以尋找高效預(yù)測糖尿病的算法,提高預(yù)測精度,幫助人們盡早發(fā)現(xiàn)糖尿病風(fēng)險。[6]

        對于此類算法而言,由于結(jié)果與閾值沒有很大聯(lián)系,于是可以僅采用一個切斷點(diǎn),即一次輸出的結(jié)果,與原點(diǎn)和(0,1)點(diǎn)連接,得到僅有一個折點(diǎn)的ROC曲線。雖然這樣不能橫向比較同一個算法中不同分類效果的影響,但通過對折線下面積的比較,仍然能縱向比較不同算法的分類效果。

        如果基于30%的測試集迭代隨機(jī)森林、隨機(jī)森林、K最近鄰、支持向量機(jī)、Logistic回歸、梯度提升機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)分類模型分別畫出ROC曲線。[7]當(dāng)一條曲線完全包裹另一條曲線時,則認(rèn)為該算法更優(yōu),而本例得到的結(jié)果中,迭代隨機(jī)森林、隨機(jī)森林和K最近鄰三個分類模型的ROC曲線包裹了其他曲線且相交,無法直觀判斷算法優(yōu)良性。此時便借助AUC值,由于這里只有一個折點(diǎn),通過梯形面積法很快地就能獲得這三種算法的AUC值,迭代隨機(jī)森林的AUC值為0.7427,高于K最近鄰的0.7407和隨機(jī)森林的0.7368。因此下結(jié)論,認(rèn)為迭代森林算法在該數(shù)據(jù)的分類上有最優(yōu)秀的效果。

        2.3人臉識別

        在人臉識別技術(shù)中,ROC曲線也有重要應(yīng)用,在人臉檢測數(shù)據(jù)集和基準(zhǔn)官方網(wǎng)站(FDDB)中,對于不同的人臉檢測技術(shù),并考慮閾值,繪制ROC曲線,得到圖4。

        圖中,橫軸是誤報數(shù),縱軸是檢測率,不同曲線代表著不同人臉識別算法。其中ROC曲線越陡峭,越高的算法性能更好,于是該圖能簡明快速地幫助學(xué)者尋找性能最好的人臉識別算法。

        3 ROC曲線的優(yōu)缺點(diǎn)

        3.1優(yōu)點(diǎn)

        (1)直觀,ROC曲線將靈敏度和特異度以曲線圖像的形式綜合分析,可以肉眼觀察分類模型的性能。

        (2)平衡性好,ROC曲線繪制過程中同時考慮到正樣本和負(fù)樣本,且即使正樣本與負(fù)樣本的比例發(fā)生了很大變化,ROC曲線也不會產(chǎn)生大的變化。

        (3)簡單,ROC曲線所采用的兩個指標(biāo),TPR和FPR都不依賴于樣本具體的分布。

        3.2缺點(diǎn)

        ROC曲線對類分布的改變不敏感。[8]

        這點(diǎn)既是優(yōu)點(diǎn)也是缺點(diǎn)。類分布就是測試集中正例和負(fù)例的比例。在實(shí)際應(yīng)用中,類分布的不平衡現(xiàn)象非常廣泛,類分布不平衡程度達(dá)到1:10,1:100的情況非常常見,有的甚至達(dá)到1:106。

        一方面,這種嚴(yán)重的不平衡的類分布使得一些傳統(tǒng)的評價標(biāo)準(zhǔn)不再適用,而ROC曲線由于不受類分布的影響,適合于評估、比較這種不平衡數(shù)據(jù)集。另一方面,當(dāng)模型分類中主要關(guān)心正例的預(yù)測準(zhǔn)確性時,ROC曲線便不好應(yīng)用。并且如果負(fù)例的數(shù)目眾多,會使得,F(xiàn)PR的增長不明顯,導(dǎo)致ROC曲線呈現(xiàn)一個過分樂觀的效果估計,大量負(fù)例被錯判成正例,在ROC曲線上卻無法直觀地看出來。

        在大數(shù)據(jù)分析中,ROC曲線是一種非常形象直觀、操作簡單的方法,受到很多數(shù)據(jù)分析師的青睞。[9]

        參考文獻(xiàn)

        [1]郭秀艷,楊治良.實(shí)驗(yàn)心理學(xué).人民教育出版社,2004:292-295.

        [2]伯納德·羅斯納著.生物統(tǒng)計學(xué)基礎(chǔ)(第五版).孫尚拱譯.科學(xué)出版社,2020.7.

        [3]王曼,徐春燕,施學(xué)忠.醫(yī)學(xué)論文中ROC曲線應(yīng)用錯誤例析.編輯學(xué)報,2019,(02):159-161.

        [4]雷明.機(jī)器學(xué)習(xí)與應(yīng)用.清華大學(xué)出版社,2019.1.

        [5]分類學(xué)習(xí)算法的性能度量指標(biāo)綜述,楊杏麗,計算機(jī)科學(xué),網(wǎng)絡(luò)首發(fā)2021-04-21.

        [6]王成武,晏峻峰.早期糖尿病風(fēng)險預(yù)測模型的比較研究,智能計算機(jī)與應(yīng)用. 2021,(01).

        [7]劉文博,梁盛楠,秦喜文,等.基于迭代隨機(jī)森林算法的糖尿病預(yù)測,長春工業(yè)大學(xué)學(xué)報,2019,40(06),604-611.

        [8]J-JunLiang.P-R曲線與ROC曲線使用總結(jié). https://blog.csdn.net/ jliang3/article/details/88881315.

        [9]Two sensitivity orders applied to the comparison of ROC curves,Ramos HéctorM.; Ollero Jorge; Suárez Llorens Alfonso,Communications inStatistics -Theory andMethods,Volume50,Issue 8. 2021. PP 1884-1896.

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        亚洲尺码电影av久久| 中文字幕一区二区三区的| av无码国产在线看免费网站| 国产超碰人人做人人爱ⅴa| 欧美乱人伦中文字幕在线不卡| 精品国产3p一区二区三区| 亚洲av日韩av卡二| 人妻少妇久久中文字幕一区二区| 免费一区啪啪视频| av免费观看在线网站| 精品亚洲麻豆1区2区3区| 国产精品一区二区久久乐下载| 四虎国产精品视频免费看| 亚洲av日韩一区二三四五六七| 人妻久久一区二区三区蜜桃| 国产裸体xxxx视频在线播放 | 国产精品无码片在线观看| 熟女乱乱熟女乱乱亚洲| 亚洲第一女人av| 麻豆一区二区99久久久久| 精品国产乱码一区二区三区在线| 国产愉拍91九色国产愉拍| 狂野欧美性猛xxxx乱大交| 艳妇乳肉豪妇荡乳av无码福利| 女人被躁到高潮嗷嗷叫| 宅男亚洲伊人久久大香线蕉| 99精品国产一区二区三区| 精品国产AⅤ无码一区二区| 日本97色视频日本熟妇视频| 国产av熟女一区二区三区| 久久精品视频在线看99| 久久久99久久久国产自输拍| 国产亚洲午夜精品久久久| 国产l精品国产亚洲区久久| 欧美日韩亚洲成色二本道三区| 亚洲av中文字字幕乱码软件 | 亚洲成生人免费av毛片| 亚洲精品无码永久中文字幕| 色悠久久久久综合欧美99| 日韩AV无码乱伦丝袜一区| 偷拍一区二区盗摄视频|