亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新興技術(shù)識(shí)別中的不均衡分類研究
        ——基于代價(jià)敏感的隨機(jī)森林算法

        2022-11-23 12:03:54盧小賓張楊燚楊冠燦行佳鑫
        情報(bào)學(xué)報(bào) 2022年10期
        關(guān)鍵詞:代價(jià)分類器專利

        盧小賓,張楊燚,楊冠燦,行佳鑫

        (中國(guó)人民大學(xué)信息資源管理學(xué)院,北京 100872)

        1 引言

        隨著大數(shù)據(jù)的積累和全球化競(jìng)爭(zhēng)的加劇,新興技術(shù)識(shí)別(emerging technologies identification)對(duì)于科技創(chuàng)新、競(jìng)爭(zhēng)情報(bào)等相關(guān)領(lǐng)域的戰(zhàn)略意義日益凸顯。專利通常是一項(xiàng)技術(shù)誕生時(shí)尋求壟斷權(quán)利保護(hù)的有效和必要方式,大規(guī)模的專利數(shù)據(jù)包括了技術(shù)相關(guān)的各種關(guān)鍵信息,為新興技術(shù)的早期預(yù)測(cè)與識(shí)別積累了豐富而有價(jià)值的數(shù)據(jù)基礎(chǔ)。針對(duì)大規(guī)模的海量專利數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化的前瞻性預(yù)測(cè)逐漸成為新興技術(shù)識(shí)別的研究重點(diǎn)和發(fā)展趨勢(shì),尤其是基于專利指標(biāo)體系的機(jī)器學(xué)習(xí)分類預(yù)測(cè),目前已被廣泛地應(yīng)用于新興技術(shù)識(shí)別的各種場(chǎng)景。

        然而,在新興技術(shù)識(shí)別這一復(fù)雜問(wèn)題中,多數(shù)研究都關(guān)注如何根據(jù)特征工程構(gòu)建更完善的專利指標(biāo)以捕捉新興技術(shù)的特征信息,卻忽略了以專利為代表的海量技術(shù)發(fā)明涌現(xiàn)為新興技術(shù)這一事件往往具有小概率的特征,是一種典型的不均衡數(shù)據(jù)分類問(wèn)題,其預(yù)測(cè)效果也會(huì)受數(shù)據(jù)集正負(fù)樣本分布不均衡因素等影響,出現(xiàn)分類結(jié)果偏向多數(shù)類的現(xiàn)象,無(wú)法實(shí)現(xiàn)成功預(yù)測(cè)少數(shù)新興技術(shù)涌現(xiàn)的理想效果。傳統(tǒng)研究中,為了規(guī)避數(shù)據(jù)不均衡對(duì)新興技術(shù)識(shí)別效果的制約,多在數(shù)據(jù)采集階段通過(guò)一系列人工的操作,獲取經(jīng)人工篩選后的均衡數(shù)據(jù)集,使機(jī)器學(xué)習(xí)的過(guò)程可以運(yùn)行。但隨著當(dāng)前自動(dòng)化專利推薦、新興技術(shù)識(shí)別趨勢(shì)的興起,如何改進(jìn)與優(yōu)化分類策略以提升機(jī)器學(xué)習(xí)面臨新興技術(shù)識(shí)別中不均衡分類問(wèn)題的表現(xiàn),實(shí)現(xiàn)在大規(guī)模數(shù)據(jù)上對(duì)新興技術(shù)進(jìn)行自動(dòng)化的識(shí)別,成為制約基于機(jī)器學(xué)習(xí)的新興技術(shù)識(shí)別效果的瓶頸。

        本研究聚焦于機(jī)器學(xué)習(xí)方法在新興技術(shù)識(shí)別中面臨不均衡分類問(wèn)題的應(yīng)用,以預(yù)測(cè)癌癥藥物領(lǐng)域?qū)@欠裼谐蔀樾屡d技術(shù)潛質(zhì)的二分類場(chǎng)景為例,在數(shù)據(jù)層面比較漸進(jìn)式采樣思路對(duì)分類結(jié)果的影響,在評(píng)估層面引入代價(jià)敏感學(xué)習(xí),探究在缺乏專家經(jīng)驗(yàn)時(shí)的代價(jià)矩陣驗(yàn)證方式,并將其應(yīng)用于算法層面和決策評(píng)估的改進(jìn)。最終在此不均衡分類優(yōu)化的研究框架下,通過(guò)對(duì)分類預(yù)測(cè)效果的有效評(píng)價(jià),嘗試在數(shù)據(jù)、算法和評(píng)估三個(gè)層面綜合實(shí)現(xiàn)更好地處理不均衡問(wèn)題的改進(jìn)分類策略,解決新興技術(shù)識(shí)別場(chǎng)景下不均衡分類的預(yù)測(cè)問(wèn)題。

        2 相關(guān)研究

        2.1 新興技術(shù)識(shí)別研究進(jìn)展

        新興技術(shù)(emerging technologies)的概念最早由沃頓商學(xué)院Geroge等學(xué)者于2000年出版的Wharton on Managing Emerging Technologies中提出,該書(shū)將其明確歸納為“在科學(xué)理論或?qū)嵺`基礎(chǔ)上,具有新興行業(yè)開(kāi)辟或者現(xiàn)有行業(yè)顛覆意義的創(chuàng)新型技術(shù)”[1]。早期的新興技術(shù)研究多聚焦于文獻(xiàn)或?qū)@麛?shù)據(jù),但以往思路往往只能實(shí)現(xiàn)對(duì)已存新興技術(shù)的事后評(píng)價(jià)而非預(yù)測(cè)性識(shí)別[2]。以德?tīng)柗品ǎ―elphi method)為典型的傳統(tǒng)預(yù)測(cè)性研究也因?qū)︻I(lǐng)域經(jīng)驗(yàn)和精力的高要求以及缺乏直接數(shù)據(jù)支撐解釋而不適用于當(dāng)前大多數(shù)的預(yù)測(cè)情景[3]。當(dāng)前,新興技術(shù)識(shí)別的需求處于調(diào)整過(guò)程中,基于大規(guī)模數(shù)據(jù)的實(shí)時(shí)預(yù)測(cè)正在成為新興技術(shù)識(shí)別的重點(diǎn)及趨勢(shì)。目前,新興技術(shù)識(shí)別的定量研究主要方法如表1所示。

        表1 新興技術(shù)識(shí)別的主要方法

        2.2 機(jī)器學(xué)習(xí)中的不均衡分類問(wèn)題

        機(jī)器學(xué)習(xí)的分類方法能將新興技術(shù)識(shí)別問(wèn)題轉(zhuǎn)化為分類預(yù)測(cè)問(wèn)題,推動(dòng)新興技術(shù)由傳統(tǒng)的回溯性分析轉(zhuǎn)變?yōu)榍跋虻念A(yù)測(cè)性分析,已被廣泛地應(yīng)用于新興技術(shù)識(shí)別的各種場(chǎng)景[9]。不均衡分類是數(shù)據(jù)分布復(fù)雜性導(dǎo)致的一種特殊分類場(chǎng)景[10],在不均衡分類問(wèn)題中,原始數(shù)據(jù)里不同類別的樣本比例差距很大,由于少數(shù)類通常反映出更受重視的信息,是研究的重點(diǎn),因此,將少數(shù)類記作正類,多數(shù)類記作負(fù)類[11]。在機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程中,數(shù)據(jù)不均衡分類主要面臨幾個(gè)方面問(wèn)題[12]:少數(shù)類樣本的稀缺性,包括少數(shù)樣本自身稀少的絕對(duì)稀缺和少數(shù)樣本自身不少但多數(shù)樣本過(guò)多的相對(duì)稀缺[13];難以區(qū)分噪聲數(shù)據(jù)與少數(shù)類數(shù)據(jù)的特征及差異,去噪工作難度大[14];以總體分類效果為學(xué)習(xí)目標(biāo)的分類器出現(xiàn)傾向于多數(shù)類的偏向性[15];以整體指標(biāo)(accura‐cy)評(píng)估模型缺乏價(jià)值。

        2.3 不均衡分類問(wèn)題的優(yōu)化研究

        針對(duì)不均衡分類現(xiàn)象,目前主要從數(shù)據(jù)層面、算法層面和評(píng)估層面改進(jìn)分類模型的少數(shù)類預(yù)測(cè)能力。

        (1)數(shù)據(jù)層面。對(duì)于不均衡分類數(shù)據(jù)集,可在進(jìn)行模型訓(xùn)練之前,將重采樣方法用于數(shù)據(jù)預(yù)處理以更改數(shù)據(jù)分布比例,達(dá)到均衡數(shù)據(jù)集訓(xùn)練分類器的目標(biāo)。目前,重采樣方法主要有擴(kuò)充少數(shù)類數(shù)據(jù)的過(guò)采樣和減少多數(shù)類數(shù)據(jù)的欠采樣。常見(jiàn)的過(guò)采樣技術(shù)包括隨機(jī)過(guò)采樣方法(random oversampling)[16]、SMOTE(synthetic minority oversampling technique)算法[17]、邊界過(guò)采樣(borderline-SMOTE)[18]、自適應(yīng)合成采樣(adaptive synthetic sampling,ADASYN)[19]等。常見(jiàn)的欠采樣技術(shù)有隨機(jī)欠采樣(random un‐dersampling)[20]、cluster centroids欠 采 樣[21]、near miss欠采樣[22]、Tomek links[23]。近年來(lái),針對(duì)圖像、視頻方面的數(shù)據(jù)不均衡問(wèn)題,生成對(duì)抗網(wǎng)絡(luò)(gen‐erative adversarial network,GAN)可以被用于數(shù)據(jù)增強(qiáng),如研究顯示經(jīng)過(guò)多重偽類生成對(duì)抗網(wǎng)絡(luò)(multiple fake classes GAN,MFC-GAN)[24]、條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN,cGAN)[25]數(shù)據(jù)增強(qiáng)后的分類效果都得到了顯著提升。

        (2)算法優(yōu)化。常用的分類算法在不均衡分類中,往往由于不均衡分類的特征表現(xiàn)出對(duì)少數(shù)類較弱的預(yù)測(cè)能力。集成學(xué)習(xí)的思想是通過(guò)不同的選舉方法,將多個(gè)弱分類器組合成一個(gè)最終學(xué)習(xí)效果顯著提升的強(qiáng)分類器[26]。目前,提升(boosting)和裝袋(bagging)是較為經(jīng)典的兩種技術(shù)手段[27],構(gòu)建元模型來(lái)融合多個(gè)學(xué)習(xí)器的堆疊(stacking)思想也得到了部分應(yīng)用。但集成學(xué)習(xí)的目標(biāo)仍然是提升總體學(xué)習(xí)準(zhǔn)確率,在極度不均衡分類中不能解決根本性問(wèn)題[28]。深度強(qiáng)化學(xué)習(xí)模型(deep reinforcement learning,DRL)[29]通過(guò)設(shè)計(jì)給予少數(shù)類樣本較大激勵(lì)函數(shù)的方法是有益的嘗試;圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)對(duì)于圖數(shù)據(jù)、流數(shù)據(jù)等體現(xiàn)出拓?fù)洳痪馓卣鞯臄?shù)據(jù)而言也具有顯著優(yōu)勢(shì),如雙正則化GCN(dual-regularized GCN,DRGCN)[30]、重新加權(quán)GCN(re-weighted adversarial GCN,RA-GCN)[31]均能有效地防止基于圖的分類器偏向任何特定類。最后,結(jié)合了主動(dòng)學(xué)習(xí)方法的均衡分類算法,能通過(guò)結(jié)合少量專家智慧極大提升模型分類的效率[32-33]。然而,上述研究進(jìn)展主要聚焦于具有特定數(shù)據(jù)結(jié)構(gòu)的研究領(lǐng)域,在適用范圍方面存在一定的局限性。因此,在解決不均衡分類場(chǎng)景時(shí),還需要結(jié)合多層次多角度的嘗試進(jìn)行綜合優(yōu)化。例如,結(jié)合數(shù)據(jù)重采樣,Wu等[34]基于改進(jìn)的SMOTE和Ada‐Boost算法提出了客戶留存及流失預(yù)測(cè)分類器;引入代價(jià)敏感[35],在AdaBoost樣例權(quán)值更新中引入代價(jià)因子,構(gòu)建基于代價(jià)敏感的AdaBoost算法[36-38]。

        (3)評(píng)估層面。代價(jià)敏感學(xué)習(xí)[39]用于誤分類代價(jià)不同的情況。其核心思想是利用代價(jià)矩陣(cost matrix)使不同誤分類產(chǎn)生有差異的懲罰,即非均等代價(jià)(unequal cost),使分類器更關(guān)注誤分類代價(jià)高的類別。目前,代價(jià)敏感信息的引入主要有以下類型[15]:①將代價(jià)敏感因子以權(quán)重的方式引入分類模型[40],如最經(jīng)典的AdaBoost迭代改進(jìn)就是Fan等[41]的基于代價(jià)權(quán)重的AdaCost;②將代價(jià)敏感作為結(jié)果處理階段的元模型,以stacking集成學(xué)習(xí)方式結(jié)合入傳統(tǒng)分類模型的輸出結(jié)果,例如,Domin‐gos[42]提出的MetaCost基于stacking“元學(xué)習(xí)”通過(guò)最小期望代價(jià)作用于類別修正標(biāo)簽;③重新構(gòu)建基于代價(jià)敏感特征的分類器,將代價(jià)敏感的特征直接擬合于分類器的基本邏輯,對(duì)其整體的損失函數(shù)、訓(xùn)練特征或內(nèi)部機(jī)制進(jìn)行優(yōu)化,例如,在決策樹(shù)的歸納過(guò)程中通過(guò)代價(jià)函數(shù)控制其剪枝規(guī)則[43]。

        3 研究設(shè)計(jì)

        本研究從數(shù)據(jù)、算法和評(píng)估三個(gè)方面綜合考慮如何解決新興技術(shù)識(shí)別中的數(shù)據(jù)不均衡問(wèn)題,以期望獲得更優(yōu)的新興技術(shù)識(shí)別的預(yù)測(cè)結(jié)果,為后續(xù)類似不均衡數(shù)據(jù)問(wèn)題的解決提供參考。技術(shù)路線如圖1所示。

        圖1 技術(shù)路線

        3.1 數(shù)據(jù)來(lái)源

        在各高新技術(shù)行業(yè)中,制藥領(lǐng)域的癌癥藥物研發(fā)專利一直受到廣泛關(guān)注,選擇該領(lǐng)域進(jìn)行實(shí)證研究主要具有以下必要性和優(yōu)勢(shì):藥物專利數(shù)據(jù)集通常在全球范圍內(nèi)都有較好的開(kāi)放共享性;涉及大規(guī)模投資和研發(fā)高風(fēng)險(xiǎn),且技術(shù)價(jià)值與其商業(yè)價(jià)值直接相關(guān),能較好地體現(xiàn)與之相關(guān)的新興技術(shù)規(guī)劃與布局等戰(zhàn)略;藥物研發(fā)的創(chuàng)新性即是否能夠涌現(xiàn)為新興技術(shù),相比于其他領(lǐng)域容易評(píng)價(jià),例如,在美國(guó),獲得專利頒發(fā)機(jī)構(gòu)許可的癌癥藥物僅僅是獲得技術(shù)的認(rèn)證,只有當(dāng)其同時(shí)獲得了FDA(Food and Drug Administration,美國(guó)食品和藥物管理局)授權(quán)許可,才意味著其成為滿足上市要求的新藥。因此,癌癥藥物專利集作為該領(lǐng)域技術(shù)的集合,預(yù)測(cè)此類專利是否有可能獲得FDA授權(quán)可充分地作為新興技術(shù)識(shí)別的目標(biāo)。

        數(shù) 據(jù) 集 采 用2016年USPTO(United States Pat‐ent and Trademark Office)癌癥登月計(jì)劃開(kāi)放的癌癥藥物專利數(shù)據(jù)集(Moonshot Cancer Drug Patents)。該癌癥藥物專利數(shù)據(jù)集包含了已發(fā)表和已授權(quán)的癌癥藥物相關(guān)的專利記錄及詳細(xì)信息。同時(shí),為了補(bǔ)充本研究目標(biāo)所需要而該數(shù)據(jù)集尚不完整的信息,基于專利號(hào)碼,進(jìn)一步根據(jù)PatentsView API和EPO OPS API對(duì)需要的著錄數(shù)據(jù)和家族數(shù)據(jù)進(jìn)行補(bǔ)充。此外,該專利數(shù)據(jù)集中的FDA授權(quán)許可信息僅截止到發(fā)布日期,通過(guò)FDA發(fā)布的授權(quán)藥品數(shù)據(jù)說(shuō)明(即俗稱的“橘皮書(shū)”)補(bǔ)充了部分遺漏的藥物專利是否得到FDA授權(quán)的信息。

        最終,經(jīng)過(guò)數(shù)據(jù)預(yù)處理和篩選,得到2005年1月1日至2015年12月31日的癌癥藥物專利數(shù)據(jù)共61988條。其中,F(xiàn)DA授權(quán)的標(biāo)簽數(shù)據(jù)僅有793條,非授權(quán)的標(biāo)簽數(shù)據(jù)達(dá)到61195條,數(shù)據(jù)極不均衡,只有約1.28%的專利同時(shí)能得到FDA的授權(quán),獲得批準(zhǔn)上市,正負(fù)類樣本比例(imbalanced ratio,IR)約為1∶77.17,是典型的新興技術(shù)識(shí)別中的不均衡分類數(shù)據(jù)集。表2展示了該數(shù)據(jù)集的統(tǒng)計(jì)信息。

        表2 數(shù)據(jù)集統(tǒng)計(jì)

        3.2 專利特征指標(biāo)

        由于本研究的關(guān)注重點(diǎn)在于新興技術(shù)識(shí)別過(guò)程中不均衡分類問(wèn)題的解決,因此,在選取專利特征指標(biāo)時(shí),遵循簡(jiǎn)潔性、代表性和權(quán)威性的指導(dǎo)原則,采用經(jīng)典研究中被廣泛采用的專利指標(biāo)作為專利特征的評(píng)價(jià),重點(diǎn)在于體現(xiàn)出新興技術(shù)的關(guān)鍵特征:創(chuàng)新性、相對(duì)增長(zhǎng)性、連續(xù)性、社會(huì)經(jīng)濟(jì)影響力[44-47]。具體的專利特征變量及說(shuō)明如表3所示。抽取并計(jì)算特征變量,表4匯總了本研究中所有專利特征指標(biāo)的描述性統(tǒng)計(jì)量。

        表3 專利特征指標(biāo)及說(shuō)明

        表4 專利特征指標(biāo)的描述性統(tǒng)計(jì)

        3.3 數(shù)據(jù)集劃分

        采用時(shí)間抽樣(out-of-time sampling)和分層抽樣(stratified sampling)結(jié)合的方法將原始數(shù)據(jù)集抽分為三個(gè)互斥的樣本集,分別用于訓(xùn)練、驗(yàn)證及測(cè)試。首先,利用時(shí)間抽樣法將樣本分割為訓(xùn)練集和測(cè)試集。時(shí)間抽樣法是一種非隨機(jī)的留出法(holdout sampling),其以時(shí)間為依據(jù)進(jìn)行定向抽樣,在模型的評(píng)估中會(huì)更關(guān)注模型對(duì)于現(xiàn)在乃至未來(lái)成功預(yù)測(cè)出FDA授權(quán)的目標(biāo)表現(xiàn),符合面向未來(lái)的預(yù)測(cè)識(shí)別需求;其次,采用分層抽樣的方式進(jìn)一步劃分訓(xùn)練集和驗(yàn)證集。分層抽樣能夠在數(shù)據(jù)集分割的同時(shí),保持其中正負(fù)類樣本的比例不變,相當(dāng)于分別對(duì)正負(fù)類樣本進(jìn)行等比例抽樣,選取訓(xùn)練集和驗(yàn)證集的比例分別為80%和20%。最終,根據(jù)新興技術(shù)識(shí)別的具體應(yīng)用場(chǎng)景劃分?jǐn)?shù)據(jù)集,如表5所示,進(jìn)一步印證了基于癌癥藥物領(lǐng)域?qū)@男屡d技術(shù)識(shí)別是不均衡分類的典型問(wèn)題。

        表5 數(shù)據(jù)集劃分統(tǒng)計(jì)

        3.4 基于代價(jià)敏感學(xué)習(xí)的隨機(jī)森林構(gòu)建

        3.4.1 模型選擇

        隨機(jī)森林(random forest,RF)是不剪枝的樹(shù)集成分類器[55],將多個(gè)互相獨(dú)立的決策樹(shù)通過(guò)裝袋(bootstrap aggregating,bagging)的形式構(gòu)建出大規(guī)模的集成模型。因此,當(dāng)決策樹(shù)的總量足夠大以及滿足抽樣隨機(jī)性時(shí),隨機(jī)森林的多樣性和泛化能力會(huì)增強(qiáng)。在具體的實(shí)驗(yàn)過(guò)程中,通過(guò)比較模擬確定以下綜合較優(yōu)的關(guān)鍵超參數(shù):n_estimators設(shè)置為400,即采用400棵子樹(shù)作為基分類器,此時(shí)模型的泛化能力飽和;max_features采用所有專利特征屬性,本研究的特征屬性僅11個(gè),構(gòu)建分類器時(shí)考慮所有特征的模型性能更優(yōu)。在此基礎(chǔ)上,袋外評(píng)估和隨機(jī)性確保了隨機(jī)森林模型的泛化能力,且由于訓(xùn)練集、驗(yàn)證集和測(cè)試集中正負(fù)樣本的比例和完整數(shù)據(jù)集的比例較為一致,在模型結(jié)果評(píng)估時(shí)均采用測(cè)試集,不必再進(jìn)行分層交叉驗(yàn)證。

        3.4.2 改進(jìn)思想

        遵循代價(jià)敏感學(xué)習(xí)的理念,將代價(jià)矩陣引入隨機(jī)森林的做法主要有三種:其一,以代價(jià)矩陣為基礎(chǔ)對(duì)隨機(jī)森林自主法采樣進(jìn)行改進(jìn)[40];其二,構(gòu)建基于代價(jià)矩陣的代價(jià)敏感基分類器[56];其三,在決策階段針對(duì)決策樹(shù)的葉結(jié)點(diǎn)和集成決策環(huán)節(jié)采用加權(quán)的多數(shù)投票。如圖2所示。假定類別之間以代價(jià)矩陣的形式定義了不對(duì)稱的錯(cuò)分成本,從而實(shí)現(xiàn)不同的錯(cuò)誤分類懲罰項(xiàng)的方法被稱為加權(quán)隨機(jī)森林(weighted random forest)[57]。

        圖2 代價(jià)敏感隨機(jī)森林改進(jìn)

        3.4.3 分類訓(xùn)練:代價(jià)敏感的基分類器

        傳統(tǒng)隨機(jī)森林算法使用的基分類器是決策樹(shù),隨機(jī)選取屬性進(jìn)行分裂,而選擇最佳分割的方式通常是計(jì)算劃分后子結(jié)點(diǎn)的最低不純度,因?yàn)椴患兌仍降停碓诖私Y(jié)點(diǎn)中的類分布就越有偏向性,越集中為某一類。不純度的估計(jì)一般以最小基尼系數(shù)法作為切分節(jié)點(diǎn)的分割標(biāo)準(zhǔn)。

        在代價(jià)敏感的隨機(jī)森林中,針對(duì)單個(gè)基分類器的歸納過(guò)程,采用類權(quán)值計(jì)算用于選擇分裂切分點(diǎn)的Gini(t)的加權(quán)最小Gini(t),尋找對(duì)應(yīng)的代價(jià)不純度最低的最佳分割標(biāo)準(zhǔn)。因此,Gini(t)的表達(dá)式轉(zhuǎn)變?yōu)?/p>

        其中,i表示類別;C表示類別的個(gè)數(shù)。

        3.4.4 決策規(guī)則:代價(jià)敏感的多數(shù)投票

        除了修改作為基分類器的單個(gè)決策樹(shù)的分裂標(biāo)準(zhǔn),代價(jià)敏感信息也會(huì)被加入樹(shù)的葉結(jié)點(diǎn)即終端決策規(guī)則中去。引入代價(jià)敏感思想后,每棵決策樹(shù)終端葉結(jié)點(diǎn)的類別判定不再取決于該結(jié)點(diǎn)樣本中數(shù)量居多的類別,而會(huì)納入以權(quán)重表示的代價(jià)。對(duì)于單棵決策樹(shù)來(lái)講,在最后的分類決策中,葉結(jié)點(diǎn)t指派為正類的概率轉(zhuǎn)變?yōu)?/p>

        最后,每棵樹(shù)終端葉結(jié)點(diǎn)的類預(yù)測(cè)均轉(zhuǎn)為加權(quán)多數(shù)投票,隨機(jī)森林最終預(yù)測(cè)類別就是所有樹(shù)平均加權(quán)投票值高的類[57],提升了隨機(jī)森林中對(duì)不均衡分類更為敏感的樹(shù)在多數(shù)投票決策階段的話語(yǔ)權(quán)。

        3.5 模型評(píng)估及目標(biāo)

        在不均衡分類問(wèn)題中,由于少數(shù)類通常反映更受重視的預(yù)測(cè)結(jié)果,是重點(diǎn)的研究對(duì)象,一般都將少數(shù)類作為正類(positive,P),多數(shù)類記作負(fù)類(negative,N)[11]。根據(jù)測(cè)試樣本的實(shí)際歸屬類別與模型的預(yù)測(cè)結(jié)果輸出,混淆矩陣能組合出如表6所示的真正例、假正例、真負(fù)例和假負(fù)例四類分類評(píng)價(jià)?;诙诸惢煜仃?,本研究所采用的評(píng)估指標(biāo)計(jì)算方式和說(shuō)明如表6所示。

        表6 二分類混淆矩陣

        (1)整體準(zhǔn)確率(accuracy):表示模型預(yù)測(cè)正確的樣本總和與所有樣本總和之比,

        accuracy=(TP+TN)/(TP+TN+FP+FN)

        (2)靈敏度(sensitivity)和特異度(specificity):靈敏度表示模型的真正率(true positive rate,TPR),即被正確預(yù)測(cè)為正類的樣本數(shù)量與實(shí)際所有正類樣本的比例,體現(xiàn)出少數(shù)類被正確預(yù)測(cè)出的分類水平;特異度表示模型的真負(fù)率(true negative rate,TNR),即被正確預(yù)測(cè)為負(fù)類的樣本數(shù)量與實(shí)際所有負(fù)類樣本的比例,體現(xiàn)出多數(shù)類的正確分類水平。計(jì)算公式分別為

        (3)ROC曲線與AUC值:ROC(receiver operat‐ing characteristic)曲線[58]根據(jù)混淆矩陣對(duì)所有可能的分類閾值效果進(jìn)行綜合衡量,本質(zhì)上是不同分類閾值下分類結(jié)果(TPR、FPR)表現(xiàn)的集合,是兼顧正負(fù)分類效果的評(píng)估方式,其中縱坐標(biāo)TPR與橫坐標(biāo)FPR(false positive rate)的計(jì)算方式分別為

        AUC值(area under curve)表示ROC曲線中TPR和FPR對(duì)應(yīng)點(diǎn)的連線與坐標(biāo)軸包圍區(qū)域的面積,常被作為評(píng)價(jià)模型整體性能的測(cè)度指標(biāo)。AUC數(shù)值越大,模型的整體預(yù)測(cè)能力就越理想。

        (4)G-mean[59-61]:在不均衡問(wèn)題中,同時(shí)優(yōu)化多個(gè)指標(biāo)是困難的,通常需要進(jìn)行權(quán)衡。相較于傳統(tǒng)的F1值可能會(huì)受到不均衡環(huán)境下高FP值的欺騙,產(chǎn)生誤導(dǎo)[62],G-mean表示模型靈敏度(sensitivity)和特異度(specificity)的幾何平均,能夠綜合體現(xiàn)有效識(shí)別的總體水平,

        4 實(shí)證分析

        4.1 漸進(jìn)式采樣方法

        以訓(xùn)練集的完整數(shù)據(jù)為基礎(chǔ),重構(gòu)多種重采樣數(shù)據(jù)集,將其與完整的采樣數(shù)據(jù)進(jìn)行比較。其中包括四種常見(jiàn)過(guò)采樣數(shù)據(jù)集:隨機(jī)過(guò)采樣數(shù)據(jù)、SMOTE過(guò)采樣數(shù)據(jù)、borderline-SMOTE數(shù)據(jù)和ADASYN數(shù)據(jù),以及四種常見(jiàn)欠采樣數(shù)據(jù)集:隨機(jī)欠采樣數(shù)據(jù)、cluster centroids數(shù)據(jù)、near miss數(shù)據(jù)和Tomek links數(shù)據(jù)。圖3展示了不同模型下各采樣方式ROC曲線的比較。

        圖3 各采樣方式ROC曲線的比較

        該實(shí)驗(yàn)結(jié)果表明,盡管部分欠采樣和過(guò)采樣方法都可以有效地解決不均衡數(shù)據(jù)分類預(yù)測(cè)結(jié)果偏向多數(shù)類的問(wèn)題,但其總體的性能表現(xiàn)卻具有較大差異。隨機(jī)欠采樣表現(xiàn)出了整體更優(yōu)的ROC曲線分布和AUC值,同時(shí),不僅在預(yù)測(cè)建模上能夠顯著優(yōu)化分類器的分類性能和少數(shù)類識(shí)別能力,更能大幅提升模型的計(jì)算效率,是本數(shù)據(jù)集最適宜的采樣方式。

        此外,將不均衡數(shù)據(jù)集均衡到什么程度能得到最佳的分類表現(xiàn)也是不均衡分類問(wèn)題中值得探索的領(lǐng)域。例如,Kim等[63]通過(guò)邏輯回歸、樸素貝葉斯、隨機(jī)森林測(cè)試了負(fù)訓(xùn)練數(shù)據(jù)與正訓(xùn)練數(shù)據(jù)的比率如何影響機(jī)器學(xué)習(xí)算法在消除作者姓名歧義方面的性能;Peng等[64]在預(yù)測(cè)實(shí)時(shí)交通事故風(fēng)險(xiǎn)的研究中探索了不同比例過(guò)采樣對(duì)實(shí)驗(yàn)結(jié)果的影響。在保證正負(fù)樣本區(qū)分能力足夠的基礎(chǔ)上,不能簡(jiǎn)單將正負(fù)類別的均衡比例設(shè)置為1∶1,而應(yīng)當(dāng)通過(guò)進(jìn)一步的實(shí)驗(yàn)結(jié)果,結(jié)合分類目標(biāo)確定具體的均衡比例,注重?cái)?shù)據(jù)均衡比例和原始樣本空間改變的平衡。因此,繼續(xù)采用隨機(jī)欠采樣,所有FDA授權(quán)的正類樣本仍然保留在數(shù)據(jù)集中,按照一定的比例隨機(jī)剔除整個(gè)樣本中的非FDA授權(quán)的負(fù)類數(shù)據(jù),使數(shù)據(jù)分布更加均衡。正負(fù)類樣本比例分別從1∶1到1∶20用于形成重采樣后的建模數(shù)據(jù)集。表7展示了不同隨機(jī)欠采樣比例下的訓(xùn)練集樣本描述,不同正負(fù)類均衡比例的組合在測(cè)試集的預(yù)測(cè)結(jié)果如圖4所示。

        表7 漸進(jìn)式隨機(jī)欠采樣的訓(xùn)練集分布描述

        從圖4可以發(fā)現(xiàn),總體上看,1∶2時(shí),隨機(jī)森林的AUC值為各比例下的最高值(0.881),且在Gmean相比于1∶1損失僅約為0.015的條件下,保持了較高的整體準(zhǔn)確率。因此,使用隨機(jī)欠采樣并以正負(fù)均衡比例1∶2構(gòu)建的隨機(jī)森林模型在大大減少了分析的數(shù)據(jù)量且保留相對(duì)更多原始多數(shù)類樣本信息的基礎(chǔ)上,取得了綜合預(yù)測(cè)能力提升趨勢(shì)較為飽和的不錯(cuò)的預(yù)測(cè)結(jié)果,更適合作為本研究后續(xù)代價(jià)敏感學(xué)習(xí)的基礎(chǔ)。

        圖4 漸進(jìn)式隨機(jī)欠采樣的隨機(jī)森林比較

        4.2 代價(jià)矩陣的設(shè)定

        代價(jià)敏感學(xué)習(xí)的有效性在很大程度上取決于代價(jià)矩陣的確定,錯(cuò)誤的初始化成本會(huì)損害模型的學(xué)習(xí)過(guò)程。因此,代價(jià)矩陣提供的參數(shù)對(duì)于代價(jià)敏感學(xué)習(xí)至關(guān)重要。目前主要通過(guò)兩種方式獲得成本矩陣:領(lǐng)域?qū)<姨峁┙?jīng)驗(yàn)和目標(biāo),或者采取不同的代價(jià)矩陣驗(yàn)證方法在分類器訓(xùn)練階段學(xué)習(xí)獲得。然而在實(shí)際的不均衡分類問(wèn)題中,諸多情景并不能直觀地依靠金錢損失、時(shí)間成本和發(fā)病率等就能得到較為可靠的代價(jià)矩陣。因此,更多地還是依靠后者來(lái)獲取具體問(wèn)題的最優(yōu)代價(jià)矩陣。

        4.2.1 不均衡比例法

        目前,針對(duì)專家經(jīng)驗(yàn)的較難獲取性,許多研究都將其簡(jiǎn)化為利用不均衡比例(IR)作為估算成本的直接方法。IR方法直接根據(jù)不同類別的樣本比例來(lái)設(shè)置少數(shù)類的權(quán)重。以二分類問(wèn)題為例,假設(shè)完整的樣本集為S,SP為少數(shù)類即正類數(shù)據(jù)的數(shù)量,SN為多數(shù)類即負(fù)類數(shù)據(jù)的數(shù)量,則數(shù)據(jù)集不均衡度IR的計(jì)算方式為

        4.2.2 ROC-Youden指數(shù)閾值法

        以ROC曲線的Youden指數(shù)作為選擇閾值的標(biāo)準(zhǔn),稱為Youden指數(shù)閾值法[65]。Youden指數(shù)在ROC曲線上反映為點(diǎn)與對(duì)角交叉線(0,0)和(1,1)之間的縱向距離,Youden指數(shù)的計(jì)算公式為

        其中,n表示ROC曲線中點(diǎn)的集合;sensitivity(n)和specificity(n)分別為該點(diǎn)對(duì)應(yīng)的分類閾值下模型的靈敏度和特異度。

        4.2.3 靈敏度/特異度曲線交叉點(diǎn)法

        由于靈敏度和特異度曲線交叉處代表同時(shí)較高的靈敏度和特異度,很多研究都通過(guò)選擇靈敏度和特異度曲線交叉點(diǎn)的方法來(lái)確定分類閾值[66-67]。利用ROC曲線計(jì)算Youden指數(shù)閾值的方法,通過(guò)驗(yàn)證集采用靈敏度和特異度曲線交叉點(diǎn)法獲取對(duì)應(yīng)閾值就能推導(dǎo)出代價(jià)矩陣:

        4.3 實(shí)驗(yàn)效果分析

        最終,通過(guò)不均衡比例法,以及驗(yàn)證集基于ROC-Youden指數(shù)閾值法和靈敏度/特異度曲線交叉點(diǎn)法確定的代價(jià)矩陣,1∶2隨機(jī)欠采樣的代價(jià)敏感隨機(jī)森林和兩個(gè)對(duì)照實(shí)驗(yàn)組的預(yù)測(cè)結(jié)果如圖5和表8所示。

        圖5 不同策略組合的分類器比較

        從圖5和表8可發(fā)現(xiàn),總體來(lái)看,采用三種方法確定代價(jià)矩陣的代價(jià)敏感隨機(jī)森林對(duì)于新興技術(shù)識(shí)別分類預(yù)測(cè)能力均有顯著提升,表明代價(jià)敏感學(xué)習(xí)對(duì)于是否進(jìn)行數(shù)據(jù)采樣處理的分類算法均有提升少數(shù)類分類預(yù)測(cè)能力的作用。在未經(jīng)任何數(shù)據(jù)重采樣預(yù)處理的原始樣本對(duì)照組中,代價(jià)敏感隨機(jī)森林相對(duì)原始模型的提升效果極為顯著,可以有效緩解模型無(wú)法預(yù)測(cè)出任何少數(shù)類的嚴(yán)重偏向性。而1∶1隨機(jī)欠采樣處理的對(duì)照組,則進(jìn)一步驗(yàn)證了漸進(jìn)式采樣的必要性,因?yàn)榇鷥r(jià)敏感學(xué)習(xí)在此時(shí)僅能再有限地提升模型預(yù)測(cè)能力,過(guò)度的采樣已經(jīng)損失了較多的原始數(shù)據(jù)集分布信息,對(duì)于多數(shù)類預(yù)測(cè)能力和整體性能的降低已經(jīng)無(wú)法通過(guò)代價(jià)敏感學(xué)習(xí)彌補(bǔ)提升。

        表8 不同策略組合的分類器預(yù)測(cè)結(jié)果統(tǒng)計(jì)

        此外,通過(guò)計(jì)算分類結(jié)果的各項(xiàng)評(píng)估指標(biāo),發(fā)現(xiàn)其中最優(yōu)的代價(jià)矩陣設(shè)定方式為ROC-Youden指數(shù)閾值代價(jià)矩陣,其各項(xiàng)性能表現(xiàn)均總體優(yōu)于其他代價(jià)矩陣的改進(jìn)。目前,最為常用的不均衡比例代價(jià)矩陣盡管很容易實(shí)現(xiàn),不需要額外的模型計(jì)算成本,但具有結(jié)果不符合預(yù)期的重大局限性,因?yàn)閿?shù)據(jù)集分布和實(shí)際錯(cuò)分代價(jià)并不是簡(jiǎn)單的直接關(guān)聯(lián),不均衡比例并非不均衡分類中的唯一困難,正負(fù)樣本噪聲問(wèn)題、樣本重疊等也會(huì)影響到其最優(yōu)代價(jià)的變化,采用不均衡比例代價(jià)矩陣會(huì)對(duì)代價(jià)敏感問(wèn)題過(guò)度簡(jiǎn)化。值得注意的是,由于在第一階段代價(jià)未知時(shí),訓(xùn)練的分類器是原始的損失函數(shù)驅(qū)動(dòng)而沒(méi)有引入代價(jià)敏感,因此,使用ROC-Youden指數(shù)閾值代價(jià)矩陣方法針對(duì)代價(jià)不敏感的算法來(lái)初始化代價(jià)矩陣參數(shù)的估計(jì),然后通過(guò)估計(jì)的代價(jià)矩陣構(gòu)建代價(jià)敏感學(xué)習(xí)算法,結(jié)果可能會(huì)存在一定偏差。盡管如此,該類方法實(shí)際上也包含了不均衡比例代價(jià)矩陣無(wú)法測(cè)度的正負(fù)樣本重疊、類內(nèi)不均衡等各類因素對(duì)最優(yōu)代價(jià)變化的影響。因此,在缺乏特定先驗(yàn)矩陣的情況下,對(duì)比常用的不均衡比例代價(jià)矩陣,ROC-Youden指數(shù)閾值矩陣更能獲取符合預(yù)測(cè)目標(biāo)模型的更優(yōu)錯(cuò)分代價(jià),仍然為比較好的代價(jià)矩陣替代方案。

        最后,基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價(jià)矩陣構(gòu)建的代價(jià)敏感隨機(jī)森林模型取得了最好的分類表現(xiàn),其AUC、ac‐curacy、sensitivity、specificity和G-mean分 別 達(dá) 到0.880、0.816、0.828、0.816和0.822,意味著在對(duì)應(yīng)的新興技術(shù)識(shí)別目標(biāo)中,采納該模型能預(yù)測(cè)出82.8%的新興技術(shù),同時(shí)能正確識(shí)別81.6%的普通技術(shù),實(shí)現(xiàn)僅17.2%的漏報(bào)率和18.4%的誤報(bào)率,進(jìn)一步驗(yàn)證了綜合漸進(jìn)式采樣、算法優(yōu)化和評(píng)估優(yōu)化的分類改進(jìn)策略為整體預(yù)測(cè)能力最好的策略組合。與其他對(duì)照組相比,其模型對(duì)于重點(diǎn)關(guān)注少數(shù)類預(yù)測(cè)能力的識(shí)別效果和平衡效果均較為良好,在此基礎(chǔ)上構(gòu)建的基于專利指標(biāo)的機(jī)器學(xué)習(xí)新興技術(shù)識(shí)別框架具有較強(qiáng)的前瞻性預(yù)測(cè)價(jià)值。

        4.4 不均衡研究相關(guān)方法比較

        為證明基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價(jià)矩陣構(gòu)建的代價(jià)敏感隨機(jī)森林模型具備優(yōu)勢(shì),本研究選取不均衡分類研究中最近提出的相關(guān)方法——deep reinforcement learn‐ing(DRL)進(jìn)行比較分析。以原始訓(xùn)練集為基礎(chǔ),通過(guò)隨機(jī)欠采樣構(gòu)建出1∶1及1∶2重采樣數(shù)據(jù)集,在該環(huán)境下驗(yàn)證DRL的性能指標(biāo),并選取最優(yōu)的模型結(jié)果與本研究提出的基于代價(jià)敏感的隨機(jī)森林模型進(jìn)行比較,結(jié)果如表9所示。

        表9 deep reinforcement learning(DRL)與優(yōu)化隨機(jī)森林的對(duì)比

        從表9可以看出,本研究提出的基于代價(jià)敏感的隨機(jī)森林模型在各項(xiàng)指標(biāo)上均顯著優(yōu)于DRL,其中代表FDA授權(quán)樣本預(yù)測(cè)能力的sensitivity指標(biāo),較DRL模型高出13.8%,這一現(xiàn)象表明本研究提出的優(yōu)化模型與現(xiàn)有的相關(guān)成果相比具備一定的優(yōu)勢(shì)。

        5 總結(jié)與展望

        本研究通過(guò)數(shù)據(jù)維度、算法維度和評(píng)估維度三個(gè)層次的綜合優(yōu)化策略組合,通過(guò)癌癥藥物領(lǐng)域?qū)@膶?shí)證結(jié)果,驗(yàn)證了所提出的基于機(jī)器學(xué)習(xí)的新興技術(shù)識(shí)別不均衡分類優(yōu)化框架的可行性、有效性和價(jià)值意義。然而,本研究在研究思路、研究?jī)?nèi)容以及研究方法上存在一定的局限性與不足,在未來(lái)的深入研究中有優(yōu)化和豐富的空間。

        (1)本研究的核心為數(shù)據(jù)維度、算法維度和評(píng)估維度三個(gè)層次的綜合優(yōu)化框架,盡管其中通過(guò)各項(xiàng)實(shí)驗(yàn)組和對(duì)照組保證了最終模型組合策略的相對(duì)更優(yōu),驗(yàn)證了本文所提出框架的有效性,但最后基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價(jià)矩陣構(gòu)建的代價(jià)敏感隨機(jī)森林模型仍然為局部最優(yōu)的方案,未來(lái)研究中可繼續(xù)探索采樣、算法及代價(jià)敏感學(xué)習(xí)的應(yīng)用及組合。

        (2)本研究尚未對(duì)不均衡數(shù)據(jù)集特征及不均衡分類面臨的本質(zhì)問(wèn)題開(kāi)展更為深入的研究。未來(lái)不均衡分類問(wèn)題的研究中,除了關(guān)注正負(fù)樣本類間不均衡比例造成的不均衡分類,還需要結(jié)合新興技術(shù)識(shí)別問(wèn)題中的實(shí)際數(shù)據(jù)集納入更為細(xì)粒度的因素研究,如少數(shù)類噪聲、多數(shù)類和少數(shù)類的類間樣本重疊、類內(nèi)不均衡以及概念漂移等問(wèn)題,深入挖掘不均衡分類問(wèn)題的本質(zhì)。

        猜你喜歡
        代價(jià)分類器專利
        專利
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        愛(ài)的代價(jià)
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        代價(jià)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        成熟的代價(jià)
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        專利
        精品国产色哟av一区二区三区| 一级午夜视频| WWW拍拍拍| 久久精品国产亚洲av天美| 国产a级毛片久久久精品毛片| 精品日韩欧美一区二区在线播放 | 久久天天躁狠狠躁夜夜爽| 男女高潮免费观看无遮挡| 国产成人亚洲精品91专区高清| 黄桃av无码免费一区二区三区| 大学生被内谢粉嫩无套| 久久久精品国产亚洲麻色欲| 国产黄色三级一区二区三区四区| 亚洲色大成网站www永久网站| 欧美午夜一区二区福利视频| 开心激情站开心激情网六月婷婷| 日本一区二区在线免费看| 国产精品人妻一码二码| 国产成人久久综合热| 日韩亚洲午夜精品一区二区三区| 蜜桃传媒免费在线播放| 亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 亚洲国产性夜夜综合另类| a级毛片免费观看在线| аⅴ天堂国产最新版在线中文| 亚洲激情一区二区三区视频| 日本丰满少妇裸体自慰| 女人夜夜春高潮爽a∨片传媒| 精品国产迪丽热巴在线| 97超碰精品成人国产| 蜜臀av性久久久久蜜臀aⅴ| 91热久久免费精品99| 久久综合亚洲鲁鲁五月天| 国产美女做爰免费视频| 国产精品一区二区在线观看99| 久久精品国产亚洲av蜜臀久久| 色婷婷一区二区三区四区成人网| 亚洲av中文无码字幕色三| 亚洲情精品中文字幕有码在线| 国产让女高潮的av毛片| 成全高清在线播放电视剧|