亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林算法在小麥育種輔助評(píng)價(jià)中的應(yīng)用①

        2018-01-08 03:12:40鄒永潘王儒敬
        關(guān)鍵詞:訓(xùn)練樣本分類器小麥

        鄒永潘,王儒敬,李 偉

        1(中國(guó)科學(xué)院 合肥物質(zhì)科學(xué)研究院 合肥智能機(jī)械研究所,合肥 230031)

        2(中國(guó)科學(xué)技術(shù)大學(xué),合肥 230026)

        隨機(jī)森林算法在小麥育種輔助評(píng)價(jià)中的應(yīng)用①

        鄒永潘1,2,王儒敬1,李 偉1

        1(中國(guó)科學(xué)院 合肥物質(zhì)科學(xué)研究院 合肥智能機(jī)械研究所,合肥 230031)

        2(中國(guó)科學(xué)技術(shù)大學(xué),合肥 230026)

        為了提高育種領(lǐng)域選種的準(zhǔn)確率同時(shí)縮短品種培育年限,利用改進(jìn)的隨機(jī)森林算法根據(jù)小麥育種歷史數(shù)據(jù)構(gòu)建評(píng)價(jià)模型. 在訓(xùn)練分類器之前,利用改進(jìn)的SMOTE算法來(lái)改善訓(xùn)練樣本集中的非平衡現(xiàn)象; 在基分類器訓(xùn)練完成后,測(cè)試單個(gè)分類器的性能并剔除性能較差的基分類器,實(shí)現(xiàn)隨機(jī)森林中基分類器的篩選. 實(shí)驗(yàn)結(jié)果表明,文中提出的算法在小麥種質(zhì)評(píng)價(jià)方面取得了不錯(cuò)的效果,可以輔助育種工作者進(jìn)行品種選育.

        小麥育種評(píng)價(jià); 非平衡數(shù)據(jù)集; 隨機(jī)森林; 改進(jìn)的 SMOTE 方法

        建國(guó)以來(lái),我國(guó)在小麥育種領(lǐng)域取得了卓越的成就,選育出了數(shù)以千計(jì)的優(yōu)良品種. 在先后經(jīng)歷了20世紀(jì)50-60年代以提高抗病穩(wěn)產(chǎn)為主的育種階段和70-80年代以矮化與高產(chǎn)為主的育種階段之后,從上世紀(jì)90年代開(kāi)始,我國(guó)小麥育種已進(jìn)入了高產(chǎn)品種和優(yōu)質(zhì)品種并進(jìn)的階段[1]. 小麥育種是一個(gè)需要涉及多要素、受多方面因素綜合影響的過(guò)程,育種過(guò)程中各要素之間的相互關(guān)系以及各要素對(duì)育種結(jié)果的影響難以精確衡量,因此科學(xué)有效的種質(zhì)評(píng)價(jià)方法對(duì)于尋找優(yōu)質(zhì)品種顯得至關(guān)重要.

        傳統(tǒng)的作物育種評(píng)價(jià)方法多是基于育種專家多年的育種經(jīng)驗(yàn)對(duì)一個(gè)品種做出主觀評(píng)價(jià),再通過(guò)來(lái)年種植下一茬作物來(lái)進(jìn)行驗(yàn)證. 這種方法延長(zhǎng)了品種的選育時(shí)間,在多性狀綜合評(píng)價(jià)時(shí)由于人為因素干預(yù)過(guò)多,往往導(dǎo)致評(píng)價(jià)的結(jié)果不甚理想. 部分育種工作者引入了層次分析法、模糊綜合評(píng)價(jià)、灰色關(guān)聯(lián)評(píng)價(jià)等方法來(lái)對(duì)品種進(jìn)行綜合評(píng)價(jià),這些方法在評(píng)價(jià)效果上各有優(yōu)勢(shì),有效提升了作物育種評(píng)價(jià)技術(shù)的數(shù)據(jù)化、信息化程度[2,3]. 但這些方法往往需要育種專家人為設(shè)置指標(biāo)的權(quán)重來(lái)顯性描述相關(guān)的專家經(jīng)驗(yàn),進(jìn)而來(lái)指導(dǎo)育種評(píng)價(jià)的相關(guān)工作,無(wú)法解釋育種經(jīng)驗(yàn)的合理性,且模塊化應(yīng)用這些評(píng)價(jià)方法時(shí)難以實(shí)現(xiàn). 劉忠強(qiáng)[4]將決策樹(shù)算法應(yīng)用到作物育種結(jié)果評(píng)價(jià)當(dāng)中,利用歷史的育種數(shù)據(jù)記錄,建立對(duì)應(yīng)的評(píng)價(jià)模型,該模型綜合考慮了各個(gè)育種性狀和育種目標(biāo)之間的關(guān)系,同時(shí)體現(xiàn)了育種專家的歷史選育經(jīng)驗(yàn),可以輔助育種工作者進(jìn)行育種評(píng)價(jià). 但是,基于決策樹(shù)的評(píng)價(jià)方法需要進(jìn)行大量的數(shù)據(jù)預(yù)處理工作,且容易出現(xiàn)過(guò)擬合[5,6]. 隨機(jī)森林算法(RF)[7]通過(guò)重采樣技術(shù)構(gòu)建多個(gè)弱分類器來(lái)對(duì)結(jié)果進(jìn)行預(yù)測(cè),最終的評(píng)判結(jié)果取決于多個(gè)分類器的投票結(jié)果. RF具有較強(qiáng)的容錯(cuò)能力且能很好的避免出現(xiàn)過(guò)擬合,作為機(jī)器學(xué)習(xí)領(lǐng)域主流算法之一,已經(jīng)得到了十分廣泛的應(yīng)用[8-10].

        小麥選種決策過(guò)程是從大量的已培育品種中選擇出綜合性能較好的品種,可看做是一個(gè)非平衡數(shù)據(jù)集分類問(wèn)題. 如果直接對(duì)原始數(shù)據(jù)進(jìn)行建模,難以得到理想的模型[11],可以通過(guò)改造訓(xùn)練數(shù)據(jù)來(lái)提升訓(xùn)練數(shù)據(jù)的不平衡率,主要實(shí)現(xiàn)方式包括隨機(jī)過(guò)采樣和隨機(jī)欠采樣. 隨機(jī)過(guò)采樣可能會(huì)導(dǎo)致最終的分類器過(guò)分的擬合訓(xùn)練數(shù)據(jù),而隨機(jī)的欠采樣則可能導(dǎo)致分類器在訓(xùn)練過(guò)程中失去一些多數(shù)類的信息,從而使得分類結(jié)果對(duì)多數(shù)類不利. 針對(duì)過(guò)采樣出現(xiàn)的問(wèn)題,Chawla等人于2002年提出了SMOTE算法[12],該方法假設(shè)少數(shù)類樣本的附近仍然是少數(shù)類,為每個(gè)少數(shù)類樣本確定其K個(gè)相鄰的樣本,然后在該樣本與其近鄰樣本連線上構(gòu)造“人造樣本”. 該方法解決了隨機(jī)過(guò)采樣中的過(guò)擬合問(wèn)題,但是在選取近鄰樣本時(shí),難以確定K的大小,具有一定的盲目性,此外改造后的數(shù)據(jù)集容易出現(xiàn)分布邊緣化問(wèn)題[13].

        本文將一種改進(jìn)的隨機(jī)森林算法應(yīng)用到小麥育種的種質(zhì)評(píng)價(jià)階段. 針對(duì)歷史評(píng)價(jià)數(shù)據(jù)的不平衡現(xiàn)象,在預(yù)處理階段使用改進(jìn)的SMOTE算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行改造,使得訓(xùn)練數(shù)據(jù)中的正負(fù)類分布達(dá)到平衡; 在隨機(jī)森林的決策階段,利用OOB數(shù)據(jù)計(jì)算每個(gè)基分類器的分類性能,并剔除較差的分類器,進(jìn)一步提升分類器的綜合性能. 實(shí)驗(yàn)結(jié)果表明,該評(píng)價(jià)方法能夠取得較準(zhǔn)確的評(píng)價(jià)效果,可以輔助育種工作者進(jìn)行優(yōu)質(zhì)品種的選擇.

        1 相關(guān)算法介紹

        1.1 隨機(jī)森林分類算法

        隨機(jī)森林算法是由Breiman于2001年提出的一種機(jī)器學(xué)習(xí)算法[7],實(shí)質(zhì)上是由多個(gè)決策樹(shù)構(gòu)成的組合分類器,其分類結(jié)果是由各個(gè)子分類器的結(jié)果共同決定,通常是通過(guò)投票將決策票數(shù)最多的類別作為樣本的最終所屬類別. 隨機(jī)森林的構(gòu)建過(guò)程: 首先,通過(guò)Bagging(Bootstrap aggreating)方法產(chǎn)生多個(gè)有差異的訓(xùn)練樣本子集; 然后,利用隨機(jī)子空間劃分(Random subspace method)方法選擇部分屬性采用CART算法無(wú)剪枝地構(gòu)建多棵分類決策樹(shù).

        自主抽樣法是從含有n個(gè)樣本的初始訓(xùn)練集中有放回的隨機(jī)抽取n個(gè)樣本形成新的訓(xùn)練樣本子集的過(guò)程,此處新的訓(xùn)練樣本集大小和初始樣本集相等. 因?yàn)槌跏加?xùn)練樣本集中的每個(gè)樣本未被抽中的概率為(1?1/n)n,當(dāng)n趨向于無(wú)窮大時(shí)有:

        由上式,初始訓(xùn)練樣本中大約36.8%的樣本不會(huì)出現(xiàn)在新訓(xùn)練樣本集中. 初始樣本集中未被抽取到的樣本集合稱為袋外數(shù)據(jù) (Out of bag,簡(jiǎn)稱 OOB). 通過(guò)自助抽樣法保證了子分類器之間訓(xùn)練樣本的差異.

        隨機(jī)子空間的劃分策略: 從擁有M個(gè)屬性的數(shù)據(jù)集中隨機(jī)抽取m個(gè)屬性(m?M)作為候選屬性. 在隨機(jī)森林中,m的建議取值為sqrt(M)、1/2sqrt(M)或2sqrt(M)[7].

        對(duì)于數(shù)據(jù)集D,其純度可以用基尼值來(lái)衡量:

        pk表示在數(shù)據(jù)集D中第k類樣本占有的比例.Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本類別不一致的概率,值越小,表明數(shù)據(jù)集的純度越高.

        在生成決策樹(shù)的過(guò)程中,根據(jù)屬性的基尼指數(shù)進(jìn)行結(jié)點(diǎn)的分類,屬性a的基尼指數(shù)定義為:

        在構(gòu)建CART決策樹(shù)時(shí),選擇屬性集合A中那個(gè)使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性,即:

        1.2 SMOTE算法

        SMOTE 算法 (Synthetic minority over-sampling technique)其本質(zhì)上是隨機(jī)向上抽樣算法的改進(jìn).SMOTE算法假設(shè)與少數(shù)類樣本較近的樣本也屬于少數(shù)類,通過(guò)在樣本和其近鄰樣本連線上構(gòu)造新的樣本來(lái)提升訓(xùn)練數(shù)據(jù)的平衡率. 構(gòu)造樣本的過(guò)程根據(jù)公式(5)來(lái)完成:

        其中,Xi(i=1,2,…,n)為少數(shù)類樣本;Yij(y=1,2,…,K)表示與Xi的K個(gè)近鄰樣本中的第j個(gè);Pij為Xi與第j個(gè)近鄰樣本合成的新樣本;rand(0,1)表示一個(gè)0到1的隨機(jī)數(shù). 假設(shè)數(shù)據(jù)集中少數(shù)類樣本的個(gè)數(shù)為N+,多數(shù)類樣本的個(gè)數(shù)為N-,采樣率為N.

        SMOTE算法的實(shí)現(xiàn)步驟如下:

        Step 1. 計(jì)算并挑選出每個(gè)少數(shù)類樣本的K近鄰樣本;

        Step 2. 將每個(gè)少數(shù)類樣本與其近鄰樣本隨機(jī)地進(jìn)行組合,利用公式(5)產(chǎn)生新樣本;

        Step 3. 判斷是否達(dá)到目標(biāo)采樣率,若沒(méi)有則轉(zhuǎn)Step2,否則將所有產(chǎn)生的新的樣本加入訓(xùn)練數(shù)據(jù)集中,程序結(jié)束.

        2 隨機(jī)森林算法在小麥種質(zhì)評(píng)價(jià)的應(yīng)用

        2.1 小麥種質(zhì)評(píng)價(jià)流程

        本文嘗試將隨機(jī)森林分類算法應(yīng)用在小麥育種領(lǐng)域,輔助育種工作者選擇優(yōu)質(zhì)品種. 利用歷史育種數(shù)據(jù)來(lái)訓(xùn)練分類模型,并根據(jù)該模型實(shí)現(xiàn)對(duì)新培育材料的分類預(yù)測(cè),具體的步驟包括數(shù)據(jù)預(yù)處理、建立模型、新品種評(píng)價(jià),流程如圖1所示.

        圖1 小麥種質(zhì)評(píng)價(jià)流程

        2.2 數(shù)據(jù)預(yù)處理

        針對(duì)小麥育種記錄數(shù)據(jù),本文進(jìn)行的數(shù)據(jù)預(yù)處理包括規(guī)范化、異常值檢測(cè)、缺失值填充、數(shù)據(jù)合成.

        (1) 規(guī)范化

        由于訓(xùn)練數(shù)據(jù)集可能是來(lái)自不同的育種機(jī)構(gòu),對(duì)于同一個(gè)性狀的記錄可能會(huì)出現(xiàn)不同的描述形式,因此需要首先對(duì)記錄數(shù)據(jù)進(jìn)行規(guī)范化. 主要包括計(jì)量單位的統(tǒng)一和表示形式的統(tǒng)一. 例如,對(duì)于性狀千粒重,以克計(jì)量; 對(duì)于抗病性,針對(duì)反應(yīng)型以1、2、3…表示等.

        (2) 異常值檢測(cè)

        在實(shí)驗(yàn)過(guò)程中的異常檢測(cè)主要是利用現(xiàn)有的育種記錄經(jīng)驗(yàn)來(lái)判斷記錄中是否存在不科學(xué)的記錄結(jié)果,由于育種數(shù)據(jù)來(lái)源于嚴(yán)謹(jǐn)?shù)目蒲袡C(jī)構(gòu),異常記錄較少,故直接刪除含有異常值的記錄.

        (3) 缺失值填充

        對(duì)于存在缺失的記錄,本文使用與給定元組屬于同一類別的所有樣本的均值進(jìn)行填充.

        (4) 數(shù)據(jù)合成

        由于小麥育種數(shù)據(jù)集中的非平衡問(wèn)題,利用改進(jìn)的SMOTE算法合成新的少數(shù)類樣本,改善訓(xùn)練樣本集中得類別分布狀況.

        2.3 改進(jìn)的SMOTE算法(ISMOTE)

        SMOTE算法假設(shè)少數(shù)類樣本的周圍仍然是少數(shù)類,并且在選擇k近鄰時(shí)存在一些盲目性. 事實(shí)上,大多數(shù)情況下的樣本分布并不滿足上述假設(shè),這會(huì)導(dǎo)致經(jīng)過(guò)SMOTE合成的樣本集會(huì)出現(xiàn)樣本重疊現(xiàn)象. 為了能夠解決訓(xùn)練數(shù)據(jù)集中的非平衡問(wèn)題,同時(shí)使新合成的樣本集能更加真實(shí)的反映初始數(shù)據(jù)集的分布,本文提出了一種改進(jìn)的SMOTE算法. ISMOTE算法思路如下: 首先,利用k-均值聚類算法對(duì)少數(shù)類樣本進(jìn)行聚類,得到k個(gè)聚類中心以及對(duì)應(yīng)的簇; 然后,利用每個(gè)樣本和其對(duì)應(yīng)的聚類中心合成新的樣本. 具體實(shí)現(xiàn)流程如下:

        Step 1. 對(duì)少數(shù)類樣本利用聚類算法求得k個(gè)聚類中心X_centerj(j=1,2,…,k),將少數(shù)類樣本集分成k簇樣本Sub_Xj(j=1,2,…,k);

        Step 2. 任意抽取Xi,根據(jù) Step 1 可得到對(duì)應(yīng)的聚類中心,利用如下公式合成新樣本:

        式(6)中,Pij表示少數(shù)類樣本Xi與它對(duì)應(yīng)的聚類中心合成的新樣本.

        Step 3. 判斷是否達(dá)到目標(biāo)采樣率,若沒(méi)有則轉(zhuǎn)Step 2,否則將所有產(chǎn)生的新的樣本加入訓(xùn)練數(shù)據(jù)集中,程序結(jié)束.

        經(jīng)過(guò)ISMOTE算法處理之后,整個(gè)預(yù)處理過(guò)程結(jié)束,將使用新的樣本集來(lái)訓(xùn)練分類模型.

        2.4 改進(jìn)的隨機(jī)森林算法(IRF)

        在隨機(jī)森林分類中,最終的分類結(jié)果是由基分類器投票類別數(shù)最多的類,沒(méi)有考慮每個(gè)基分類器的分類性能. 隨機(jī)的抽取樣本和屬性可能會(huì)導(dǎo)致某些基分類器的分類性能不理想甚至很差,因此本文在利用RF進(jìn)行分類決策之前先使用OOB數(shù)據(jù)對(duì)基分類器性能進(jìn)行測(cè)試,剔除性能相對(duì)較差的基分類器達(dá)到提升組合分類器性能的目的. IRF的具體構(gòu)造流程如圖2所示.

        圖2 改進(jìn)的隨機(jī)森林構(gòu)造流程圖

        3 實(shí)驗(yàn)

        文中實(shí)驗(yàn)所用的原始數(shù)據(jù)來(lái)自于中國(guó)種業(yè)商務(wù)網(wǎng)的1112條小麥育種記錄數(shù)據(jù),其中正類樣本數(shù)為115(假設(shè)好的品種為正類). 屬性包括成熟期、株高、千粒重、畝穗數(shù)、硬度、容重、沉淀值等24個(gè)小麥育種過(guò)程中的常見(jiàn)性狀,這些性狀在不同程度上反映了小麥品種的產(chǎn)量、抗病性和籽粒品質(zhì).

        3.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

        本文在預(yù)處理中的規(guī)范化主要包括計(jì)量單位的統(tǒng)一和量化方式的統(tǒng)一. 計(jì)量單位的統(tǒng)一針對(duì)的性狀有:株高(cm)、千粒重(g)、畝產(chǎn)(Kg)和容重(g)等. 量化方式的統(tǒng)一主要是針對(duì)枚舉型數(shù)據(jù),根據(jù)性狀的實(shí)際意義使用數(shù)值來(lái)進(jìn)行量化表示. 例如,銹病的反應(yīng)型包括{免疫,高抗,中抗,中感,高感},可以使用{1,2,3,4,5}來(lái)進(jìn)行量化表示. 實(shí)驗(yàn)中關(guān)于異常值檢測(cè)和缺失值處理參照文中2.2節(jié)中的方法進(jìn)行處理.

        3.2 參數(shù)設(shè)置

        3.3 算法性能評(píng)估指標(biāo)

        由于小麥育種中更多的關(guān)注優(yōu)質(zhì)品種,故在實(shí)驗(yàn)中只考量正類(少數(shù)類)有關(guān)的指標(biāo). 算法的性能評(píng)估是通過(guò)準(zhǔn)確率P(Precision)、召回率R(Recall)、以及綜合考慮指標(biāo)F1來(lái)衡量.

        上式中,TP表示正確分類的正例數(shù)目,FN表示錯(cuò)分為負(fù)例的正例數(shù)目,FP為錯(cuò)分為正例的負(fù)例數(shù)目.

        3.4 實(shí)驗(yàn)及結(jié)果分析

        利用Java語(yǔ)言在eclipse平臺(tái)通過(guò)改進(jìn)weka的庫(kù)函數(shù)分別實(shí)現(xiàn)了RF、SMOTE+RF、ISMOTE+RF和ISMOTE+IRF. 實(shí)驗(yàn)采用十折交叉驗(yàn)證的方式對(duì)樣本集進(jìn)行分析,并基于準(zhǔn)確率、召回率和F1值來(lái)對(duì)分類結(jié)果進(jìn)行評(píng)估. 表1為利用四種方法進(jìn)行實(shí)驗(yàn)的結(jié)果.

        表1 四種方法實(shí)驗(yàn)結(jié)果對(duì)比

        從表1可以看出,由于小麥育種數(shù)據(jù)集存在非平衡問(wèn)題,直接使用RF算法進(jìn)行處理得到的分類模型準(zhǔn)確率很差,也驗(yàn)證了隨機(jī)森林算法在處理非平衡數(shù)據(jù)集分類問(wèn)題上的局限性. 利用SMOTE+RF和ISMOTE+RF實(shí)驗(yàn)之后的結(jié)果在各項(xiàng)指標(biāo)上均有不小的提升,在一定程度上緩解了數(shù)據(jù)非平衡帶來(lái)的影響. 但是后者相對(duì)前者的分類效果更好,說(shuō)明利用ISMOTE算法對(duì)少數(shù)類進(jìn)行改造后的數(shù)據(jù)集比經(jīng)SMOTE算法改造后的數(shù)據(jù)集更符合訓(xùn)練數(shù)據(jù)的原始分布情況. 在利用IRF算法考慮基分類器單獨(dú)性能后,算法的各項(xiàng)性能指標(biāo)均得到了小幅的提高,證明了在隨機(jī)森林中考慮基分類器的性能、剔除不好的基分類器有助于提高隨機(jī)森林的整體分類效果.

        4 結(jié)語(yǔ)

        本文嘗試將隨機(jī)森林分類算法應(yīng)用于小麥種質(zhì)評(píng)價(jià)中,利用歷史的選育評(píng)價(jià)數(shù)據(jù)訓(xùn)練分類器,得到的組合分類器中可將每一個(gè)基分類器看做一個(gè)“專家”,對(duì)新培育材料的最終評(píng)價(jià)結(jié)果由多個(gè)“專家”共同決定.實(shí)驗(yàn)結(jié)果表明,該評(píng)價(jià)方法能夠取得較好的評(píng)價(jià)效果,可以輔助育種工作者進(jìn)行優(yōu)質(zhì)品種的選擇. 然而本文的評(píng)價(jià)方法依然存在著不足,主要體現(xiàn)在兩個(gè)方面: 首先,算法中的參數(shù)有待進(jìn)一步優(yōu)化,從而提升算法的性能; 其次,訓(xùn)練數(shù)據(jù)集的樣本數(shù)量不夠、屬性集過(guò)小.為了建立穩(wěn)定的、具有代表性的分類評(píng)價(jià)模型,需要進(jìn)一步優(yōu)化參數(shù),同時(shí)增加訓(xùn)練樣本數(shù)據(jù)以及考慮包括基因型和表現(xiàn)型在內(nèi)的更多的品種性狀.

        1 李振聲. 我國(guó)小麥育種的回顧與展望. 中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2010,12(2): 1–4.

        2柏流芳,呂黃珍,朱大洲,等. 農(nóng)作物育種中的綜合評(píng)判方法. 農(nóng)業(yè)工程,2013,3(3): 112–119.

        3Smith AB,Lim P,Cullis BR. The design and analysis of multi-phase plant breeding experiments. The Journal of Agricultural Science,2006,144(5): 393–409. [doi: 10.1017/S0021859606006319]

        4劉忠強(qiáng). 作物育種輔助決策關(guān)鍵技術(shù)研究與應(yīng)用[博士學(xué)位論文]. 北京: 中國(guó)農(nóng)業(yè)大學(xué),2016: 27–34.

        5Kubal C,Haase D,Meyer V,et al. Integrated urban flood risk assessment—adapting a multicriteria approach to a city.Natural Hazards and Earth System Sciences,2009,9(6):1881–1895. [doi: 10.5194/nhess-9-1881-2009]

        6Liu XP,Li X,Liu L,et al. An innovative method to classify remote-sensing images using ant colony optimization. IEEE Trans. on Geoscience and Remote Sensing,2008,46(12):4198–4208. [doi: 10.1109/TGRS.2008.2001754]

        7Breiman L. Random forests. Machine Learning,2001,45(1):5–32. [doi: 10.1023/A:1010933404324]

        8賴成光,陳曉宏,趙仕威,等. 基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型及其應(yīng)用. 水利學(xué)報(bào),2015,46(1): 58–66.

        9雷震. 隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[博士學(xué)位論文]. 上海: 上海交通大學(xué),2012.

        10馬玥,姜琦剛,孟治國(guó),等. 基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類研究. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(1): 297–303.[doi: 10.6041/j.issn.1000-1298.2016.01.040]

        11職為梅,郭華平,范明,等. 非平衡數(shù)據(jù)集分類方法探討. 計(jì)算機(jī)科學(xué),2012,39(6A): 304–308.

        12Chawla NV,Bowyer KW,Hall LO,et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research,2002,16: 321–357.

        13曹正鳳. 隨機(jī)森林算法優(yōu)化研究[博士學(xué)位論文]. 北京: 首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

        Application of the Random Forest Algorithm in Wheat Breeding Evaluation

        ZOU Yong-Pan1,2,WANG Ru-Jing1,LI Wei1

        1(Institute of Intelligent Machines,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China)
        2(University of Science and Technology of China,Hefei 230026,China)

        In order to improve the accuracy of seed selection and shorten the cultivation period of cultivars,the improved random forest algorithm is used to construct the evaluation model of the history data of wheat breeding. Before training the classifiers,the improved SMOTE algorithm is used to improve the non-balance of the training samples. After the training of the base classifiers,we test every classifier’s performance and delete bad classifiers to realize the screening of the base classifier in random forest. The experimental results show that the proposed algorithm has achieved good results in wheat germplasm evaluation,which can help to breed varieties.

        wheat breeding evaluation; imbalanced datasets; random forest; improved SMOTE

        鄒永潘,王儒敬,李偉.隨機(jī)森林算法在小麥育種輔助評(píng)價(jià)中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):181–185. http://www.c-sa.org.cn/1003-3254/6162.html

        中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDA08040110)

        2017-03-20; 修改時(shí)間: 2017-05-09; 采用時(shí)間: 2017-05-11

        猜你喜歡
        訓(xùn)練樣本分類器小麥
        主產(chǎn)區(qū)小麥?zhǔn)召?gòu)進(jìn)度過(guò)七成
        孔令讓的“小麥育種夢(mèng)”
        金橋(2021年10期)2021-11-05 07:23:28
        葉面施肥實(shí)現(xiàn)小麥畝增產(chǎn)83.8千克
        哭娃小麥
        人工智能
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        融合原始樣本和虛擬樣本的人臉識(shí)別算法
        日本精品熟妇一区二区三区| 亚洲AV专区一专区二专区三| 狠狠色噜噜狠狠狠狠97俺也去| 日韩国产有码精品一区二在线| 免费观看日本一区二区三区| 精品人妻一区二区三区在线观看| 东京热日本道免费高清| 杨幂一区二区系列在线| 亚洲精品在线国产精品| 好吊妞无缓冲视频观看| 品色永久免费| 四虎精品成人免费观看| 午夜无码熟熟妇丰满人妻| 国产女人av一级一区二区三区| 国产91传媒一区二区三区| 亚洲av无码电影在线播放| 国产乱人视频在线播放| 亚洲精品第一页国产精品| 欧美日韩高清一本大道免费| 日本在线一区二区三区四区| 中文字幕免费人成在线网站| 国产电影无码午夜在线播放| 亚洲精品字幕| 亚洲精品成人区在线观看| 欧美日韩国产色综合一二三四| 国产码欧美日韩高清综合一区| 一级一片内射视频网址| 人妻av无码一区二区三区| 中国年轻丰满女人毛茸茸| 午夜国产精品久久久久| 国内偷拍精品一区二区| 蜜臀性色av免费| 国产精品免费久久久久软件| 亚洲爆乳大丰满无码专区| 国产在线拍91揄自揄视精品91| 免费播放成人大片视频| 国产乱人偷精品人妻a片| 91精品一区国产高清在线gif| 男人天堂AV在线麻豆| 亚洲一区亚洲二区视频在线| 天天躁日日躁狠狠久久|