亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVC和過(guò)采樣的類(lèi)別非均衡農(nóng)業(yè)高光譜數(shù)據(jù)分類(lèi)

        2019-06-26 11:24:14袁培森翟肇裕任守綱顧興健徐煥良
        關(guān)鍵詞:分類(lèi)策略

        袁培森 翟肇裕 任守綱,3 顧興健 徐煥良,3

        (1.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院, 南京 210095; 2.馬德里理工大學(xué)技術(shù)工程和電信系統(tǒng)高級(jí)學(xué)院, 馬德里 28040;3.國(guó)家信息農(nóng)業(yè)工程技術(shù)中心, 南京 210095)

        0 引言

        高光譜遙感技術(shù)通過(guò)采集不同目標(biāo)反射或輻射出不同波長(zhǎng)的電磁波, 得到以像素為單位的遙感影像。高光譜圖像(Hyperspectral image)擁有豐富的光譜信息,能提供準(zhǔn)確、詳細(xì)的土地覆蓋材料描述,在農(nóng)作物長(zhǎng)勢(shì)監(jiān)測(cè)、作物養(yǎng)分監(jiān)測(cè)、水分狀況監(jiān)測(cè)、作物生長(zhǎng)參數(shù)估算、農(nóng)作物高光譜遙感識(shí)別和分類(lèi)等[1-6]方面具有廣泛的應(yīng)用。

        高光譜圖像波段多, 光譜波段覆蓋范圍廣, 包含豐富的信息, 并可結(jié)合空間信息和光譜信息,有效地反映目標(biāo)的信息。高光譜圖像分類(lèi)是高光譜遙感對(duì)地觀測(cè)研究的重要內(nèi)容,其具體任務(wù)是對(duì)高光譜圖像中的每一個(gè)像素所代表的目標(biāo)進(jìn)行有效的分類(lèi)[7-8]。而非均衡問(wèn)題是高光譜數(shù)據(jù)非常普遍的現(xiàn)象,當(dāng)數(shù)據(jù)集中類(lèi)別的比例嚴(yán)重失調(diào)時(shí),傳統(tǒng)的分類(lèi)技術(shù)對(duì)于不平衡的數(shù)據(jù)集往往不能產(chǎn)生令人滿意的結(jié)果[9]。因此非均衡高光譜數(shù)據(jù)的分類(lèi)是一個(gè)很普遍和重要的問(wèn)題[10-14]。

        處理非均衡數(shù)據(jù)分類(lèi)的主要技術(shù)包括數(shù)據(jù)采樣[15-16]、基于代價(jià)的分類(lèi)[17]等。其中,基于數(shù)據(jù)采樣技術(shù)包括過(guò)采樣和欠采樣[18]。欠采樣采用減少多類(lèi)樣本方案,但是由于高光譜圖像訓(xùn)練樣本一般較少,對(duì)采集到的高光譜圖像進(jìn)行標(biāo)記代價(jià)較高。丟失的標(biāo)類(lèi)樣本對(duì)分類(lèi)模型具有較大的影響,因此對(duì)于不均衡農(nóng)業(yè)高光譜數(shù)據(jù)導(dǎo)致的少數(shù)類(lèi)分類(lèi)質(zhì)量問(wèn)題,本文采用典型的合成少數(shù)類(lèi)的過(guò)采樣技術(shù)(Synthetic minority oversampling technique,SMOTE)[19]。

        目前,在非均衡高光譜數(shù)據(jù)集上的分類(lèi)研究,尤其是農(nóng)業(yè)高光譜數(shù)據(jù)分析方面,許多學(xué)者進(jìn)行了研究。ZHANG等[10]提出,模型學(xué)習(xí)期間使用支持向量進(jìn)行抽樣,使得訓(xùn)練數(shù)據(jù)分布均衡。GARCA等[20]使用隨機(jī)采樣和PCA技術(shù)對(duì)高光譜數(shù)據(jù)隨機(jī)采樣再降維,進(jìn)而使用決策樹(shù)來(lái)分類(lèi),分類(lèi)精度雖有所提高,但是該方法試驗(yàn)結(jié)果仍有很大的提升空間。LI等[14]提出基于正交補(bǔ)的數(shù)據(jù)子空間投影不平衡的高光譜圖像分類(lèi)技術(shù)。CHAO等[13]針對(duì)復(fù)雜高光譜圖像數(shù)據(jù)分類(lèi)中少數(shù)類(lèi)別分類(lèi)精度低的問(wèn)題,提出了一種基于MK-LSSVM的不平衡分類(lèi)方法,該方法使用K-means聚類(lèi)將多數(shù)類(lèi)劃分為不同的組,在聚類(lèi)之后使用抽樣技術(shù)平衡每個(gè)組和少數(shù)類(lèi),通過(guò)構(gòu)建MK-LSSVM分類(lèi)器對(duì)高光譜圖像進(jìn)行分類(lèi)。GRAVES等[21]通過(guò)成像光譜數(shù)據(jù)的分類(lèi)不平衡數(shù)據(jù)集繪制物種圖譜,這將有助于研究在越來(lái)越大的空間尺度上理解樹(shù)種分布。

        本文針對(duì)非均衡農(nóng)業(yè)高光譜數(shù)據(jù),采用過(guò)采樣(Oversampling)技術(shù)處理少數(shù)類(lèi)樣本數(shù)據(jù),通過(guò)對(duì)少數(shù)類(lèi)采樣個(gè)數(shù)的分析,研究少數(shù)類(lèi)樣本采樣倍率對(duì)分類(lèi)結(jié)果的影響。通過(guò)對(duì)非均衡高光譜數(shù)據(jù)采樣,使少數(shù)類(lèi)樣本盡可能均衡,進(jìn)而采用多類(lèi)分類(lèi)器——支持向量分類(lèi)(Support vector classification,SVC)進(jìn)行分類(lèi)。采用SMOTE[19]進(jìn)行過(guò)采樣少數(shù)類(lèi)樣本,研究SMOTE參數(shù)對(duì)分類(lèi)精度的影響,研究非均衡高光譜數(shù)據(jù)分類(lèi)器與模型的一致性對(duì)分類(lèi)的影響。針對(duì)高光譜數(shù)據(jù)多類(lèi)分類(lèi)問(wèn)題,采用SVC[22]有效解決不平衡高光譜圖像分類(lèi)模型的集合學(xué)習(xí)過(guò)程。

        1 非均衡數(shù)據(jù)及處理

        1.1 非均衡數(shù)據(jù)

        數(shù)據(jù)非均衡是數(shù)據(jù)挖掘等領(lǐng)域常見(jiàn)的問(wèn)題,例如信用卡欺詐數(shù)據(jù)分析[16]、疾病診斷[23]、生物信息分析[24]、高光譜數(shù)據(jù)分析[21]等。BRANCO等[25]總結(jié)了非均衡數(shù)據(jù)的問(wèn)題,并對(duì)比了相關(guān)的方法和理論,同時(shí)得出,非均衡數(shù)據(jù)中,用戶更加重視在目標(biāo)變量域的子集上的預(yù)測(cè)性能,但是與用戶更相關(guān)的樣本在訓(xùn)練中的代表性較差,進(jìn)而導(dǎo)致模型對(duì)少數(shù)類(lèi)樣本的錯(cuò)誤估計(jì)。

        1.2 過(guò)采樣

        處理不均衡數(shù)據(jù),有兩個(gè)基本方法[16-17]:改變數(shù)據(jù)分布,在數(shù)據(jù)層面使得類(lèi)別更均衡;改變分類(lèi)算法,在傳統(tǒng)分類(lèi)算法的基礎(chǔ)上對(duì)分類(lèi)器采用加權(quán)方式,使得模型對(duì)少數(shù)類(lèi)更加敏感。采樣技術(shù)簡(jiǎn)單高效,常用的采樣方法有:欠采樣、過(guò)采樣、欠采樣和過(guò)采樣綜合采樣[18]。過(guò)采樣采用增加少數(shù)類(lèi)樣本,通過(guò)設(shè)置多數(shù)類(lèi)和少數(shù)類(lèi)的比例系數(shù),在多數(shù)類(lèi)樣本不變情況下,生成指定數(shù)量的少數(shù)類(lèi)樣本,如圖1所示,圖中η為少數(shù)類(lèi)的采樣倍率。

        圖1 非均衡數(shù)據(jù)過(guò)采樣示意圖Fig.1 Illustration of unbalanced data oversampling processing

        SMOTE[19]是典型的非均衡數(shù)據(jù)過(guò)采樣技術(shù),它通過(guò)在少數(shù)樣本附近位置生成新樣本達(dá)到類(lèi)別平衡的目的,可以有效避免分類(lèi)器過(guò)擬合。其處理基本過(guò)程如下:

        (1)對(duì)少數(shù)類(lèi)中每一個(gè)樣本xi,計(jì)算它到少數(shù)類(lèi)樣本集Dr中所有樣本的歐氏距離,得到其中k個(gè)近鄰。

        (1)

        式中 rand(·)——均勻分布函數(shù)

        SMOTE通過(guò)生成新的數(shù)據(jù)集來(lái)解決少數(shù)類(lèi)分類(lèi)不平衡的問(wèn)題。假設(shè)初始數(shù)據(jù)集中少數(shù)類(lèi)樣本數(shù)為|Dr|,多數(shù)類(lèi)樣本數(shù)為|Dn|,首先增加(η-1)|Dr|個(gè)少數(shù)類(lèi)樣本,并把最初的少數(shù)類(lèi)樣本和新增的少數(shù)類(lèi)樣本都放入新的數(shù)據(jù)集中。這樣,新的數(shù)據(jù)集中少數(shù)類(lèi)樣本有η|Dr|個(gè),數(shù)據(jù)集共η|Dr|+|Dn|個(gè)樣本。

        根據(jù)少數(shù)類(lèi)選擇策略的不同,SMOTE包含 Regular、Borderline1、Borderline2和SVM這4種策略[26]。

        2 非均衡高光譜數(shù)據(jù)的多類(lèi)分類(lèi)處理

        2.1 處理過(guò)程

        非均衡農(nóng)業(yè)高光譜數(shù)據(jù)的分類(lèi)采用兩階段處理:數(shù)據(jù)預(yù)處理及過(guò)采樣,生成新的采樣數(shù)據(jù)集;采用多類(lèi)分類(lèi)器訓(xùn)練分類(lèi)模型,對(duì)少數(shù)類(lèi)分類(lèi)質(zhì)量進(jìn)行評(píng)估和參數(shù)最優(yōu)化選擇。

        采樣預(yù)處理通過(guò)對(duì)少數(shù)類(lèi)進(jìn)行過(guò)采樣使得各類(lèi)實(shí)例大致平等。通過(guò)使用過(guò)采樣,學(xué)習(xí)模型能夠極大地克服由于多數(shù)類(lèi)導(dǎo)致的模型先驗(yàn)偏差。

        高光譜數(shù)據(jù)采用最小-最大規(guī)范化(Min-max normalization)[27]對(duì)原始數(shù)據(jù)進(jìn)行線性變換,設(shè)樣本屬性A的值為v,則該規(guī)范化為

        (2)

        式中vmax——屬性A最大值

        vmin——屬性A最小值

        max——屬性A的值域最大值

        min——屬性A的值域最小值

        本文將原始數(shù)據(jù)變換到[0,1]區(qū)間,此時(shí)最大值和最小值分別為0和1。

        通過(guò)SMOTE對(duì)數(shù)據(jù)集D中指定的少數(shù)類(lèi)和采樣倍率η進(jìn)行采樣,新生成的數(shù)據(jù)集記為D′,D′=η|Dr|+|Dn|。

        2.2 高光譜多類(lèi)分類(lèi)

        由于高光譜分類(lèi)任務(wù)數(shù)據(jù)中通常包括多個(gè)類(lèi)別。主要是通過(guò)組合多個(gè)二分類(lèi)器來(lái)實(shí)現(xiàn)多分類(lèi)器的構(gòu)造[28]。一般的高光譜分類(lèi)問(wèn)題屬于多類(lèi)分類(lèi)(Multi-class classification),即將實(shí)例分類(lèi)為2個(gè)類(lèi)以上的分類(lèi)問(wèn)題。多類(lèi)分類(lèi)的假設(shè)是,每個(gè)樣本有唯一的類(lèi)標(biāo)簽。多類(lèi)分類(lèi)問(wèn)題通過(guò)采用二類(lèi)分類(lèi)算法和一定的策略完成多類(lèi)分類(lèi)任務(wù),采用的策略有Onevsall和Onevsone[28]。

        SVC[29]是基于支持向量機(jī)分類(lèi)的一種技術(shù)。對(duì)于兩類(lèi)分類(lèi)問(wèn)題,SVC問(wèn)題可以歸為以下問(wèn)題:

        給定兩類(lèi)問(wèn)題的訓(xùn)練向量xi∈Rd,i=1,2,…,n,類(lèi)標(biāo)號(hào)yi∈{-1,1},SVC問(wèn)題的求解公式為

        (3)

        式中ζi——松弛變量b——截距

        w——權(quán)重向量J——目標(biāo)函數(shù)

        C——調(diào)和系數(shù)φ——核函數(shù)

        式(3)的求解需要轉(zhuǎn)換為對(duì)偶形式,其對(duì)偶形式為

        (4)

        其中Qij=yiyjK(xi,xj)=φ(xi)Tφ(xj)

        式中e——單位向量y——類(lèi)標(biāo)號(hào)

        α——拉格朗日乘子

        αi——拉格朗日乘子

        K(xi,xj)——核函數(shù)

        Q——n×n的半正定矩陣

        Qij——Q的元素

        式(4)通過(guò)核函數(shù)φ使得訓(xùn)練向量映射到高維空間。常見(jiàn)的核函數(shù)選擇為徑向基函數(shù)(Radial basis function,RBF)[28]

        K(x1,x2)=exp(-γ‖x1-x2‖2)

        (5)

        式中γ——核的泛化能力參數(shù),γ≥0

        若γ越小則決策邊界越精簡(jiǎn),泛化能力越強(qiáng)。γ越大表示決策邊界越復(fù)雜,則泛化能力越弱。

        對(duì)于樣本x,其分類(lèi)的決策函數(shù)可以表示為

        (6)

        (7)

        式中fi——分類(lèi)器決策函數(shù)

        3 試驗(yàn)結(jié)果與分析

        3.1 試驗(yàn)數(shù)據(jù)集

        本文測(cè)試的數(shù)據(jù)集為Indian Pines,該數(shù)據(jù)集由AVIRIS傳感器在印第安納州西北部的印度松樹(shù)林采集,由145像素×145像素和224光譜反射波段組成,波長(zhǎng)范圍為4×10-7~2.5×10-6m。該數(shù)據(jù)集共包含了16類(lèi)不同的農(nóng)業(yè)對(duì)象,共標(biāo)注10 249個(gè)像素類(lèi)別,數(shù)據(jù)集真實(shí)類(lèi)及分布比例具體如表1所示。本文算法采用Python 3.6實(shí)現(xiàn)。

        本文所使用的數(shù)據(jù)集Indian Pines中類(lèi)別分布如圖2所示。從圖2可以看出,該高光譜數(shù)據(jù)集少數(shù)類(lèi)數(shù)量分布極不均衡。本文把類(lèi)別中所占比例低于3%的類(lèi)別作為少數(shù)類(lèi),其余作為多數(shù)類(lèi)。因此,該數(shù)據(jù)集中少數(shù)類(lèi)包括6個(gè):Alfalfa、Corn、Grass-pasture-mowed、 Oats、Wheat和Stone-Steel-Towers。

        3.2 參數(shù)設(shè)置

        本文參數(shù)設(shè)置如下:測(cè)試集和訓(xùn)練集的比例為3∶7。徑向基函數(shù)RBF參數(shù)γ為0.125,C為1。SMOTE參數(shù)k的范圍為3~7,默認(rèn)為6,新樣本中生成策略默認(rèn)為SVM。少數(shù)類(lèi)采樣倍率默認(rèn)為5。

        表1 Indian Pines數(shù)據(jù)集的Groundtruth類(lèi)及其樣本數(shù)Tab.1 Groundtruth class of Indian Pines dataset and its sample size

        圖2 數(shù)據(jù)集樣本類(lèi)別分布Fig.2 Illustration samples distribution of Indian Pines datasets

        3.3 分類(lèi)精度指標(biāo)

        試驗(yàn)從半監(jiān)督分類(lèi)預(yù)測(cè)結(jié)果的質(zhì)量分類(lèi)效率進(jìn)行了系統(tǒng)的研究和分析。 定義TP(True positive) 為正類(lèi)并且也被預(yù)測(cè)成正類(lèi),F(xiàn)P(False positive) 為負(fù)類(lèi)被預(yù)測(cè)成正類(lèi),TN(True negative) 為負(fù)類(lèi)被預(yù)測(cè)成負(fù)類(lèi),F(xiàn)N(False negative) 為正類(lèi)被預(yù)測(cè)成負(fù)類(lèi)。

        分類(lèi)結(jié)果從7個(gè)方面進(jìn)行度量:加權(quán)精度pw(Weight precision)、加權(quán)召回率rw(Weight recall)、加權(quán)F1度量、分類(lèi)準(zhǔn)確率Ac(Accuracy)、精度的幾何平均值GM、平衡準(zhǔn)確性指數(shù)(Index of balanced accuracy,IBA)和Kappa系數(shù)Ka。定義分別為

        (8)

        (9)

        (10)

        (11)

        式中si——第i類(lèi)的支持度

        i——高光譜數(shù)據(jù)類(lèi)別,即每一類(lèi)的真實(shí)類(lèi)出現(xiàn)次數(shù)

        ρi——第i類(lèi)的精度

        ri——第i類(lèi)的召回率

        fi——第i類(lèi)的F1度量

        GM度量用于評(píng)估不平衡分類(lèi)應(yīng)用的分類(lèi)性能。兩類(lèi)精度的幾何平均值為

        (12)

        GM在獲得兩類(lèi)精度良好平衡的同時(shí)使其最大化。

        IBA量化了兩類(lèi)準(zhǔn)確性平衡指數(shù)與選擇的無(wú)偏估計(jì)總體準(zhǔn)確性之間的權(quán)衡,計(jì)算式為

        IBAθ=[1+θ(TP-TN)]TPTN

        (13)

        IBAθ取決于用戶定義的參數(shù)θ,本文θ設(shè)置為1。

        Kappa系數(shù)[31]Ka準(zhǔn)確度指標(biāo)用于度量不平衡數(shù)據(jù)集的分類(lèi)器與模型匹配的精細(xì)化程度,公式為

        (14)

        式中po——評(píng)估者之間相對(duì)觀察到的一致意見(jiàn)的百分比

        ph——一致意見(jiàn)的預(yù)期次數(shù)

        使用觀察到的數(shù)據(jù)來(lái)計(jì)算每個(gè)觀察者隨機(jī)查看每個(gè)類(lèi)別的概率Ka∈(0,1),Ka在0.61~0.80之間表示模型具有較好的一致性[31]。

        3.4 分類(lèi)精度

        在原始數(shù)據(jù)集和采樣數(shù)據(jù)集上,對(duì)比了SVC和隨機(jī)森林(Random forest,RF)[32]在Indian Pines數(shù)據(jù)集的分類(lèi)準(zhǔn)確率。

        圖3是對(duì)Indian Pines原始數(shù)據(jù)集和采樣數(shù)據(jù)集兩個(gè)分類(lèi)方法的分類(lèi)準(zhǔn)確率。采用70%數(shù)據(jù)集訓(xùn)練模型、30%數(shù)據(jù)集作為測(cè)試集。在Indian Pines原始數(shù)據(jù)集上SVC在所有類(lèi)上的分類(lèi)準(zhǔn)確率為0.78,少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率為0.65,RF在所有類(lèi)上分類(lèi)準(zhǔn)確率為0.82,在少數(shù)類(lèi)上的分類(lèi)準(zhǔn)確率為0.38。結(jié)果表明SVC在原始數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率比RF低4.88%,但是對(duì)于少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率,SVC比RF高71.05%。因此,SVC對(duì)少數(shù)類(lèi)分類(lèi)效果優(yōu)于RF。

        圖3 Indian Pines數(shù)據(jù)集分類(lèi)精度對(duì)比Fig.3 Classification accuracy comparison of Indian Pines dataset

        對(duì)數(shù)據(jù)集中的少數(shù)類(lèi)使用SMOTE采樣之后,在采樣數(shù)據(jù)集上,SVC和RF的分類(lèi)準(zhǔn)確率有所提高,分別提高32.93%和16.46%。結(jié)果表明,SCV在少數(shù)類(lèi)上的分類(lèi)準(zhǔn)確率和提高的比例優(yōu)于RF。因此,本文采用SVC對(duì)高光譜數(shù)據(jù)進(jìn)行分類(lèi)。

        圖4是在原始數(shù)據(jù)集上使用SVC分類(lèi)的混肴矩陣,橫軸為在16個(gè)類(lèi)別上預(yù)測(cè)的類(lèi)標(biāo)號(hào),縱軸為16個(gè)真實(shí)類(lèi)標(biāo)號(hào)。從圖4可以看出,SVC在未采樣的高光譜數(shù)據(jù)集上的分類(lèi)效果不理想,尤其是對(duì)少數(shù)類(lèi)1、4、7、9這4個(gè)類(lèi)分類(lèi)精度比較低。

        圖4 原始數(shù)據(jù)集使用SVC分類(lèi)的混肴矩陣Fig.4 Confusion matrix of original imbalanced dataset with SVC

        3.5 SMOTE參數(shù)對(duì)精度的影響

        3.5.1新樣本生成策略

        SMOTE的參數(shù)k設(shè)置為6時(shí),數(shù)據(jù)集上少數(shù)類(lèi)識(shí)別準(zhǔn)確率如表2所示。從表2可以看出,SVM 策略對(duì)少數(shù)類(lèi)分類(lèi)結(jié)果的加權(quán)召回率rw、F1、GM和IBA結(jié)果較其它3個(gè)策略好。

        表2 SMOTE的4種新樣本生成策略對(duì)少數(shù)類(lèi)的影響Tab.2 Influence of new instance generating strategy of SMOTE on minority classes

        為了進(jìn)一步測(cè)試少數(shù)類(lèi)上新樣本生成策略對(duì)分類(lèi)準(zhǔn)確率的影響,在k為6時(shí),測(cè)試了少數(shù)類(lèi)分類(lèi)準(zhǔn)確率與4種新樣本生成策略的關(guān)系,結(jié)果如圖5所示。從圖5可以看出,4個(gè)策略中SVM的少數(shù)類(lèi)分類(lèi)準(zhǔn)確率最高,為0.873。

        圖5 不同生成策略時(shí)少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率Fig.5 Classification accuracy of minority classes with new instance generating strategy of SMOTE

        3.5.2參數(shù)k

        SMOTE新樣本生成策略為SVM時(shí),少數(shù)類(lèi)結(jié)果度量與參數(shù)k關(guān)系如表3所示。從表3可以看出,k為6時(shí),少數(shù)類(lèi)分類(lèi)結(jié)果在加權(quán)召回率rw、F1、GM和IBA指標(biāo)上較好。

        表3 少數(shù)類(lèi)結(jié)果度量與參數(shù)k的關(guān)系Tab.3 Classification performance of minority classes with parameters k of SMOTE

        為了進(jìn)一步測(cè)試少數(shù)類(lèi)上參數(shù)k對(duì)分類(lèi)準(zhǔn)確率的影響,在生成策略為SVM時(shí),測(cè)試了少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率與參數(shù)k的關(guān)系,結(jié)果如圖6所示。參數(shù)k的取值范圍為3~7。少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率為0.855~0.873,其中,k為6時(shí),分類(lèi)準(zhǔn)確率最高,為0.873。

        圖6 少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率與參數(shù)k的關(guān)系Fig.6 Classification accuracy of minority classes with parameters k of SMOTE

        3.5.3少數(shù)類(lèi)采樣倍率

        高光譜數(shù)據(jù)中少數(shù)類(lèi)采樣倍率η與精度、召回率和F1測(cè)試結(jié)果如圖7所示。從圖7可以看出,采用SMOTE對(duì)少數(shù)類(lèi)采樣的pw、rw和F1影響非常顯著;采樣倍率η為1~4時(shí),度量值提升幅度最大,pw、rw和F1分別提升了8.67%、30.58%和25.81%;采樣倍率為5~15時(shí),pw、rw和F1變化不明顯,結(jié)果比較穩(wěn)定,具有較好的魯棒性。

        圖7 采樣倍率η與pw、rw和F1的關(guān)系Fig.7 Relationship of precison, recall rate and F1 with sampling ratio η of SMOTE

        3.6 Kappa系數(shù)

        參數(shù)k為6時(shí),少數(shù)類(lèi)上分類(lèi)模型的Kappa系數(shù)Ka與SMOTE中新樣本生成策略的關(guān)系如圖8所示。4個(gè)生成策略中少數(shù)類(lèi)分類(lèi)的Ka變化范圍為0.768~0.829,其中,SVM策略的Kappa系數(shù)最高,為0.829。

        圖8 新樣本生成策略與Ka的關(guān)系Fig.8 Relationship of Ka of model with new instance generating strategy of SMOTE

        少數(shù)類(lèi)上的分類(lèi)模型的Ka與SMOTE中參數(shù)k關(guān)系如圖9所示。參數(shù)k的取值范圍為3~7。少數(shù)類(lèi)分類(lèi)的Ka范圍為0.803~0.829,其中,k為6時(shí),Kappa系數(shù)最高為0.829。

        從分類(lèi)模型一致性度量Ka結(jié)果可知,參數(shù)k為6時(shí),SVM策略取得最優(yōu)結(jié)果。

        3.7 試驗(yàn)對(duì)比

        表4是SMOTE參數(shù)k設(shè)置為 6,采用SVM策略時(shí),在非采樣數(shù)據(jù)集和采樣數(shù)據(jù)集上的pw、rw和F1

        圖9 參數(shù)k與Ka的關(guān)系Fig.9 Relationship of Ka of model with parameters k of SMOTE

        標(biāo)號(hào)采樣數(shù)據(jù)集原始數(shù)據(jù)集pwrwF1pwrwF110.940.960.9500040.990.820.9010.650.79710.750.8600090.820.450.58000130.920.900.910.910.810.8616111.0010.830.71

        結(jié)果。SVC分類(lèi)器采用RBF核函數(shù),各少數(shù)類(lèi)采樣的倍率η設(shè)置為8。

        表4中標(biāo)號(hào)表示的類(lèi)名與表1相同。表4結(jié)果表明,通過(guò)數(shù)據(jù)集SMOTE采樣之后,少數(shù)類(lèi)的3個(gè)分類(lèi)指標(biāo)均有大幅提升。Alfalfa、Grass-pasture-mowed、Oats 3個(gè)類(lèi)由于類(lèi)數(shù)量在原始數(shù)據(jù)集上過(guò)于稀少,非采樣集上3個(gè)指標(biāo)都為0。經(jīng)過(guò)過(guò)采樣之后,pw、rw和F1分別為0.94、0.96、0.95、1.00、0.75、0.86和0.82、0.45、0.58。Corn的pw降低了1%,但是rw和F1分別提升了26.15%和13.92%。Wheat的pw提升了1.1%,rw和F1分別提升了11.11%和5.81%,Stone-Steel-Towers的pw不變,但是rw和F1分別提升了20.48%和40.85%。

        上述結(jié)果表明,稀少的類(lèi)在非采樣數(shù)據(jù)集上,其分類(lèi)的效果較差,往往淹沒(méi)于多數(shù)類(lèi)中,經(jīng)過(guò)過(guò)采樣,其分類(lèi)的效果提升非常顯著。Alfalfa、Oats和Grass-pasture-mowed 3個(gè)類(lèi)的rw提升最顯著。

        表5是本文方法與SVO[10]及SVM[33]方法在平均分類(lèi)精度Ac和Kappa系數(shù)Ka的試驗(yàn)對(duì)比結(jié)果。本文方法在參數(shù)k設(shè)置為6、采用SVM策略時(shí),分類(lèi)的平均精度和Kappa系數(shù)相比于SVO分別提升了6.72%和3.50%,相比于SVM[33],分別提升了12.21%和3.62%。

        表5 與其他方法的準(zhǔn)確率對(duì)比Tab.5 Classification accuracy comparison with other methods

        圖10是默認(rèn)參數(shù)情況下,在采樣數(shù)據(jù)集上使用SVC分類(lèi)的混肴矩陣,橫軸為16個(gè)預(yù)測(cè)類(lèi)標(biāo)號(hào),縱軸為16個(gè)真實(shí)類(lèi)標(biāo)號(hào)。從圖10可以看出,SVC在采樣高光譜數(shù)據(jù)集上的分類(lèi)精度提升很大,對(duì)少數(shù)類(lèi)1、4、7、9、13和16分類(lèi)精度的分類(lèi)效果提升顯著。

        圖10 SMOTE采樣數(shù)據(jù)集上分類(lèi)精度混肴矩陣Fig.10 Confusion matrix of oversampling dataset with SMOTE

        4 結(jié)論

        (1)針對(duì)農(nóng)業(yè)高光譜數(shù)據(jù)的非均衡環(huán)境下少數(shù)類(lèi)分類(lèi)精度低的問(wèn)題,研究了少數(shù)類(lèi)的分類(lèi)質(zhì)量,利用過(guò)采樣技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,提升了少數(shù)類(lèi)的分類(lèi)質(zhì)量。

        (2)在高光譜數(shù)據(jù)集上進(jìn)行了試驗(yàn)驗(yàn)證,對(duì)系統(tǒng)參數(shù)進(jìn)行了試驗(yàn)和對(duì)比分析,試驗(yàn)結(jié)果表明,本文方法能夠較好地提升高光譜數(shù)據(jù)集少數(shù)類(lèi)分類(lèi)精度,pw不小于0.82,rw不小于0.45,rw提升顯著,提升幅度在11.11%~ 26.15%之間。

        猜你喜歡
        分類(lèi)策略
        分類(lèi)算一算
        垃圾分類(lèi)的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見(jiàn)策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        教你一招:數(shù)的分類(lèi)
        亚洲午夜久久久久中文字幕久| 国产精品,在线点播影院| 国产三级在线观看高清| 国产女主播一区二区三区在线观看| 91超精品碰国产在线观看| 亚洲人成77777在线播放网站| 日本丰满熟妇hd| 91综合在线| 精品久久久久久99人妻| 久久99人妖视频国产| 91日韩东京热中文字幕| 成人丝袜激情一区二区| 99香蕉国产精品偷在线观看 | AV有码在线免费看| 无遮挡中文毛片免费观看| 色婷婷精久久品蜜臀av蜜桃| 国产精品又湿又黄九九九久久嫩草| 久久久久亚洲av无码专区首| 欧美日韩亚洲国产精品| 午夜AV地址发布| 99精品国产成人一区二区在线| 久久精品亚洲成在人线av乱码| 国产产区一二三产区区别在线| 国产免费资源高清小视频在线观看 | 青春草在线视频精品| 精品熟女av中文字幕| 国产夫妇肉麻对白| 小12萝8禁在线喷水观看| 亚洲综合伊人制服丝袜美腿| 99熟妇人妻精品一区五一看片 | 欧美成人a视频免费专区| 人妻少妇被粗大爽视频| 欧美成免费a级毛片| 老男人久久青草AV高清| 大屁股流白浆一区二区| 国产精品成人观看视频国产奇米 | 亚洲av黄片一区二区| 成人av一区二区亚洲精| 亚洲av色香蕉一区二区三区| 国产成人无码免费看片软件| 中国人妻沙发上喷白将av|