亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WGAN的不均衡太赫茲光譜識(shí)別

        2021-02-03 08:03:00朱榮盛劉英莉崔向偉
        光譜學(xué)與光譜分析 2021年2期
        關(guān)鍵詞:數(shù)據(jù)分布赫茲集上

        朱榮盛,沈 韜*,劉英莉,朱 艷,崔向偉

        1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650504 2.昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504

        引 言

        太赫茲(Terahertz,THz)波是指頻率在0.1~10 THz之間的電磁波,在電磁波譜中位于微波和紅外輻射之間[1]。近年來(lái),隨著太赫茲激發(fā)及探測(cè)技術(shù)的不斷發(fā)展,目前已有一部分太赫茲產(chǎn)品在實(shí)際生活中得到運(yùn)用,并展現(xiàn)出極高的使用價(jià)值及廣闊的應(yīng)用前景[2-3]。由于許多有機(jī)分子的振動(dòng)、轉(zhuǎn)動(dòng)光譜以及分子間相互作用力落在太赫茲頻率波段,可將其作為“指紋譜”實(shí)現(xiàn)對(duì)物質(zhì)的定量定性分析[4-6];同時(shí)由于太赫茲所具有的瞬態(tài)性、低能性和相干性等特征,使其在光譜識(shí)別[7,8]和成像領(lǐng)域[9-10]得到飛速發(fā)展。

        通過(guò)實(shí)驗(yàn)獲取到的太赫茲光譜數(shù)據(jù)庫(kù)存在數(shù)據(jù)規(guī)模不匹配問(wèn)題,而標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)方法在不均衡數(shù)據(jù)集中表現(xiàn)不佳,影響太赫茲光譜數(shù)據(jù)的識(shí)別準(zhǔn)確率[11]。2014年,劉進(jìn)軍[12]提出基于懲罰機(jī)制的PFKSVM方法來(lái)克服K-SVM在最佳分類(lèi)表面附近易于分類(lèi)錯(cuò)誤,并使用UCI公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證其方法在處理不均衡數(shù)據(jù)集中的優(yōu)勢(shì)。2019年,Tao等[13]提出了一種過(guò)采樣技術(shù),該技術(shù)使用實(shí)值否定選擇(RNS)來(lái)生成人為的少數(shù)類(lèi)數(shù)據(jù),并將生成的少數(shù)類(lèi)數(shù)據(jù)與多數(shù)類(lèi)組合作為輸出。但是,這些方法在太赫茲領(lǐng)域解決數(shù)據(jù)不均衡問(wèn)題時(shí)并未考慮太赫茲光譜所反映材料的物理和化學(xué)性質(zhì)。針對(duì)這一問(wèn)題,本文提出了一種基于WGAN的不均衡太赫茲光譜識(shí)別方法來(lái)解決太赫茲光譜數(shù)據(jù)不均衡問(wèn)題。

        Wasserstein GAN是Arjovsky等[14]在2017年提出的一種改進(jìn)GAN模型的新框架,該方法通過(guò)生成器與判別器的相互博弈產(chǎn)生以假亂真的數(shù)據(jù),生成數(shù)據(jù)符合真實(shí)數(shù)據(jù)分布,并且能有效增加數(shù)據(jù)量。針對(duì)目前太赫茲光譜數(shù)據(jù)庫(kù)中各物質(zhì)數(shù)據(jù)量不均衡問(wèn)題,本文提出一種基于WGAN的不均衡太赫茲光譜識(shí)別方法。首先利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)真實(shí)太赫茲光譜數(shù)據(jù)分布,在WGAN達(dá)到納什均衡后用生成數(shù)據(jù)擴(kuò)展太赫茲光譜數(shù)據(jù)集,使之達(dá)到類(lèi)別均衡,最后采用多分類(lèi)支持向量機(jī)對(duì)太赫茲光譜數(shù)據(jù)進(jìn)行分類(lèi)識(shí)別。

        1 基于WGAN的太赫茲光譜識(shí)別方法

        1.1 基礎(chǔ)理論

        太赫茲光譜數(shù)據(jù)為實(shí)數(shù)值,采用GAN訓(xùn)練數(shù)據(jù),模型會(huì)出現(xiàn)梯度不穩(wěn)定和多樣性不足等問(wèn)題[14]。針對(duì)這些問(wèn)題,將Wasserstein距離作為生成對(duì)抗網(wǎng)絡(luò)的衡量指標(biāo),定義如式(1)

        (1)

        通過(guò)Kantorovich-Rubinstein對(duì)偶原理可得變換公式

        W(P1,P2)=sup‖f‖L≤1Ex~P1[f(x)]-Ex~P2[(f(x))]

        (2)

        1.2 模型結(jié)構(gòu)

        生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)是Goodfellow等[15]在2014年提出的一種概率生成模型,通過(guò)對(duì)抗過(guò)程估計(jì)生成模型的新框架。生成對(duì)抗網(wǎng)絡(luò)由兩個(gè)模型構(gòu)成,生成模型G和判別模型D,隨機(jī)噪聲z通過(guò)生成模型G生成盡量服從真實(shí)數(shù)據(jù)分布pdata(x)的樣本G(z)。

        判別模型D是一個(gè)判別式網(wǎng)絡(luò),判定接收到的樣本是否是來(lái)自pdata(x),因此有

        Ex~pdata(x)[log(D(x))]

        (3)

        其中E指代期望,通過(guò)根據(jù)正類(lèi)(即判別出x屬于真實(shí)數(shù)據(jù)data)的對(duì)數(shù)函數(shù)構(gòu)建。

        生成器D通過(guò)訓(xùn)練不斷提高欺騙判別器的概率,通過(guò)根據(jù)負(fù)類(lèi)的對(duì)數(shù)函數(shù)構(gòu)建,即

        Ez~pz(z)[log(1-D(G(z)))]

        (4)

        生成對(duì)抗網(wǎng)絡(luò)的本質(zhì)是二元零和博弈問(wèn)題,即通過(guò)生成器不斷優(yōu)化生成函數(shù)與判別器不斷優(yōu)化判別網(wǎng)絡(luò)來(lái)達(dá)到最優(yōu)狀態(tài),即

        Ez~pz(z)[log(1-D(G(z)))]

        (5)

        生成對(duì)抗網(wǎng)絡(luò)給出了一種生成數(shù)據(jù)的新形式,即可通過(guò)對(duì)抗性學(xué)習(xí)模擬真實(shí)數(shù)據(jù)分布。而物質(zhì)的太赫茲光譜數(shù)據(jù)為實(shí)數(shù)值,將JS散度作為衡量值并不能很好的評(píng)估距離,因此通過(guò)使用Wasserstein距離來(lái)衡量生成部分和真實(shí)數(shù)據(jù)分布之間的距離,解決了生成對(duì)抗網(wǎng)絡(luò)在生成太赫茲光譜數(shù)據(jù)時(shí)訓(xùn)練過(guò)程不穩(wěn)定,模型優(yōu)化困難等問(wèn)題。

        2 實(shí)驗(yàn)部分

        實(shí)驗(yàn)以麥芽三糖(Maltotriose)、麥芽六糖(Malthexaose)和麥芽七糖(Maltoheptaose)在0.9~6 THz內(nèi)的太赫茲透射光譜為例。首先通過(guò)S-G濾波對(duì)光譜數(shù)據(jù)進(jìn)行濾波處理,然后通過(guò)三次樣條插值獲得相同的數(shù)據(jù)點(diǎn)。隨機(jī)選擇三種物質(zhì)預(yù)處理后的各一條太赫茲光譜數(shù)據(jù)曲線,如圖1所示。

        圖1 三種物質(zhì)的太赫茲光譜Fig.1 Terahertz spectra of three substances

        為了驗(yàn)證該方法的有效性,我們首先使用WGAN生成數(shù)據(jù),將物質(zhì)的光譜數(shù)據(jù)輸入到WGAN模型中。其次,生成模型G根據(jù)輸入數(shù)據(jù)的維度輸出與測(cè)試數(shù)據(jù)相同維度的隨機(jī)數(shù)。最后,判別模型D判別接收到的數(shù)據(jù)是否為太赫茲頻譜數(shù)據(jù)。當(dāng)判別模型D無(wú)法識(shí)別接收到的數(shù)據(jù)是真實(shí)數(shù)據(jù)還是生成數(shù)據(jù)時(shí),該模型達(dá)到納什均衡。以Maltotriose為例,根據(jù)真實(shí)太赫茲光譜數(shù)據(jù)生成數(shù)據(jù)。在實(shí)驗(yàn)設(shè)置中,設(shè)置最大迭代次數(shù)300 000次,每迭代1 000次模型保存一次數(shù)據(jù)。隨機(jī)選取5種不同迭代次數(shù)圖,如圖2所示。當(dāng)?shù)螖?shù)為1 000輪和5 000輪時(shí),生成的數(shù)據(jù)僅為隨機(jī)噪聲。隨著迭代次數(shù)的增加,生成器不斷學(xué)習(xí)。當(dāng)模型迭代次數(shù)達(dá)到100 000輪時(shí),生成數(shù)據(jù)逐漸類(lèi)似于真實(shí)數(shù)據(jù)分布,當(dāng)達(dá)到200 000輪時(shí),WGAN模型所輸出的生成數(shù)據(jù)分布基本符合真實(shí)Maltotriose數(shù)據(jù)分布。在對(duì)Maltotriose進(jìn)行擴(kuò)展數(shù)據(jù)時(shí),選取迭代200 000輪后的生成數(shù)據(jù)。

        圖2 不同迭代次數(shù)下WGAN的生成數(shù)據(jù)圖(a):原始數(shù)據(jù);(b),(c),(d),(e),(f)分別代表迭代1 000輪,5 000輪、10 000輪、100 000輪和200 000輪后的生成數(shù)據(jù)Fig.2 WGAN generated data graphs under different iterations(a) is the original data;(b),(c),(d),(e),and (f) respectively represent the generated data after 1 000 iterations,5 000 rounds,10 000 rounds,100 000 rounds,and 200 000 rounds

        為了驗(yàn)證WGAN處理不均衡數(shù)據(jù)集的效果,將三種不均衡物質(zhì)的數(shù)據(jù)組成數(shù)據(jù)集Database1,經(jīng)WGAN擴(kuò)展后的均衡數(shù)據(jù)集為Database2。數(shù)據(jù)集中各物質(zhì)光譜數(shù)據(jù)如下:(1)Database1:在數(shù)據(jù)庫(kù)中隨機(jī)抽100條Maltotriose數(shù)據(jù)、900條Malthexaose數(shù)據(jù)和8100條Maltoheptaose數(shù)據(jù)。(2)Database2:使用WGAN生成的數(shù)據(jù)將Database1中每種物質(zhì)的數(shù)據(jù)補(bǔ)充為8 100條。在數(shù)據(jù)庫(kù)中隨機(jī)抽取每種物質(zhì)2 700條數(shù)據(jù)作為測(cè)試集。

        3 結(jié)果與討論

        數(shù)據(jù)集不均衡會(huì)對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)模型系統(tǒng)產(chǎn)生負(fù)面影響。為了緩解此問(wèn)題,將WGAN用于生成太赫茲光譜數(shù)據(jù),以便使太赫茲光譜數(shù)據(jù)集達(dá)到類(lèi)別均衡。實(shí)驗(yàn)證明,使用WGAN生成數(shù)據(jù)并擴(kuò)展數(shù)據(jù)集,能夠有效解決小樣本數(shù)據(jù)偏向大樣本數(shù)據(jù)問(wèn)題。表1和表2分別為SVM模型在Dataset1和Dataset2數(shù)據(jù)集下訓(xùn)練后測(cè)試集的混淆矩陣。

        表1 使用Database1訓(xùn)練模型后測(cè)試集的混淆矩陣Table 1 Confusion matrix of test database after training model with Database1

        從表1可以看出,Maltotriose和Malthexaose都出現(xiàn)被預(yù)測(cè)為Maltoheptaose的現(xiàn)象,其中Maltotriose最為明顯。但是沒(méi)有大量Maltoheptaose被預(yù)測(cè)為其他兩種數(shù)據(jù)的現(xiàn)象。

        表2相比于表1,在數(shù)據(jù)預(yù)測(cè)偏向上得到改善,每種數(shù)據(jù)的偏向現(xiàn)象并不明顯,其中,Maltotriose和Malthexaose并沒(méi)有大規(guī)模偏向Maltoheptaose。根據(jù)表1,使用Dataset1進(jìn)行SVM訓(xùn)練的模型測(cè)試集的預(yù)測(cè)準(zhǔn)確性?xún)H為65.69%。但是,當(dāng)使用Database2訓(xùn)練SVM時(shí),模型精度提高到91.54%,均衡數(shù)據(jù)集上SVM的識(shí)別準(zhǔn)確率比不均衡數(shù)據(jù)集提高25.85%。為了證明WGAN在處理不均衡太赫茲光譜數(shù)據(jù)上的優(yōu)越性,將WGAN與其他處理不均衡數(shù)據(jù)集的方法進(jìn)行了比較,并以驗(yàn)證集的準(zhǔn)確性作為度量。表3為不同不均衡數(shù)據(jù)集處理方法的準(zhǔn)確率對(duì)比。

        表2 使用Database2訓(xùn)練模型后測(cè)試集的混淆矩陣Table 2 Confusion matrix of test database after training model with Database2

        表3 不同算法下數(shù)據(jù)集的準(zhǔn)確性對(duì)比Table 3 Comparison of the accuracy of the dataset under different algorithms

        由表3可知,4種分類(lèi)算法在dataset-1數(shù)據(jù)集上的訓(xùn)練集及驗(yàn)證集的準(zhǔn)確率都能達(dá)到80%以上。雖然未采用擴(kuò)展數(shù)據(jù)的SVM模型能在訓(xùn)練集和驗(yàn)證集上得到良好的識(shí)別準(zhǔn)確率,但是在測(cè)試集上由于不均衡數(shù)據(jù)固有的缺點(diǎn),導(dǎo)致識(shí)別準(zhǔn)確率很差。SVM-COPY和FWSVM的測(cè)試集準(zhǔn)確率都在85%左右,這兩種方式是現(xiàn)階段比較流行的處理不均衡數(shù)據(jù)集的方法,但是由于并沒(méi)有在數(shù)據(jù)集中增加有效的太赫茲光譜數(shù)據(jù),所以測(cè)試集上的識(shí)別效果不是太理想。因此,利用WGAN模型能夠有效的生成太赫茲光譜數(shù)據(jù),同時(shí)又能保證模型識(shí)別準(zhǔn)確率。

        不均衡度也是影響不均衡數(shù)據(jù)分類(lèi)識(shí)別準(zhǔn)確率的因素之一,為了驗(yàn)證WGAN在不同不均衡度下的有效性,將不均衡度為16,81和256的數(shù)據(jù)集分別組成Imbalance1,Imbalance2和Imbalance3數(shù)據(jù)集,通過(guò)WGAN擴(kuò)展后的數(shù)據(jù)集為Imbalance1_WGAN,Imbalance2_WGAN和Imbalance3_WGAN數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,不均衡度對(duì)測(cè)試集影響較大,隨著不均衡度的增加,測(cè)試集整體識(shí)別率呈現(xiàn)下降趨勢(shì)。通過(guò)使用WGAN擴(kuò)展數(shù)據(jù)集后,可以有效改善這一現(xiàn)象。表4為不同不均衡度下的識(shí)別率對(duì)比。

        表4 不同不平衡度下訓(xùn)練集和測(cè)試集的準(zhǔn)確率對(duì)比Table 4 Compares the accuracy of the training set and test set of the dataset under different unbalance

        4 結(jié) 論

        針對(duì)太赫茲光譜數(shù)據(jù)庫(kù)中不均衡數(shù)據(jù)的分類(lèi)問(wèn)題,提出一種基于WGAN的太赫茲光譜識(shí)別方法。利用生成對(duì)抗網(wǎng)絡(luò)生成符合真實(shí)太赫茲光譜數(shù)據(jù)分布的生成數(shù)據(jù),擴(kuò)充太赫茲數(shù)據(jù)集,解決類(lèi)別不均衡問(wèn)題。相比于傳統(tǒng)方法,該方法能自動(dòng)從真實(shí)數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)分布并生成數(shù)據(jù)。不僅能有效擴(kuò)充太赫茲光譜數(shù)據(jù)庫(kù),并且有較高的識(shí)別率。由于基于生成對(duì)抗網(wǎng)絡(luò)的太赫茲光譜識(shí)別方法可與多種機(jī)器學(xué)習(xí)方法相結(jié)合,并能適應(yīng)不同不均衡度的要求,所以在未來(lái)實(shí)際應(yīng)用中有廣闊的前景。

        猜你喜歡
        數(shù)據(jù)分布赫茲集上
        改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        基于雙頻聯(lián)合處理的太赫茲InISAR成像方法
        太赫茲低頻段隨機(jī)粗糙金屬板散射特性研究
        太赫茲信息超材料與超表面
        復(fù)扇形指標(biāo)集上的分布混沌
        一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
        試論大數(shù)據(jù)之“大”
        對(duì)數(shù)據(jù)分布特征測(cè)度的分析
        亚洲精品国产第一综合色吧| 国产v精品成人免费视频400条| 一亚洲一区二区中文字幕| 日本在线观看不卡一区二区| 亚洲av无码av在线播放| 极品粉嫩嫩模大尺度无码| 亚洲精品久久中文字幕| 亚洲男人的天堂精品一区二区| 亚洲一区二区三区一区| 国产精品久久久三级18| 老熟妇仑乱视频一区二区| 日韩AV无码一区二区三| 国产av熟女一区二区三区蜜臀 | 国产免费一区二区三区精品视频 | 国产欧美亚洲精品第二区首页| 日本女优久久精品久久| 国产午夜精品av一区二区麻豆 | 国产精品人人做人人爽人人添| 国产成人综合亚洲看片| 国产成人无码一二三区视频| 网红极品女神精品视频在线| 久久av粉嫩一区二区| 国产又粗又黄又爽的大片| 五月天丁香久久| 国产白浆流出一区二区| 国产亚洲精品久久午夜玫瑰园 | 国产AV无码专区久久精品网站| 国产黄色污一区二区三区| 人妻久久一区二区三区蜜桃| 麻豆果冻传媒在线观看| 国产无码十八禁| 日本午夜理伦三级好看| 亚洲一区二区三区少妇| 中文字幕亚洲乱码熟女在线| 亚洲Va中文字幕久久无码一区| 按摩偷拍一区二区三区| 丰满大爆乳波霸奶| 18禁美女裸体网站无遮挡| 国产亚洲亚洲精品视频| 日本不卡高字幕在线2019| 人人添人人澡人人澡人人人人|