劉言林
(安徽三聯(lián)學(xué)院 電子電氣工程學(xué)院,安徽 合肥 230601)
數(shù)據(jù)處理工作是現(xiàn)代人們工作和生活中的一個重要內(nèi)容,人們在使用計算機或智能終端時,會產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)中包含大量高維數(shù)據(jù),在處理這些高維數(shù)據(jù)時,將面對數(shù)據(jù)量大和計算復(fù)雜的問題,限制了很多數(shù)據(jù)處理技術(shù)的發(fā)揮[1-3].特別是為了向用戶提供更好更及時的信息化服務(wù),在服務(wù)的智能化設(shè)計中使用了機器學(xué)習(xí)技術(shù),在高維數(shù)據(jù)爆發(fā)的情況下,小樣本問題比較突出,數(shù)據(jù)處理非常困難[4].
針對上述描述的情況,目前對數(shù)據(jù)處理技術(shù)的研究,國內(nèi)外已經(jīng)有很多成熟的技術(shù),研究比較多的是數(shù)據(jù)處理算法,數(shù)據(jù)處理算法與其他數(shù)據(jù)處理技術(shù)相比,不需要額外的硬件嵌入,也不需要加入其他的軟件內(nèi)容,可以直接加載使用,在一定程度上減小了數(shù)據(jù)處理成本的投入[5-7].但是在使用過程中,受到數(shù)據(jù)自身特性的影響,部分數(shù)據(jù)處理算法存在一些問題.如文獻[8]中提到的基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法,使用物聯(lián)網(wǎng)技術(shù)提高了數(shù)據(jù)處理的速度和反饋速度,但是面對具有不平衡特質(zhì)的高維數(shù)據(jù),處理效果非常不理想,整理泛化能力比較差.文獻[9]設(shè)計的基于智能優(yōu)化算法的數(shù)據(jù)處理算法存在同樣的問題,該算法利用OpenMP應(yīng)用程序接口實現(xiàn)了數(shù)據(jù)處理的并行化,并設(shè)計了針對并行化處理的優(yōu)化策略,降低了數(shù)據(jù)處理的計算復(fù)雜度,但是在實際處理數(shù)據(jù)的算法中,數(shù)據(jù)不平穩(wěn)問題并沒有得到解決,數(shù)據(jù)處理算法的泛化能力需要進一步加強.因此,將條件生成對抗網(wǎng)絡(luò)應(yīng)用到小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法的設(shè)計中,以解決上述常規(guī)的數(shù)據(jù)處理算法中存在的問題.
在條件生成對抗網(wǎng)絡(luò)下,小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法的具體步驟如下.
步驟1 將小樣本機器學(xué)習(xí)數(shù)據(jù)映射到Hibert空間內(nèi);
步驟2 將數(shù)據(jù)特征提取問題轉(zhuǎn)化為線性求解問題,計算空間內(nèi)數(shù)據(jù)各個投影方向的線性標出,得到相應(yīng)的樣本特征值,由對應(yīng)的特征向量構(gòu)成特征矩陣,得到樣本數(shù)據(jù)特征矩陣;
步驟3 在不平衡的狀態(tài)下,適當調(diào)整信息熵,直到相對熵達到設(shè)定的平衡目標,計算各個樣本數(shù)據(jù)特征矩陣的信息熵和互信息,根據(jù)互信息計算結(jié)果調(diào)整目標的相對熵,使數(shù)據(jù)達到平衡;
步驟4 將處理后的數(shù)據(jù)輸入到條件生成對抗網(wǎng)絡(luò)中,以數(shù)據(jù)處理目標作為目標函數(shù),判別器達到最優(yōu)結(jié)果,在給定網(wǎng)絡(luò)最優(yōu)判別器的條件下,輸出最優(yōu)結(jié)果,完成小樣本機器學(xué)習(xí)數(shù)據(jù)處理.
假設(shè)在小樣本空間內(nèi)存在任意集合Q,定義Q上存在Hibert空間H,由復(fù)值函數(shù)構(gòu)成,對于任意一個q∈Q,在H空間內(nèi)的映射結(jié)果是連續(xù)的[10].默認?q∈Q,在H空間內(nèi)存在唯一的元素Sq,同時Sq也是H空間的復(fù)值函數(shù),由此可知
(1)
公式(1)中的二元函數(shù)是H空間內(nèi)的唯一再生核,從這一計算結(jié)果可知,每一個小樣本空間內(nèi)的再生核都有唯一的空間與其相對應(yīng)[11].由此確定小樣本空間內(nèi)元素再生核的函數(shù)值,表示為
S(x,y)=S(y,x)=
(2)
利用上述再生核理論,將小樣本機器學(xué)習(xí)數(shù)據(jù)q1,q2,…,qn映射到H空間內(nèi),得到數(shù)據(jù)φ(q1),φ(q2),…,φ(qn),在此空間下,將特征提取轉(zhuǎn)變?yōu)榍蠼庾顑?yōu)化問題.
(3)
(4)
公式(4)中,a′表示投影方向轉(zhuǎn)置,DB和DW表示變換后的類間散布和類內(nèi)散布,uj表示總均值,vi表示第i類均值[12].將樣本整體均值變換為
(5)
根據(jù)上述計算公式,得到相應(yīng)的樣本特征值,由對應(yīng)的特征向量構(gòu)成特征矩陣,用于后續(xù)計算數(shù)據(jù)相對熵.
數(shù)據(jù)處理中需要處理不平衡數(shù)據(jù),計算數(shù)據(jù)特征相對熵,根據(jù)相對熵的變化,平衡小樣本數(shù)據(jù)類[13-14].默認計算得到的特征矩陣X的概率分布為p(x),X∈Ω,Ω是有限集合,將X的信息熵定義為
(6)
設(shè)兩個不同類的特征矩陣X和Y的聯(lián)合概率分布為p(x,y),則X和Y的互信息為
(7)
公式中,p(x)和p(y)分別表示X和Y的邊緣概率.互信息的計算有助于了解目標數(shù)據(jù)的信息量減少了多少,從而調(diào)整數(shù)據(jù)的信息熵,計算兩者的相互熵,調(diào)整數(shù)據(jù)間的平衡水平.相對熵的計算公式為
(8)
用相對熵衡量隨機X和Y的平衡性,在不平衡的狀態(tài)下,適當調(diào)整信息熵,直到相對熵達到設(shè)定的平衡目標,再將數(shù)據(jù)輸入到條件生成對抗網(wǎng)絡(luò)中,實現(xiàn)小樣本機器學(xué)習(xí)數(shù)據(jù)處理.
在數(shù)據(jù)處理時,給定條件生成對抗網(wǎng)絡(luò)T,對應(yīng)的最優(yōu)判別器為Z,數(shù)據(jù)處理完成的標志是判別器Z達到最優(yōu)結(jié)果,輸出如下內(nèi)容
(9)
公式(9)中,hdata(x)表示網(wǎng)絡(luò)中數(shù)據(jù)處理前最小化真實分布,ht(x)表示條件生成對抗網(wǎng)絡(luò)生成數(shù)據(jù)分布,將兩者之間的散度JS作為與數(shù)據(jù)處理目標等價的目標函數(shù),表示為
(10)
在給定網(wǎng)絡(luò)最優(yōu)判別器的條件下,求解公式(10),在生成數(shù)據(jù)內(nèi)容與原始數(shù)據(jù)內(nèi)容基本一致的情況下,實現(xiàn)對小樣本機器學(xué)習(xí)數(shù)據(jù)的處理.具體流程圖如圖1所示.
圖1 小樣本機器學(xué)習(xí)數(shù)據(jù)處理流程圖
在小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法實驗研究中,從公共數(shù)據(jù)集UCI中[15]選取四個數(shù)據(jù)集作為目標,分別是Iris數(shù)據(jù)集,內(nèi)含樣本數(shù)量為75;Sonar數(shù)據(jù)集,內(nèi)含樣本數(shù)量100;Ionosphere數(shù)據(jù)集,內(nèi)含樣本數(shù)量202;Wine數(shù)據(jù)集,內(nèi)含數(shù)據(jù)集89.
以上述數(shù)據(jù)作為基礎(chǔ),通過所研究的小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法對數(shù)據(jù)尋優(yōu)處理.在實驗前,將參數(shù)信息中的第一維數(shù)據(jù)轉(zhuǎn)換為整數(shù),設(shè)置附近的近鄰參數(shù).在設(shè)置完成后,在數(shù)據(jù)集上執(zhí)行設(shè)計的數(shù)據(jù)處理算法.具體實驗步驟如下所示.
步驟1 設(shè)小樣本機器學(xué)習(xí)數(shù)據(jù)初始權(quán)值矢量為隨機獲取;
步驟2 通過公式(10)對判別器達到最優(yōu)的結(jié)果更新;
步驟3 根據(jù)更新結(jié)果進行歸一化處理;
步驟4 基于條件生成對抗網(wǎng)絡(luò),若實現(xiàn)小樣本機器學(xué)習(xí)數(shù)據(jù)處理,則算法停止收斂;若未實現(xiàn),則跳轉(zhuǎn)回步驟二繼續(xù)執(zhí)行,直至處理出一個獨立分量后結(jié)束收斂.
根據(jù)上述過程,得到的結(jié)果如圖2所示.
圖2 數(shù)據(jù)處理算法在Wine數(shù)據(jù)集的參數(shù)尋優(yōu)結(jié)果
從圖2中可以看出,在8-30、32-83輪迭代時,算法陷入了局部最優(yōu)的情況,但是由于數(shù)據(jù)處理算法在設(shè)計中優(yōu)化了數(shù)據(jù)不平衡問題,使得小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法在一定程度上可以脫離局部最優(yōu),實現(xiàn)全局最優(yōu)解.因此基于條件生成對抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法在實際應(yīng)用中具有較高水平的可行性.為了進一步說明數(shù)據(jù)處理算法的全局最優(yōu)性,設(shè)計兩組對比實驗,實驗?zāi)繕藶樵O(shè)計的數(shù)據(jù)處理算法、常規(guī)的基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法以及基于智能優(yōu)化算法的數(shù)據(jù)處理算法,通過數(shù)據(jù)分類實驗和AUC曲線分析數(shù)據(jù)處理算法的泛化能力.
根據(jù)圖3中可知,人工不平衡數(shù)據(jù)集中正樣本和負樣本數(shù)據(jù)之間的不平衡性對比明顯,并且數(shù)據(jù)在二維空間上的分布趨向于橢圓形,說明實驗數(shù)據(jù)集是從標準高斯分布變換而來的.在以往的研究中,不平衡數(shù)據(jù)會對數(shù)據(jù)處理算法產(chǎn)生負面影響,處理效果會變差.在實驗中,控制正負樣本比例,對產(chǎn)生的數(shù)據(jù)集進行學(xué)習(xí),利用本文算法、文獻[8]基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法以及文獻[9]基于智能優(yōu)化的數(shù)據(jù)處理算法,得到ROC曲線對比結(jié)果,如圖4所示.
圖3 人工不平衡數(shù)據(jù)集圖4 不同數(shù)據(jù)處理算法數(shù)據(jù)分類實驗結(jié)果
圖4中顯示的橫坐標FP-rate和縱坐標TP-rate分別表示分類錯誤的負樣本和正樣本在總樣本內(nèi)的占比.觀察圖中顯示的ROC曲線可知,三組實驗結(jié)果中,曲線c與FP-rate軸圍成的面積最大,曲線a與FP-rate軸圍城的面積最小,經(jīng)過計算可知,基于智能優(yōu)化算法的數(shù)據(jù)處理算法AUC值為0.9037,基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法的AUC值為0.8347,提出的數(shù)據(jù)處理算法的AUC值為0.9545,在數(shù)據(jù)分類中,AUC值越高說明數(shù)據(jù)處理算法的數(shù)據(jù)分類效果越好.
為了進一步驗證提出的數(shù)據(jù)處理算法的真實水平,調(diào)整正負樣本的比例,計算各個數(shù)據(jù)處理算法的AUC值,依據(jù)計算結(jié)果對比分析各個數(shù)據(jù)處理算法的實際性能.得到的計算結(jié)果如表1所示.
通過表1中顯示的數(shù)據(jù)可知,隨著正負樣本比例的增加,數(shù)據(jù)處理算法的AUC值越來越低,說明分類效果越來越差.相比之下,設(shè)計的基于條件生成對抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法在不同的正負樣本比例條件下,AUC值較高,變化比較小.將以上計算結(jié)果與各個算法的ROC曲線變化結(jié)合在一起分析可知,設(shè)計的基于條件生成對抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法數(shù)據(jù)分類效果更好.
表1 不同數(shù)據(jù)處理算法的AUC指標
從上述實驗結(jié)果中可以看出,提出的數(shù)據(jù)處理算法針對小樣本不平衡數(shù)據(jù),分類處理效果更好.基于此內(nèi)容,通過可視化技術(shù)將經(jīng)過數(shù)據(jù)處理算法處理后的數(shù)據(jù)展示出來,數(shù)據(jù)平衡實驗對比結(jié)果如圖5所示.
圖5 不同數(shù)據(jù)處理算法的數(shù)據(jù)平衡實驗結(jié)果
從圖5中可以看出,圖5(a)中負樣本分割明顯,但正樣本數(shù)據(jù)分布在負樣本周圍數(shù)據(jù)交叉融合在一起,數(shù)據(jù)明顯不平衡;圖5(b)中實驗結(jié)果顯示,負樣本數(shù)據(jù)與正樣本數(shù)據(jù)雜糅在一起,沒有明顯的界線,數(shù)據(jù)平衡性差;圖5(c)中實驗結(jié)果顯示,正負樣本分割明顯,并且簇形式明顯,數(shù)據(jù)平衡性好.綜上所述,設(shè)計的基于條件生成對抗網(wǎng)絡(luò)的小樣本機器學(xué)習(xí)數(shù)據(jù)處理算法數(shù)據(jù)分類效果好,數(shù)據(jù)平衡化處理效果好,整體泛化能力優(yōu)于常規(guī)的數(shù)據(jù)處理算法.
本文以小樣本機器學(xué)習(xí)數(shù)據(jù)作為研究目標,在條件生成對抗網(wǎng)絡(luò)的支持下,設(shè)計針對小樣本機器學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)處理算法.在該算法設(shè)計中,主要針對算法的泛化能力進行優(yōu)化設(shè)計,在設(shè)計完成后,以常規(guī)的數(shù)據(jù)處理算法作為參考,經(jīng)過大量對比實驗的驗證,證明了基于條件生成對抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法具有非常好的泛化能力,為小樣本機器學(xué)習(xí)數(shù)據(jù)處理提供了一定的技術(shù)支持和理論支持.但是,在實驗研究過程中,并沒有對條件生成對抗網(wǎng)絡(luò)的應(yīng)用情況進行驗證,無法確定條件生成對抗網(wǎng)絡(luò)在數(shù)據(jù)處理中發(fā)揮的水平,在后續(xù)研究中,將從這一方面展開研究,從條件生成對抗網(wǎng)絡(luò)的優(yōu)化和技術(shù)更新入手,進一步完善數(shù)據(jù)處理算法.