魏世超,李 歆,張宜弛,周曉鋒,李 帥
1.中國科學(xué)院 沈陽自動化研究所,沈陽110016
2.中國科學(xué)院大學(xué),北京100049
3.中國科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽110016
4.中國科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽110016
現(xiàn)實(shí)生活中的大量數(shù)據(jù)通常包含可能對決策者有用的隱藏模式,但這些數(shù)據(jù)通常維度較高。例如,在入侵檢測、欺詐檢測、醫(yī)療分析領(lǐng)域[1]的數(shù)據(jù),通常包含數(shù)百維。模式識別、圖像處理[2]領(lǐng)域的數(shù)據(jù)通常包含上千個特征。現(xiàn)實(shí)數(shù)據(jù)高維特性的存在帶來了計(jì)算成本增加、維度災(zāi)難[3]等問題,不利于對數(shù)據(jù)的理解分析。解決數(shù)據(jù)高維特性問題的一種方法是降維,即尋求減少數(shù)據(jù)特征數(shù)量的技術(shù)。
眾多研究者提出了多種降維技術(shù)。一種是基于特征選擇的方法,根據(jù)一些標(biāo)準(zhǔn)選擇原始特征的子集[4]。Danubianu 等人[5]提出了一種應(yīng)用相關(guān)性的篩選器來尋找相關(guān)特征的特征選擇方法。另一種降維技術(shù)是基于特征變換的方法,通過指定的變換函數(shù)將高維數(shù)據(jù)映射到低維空間。與特征選擇方法不同,生成的特征集不是原始特征的子集,而是根據(jù)原始特征新創(chuàng)建的。目前基于特征變換的降維方法主要有主成分分析(PCA)[6]、局部線性嵌入(LLE)[7]、等距映射(Isomap)[8]、局部切空間排列(LTSA)[9]、隨機(jī)近鄰嵌入(t-SNE)[10]、拉普拉斯特征映射(LE)[11]等。這些方法已經(jīng)被應(yīng)用于多個領(lǐng)域。Jamieson等人[12]將拉普拉斯特征映射和t-SNE應(yīng)用于計(jì)算機(jī)提取的乳腺癌特征空間中,對醫(yī)學(xué)圖像映射進(jìn)行分類和可視化檢查。Garces等人[13]運(yùn)用t-SNE將不同風(fēng)格的剪切畫可視化。Liu等人[14]采用LLE對腫瘤基因表達(dá)數(shù)據(jù)進(jìn)行降維。
以往研究的不足之處在于研究都是在數(shù)值數(shù)據(jù)的背景下進(jìn)行的。然而大多數(shù)真實(shí)世界的數(shù)據(jù)集同時包含分類屬性和數(shù)值屬性。例如,信用系統(tǒng)的數(shù)據(jù)包括年齡、年薪、儲蓄金額等數(shù)值屬性,以及教育背景、職業(yè)、婚姻狀況等分類屬性[15]。許多知識發(fā)現(xiàn)算法并不能處理混合類型數(shù)據(jù)。這些算法只分析數(shù)值或分類數(shù)據(jù),并通過將一種類型的數(shù)據(jù)轉(zhuǎn)換為另一種類型的數(shù)據(jù)來解決這一缺陷。對于只處理數(shù)值型數(shù)據(jù)的算法,獨(dú)熱編碼(One-Hot Encoding)是一種普遍采用的方法,它將每個分類值轉(zhuǎn)換為二進(jìn)制向量。然而這種方法有幾個顯著的缺點(diǎn)。首先,轉(zhuǎn)換后的數(shù)據(jù)增加了維度,計(jì)算成本也隨之增加,其次將分類屬性轉(zhuǎn)換為二進(jìn)制向量,未考慮屬性間的相互關(guān)系,造成數(shù)據(jù)語義丟失,影響后續(xù)的分類聚類等算法的精度和性能。
本文主要針對t-SNE 算法不能處理混合數(shù)據(jù)的缺點(diǎn),提出一種E-t-SNE 算法擴(kuò)展其對混合屬性數(shù)據(jù)的處理能力。該算法引入信息熵的概念,考慮不同分類屬性值對距離計(jì)算過程中不同的貢獻(xiàn)程度,然后采用與數(shù)值屬性加權(quán)結(jié)合的方式,構(gòu)造混合屬性數(shù)據(jù)的距離矩陣。為了驗(yàn)證該算法處理混合屬性數(shù)據(jù)的有效性,采用k 近鄰(kNN,k-Nearest Neighbor)[16]分類算法驗(yàn)證降維后數(shù)據(jù)的分類精度優(yōu)于其他距離度量方案。此外,將混合屬性數(shù)據(jù)投影到低維空間進(jìn)行可視化,證明了該算法對混合數(shù)據(jù)集的可視化展示更符合人們對數(shù)據(jù)的直觀理解。
高維數(shù)據(jù)降維可視化處理是將維數(shù)大于3 的數(shù)據(jù)轉(zhuǎn)換為2 維或者3 維,降維后的數(shù)據(jù)能夠在低維空間可視化展示并可以用于后續(xù)的機(jī)器學(xué)習(xí)算法。Hinton 及Roweis[17]于2002 年提出了一種隨機(jī)近鄰嵌入(SNE)降維方法。由于SNE 方法的價值方程優(yōu)化困難并且存在低維數(shù)據(jù)擁擠問題,因此Maaten 及Hinton 于2008 年在SNE 的基礎(chǔ)上提出基于t 分布的隨機(jī)近鄰嵌入方法(t-SNE)。t-SNE的思想是在低維空間中采用重尾t分布構(gòu)造一個概率分布,使其在高維空間中構(gòu)造的概率分布相似。在概率分布中,相似的數(shù)據(jù)點(diǎn)被選中的概率較高,不相似的數(shù)據(jù)點(diǎn)被選中的概率較低。高維空間中,點(diǎn)j相對于點(diǎn)i的概率分布定義為:
其中,σ 是以xi為中心的高斯函數(shù)的方差,由二進(jìn)制搜索算法確定。設(shè)高維空間中的聯(lián)合概率pij為對稱條件概率,即
其中,n是數(shù)據(jù)點(diǎn)的個數(shù)。對于高維數(shù)據(jù)xi和xj在低維空間中的映射yi和yj,采用自由度為1 的t 分布表示低維聯(lián)合概率分布,即
為保證低維空間映射點(diǎn)之間的聯(lián)合概率分布qij較好地模擬高維空間數(shù)據(jù)點(diǎn)之間的聯(lián)合概率分布pij,采用梯度下降法最小化所有數(shù)據(jù)點(diǎn)的KL 散度(Kullback-Leibler divergences)得到低維空間最佳模擬點(diǎn)。目標(biāo)函數(shù)C 和梯度下降法優(yōu)化的定義如下:
為了加速優(yōu)化過程,避免陷入較差的局部最小值,在梯度中加入一個動量項(xiàng):
獨(dú)熱編碼(One-Hot Encoding)是機(jī)器學(xué)習(xí)算法中處理分類屬性數(shù)據(jù)的常用方法。由于很多現(xiàn)實(shí)世界中的數(shù)據(jù)集不總是連續(xù)的數(shù)值型數(shù)據(jù),在應(yīng)用回歸、分類、聚類等機(jī)器學(xué)習(xí)算法時,數(shù)據(jù)集中包含的分類型數(shù)據(jù)無法直接進(jìn)行距離和相似度計(jì)算。獨(dú)熱編碼將具有k 個不同值域的分類屬性轉(zhuǎn)換為一組k 個二進(jìn)制屬性,每個二進(jìn)制屬性都對應(yīng)于k個分類值中的一個。
然而這種對分類屬性數(shù)據(jù)的處理方式缺點(diǎn)顯著。首先轉(zhuǎn)換后的數(shù)據(jù)大大增加了數(shù)據(jù)維度,計(jì)算成本增加。其次,將分類屬性轉(zhuǎn)換為二進(jìn)制向量,未考慮屬性間的相互關(guān)系,造成數(shù)據(jù)語義丟失,影響后續(xù)的分類聚類等算法的精度和性能。
k 近鄰(kNN,k-Nearest Neighbor)分類算法是最常用的分類算法之一,被應(yīng)用于數(shù)據(jù)挖掘、模式識別等多個領(lǐng)域。算法采用k 個最近鄰居的類標(biāo)簽來確定未知點(diǎn)的類標(biāo)簽,即k 個最近鄰文本中大多數(shù)屬于某個類別,則樣本也屬于這個類別,故k 值的選取至關(guān)重要。如果k 值偏小,會提高噪聲的干擾;如果k 值偏大,并且測試樣本中屬于訓(xùn)練集中包含數(shù)據(jù)較少的類,則會增加噪聲,降低分類準(zhǔn)確性。
觀察式(1)可以發(fā)現(xiàn),t-SNE算法將高維數(shù)據(jù)點(diǎn)間的歐式距離轉(zhuǎn)換為表示相似性的條件概率[18],常用的空間距離計(jì)算方法歐式距離并不適合處理分類型數(shù)據(jù)。本文采用一種新的距離計(jì)算方法,分別構(gòu)建數(shù)值型數(shù)據(jù)的距離矩陣和分類型數(shù)據(jù)距離矩陣,然后將兩個矩陣融合得到混合數(shù)據(jù)的距離矩陣,輸入t-SNE 算法進(jìn)行降維并可視化。
關(guān)于混合屬性數(shù)據(jù)的公式符號描述如下[19]:X={ x1, x2,…,xn} 表示N 個混合數(shù)據(jù)對象的數(shù)據(jù)集,對于 每 一 個 xi(1 ≤i ≤n),混 合 型 數(shù) 據(jù) 集 xi代 表M(M=Mn+Mc)個屬性其中表示Mn個數(shù)值型數(shù)據(jù),表示Mc個分類型數(shù)據(jù)。表示數(shù)值部分的第k 個屬性,表示分類部分的第k 個屬性。第k 列分類屬性的定義域表示為表示分類屬性的個數(shù)。
3.1.1 數(shù)值型數(shù)據(jù)的距離矩陣
D(n)是一個n×n(n=N)的矩陣,對角線上元素全是0,表示數(shù)據(jù)點(diǎn)自身與自身的距離,表示和之間的距離,
3.1.2 分類型數(shù)據(jù)的距離矩陣
傳統(tǒng)的定義分類屬性數(shù)據(jù)之間距離的方式是建立在每個分類屬性權(quán)重相同的情況下,數(shù)據(jù)相同距離為0,不同距離為1。本文表示為公式如下:
這種定義分類屬性數(shù)據(jù)的方法忽略了不同分布的不同屬性值對距離計(jì)算時貢獻(xiàn)度的差異。因此,為了考慮貢獻(xiàn)度的差異,為分類屬性加入權(quán)重wk,公式(9)可修改為:
顯然wk是分類屬性的權(quán)重,它表示對分類屬性距離計(jì)算時的貢獻(xiàn)程度。這里
然后討論每個分類屬性權(quán)重wk的計(jì)算方式,本文引入信息熵的概念計(jì)算權(quán)重[20]。由信息熵的性質(zhì)可知,信息熵可以作為一個系統(tǒng)復(fù)雜程度的度量,如果系統(tǒng)越復(fù)雜,出現(xiàn)不同情況的種類越多,那么他的信息熵就越大,反之一個系統(tǒng)越簡單,出現(xiàn)情況種類越少,信息熵越小。同理,如果數(shù)據(jù)集中分類型數(shù)據(jù)的定義域中ak,t種類越多,分布越不均勻,則的信息熵越大,即對距離的計(jì)算貢獻(xiàn)程度越高,權(quán)重越大。因此的信息熵可表示為:
這里p(ak,t)是分類屬性中ak,t的概率:
其中,rk為中分類值的數(shù)量。因此,數(shù)據(jù)集中分類屬性對距離計(jì)算時貢獻(xiàn)程度可用權(quán)重wk表示:
將式(14)代入式(10)中,得到分類屬性數(shù)據(jù)的距離計(jì)算公式:
2.依規(guī)處理國際稅收協(xié)定與國內(nèi)稅法的對接關(guān)系。雙邊或多邊稅收協(xié)定屬于國際法的范疇。雙邊稅收協(xié)定是由締約國雙方政府談判后達(dá)成的,經(jīng)過各自國家的立法程序后生效的,因此對于締約國政府具有法律上的約束力。
D(c)是一個n×n(n=N)的矩陣,對角線上元素全是0,表示數(shù)據(jù)點(diǎn)自身與自身的距離表示和之間的距離,
3.1.3 混合型數(shù)據(jù)的距離矩陣
根據(jù)以上內(nèi)容可以發(fā)現(xiàn),對于混合型數(shù)據(jù)集的距離計(jì)算采用數(shù)值型和分類型分別計(jì)算的方法。數(shù)值型數(shù)據(jù)點(diǎn)直接采用歐式距離進(jìn)行度量,分類型數(shù)據(jù)點(diǎn)引入信息熵的概念,將不同分類屬性對距離計(jì)算的貢獻(xiàn)程度量化成權(quán)重,用權(quán)重與分類值之間距離相乘的方法構(gòu)造出分類屬性數(shù)據(jù)點(diǎn)之間的距離。
最后將計(jì)算出來的數(shù)值型數(shù)據(jù)點(diǎn)之間的距離與分類型數(shù)據(jù)點(diǎn)之間的距離相加,得到混合屬性數(shù)據(jù)點(diǎn)之間的距離dij(xi,xj),表示為:
E-t-SNE算法流程如圖1所示。
圖1 E-t-SNE算法流程
E-t-SNE 算法描述如下所示,其中迭代次數(shù)T 太小容易導(dǎo)致優(yōu)化過程不完全,太大增加算法執(zhí)行時間,本文設(shè)置為1 000;較大的動量項(xiàng)可以使優(yōu)化過程避免陷入較差的局部最優(yōu),根據(jù)經(jīng)驗(yàn),當(dāng)?shù)螖?shù)T <250 時,動量項(xiàng)α(T)=0.5,當(dāng)T ≥250時,α(T)=0.8;學(xué)習(xí)率η初值為100,每次迭代結(jié)束根據(jù)自適應(yīng)學(xué)習(xí)率機(jī)制進(jìn)行更新;維數(shù)m 設(shè)置為2[21]。
算法1E-t-SNE算法
(1)分別根據(jù)式(7)和式(15)構(gòu)建數(shù)值型數(shù)據(jù)距離矩陣D(n)和分類型數(shù)據(jù)距離矩陣D(c);根據(jù)公式(17)構(gòu)建混合數(shù)據(jù)距離矩陣D;
(2)分別根據(jù)式(1)和(2)計(jì)算pj|i和pij;
(3)初始解Y(0)={ y1, y2,…,yn} 采樣與正態(tài)分N(0,10-4I)
(4)for t=1 to T
①根據(jù)式(3)計(jì)算qij;
②根據(jù)式(5)計(jì)算梯度;
③根據(jù)式(6)計(jì)算Y(t);
(5)得到低維數(shù)據(jù)表示Y(T)={ y1, y2,…,yn}。
輸出:混合數(shù)據(jù)集在低維空間的數(shù)據(jù)表示。
為了驗(yàn)證E-t-SNE 算法的有效性,本文選用UCI 機(jī)器學(xué)習(xí)知識庫中的4個真實(shí)混合數(shù)據(jù)集:Credit Approval、Australian Credit Approval、Heart、Adult。數(shù)據(jù)集Credit Approval 包含2 個類,6 個數(shù)值屬性和8 個分類屬性,共653條數(shù)據(jù);數(shù)據(jù)集Australian Credit Approval包含2個類,6個數(shù)值屬性和9個分類屬性,共690條數(shù)據(jù);數(shù)據(jù)集Heart 包含2 個類,7 個數(shù)值屬性和6 個分類屬性,共270條數(shù)據(jù);數(shù)據(jù)集Adult包含2個類,3個數(shù)值屬性和3個分類屬性,共1 100 條數(shù)據(jù)。表1 列出了4 個數(shù)據(jù)集數(shù)據(jù)量,數(shù)值屬性個數(shù),分類屬性個數(shù)以及類的個數(shù)。
表1 混合型數(shù)據(jù)集的詳細(xì)信息
為了評價E-t-SNE 算法的性能,本文使用了4 個真實(shí)混合數(shù)據(jù)集。由于不知道數(shù)據(jù)在高維空間中的結(jié)構(gòu),所以無法通過對比高維和低維空間投影映射的方法來直接的評估性能。E-t-SNE算法本身是一種混合數(shù)據(jù)降維可視化算法,按照理論,降維以后的數(shù)據(jù)應(yīng)該保留了原始高維空間中數(shù)據(jù)集的分類特征。因此,可以對混合數(shù)據(jù)集降維之后的數(shù)據(jù)進(jìn)行評價,驗(yàn)證此降維可視化算法對后續(xù)數(shù)據(jù)分析的影響。本文采用k 近鄰(kNN)分類算法,將降維以后的數(shù)據(jù)中80%用做訓(xùn)練集,20%做測試集,通過對測試數(shù)據(jù)分類準(zhǔn)確度的比較,對本文E-t-SNE 算法和獨(dú)熱編碼方式、余弦距離度量方法進(jìn)行了評價。
為驗(yàn)證E-t-SNE 算法的有效性,本文采用多種距離計(jì)算方法構(gòu)建混合數(shù)據(jù)集的距離矩陣,并與本文算法對比。其中獨(dú)熱編碼方式是將分類屬性轉(zhuǎn)換為k 個二進(jìn)制屬性構(gòu)建距離矩陣;余弦距離方法是將混合屬性數(shù)據(jù)轉(zhuǎn)換為向量,通過計(jì)算向量間夾角的余弦值構(gòu)建距離矩陣。原始的t-SNE 算法不能直接處理混合數(shù)據(jù)集,但是本文將混合數(shù)據(jù)集不做處理直接輸入t-SNE 算法,作為對比降維以后分類準(zhǔn)確率的基準(zhǔn),以凸顯本文算法的有效性。
文獻(xiàn)[10]指出,t-SNE 算法的性能對困惑度Perp 變化較為敏感。根據(jù)Perp 的定義,若Perp 太小,則低維嵌入點(diǎn)孤立,看不到低維空間中的聚簇效果;若Perp太大,則所有低維嵌入點(diǎn)聚集成一個簇,無法辨析數(shù)據(jù)的真實(shí)結(jié)構(gòu)。因此,本文以代價函數(shù)KL(P||Q)的值在0.05~0.35之間為依據(jù),經(jīng)過多次實(shí)驗(yàn),對4個混合數(shù)據(jù)集Credit Approval、Australian Credit Approval、Heart、Adult 的困惑度Perp分別設(shè)定為50、50、20、100。
文獻(xiàn)[16]指出,kNN分類算法中k 的選擇至關(guān)重要,為避免k 值選取不當(dāng)對實(shí)驗(yàn)結(jié)果準(zhǔn)確新造成的干擾,本文選取多個k 值作為參數(shù),每個k 值分別進(jìn)行5次實(shí)驗(yàn)取平均值。
從表2可以看出,k 取不同值時,算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Credit Approval 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.682 0、0.746 9、0.814 2、0.861 3。通過比較可以發(fā)現(xiàn),E-t-SNE 比其他3 種算法在準(zhǔn)確率上分別提高了17.93%、11.44%、4.71%。因此E-t-SNE 算法性能更好。
表2 Credit Approval數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了更加直觀地反應(yīng)降維以后的數(shù)據(jù)分布情況,證明E-t-SNE 算法在可視化方面的優(yōu)勢,本文結(jié)合低維空間可視化視圖作為一種最直觀的評價方法。
圖2 展示了Credit Approval 數(shù)據(jù)集在低維空間中的映射視圖(類標(biāo)簽只用于染色,不同的顏色表示不同的類)。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE算法處理混合數(shù)據(jù)集降維后得到的視圖。通過觀察圖2 可以發(fā)現(xiàn),(a)和(b)中兩個類的數(shù)據(jù)點(diǎn)混淆在一起,沒有很好的分離,在低維空間中不能明顯地發(fā)現(xiàn)數(shù)據(jù)集的類別情況;而(c)則可以直觀的發(fā)現(xiàn)數(shù)據(jù)集中存在兩個類。
圖2 Credit Approval數(shù)據(jù)集二維空間可視化
從表3 可以看出,k 取不同值時,算法t-SNE、余弦距離、One-Hot編碼、E-t-SNE在Australian Credit Approval數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.702 8、0.717 5、0.800 6、0.844 2。通過比較可以發(fā)現(xiàn),E-t-SNE 比其他三種算法在準(zhǔn)確率上分別提高了14.14%、12.67%、4.36%。因此E-t-SNE算法性能更好。
表3 Australian Credit Approval數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖3 展示了Australian Credit Approval 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE算法處理混合數(shù)據(jù)集降維后得到的視圖。通過觀察圖3 可以發(fā)現(xiàn),(a)中兩個類的數(shù)據(jù)點(diǎn)混淆在一起;(b)中數(shù)據(jù)點(diǎn)分布松散無明顯規(guī)律;(c)中兩個類別區(qū)分明顯。
圖3 Australian Credit Approval數(shù)據(jù)集二維空間可視化
從表4可以看出,k 取不同值時,算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Heart 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.678 6、0.689 6、0.756 0、0.795 8。通過比較可以發(fā)現(xiàn),E-t-SNE 比其他兩種算法在準(zhǔn)確率上分別提高了11.72%、10.62%、7.74%。因此E-t-SNE算法性能更好。
表4 Heart數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖4 展示了Heart 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE 算法處理混合數(shù)據(jù)集降維后得到的視圖。通過觀察圖4 可以發(fā)現(xiàn),(a)中兩個類的數(shù)據(jù)點(diǎn)分散,很難發(fā)現(xiàn)數(shù)據(jù)集中的隱藏模式。(b)中可以大體發(fā)現(xiàn)有兩個類別,但類內(nèi)數(shù)據(jù)點(diǎn)沒有很好地區(qū)分;(c)中兩個類之間區(qū)分明顯。
圖4 Heart數(shù)據(jù)集二維空間可視化視圖
從表5可以看出,k 取不同值時,算法t-SNE、余弦距離、One-Hot 編碼、E-t-SNE 在Adult 數(shù)據(jù)集上的分類準(zhǔn)確率分別是0.737 0、0.740 8、0.753 4、0.791 0。通過比較可以發(fā)現(xiàn),E-t-SNE 比其他兩種算法在準(zhǔn)確率上分別提高了5.40%、4.93%、3.76%。因此E-t-SNE 算法性能更好。
表5 Adult數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖5 展示了Adult 數(shù)據(jù)集在低維空間中的映射視圖。其中(a)采用獨(dú)熱編碼方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;(b)采用余弦距離方式計(jì)算混合數(shù)據(jù)集數(shù)據(jù)點(diǎn)之間的距離降維后得到的視圖;圖(c)采用E-t-SNE 算法處理混合數(shù)據(jù)集降維后得到的視圖。通過觀察圖5 可以發(fā)現(xiàn),(a)、(b)兩個類的數(shù)據(jù)點(diǎn)混淆在一起,不能很好地區(qū)分類與類之間的關(guān)系。(c)中兩個類之間雖有混淆重疊,但類間區(qū)分明顯。
圖5 Adult數(shù)據(jù)集二維空間可視化
圖6 匯總了E-t-SNE 算法和對比算法在4 個UCI 數(shù)據(jù)集上的分類準(zhǔn)確度。由圖6 可以看出,將選取的4 個混合屬性數(shù)據(jù)集用不同的距離度量方法降維到二維平面后,用kNN 做分類處理,E-t-SNE 算法具有較高的分類準(zhǔn)確性。
圖6 E-t-SNE算法與其他算法分類準(zhǔn)確率對比
以上實(shí)驗(yàn)證明了E-t-SNE 算法在對混合數(shù)據(jù)降維方面有更大的優(yōu)勢。由于引入了信息熵概念,考慮了不同的分類型屬性對距離計(jì)算時的不同貢獻(xiàn)度,使得降維以后的數(shù)據(jù)更多地保留了數(shù)據(jù)在高維空間的結(jié)構(gòu)分布,使其在后續(xù)的分類算法中獲得了更高的準(zhǔn)確度。
本文總結(jié)了現(xiàn)有的降維可視化算法的原理及特點(diǎn),指出它們不能有效地處理混合屬性數(shù)據(jù)的缺點(diǎn)。在t-SNE 算法的基礎(chǔ)上提出了一種擴(kuò)展的E-t-SNE 算法,使其能處理混合型數(shù)據(jù)集。該方法引入信息熵的概念度量混合屬性數(shù)據(jù)點(diǎn)之間的距離,相比于傳統(tǒng)的將分類型數(shù)據(jù)轉(zhuǎn)換成0/1的獨(dú)熱編碼方式和將分類型數(shù)據(jù)轉(zhuǎn)換成向量的余弦距離計(jì)算方法,該方法既能處理混合型數(shù)據(jù),又不增加數(shù)據(jù)維度,并且將不同類標(biāo)簽的數(shù)據(jù)映射到低維空間,有利于更好地理解和發(fā)現(xiàn)高維空間數(shù)據(jù)的結(jié)構(gòu)。通過實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過E-t-SNE 降維后的混合類型數(shù)據(jù)集,在后續(xù)的數(shù)據(jù)分析算法中表現(xiàn)出比獨(dú)熱編碼方式更高的準(zhǔn)確率,證明了E-t-SNE算法的有效性。
E-t-SNE算法能有效地對混合類型數(shù)據(jù)集進(jìn)行降維可視化操作。但并沒有考慮算法的復(fù)雜度和執(zhí)行時間問題。當(dāng)數(shù)據(jù)量太大時,復(fù)雜的矩陣運(yùn)算會占用大量內(nèi)存和消耗大量的時間。在后續(xù)的研究工作中,將考慮算法的復(fù)雜度問題,優(yōu)化求解過程,縮短求解時間。