摘" 要: 距離度量學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域較為活躍的研究課題之一,文中利用UCI(加州大學(xué)歐文分校)數(shù)據(jù)庫的數(shù)據(jù)對度量學(xué)習(xí)算法進行比較研究。為了尋找一種可靠的沒有明確定義標(biāo)志的算法,選擇四種算法在UCI的六個數(shù)據(jù)集上對距離矩陣進行比較。每個樣本數(shù)據(jù)集的性質(zhì)(尺寸和維度)是不同的,因此算法的結(jié)果也不同。編碼相似度算法在大多數(shù)情況下表現(xiàn)良好。在未來的實際應(yīng)用領(lǐng)域,對于提高無標(biāo)記數(shù)據(jù)和相似集的距離度量學(xué)習(xí)算法的精確性提供了研究基礎(chǔ)。
關(guān)鍵詞: 距離度量學(xué)習(xí); 機器學(xué)習(xí); 距離矩陣; 馬氏距離; UCI數(shù)據(jù)庫; 比較研究
中圖分類號: TN911.1?34; G231.5" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " "文章編號: 1004?373X(2019)21?0150?04
Abstracts: Distance metric learning is one of the most attractive research subjects in machine learning. The objective of this research is to compare and research the distance metric learning algorithms by using the data in UCI database. To find a reliable algorithm without any symbols with clear definition, four algorithms are selected. The comparison of distance matrixes is made on 6 datasets of UCI. The nature (size, dimension) of each dataset is different, so the algorithms′ results may vary. The coding similarity algorithm performs well in most cases. In the field of practical application in the future, the research foundation for the accuracy of metric learning algorithms is provided for unlabeled data and similar sets.
Keywords: distance metric learning; machine learning; distance matrix; Mahalanobis distance; UCI database; comparative study
0" 引" 言
距離度量學(xué)習(xí)或者稱為相似度學(xué)習(xí),是指在給定的訓(xùn)練樣本集上,通過學(xué)習(xí)得到一個能夠有效反映數(shù)據(jù)樣本間的距離或者相似度的度量矩陣, 目的是使在新的樣本空間中,相同類別的樣本相似度更大,也就是分布更緊密;不同類別的樣本相似度更小,也就是分布更松散。距離度量學(xué)習(xí)算法[1?5]在計算機視覺及模式識別等領(lǐng)域應(yīng)用非常廣泛,對距離度量學(xué)習(xí)算法的研究已成為近年比較活躍的研究熱點之一,因此,該項研究具有重要的意義和價值。
距離度量學(xué)習(xí)算法依據(jù)不同分類標(biāo)準(zhǔn),有多種分類方法。例如,依據(jù)學(xué)習(xí)方式的不同,可以將度量學(xué)習(xí)算法分為有監(jiān)督的距離度量學(xué)習(xí)算法[6?7]和無監(jiān)督的距離度量學(xué)習(xí)算法[7]兩類。有監(jiān)督的距離度量學(xué)習(xí)算法的主要思想是對于訓(xùn)練集的樣本信息建立優(yōu)化函數(shù),獲得能夠合理反映樣本空間特性的度量矩陣,然后利用算法進行訓(xùn)練。文獻[7]提出最大化互信息熵的思想,通過此方法進行距離度量學(xué)習(xí)。無監(jiān)督的距離度量學(xué)習(xí)算法傾向于通過尋找集群來分散數(shù)據(jù),對數(shù)據(jù)進行標(biāo)記。其基本思想是將原始數(shù)據(jù)集通過降維映射到一個低維子空間中, 從而得到關(guān)于原始數(shù)據(jù)集更緊密的低維表示。文獻[8]提出基于AML 算法,結(jié)合核學(xué)習(xí)技術(shù),提出非線性自適應(yīng)距離度量學(xué)習(xí)算法。文獻[9]提出自適應(yīng)距離度量學(xué)習(xí)(Adaptive Metric Learning,AML)算法,該算法將距離度量學(xué)習(xí)和聚類結(jié)合,將原始數(shù)據(jù)集進行降維,形成新的更緊密的低維子空間后,再進行距離度量學(xué)習(xí)。
本文研究主要是基于無監(jiān)督的距離度量學(xué)習(xí)算法。選擇單位矩陣、邢氏算法、信息論度量學(xué)習(xí)算法和編碼相似度算法,在選取的不同數(shù)據(jù)庫上進行比較,對提高距離度量學(xué)習(xí)算法的精確性提供研究基礎(chǔ),對于實際應(yīng)用中度量學(xué)習(xí)算法的選擇提供依據(jù)。
1" 算" 法
基于約束條件(未標(biāo)記的數(shù)據(jù)和相似集)選擇四種算法對距離矩陣進行比較。這四種算法分別是:單位矩陣或歐幾里得距離;邢氏算法[10](一種迭代算法);信息論的度量學(xué)習(xí)[11](一種迭代算法);編碼相似度算法[12]。
四種算法可以用不同的方式確定相似性問題。
1.1" 邢氏算法
邢氏算法是可以考慮用來解決問題的最簡單的算法。 一般的思路是最小化相似點與相異點之間的距離。為此考慮一個距離矩陣,并進行優(yōu)化:
該算法的主要缺點是集合的收斂性不確定。有時根據(jù)數(shù)據(jù)集或初始條件可能無法計算出一個很好的結(jié)果,并被卡在一個循環(huán)中,每個迭代步驟產(chǎn)生的新矩陣都遠離了前一個矩陣。在某些數(shù)據(jù)集上,還可能出現(xiàn)[A=0],這是不應(yīng)該的。
在本文中,該算法僅運用于學(xué)習(xí)全矩陣[13]。
1.2" 信息論的度量學(xué)習(xí)算法
式中:[ξ0]是描述相似性與差異性之間臨界值的集合;[ξi,j]是[S]或[D]中[i,j]的臨界值;[γ]控制著對任意矩陣[A0]進行學(xué)習(xí)的矩陣與對預(yù)計算的閾值進行調(diào)整之間的平衡問題,這個問題可以有很多參數(shù),用來獲得更好的計算結(jié)果,但是在算法開始時,必須設(shè)定好[A0],[ξ]和[γ] 的初始值,因為它們很難進行預(yù)先估算。
1.3" 編碼相似度
編碼相似度指的是一個數(shù)據(jù)包含了另外一個數(shù)據(jù)的信息量的多少。相似度codsim[x,x]表示[x]傳遞了[x]的信息量,這是一個基于分布的方法。信息量的大小通過兩個分布之間編碼長度的差異進行評估:一個分布認(rèn)為[x]和[x]之間并不存在真正的聯(lián)系,另一個分布則認(rèn)為有。需要注意,這個算法只使用相似的數(shù)據(jù)對。編碼長度為[clx-logpx],最終計算公式為:
該算法通過降低維度避免了過擬合[9]。雖然它不需要進行迭代,但是計算過程很復(fù)雜(逆矩陣),而且在求解逆矩陣的過程中容易出現(xiàn)一些問題。為了避免這種情況,將零特征值盡量減少。在本文的實驗中,沒有計算出任何維度的減少。
2" 實驗方法
在每個數(shù)據(jù)集中,給定每個數(shù)據(jù)的分類,通過相似或相異的數(shù)據(jù)對,對每個可能的數(shù)據(jù)對進行標(biāo)記,作為算法的輸入。在此基礎(chǔ)上,進行雙重交叉驗證,另外還需要一個閾值來評估其相似度。本文使用的算法并沒有給出這個閾值,因此在評估過程中要篩選出一個閾值。在給定的距離矩陣和幾個閾值中,計算幾個混合矩陣。選擇閾值,以便描述有用值的整個范圍:從對相異數(shù)據(jù)的所有映射中,再到相似數(shù)據(jù)的所有映射中進行選擇,然后計算接受者操作特征曲線(ROC),并且模型的精度由ROC曲線下半部分的面積(AUC)給出,ROC曲線如圖1所示。
對于信息論度量學(xué)習(xí)算法(ITML),需要初始化[ξ0]。按照經(jīng)驗對它進行初始值設(shè)定,盡管這種選擇是完全隨機的:所有數(shù)據(jù)對的距離分布中,5%為相似性,95%表現(xiàn)為相異。然后研究不連續(xù)的數(shù)據(jù)對整體結(jié)果的影響。這些集合表現(xiàn)出了精確的相似度,但人造的數(shù)據(jù)不具備這個屬性。因此,選擇通過“翻轉(zhuǎn)”一些數(shù)據(jù)對的相似度來添加一些矛盾數(shù)據(jù)。該方法不是添加新對,而是修改現(xiàn)有的對,因此數(shù)據(jù)集不具有矛盾對,但包含相似性評估錯誤。
由于可能產(chǎn)生不一致性,在一個真正的數(shù)據(jù)集中選擇將它們從測試集中排除。人造的編碼不能選擇,這只會降低結(jié)果準(zhǔn)確性,并且對算法的比較也沒有幫助。
3" 實驗結(jié)果
3.1" 電離層
電離層結(jié)果如表1所示。由表1可知,運用歐幾里得定理得到的結(jié)果不理想;邢氏算法結(jié)果較好,但是當(dāng)內(nèi)部關(guān)聯(lián)數(shù)據(jù)出現(xiàn)時,健壯性較差;編碼相似度算法給出了基本一致的穩(wěn)定性。
3.2" 虹膜(IRIS)
虹膜層結(jié)果如表2所示。由表2可知,小規(guī)模的IRIS數(shù)據(jù)集的尺寸解釋了相似性準(zhǔn)確度上的急速下降。根據(jù)歐幾里得定理得出的結(jié)果,使用學(xué)習(xí)過的距離函數(shù)效果不好。
3.3" 酒" 類
酒類結(jié)果如表3所示。由表3可知,編碼相似度算法在正確的數(shù)據(jù)集上效果很好。但意外的是,邢氏算法針對錯誤的數(shù)據(jù)卻得出最好的結(jié)果。而且這些精確度與歐幾里得距離得出的結(jié)果非常接近。
3.6" 平衡量表
平衡量表結(jié)果如表6所示。由表6數(shù)據(jù)可得出,邢氏算法出現(xiàn)很多錯誤數(shù)據(jù),因此至少在某一時間段或某些迭代的情況下是不能收斂的,就如同信息論度量學(xué)習(xí)算法一樣。這可能是由數(shù)據(jù)集尺寸導(dǎo)致的。
4" 結(jié)" 論
本文研究的主要結(jié)論是基于數(shù)據(jù)驅(qū)動算法的準(zhǔn)確性中,算法并不處于主導(dǎo)地位的。此外,明確定義的集合的結(jié)果并不能代表隨機產(chǎn)生的數(shù)據(jù)集合的結(jié)果。當(dāng)沒有明確分類時,相似性的區(qū)別和分類問題值得研究。
由于真實數(shù)據(jù)集中可能存在錯誤,可以選擇一種具有良好穩(wěn)固性的算法。實驗證明,數(shù)據(jù)的不同特性影響到算法的結(jié)果。雖然加入非相關(guān)數(shù)據(jù)的方法是模擬部分壞數(shù)據(jù)集的一種快速而有效的方法,但無法評估相似性。相似性不能理解為二元評估(相似/不相似),也不能被視為二次函數(shù)。相似性評價的誤差可以遵循一定的模式,而不是完全隨機地分布。這些“選擇”也可以是個人的。如果測試集由某一用戶創(chuàng)建,那么距離矩陣就反映了對相似度的描述。數(shù)據(jù)可以是近距離的,也可以是連續(xù)的。此外,本文研究僅限于Mahanalobis距離[3?10]。
某些算法的結(jié)果不理想,但并不應(yīng)該受到限制。比如,如果編碼相似性算法很好,就可以用來學(xué)習(xí)一個很好的距離函數(shù),并且可以通過在線捕獲的數(shù)據(jù)(如ITML的在線版本)來調(diào)整矩陣。關(guān)于人造數(shù)據(jù)集和非二元距離的領(lǐng)域,在未來的實際應(yīng)用中還有很多值得研究的地方。
參考文獻
[1] BAR?HILLEL A, HERTZ T, SHENTAL N, et al. Learning a mahalanobis metric from equivalence constraints [J]. Journal of machine learning research, 2005, 6: 937?965.
[2] DAVIS J V, KULIS B, JAIN P, et al. Information?theoretic metric learning [C]// Proceedings of the 24th International Conference on Machine Learning. New York, NY, USA: ACM, 2007: 209?216.
[3] GLOBERSON A, ROWEIS S T. Metric learning by collapsing classes [C]// Advances in Neural Information Processing Systems(NIPS). [S. l.: s.n.], 2005: 451?458.
[4] HILLEL A B, WEINSHALL D. Learning distance function by coding similarity [C]// Proceedings of the 24th International Conference on Machine Learning. New York, NY, USA: ACM, 2007: 65?72.
[5] WANG X Y, HUA G, HAN T X. Discriminative tracking by metric learning [C]// Proceedings of the 11th European Confe?rence on Computer Vision. Heraklion, Greece: Springer, 2010: 200?214.
[6] CHEN J H, ZHAO Z, YE J P, LIU H. Nonlinear adaptive distance metric learning for clustering [C]// Proceedings of the 2007 International Conference on Knowledge Discovery and Data Mining. California, USA: ACM, 2007: 123?132.
[7] YE J P, ZHAO Z, LIU H. Adaptive distance metric learning for clustering [C]// Proceeding of the 2007 Computer Society Conference on Computer Vision and Pattern Recognition. Minnesota, USA: IEEE, 2007: 1?7.
[8] JIANG Liangxiao, CAI Zhihua, WANG Dianhong, et al. Bayesian citation?KNN with distance weighting [J]. International journal of machine learning and cybernetics, 2014, 5(2): 193?199.
[9] 王燕,李鳳蓮,張雪英,等.改進學(xué)習(xí)率的一種高效SVD++算法[J].現(xiàn)代電子技術(shù),2018,41(3):146?150.
WANG Yan, LI Fenglian, ZHANG Xueying, et al. An efficient SVD++ algorithm for learning rate improvement [J]. Modern electronics technique, 2018, 41(3): 146?150.
[10] 萬韓永,左家莉,萬劍怡,等.基于樣本重要性原理的KNN文本分類算法[J].江西師范大學(xué)學(xué)報(自然科學(xué)版),2015,39(3):297?303.
WAN Hanyong, ZUO Jiali, WAN Jianyi, et al. The KNN text classification based on sample importance principals [J]. Journal of Jiangxi Normal University (Natural science), 2015, 39(3): 297?303.
[11] 沈媛媛,嚴(yán)嚴(yán),王菡子.有監(jiān)督的距離度量學(xué)習(xí)算法研究進展[J].自動化學(xué)報,2014,40(12):2674?2686.
SHEN Yuanyuan, YAN Yan, WANG Hanzi. Research progress on supervised distance metric learning algorithm [J]. Journal of automation, 2014, 40(12): 2674?2686.
[12] RUTKOWSKI L, JAWORSKI M, PIETRUCZUK L, et al.The CART decision tree for mining data streams [J]. Information sciences, 2014, 266: 1?15.
[13] XING E P, NG A Y, JORDAN M I, et al. Distance metric learning with application to clustering with side?information [C]// Advances in Neural Information Processing Systems(NIPS). [S. l.: s.n.], 2003: 505?512.
[14] JINDALUANG W, CHOUVATUT V, KANTABUTRA S. Under?sampling by algorithm with performance guaranteed for class?imbalance problem [C]// Computer Science and Engineering Conference. [S. l.: s.n.], 2014: 215?221.
[15] WANG B, JIANG J Y, WANG W, et al. Unsupervised metric fusion by cross diffusion [C]// Proceedings of the 2012 Confe?rence on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2997?3004.