陳含露,楊宏暉,申昇
?
用于水聲目標識別的近鄰無監(jiān)督特征選擇算法
陳含露,楊宏暉,申昇
(西北工業(yè)大學航海學院,陜西西安 710072)
針對水聲目標數(shù)據(jù)的特征冗余問題,提出一種新的近鄰無監(jiān)督特征選擇算法。首先利用順序向后特征搜索算法生成原始特征集的子集,然后利用基于代表近鄰選取方法的特征評價機制評價特征子集的優(yōu)越性。使用實測水聲目標數(shù)據(jù)集和聲吶數(shù)據(jù)集進行特征選擇和分類實驗,在保持支持向量機平均分類正確率幾乎不變的情況下,特征數(shù)目分別降低了90%和75%。結果表明,該算法選擇出的特征子集,在去除冗余特征后有效地提高了后續(xù)學習算法的效率。
水聲目標識別;無監(jiān)督;特征選擇;代表近鄰
為提高水聲目標識別的正確率,研究人員往往用多種方法提取水聲目標輻射噪聲的多域特征。然而,水聲目標樣本獲取的代價卻很大。因此,要在水聲目標樣本數(shù)目保持不變的前提下達到分類正確率損失盡可能小的目的,進行特征選擇以去除不相關和冗余特征,在水聲目標識別任務中具有重要的意義。
根據(jù)用于特征選擇的數(shù)據(jù)有無類標,可將特征選擇方法分為有監(jiān)督方法和無監(jiān)督方法。在水聲目標識別領域,相比于有監(jiān)督特征選擇方法[1]的趨于成熟,無監(jiān)督特征選擇方法[2]仍有待深入研究。有監(jiān)督特征選擇方法通常通過類標的指導來評價特征與識別任務的相關程度。而無監(jiān)督特征選擇由于缺少類標指導,往往傾向于選出能夠保留樣本內(nèi)在聚類屬性的特征。文獻中大多現(xiàn)有無監(jiān)督特征選擇算法依賴于距離矩陣來尋找最優(yōu)特征子集[3-5],近年來從樣本近鄰方面考慮的非參數(shù)方法為特征選擇提供了新的思路[6-8]。但這些方法往往面臨兩方面的問題:(1) 通常選擇近鄰是為了觀察某個特征子集判別樣本是否屬于同一聚類的能力,因此要求所選近鄰必須對不同的特征具敏感性——保證樣本與最近近鄰屬于同一聚類,與最遠近鄰屬于不同聚類;(2) 通常要求根據(jù)先驗知識設定近鄰數(shù)目,若要求設定的近鄰數(shù)目逼近樣本數(shù)目且樣本數(shù)目較大,則將導致算法的計算量過大。本文研究了一種基于特征順序搜索算法和代表近鄰選取方法[9]的非參數(shù)無監(jiān)督特征選擇方法——近鄰無監(jiān)督特征選擇(Neighbor Based Unsupervised Feature Selection, NBUFS)算法,其中代表近鄰的選取機制可克服上述兩個問題,并利用實測水聲目標數(shù)據(jù)集和聲吶數(shù)據(jù)集的多域特征進行了特征選擇和分類實驗,結果證明本文算法能夠較好地解決水聲目標特征選擇問題。
1.1 算法原理
NBUFS算法的原理如圖1所示。對于數(shù)據(jù)集,首先計算兩兩樣本間的歐式距離,得到相異度矩陣。接著將相異度矩陣輸入聚類傾向視覺評估算法(Visual Assessment of cluster Tendency, VAT)[10-11],由輸出的重組圖像評估聚類數(shù)目。然后利用K-means算法對數(shù)據(jù)集進行聚類,并選擇出基于聚類結果的代表近鄰。最后采用封裝模型進行特征選擇,得到結果子集,其中封裝模型的特征評價函數(shù)是基于代表近鄰設計的。
1.2 代表近鄰的選取方法
代表近鄰主要用于后續(xù)封裝模型特征評價函數(shù)的設計,其選取步驟如下:
(2)
(3) 由步驟(2)中的SVM訓練結果得到分類超平面的特征向量:
(4)
1.3 順序向后特征搜索算法
順序向后特征搜索算法由特征全集開始,在其后的每一次迭代中去掉一個特征(每次迭代中去掉該特征時得到的特征子集評價值比去掉其它任何一個特征時得到的評價值都高),直到特征數(shù)目減少到規(guī)定數(shù)目為止,算法流程見圖2。
1.4 封裝式特征選擇模型
采用封裝模型進行特征選擇是本文算法的核心部分,其具體步驟如下:
(1) 開始:運行順序向后特征搜索算法。
(2) 評價初始化:對于用待評價特征子集描述的數(shù)據(jù)集,和近鄰集,,將它們以相同的方式分為部分,每部分所含樣本數(shù)目相同。將其中的-1個部分作為,剩下的1個部分作為。
(7)
(3) 測試:將特征子集的評價值記為,它可由下式計算得到:
其中,[ ]的輸出分兩種:當[ ]內(nèi)的條件滿足時為1,不滿足時為0。表示的樣本數(shù)目。
(5) 循環(huán):重復步驟(3)~(4),直到步驟(2)中所述的部分數(shù)據(jù)都曾作為測試集。
(6) 評價完成:將以上步驟得到的個評價值的算術平均作為特征子集的最終評價值。
(7) 循環(huán):重復步驟(2)~(6),直到順序向后特征搜索算法運行結束。
2.1 實驗數(shù)據(jù)
利用實測水聲目標數(shù)據(jù)集和加州大學用于機器學習的UCI(University of California Irvine, UCI)數(shù)據(jù)庫中的聲吶數(shù)據(jù)集對本文算法的性能進行驗證實驗,數(shù)據(jù)說明如表1所示。
表1 數(shù)據(jù)說明
2.2 NBUFS算法性能驗證
采用如下兩種方式驗證NBUFS算法的有效性:(1) 支持向量機(Support Vector Machine, SVM)的分類結果;(2) 樣本的空間分布。
2.2.1 SVM分類結果
分別用上述兩種數(shù)據(jù)對NBUFS算法的特征選擇結果進行SVM分類實驗,采用10次10折交叉驗證SVM運行結果的分類正確率平均值作為最終的分類正確率。結果得到選擇出的特征數(shù)目與SVM分類正確率的關系如圖3所示,特征選擇前后所需的分類時間如表2所示。
表2 特征選擇前后所需的分類時間
由圖3可以看出,兩種數(shù)據(jù)的特征數(shù)目與SVM分類正確率關系曲線的變化趨勢相似:開始時 SVM 分類正確率總體上隨特征數(shù)目的增加而增加,當特征達到一定數(shù)目后,分類正確率趨于相對穩(wěn)定。實測水聲目標數(shù)據(jù)使用7個特征即可使分類正確率與使用完全數(shù)據(jù)集的71個特征時相當;聲吶數(shù)據(jù)使用15個特征即可使分類正確率與使用完全數(shù)據(jù)集的60個特征時相當。這說明使用NBUFS算法進行特征選擇以后,使用部分特征就可以表征完全數(shù)據(jù)集的全部分類信息。
由表1可以看出,使用經(jīng)特征選擇得到的特征子集進行SVM分類實驗,可以在較大程度上減少分類時間。
因此,使用本文方法進行特征選擇后,在不犧牲分類正確率的前提下,有效提高了后續(xù)學習算法的速度,提高了計算效率。
2.2.2 樣本的空間分布
對于實測的水聲目標數(shù)據(jù)集,使用NBUFS算法選擇出最佳兩維特征(記為特征1和特征2)和最差兩維特征(記為特征3和特征4),分別在二維平面繪制該數(shù)據(jù)在最佳兩維特征和最差兩維特征表示下的4類樣本散布圖,如圖4和圖5所示。另外由于聲吶數(shù)據(jù)本身分類性能較差,使用任意兩維特征,甚至三維特征均無法很好地區(qū)分不同類樣本,而高于三維特征表示的樣本散布圖又無法用圖形表示,因此本節(jié)僅以實測水聲目標數(shù)據(jù)為例進行闡明。
通過對比圖4和圖5可以看出,最佳兩維特征表示的4類樣本在平面中較好地分布在不同區(qū)域,可分性較好;而最差兩維特征的4類樣本混在一起,可分性較差。這說明本文特征選擇算法對特征分類性能的評價是可靠的。
綜上所述,本文提出的NBUFS算法能有效地選擇水聲目標優(yōu)化特征子集,在一定程度上解決水聲目標識別的問題。
本文提出的近鄰無監(jiān)督特征選擇算法(NBUFS),利用順序向后特征搜索算法生成原始特征集的子集,并利用基于代表近鄰選取方法的特征評價機制評價特征子集的優(yōu)越性。使用實測水聲目標數(shù)據(jù)和聲吶數(shù)據(jù)對其進行實驗驗證的結果表明:本文算法能夠準確地選擇出優(yōu)秀的特征子集,在分類實驗中獲得較高的分類正確率,并減少分類時間,能較好地解決水聲目標多域特征選擇問題。
[1] 楊宏暉, 王蕓, 孫進才, 等. 融合樣本選擇與特征選擇的 AdaBoost支持向量機集成算法[J]. 西安交通大學學報, 2014, 48(12): 63-68. YANG Honghui, WANG Yun, SUN Jincai, et al. An Adaboost support vector machine ensemble method with integration of instance selection and feature selection[J]. Journal of Xi'an Jiaotong University, 2014, 48(12): 63-68.
[2] 申昇, 楊宏暉, 袁帥. 用于水聲目標識別的互信息無監(jiān)督特征選擇[J]. 聲學技術, 2013, 32(6): 30-33. SHEN Sheng, YANG Honghui, YUAN Shuai. Mutual information unsupervised feature selection for underwater acoustic targets[J]. Technical Acoustics, 2013, 32(6): 30-33.
[3] Zhao Z, Liu H(2007)Spectral feature selection for supervised and unsupervised learning[C]//Proceedings of the 24th international conference on machine learning(ICML), ACM, New York, 1151-1157.
[4] Ng A, Jordan M, Weiss Y. (2001) On spectral clustering: analysis and an algorithm[C]//Proceedings of advances in neural information processing systems (NIPS), vol 14, MIT Press, Cambridge, 2001, 849-856.
[5] Mitra P, Murthy C a, Pal S K. Unsupervised Feature Selection Using Feature Similarity[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI, 2002, 24(3): 301-312.
[6] Yang L, Jin R, Mummert L, et al. A boosting framework for visuality-preserving distance metric learning and its application to medical image retrieval[J]. IEEE Trans. Patt. Anal. Mach. Intell, 2010, 32(1): 30-44.
[7] Yan R, Zhang J, Yang J, et al. A discriminative learning framework with pairwise constraints for video object classification[J]. IEEE Trans. Patt. Anal. Mach. Intell, 2006, 28(4): 578-593.
[8] Chen C H. Feature selection for clustering using instance-based learning by exploring the nearest and farthest neighbors[J]. Imformation Sciences, 2015, 318(3): 14-27.
[9] CHEN C H. A semi-supervised feature selection method using a non-parametric technique with side information[J]. Information Sciences, 2013, 39(3): 359-371.
[10] Havens T C, Bezdek J C. An Efficient Formulation of the Improved Visual Assessment of Cluster Tendency (iVAT) Algorithm[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(5): 813-822.
[11] Bezdek J C, Hathaway R J. VAT: A Tool for Visual Assessment of (Cluster)tendency[C]//Proceedings of the International Joint Conference on Neural Networks, 2002, 2225-2230.
Neighbor based unsupervised feature selection algorithm for underwater acoustic target recognition
CHEN Han-lu, YANG Hong-hui, SHEN Sheng
(Northwestern Polytechnical University, Xi’an 710072, Shaanxi,China)
The problem of feature redundancy in underwater target recognition has been studying by plenty of researchers. In this paper, a new neighbor based unsupervised feature selection algorithm is proposed. Primarily, the subsets of the original feature set extracted from the dataset are produced by using backward feature searching strategy. Subsequently, these feature subsets are evaluated with the assessment mechanism based on the representative neighbors choosing method. Results of classification experiments with actual measured underwater acoustic target dataset and sonar dataset after feature selection show that the accuracies of SVM classifiers remain almost the same when the numbers of features are decreased by 90% and 75%, which indicates that the proposed method improves the efficiency of subsequent learning algorithm with the redundant features removed.
underwater acoustic target recognition; unsupervised; feature selection; representative neighbors
TB533
A
1000-3630(2016)-03-0204-04
10.16300/j.cnki.1000-3630.2016.03.003
2015-05-21;
2015-09-17
水聲對抗技術重點實驗室開放基金
陳含露(1991-), 女, 浙江麗水人, 碩士研究生, 研究方向為模式識別、聲信號處理。
楊宏暉, E-mail:hhyang@nwpu.edu.cn