亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        正交基低冗余無監(jiān)督特征選擇法

        2022-01-21 05:10:30簡彩仁翁謙
        福州大學學報(自然科學版) 2022年1期
        關鍵詞:監(jiān)督特征方法

        簡彩仁,翁謙

        (1.廈門大學嘉庚學院, 福建 漳州 363105; 2.福州大學計算機與大數(shù)據(jù)學院, 福建 福州 350108)

        0 引言

        高維數(shù)據(jù)廣泛存在于機器學習、數(shù)據(jù)挖掘和模式識別等領域.這些數(shù)據(jù)存在許多無用或者冗余的特征,從而影響高維數(shù)據(jù)的識別研究.此外, 大量的冗余特征會占用內存空間,從而影響存儲和計算效率.高維數(shù)據(jù)往往帶來“維數(shù)災難”[1-4].因此研究高維數(shù)據(jù)的降維具有重要的意義,而特征選擇是數(shù)據(jù)降維的一種常用手段,本研究分析數(shù)據(jù)集的特征選擇.

        特征選擇旨在從原始數(shù)據(jù)集中選出具有判別特性且相關的特征子集,同時減少冗余、不相關、高噪聲的特征.許多研究人員提出了各種特征選擇法,并廣泛應用于機器學習的各個領域.根據(jù)樣本的標簽信息,特征選擇可以分為有監(jiān)督特征選擇、半監(jiān)督特征選擇和無監(jiān)督特征選擇[1].由于獲得樣本的類別信息需要大量的工作,因此研究無監(jiān)督的特征選擇具有重要意義.不僅如此, 無監(jiān)督特征選擇在發(fā)現(xiàn)數(shù)據(jù)集內部隱含的信息也有一定的作用.基于此,本研究分析了無監(jiān)督特征選擇法.

        一般地,無監(jiān)督特征選擇法可以分為過濾型特征選擇法、捆綁型特征選擇法和嵌入型特征選擇法[4].過濾型特征選擇法根據(jù)一定的規(guī)則給每一個特征打分排序選擇特征,其典型代表是最大方差特征選擇法(MV)和拉普拉斯特征選擇法(LS)[5],MV選擇方差最大的特征增加區(qū)分度,而LS利用局部近鄰信息選擇保持局部信息的特征.捆綁型特征選擇法利用機器學習方法定義評價準則,從模型的表達能力選擇特征,其典型代表是多簇特征選擇法(MCFS)[6],利用保持多簇結構為準則選擇特征.得益于表示理論的發(fā)展,嵌入型特征選擇法得到了很好的發(fā)展.嵌入型特征選擇法通過數(shù)據(jù)表示和l2, 1范數(shù)的組稀疏性選擇特征.關于嵌入型特征選擇法的研究層出不窮,Han等[7]提出一種基于正則回歸的無監(jiān)督并行正交基聚類特征選擇法(SOCFS),該方法基于正交基構建目標矩陣來捕獲投影數(shù)據(jù)的潛在簇中心進而選擇具有更強識別能力的特征;Lim等[8]引入特征成對依賴的觀點改進了該方法,提出特征依賴無監(jiān)督特征選擇法(DUFS),該方法可以選擇更少的特征提高識別準確率.Mohsen等[9]提出自適應相似性學習與子空間聚類無監(jiān)督特征選擇法(SCFS),該方法不僅通過子空間聚類保持樣本的相似性,同時也考慮了基于正則化回歸模型的數(shù)據(jù)底層結構.因為嵌入型特征選擇法能全面考慮數(shù)據(jù)的內部結構,是較好的一類特征選擇方法,得到了研究學者的青睞.更多關于特征選擇的研究可以參考相關綜述 [3-4].

        SOCFS基于正交基重構數(shù)據(jù)集從而選擇具有判別能力的信息,然而沒有考慮選擇特征之間的相關信息,容易選擇冗余特征.針對這一不足,借鑒最大互信息系數(shù)(MIC),提出正交基低冗余無監(jiān)督特征選擇法.

        1 相關工作

        1.1 符號說明

        1.2 SOCFS

        因為這種基于正則化回歸的特征選擇方法已被證明在有監(jiān)督和無監(jiān)督的情況下都能有效地處理數(shù)據(jù),形如下式的特征選擇方法被廣泛應用. 在有監(jiān)督的特征選擇中,Y可以通過給定的標簽信息來定義. 然而,在無監(jiān)督特征選擇中,由于標簽信息不可用,聚類結果(如k-means)通常被用來代替Y.目標矩陣的因式分解在機器學習和數(shù)據(jù)挖掘中表現(xiàn)出了良好的性能. 此外,矩陣分解在無監(jiān)督特征選擇中有顯著的效果. SOCFS將隱式Y分解為A∈Rc×c和H∈Rn×c,得到如下的目標函數(shù):

        (1)

        其中,I是單位矩陣,正交約束ATA=I使得A的列向量是獨立的.H的正交性和非負約束使得H的每一行只有一個非零元. 約束條件使投影數(shù)據(jù)WTX進行正交聚類.最小化問題意味著W選擇的特征子集實現(xiàn)正交聚類[7].

        2 正交基低冗余無監(jiān)督特征選擇法

        2.1 目標函數(shù)

        特征選擇矩陣W在去除不相關特征的同時,也會選擇有區(qū)別的特征.然而,同時選擇具有高冗余率的特征可能會導致機器學習算法的性能退化.例如,訓練具有冗余特征的分類器可能會降低分類的準確率.因此,有必要施加一個懲罰項來最小化所選特征的冗余程度.最大互信息系數(shù)(maximal information coefficient, MIC)[10]適用于測量線性和非線性數(shù)據(jù)的相關性,本研究采用最大互信息系數(shù)作為相關性評價標準.基于MIC的低冗余懲罰項定義如下:

        (2)

        利用SOCFS得到的W可以選擇具有判別能力的特征,然而容易導致選擇的特征子集具有高冗余率.最大互信息系數(shù)(MIC)能降低選擇特征子集的冗余性,因此利用MIC改進SOCFS,將公式(1)~(2)合并得到如下的目標函數(shù):

        (3)

        其中,β≥0是正則參數(shù),目標函數(shù)的第三項是低冗余懲罰項,用于選擇冗余度較低的特征.

        公式(3)通過低冗余懲罰項改進SOCFS得到具有選擇低冗余特征子集的無監(jiān)督特征選擇法,將這種方法稱為正交基低冗余無監(jiān)督特征選擇法(orthogonal basis minimization redundancy unsupervised feature selection method,OBMRFS).

        2.2 模型求解

        (4)

        其中,γ>0是另一個正則化參數(shù),用于控制其他項之間的比例.當其他變量不變時,這個公式在每個變量上都是凸的.因此,可以用一次求解一個變量的方式求解公式(4)[7-8].將公式(4)的目標函數(shù)記為:

        (5)

        W=(XXT+αD+βT)-1XHAT

        (6)

        2) 更新A.目標函數(shù)關于A的部分為:

        (7)

        其中:P=WTX.

        定理1最優(yōu)的A可以通過奇異值向量得到A=UVT,PHT=UΣVT,Σ=diag(w),其中(U,Σ,V)是PHT的SVD分解.

        證明 公式(7)可以轉化為:

        根據(jù)定理1,可得A的最優(yōu)解為:

        A=UVT

        (8)

        其中:WTXHT=UΣVT. 式(3)更新H,目標函數(shù)關于H的部分為:

        類似于定理1,最優(yōu)的H可以通過奇異值向量得到H=UVT,XTWA+γG=UΣVT,Σ=diag(w),其中(U,Σ,V)是XTWA+γG的SVD分解. 因此,H的最優(yōu)解為:

        H=UVT

        (9)

        其中,XTWA+γG=UΣVT.

        式(4)更新G,輔助矩陣G滿足:

        (10)

        則不難得到:

        (11)

        2.3 正交基低冗余無監(jiān)督特征選擇算法

        將2.2的算法流程總結成本研究提出的正交基低冗余無監(jiān)督特征選擇法.

        算法1: 正交基低冗余無監(jiān)督特征選擇法(OBMRFS)Input: 數(shù)據(jù)集X, 最大互信息系數(shù)矩陣M, 參數(shù)α, β, γ, 類別數(shù)量c, 選擇特征數(shù)量pInitialize: t=0, D, T, A, H當t≤maxIter 執(zhí)行:利用公式(6)更新W; 利用公式(8)更新A; 利用公式(9)更新H; 利用公式(10)更新G; 更新D和T: Dii=12wi2, Tii=∑mj=1wj2Mij2wi2, i=1, 2, …, m; 結束while循環(huán)Output: 將wi2按降序排列, 選擇前p個特征為特征子集.

        2.4 收斂性與計算復雜度分析

        定理2當固定A,H和G時,用公式(6)更新W,目標函數(shù)都是單調不增的.

        定理2說明每次更新W目標函數(shù)都是單調不增的.當W和H固定時,有:

        上式是一個具有等式約束的二次函數(shù)優(yōu)化問題,基于KKT條件[11],利用拉格朗日乘數(shù)法得到A的最優(yōu)解,因此更新A,目標函數(shù)是單調不增的. 當W,A和G固定時,則:

        上式是一個具有等式約束的二次函數(shù)優(yōu)化問題,基于KKT條件[11],利用拉格朗日乘數(shù)法得到H的最優(yōu)解,因此更新H,目標函數(shù)是單調不增的.

        固定Ht利用公式(10)更新G,有:

        根據(jù)文獻[8],顯然有L(Ht,Gt+1)≤L(Ht,Gt),于是利用公式(10)更新G,目標函數(shù)是單調不增的. 因此,通過以上分析,保證了算法1的收斂性.

        公式(3)的求解過程,主要運行時間消耗在計算矩陣W、A、H和G上,其中,W的計算量主要涉及矩陣乘法和矩陣求逆,時間復雜度為O(m3);A和H的計算時間復雜度主要表現(xiàn)在奇異值分解上,SVD的時間復雜度為O(mcn);G的計算主要涉及矩陣加法,時間復雜度為O(cn). 一般地,m>n>c,因此本研究提出的求解方法的一次迭代的時間復雜度為O(m3).

        3 實驗分析

        3.1 實驗數(shù)據(jù)與參數(shù)設置

        沿用文獻[12]研究的FERET、PIE、ORL和Yale 4個圖像數(shù)據(jù)集進行實驗,其基本信息如表1所示.

        表1 數(shù)據(jù)信息

        為驗證OBMRFS選擇的特征子集的有效性,將選擇的特征子集用k-means進行聚類.對比方法為最大方差特征選擇法(MV),拉普拉斯特征選擇法(LS),多簇特征選擇法(MCFS),正交基聚類特征選擇法(SOCFS),特征依賴無監(jiān)督特征選擇法(DUFS),自適應相似性學習與子空間聚類無監(jiān)督特征選擇法(SCFS).計算所有方法選擇的特征子集的聚類準確率,對給定樣本,令ri和si分別為聚類方法得到的標簽和樣本自帶標簽,定義聚類準確率[13]為:

        其中:n為樣本總數(shù);map(ri)將每一個標簽ri映射成與樣本自帶的標簽等價的類標簽. 即有

        因為OBMRFS、SOCFS、DUFS和SCFS等方法都涉及參數(shù)的選擇問題,因此統(tǒng)一將參數(shù)的搜索空間設置為{10-3, 10-2, 10-1, 100, 101, 102, 103, 104, 105, 106}, 選擇特征數(shù)量設置為{30, 60, 90, 120, 150, 180, 210, 240, 270, 300}.

        3.2 實驗結果與分析

        對比4個數(shù)據(jù)集在不同特征選擇方法下選擇的特征子集其使用k-means聚類得到的聚類準確率.圖1給出了各種方法選出的特征子集下的聚類準確率,表2給出了其平均聚類準確率.其中,ALL表示不進行特征選擇,對原始數(shù)據(jù)集聚類得到的聚類準確率.

        (a) FERET

        (b) PIE

        (c) ORL

        (d) Yale

        表2 不同方法的平均聚類準確率

        圖1表明OBMRFS選擇的特征子集可以得到較高的聚類準確率.除了在ORL數(shù)據(jù)集上,OBMRFS都取得了最高的聚類準確率.表2的平均聚類準確率說明OBMRFS選擇的特征子集是有效的,可以提高聚類方法識別的準確率.盡管在ORL數(shù)據(jù)集上,OBMRFS的聚類準確率沒有超過ALL,但是OBMRFS在選擇120個特征時的聚類準確率優(yōu)于ALL方法.不僅如此,在4個數(shù)據(jù)集上,OBMRFS的聚類準確率都優(yōu)于其他特征選擇方法.對比OBMRFS和SOCFS,不難發(fā)現(xiàn),OBMRFS有明顯的優(yōu)勢,因此本研究提出的改進方法是有效的.利用低冗余懲罰項可以降低選擇特征子集的冗余性,選擇更有效的特征子集.

        3.3 參數(shù)分析

        (a) FERET

        (b) PIE

        (c) ORL

        (d) Yale

        圖2的實驗結果表明,α和β的選擇對OBMRFS的影響是明顯的,但是不難發(fā)現(xiàn)較小的α和較大的β可以得到較好的聚類準確率.因此,在使用OBMRFS進行特征選擇時可以選擇較小的α和較大的β,從圖2的實驗結果,不難發(fā)現(xiàn)α在10-3到1取值,β在104到105取值時,OBMRFS選擇的特征子集得到的聚類準確率較為理想.不僅如此,較大的β說明低冗余懲罰項對特征選擇有重要的作用,加大這一項可以選擇有效的特征子集,進而提高聚類準確率.這一發(fā)現(xiàn),表明本研究提出的方法可以降低選擇特征子集的冗余度.

        3.4 收斂性分析

        通過實驗分析驗證算法的收斂性,固定參數(shù)α=0.1,β=107,γ=10時,50次迭代下目標函數(shù)的取值情況如圖3所示.圖3的收斂曲線表明了本研究提出的算法是收斂的,驗證了2.4小節(jié)的收斂性分析.此外,從圖中可以發(fā)現(xiàn)本研究所提的算法可以快速收斂.

        (a)FERET

        (b) PIE

        (c) ORL

        (d)Yale

        4 結論

        本文提出正交基低冗余無監(jiān)督特征選擇法,該方法在正交基下選擇具有判別能力的特征,并用最大互信息系數(shù)矩陣選擇低冗余性的特征子集.在4個圖像數(shù)據(jù)集上的實驗表明,該方法可以選擇有效的特征子集提高聚類準確率.所提的最大互信息系數(shù)矩陣的構造需要較大的運行時間開銷,如何更高效地去除冗余特征將在以后的研究中給出.

        猜你喜歡
        監(jiān)督特征方法
        突出“四個注重” 預算監(jiān)督顯實效
        人大建設(2020年4期)2020-09-21 03:39:12
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        人大建設(2017年2期)2017-07-21 10:59:25
        夯實監(jiān)督之基
        人大建設(2017年9期)2017-02-03 02:53:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        日本边添边摸边做边爱| 狠狠色婷婷久久综合频道日韩| 国产真实夫妇交换视频| 欧美午夜精品久久久久久浪潮| 蜜桃av观看亚洲一区二区| 中文字幕亚洲精品专区| 亚洲av无码乱码在线观看富二代| 久久久久亚洲精品无码蜜桃| 少妇人妻偷人精品视蜜桃| 尤物无码一区| 高清成人在线视频播放| 免费a级毛片在线播放| 99精品一区二区三区无码吞精| 亚洲另类欧美综合久久图片区| 亚洲在线一区二区三区| 极品精品视频在线观看| 国产激情综合五月久久| 国产av一区二区三区性入口| 国产激情视频在线观看的| 免费a级毛片出奶水| 亚洲精品亚洲人成在线播放 | 精品国产精品三级精品av网址| 精品日韩欧美一区二区在线播放| 精品久久久久久无码国产| 久久99精品久久久久久齐齐百度| 一区二区三区视频偷拍| 人妖一区二区三区在线| 无码 人妻 在线 视频| 午夜丰满少妇性开放视频| 精品无码成人片一区二区| 国产女人乱码一区二区三区| 久久人妻无码一区二区| 亚洲一区中文字幕在线电影网| 亚洲av成人一区二区三区色| 激情五月开心五月av| 国产精品av在线| 亚洲av日韩精品久久久久久| 亚洲一区日本一区二区| 我和隔壁的少妇人妻hd| 国产suv精品一区二人妻| 亚洲AVAv电影AV天堂18禁|