亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多標(biāo)簽特征選擇研究進(jìn)展

        2022-08-09 05:43:56周慧穎汪廷華張代俐
        關(guān)鍵詞:特征選擇子集分類器

        周慧穎,汪廷華,張代俐

        贛南師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,江西 贛州 341000

        傳統(tǒng)的監(jiān)督分類解決了一個(gè)實(shí)例只有一個(gè)標(biāo)簽的問題,將其視為單標(biāo)簽分類,包括二分類和多類情況。然而,在許多實(shí)際情況中,一個(gè)實(shí)例可能同時(shí)與多個(gè)標(biāo)簽關(guān)聯(lián)[1]。例如,一幅畫可以屬于政治,也可以屬于宗教或者是地方?jīng)_突[2]。這種學(xué)習(xí)任務(wù)稱為多標(biāo)簽分類[3-4]。

        在過去,多標(biāo)簽分類的主要?jiǎng)訖C(jī)是文本分類[5]。文本一般含有一個(gè)以上的概念類,例如一篇晚間新聞可以同時(shí)歸類為娛樂或者體育。如今,多標(biāo)簽分類在生物信息學(xué)[6]、圖像標(biāo)注[7]、視頻分類[8]、音樂分類[9]和語義場景分類[10]等方面得到了廣泛的運(yùn)用,例如在圖像標(biāo)注中,一個(gè)視頻片段可能與一些場景相關(guān),如城市和建筑等。類似地,在音樂分類中,一首交響樂可能同時(shí)屬于多個(gè)類別。

        在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)維度高、量級(jí)大和冗余特征多等特點(diǎn),機(jī)器學(xué)習(xí)算法面臨的任務(wù)越來越復(fù)雜,為知識(shí)挖掘與發(fā)現(xiàn)帶來了諸多挑戰(zhàn),降低了數(shù)據(jù)價(jià)值密度,影響分類模型效率,易產(chǎn)生維數(shù)災(zāi)難[11]。特征選擇是實(shí)現(xiàn)數(shù)據(jù)降維的有效手段之一。特征選擇基于某一評(píng)價(jià)標(biāo)準(zhǔn),從原始數(shù)據(jù)集合中選擇出最優(yōu)的特征子集,使得分類器的性能得以保持甚至提高。在實(shí)際應(yīng)用中,越多的特征可能導(dǎo)致數(shù)據(jù)收集成本越高,模型解釋難度越大,預(yù)測(cè)器的計(jì)算成本越高,有時(shí)泛化能力也會(huì)降低[12]。因此,在實(shí)際學(xué)習(xí)之前進(jìn)行特征選擇是很重要的。

        與單標(biāo)簽學(xué)習(xí)一樣,多標(biāo)簽數(shù)據(jù)通常具有數(shù)千甚至數(shù)萬個(gè)特征,圖像和文本尤其如此。例如,一個(gè)網(wǎng)頁或文件的集合選擇了數(shù)百萬信息詞匯來反映它們的主題。對(duì)于給定的學(xué)習(xí)任務(wù),許多特征是冗余的、不相關(guān)的,這可能會(huì)給學(xué)習(xí)任務(wù)帶來很多缺陷,如計(jì)算量大、過擬合、性能差。為了解決這一問題,研究者們提出了多標(biāo)簽特征選擇算法,以降低多標(biāo)簽數(shù)據(jù)的維數(shù),提高分類學(xué)習(xí)的準(zhǔn)確性,生成更緊湊、更泛化的分類模型。因此,多標(biāo)簽特征選擇是模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的重要研究課題,也是現(xiàn)在研究熱點(diǎn)之一。

        1 知識(shí)基礎(chǔ)

        1.1 特征選擇

        特征選擇的目的是確定可用特征的子集,這是最有區(qū)別性和最具信息量的數(shù)據(jù)分析。在實(shí)際應(yīng)用中,更多的特征可能與更高的數(shù)據(jù)收集成本、更困難的模型解釋、更高的預(yù)測(cè)器計(jì)算成本有關(guān),有時(shí)還會(huì)降低泛化能力[12]。因此,在實(shí)際學(xué)習(xí)之前進(jìn)行特征選擇非常重要。傳統(tǒng)上,特征選擇技術(shù)從不同角度有兩種分類方法[13]。一是根據(jù)分類問題中類別標(biāo)簽等監(jiān)督信息的可用性,可分為有監(jiān)督、無監(jiān)督和半監(jiān)督三種方法。當(dāng)有足夠的標(biāo)簽信息可用時(shí),監(jiān)督特征選擇起作用,而無監(jiān)督特征選擇算法不需要任何類標(biāo)簽。半監(jiān)督特征選擇是監(jiān)督和無監(jiān)督方法之間的一種折衷,這種方法可以在標(biāo)記數(shù)據(jù)有限的情況下同時(shí)利用有標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)。二是根據(jù)選擇策略的不同,分為過濾式方法、包裹式方法和嵌入式方法。過濾式方法選擇特征子集作為預(yù)處理步驟,獨(dú)立于選擇的學(xué)習(xí)機(jī)器。包裹式方法利用所選預(yù)測(cè)器的學(xué)習(xí)性能來評(píng)估所選特征的質(zhì)量。嵌入式方法利用學(xué)習(xí)算法的內(nèi)在結(jié)構(gòu),將特征選擇嵌入到模型學(xué)習(xí)中[14]。

        通常,特征選擇過程包括四個(gè)基本步驟[15],即子集生成、子集評(píng)估、停止準(zhǔn)則和結(jié)果驗(yàn)證。在第一步中,根據(jù)給定的搜索策略選擇候選特征子集,在第二步中根據(jù)一定的評(píng)價(jià)準(zhǔn)則評(píng)價(jià)候選特征子集。在滿足停止準(zhǔn)則后,從所有已評(píng)價(jià)的候選對(duì)象中選擇最適合評(píng)價(jià)準(zhǔn)則的子集。在最后一步中,選擇的子集將使用領(lǐng)域知識(shí)或驗(yàn)證集進(jìn)行驗(yàn)證。其中,子集生成實(shí)質(zhì)上是一個(gè)啟發(fā)式搜索的過程,搜索空間中的每個(gè)狀態(tài)指定一個(gè)候選子集進(jìn)行求值。它包含了3個(gè)不同的策略,即完全搜索、順序搜索和隨機(jī)搜索。子集的優(yōu)劣總是由一定的準(zhǔn)則決定的(即用一個(gè)準(zhǔn)則選擇的最優(yōu)子集不一定是根據(jù)另一個(gè)準(zhǔn)則選擇的最優(yōu)子集)。評(píng)價(jià)標(biāo)準(zhǔn)可以根據(jù)其對(duì)挖掘算法的依賴程度大致分為兩類,即獨(dú)立標(biāo)準(zhǔn)和依賴標(biāo)準(zhǔn),最終這些算法將應(yīng)用于選定的特征子集。生成程序和評(píng)價(jià)函數(shù)會(huì)影響停止標(biāo)準(zhǔn)的選擇。基于生成過程的停止準(zhǔn)則包括:是否選擇了預(yù)定義的特征數(shù)量,以及是否達(dá)到預(yù)定義的迭代數(shù)量?;谠u(píng)價(jià)函數(shù)的停止標(biāo)準(zhǔn)可以是,添加(或刪除)任何特征是否不會(huì)產(chǎn)生更好的子集;是否根據(jù)某個(gè)評(píng)價(jià)函數(shù)得到最優(yōu)子集。循環(huán)繼續(xù),直到滿足某個(gè)停止條件。通過向驗(yàn)證過程輸出選定的特征子集,特征選擇過程停止。結(jié)果驗(yàn)證的一種直接方法是使用數(shù)據(jù)的先驗(yàn)知識(shí)直接度量結(jié)果。它試圖通過執(zhí)行不同的測(cè)試來測(cè)試選定子集的有效性,并將結(jié)果與先前建立的結(jié)果進(jìn)行比較,或者與使用人工數(shù)據(jù)集、真實(shí)數(shù)據(jù)集或兩者的競爭特征選擇方法的結(jié)果進(jìn)行比較。具體流程如圖1所示。

        圖1 特征選擇框架Fig.1 Feature selection framework

        1.2 多標(biāo)簽分類

        現(xiàn)有的多標(biāo)簽分類方法大致可以分為兩大類[16]:(1)問題轉(zhuǎn)換法(problem transformation methods),即將多標(biāo)簽分類問題轉(zhuǎn)化為一個(gè)或多個(gè)單標(biāo)簽分類問題的方法。(2)算法適應(yīng)法(algorithm adaptation methods),即通過采用擴(kuò)展特定學(xué)習(xí)算法直接處理多標(biāo)簽數(shù)據(jù)來解決多標(biāo)簽學(xué)習(xí)問題。多標(biāo)簽學(xué)習(xí)的任務(wù)是從多標(biāo)簽訓(xùn)練集D中學(xué)習(xí)一個(gè)函數(shù)h:X→2L。對(duì)于任何未知的實(shí)例E i(x i是一個(gè)d維特征向量,Y i是與x i相關(guān)的標(biāo)簽集合),多標(biāo)簽分類器h(·)預(yù)測(cè)h(x i)?L為x i的適當(dāng)標(biāo)簽集。為了便于參考,表1列出了本文中使用的主要符號(hào)及其數(shù)學(xué)含義。

        表1 主要符號(hào)及其數(shù)學(xué)意義Table 1 Main symbols and their mathematical significance

        1.2.1 問題轉(zhuǎn)換法

        基于問題轉(zhuǎn)換策略的多標(biāo)簽分類方法是將多標(biāo)簽數(shù)據(jù)通過特定的過程分解為一個(gè)或多個(gè)單標(biāo)簽數(shù)據(jù),并使用單標(biāo)簽分類器進(jìn)行分類。接下來,執(zhí)行與此相反的過程,將分類后的單標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為多標(biāo)簽數(shù)據(jù)。

        (1)二元關(guān)聯(lián)法(binary relevance,BR)。它是多標(biāo)簽分類最常見的問題轉(zhuǎn)換方法。該方法將多標(biāo)簽學(xué)習(xí)任務(wù)轉(zhuǎn)化為q個(gè)獨(dú)立的單標(biāo)簽二元分類問題,其中一個(gè)為L中的標(biāo)簽。換句話說,原始數(shù)據(jù)集被分解為q個(gè)數(shù)據(jù)集,其中包含所有實(shí)例原始數(shù)據(jù)集,如果原始實(shí)例的標(biāo)簽包含y(正實(shí)例),則標(biāo)記為y,否則標(biāo)記為-y(負(fù)實(shí)例)。最后,為了對(duì)一個(gè)未知的多標(biāo)簽實(shí)例進(jìn)行分類,BR通過查詢每個(gè)單獨(dú)的二元分類器上的正標(biāo)簽然后組合這些標(biāo)簽來預(yù)測(cè)其關(guān)聯(lián)的標(biāo)簽集Y。與其他多標(biāo)簽方法相比,BR方法的優(yōu)點(diǎn)是計(jì)算復(fù)雜度低。對(duì)于一定數(shù)量的例子,BR與標(biāo)簽集L的大小q成線性比例,因此,對(duì)于一般情況下q不是很大的情況,BR方法是非常合適的。然而,在不同的領(lǐng)域中可以找到大量的標(biāo)簽,一些分治方法已經(jīng)被提出,將標(biāo)簽組織成樹形層次結(jié)構(gòu),這樣就可以處理比q小得多的標(biāo)簽集。

        標(biāo)準(zhǔn)BR算法的主要缺陷有:(1)完全忽略了標(biāo)簽間可能存在的相關(guān)性以及存在的冗余屬性;(2)可能會(huì)導(dǎo)致類別不平衡問題。為了克服該缺陷,研究者們提出了這種方法的不同變體,如文獻(xiàn)[17]提出了一種新的多標(biāo)簽分類鏈接方法CC(classifier chain)和文獻(xiàn)[18]在分類器鏈的基礎(chǔ)上提出了一種基于樹型的標(biāo)記依賴關(guān)系的分類器鏈算法TCC(tree-based classifier chain)。針對(duì)分類器鏈算法預(yù)測(cè)性能不足以及鏈序問題,文獻(xiàn)[19]提出了一種基于梯度提升的多標(biāo)簽特征選擇算法。

        (2)標(biāo)簽冪集法(label powerset,LP)。這種方法將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為單標(biāo)簽多類分類問題。其主要思想是把每個(gè)樣本所屬的標(biāo)簽集Y i看作一個(gè)單標(biāo)簽yY i,訓(xùn)練集數(shù)據(jù)中出現(xiàn)的所有具有不同值的yY i組成一個(gè)單標(biāo)簽集合LY,為了對(duì)未知的多標(biāo)簽實(shí)例進(jìn)行分類,LP首先查詢多類分類器的預(yù)測(cè),然后將其映射回L的冪集,從而預(yù)測(cè)其關(guān)聯(lián)的標(biāo)簽集Y。與BR不同,LP考慮了標(biāo)簽之間的相關(guān)性,但隨著標(biāo)簽的增加,新類的數(shù)量急劇增加,容易導(dǎo)致訓(xùn)練階段的復(fù)雜度增加。在這些情況下,類的數(shù)量可能會(huì)變得非常大,同時(shí)許多類與很少的訓(xùn)練示例相關(guān)聯(lián)。LP的另一個(gè)缺點(diǎn)是它只能預(yù)測(cè)以前出現(xiàn)在訓(xùn)練集中的標(biāo)簽集,不能推廣到外部的標(biāo)簽集[20]。文獻(xiàn)[21]提出的多標(biāo)簽分類方法即RAkEL(random k-labelsets)和文獻(xiàn)[22]提出的用于多標(biāo)簽分類的廣義標(biāo)簽集集成方法GLE(generalizedk-labelsets ensemble)克服傳統(tǒng)LP方法的缺點(diǎn),減少類的數(shù)量,提高分類的性能。文獻(xiàn)[23]提出了一種基于剪枝的問題轉(zhuǎn)化法PPT(pruned problem transformation),這是對(duì)LP算法的一種改進(jìn),但這種不可逆的轉(zhuǎn)換可能會(huì)導(dǎo)致類信息的丟失。

        1.2.2 算法適應(yīng)法

        這類算法通過采用流行的學(xué)習(xí)技術(shù)直接處理多標(biāo)簽數(shù)據(jù)來解決多標(biāo)簽學(xué)習(xí)問題,其核心是算法對(duì)數(shù)據(jù)的擬合。它包括Boosting算法、KNN(Knearest neighbor)算法、決策樹算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)(support vector machine,SVM)算法等。其中,Boosting算法較為代表性的算法是BoosTexter[24](a Boosting-based system for text categorization),它是對(duì)Boosting改進(jìn)算法AdaBoost.MH和AdaBoost.MR進(jìn)行的擴(kuò)展。KNN是一種分類算法,對(duì)于每個(gè)測(cè)試樣本,首先在訓(xùn)練數(shù)據(jù)中檢測(cè)出K個(gè)最近鄰,然后將測(cè)試樣本分配給其近鄰中最常見的一個(gè)類,其代表性算法為ML-KNN[25](a lazy learning approach to multi-label learning),它是基于不可見實(shí)例的相鄰實(shí)例的標(biāo)簽集的統(tǒng)計(jì)信息,利用最大后驗(yàn)準(zhǔn)則來確定不可見實(shí)例的標(biāo)簽集。張敏靈[26]針對(duì)其未充分考慮樣本多個(gè)標(biāo)簽之間的相關(guān)性,提出了改進(jìn)算法IMLLA(an improved multi-label lazy learning approach)。決策樹算法代表性算法為ML-DT[27](multilabel decision tree),它是在C4.5基礎(chǔ)上提出的一種允許葉節(jié)點(diǎn)使用多個(gè)標(biāo)簽的算法。神經(jīng)網(wǎng)絡(luò)算法中較為代表性的有BP-MLL[8](back-propagation for multi-label learning)和MMP[28](multi-class multi-label perceptron)。BP-MLL是由流行的反向傳播算法推導(dǎo)出來的,它通過使用一個(gè)新穎的誤差函數(shù)來捕捉多標(biāo)簽學(xué)習(xí)的特征;MMP是一組基于感知器的多標(biāo)簽數(shù)據(jù)標(biāo)簽排序的在線算法,它為每個(gè)標(biāo)簽保留一個(gè)感知器,但每個(gè)感知器都必須執(zhí)行權(quán)重更新才能得到較好的標(biāo)簽排序結(jié)果。SVM算法中較為代表性的有Rank-SVM[29],它通過最小化Ranking Loss,將SVM擴(kuò)展到多標(biāo)簽數(shù)據(jù)學(xué)習(xí)中;Xu[30]針對(duì)Rank-SVM缺乏檢測(cè)相關(guān)標(biāo)簽的自然零點(diǎn),提出了一種通過增加一個(gè)零標(biāo)簽來定義一種新形式的排序損失和簡化Rank-SVM的原始形式的改進(jìn)方法,它大大降低了計(jì)算成本。

        1.2.3 評(píng)價(jià)準(zhǔn)則

        對(duì)于多標(biāo)簽分類,有多個(gè)評(píng)價(jià)指標(biāo),本文主要介紹幾個(gè)經(jīng)典的評(píng)價(jià)指標(biāo)[3]。這些度量通過分別評(píng)估學(xué)習(xí)系統(tǒng)在每個(gè)測(cè)試示例上的性能,然后返回整個(gè)測(cè)試集的平均值來工作。

        (1)子集精度(subset accuracy)

        其中,?·?如果·成立則返回1,否則返回0。子集精度評(píng)估正確分類的例子的比例,即預(yù)測(cè)的標(biāo)簽集與原本真實(shí)的標(biāo)簽集相同。直觀上,子集精度可以被視為傳統(tǒng)精度度量的多標(biāo)簽對(duì)應(yīng)指標(biāo),并且往往過于嚴(yán)格,特別是當(dāng)標(biāo)簽空間(即q)較大時(shí)。

        (2)漢明損失(Hamming loss)

        這里,Δ表示兩個(gè)集合的對(duì)稱差,|·|返回集合·的基數(shù)。漢明損失計(jì)算的是錯(cuò)分類標(biāo)簽的百分比,即與錯(cuò)誤標(biāo)簽相關(guān)聯(lián)的樣本或?qū)儆诓槐活A(yù)測(cè)的真實(shí)樣本的標(biāo)簽。

        (3)精度(accuracy),查準(zhǔn)率(precision),查全率(recall),加強(qiáng)調(diào)和平均(Fβ)

        此外,F(xiàn)β(h)檢測(cè)是Precision(h)和Recall(h)的綜合版本,具有β>0平衡因子,最常見的選擇是β=1,這會(huì)導(dǎo)致查準(zhǔn)率和查全率的調(diào)和平均值。

        (4)1-錯(cuò)誤率(one-error rate)

        1-錯(cuò)誤率計(jì)算排名靠前的標(biāo)簽不在相關(guān)標(biāo)簽集中的例子的比例。

        (5)覆蓋率(coverage rate)

        其中,rank f(x,y)根據(jù)f(x,·)的降序返回y在L中的排序。覆蓋率計(jì)算平均需要沿著標(biāo)簽列表向下走多遠(yuǎn)才能覆蓋示例的所有相關(guān)標(biāo)簽。

        (6)排名損失(ranking loss)

        其中,是Y的互補(bǔ)集。排名損失計(jì)算的是逆序標(biāo)簽對(duì)的比例,即不相關(guān)標(biāo)簽的排名高于相關(guān)標(biāo)簽。

        (7)平均精度(average precision)

        平均精度評(píng)價(jià)的是排在某一特定標(biāo)簽y∈Y i之上的相關(guān)標(biāo)簽的平均分?jǐn)?shù)。

        對(duì)于上述度量(除平均精度和精度外),度量值越小,系統(tǒng)性能越好,覆蓋率最優(yōu)值為,1-錯(cuò)誤率和排名損失最優(yōu)值則為0。對(duì)于平均精度和精度的多標(biāo)簽度量,度量值越大,系統(tǒng)性能越好,最優(yōu)值為1。

        2 多標(biāo)簽特征選擇

        不同于單標(biāo)簽特征選擇,多標(biāo)簽特征選擇所面臨的問題更多,比如數(shù)據(jù)樣本具有高維的特征,冗余、不相關(guān)的特征更多,此外每個(gè)特征與多個(gè)標(biāo)簽相關(guān)聯(lián),標(biāo)簽之間也存在一定的關(guān)聯(lián)性。而標(biāo)簽的關(guān)聯(lián)性也使得多標(biāo)簽特征選擇面臨著更多的可能和挑戰(zhàn)。根據(jù)特征選擇與分類器的關(guān)系,多標(biāo)簽特征選擇可以分為基于過濾式的多標(biāo)簽特征選擇,基于包裹式的多標(biāo)簽特征選擇,基于嵌入式的多標(biāo)簽特征選擇三種,如圖2所示。

        圖2 多標(biāo)簽特征選擇的分類Fig.2 Classification of multi-label feature selection

        2.1 基于過濾式的多標(biāo)簽特征選擇

        特征選擇過程獨(dú)立于具體的學(xué)習(xí)算法,通過數(shù)據(jù)本身選擇最相關(guān)的特征,即基于數(shù)據(jù)的內(nèi)在屬性來評(píng)估特征,而不使用任何可以指導(dǎo)相關(guān)特征搜索的學(xué)習(xí)算法,特征選擇的過程與后序?qū)W習(xí)器無關(guān)。依照是否對(duì)多標(biāo)簽數(shù)據(jù)集進(jìn)行分解,可以進(jìn)一步分為基于問題轉(zhuǎn)換的多標(biāo)簽特征選擇和基于算法適應(yīng)的多標(biāo)簽特征選擇。

        2.1.1 基于問題轉(zhuǎn)換的方法

        主要思想:在使用問題轉(zhuǎn)換策略的多標(biāo)簽特征選擇方法中,分解步驟類似于基于問題轉(zhuǎn)換的分類。這里,首先對(duì)單標(biāo)簽數(shù)據(jù)應(yīng)用合適的單標(biāo)簽特征選擇方法,確定要選擇的顯著特征。然后在原始多標(biāo)簽數(shù)據(jù)中選擇這些特征,并刪除其他特征。在這一步中,使用多標(biāo)簽分類器來評(píng)估所選特征子集的性能。

        針對(duì)1.2.1小節(jié)提出的BR未考慮標(biāo)簽相關(guān)性[3]以及存在冗余屬性[31]的問題,文獻(xiàn)[32]提出基于標(biāo)簽相關(guān)性和特征選擇的二元關(guān)聯(lián)算法FLBR(binary relevance with feature selection and label correlation)。該算法使用信息增益為每個(gè)標(biāo)簽選擇與其相關(guān)的特征屬性,同時(shí)針對(duì)現(xiàn)有考察標(biāo)簽相關(guān)性方法存在的冗余依賴和錯(cuò)誤傳播問題,采用控制結(jié)構(gòu)的方式考察標(biāo)簽相關(guān)性。文獻(xiàn)[33]提出了一種基于標(biāo)簽空間相關(guān)性的改進(jìn)分類器鏈算法LSCC(an improved multi-label classifier chain algorithm via label space correlation),用于處理大規(guī)模多標(biāo)簽學(xué)習(xí)的特征選擇和標(biāo)簽鏈序列優(yōu)化。同時(shí),結(jié)合標(biāo)簽空間降維與改進(jìn)多標(biāo)簽分類器鏈算法的優(yōu)勢(shì),提出了一種基于LSCC的標(biāo)簽空間降維算法。針對(duì)分類器鏈標(biāo)簽排序是隨機(jī)決定的和所有標(biāo)簽都是插入到鏈中的兩個(gè)問題,文獻(xiàn)[34]提出了一種帶有特征選擇的部分分類器鏈方法PCC-FS(partial classifier chain method with feature selection),該方法利用了標(biāo)簽和特征空間之間的相關(guān)性,但該方法只使用了logistic回歸方法作為二分類器,未考慮其他二分類器。

        基于1.2.1小節(jié)提出的LP方法中類別多、類別不平衡問題,文獻(xiàn)[35]提出一種利用互信息的多標(biāo)簽特征選擇算法,首先應(yīng)用PPT方法對(duì)問題進(jìn)行轉(zhuǎn)化,然后以多維互信息作為搜索標(biāo)準(zhǔn)進(jìn)行貪婪前向搜索策略,實(shí)驗(yàn)驗(yàn)證了該方法的有效性。文獻(xiàn)[36]提出了可擴(kuò)展的Relief-F多標(biāo)簽學(xué)習(xí)方法PPT-Relief-F,該方法首先使用PPT將多標(biāo)簽問題轉(zhuǎn)換為單標(biāo)簽問題,然后利用Relief-F算法為特征分配權(quán)重。

        目前的基于問題轉(zhuǎn)換的多標(biāo)簽特征選擇方法的局限性在于,它們需要一個(gè)預(yù)處理步驟,將多標(biāo)簽問題轉(zhuǎn)換為單標(biāo)簽問題,這個(gè)過程可能會(huì)導(dǎo)致后續(xù)問題。例如,如果轉(zhuǎn)換后的單標(biāo)簽由太多的類組成,學(xué)習(xí)算法的性能可能會(huì)下降。此外,如果在轉(zhuǎn)換過程中發(fā)生信息丟失,特征選擇就不能考慮標(biāo)簽關(guān)系。

        2.1.2 基于算法適應(yīng)的方法

        在傳統(tǒng)的單標(biāo)簽學(xué)習(xí)中,一個(gè)樣本只與預(yù)定義標(biāo)簽中的一個(gè)相關(guān)聯(lián),而在多標(biāo)簽學(xué)習(xí)中,一個(gè)樣本可能同時(shí)屬于多個(gè)標(biāo)簽。高維樣本向量包含了一些不相關(guān)和冗余的特征,增加了計(jì)算復(fù)雜度,甚至降低了分類性能。目前,這一問題是通過特征選擇技術(shù),從原始特征中選擇一個(gè)高度相關(guān)和低冗余特征的子集。而現(xiàn)有多標(biāo)簽特征選擇算法大多僅僅考慮了特征間及特征與標(biāo)簽的相關(guān)性,忽略了不同標(biāo)簽之間的相關(guān)性。

        (1)未考慮標(biāo)簽間的相關(guān)性

        過濾式特征選擇算法一般使用距離度量標(biāo)準(zhǔn)、相關(guān)性度量標(biāo)準(zhǔn)、一致性度量標(biāo)準(zhǔn)或信息度量標(biāo)準(zhǔn)來衡量特征與標(biāo)簽之間的相關(guān)性,特征的冗余性,比如:ReliefF、互信息(mutual information,MI)、最大相關(guān)最小冗余(maximal relevance and minimal redundancy,MRMR)、Hilbert-Schmidt獨(dú)立性準(zhǔn)則(Hilbert-Schmidt independence criterion,HSIC)等。不同評(píng)價(jià)標(biāo)準(zhǔn)可能獲得不同的最優(yōu)特征子集。

        ①使用ReliefF準(zhǔn)則衡量特征與標(biāo)簽相關(guān)性

        通過對(duì)多標(biāo)簽數(shù)據(jù)的研究,在傳統(tǒng)單標(biāo)簽特征選擇算法ReliefF的基礎(chǔ)上,文獻(xiàn)[37]提出了一種用于多標(biāo)簽圖像分類的特征選擇的ReliefF(multi-label ReliefF,ML-Relief F)和F統(tǒng)計(jì)量(multi-label F-statistic,MFstatistic)方法的擴(kuò)展。但該模型只考慮了成對(duì)標(biāo)簽之間的關(guān)聯(lián)度。馬晶瑩等人[38]提出了基于ML-ReliefF的特征選擇算法,并研究了最接近相似樣本和異構(gòu)樣本的搜索方法。Xie等人[39]提出了一種針對(duì)不平衡數(shù)據(jù)集的ML-Relief特征選擇算法來降低維度。然而,這些算法都有其不足之處。例如,冗余特征不能通過刪除低權(quán)重的特征來消除;在確定最近鄰樣本時(shí),使用ML-ReliefF隨機(jī)選取的樣本較少,導(dǎo)致特征權(quán)重波動(dòng)較大[38]。為了解決這些問題,文獻(xiàn)[40]在多標(biāo)簽鄰域決策系統(tǒng)中提出了一種新的基于ML-ReliefF和鄰域互信息的多標(biāo)簽特征選擇方法,該方法采用已知的相似樣本和非均勻樣本之間的平均距離來評(píng)價(jià)樣本之間的差異,但其需要耗費(fèi)大量的時(shí)間且不能較好地平衡所選特征子集的大小和分類性能。文獻(xiàn)[41]提出了基于全局樣本相關(guān)性的改進(jìn)ReliefF多標(biāo)記特征選擇算法,但僅依靠特征與標(biāo)簽之間的相關(guān)性選擇特征子集,忽略了標(biāo)簽間的依賴關(guān)系,并且該算法只適合處理小規(guī)模數(shù)據(jù)集。Slavkov等人[42]將RReliefF算法用于回歸,提出了用于分層多標(biāo)簽分類任務(wù)的HMC-ReliefF(ReliefF for hierarchical multilabel classification)算法,但沒有考慮不同類型的層次結(jié)構(gòu)。

        基于ReliefF的多標(biāo)簽特征選擇方法一般步驟是首先提出一種判斷樣本是否同類與異類的模型,并將其引入改進(jìn)的ReliefF算法中用于判斷隨機(jī)樣本的近鄰?fù)惡彤愵?,然后用于多?biāo)簽數(shù)據(jù)集中給樣本賦權(quán)重,迭代更新權(quán)重,最后根據(jù)特征權(quán)重選擇特征子集。此類算法能夠有效地提高分類的性能,但樣本數(shù)量過少易導(dǎo)致權(quán)重的波動(dòng)。其中,最優(yōu)方法可以解決不穩(wěn)定性以及預(yù)測(cè)精度低的問題,還可以解決采用ReliefF搜索最近樣本時(shí)可用隨機(jī)樣本少的問題,并且降低了計(jì)算復(fù)雜度,去除了冗余特征,提高了分類性能。

        ②使用MI衡量特征與標(biāo)簽相關(guān)性

        MI作為變量的依賴度量,可用于評(píng)估變量的關(guān)聯(lián)度,并測(cè)量一個(gè)變量與另一個(gè)給定變量之間減少的不確定性[43],例如兩組隨機(jī)變量A、B之間的MI定義如下:

        其中,p(a,b)為A、B的聯(lián)合概率分布函數(shù),p(a)和p(b)分別是A、B的邊緣概率分布函數(shù)。

        對(duì)于多標(biāo)簽數(shù)據(jù)集,Lee等人[44]開發(fā)了一種使用多元互信息的多標(biāo)簽特征選擇方法。Doquire等人[45]通過考慮標(biāo)簽和特征之間的依賴性,為多標(biāo)簽分類提供了一種基于MI的特征選擇方法。不幸的是,這兩種方法幾乎沒有處理選定特征和候選特征之間的條件冗余。Lin等人[46]提出了一種結(jié)合MI的基于最大依賴和最小冗余的多標(biāo)簽特征選擇算法。但這種方法忽略了標(biāo)簽之間的相關(guān)性。文獻(xiàn)[47]提出了一種簡單快速的多標(biāo)記特征選擇方法EF-MLFS(easy and fast multi label feature selection)。該方法首先使用MI衡量每個(gè)維度的特征與每一維標(biāo)記之間的相關(guān)性,實(shí)驗(yàn)表明該方法具有良好的分類效果,且無需進(jìn)行全局搜索,時(shí)間復(fù)雜度低。但它將冗余性去掉,只考慮了特征與標(biāo)簽之間的相關(guān)性。而針對(duì)貪婪搜索和啟發(fā)式搜索方法會(huì)陷入局部最優(yōu)的缺點(diǎn),Lim等人[48]于2017年提出的一種基于MI與凸優(yōu)化的方法,改進(jìn)了以往基于啟發(fā)式搜索的特征選擇策略,在MRMR方法的基礎(chǔ)上利用MI計(jì)算相關(guān)性與冗余性,得到全局最優(yōu)解,但該方法需要計(jì)算所有的一階依賴關(guān)系,因此計(jì)算效率不高。針對(duì)高階特征相關(guān)性的低階近似度量缺乏理論基礎(chǔ)支撐的問題,文獻(xiàn)[49]提出了一種基于聯(lián)合互信息和交互權(quán)重的多標(biāo)簽特征選擇方 法MFSJMI(multi-label feature selection method based on joint mutual information),但并沒有準(zhǔn)確度量候選特征與已選特征關(guān)于標(biāo)簽集合的冗余性。針對(duì)大多數(shù)研究沒有考慮到標(biāo)簽的不平衡性,文獻(xiàn)[50]提出了一種基于標(biāo)簽不平衡性的多標(biāo)簽粗糙互信息特征選擇方法,實(shí)驗(yàn)驗(yàn)證了該算法的有效性,但該算法沒有考慮特征之間存在的冗余性。

        有研究人員將MI推廣到模糊互信息上,文獻(xiàn)[51]提出了一種基于模糊互信息的多標(biāo)簽特征選擇。它考慮的是連續(xù)數(shù)值的MI。在多標(biāo)簽學(xué)習(xí)中,假設(shè)相關(guān)標(biāo)簽均勻分布,會(huì)忽略了相關(guān)標(biāo)簽之間的差異,導(dǎo)致監(jiān)督信息的丟失。文獻(xiàn)[52]針對(duì)此問題提出了一個(gè)基于標(biāo)簽分布和模糊互信息的特征選擇算法。但上述算法大多沒有關(guān)注標(biāo)簽之間的共現(xiàn)特性。為了解決這一問題,文獻(xiàn)[53]提出了基于標(biāo)簽共現(xiàn)關(guān)系的多標(biāo)簽特征選擇LC-FS(multi-label feature selection based on label co-occurrence relationship),該算法利用樣本標(biāo)簽間的共現(xiàn)關(guān)系定義了特征與標(biāo)簽之間的模糊互信息,并結(jié)合MRMR實(shí)現(xiàn)特征選擇。在5個(gè)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提算法的有效性,但忽略了標(biāo)簽間的相關(guān)性。

        也有研究人員將MI推廣到條件互信息CMI(conditional mutual information)上,劉杰等人[54]提出一個(gè)新的基于條件相關(guān)性概念的條件相關(guān)特征選擇算法CRFS(condition relevance feature selection),驗(yàn)證了條件相關(guān)性較傳統(tǒng)的相關(guān)性具有一定的優(yōu)勢(shì),然而,隨著數(shù)據(jù)特征維數(shù)的不斷增加,數(shù)據(jù)間的關(guān)系變得越來越復(fù)雜,如何客觀、快速地找出數(shù)據(jù)間真實(shí)的關(guān)系仍是一項(xiàng)艱巨而緊迫的任務(wù)。程玉勝等人[55]提出利用CMI將專家特征與其他特征聯(lián)合并進(jìn)行了相關(guān)性排序,去除冗余性較大的特征,提高算法的性能,但其存在專家特征的選取與個(gè)人選取的特征不一致的問題,從而造成結(jié)果存在一定的誤差。文獻(xiàn)[56]提出了一種新的基于CMI的過濾式特征選擇方法,該方法通過最大化逼近的全維CMI,并通過建立HSIC的關(guān)系,對(duì)其內(nèi)在的相關(guān)性最大化和冗余最小化的促進(jìn)作用進(jìn)行了定性驗(yàn)證。實(shí)驗(yàn)結(jié)果表明該方法在標(biāo)簽預(yù)測(cè)方面具有優(yōu)勢(shì)。文獻(xiàn)[57]根據(jù)MRMR準(zhǔn)則,采用類標(biāo)簽與特征集之間的聯(lián)合互信息和特征集之間的聯(lián)合互信息來描述關(guān)聯(lián)和冗余,提出了一種基于CMI的最大關(guān)聯(lián)最小冗余特征選擇算法CMI-MRMR。實(shí)驗(yàn)結(jié)果表明,與其他算法相比,CMIMRMR在花費(fèi)更多時(shí)間的前提下,能夠獲得更好的特征選擇性能,但在某些數(shù)據(jù)集上該方法選取的前50個(gè)最優(yōu)特征的分類精度比所有特征的分類精度差,因此對(duì)特征個(gè)數(shù)的確定需要進(jìn)行進(jìn)一步優(yōu)化。

        在多標(biāo)簽數(shù)據(jù)的標(biāo)簽集合中,每個(gè)標(biāo)簽都具有不同的重要性權(quán)重,不同權(quán)重的標(biāo)簽對(duì)選取特征具有重要的影響。一些研究人員就此方面給出了相應(yīng)的辦法。陳福才等人[58]針對(duì)標(biāo)簽關(guān)系和標(biāo)簽權(quán)重,提出了一種基于標(biāo)簽關(guān)系改進(jìn)的多標(biāo)簽特征選擇算法MLFSLC(multilabel feature selection algorithm based on the improved label correlation),該算法對(duì)特征相關(guān)性和冗余性進(jìn)行了加權(quán),從而選擇出最佳特征子集。實(shí)驗(yàn)結(jié)果表明該算法能夠提高多標(biāo)簽學(xué)習(xí)算法的效率,但是由于互信息量計(jì)算方法的限制及算法的處理對(duì)象是離散型特征變量,在對(duì)具有連續(xù)型特征變量的數(shù)據(jù)集進(jìn)行離散化處理的過程中,會(huì)對(duì)數(shù)據(jù)結(jié)構(gòu)造成破壞,影響分類結(jié)果。白偉明[59]提出了一種MI加權(quán)標(biāo)簽的多標(biāo)簽I-Relief(iterative Relief)算法,但在選取I-Relief框架處理多標(biāo)簽時(shí),有可能得到局部的最優(yōu)子集。孟威[60]提出了一種基于相關(guān)特征組的多標(biāo)簽特征選擇算法CFGFS(multi-label feature selection algorithm based on correlation feature group),該算法根據(jù)帶有不同重要性權(quán)重的標(biāo)簽組,在每個(gè)特征組中選取與標(biāo)簽組相關(guān)的特征,但該算法僅考慮了特征之間存在的相關(guān)性,卻沒有考慮特征集合中可能存在的某些結(jié)構(gòu)關(guān)系,例如特征分層、特征重要性。

        大部分基于MI的多標(biāo)簽特征選擇方法先是使用MI或者M(jìn)I的推廣衡量特征的重要性和相關(guān)性,然后構(gòu)造搜索策略求解評(píng)分函數(shù)對(duì)所得重要性進(jìn)行排序選擇最優(yōu)特征子集。該類方法與基于一致性的多標(biāo)簽特征選擇方法相比,時(shí)間、內(nèi)存消耗顯著減少。并且較其他過濾式方法應(yīng)用廣泛。其中,最優(yōu)方法不僅考慮了特征與標(biāo)簽相關(guān)性強(qiáng)的特征,還考慮了重要性次要的特征以及可能決定整體預(yù)測(cè)方向的最關(guān)鍵特征,并且它具有較好的穩(wěn)定性和實(shí)際應(yīng)用價(jià)值,去除了冗余性較大的特征,減少了計(jì)算時(shí)間,提高了分類性能。

        ③使用MRMR衡量特征與標(biāo)簽的相關(guān)性

        MRMR是在MI最大化的基礎(chǔ)上提出的基于關(guān)聯(lián)和冗余的特征選擇算法。它采用特征與類標(biāo)簽之間的MI來描述相關(guān)性,利用特征之間的MI來描述冗余。由于同時(shí)考慮了相關(guān)性和冗余性,提高了這些算法的特征選擇性能。MRMR由Peng等人[61]首次在2005年提出,其理論基礎(chǔ)為:

        其中,D表示獨(dú)立性R表示冗余性S為選擇的特征子集,C為對(duì)應(yīng)的標(biāo)記。

        文獻(xiàn)[62]提出了一種過濾式多標(biāo)簽特征選擇算法ML-MRMR(multi-label max-relevance min-redundancy),該算法通過對(duì)特征進(jìn)行權(quán)重運(yùn)算,獲得特征與多標(biāo)簽集合的關(guān)聯(lián)信息,以得到最優(yōu)特征子集。文獻(xiàn)[63]提出了一種基于MRMR聯(lián)合MI多標(biāo)簽特征選擇算法JMMC(multi-label feature selection algorithm based on joint mutual information of max-relevance and minredundancy),該算法通過使用MI和交互信息的理論以及最大最小的特征選擇原則,得到最優(yōu)子集,并且降低了計(jì)算復(fù)雜度。文獻(xiàn)[64]針對(duì)MRMR算法存在的問題,提出一種新的最大相關(guān)最小冗余特征選擇算法New-MRMR(new algorithm for feature selection with maximum relation and minimum redundancy),該算法在冗余度度量準(zhǔn)則方面引入了2種不同的方法,在相關(guān)度度量準(zhǔn)則方面引入了4種不同的方法,結(jié)果表明新提出的方法所選的特征子集更優(yōu),當(dāng)然其他評(píng)價(jià)冗余度和相關(guān)度的方法也可以適用該框架,且這些算法在不同數(shù)據(jù)集上表現(xiàn)性能不同。文獻(xiàn)[65]基于MRMR準(zhǔn)則提出一種新的基于相關(guān)性與冗余性分析的半監(jiān)督特征選擇方法S2R2(semi-supervised feature selection method based on relevance and redundancy),該方法可以有效識(shí)別與移除不相關(guān)和冗余特征,提高算法的運(yùn)行效率,但其在高維數(shù)據(jù)集中計(jì)算復(fù)雜度較高。

        基于MRMR的多標(biāo)簽特征選擇方法與基于MI的方法步驟類似,但該方法不僅考慮了特征之間的相關(guān)性和冗余性,還考慮了特征與標(biāo)簽之間的相關(guān)性,可以提高分類的準(zhǔn)確率,降低特征的維數(shù)。其中,最優(yōu)方法可以有效識(shí)別與移除不相關(guān)和冗余特征,提高了算法的運(yùn)行效率,降低了計(jì)算復(fù)雜度,可以更好地應(yīng)對(duì)大規(guī)模特征選擇問題,較其他方法性能好且具有泛用性。

        ④使用HSIC準(zhǔn)則衡量特征與標(biāo)簽的相關(guān)性

        HSIC準(zhǔn)則是兩組隨機(jī)變量之間基于核的依賴測(cè)度,包括有偏HSIC[66]和無偏HSIC[12]兩個(gè)版本。給定一組的觀察結(jié)果D={(x i,y i)}m i=1來自P xy聯(lián)合概率分布和所選的核函數(shù)k和l,可以構(gòu)造兩個(gè)核矩陣K,L∈Rm×m,其中K ij=k(x i,x j),L ij=l(yi,y j)。呈現(xiàn)的是如下形式:

        為了解決這一偏差,在文獻(xiàn)[12]中提出了無偏估計(jì),其形式為:

        其中,?和是通過使K和L的對(duì)角項(xiàng)為零得到的矩陣,即,這里的δi,j為克羅內(nèi)克符號(hào)。

        將HISC應(yīng)用于特征選擇問題時(shí),可以描述所選特征與標(biāo)簽之間的顯著相關(guān)性。對(duì)于候選特征,既要最大化其相關(guān)性,又要最小化其最大或平均冗余,文獻(xiàn)[67]利用特征空間和標(biāo)簽空間的線性核,提出了一種簡單特征排序和順序前向選擇相結(jié)合的多標(biāo)簽特征選擇方法。但這種方法由于其貪婪搜索策略,只能找到局部最優(yōu)特征子集。因此,文獻(xiàn)[68]提出了一種基于無偏HSIC準(zhǔn)則和控制遺傳算法的多標(biāo)簽特征選擇方法CGAHSIC(multi-label feature selection method combining unbiased Hilbert-Schmidt independence criterion with controlled genetic algorithm),但它沒有考慮標(biāo)簽之間的依賴關(guān)系。文獻(xiàn)[69]提出了一種基于HSIC的最大化依賴性多標(biāo)簽半監(jiān)督學(xué)習(xí)方法DMMS(dependence maximization multi-label semi-super vised learning method),該方法選用HSIC作為所有樣本特征集和標(biāo)簽集之間的依賴程度的度量,但未考慮標(biāo)簽之間的依賴性。文獻(xiàn)[70]提出了一種基于HSIC準(zhǔn)則的圖數(shù)據(jù)特征選擇,然而使用子圖作為特征的方法仍然面臨著信息丟失的問題,因?yàn)樽訄D有效考慮多個(gè)腦區(qū)之間的拓?fù)浣Y(jié)構(gòu)信息,但這種方法對(duì)單個(gè)腦區(qū)的變化不是很敏感,且對(duì)病理相關(guān)的區(qū)域的變化以及怎樣的變化導(dǎo)致疾病的發(fā)生的問題沒有很好的解決。文獻(xiàn)[71]提出了一種半監(jiān)督多標(biāo)記特征選擇算法SSMLFS(semi-supervised multilabel feature selection),通過分析樣本特征與其相對(duì)應(yīng)的標(biāo)記之間的相關(guān)性,合理利用未標(biāo)記數(shù)據(jù)的信息,但該算法是基于每個(gè)數(shù)據(jù)樣本屬于正確標(biāo)記的前提下進(jìn)行研究的,沒有考慮樣本誤分類的情形且沒有考慮成對(duì)標(biāo)記之間的依賴性。為了增強(qiáng)多標(biāo)簽分類器的泛化能力,利用多標(biāo)簽特征選擇方法對(duì)原始空間進(jìn)行表征,可以得到近似最優(yōu)的特子集,Li等人[72-73]提出了兩種對(duì)連續(xù)數(shù)據(jù)具有Pareto最優(yōu)性的多標(biāo)記特征選擇方法MLFSPO(multi-label feature selection approach with Pareto optimality for continuous data)和UN-MLFSPO(multilabel feature selection with Pareto optimality without presetting threshold)。不過UN-MLFSPO僅根據(jù)Pareto最優(yōu)性得到最優(yōu)特征子集,無需預(yù)先設(shè)定特征數(shù)量和閾值。它們都不適合特征少標(biāo)簽多的情況,也沒有針對(duì)標(biāo)簽間的相關(guān)性進(jìn)行分析。

        基于HSIC的多標(biāo)簽特征選擇方法以最大化特征與標(biāo)簽之間的相關(guān)性為目標(biāo),利用HSIC構(gòu)造特征與標(biāo)簽之間的相關(guān)矩陣,然后根據(jù)搜索策略與特征排序準(zhǔn)則相結(jié)合選擇最優(yōu)特征子集。該方法具有較好的分類性能和魯棒性,尤其在半監(jiān)督方法上可以合理利用未標(biāo)記數(shù)據(jù)的信息進(jìn)行特征選擇。其中,最優(yōu)方法利用標(biāo)簽加權(quán)方法評(píng)估標(biāo)簽的重要性,可以有效地處理低維空間中的線性不可分問題,提高了分類的泛化性能和魯棒性。

        (2)考慮了標(biāo)簽間的相關(guān)性

        現(xiàn)有多標(biāo)簽特征選擇算法在選擇最優(yōu)特征子集時(shí)較少考慮不同標(biāo)簽之間的相關(guān)性對(duì)結(jié)果的影響。

        ①使用ReliefF衡量

        文獻(xiàn)[74]提出了一種用于處理多標(biāo)簽問題的過濾特征加權(quán)方法ReliefF-ML,該算法根據(jù)特征對(duì)近鄰樣本中同類和異類的感度來選擇較優(yōu)的特征并利用加權(quán)特征集進(jìn)行分類,該方法可以應(yīng)用于連續(xù)問題和離散問題,它包含了特征之間的相互作用,并考慮了標(biāo)簽依賴性。Slavkov等人[75]將HMC-ReliefF與基于BR的特征排序方法進(jìn)行了比較,實(shí)驗(yàn)表明HMC-ReliefF算法表現(xiàn)良好。該算法利用了標(biāo)簽之間的依賴關(guān)系,并可擴(kuò)展到具有大量標(biāo)簽的域,但該算法生成的排名的穩(wěn)定性對(duì)鄰域的大小不太敏感。

        ②使用MI衡量

        Li等人[76]設(shè)計(jì)了一種基于MI的最大關(guān)聯(lián)最小冗余粒度特征選擇算法。但當(dāng)信息顆粒數(shù)量很大時(shí),其復(fù)雜度較高。Sun等人[77]通過約束凸優(yōu)化構(gòu)造了一種基于MI的特征選擇算法,通過標(biāo)簽相關(guān)性生成廣義模型。但上述算法假設(shè)標(biāo)簽空間中所有標(biāo)簽的比例相同,忽略了每個(gè)標(biāo)簽的比例對(duì)特征與標(biāo)簽集的關(guān)聯(lián)度的影響,從而降低了分類性能?;谶@一觀察,引入每個(gè)標(biāo)簽的比例來改善MI衡量變量之間的相互依賴性,它可以表明標(biāo)簽之間的重要性,特征和標(biāo)簽集之間的強(qiáng)度對(duì)多標(biāo)簽數(shù)據(jù)集進(jìn)行預(yù)處理。文獻(xiàn)[78]提出了一種基于MI和ML-ReliefF的多標(biāo)簽特征選擇方法,以提高多標(biāo)簽分類性能。

        傳統(tǒng)的基于MI的多標(biāo)簽特征選擇算法大多未探討標(biāo)簽集內(nèi)在的語義結(jié)構(gòu),針對(duì)以上不足,文獻(xiàn)[79]利用標(biāo)簽之間的MI和挖掘出的標(biāo)簽集語義結(jié)構(gòu)信息進(jìn)一步度量特征和標(biāo)簽集的相關(guān)性,再利用MRMR框架篩選特征,實(shí)驗(yàn)證明了該算法的有效性,但對(duì)于標(biāo)簽個(gè)數(shù)較少的數(shù)據(jù)集采用聚類方法可能效果不佳。針對(duì)多標(biāo)簽特征選擇方法在測(cè)量不同特征時(shí)忽略了標(biāo)簽關(guān)系對(duì)特征的不同影響和標(biāo)簽關(guān)系的動(dòng)態(tài)變化,文獻(xiàn)[80]提出了兩種新的多標(biāo)簽特征選擇方法,即考慮標(biāo)簽補(bǔ)充的多標(biāo)簽特征選擇方法LSMFS(multi-label feature selection considering label supplementation)和考慮最大標(biāo)簽補(bǔ)充的多標(biāo)簽特征選擇方法MLSMFS(multi-label feature selection considering maximum label supplementation)。

        ②使用HSIC準(zhǔn)則衡量

        在圖分類中,在多標(biāo)簽情況下對(duì)圖數(shù)據(jù)進(jìn)行分類的主要困難在于圖數(shù)據(jù)結(jié)構(gòu)復(fù)雜,缺乏對(duì)多標(biāo)簽概念有用的特征。因此為圖數(shù)據(jù)選擇合適的特征集是多標(biāo)簽圖分類中必不可少的重要步驟。文獻(xiàn)[81]首次將多標(biāo)簽特征選擇用于圖數(shù)據(jù),提出了一種新的圖數(shù)據(jù)多標(biāo)簽特征選擇方法gMLC(multi-label feature selection frameworkfor graph classification),該方法可以利用子圖特征與圖個(gè)標(biāo)簽之間依賴性的評(píng)價(jià)標(biāo)準(zhǔn)gHSIC來尋找最優(yōu)的子圖特征集進(jìn)行圖分類。當(dāng)然,標(biāo)簽相關(guān)性也考慮在內(nèi)。不過它只使用了簡單的策略來構(gòu)造標(biāo)簽核矩陣,也可以采用各種其他類型的標(biāo)簽核函數(shù)來衡量多個(gè)標(biāo)簽之間的標(biāo)簽相關(guān)性,且該方法只選擇一組子圖特征并在多個(gè)支持向量機(jī)上使用。文獻(xiàn)[82]根據(jù)圖的標(biāo)簽之間存在著相關(guān)性提出了一種基于HSIC的多標(biāo)簽特征選擇算法,并采用交替最優(yōu)解算法來進(jìn)行優(yōu)化。但圖的多個(gè)標(biāo)簽之間的關(guān)聯(lián)性仍需進(jìn)一步挖掘,可采用更優(yōu)秀的核函數(shù)替代多項(xiàng)式核函數(shù)。

        在過濾式算法中,選擇一個(gè)合適的評(píng)價(jià)準(zhǔn)則可能得到較優(yōu)的分類效果,但無法保證選擇的最優(yōu)特征子集的規(guī)模最小,當(dāng)特征與分類器存在較大相關(guān)性時(shí),找到的最優(yōu)特征子集規(guī)模會(huì)更大,冗余和不相關(guān)的特征也會(huì)增多,很大程度上影響多標(biāo)簽學(xué)習(xí)的分類性能。但這類算法可以快速剔除大量冗余和不相關(guān)特征,運(yùn)行效率高,適合于大規(guī)模數(shù)據(jù)。

        2.2 基于包裹式的多標(biāo)簽特征選擇

        包裹式算法可以看作分類算法的一部分,它將特征選擇過程和分類器封裝在一起,根據(jù)分類器來評(píng)估特征子集的優(yōu)劣。其主要思想是從特征集合中選擇可使學(xué)習(xí)器性能最佳的特征子集。由于特征子集組合種類隨特征個(gè)數(shù)增加而指數(shù)性增長,因此從所有特征組合中進(jìn)行搜索是一個(gè)NP-hard問題。為此一般會(huì)選取一些時(shí)間復(fù)雜度低的搜索策略,例如啟發(fā)式策略或是進(jìn)化算法(evolutionary algorithm,EA)等。

        2.2.1 采用進(jìn)化算法的包裹式算法

        進(jìn)化算法也可稱為演化算法,遺傳算法(genetic algorithm,GA)是進(jìn)化算法的其中一種。

        針對(duì)遺傳算法的搜索策略,文獻(xiàn)[83]提出了一種新的基于標(biāo)注關(guān)鍵詞的圖像檢索多標(biāo)簽圖像標(biāo)注方法。除此之外還采用了基于PageRank的標(biāo)注細(xì)化方法。文獻(xiàn)[84]提出一個(gè)混合優(yōu)化的多標(biāo)簽特征選擇算法HOML(hybrid optimization based multi-label feature selection),該方法結(jié)合了全局優(yōu)化能力較強(qiáng)的模擬退火算法和遺傳算法及局部優(yōu)化能力較強(qiáng)的貪婪算法得到最優(yōu)特征子集。實(shí)驗(yàn)證明,該方法有效地降低了數(shù)據(jù)的維度并較好地提高了分類性能。但并未從根本上解決遺傳算法本身缺陷給特征選擇帶來的不良影響。因此,文獻(xiàn)[85]提出了一種基于改進(jìn)型遺傳算法的多標(biāo)簽特征選擇算法,該算法通過在模擬退火過程引入Metropolis準(zhǔn)則和在遺傳算法中引入大變異來獲得最優(yōu)解,但其存在計(jì)算效率不高等缺陷。針對(duì)遺傳算法在識(shí)別接近全局最優(yōu)的特征子集方面存在局限性,導(dǎo)致運(yùn)行時(shí)間長的問題,文獻(xiàn)[86]提出了一種適用于多標(biāo)簽分類的模因特征選擇算法,防止了早熟收斂,提高了分類效率。但這種方法在對(duì)特征進(jìn)行選擇的時(shí)候并未考慮標(biāo)簽之間的隱含關(guān)聯(lián)信息,使得到的特征子集并未達(dá)到最佳。包裹式方法也可用于多目標(biāo),比如文獻(xiàn)[87]提出了一種包裝型多目標(biāo)多標(biāo)簽特征選擇MMFS(multi-label multiobjective feature selection method)。該方法以多標(biāo)簽最近鄰法ML-KNN為基礎(chǔ),進(jìn)而利用進(jìn)化遺傳算法NSGA-II對(duì)平均精度最大化和漢明損失最小化。實(shí)驗(yàn)表明,該方法比現(xiàn)有的其他方法具有更好的性能,但還需在更多的數(shù)據(jù)集上驗(yàn)證和控制所選特征的大小。

        針對(duì)傳統(tǒng)進(jìn)化算法中的由于初始種群通常是隨機(jī)產(chǎn)生的造成對(duì)輸入數(shù)據(jù)集的知識(shí)不可獲取的問題,文獻(xiàn)[88]提出了一種基于EA的考慮特征和標(biāo)簽之間依賴關(guān)系的多標(biāo)簽特征選擇方法的初始種群生成方法,這是首次提出一種無參種群初始化方法,該方法可以作為EA的預(yù)處理。文中首先引入CMI,設(shè)計(jì)了一種得分函數(shù)計(jì)算每個(gè)特征的重要度,進(jìn)而生成初始種群;然后將生成的種群作為基于EA的多標(biāo)記特征選擇方法的輸入。該方法提高了傳統(tǒng)基于EA的多標(biāo)記選擇方法的分類性能,但該方法需要二次計(jì)算,雖然采用了一種低秩近似方法來減少計(jì)算問題,但作為種群初始化過程的一部分,在大型特征數(shù)據(jù)集中選擇特征的計(jì)算負(fù)擔(dān)仍然很重。

        進(jìn)化算法除了上述算法,還包括其衍生算法多目標(biāo)演化算法、神經(jīng)進(jìn)化算法、差分進(jìn)化算法、粒子群算法(particle swarm optimization,PSO)等。比如文獻(xiàn)[89]提出的一種基于差分進(jìn)化的多標(biāo)簽多目標(biāo)特征選擇算法,該方法將分類性能和特征數(shù)作為適應(yīng)度函數(shù)。文獻(xiàn)[90]提出了一種基于PSO算法的包裝器多標(biāo)簽多目標(biāo)特征選擇算法。該方法利用基于概率的編碼策略來表示每個(gè)粒子,使問題適應(yīng)于PSO算法。為了提高粒子群算法的性能,還加入了自適應(yīng)均勻變異和局部學(xué)習(xí)策略,針對(duì)基于PSO的離線多標(biāo)簽特征選擇方法,文獻(xiàn)[91]提出了一種基于PSO的多目標(biāo)多標(biāo)簽在線特征選擇方法,然而,如果在選擇的開始就出現(xiàn)了大量的顯著特征,那么該方法可能會(huì)遭受計(jì)算上的困難,并且該方法沒有考慮標(biāo)簽之間的依賴性。進(jìn)化算法中的最優(yōu)方法可以快速收斂,比隨機(jī)初始化的種群所需的進(jìn)化過程更少,較傳統(tǒng)的基于遺傳算法的多標(biāo)簽特征選擇方法提高了分類精度,得到更優(yōu)的特征子集。

        2.2.2 采用啟發(fā)式搜索的包裹式算法

        啟發(fā)式搜索獲得的通常為局部最優(yōu)解,比較常見的算法有前向搜索法SFS(sequential forward searing)、后向搜索法SBS(sequential backward searing)和增l減r法。

        針對(duì)標(biāo)簽相關(guān)性對(duì)特征選擇的影響,葉蘇荷[92]提出了基于標(biāo)簽相關(guān)性和貝葉斯網(wǎng)絡(luò)分類器鏈BNCC[93]方法(Bayesian network-based classifier chain method)的多標(biāo)簽特征選擇算法BNCC-FS(multi-label feature selection algorithm based on label correlation and BNCC algorithm),該方法采用互信息進(jìn)行優(yōu)化評(píng)分函數(shù),并利用啟發(fā)式搜索策略搜索最優(yōu)的特征子集。實(shí)驗(yàn)結(jié)果證明了該算法的有效性和可行性,但該算法根據(jù)鏈?zhǔn)降捻樞蛞来芜x擇最優(yōu)的特征子集,未同時(shí)考慮所有標(biāo)簽和所有原始特征之間的復(fù)雜關(guān)系。文獻(xiàn)[94]提出了一種基于啟發(fā)式搜索的多標(biāo)簽特征選擇算法,該算法使用ReliefF去除數(shù)據(jù)集中的不相關(guān)特征,采用啟發(fā)式算法MFO(moth-flame optimization)進(jìn)行特征子集尋優(yōu),進(jìn)一步去除數(shù)據(jù)集中的冗余特征和提高分類器的性能,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性,得到了較好的分類效果。文獻(xiàn)[95]提出了一種基于標(biāo)記相關(guān)性的模糊粗糙多標(biāo)簽特征選擇方法,該方法通過整合全局和局部標(biāo)簽相關(guān)性來衡量標(biāo)簽之間的聯(lián)系,構(gòu)建多標(biāo)簽?zāi):植诩P瓦M(jìn)行特征選擇,進(jìn)而提出模糊依賴函數(shù)來評(píng)價(jià)特征的重要性和前向搜索策略選擇最優(yōu)特征子集。但該方法容易陷入局部最優(yōu)解。其中,最優(yōu)方法考慮了標(biāo)簽間的相關(guān)性,具有較好的分類效果和相對(duì)較低的時(shí)間復(fù)雜度。

        包裹式算法優(yōu)點(diǎn)在于特征選擇與訓(xùn)練分類器結(jié)合時(shí)能選擇出最優(yōu)的特征子集,這也說明,選擇出的特征子集不適用于其他分類器。然而,包裹式方法的主要缺點(diǎn)是它們通常具有很高的計(jì)算成本,并且它們僅限于與特定的算法結(jié)合使用。

        2.3 基于嵌入式的多標(biāo)簽特征選擇

        嵌入式方法試圖利用前面兩種方法的特性,在計(jì)算效率和有效性之間取得良好的折衷。嵌入式方法克服了計(jì)算的復(fù)雜性。在該方法中,特征選擇和模型學(xué)習(xí)同時(shí)進(jìn)行,并且在模型的訓(xùn)練階段選擇特征。嵌入特征選擇使用從某些分類器中提取的度量來評(píng)估特征子集。

        在嵌入式方法中,稀疏正則化被廣泛應(yīng)用,因此分類器歸納和特征選擇都安排在單一框架中??梢园烟卣鬟x擇問題看成正則化的系數(shù)矩陣稀疏問題,因此,可以通過稀疏權(quán)重矩陣W選擇特征子集,且l2,1范數(shù)可以有效地約束W的行間稀疏、行內(nèi)穩(wěn)定,更有利于特征選擇。從而有:

        其中,X為特征矩陣,L為標(biāo)簽矩陣,且在l2,1范數(shù)距離上有L=XW,第一項(xiàng)為目標(biāo)函數(shù)項(xiàng),β為懲罰因子,R(W)為正則化項(xiàng),又為懲罰函數(shù),表示對(duì)W的相應(yīng)約束懲罰

        傳統(tǒng)的半監(jiān)督方法主要采用稀疏正則化,但未能充分利用特征與標(biāo)簽之間的關(guān)系。文獻(xiàn)[96]提出了一種新的基于圖的半監(jiān)督學(xué)習(xí)框架來解決多標(biāo)簽問題同時(shí)考慮多個(gè)標(biāo)簽之間的相關(guān)性和圖上標(biāo)簽的一致性。Chang等人[97]提出了一種有效的半監(jiān)督特征選擇算法CSFS(convex semi-supervised multi-label feature selection),它選擇特征不需要圖的構(gòu)造和特征分解。但是,該算法沒有考慮到不同標(biāo)簽之間的相關(guān)性。然后Chang等人[98]設(shè)計(jì)了基于標(biāo)簽關(guān)聯(lián)的多媒體標(biāo)注半監(jiān)督特征選擇FAMLC(semi-supervised feature analysis for multimedia annotation by mining label correlation)。為了更好地利用有限的標(biāo)簽信息來有效地選擇特征,文獻(xiàn)[99]提出了一種基于稀疏正則化和依賴最大化的半監(jiān)督多標(biāo)簽特征選擇算法FSSRDM(semi-supervised multi-label feature selection based on sparsity regularization and dependence maximization)。該方法利用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)來選擇特征,同時(shí)利用HSIC準(zhǔn)則來捕獲特征與標(biāo)簽之間的相關(guān)性,并采用l2,1稀疏項(xiàng)來獲得回歸系數(shù)稀疏矩陣。實(shí)驗(yàn)結(jié)果表明,F(xiàn)SSRDM比現(xiàn)有的特征選擇方法更有效,但其沒有考慮標(biāo)簽之間更復(fù)雜的關(guān)系來幫助選擇重要的特征。

        文獻(xiàn)[100]提出了一種考慮特征與標(biāo)簽之間共享共模的多標(biāo)簽特征選擇方法SCMFS(multi-label feature selection considering shared common mode between features and labels)。該方法可以充分利用特征矩陣和標(biāo)簽矩陣的有用信息來選擇信息量最大的特征,但由于SCMFS涉及非負(fù)矩陣分解,只適用于非負(fù)數(shù)據(jù),因此對(duì)于混合符號(hào)值的數(shù)據(jù)需要對(duì)數(shù)據(jù)進(jìn)行非負(fù)處理。文獻(xiàn)[101]則提出了一種新穎的基于局部標(biāo)簽相關(guān)性的共有和類屬性特征選擇框架,引入l2,1和l1稀疏項(xiàng)同時(shí)選取共有和類屬性特征,但該方法只考慮了標(biāo)簽之間的正相關(guān)性,而沒有考慮標(biāo)簽之間的負(fù)相關(guān)性。針對(duì)Zhu等人[102]忽略的特征空間可能是形成標(biāo)簽相關(guān)性的一個(gè)內(nèi)在因素的問題,F(xiàn)an等人[103]提出了一個(gè)基于局部判別模型和標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇方法,但其計(jì)算成本較為昂貴,可以專注于基于標(biāo)簽相關(guān)性的半監(jiān)督多標(biāo)簽學(xué)習(xí)方法。

        此外,有研究者將流行學(xué)習(xí)與稀疏回歸相結(jié)合,以此來提升算法性能。陳紅等人[104]提出了一種基于相關(guān)熵和流形學(xué)習(xí)的多標(biāo)簽特征選擇算法CMLS(correntropy and manifold learning feature selection),該方法在目標(biāo)函數(shù)中不但加入了稀疏回歸模型而且加入了特征圖的正則化,并通過迭代算法解決該問題,實(shí)驗(yàn)結(jié)果證明了該方法的有效性,其時(shí)間復(fù)雜度較高。針對(duì)正則化項(xiàng)的l1范數(shù)、l2范數(shù)、Frobenius范數(shù)均有自己的局限性問題,且K-Support范數(shù)可以在l1范數(shù)的稀疏度和l2范數(shù)的算法穩(wěn)定性之間保持平衡的特點(diǎn),文獻(xiàn)[105]提出了基于K-Support范數(shù)和流形學(xué)習(xí)的多標(biāo)簽特征選擇算法。文獻(xiàn)[106]提出了一種基于流形正則化的嵌入式特征選擇方法MDFS(an embedded feature selection method via manifold regularization),用于選擇多個(gè)類標(biāo)簽共享的判別特征,該方法利用局部標(biāo)簽相關(guān)性來增強(qiáng)成對(duì)的標(biāo)簽關(guān)系,并使用了l2,1范數(shù)的正則化。針對(duì)大多數(shù)多標(biāo)簽特征選擇算法都是直接嵌入權(quán)重矩陣,很少有對(duì)權(quán)重矩陣的柔性嵌入,張要等人[107]提出了結(jié)合流形結(jié)構(gòu)和柔性嵌入的多標(biāo)簽特征選擇算法MFFS(multilabel feature selection based on manifold structure and flexible embedding),但在學(xué)習(xí)標(biāo)簽相似矩陣時(shí),固定的近鄰參數(shù)不能夠較好地學(xué)得標(biāo)簽間的相似矩陣,從而影響了MFFS算法的性能。之后,張要等人[108]又提出了一種柔性結(jié)合流形結(jié)構(gòu)與logistic回歸的多標(biāo)簽特征選擇方法FSML(multi-label feature selection combining manifold learning and logistic regression),但由于近鄰參數(shù)不能自適應(yīng)學(xué)習(xí),導(dǎo)致同一個(gè)近鄰參數(shù)不一定能夠很好地學(xué)習(xí)到每個(gè)數(shù)據(jù)標(biāo)簽的底層流形結(jié)構(gòu)。從而影響了FSML算法的性能。馬盈倉等人[109]針對(duì)現(xiàn)有的嵌入式多標(biāo)簽特征選擇方法沒有充分利用無標(biāo)簽樣本的問題,提出一種基于流形學(xué)習(xí)與l2,1范數(shù)的無監(jiān)督多標(biāo)簽特征選擇方法UMLFS(unsupervised multi-label feature selection based on manifold learning andl2,1norms),實(shí)驗(yàn)表明該方法的有效性。文獻(xiàn)[110]提出一種基于約束回歸和自適應(yīng)譜圖流行框架的多標(biāo)簽特征選擇方法,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性,但還需進(jìn)一步探索如何利用數(shù)據(jù)的結(jié)構(gòu)化信息。

        當(dāng)然,嵌入式多標(biāo)簽特征選擇除了稀疏正則化,還有其他方法,比如:Li等人[111]提出一種新的半監(jiān)督多標(biāo)簽學(xué)習(xí)算法COMN(co-training ML-KNN)和PRECOMN(prediction risk based embedded feature selection for COMN),去除了不相關(guān)和冗余的特征,但該方法僅說明了半監(jiān)督多標(biāo)簽學(xué)習(xí)中的特征選擇是可行的,如何應(yīng)用到無監(jiān)督學(xué)習(xí)上還需要進(jìn)一步探究。Gu等人[112]提出的一種相關(guān)多標(biāo)簽特征選擇算法CMLFS(correlated multi-label feature selection),但其計(jì)算成本較高。You等人[113]提出了一種多標(biāo)簽嵌入特征選擇方法MEFS(multi-label embedded feature selection),它采用預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則對(duì)特征進(jìn)行評(píng)價(jià),采用向后搜索策略對(duì)特征子集進(jìn)行搜索,選出最有特征子集,它考慮標(biāo)簽相關(guān)性,但其特征選擇的效率還不是很高。Huang等人[114]提出了一種將稀疏性聯(lián)合特征選擇和多標(biāo)簽分類方法。該方法利用成對(duì)的標(biāo)簽相關(guān)性學(xué)習(xí)標(biāo)簽特定特征和共享特征,并在學(xué)習(xí)到的低維數(shù)據(jù)表示上同時(shí)構(gòu)建多標(biāo)簽分類器。實(shí)驗(yàn)驗(yàn)證了該方法的有效性,但對(duì)于大規(guī)模數(shù)據(jù)集時(shí),將要花費(fèi)大量的時(shí)間。其中,在基于嵌入式的方法中,最優(yōu)方法不僅考慮了標(biāo)簽間的相關(guān)性,還引入非負(fù)矩陣分解,有利于選擇最具區(qū)別性的特征,提高了后續(xù)特征選擇過程的可解釋性,并且具有收斂性和較好的分類性能。

        與包裝器方法相比,基于嵌入式的多標(biāo)簽特征選擇方法的計(jì)算成本明顯更低。這種方法避免了每次探索新的特征選擇時(shí)對(duì)模型的訓(xùn)練。該算法的運(yùn)行速度較快,但魯棒性不高。

        2.4 幾種方法的比較

        每種算法都存在自身的優(yōu)缺點(diǎn),上述所提出的3種多標(biāo)簽特征選擇算法性能總結(jié)如表2所示。

        表2 多標(biāo)簽特征選擇方法的性能比較Table 2 Performance comparison of multi-label feature selection methods

        3 結(jié)束語

        多標(biāo)簽數(shù)據(jù)中大量冗余的、不相關(guān)的、帶噪聲的特征,不僅增加了計(jì)算的復(fù)雜度,還影響算法分類器的性能。多標(biāo)簽特征選擇因不僅能夠有效地去除冗余特征、不相關(guān)特征,還可以保持甚至提高分類器的性能、節(jié)省存儲(chǔ)空間、縮短分類時(shí)間,被成功運(yùn)用到模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域。然而如何在多標(biāo)簽數(shù)據(jù)集中選出最優(yōu)的特征子集是一個(gè)十分具有挑戰(zhàn)性的事情。本文系統(tǒng)回顧了幾種多標(biāo)簽特征選擇算法,希望能夠?yàn)樾碌膶?shí)踐者和理論者提供有價(jià)值的參考,以尋求創(chuàng)新的方法和應(yīng)用。盡管多標(biāo)簽特征選擇算法應(yīng)用廣泛,但仍存在一些問題和挑戰(zhàn)有待解決,可以從以下幾個(gè)方面進(jìn)行概述:

        (1)現(xiàn)有大多數(shù)多標(biāo)簽特征選擇算法針對(duì)于特征空間的相關(guān)性和冗余性未進(jìn)行較多的分析,僅僅考慮了特征間及特征與標(biāo)簽之間的相關(guān)性,忽略了不同標(biāo)簽之間的相關(guān)性。標(biāo)簽相關(guān)性是多標(biāo)簽分類中的一個(gè)關(guān)鍵問題,因?yàn)楦鶕?jù)它從已知標(biāo)簽中導(dǎo)出實(shí)例的未知標(biāo)簽是可能的。然而,在多標(biāo)簽特征選擇方法中對(duì)此問題存在爭議。且現(xiàn)有的特征選擇算法大都可以刪除無關(guān)特征并且在一定程度上去冗余,但冗余特征過度刪除導(dǎo)致丟失大量信息,比如高維樣本數(shù)據(jù)的去冗余的過程較為復(fù)雜,很容易將有價(jià)值的特征遺漏,或?qū)⑷哂嗵卣鞅A粝聛?。因此如何?zhǔn)確有效地去除冗余特征非常重要。

        (2)在單標(biāo)簽和多標(biāo)簽特征選擇算法中,另一個(gè)開放和具有挑戰(zhàn)性的問題是如何確定選擇特征的最優(yōu)數(shù)量。對(duì)于大多數(shù)特征選擇方法,要選擇的特征數(shù)量應(yīng)該由用戶決定。然而,特征的最優(yōu)數(shù)量通常是未知的,并且對(duì)不同的數(shù)據(jù)集是不同的。一方面,選擇的特征數(shù)量過多可能會(huì)增加包含不相關(guān)、有噪聲和冗余特征的風(fēng)險(xiǎn)。另一方面,由于選擇的特征數(shù)量太少,一些需要包含在最終子集中的相關(guān)特征可能會(huì)被消除。因此,更可取的是特征選擇算法自動(dòng)決定最終特征子集的大小。

        (3)在多標(biāo)簽特征選擇上,過濾式方法大多數(shù)情況下較包裹式和嵌入式方法使用更多。雖然過濾式方法是處理大量特征時(shí)最合適的方法,但包裹式和嵌入式方法的較高精度不應(yīng)被忽視。也許可以將它們組合起來[115-117],比如:使用過濾式方法消除不相關(guān)的特征,然后使用包裹式或嵌入式方法選擇最顯著的特征。根據(jù)特定的環(huán)境選擇所需要的度量準(zhǔn)則和分類器是也一個(gè)值得研究的方向。

        猜你喜歡
        特征選擇子集分類器
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        999精品无码a片在线1级| 999久久久免费精品国产牛牛| 日本第一区二区三区视频| 国产一区二区三区探花| 男女主共患难日久生情的古言| 高h小月被几个老头调教| 精品国产乱码久久久久久1区2区| 国产偷窥熟女精品视频| 国产一区二区丁香婷婷| 开心五月激情五月天天五月五月天| 人妻av有码中文字幕| 天堂网在线最新版www| 夜夜揉揉日日人人| 国产午夜亚洲精品不卡免下载| 国产精品亚洲在线播放| 国产成人自拍视频在线观看网站| 日韩精品免费av一区二区三区| 国产日产欧产精品精品蜜芽| 超清精品丝袜国产自在线拍| 欧美国产高清| 亚洲是图一区二区视频| 色综久久综合桃花网国产精品| 精品一级一片内射播放| 男人扒开添女人下部免费视频| 国产精品va在线观看无码| 久久青草国产免费观看| 日本成人中文字幕亚洲一区| 又硬又粗进去好爽免费| 亚洲av天天做在线观看| 国产精品青草久久久久婷婷| 亚洲天堂一区二区精品| 极品美女一区二区三区免费| 免费看黑人男阳茎进女阳道视频 | 欧美精品免费观看二区| 蜜桃成人永久免费av大| 国产精品老熟女乱一区二区| 久久精品国产清自在天天线| 国产成人亚洲日韩欧美| 巨臀精品无码AV在线播放| 日本视频在线播放一区二区| 国产精品极品美女自在线观看免费|