亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Fisher score與模糊鄰域熵的多標記特征選擇算法

        2024-01-09 03:59:14孫林馬天嬌薛占熬
        計算機應用 2023年12期
        關鍵詞:粗糙集特征選擇集上

        孫林,馬天嬌,薛占熬

        基于Fisher score與模糊鄰域熵的多標記特征選擇算法

        孫林1*,馬天嬌2,薛占熬2,3

        (1.天津科技大學 人工智能學院,天津 300457; 2.河南師范大學 計算機與信息工程學院,河南 新鄉(xiāng) 453007; 2.智慧商務與物聯(lián)網(wǎng)技術河南省工程實驗室(河南師范大學),河南 新鄉(xiāng) 453007)(?通信作者電子郵箱sunlin@htu.edu.cn)

        針對Fisher score未充分考慮特征與標記以及標記之間的相關性,以及一些鄰域粗糙集模型容易忽略邊界域中知識粒的不確定性,導致算法分類性能偏低等問題,提出一種基于Fisher score與模糊鄰域熵的多標記特征選擇算法(MLFSF)。首先,利用最大信息系數(shù)(MIC)衡量特征與標記之間的關聯(lián)程度,構建特征與標記關系矩陣;基于修正余弦相似度定義標記關系矩陣,分析標記之間的相關性。其次,給出一種二階策略獲得多個二階標記關系組,以此重新劃分多標記論域;通過增強標記之間的強相關性和削弱標記之間的弱相關性得到每個特征的得分,進而改進Fisher score模型,對多標記數(shù)據(jù)進行預處理。再次,引入多標記分類間隔,定義自適應鄰域半徑和鄰域類并構造了上、下近似集;在此基礎上提出了多標記粗糙隸屬度函數(shù),將多標記鄰域粗糙集映射到模糊集,基于多標記模糊鄰域給出了上、下近似集以及多標記模糊鄰域粗糙集模型,由此定義模糊鄰域熵和多標記模糊鄰域熵,有效度量邊界域的不確定性。最后,設計基于二階標記相關性的多標記Fisher score特征選擇算法(MFSLC),從而構建MLFSF。在多標記K近鄰(MLKNN)分類器下11個多標記數(shù)據(jù)集上的實驗結(jié)果表明,相較于ReliefF多標記特征選擇(MFSR)等6種先進算法,MLFSF的平均分類精度(AP)的均值提高了2.47~6.66個百分點;同時,在多數(shù)數(shù)據(jù)集上,MLFSF在5個評價指標上均能取得最優(yōu)值。

        多標記學習;特征選擇;Fisher score;多標記模糊鄰域粗糙集;模糊鄰域熵

        0 引言

        目前,維度災難是多標記學習面臨的重要挑戰(zhàn)之一[1]。特征選擇是大數(shù)據(jù)降維的一種有效手段,可以分為過濾法、包裹法和嵌入法等[2]。過濾法篩選特征集,使用學習算法訓練,它的過程與學習算法無關,可以快速剔除噪聲特征,計算效率較高、通用性強,所選特征子集冗余度小,適用于大規(guī)模數(shù)據(jù)集[3]。包裹法依賴于所選擇的學習算法,使用分類器性能評價特征重要程度,特征子集的分類性能較好;但是不適合處理高維數(shù)據(jù),通用性弱,計算復雜度高[4]。嵌入法結(jié)合特征選擇過程和分類器訓練過程;但是過度依賴具體的學習算法,會出現(xiàn)過擬合現(xiàn)象,缺乏通用性[5-6]。因此,為了有效處理高維多標記數(shù)據(jù)集,提升計算效率和避免出現(xiàn)過擬合情況,使用過濾法設計多標記特征選擇。

        Fisher score是一種經(jīng)典的過濾式特征選擇算法,主要思想是利用距離度量鑒別使類內(nèi)距離盡可能小、類間距離盡可能大的特征[7]。該算法具有可操作性強、精度高、計算成本低等優(yōu)點,目前已有較多的研究:Guyon等[8]提出了基于Fisher score的特征選擇算法應用于基因分類;Günes等[9]采用Fisher score進行多重分類,并將得分均值作為特征選擇閾值;孫林等[10]針對非平衡數(shù)據(jù)采用Fisher score選擇高分的特征實施降維。但是,上述算法未考慮特征之間的相關性。Hancer等[11]使用ReliefF和Fisher score進行特征選擇,考慮了特征與類別標記的相關性;吳迪等[12]結(jié)合最大信息系數(shù)和Fisher score進行特征選擇。但是,上述2種算法未考慮類之間的差異性。同時,上述5種使用Fisher score的特征選擇算法只能處理單標記中的類別型數(shù)據(jù)。隨著Fisher score在單標記的廣泛應用,在多標記方面的研究也逐漸出現(xiàn):汪正凱等[7]考慮由于極值帶來的類別中心與實際中心的偏差,提出一種結(jié)合中心偏移和多標記集合關聯(lián)性的多標記Fisher score特征選擇算法;但是沒有考慮特征之間的相關性。Sun等[6]構建了正、負標記之間的互信息以考慮標記之間的相關性,設計了一種基于互信息的Fisher score多標記特征選擇算法;但是標記的正、負數(shù)通常不平衡,也沒有考慮特征與標記的相關性。受上述研究啟發(fā),本文為了考慮標記與特征的相關性、標記之間的相關性,構建了標記之間的二階關系,與Fisher score結(jié)合,對多標記數(shù)據(jù)進行特征選擇預處理,有效提升算法分類性能。

        鄰域粗糙集作為一種過濾式策略在多標記學習和分類中得到了廣泛的應用[1]:段潔等[13]提出了一種處理連續(xù)數(shù)據(jù)和數(shù)值數(shù)據(jù)的多標記鄰域粗糙集特征選擇算法,但該算法耗時,且鄰域半徑需通過手動設置步長,無法達到最優(yōu)效果;為了克服這個缺點,Lin等[14]推廣鄰域信息熵多標記學習,提出了一種基于鄰域互信息的多標記特征選擇算法;Liu等[15]針對流式多標記數(shù)據(jù)設計了基于鄰域粗糙集的特征選擇算法;Huang等[16]提出了一種基于鄰域粗糙集的改進的最大相關和最小冗余的多標記特征選擇算法;Sun等[1]利用Jaccard相關系數(shù)構建了特征權值公式,進而設計了一種基于多標記ReliefF和鄰域互信息的多標記特征選擇算法;Wu等[17]通過考慮標記相關性,將相關標記劃分為多個標記子集,進而將標記相關性引入鄰域粗糙集模型。然而,多標記鄰域粗糙集使用鄰域粒近似描述決策等價類,無法描述模糊背景下實例的不確定性。Chen等[18]為處理多種類型的數(shù)據(jù),研究了基于變精度模糊鄰域粗糙集的多標記特征選擇算法;但是,該算法仍存在鄰域半徑參數(shù)需要手動設置的問題。Sun等[19]提出了一種基于多標記模糊鄰域粗糙集和最大相關性最小冗余度的特征選擇算法,用于處理缺失標記的多標記數(shù)據(jù);但該算法的求解過程需要大量的矩陣運算,時間代價較高。Xu等[20]引入模糊鄰域近似精度考慮上近似中的不確定性,建立了多標記模糊鄰域條件熵;但該算法需要遍歷所有參數(shù),以確定每個數(shù)據(jù)集的最佳模糊鄰域半徑,且實驗數(shù)據(jù)集的維度較低。為解決上述問題,本文采用分類間隔得到自適應的鄰域粒半徑與鄰域類,構造多標記鄰域上、下近似集,挖掘邊界域鄰域粒包含的不確定信息并構造多標記粗糙隸屬度函數(shù),構建多標記模糊鄰域粗糙集模型,由此基于模糊鄰域熵研究多標記鄰域決策系統(tǒng)的不確定性度量。

        本文的主要工作如下:

        1)為了考慮特征與標記以及標記之間的相關性,利用最大信息系數(shù)衡量特征與標記之間的關系,構建特征與標記關系矩陣;使用修正余弦相似度計算特征與標記關系矩陣,建立標記關系矩陣,分析標記之間的相關性,進而定義一種二階策略,獲得二階標記關系組。

        2)利用二階標記關系組,通過增強標記之間的強相關性和削弱標記之間的弱相關性,改進已有的多標記Fisher score,設計基于二階標記相關性的多標記Fisher score特征選擇算法(Multilabel Fisher Score-based feature selection algorithm with second-order Label Correlation, MFSLC),使它初步消除原始不具有分類特性的特征,為后續(xù)算法降低時間開銷。

        3)為了展現(xiàn)多標記數(shù)據(jù)的邊界域中的不確定性,采用多標記分類間隔定義自適應鄰域半徑及上、下近似集,定義多標記粗糙隸屬度函數(shù)和多標記模糊鄰域粗糙集模型;由此構建模糊鄰域熵和多標記模糊鄰域熵,在MFSLC基礎上,構建基于Fisher score與模糊鄰域熵的多標記特征選擇算法(MultiLabel Feature Selection algorithm based on Fisher score and fuzzy neighborhood entropy, MLFSF),并給出外部與內(nèi)部特征重要度的計算公式,使它在預處理的基礎上選擇最優(yōu)特征子集。在多標記K近鄰(Multilabel K-Nearest Neighbor,MLKNN)分類器下的11個多標記數(shù)據(jù)集的實驗結(jié)果驗證了本文算法的有效性。

        1 基礎理論

        1.1 Fisher score

        1.2 最大信系數(shù)

        最大信息系數(shù)度量了兩個特征變量之間的關聯(lián)程度,相較于互信息的準確度更高[21],主要思想是:如果兩個變量之間存在一定相關性,那么在這兩個變量的散點圖上進行某種網(wǎng)格劃分之后,根據(jù)這兩個變量在網(wǎng)格中的近似概率密度分布情況,可以計算這兩個變量的互信息。

        其中:和是在和方向上劃分的格子數(shù);是大小為×的網(wǎng)格的上限,依據(jù)文獻[22],取樣本量的0.6次方效果較好。

        1.3 多標記鄰域粗糙集

        2 多標記特征選擇算法

        2.1 多標記Fisher score

        傳統(tǒng)Fisher score未考慮特征與標記以及標記之間的相關性,因此基于二階標記相關性改進多標記Fisher score。由于在計算標記之間相關性時,現(xiàn)有算法大多從標記空間直接計算得到標記相關性[23],較少考慮從原始特征空間出發(fā)。利用MIC衡量兩個變量之間的關聯(lián)程度。

        標記之間的二階策略能夠在一定程度上考慮標記之間的相關性,故它的系統(tǒng)泛化性能較優(yōu)[26]。為了分析標記之間的相關性,基于標記關系矩陣提出一種新的二階策略。

        由此得到二階標記關系組,建立一個多標記論域的劃分。

        根據(jù)定義3得到的二階標記關系組,具有強相關性和弱相關性的標記組之間具有較大差異。為了使標記間的強弱關系界限能夠被明顯區(qū)分,增強標記之間的強相關性,弱化標記之間的弱相關性,在多標記論域劃分的基礎上對Fisher score進行改進,使它更適合處理多標記數(shù)據(jù)。

        2.2 多標記模糊鄰域粗糙集

        針對鄰域決策系統(tǒng)中鄰域半徑由手動設置,時間開銷大,全局共享同一鄰域半徑的局限性,使用多標記分類間隔實現(xiàn)鄰域半徑自適應,不僅可以克服鄰域半徑手動設置的缺陷,也能解決原始分類間隔過大導致分類無意義的問題。

        文獻[27]中給出了樣本與鄰域粗糙集之間的隸屬關系,通過構造粗糙隸屬度函數(shù),將粗糙集轉(zhuǎn)化為模糊集,衡量粗糙集的不確定性。因此,在多標記鄰域決策系統(tǒng)中,基于多標記粗糙集構建粗糙集隸屬函數(shù),捕捉邊界域鄰域粒的不確定性,進而定義多標記粗糙隸屬度函數(shù)。

        根據(jù)每個標記下樣本情況,定義11采用普通二分類熵。

        2.3 算法描述

        式(22)反映了從當前特征子集中刪去特征a后多標記模糊鄰域熵的變化程度。在此基礎上,借助正向貪心搜索算法迭代地選擇具有最大重要度的特征[28],當加入特征后,不再影響確定性規(guī)則生成時,則算法終止。

        本文提出基于二階標記相關性設計多標記Fisher score特征選擇算法(MFSLC),如算法1所示。

        算法1 MFSLC。

        輸出 候選特征子集。

        1) 利用式(6)計算特征與標記關系矩陣

        2) 由式(7)計算標記關系矩陣,根據(jù)定義3設計的二階策略,進而得到多個二階標記關系組

        3) 初始化每個特征得分(f)=0

        4) For每個二階標記關系組

        5) For每個f

        6) 由式(10)改進Fisher score計算特征f的得分

        7) End For

        8) End For

        9) 對每個特征得分進行排序,得到候選特征子集

        10) Return候選特征子集

        算法2 MLFSF。

        輸出 最優(yōu)特征子集。

        2) 使用MFSLC得到初始的候選特征子集

        4) For每個x

        5) 根據(jù)式(12)與式(13)得到x的鄰域半徑與鄰域類

        6) End For

        7) For每個特征a∈-

        11) End If

        14) End For

        19) Else返回最優(yōu)特征子集

        20) End If

        21) End For

        22) Return最優(yōu)特征子集

        在算法2中,假設根據(jù)MFSLC得到的候選特征子集個數(shù)為,7)~14)計算多標記模糊鄰域熵,它的計算復雜度為();15)~22)進行多標記模糊鄰域熵的特征選擇,假設最終約簡的特征子集數(shù)為,它的計算復雜度為,約為,因此算法2的總計算復雜度為。最終算法1與算法2的總計算復雜度為(2+2lb+)。

        2.4 算法異同點

        為了加強MLFSF與其他相關算法的異同點的分析討論,選用5種相關的對比算法:PMU(Pairwise Multi-label Utility algorithm)[30]、MUCO(MUltilabel feature selection algorithm with label COrrelation)[31]、MDDM(Multi-label Dimensionality reduction algorithm via Dependence Maximization)[32]、MFSMR (Multilabel Feature Selection for missing labels using Maximum relevance minimum Redundancy)[19]和基于改進ReliefF的多標記特征選擇算法(Multilabel Feature Selection algorithm based on improved ReliefF, MFSR)[33]。表1列出了上述5種對比算法的異同點及計算復雜度。

        表1MLFSF與5種對比算法的異同點和計算復雜度

        Tab.1 Similarities and differences and computational complexities between MLFSF and five comparative algorithms

        3 實驗結(jié)果與分析

        3.1 實驗準備

        為了測試MLFSF的有效性,從MuLan數(shù)據(jù)庫(http:// mulan.sourceforge.net/datasets.html)中選擇了11個多標記數(shù)據(jù)集,如表2所示。采用MLKNN[3]和5個評價指標:平均分類精度(Average Precision, AP)[34]、漢明損失(Hamming Loss, HL)[35]、排序損失(Ranking Loss, RL)[34]、1-錯誤率(One Error, OE)[34]、覆蓋率(CoVerage, CV)[34],對算法性能進行分析,并使用選擇的特征數(shù)(Number of selected Features, FN)展示特征選擇的結(jié)果。所有實驗的硬件環(huán)境為64位Windows 7操作系統(tǒng)、內(nèi)存32 GB、處理器Intel Core i7-7700CPU @ 3.60 GHz,軟件為Matlab R2016。

        表2多標記數(shù)據(jù)集的詳細信息

        Tab.2 Details of multilabel datasets

        3.2 實驗結(jié)果對比

        為了檢驗算法的有效性,將MLFSF與6種算法進行比較,對比算法主要包括:PMU[30]、MUCO[31]、MDDM-proj[32]、MDDM-spc[32]、MFSMR[19]和MFSR[33],在11個數(shù)據(jù)集上通過5個指標評估算法的分類性能。其中對比的4種算法(PMU、MUCO、MDDM-proj和MDDM-spc)的實驗數(shù)據(jù)出自文獻[36]。為了保證實驗的一致性,實驗參數(shù)均按照文獻[36],設置MLKNN分類器的平滑參數(shù)=1,近鄰數(shù)=10,并采用五折交叉驗證。為了給每個數(shù)據(jù)集選擇合適的FN且更直觀地觀察指標的變化情況,圖1展示了7種算法在11個多標記數(shù)據(jù)集上的AP指標的變化曲線對比。由于篇幅限制,其余4個指標的變化曲線不再詳細敘述。

        從圖1可知,在Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast這10個數(shù)據(jù)集上,MLFSF均達到最優(yōu)。對于Computer數(shù)據(jù)集,MLFSF整體不如MUCO和PMU,處于中等水平,但指標上升趨勢明顯,原因可能是忽略了重要特征,導致最終預測的標記數(shù)與實際存在差別;對于Emotion數(shù)據(jù)集,在FN=10和FN>30時,MLFSF高于其他6種算法;對于Enron數(shù)據(jù)集,在FN<100時,MLFSF整體低于MFSR,當FN>100,MLFSF優(yōu)于其他6種算法;對于Image數(shù)據(jù)集,當FN>80時,MLFSF取得了最優(yōu)值,其余范圍均低于MFSMR;對于Recreation數(shù)據(jù)集,在FN<50時,AP遠高于其他6種算法,并取得最優(yōu)AP,當FN>50時,AP逐漸降低,居于MUCO之下,說明當FN<50時,該部分特征具有重要信息,達到了少而優(yōu)的目的。因此,結(jié)合FN和AP這2種指標的評價結(jié)果,在大多數(shù)情況下,相較于其他6種算法MLFSF在AP上具有良好的分類效果。

        為了更具體地展示MLFSF的分類效果,根據(jù)圖1以AP指標的最優(yōu)值指定7種算法在每個數(shù)據(jù)集上的FN,如表3所示。對表3分析可知,與其他7種算法相比,MLFSF在給定的7個數(shù)據(jù)集Birds、Computer、Medical、Recreation、Reference、Scene和Yeast上的FN指標均為最優(yōu);在剩余4個數(shù)據(jù)集Cal500、Emotion、Enron和Image上,MLFSF與其他算法差距較小,依次與最優(yōu)值相差13、13、51和36。對于多標記數(shù)據(jù),F(xiàn)N與其余5個指標(AP、HL、RL、OE和CV)在特征選擇過程中是同等重要的,因此需要綜合考慮各個指標來評價算法的分類性能。表4為8種算法在11個多標記數(shù)據(jù)集上的5個指標的實驗結(jié)果,其中,MLKNN表示使用MLKNN分類器對原始多標記數(shù)據(jù)集進行處理的分類結(jié)果。

        圖1 7種算法在11個多標記數(shù)據(jù)集上的AP(↑)指標比較

        表37種算法在11個多標記數(shù)據(jù)集上的FN(↓)指標比較

        Tab.3 Comparison of seven algorithms on eleven multilabel datasets in terms of FN(↓)

        分析表4的實驗結(jié)果可知,對于AP,與其他7種算法相比,MLFSF在10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上表現(xiàn)最優(yōu)。其中,在Medical數(shù)據(jù)集上表現(xiàn)突出,比次優(yōu)算法MUCO高5.96個百分點,結(jié)合表3中的FN,在Medical數(shù)據(jù)集上的FN也最優(yōu);在Computer數(shù)據(jù)集上,MLFSF的AP高于MLKNN與MFRS,低于其他5種算法,但是根據(jù)表3中的FN,MLFSF的FN最少。因此,結(jié)合FN和AP這2個指標,MLFSF表現(xiàn)較好。對于HL,與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Computer、Emotion、Enron、Image、Medical、Recreation、Reference和Scene上表現(xiàn)最優(yōu),在Yeast數(shù)據(jù)集上比最優(yōu)算法MDDM-spc差0.000 3。其中,在Emotion數(shù)據(jù)集上,MLFSF比次優(yōu)MFSR低1.37個百分點,但是它的FN比MFSR更有優(yōu)勢;在Image數(shù)據(jù)集上,MLFSF與次優(yōu)算法MFSMR相差1.18個百分點;在Scene數(shù)據(jù)集上,MLFSF與MDDM-spc均為最優(yōu),但對比表3的FN發(fā)現(xiàn),MDDM-spc在FN上沒有優(yōu)勢,與MLFSF相差較大。因此,結(jié)合FN和HL這2個指標,MLFSF表現(xiàn)較好。對于RL,與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上均為最優(yōu)。在Computer數(shù)據(jù)集上,MLFSF與最優(yōu)算法MUCO相差0.005 6,但在FN上MLFSF更占優(yōu)勢。其中,在Medical數(shù)據(jù)集上表現(xiàn)較為顯著,與次優(yōu)算法相差2.05個百分點,且FN為所有算法中最優(yōu);在Emotion數(shù)據(jù)集和Image數(shù)據(jù)集上,MLFSF分別與次優(yōu)算法MFSR和MFSMR相差1.36個百分點和1.57個百分點。因此,結(jié)合FN和RL這2個指標,MLFSF表現(xiàn)較為良好。對于OE,與其他7種算法相比,MLFSF在給定的8個數(shù)據(jù)集Birds、Emotion、Enron、Image、Medical、Recreation、Reference和Scene上表現(xiàn)最優(yōu);在Cal500數(shù)據(jù)集上,MLFSF與最優(yōu)算法MFSR相差0.002 2,但優(yōu)于其他5種算法;在Computer數(shù)據(jù)集上,與最優(yōu)算法MUCO相差0.019 6,優(yōu)于MFSR、MFSMR與MLKNN;在Reference數(shù)據(jù)集上,MLFSF與MUCO最優(yōu),優(yōu)于其他6種算法;在Yeast數(shù)據(jù)集上,MLFSF與最優(yōu)PMU相差0.002 0,優(yōu)于其他6種算法,但它在表3中的FN為最小。對于CV指標,與其他7種算法相比,MLFSF在給定的10個數(shù)據(jù)集Birds、Cal500、Emotion、Enron、Image、Medical、Recreation、Reference、Scene和Yeast上表現(xiàn)最優(yōu);在Computer數(shù)據(jù)集上,MLFSF的CV與最優(yōu)MUCO相差0.183 0,但是MLFSF在該數(shù)據(jù)集上的FN最??;在Medical數(shù)據(jù)集上,比次優(yōu)MDDM-proj低0.960 0且在該數(shù)據(jù)集上的FN最小。因此,結(jié)合FN指標,MLFSF在CV和OE這2個指標均表現(xiàn)良好。

        根據(jù)表4的5個指標的整體結(jié)果,MLFSF在11個數(shù)據(jù)集上整體表現(xiàn)最佳且均值最優(yōu)。其中,在AP的均值上,MLFSF比次優(yōu)算法MUCO高了2.47個百分點,比最差算法MFRS高了6.66個百分點。具體地,MLFSF在Birds、Emotion、Enron、Image、Medical、Recreation、Reference和Scene這8個數(shù)據(jù)集上5個指標表現(xiàn)均是最優(yōu)值,這些數(shù)據(jù)集是特征空間分布稠密的連續(xù)型數(shù)據(jù)或離散型數(shù)值的數(shù)據(jù),相較于分布稀疏的特征空間中每一維特征的重要度都小,不易去除特征,而MLFSF中的多標記模糊鄰域熵過濾準則能夠篩選特征重要度較大特征,更適合特征空間分布稠密的數(shù)據(jù)集,因此MLFSF在這些數(shù)據(jù)集上效果表現(xiàn)優(yōu)異。在Cal500數(shù)據(jù)集上,MLFSF只在OE指標上未取得最優(yōu)值,排名第3,但與最優(yōu)值相差較小,故整體表現(xiàn)良好;在Yeast數(shù)據(jù)集上,共擁有3個評價指標的最優(yōu)值AP、RL和CV,上述分析中,在HL和OE指標中與最優(yōu)值僅有略微差距,但選擇特征數(shù)最少,所以部分重要的特征未被選中影響了最終的分類性能;在Computer數(shù)據(jù)集上,只在HL指標上表現(xiàn)最優(yōu),其余指標上表現(xiàn)一般,觀察發(fā)現(xiàn),在該數(shù)據(jù)集選擇特征數(shù)較小,導致重要特征被漏掉,另一方面,在該數(shù)據(jù)集的特征空間分布上,數(shù)值分布較為稀疏,雖然算法考慮特征之間的相關性,但忽略了同等重要的特征也會成為冗余,造成最終結(jié)果不佳??傮w地,雖然在個別數(shù)據(jù)集上選擇出的特征子集存在冗余信息,但在大部分數(shù)據(jù)集上MLNIF能夠帶來較好的分類效果。

        表48種算法在11個多標記數(shù)據(jù)集上的5個評價指標比較

        Tab.4 Comparison of eight algorithms on eleven multilabel datasets in terms of five metrics

        注:“↑”表示值越大越好,“↓”表示值越小越好;粗體表示最佳結(jié)果,下畫線表示次優(yōu)結(jié)果。

        3.3 統(tǒng)計分析

        為了分析所有算法在每個評價指標上的統(tǒng)計性能,采用Friedman測試和Nemenyi測試[4]。Friedman統(tǒng)計量表示如下:

        其中:和分別為數(shù)據(jù)集和算法的數(shù)量;R(=1,2,…,)表示第個算法在所有數(shù)據(jù)集上的平均排序。這里的臨界值域(Critical Difference, CD)的計算公式為:

        其中:q表示測試的臨界列表值,為顯著性級別。采用CD圖可視化顯示所有比較算法之間的差異性[4]。如果兩個算法的平均排名差在一個誤差之內(nèi),則使用連線將它們連接起來;否則在統(tǒng)計學上認為它們之間具有顯著差異,其中不同顏色的連線是為了區(qū)分不同的兩種算法之間存在顯著差異[16]。

        圖2 7種算法在5個指標上的Nemenyi檢驗結(jié)果

        表57種算法的5個評價指標的統(tǒng)計結(jié)果

        Tab.5 Statistical results of five metrics for seven algorithms

        4 結(jié)語

        現(xiàn)有的多標記Fisher score易忽略特征與標記之間以及標記之間相關性,導致分類性能下降,且使用多標記鄰域粗糙集進行約簡時會忽略邊界域的不確定性信息。為解決上述問題,提出了一種基于Fisher score與模糊鄰域熵的多標記特征選擇算法。首先,為了衡量標記與特征之間的相關性,通過MIC得到特征與標記關系矩陣,在此基礎上使用修正余弦相似度計算特征與標記關系矩陣,進一步得到標記關系矩陣,給出一種標記相關性的二階策略,從而得到二階標記關系組;其次,為了增強標記之間的強相關性與削弱標記之間的弱相關性,改進傳統(tǒng)Fisher score,從而對多標記數(shù)據(jù)進行預處理;再次,利用分類間隔得到自適應的鄰域半徑構建多標記鄰域上、下近似集,為了挖掘邊界域的知識粒度的不確定性,構造多標記粗糙隸屬度函數(shù),得到新的多標記模糊鄰域粗糙集模型,提出模糊鄰域熵和多標記模糊鄰域熵,并給出相應的性質(zhì)和定理;最后,設計了一種基于Fisher score與模糊鄰域熵的多標記特征選擇算法。在11個多標記數(shù)據(jù)集上進行測試,實驗結(jié)果驗證了所提算法是有效的。但是,通過觀察實驗結(jié)果可以看出,對于特征空間分布較稀疏的文本類多標記數(shù)據(jù)集,MLFSF在MLKNN分類器下的分類效果提升不明顯,因而,針對此問題仍需進一步探索和研究。

        [1] SUN L, YIN T, DING W, et al. Multilabel feature selection using ML-ReliefF and neighborhood mutual information for multilabel neighborhood decision systems[J]. Information Sciences, 2020, 537: 401-424.

        [2] 張志浩,林耀進,盧舜,等. 缺失標記下基于類屬屬性的多標記特征選擇[J]. 計算機應用, 2021, 41(10): 2849-2857.(ZHANG Z H, LIN Y J, LU S, et al. Multi-label feature selection based on label-specific feature with missing labels[J]. Journal of Computer Applications, 2021, 41(10): 2849-2857.)

        [3] 孫林,黃苗苗,徐久成. 基于鄰域粗糙集和Relief的弱標記特征選擇方法[J]. 計算機科學, 2022, 49(4): 152-160.(SUN L, HUANG M M, XU J C. Weak label feature selection method based on neighborhood rough sets and Relief[J]. Computer Science, 2022, 49(4): 152-160.)

        [4] 阮梓航,肖先勇,胡文曦,等. 基于多粒度特征選擇和模型融合的復合電能質(zhì)量擾動分類特征優(yōu)化[J]. 電力系統(tǒng)保護與控制, 2022, 50(14): 1-10.(RUAN Z H, XIAO X Y, HU W X, et al. Multiple power quality disturbance classification feature optimization based on multi-granularity feature selection and model fusion [J]. Power System Protection and Control, 2022, 50(14): 1-10.)

        [5] 滕俊元,高猛,鄭小萌,等. 噪聲可容忍的軟件缺陷預測特征選擇方法[J]. 計算機科學, 2021, 48(12): 131-139.(TENG J Y, GAO M, ZHENG X M, et al. Noise tolerable feature selection method for software defect prediction [J]. Computer Science, 2021, 48(12): 131-139.)

        [6] SUN L, WANG T, DING W, et al. Feature selection using Fisher score and multilabel neighborhood rough sets for multilabel classification [J]. Information Sciences, 2021, 578: 887-912.

        [7] 汪正凱,沈東升,王晨曦. 基于文本分類的Fisher Score快速多標記特征選擇算法[J]. 計算機工程, 2022, 48(2): 113-124.(WANG Z K, SHEN D S, WANG C X. Fisher Score fast multi-label feature selection algorithm based on text classification[J]. Computer Engineering, 2022, 48(2): 113-124.)

        [8] GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46: 389-422.

        [9] GüNES S, POLAT K, YOSUNKAYA S. Multi-class f-score feature selection approach to classification of obstructive sleep apnea syndrome[J]. Expert Systems with Applications, 2010, 37(2): 998-1004.

        [10] 孫林,黃金旭,徐久成. 基于鄰域容差互信息和鯨魚優(yōu)化算法的非平衡數(shù)據(jù)特征選擇[J].計算機應用, 2023, 43(6): 1842-1854.(SUN L, HUANG J X, XU J C. Feature selection for imbalanced data based on neighborhood tolerance mutual information and whale optimization [J]. Journal of Computer Applications, 2023, 43(6): 1842-1854.)

        [11] HANCER E, XUE B, ZHANG M. Differential evolution for filter feature selection based on information theory and feature ranking[J]. Knowledge-Based Systems, 2018, 140: 103-119.

        [12] 吳迪,郭嗣琮. 改進的Fisher Score特征選擇方法及其應用[J]. 遼寧工程技術大學學報(自然科學版), 2019, 38(5): 472-479.(WU D, GUO S Z. An improved Fisher Score feature selection method and its application[J]. Journal of Liaoning Technical University (Natural Science), 2019, 38(5): 472-479.)

        [13] 段潔,胡清華,張靈均,等. 基于鄰域粗糙集的多標記分類特征選擇算法[J]. 計算機研究與發(fā)展, 2015, 52(1): 56-65.(DUAN J, HU Q H, ZHANG L J, et al. Feature selection for multi-label classification based on neighborhood rough sets[J]. Journal of Computer Research and Development, 2015, 52(1): 56-65.)

        [14] LIN Y, HU Q, LIU J, et al. Multi-label feature selection based on neighborhood mutual information[J]. Applied Software Computation, 2016, 38: 244-256.

        [15] LIU J, LIN Y, LI Y , et al. Online multi-label streaming feature selection based on neighborhood rough set[J]. Pattern Recognition, 2018, 84: 273-287.

        [16] HUANG M, SUN L, XU J, et al. Multilabel feature selection using Relief and minimum redundancy maximum relevance based on neighborhood rough sets [J]. IEEE Access, 2020, 8: 62011-62031.

        [17] WU Y, LIU J, YU X, et al. Neighborhood rough set based multi-label feature selection with label correlation[J]. Concurrency and Computation: Practice and Experience, 2022, 34(22): e7162.

        [18] CHEN P, LIN M, LIU J. Multi-label attribute reduction based on variable precision fuzzy neighborhood rough set [J]. IEEE Access, 2020, 8: 133565-133576.

        [19] SUN L, YIN T, DING W, et al. Feature selection with missing labels using multilabel fuzzy neighborhood rough sets and maximum relevance minimum redundancy [J]. IEEE Transactions on Fuzzy Systems, 2022, 30(5): 1197-1211.

        [20] XU J, SHEN K,SUN L. Multi-label feature selection based on fuzzy neighborhood rough sets [J]. Complex & Intelligent Systems, 2022, 8: 2105-2129.

        [21] 張大斌,張博婷,凌立文,等.基于二次分解聚合策略的我國碳交易價格預測[J].系統(tǒng)科學與數(shù)學, 2022, 42(11): 3094-3106.(ZHANG D B, ZHANG B T, LING L W, et al. Carbon price forecasting based on secondary decomposition and aggregation strategy[J]. Journal of Systems Science and Mathematical Sciences, 2022, 42(11): 3094-3106.)

        [22] RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel associations in large data sets[J]. Science, 2011, 334(6062): 1518-1524.

        [23] 劉琨,封碩. 加強局部搜索能力的人工蜂群算法[J]. 河南師范大學學報(自然科學版), 2021, 49(2): 15-24.(LIU K, FENG S. An improved artificial bee colony algorithm for enhancing local search ability[J]. Journal of Henan Normal University (Natural Science Edition), 2021, 49(2): 15-24.)

        [24] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001: 285-295.

        [25] 黃劍湘,林錚,劉可真,等. 考慮換流站海量事件的關聯(lián)規(guī)則挖掘分析方法[J]. 電力系統(tǒng)保護與控制, 2022, 50(12): 117-125.(HUANG J X, LIN Z, LIU K Z, et al. Association rule mining analysis method considering massive events in a converter station [J]. Power System Protection and Control, 2022, 50(12): 117-125.)

        [26] 余鷹. 多標記學習研究綜述[J]. 計算機工程與應用, 2015, 51(17): 20-27.(YU Y. Survey on multi-label learning[J]. Computer Engineering and Applications, 2015, 51(17): 20-27.)

        [27] ZHENG T, ZHU L. Uncertainty measures of neighborhood system based rough sets[J]. Knowledge Based Systems, 2015, 86: 57-65.

        [28] 劉艷,程璐,孫林. 基于K-S檢驗和鄰域粗糙集的特征選擇方法[J]. 河南師范大學學報(自然科學版), 2019, 47(2): 21-28.(LIU Y, CHENG L, SUN L. Feature selection method based on K-S test and neighborhood rough sets[J]. Journal of Henan Normal University (Natural Science Edition), 2019, 47(2): 21-28.)

        [29] 姚晟,徐風,趙鵬,等. 基于改進鄰域粒的模糊熵特征選擇算法[J].南京大學學報(自然科學), 2017, 53(4): 802-814.(YAO S, XU F, ZHAO P, et al. Fuzzy entropy feature selection algorithm based on improved neighborhood granule [J]. Journal of Nanjing University (Natural Science), 2017, 53(4): 802-814.)

        [30] LEE J, KIM D-W. Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34(3): 349-357.

        [31] LIN Y, HU Q, LIU J, et al. Streaming feature selection for multilabel learning based on fuzzy mutual information[J]. IEEE Transactions on Fuzzy Systems, 2017, 25(6): 1491-1507.

        [32] ZHANG Y, ZHOU Z-H. Multilabel dimensionality reduction via dependence maximization[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 4(3): Article No. 14.

        [33] 孫林,陳雨生,徐久成. 基于改進ReliefF的多標記特征選擇算法[J]. 山東大學學報(理學版), 2022, 57(4): 1-11.(SUN L, CHEN Y S, XU J C. Multilabel feature selection algorithm based on improved ReliefF [J]. Journal of Shandong University (Natural Science), 2022, 57(4):1-11.)

        [34] SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39: 135-168.

        [35] TSOUMAKAS G, VLAHAVAS I. Random-labelsets: an ensemble method for multilabel classification [C]// Proceedings of the 2007 European Conference on Machine Learning. Berlin: Springer, 2007: 406-417.

        [36] CHEN L, CHEN D. Alignment based feature selection for multi-label learning[J]. Neural Processing Letters, 2019, 50: 2323-2344.

        Multilabel feature selection algorithm based on Fisher score and fuzzy neighborhood entropy

        SUN Lin1*, MA Tianjiao2, XUE Zhan’ao2,3

        (1,,300457,;2,,453007,;3(),453007,)

        For that Fisher score model does not fully consider feature-label and label-label relations, and some neighborhood rough set models easily neglect the uncertainty of knowledge granulations in the boundary region, resulting in the low classification performance of these algorithms, a MultiLabel feature selection algorithm based on Fisher Score and Fuzzy neighborhood entropy (MLFSF) was proposed. Firstly, by using the Maximum Information Coefficient (MIC) to evaluate the feature-label association degree, the relationship matrix between features and labels was constructed, and the correlation between labels was analyzed by the relationship matrix of labels based on the adjusted cosine similarity. Secondly, a second-order strategy was given to obtain multiple second-order label relationship groups to reclassify the multilabel domain, where the strong correlation between labels was enhanced and the weak correlation between labels was weakened to obtain the score of each feature. The Fisher score model was improved to preprocess the multilabel data. Thirdly, the multilabel classification margin was introduced to define the adaptive neighborhood radius and neighborhood class, and the upper and lower approximation sets were constructed. On this basis, the multilabel rough membership degree function was presented, and the multilabel neighborhood rough set was mapped to the fuzzy set. Based on the multilabel fuzzy neighborhood, the upper and lower approximation sets and the multilabel fuzzy neighborhood rough set model were developed. Thus, the fuzzy neighborhood entropy and the multilabel fuzzy neighborhood entropy were defined to effectively measure the uncertainty of the boundary region. Finally, the Multilabel Fisher Score-based feature selection algorithm with second-order Label Correlation (MFSLC) was designed, and then the MLFSF was constructed. The experimental results applied to 11 multilabel datasets with the Multi-Label K-Nearest Neighbor (MLKNN) classifier show that when compared with six state-of-the-art algorithms including the Multilabel Feature Selection algorithm based on improved ReliefF (MFSR), MLFSF improves the mean of Average Precision (AP) by 2.47 to 6.66 percentage points; meanwhile, MLFSF obtains optimal values for all five evaluation metrics on most datasets.

        multilabel learning; feature selection; Fisher score; multilabel fuzzy neighborhood rough set; fuzzy neighborhood entropy

        This work is partially supported by National Natural Science Foundation of China (62076089, 61976082).

        SUN Lin, born in 1979, Ph. D., professor. His research interests include granular computing, data mining, machine learning.

        MA Tianjiao, born in 1998, M. S. candidate. Her research interests include multilabel learning.

        XUE Zhan’ao, born in 1963, Ph. D., professor. His research interests include granular computing, three-way decision.

        TP181

        A

        1001-9081(2023)12-3779-11

        10.11772/j.issn.1001-9081.2022121841

        2022?12?09;

        2023?01?29;

        2023?01?31。

        國家自然科學基金資助項目(62076089, 61976082)。

        孫林(1979—),男,河南南陽人,教授,博士生導師,博士,CCF會員,主要研究方向:粒計算、數(shù)據(jù)挖掘、機器學習;馬天嬌(1998—),女,河南信陽人,碩士研究生,主要研究方向:多標記學習;薛占熬(1963—),男,河南三門峽人,教授,博士,CCF高級會員,主要研究方向:粒計算、三支決策。

        猜你喜歡
        粗糙集特征選擇集上
        基于Pawlak粗糙集模型的集合運算關系
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復扇形指標集上的分布混沌
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        多?;植诩再|(zhì)的幾個充分條件
        雙論域粗糙集在故障診斷中的應用
        聯(lián)合互信息水下目標特征選擇算法
        兩個域上的覆蓋變精度粗糙集模型
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        亚州中文字幕乱码中文字幕 | 一区二区三区美女免费视频| 久久人妻少妇嫩草av无码专区| 无码夜色一区二区三区| 男人深夜影院无码观看| 麻豆成人久久精品二区三区免费| 日韩人妻中文无码一区二区| 国产96在线 | 欧美| 久久精品国产屋| 国产无卡视频在线观看| 欧美黑人又粗又大xxxx| 激情久久av一区av二区av三区| 免费va国产高清不卡大片| 亚洲丰满熟女乱一区二区三区 | 亚洲无线码一区二区三区| 无码国产激情在线观看| 好爽~又到高潮了毛片视频| 伊人久久大香线蕉av不变影院| 肉色欧美久久久久久久免费看| 白嫩少妇激情无码| 国产不卡一区二区av| 久久国产精品亚洲va麻豆| 亚洲熟女一区二区三区| 中文字幕无码专区一VA亚洲V专| 国产白浆大屁股精品视频拍| 国产色视频一区二区三区qq号 | 99re免费在线视频| 大岛优香中文av在线字幕| 伊人情人色综合网站| 亚洲精品国产av成拍色拍 | 激情综合五月| 无码精品国产va在线观看| 欧美日韩亚洲国产无线码| 日本成人午夜一区二区三区 | 少妇对白露脸打电话系列| 亚洲αv在线精品糸列| 久久精品国产亚洲av不卡国产| 精品乱码久久久久久久| 香蕉视频免费在线| 少妇被猛烈进入中文字幕| 国产午夜福利久久精品|