摘 要: 弱標簽消歧技術(shù)可以用來消除數(shù)據(jù)中的噪聲標簽.然而,經(jīng)由弱標簽消歧后的數(shù)據(jù)中依然可能存在冗余或不相關(guān)特征,因此帶來了弱監(jiān)督數(shù)據(jù)中的特征選擇這一實際問題.在弱標簽消歧后得到的數(shù)據(jù)的基礎(chǔ)上,提出了一種基于多視角擾動的特征選擇框架,其能夠分別從樣本和特征多個視角出發(fā),構(gòu)造不同的擾動數(shù)據(jù),以便求解出多個不同的特征選擇結(jié)果,從而為后續(xù)的學習任務(wù)提供基礎(chǔ)性集成工具.此外,所提的多視角擾動特征選擇框架適用于不同類型、不同約束下的搜索進程.在12組高維數(shù)據(jù)上,通過注入5種不同比例的標簽噪聲和使用3種不同類型的特征度量準則,實驗結(jié)果表明,所提方法求得的特征選擇結(jié)果能夠從準確率和穩(wěn)定性的層面極大地提升分類性能.
關(guān)鍵詞: 特征選擇;多視角;粗糙集;超集學習;弱監(jiān)督
中圖分類號:TP181"" 文獻標志碼:A"""" 文章編號:1673-4807(2024)02-101-08
Feature selection via multi-view perturbation in a typeof weakly supervised data
Abstract:Technique of disambiguation of weak labels can be used to remove noisy labels for samples from data. However,redundant or irrelevant features may also be observed after disambiguation of weak labels, so the problem of feature selection should be paid much attention to in weakly supervised data. On the basis of the data with disambiguation of weak labels, a general feature selection framework via multi-view perturbation is developed, which can construct different perturbed data from both the levels of sample and feature. Consequently, multiple results of feature selection can be obtained, which provide a basic integration tool for the subsequent learning. The proposed framework can be applied to various forms and constraints of searching. On more than 12 sets of" high-dimensional data, by injecting 5 ratios of label noise and using 3 criteria of feature evaluation, the experimental results demonstrate that the feature selection results obtained by our proposed method can significantly improve the classification performance from both the aspects of classification accuracy and classification stability.
Key words:feature selection, multiple-view, rough set, superset learning, weak supervision
在機器學習框架中,有監(jiān)督學習[1-3]在建模時采用強監(jiān)督假設(shè),即對象的類別信息是單一、明確的.而眾多的實際工程應(yīng)用需求表明,數(shù)據(jù)的標注成本很高、獲取大量類別標注精確的樣本難度巨大,因此近年來弱監(jiān)督學習[4-7]已然受到了重點關(guān)注.與有監(jiān)督不同是,弱監(jiān)督學習一般是采用有限、含有噪聲或者類別標注不準確的數(shù)據(jù)來進行模型的訓(xùn)練,因此,研究弱監(jiān)督場景下數(shù)據(jù)的有效利用和模型性能的提升具有現(xiàn)實的應(yīng)用價值.
超集學習是一種典型的弱監(jiān)督學習框架[6-9],出現(xiàn)在諸多現(xiàn)實場景中,如人臉識別、生物信息學、自然語言處理等,近年來得到了廣泛的重視.在該框架中,每個樣本的標簽不再具有單一性和明確性,而是對應(yīng)著一個“候選標簽集合”,樣本的唯一真實標注隱藏在該候選標簽集合中.在利用此類具有歧義性的樣本進行學習建模時,一個直觀的策略是對候選標簽集合進行“消歧”,這一過程可被稱為弱標簽消歧.弱標簽消歧可以有效地消除數(shù)據(jù)中的噪聲標簽,從而提升后續(xù)模型的學習性能.目前比較典型的超集學習算法有PL-kNN[8],PL-SVM[9]等,其中,PL-kNN和PL-SVM都是基于弱標簽消歧的超集學習算法.此外,某些標簽重構(gòu)方法也可以被應(yīng)用在弱標簽消歧問題中,例如P-LLE[10]算法已經(jīng)被證實其重構(gòu)的標簽?zāi)軌驗閷W習器帶來較好的泛化能力.
特征選擇,作為一種數(shù)據(jù)預(yù)處理技術(shù),可以在建立分類模型之前識別和刪除不相關(guān)或冗余的特征,從而提高數(shù)據(jù)在維度上的質(zhì)量,降低后續(xù)學習器在數(shù)據(jù)集上的訓(xùn)練代價.需指出的是,在弱監(jiān)督學習問題中,雖然弱標簽消歧是一種提升學習模型性能的有效方法,但是經(jīng)弱標簽消歧后的數(shù)據(jù)中依然可能存在冗余或不相關(guān)特征.因此近年來已有學者對于弱監(jiān)督數(shù)據(jù)中的特征選擇問題進行了探究,文獻[11]基于弱標簽消歧的結(jié)果,利用信息熵研究了消歧后數(shù)據(jù)中的特征選擇問題.但由于弱標簽消歧本身并不能保證所有樣本的真實標簽都能夠被完美重構(gòu),因此所選擇出的特征的性能依然值得商榷.
近年來,在特征選擇相關(guān)任務(wù)中,引入集成的基本理念,已被證實可以顯著提升所選特征在測試樣本上的表現(xiàn)力.此外,基于集成的特征選擇方法還具有顯而易見的靈活性,主要體現(xiàn)在集成策略的多樣性上.鑒于此,在弱監(jiān)督數(shù)據(jù)中研究基于集成的特征選擇方法,有望為復(fù)雜數(shù)據(jù)中的特征選擇問題帶來框架性的有效方案.為了達到這一目的,筆者將在本研究中給出一種基于多視角擾動的集成特征選擇框架,在這一框架中,在弱標簽消歧的基礎(chǔ)上,分別從樣本和特征的視角實現(xiàn)數(shù)據(jù)擾動,從而構(gòu)造出多個具有顯著差異性的擾動數(shù)據(jù);進一步地,針對每一個數(shù)據(jù)進行特征選擇;最后利用所得到的多個特征選擇結(jié)果在測試樣本上進行投票分類.
1 相關(guān)工作
1. 1 鄰域粗糙集
1. 2 弱標簽消歧
超集學習是一種典型的弱監(jiān)督學習模式.在超集學習框架中,對于某個xi ∈ U, xi的候選標簽可能不止一個,而是一組,即d(xi)∈P(Vd)而非d(xi)∈Vd, 此處P(Vd)表示集合Vd的冪集.因此在超集學習框架中,若xi∈U, 有|d(xi)|=1(|X|表示集合X的基數(shù)), 則稱DS為一個實例決策系統(tǒng),否則稱DS為一個超集決策系統(tǒng).需注意的是,在超集決策系統(tǒng)中,雖然xi∈U使得|d(xi)|gt;1, 但弱標簽合集d(xi)中僅僅只有一個標簽是與樣本xi關(guān)聯(lián)的真實標簽.
給定一個超集決策系統(tǒng)DS, 顯然可以通過組合的方法構(gòu)造出多個不同的實例決策系統(tǒng)形如DS′=U,AT,d′. 其中Symbolb@@xi∈U, 有d ′(xi)∈d(xi). 因此,若超集決策系統(tǒng)DS中有t個不同的標簽,m個樣本,則在最壞情況下,可以構(gòu)造出t m個不同的實例決策系統(tǒng).
然而,在弱監(jiān)督環(huán)境中,如何從樣本的候選標簽集中甄別出可能的真實標簽,或者說弱標簽消歧是一個核心問題.換言之,從標簽的視角來看,弱標簽消歧的目的是在訓(xùn)練數(shù)據(jù)中,找尋“合理”的實例決策系統(tǒng),即將一個超集決策系統(tǒng)轉(zhuǎn)換成為一個“合理”的實例決策系統(tǒng).如提出了P-LLE算法[12],該算法可以在多項式時間內(nèi)重構(gòu)實例決策系統(tǒng).借鑒其基本思想,從鄰域的基本結(jié)構(gòu)出發(fā),基于鄰域的P-LLE算法的基本流程:
1. 3 基于約簡的特征選擇
約簡是粒計算研究領(lǐng)域中一類有效的特征選擇方法,其能夠在給定的約束條件下,找到滿足該約束的最小特征子集.雖然算法1可以在超集決策系統(tǒng)中通過采用弱標簽消歧的方式來提升后續(xù)學習器的性能,但從特征維度的視角來看,決策系統(tǒng)中依然可能存在冗余或不相關(guān)特征.鑒于此,文獻[13]在弱標簽消歧的基礎(chǔ)上,研究了相應(yīng)的特征約簡問題,其一般定義如下所示.
(1) A滿足DS′里對應(yīng)的約束條件;
(2)A, B不滿足DS′里對應(yīng)的約束條件.
綜上,給定一個超集決策系統(tǒng),經(jīng)由弱標簽消歧后求解約簡的一般框架結(jié)構(gòu)如圖1.
2 研究方法
2. 1 幾種度量
在超集決策系統(tǒng)中,經(jīng)由弱標簽消歧,得到了一個實例決策系統(tǒng)[11].進一步地,在該實例決策系統(tǒng)中引入條件熵,并利用這一度量設(shè)計了約簡的約束條件.然而,在粒計算及粗糙集相關(guān)領(lǐng)域的研究中,度量的形式是非常豐富的,利用鄰域粗糙集,不僅可以求得實例決策系統(tǒng)中的條件熵,還可以求得諸如近似質(zhì)量、鑒別指數(shù)等度量指標以刻畫實例決策系統(tǒng)中的不確定性.
式中:δA(xi)為樣本xi在實例決策系統(tǒng)DS′中的鄰域;U / IND(d′ ) ={X1, X2, …, Xt}, d ′表示在實例決策系統(tǒng)DS′中所有與樣本xi具有相同消歧后的標簽所構(gòu)成的集合.
2. 2 約簡的前向貪心求解
在文獻[13]中,期望求得一個約簡A,使得A能夠在實例決策系統(tǒng)中帶來最小的條件熵.又因為本研究中采用的是鄰域方法對樣本空間進行信息?;?,因此條件熵在實例決策系統(tǒng)DS′中具有單調(diào)變化的趨勢,即隨著特征數(shù)量的減少,條件熵會保持不變或者逐漸增大.從這一視角來看,利用條件熵這一度量指標,進行約簡求解就是期望能夠找到一個最小的特征子集,其能夠保持條件熵不會增高.目前,已有大量的算法能夠用于求解給定約束條件的約簡,但兼顧時間效率和約簡的有效性,前向貪心搜索是一種非常流行的方法,其一般流程為:
6.輸出A.
2.3 約簡的多視角擾動求解
雖然算法2可以快速地在實例決策系統(tǒng)中求解出一個約簡,但約簡的性能往往是研究者們更加關(guān)注的問題.近年來,為了進一步提升約簡的有效性,已有眾多學者在約簡求解問題中引入了集成策略,大致可以分為兩類:① 在約簡求解過程中引入集成機制,幫助搜索過程更好地對候選特征進行評估,進而挑選出更為穩(wěn)健特征以利于后續(xù)的學習[15];② 重復(fù)利用某一搜索或者利用不同的搜索進程,找出多個不同的約簡,為后續(xù)的學習提供基礎(chǔ)性集成工具和單元[16].
一般來說,在上述兩種方法中,后者相較于前者來說,框架的搭建和使用更為靈活,且后者能夠較大幅度地提升下游學習任務(wù)的性能.鑒于這一考慮,文中將從數(shù)據(jù)的多視角擾動層面出發(fā),利用算法2在不同的數(shù)據(jù)中求解多個約簡,最終實現(xiàn)對測試樣本的集成分類.
首先,分別從樣本和特征兩個視角出發(fā),找出U中每個樣本x的近鄰和AT中每個特征a的近鄰;其次,利用近鄰求得的標準差將實例決策系統(tǒng)擴充為4個擾動后的實例決策系統(tǒng);其次,分別在原始實例決策系統(tǒng)和擾動后的實例決策系統(tǒng)中進行約簡求解;最終,利用得到的5個約簡結(jié)果對測試樣本進行集成分類.數(shù)據(jù)擾動過程的基本框架結(jié)構(gòu)如圖2.
3 實驗分析
為了驗證所提算法的有效性,本節(jié)進行了相關(guān)的實驗及對比分析.所有實驗均采用Matlab R2017b實現(xiàn),操作系統(tǒng)為Windows 10, CPU為Intel Core(TM) i5-4210U, 內(nèi)存為8.00 GB.
實驗從UCI和基因庫數(shù)據(jù)集中共選取了12組數(shù)據(jù),大多數(shù)數(shù)據(jù)都是高維數(shù)據(jù),基本信息如表1.[KH*2D]
依據(jù)圖2的數(shù)據(jù)擾動過程,實驗取α=3,近鄰個數(shù)為15.實驗采取了10折交叉驗證[17]的方法測試算法的性能,即將數(shù)據(jù)按照樣本數(shù)量分為10等份,每次取其中的9份進行約簡求解,1份作為測試集,以測試所求得約簡的分類性能.
在實驗中,使用了PL-kNN[8]分類器對測試數(shù)據(jù)集進行分類,該分類器中的參數(shù)設(shè)置為k=3. 對于每一個數(shù)據(jù)集,[JP3]通過設(shè)置百分比β為樣本注入弱標簽,β的取值分別為5%, 15%, 25%, 35%和45%. 例如,當β為15%時,隨機選取15%的樣本,為這些樣本隨機地分配除自身真實標簽以外的一些標簽.
3.1 第一組實驗
因為文中研究是建立在鄰域粗糙集基礎(chǔ)上的,因此選取了0.04, 0.08, …, 0.40等10個不同的半徑以構(gòu)建不同尺度的鄰域關(guān)系.第一組實驗共進行了6種約簡方法后的分類性能的比對,分別是前向貪心-γ、數(shù)據(jù)擾動-γ、前向貪心-CE、數(shù)據(jù)擾動-CE、前向貪心-NDI、數(shù)據(jù)擾動-NDI. 例如,前向貪心-γ表示利用前向貪心搜索在求解以近似質(zhì)量γ為度量的約簡后所對應(yīng)的性能,數(shù)據(jù)擾動-γ表示利用圖2所示的數(shù)據(jù)擾動方法在求解以近似質(zhì)量γ為度量的約簡后所對應(yīng)的性能.
實驗使用2個指標來對比不同方法的性能:① PL-kNN分類器所得到的平均分類準確率;② PL-kNN分類器所得到的平均分類穩(wěn)定性.具體實驗結(jié)果如表2~9.
根據(jù)表2~5的結(jié)果,不難得出以下結(jié)論:
(1)隨著百分比β的增大,在6種約簡方法所對應(yīng)分類準確率上,性能都有下降趨勢,但這并不是嚴格單調(diào)的,這說明在數(shù)據(jù)中隨著弱標簽樣本比例的不斷增大,無論采用哪種約簡策略,約簡后分類器的性能也會有所下降;
(2)無論使用哪種度量,采用數(shù)據(jù)擾動生成多個約簡的策略,相較于前向貪心搜索來說,都能夠取得更高的分類準確率,這說明利用數(shù)據(jù)擾動的方法,能夠產(chǎn)生具有顯著差異的約簡,進而能夠幫助提升投票分類的性能.
根據(jù)表6~9的結(jié)果,不難得出以下結(jié)論:
(1) 隨著百分比β的增大,在6種約簡方法所對應(yīng)分類穩(wěn)定性上,性能都有下降趨勢,但與分類準確率的情形類似,穩(wěn)定性的下降并不是嚴格單調(diào)的,這說明弱標簽樣本在數(shù)據(jù)中的比例對于約簡求解后對應(yīng)的分類穩(wěn)定性也存在著影響;
(2) 與分類準確率情形類似,無論使用哪種度量,采用數(shù)據(jù)擾動生成多個約簡的策略,相較于前向貪心搜索來說,都能夠取得更高的分類穩(wěn)定性.
3.2 第二組實驗
本組實驗選取了0.08, 0.16, …, 0.40等5個不同的半徑以構(gòu)建不同尺度的鄰域關(guān)系.第二組實驗共進行了7種算法的分類性能的比對,分別是數(shù)據(jù)擾動-γ、數(shù)據(jù)擾動-CE、數(shù)據(jù)擾動-NDI、BCS[16]、ESAR[15]、MIFS[18]、PGVNS[19]. 其中,ESAR和BCS是兩種集成方法,MIFS和PGVNS是兩種適合高維樣本的特征選擇方法,因為原始MIFS和PGVNS方法是非集成方法,所以從實驗數(shù)據(jù)的公平性起見,對于MIFS和PGVNS的使用,也引入了集成策略,即利用筆者所提出的數(shù)據(jù)擾動框架進行求解,這也從另外一個側(cè)面展現(xiàn)出所提方法具備即插即用的優(yōu)勢.
實驗使用2個指標來對比不同方法的性能:① PL-kNN分類器所得到的平均分類準確率;② PL-kNN分類器所得到的平均分類穩(wěn)定性.具體實驗結(jié)果如表10~13和圖3~4.以可視化的形式展現(xiàn)了2個高維數(shù)據(jù)集上分類準確率表現(xiàn),圖4是2個高維數(shù)據(jù)集上分類穩(wěn)定性直觀展示.[KH*2D]
根據(jù)表10~13和圖3所展示的結(jié)果,不難得出以下結(jié)論:
(1) 隨著百分比β的增大,在分類準確率上這一指標上,7種算法所對應(yīng)的性能都有下降趨勢,這一點從雷達圖(圖3)中可以清晰地看出,但這種下降并非是嚴格單調(diào)的,例如在表10中,數(shù)據(jù)擾動-γ方法在噪聲比為15%時,所對應(yīng)的分類準確率為0.940 4,而當噪聲比為25%時,分類準確率卻達到了0.960 8,在所比對的ESAR、BCS、MIFS和PGVNS算法上都有類似的情形出現(xiàn),這說明弱標簽樣本在數(shù)據(jù)中的比例對于所測試的7種算法對應(yīng)的分類準確率確實都存在著一定的影響;
(2) 以平均值的視角來看,無論使用哪種度量,采用數(shù)據(jù)擾動生成多個約簡的策略,相較于其它對比算法來說,都能夠取得更高的分類準確率,例如在表13中,采用γ、CE和NDI 3種度量的數(shù)據(jù)擾動策略,分類準確率分別達到了0.756 5、0.745 4和0.798 8,顯著優(yōu)于所對比的另外4種特征選擇算法;
(3) 在所比對的4種算法ESAR、BCS、MIFS和PGVNS中,BCS和PGVNS所對應(yīng)的分類準確率要高于ESAR和MIFS所對應(yīng)的分類準確率.
根據(jù)表14~17和圖4結(jié)果,不難得出以下結(jié)論:
(1) 隨著百分比β的增大,在7種算法所對應(yīng)分類穩(wěn)定性上,性能都有下降趨勢,但與分類準確率的情形類似,分類穩(wěn)定性的下降并不是嚴格單調(diào)的,這一點從圖4(a)中也可以顯著看出,這說明弱標簽樣本在數(shù)據(jù)中的比例對于算法進行特征選擇求解后對應(yīng)的分類穩(wěn)定性也確實存在著一定的影響.
(2) 與分類準確率情形類似,無論使用哪種度量,采用數(shù)據(jù)擾動生成多個約簡的策略,相較于對比方法來說,都能夠取得更高的分類穩(wěn)定性.
4 結(jié)論
(1) 首先在鄰域粗糙集中,基于弱標簽消歧的基礎(chǔ)上,引入條件熵、近似質(zhì)量和鑒別指數(shù)度量指標以刻畫求得的實例決策系統(tǒng)中的不確定性.
(2) 利用數(shù)據(jù)擾動,使用擾動數(shù)據(jù)集和原始數(shù)據(jù)集求解出的多個不同的特征選擇結(jié)果,為后續(xù)的學習過程提供基礎(chǔ)性集成工具.
(3) 提出一種多視角擾動特征選擇框架.在UCI和基因庫數(shù)據(jù)集的實驗結(jié)果驗證了文中所提框架的有效性.
(4) 在此基礎(chǔ)上,今后將就從擾動的策略上,進一步擴展多視角擾動框架,使擾動框架在多樣化的擾動策略中有更強的普適性.把多視角擾動框架推廣到更多學習任務(wù)中,從而驗證多視角擾動框架的普適性.
參考文獻(References)
[1] 巴婧, 陳妍, 楊習貝. 快速求解粒球粗糙集約簡的屬性劃分方法[J]. 南京理工大學學報(自然科學版), 2021, 45(4): 394-400.
[2] 熊菊霞, 吳盡昭, 王秋紅. 鄰域互信息熵的混合型數(shù)據(jù)決策代價屬性約簡[J]. 小型微型計算機系統(tǒng), 2021, 42(8):1584-1590.
[3] CHEN Z, LIU K Y, YANG X B, et al. Random sampling accelerator for attribute reduction[J]. International Journal of Approximate Reasoning, 2022, 140: 75-91.
[4] LIU K Y, YANG X B, YU H L, et al. Rough set based semi-supervised feature selection via ensemble selector[J]. Knowledge-Based Systems, 2019, 165: 282-296.
[5] 皋軍,黃欣辰,邵星.基于成對約束的半監(jiān)督選擇性聚類集成[J].江蘇科技大學學報(自然科學版),2020,34(4):57-63.
[6] GONG C, LIU T L, TANG Y Y, et al. A regularization approach for instance-based superset label learning[J]. IEEE Transactions on Cybernetics, 2018, 48(3): 967-978.
[7] CHEN C H, PATEL V M, CHELLAPPA R. Learning from ambiguously labeled face images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(7): 1653-1667.
[8] HLLERMEIER E, BERINGER J. Learning from ambiguously labeled examples[J]. Intelligent Data Analysis, 2006, 10(5): 419-439.
[9] NGUYEN N, CARUANA R. Classification with partial labels[C] ∥Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, Nevada, USA: ACM, 2008: 551-559.
[10] WANG C Z, HU Q H, WANG X Z, et al. Feature selection based on neighborhood discrimination index[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29: 2986-2999.
[11] YANG X B, YAO Y Y. Ensembleselector for attribute reduction[J]. Applied Soft Computing,2018,70:1-11.
[12] CAMPAGNER A, CIUCCI D.Orthopartitions and soft clustering: Soft mutual information measures for clustering validation[J]. Knowledge-Based Systems, 2019, 180: 51-61.
[13] CAMPAGNER A, CIUCCI D, HLLERMEIER E. Rough set-based feature selection for weakly labeled data[J]. International Journal of Approximate Reasoning, 2021, 136: 150-167.
[14] ZHANG X, MEI C L, CHEND G, et al. Feature selection in mixed data: A method using a novel fuzzy rough set-based information entropy[J]. Pattern Recognition, 2016, 56: 1-15.
[15] LIN G P, LIANG J Y, QIAN Y H. Uncertainty measures for multigranulation approximation space[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2015, 23(3): 443-458.
[16] SUN D, ZHANG D Q. Bagging constraint score for feature selection with pairwise constraints[J]. Pattern Recognition, 2010, 43(6): 2106-2118.
[17] HU Q H, YU D R, LIU J F, et al. Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences, 2008, 178(18): 3577-3594.
[18] 許行, 張凱, 王文劍. 一種小樣本數(shù)據(jù)的特征選擇方法[J]. 計算機研究與發(fā)展, 2018, 55(10): 2321-2330.
[19] GARCA T M, GMEZ F, MELIN B B, et al. High-dimensional feature selection via feature grouping: A variable neighborhood search approach[J]. Information Sciences, 2016, 326: 102-118.