喬亞琴,馬盈倉,陳紅,楊小飛
西安工程大學理學院,西安710048
構(gòu)造樣本k近鄰數(shù)據(jù)的多標簽分類算法
喬亞琴,馬盈倉,陳紅,楊小飛
西安工程大學理學院,西安710048
傳統(tǒng)的監(jiān)督學習在單個標簽下學習,即每個對象只與單個標簽相關(guān)聯(lián),并且已經(jīng)提出了多種算法并取得良好的效果[1]。然而,現(xiàn)實世界的對象通常是與多個標簽同時關(guān)聯(lián)。例如,在圖像分類中,一幅圖像可能同時包含樹木、山地、日落等多個標簽,一首樂曲可能屬于“鋼琴曲”,也可能屬于“古典音樂”,蛋白質(zhì)可能同時具有多種功能,如“運輸功能”、“免疫功能”等。因此,給一個對象或示例賦予一個標簽子集,并且在這個基礎(chǔ)上進行建模和學習,這就構(gòu)成了多標簽的學習框架,多標簽學習的意義在于使得每個示例不僅僅對應(yīng)于單個標簽,而是與多個標簽建立對應(yīng)。多標簽學習最初主要是在文本分類[2]領(lǐng)域進行研究,隨后將其應(yīng)用到一些新的領(lǐng)域。比如音樂分類[3]、蛋白質(zhì)功能分類[4]等。經(jīng)過近幾年的發(fā)展,在數(shù)據(jù)挖掘[5]、多媒體內(nèi)容自動標注[6]、生物信息學[7]、信息檢索[8]、個性化推薦[9]等應(yīng)用得到廣泛的應(yīng)用。
在算法研究上,已經(jīng)提出了大量的多標簽學習算法。文獻[10]將這些算法分為三類:一是“問題轉(zhuǎn)換”方法,其主要思想是將多標簽訓練樣本進行處理,將多標簽學習問題轉(zhuǎn)化為已知的學習問題進行求解。比如有一階方法Binary Relevance[11]、二階方法Calibrated Label Ranking[12]和高階方法Random k-labelsets[13]等。二是“算法適應(yīng)”方法,其主要思想是通過常用監(jiān)督學習算法進行改進,用于多標簽數(shù)據(jù)學習。比如有ML-KNN[14]、IMLLA[15]、IBLR-ML[16]、Rank-SVM[17]等。三是通過“集成”方法進行多標簽學習的算法,比如有ECC[18]、隨機森林的預測聚類樹[19]等。
在以上學習算法中,ML-KNN算法是目前常用的一種多標簽學習算法。該算法通過統(tǒng)計k近鄰樣本的類別標簽信息,根據(jù)最大化后驗概率來對測試樣本的標簽進行預測,具有操作簡單,運算速度快,結(jié)果穩(wěn)定等優(yōu)點。本文在對ML-KNN分析的基礎(chǔ)上,指出其主要思想是將原始多標簽數(shù)據(jù)集通過統(tǒng)計鄰近樣本標簽得出新的數(shù)據(jù)集,在此數(shù)據(jù)集上通過樸素貝葉斯進行分類。在此基礎(chǔ)上,由于ML-KNN統(tǒng)計樣本未考慮近鄰距離對標簽的影響,本文在考慮k近鄰樣本關(guān)于測試樣本距離的基礎(chǔ)上,建立新的數(shù)據(jù)集。新的數(shù)據(jù)集特征屬性為樣本關(guān)于k近鄰的距離與特定標簽的加權(quán)和,這樣不僅考慮k近鄰中包含標簽的樣本個數(shù),而且考慮了距離的影響,可以更多地獲取原始數(shù)據(jù)集的信息,而特征屬性維數(shù)大大降低。在新數(shù)據(jù)集上,建立回歸模型,本文主要采用線性回歸和Logistic回歸,從而對測試樣本進行預測。本質(zhì)上,新數(shù)據(jù)集是原始多標簽數(shù)據(jù)通過k近鄰的信息提取,會漏掉一些信息,因此,為了更好地進行預測,在原始數(shù)據(jù)集上提取每個標簽關(guān)于特征屬性的Markov邊界,連同新數(shù)據(jù)集的特征屬性一起構(gòu)造回歸模型進行多標簽學習。這樣會包含更多的信息,實驗結(jié)果也在一定程度上驗證了這一點。
給定多標簽訓練集D={(x1,Y1),(x2,Y2),…,(xm,Ym)},其中m表示樣本個數(shù),xi∈Rn為n維的屬性向量xi=(xi1,xi2,…,xin)T,Yi∈Rq為與xi對應(yīng)的標簽向量Yi=(yi1,yi2,…,yiq)T,q表示標簽個數(shù),yij∈{+1,-1},i=1,2,…,m,j=1,2,…,q。若yij=+1,則表示樣本xi的具有第j個標簽,反之則不具有j標簽。下面用yj表示第j個標簽。一般的,對于樣本x∈Rn,為了方便,用Y(x)=(y1(x),y2(x),…,yq(x))T表示x的標簽向量,若yj(x)=+1,則表示樣本x的具有yj標簽。用N(x)表示樣本x在D中k個近鄰構(gòu)成的集合,其中
樣本間的相似度采用n維空間兩點間的Euclidean距離的倒數(shù)來刻畫。對于第j(1≤j≤q)個標簽yj而言,ML-KNN算法統(tǒng)計如下的值:
ML-KNN算法是通過k近鄰統(tǒng)計每個樣本的Cj(1≤j≤q),得到新的特征屬性,建立每個樣本的Cj與標簽集的對應(yīng)關(guān)系。
設(shè)有如表1的多標簽數(shù)據(jù)集,對每一個樣本計算其5近鄰,比如對樣本x1,可以計算其5近鄰N(x1)={x6,x7,x3,x9,x8},統(tǒng)計其具有標簽y1的個數(shù)有4個,包含標簽y2的個數(shù)有1個,包含標簽y3的個數(shù)有3個,從而C1(x1)=4,C2(x1)=1,C3(x1)=3。對于其他樣本,類似的也可以計算出。由此可以得到如表2的新數(shù)據(jù)集,其在統(tǒng)計k近鄰的角度提取了原始數(shù)據(jù)集的信息。
表1 一個2屬性3標簽的數(shù)據(jù)集
表2 統(tǒng)計5近鄰標簽個數(shù)的新數(shù)據(jù)集
在新數(shù)據(jù)集上,ML-KNN是如何進行多標簽學習的呢,從以上分析可以看出,Cj所刻畫的信息對于預測標簽yj來說具有強相關(guān)的作用,因此通過Cj與yj建立樸素貝葉斯模型進行分類,就可以得到ML-KNN的多標簽學習算法。
由以上分析可以看出,通過k近鄰構(gòu)造新的數(shù)據(jù)集,新數(shù)據(jù)集本質(zhì)上進行了特征提取。ML-KNN即通過Cj的信息估計yj,取得很好的效果。但是,從另一方面,ML-KNN僅通過Cj的信息估計yj,沒有考慮新數(shù)據(jù)集中其他屬性對分類結(jié)果的影響,因此一定程度上有信息的丟失。文獻[15]基于這種情況進行改進,綜合考慮新數(shù)據(jù)集的全部屬性特征,提出IMLLA算法。它是對k近鄰構(gòu)造的新數(shù)據(jù)集利用線性回歸模型來進行多標簽分類,在學習效果上有了顯著的提高。由于原始數(shù)據(jù)集一般屬性的個數(shù)都遠遠大于標簽的個數(shù),而新數(shù)據(jù)集屬性的個數(shù)與標簽個數(shù)相同,屬性的維度有了大幅的降低,因此,在新的數(shù)據(jù)集上進行多標簽回歸學習可以得出比原始數(shù)據(jù)集更好的結(jié)果。
由上一章可以看出,ML-KNN通過統(tǒng)計k近鄰的標簽個數(shù)來進行分類。實際上,對測試樣本x,其k近鄰中樣本與x的距離遠近對于x的標簽也具有很大影響。考慮僅有1個標簽的情形,如圖1所示,給出x的10近鄰,實心點表示具有標簽,空心點不具有標簽??梢钥闯觯?0近鄰中不具有標簽的個數(shù)為6個,具有標簽個數(shù)為4個。如果僅考慮個數(shù),x應(yīng)該不具有標簽。但可以看出具有標簽的樣本距離x較近。從直觀上,x應(yīng)該具有標簽。因此,距離的遠近影響分類的結(jié)果。在數(shù)據(jù)轉(zhuǎn)化過程中,不僅要考慮k近鄰中包含標簽的個數(shù),同樣要考慮樣本間的距離。
圖1 x近鄰點到x點的距離
設(shè)樣本x的k近鄰為N(x)。對任一x*∈N(x),D(x,x*)表示x*到x的距離(本文取Euclidean距離)。對標簽yj來說,用Cj表示N(x)中樣本對標簽yj的加權(quán)值:
其中,若yj(x*)=1,x*具有yj標簽;否則yj(x*)=-1。從式(3)可以看出,若x的k近鄰中樣本具有yj標簽越多或者與x距離越近,則Cj(x)值就越大;反之,Cj(x)值就越小。與式(2)相比較,若D(x,x*)=1且標簽取值為0,1時,即統(tǒng)計k近鄰中樣本的類別標簽信息。由此,式(3)不僅考慮了具有標簽類別的個數(shù),而且考慮了樣本間的距離,包含了原始數(shù)據(jù)集更多的信息。類似的,對表1的數(shù)據(jù)集,應(yīng)用式(3)得到如表3的新數(shù)據(jù)集(保留小數(shù)點后4位),用C(x)=(C1(x),C2(x),…,Cq(x))表示樣本x的新數(shù)據(jù)集下的屬性特征向量,它是對原始數(shù)據(jù)集一種新的特征提取。同樣的,在此數(shù)據(jù)集上建立回歸模型,就可以進行多標簽學習。
對于形如表3的回歸模型,本文采取兩種回歸方法。第一種應(yīng)用線性回歸模型。通過屬性的線性組合來進行分類的預測,對于yj標簽的預測,通過yj上的輸出:來確定,其中wj為與yj標簽對應(yīng)的q維列向量,bj為常數(shù)項。在此回歸模型中新數(shù)據(jù)集的所有屬性特征均考慮。對于測試樣本x,若f(x,yj)>0,則樣本x具有yj標簽,即yj(x)=+1;否則不具有yj標簽,即yj(x)=-1。
為了獲取權(quán)重wj和bj,針對每一標簽yj,采用最小化誤差平方和函數(shù)來得到,即對訓練集:
求解式(8),可得到線性回歸系數(shù)w?j,代入式(6),就可對測試樣本進行分類。
表3 考慮5近鄰樣本距離的新數(shù)據(jù)集
第二種方法采取Logistic回歸。在線性回歸中,選取新數(shù)據(jù)集的全部屬性特征進行回歸。在Logistic回歸中,對yj標簽,由于與Cj具有強相關(guān)性,僅取屬性特征Cj對yj標簽進行回歸建模。由線性回歸可以看出,對yj標簽,僅考慮屬性特征Cj,通過線性回歸時產(chǎn)生實值。為了分類,需要將實值f轉(zhuǎn)化為兩個值,最理想的是單位階躍函數(shù)。但其不連續(xù),一般采用對數(shù)幾率函數(shù)y=1/(1+e-f)來代替。對于yj標簽的預測,通過yj上的輸出
來確定,對于測試樣本x,若f(x,yj)>1/2,則x具有標簽yj,即yj(x)=+1;若f(x,yj)≤1/2,則x不具有標簽yj,即yj(x)=-1。
為了獲取權(quán)重w?j,一般采用極大似然法來估計w?j。通過最小化
來得到。為了求解上式,可以通過牛頓法得到,其第t+1輪更新公式為:
關(guān)于wj'的一階、二階導數(shù)分別為:
為此得到考慮k近鄰樣本距離的多標簽學習算法,稱之為回歸多標簽KNN算法(RML-KNN),用Lin-RML-KNN表示線性回歸多標簽KNN算法,用Log-RML-KNN表示Logistic回歸多標簽KNN算法。具體算法如下:
輸入:數(shù)據(jù)集D={(x1,Y1),(x2,Y2),…,(xm,Ym)};近鄰個數(shù)k;測試樣本x;
構(gòu)造新的數(shù)據(jù)集
其中C(xi)=(C1(xi),C2(xi),…,Cq(xi))
通過式(1)計算樣本x的k近鄰N(x);
計算輸出f(x,yj):線性回歸通過式(6)計算;Logistic回歸通過式(9)計算;
計算標簽:對線性回歸,若輸出f(x,yj)>0,則yj(x)=+1,否則yj(x)=-1;對Logistic回歸,若輸出f(x,yj)>1/2,則yj(x)=+1,否則yj(x)=-1。
輸出:測試樣本的標簽向量yj(x),f(x,yj),j=1,2,…,q。
在RML-KNN算法中,對于yj標簽,通過新數(shù)據(jù)集Cj進行Logistic回歸。為了更好地利用原始數(shù)據(jù)集的信息,可以添加原始數(shù)據(jù)x的屬性特征進行回歸。但由于屬性特征個數(shù)一般較大,回歸的維數(shù)過高,并不一定有好的效果。應(yīng)用貝葉斯網(wǎng)理論,一個節(jié)點的Markov邊界包括其父節(jié)點、子節(jié)點和子節(jié)點的父節(jié)點,節(jié)點的Markov邊界與此節(jié)點具有強相關(guān)性,因此可以更好地包含原始數(shù)據(jù)集的信息。由此對于yj標簽,除Cj外,添加yj標簽關(guān)于原始數(shù)據(jù)集屬性特征的Markov邊界,在此基礎(chǔ)上進行Logistic回歸,稱之為基于Markov邊界的回歸多標簽KNN算法,記為MB-RML-KNN算法。對于Markov邊界的計算,采取軟件包來得到。其算法過程與RML-KNN類似,在此不再列出。
本文實驗的操作系統(tǒng)是Windows 7,Matlab 2015b。選取7個常用多標簽數(shù)據(jù)集(見表4),取常用多標簽學習算法BR[11]、Rank-SVM[16]、ECC[18]、ML-KNN[14]、IMLLA[15],與本文提出的Lin-RML-KNN、Log-RML-KNN、MBRML-KNN算法進行比較,其中BR、ECC基分類器為SVM。各數(shù)據(jù)集每個標簽的Markov邊界通過Causal Explorer[20]軟件包計算得到。
表4 實驗數(shù)據(jù)集描述
已知多標簽分類器h:X→2q以及多標簽測試集T={(xi,Yi)|1≤i≤p},其中Yi表示隸屬于實例xi的相關(guān)標簽集合,q表示標簽個數(shù),本文實驗采用常用的5種多標簽學習評價指標,定義如下:
對于任意的謂詞π,當成立時π為1,否則π為0,該指標取值越小則算法越優(yōu)。
是與實值函數(shù)f(?,?)對應(yīng)的排序函數(shù),該指標取值越小則算法越優(yōu)。
該指標取值越小則算法越優(yōu)。
表5給出了各多標簽學習算法在scene、emotions、yeast、image、genbase、birds、enron七個數(shù)據(jù)集上的實驗結(jié)果。
由表5可以看出在scene數(shù)據(jù)集上,本文提出的算法Lin-RML-KNN、Log-RML-KNN、MB-RML-KNN在Hamming-loss上均優(yōu)于其他5個算法,在提出的這三個算法中,MB-RML-KNN算法效果最好;在Ranking-loss、One-error、Coverage、Average-precision大多優(yōu)于其他算法;但是這三個對ML-KNN改進的算法各項指標結(jié)果均優(yōu)于ML-KNN,其中又屬MB-RML-KNN算法效果最好。
在emotions數(shù)據(jù)集上,本文提出的算法Lin-RMLKNN、Log-RML-KNN、MB-RML-KNN在各項指標上效果不如BR、ECC,但都比ML-KNN、IMLLA效果要好,在這三個算法中又屬MB-RML-KNN算法效果最好。
在yeast數(shù)據(jù)集上,本文提出的算法Lin-RMLKNN、Log-RML-KNN、MB-RML-KNN除在One-error上效果不如其余算法,但要比IMLLA要好,在Hammingloss、Ranking-loss、Coverage、Average-precision上均優(yōu)于其他算法,在這三個算法中又屬MB-RML-KNN算法效果最好。
表5 不同算法在不同數(shù)據(jù)集上的對比結(jié)果
在image數(shù)據(jù)集上,本文提出的算法Lin-RMLKNN、Log-RML-KNN、MB-RML-KNN在各項指標上效果大多不如其他算法。
在genbase數(shù)據(jù)集上,本文提出的Lin-RML-KNN、Log-RML-KNN算法在各項指標上大多優(yōu)于其他算法,MB-RML-KNN算法在各項指標上均優(yōu)于其他算法。
在birds數(shù)據(jù)集上,本文提出的算法Lin-RMLKNN、Log-RML-KNN在各項指標上大多不如其他算法,MB-RML-KNN算法在各項指標上大多優(yōu)于其他算法。
在enron數(shù)據(jù)集上,本文提出的算法Log-RMLKNN在各項指標上大多不如其他算法,Lin-RMLKNN、MB-RML-KNN算法在各項指標上大多優(yōu)于其他算法。
下面是當鄰域個數(shù)變化時,ML-KNN、IMLLA、Lin-RML-KNN、Log-RML-KNN、MB-RML-KNN五個算法在不同數(shù)據(jù)集上的指標變化情況。鄰域個數(shù)k分別取3,6,9,…,30等10個值時的5個指標的取值,從而可以體現(xiàn)k值選取對于不同算法的影響。限于篇幅,選取scene、emotions、yeast和birds四個數(shù)據(jù)集,各指標變化情況分別如圖2~圖5所示。
圖2 scene數(shù)據(jù)集各指標值的變化圖
圖3 emotions數(shù)據(jù)集各指標值的變化圖
由圖2可以看出在scene數(shù)據(jù)集上MB-RML-KNN算法在各指標上效果最好,而且當近鄰個數(shù)取12時,MB-RML-KNN算法效果最佳。由圖3可以看出在emotions數(shù)據(jù)集上MB-RML-KNN算法在各指標上效果最好,而且當近鄰個數(shù)取6時,MB-RML-KNN算法的Hamming-Loss值效果最佳;當近鄰個數(shù)取9時,MBRML-KNN算法的Ranking-Loss、Coverage、Average-Precision值效果最佳;當近鄰個數(shù)取27時,MB-RMLKNN算法的One-Error值效果最佳。圖4可以看出在yeast數(shù)據(jù)集上MB-RML-KNN算法在各指標上總體效果最好,而且當近鄰個數(shù)取6時,MB-RML-KNN算法的Hamming-Loss、Ranking-Loss、Coverage值效果最佳;當近鄰個數(shù)取9時,MB-RML-KNN算法的One-Error、Average-Precision值效果最佳。由圖5可以看出在birds數(shù)據(jù)集上MB-RML-KNN算法One-Error、Average-Precision指標上效果很好,在其余指標上較IMLLA算法更好,比ML-KNN算法要差些。
圖4 yeast數(shù)據(jù)集各指標值的變化圖
圖5 birds數(shù)據(jù)集各指標值的變化圖
本文針對張敏靈提出的ML-KNN算法中未考慮近鄰距離對標簽的影響,考慮以樣本與其近鄰距離構(gòu)造新的數(shù)據(jù)集,并利用線性回歸與Logistic回歸進行分類。但是上述構(gòu)造新數(shù)據(jù)集的過程將原始數(shù)據(jù)集中信息丟失較多,為克服這種情況,考慮將標簽的Markov邊界加入到新數(shù)據(jù)集中,通過第4章的實驗也充分說明此種方法的有效性。Markov邊界選取了影響標簽的主要屬性特征,接下來將從理論上進行分析,并與其他特征選擇算法進行對比分析。
[1] Mitchell T M.Machine learning[M].New York:McGraw-Hill,1997.
[2] Gao S,Wu W,Lee C H,et al.A MFoM learning approach to robust multiclass multi-label text categorization[C]//International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publisher,2004:329-336.
[3] Li T,Ogihara M.Toward intelligent music information retrieval[J].IEEE Trans on Multimedia,2006,8(3):564-574.
[4] Zhang M L,Zhou Z H.Multi-label neural networks with applications to functional genomics and text categorization[J].IEEE Trans on Knowledge and Data Engineering,2006,18(10):1338-1351.
[5] Li P,Wu X,Hu X,et al.An incremental decision tree for mining multilabel data[J].Applied Artificial Intelligence,2015,29(10):992-1014.
[6] Snoek C G M,Worring M,Van Gemert J C,et al.The challenge problem for automated detection of 101 semantic concepts in multimedia[C]//Proceedings of the 14th ACM International Conference on Multimedia,2006:421-430.
[7] Barutcuoglu Z,Schapire R E,Troyanskaya O G.Hierarchical multi-label prediction of gene function[J].Bioinformatics,2006,22(7):830-836.
[8] Gopal S,Yang Y.Multilabel classification with meta-level features[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval,2010:315-322.
[9] Song Y,Zhang L,Giles C L.A sparse gaussian processes classification framework for fast tagsuggestions[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,2008:93-102.
[10] Madjarov G,Kocev D,Gjorgjevikj D,et al.An extensive experimental comparison of methods for multi-label learning[J].Pattern Recognition,2012,45(9):3084-3104.
[11] Boutell M R,Luo J,Shen X,et al.Learning multi-label scene classification[J].Pattern Recognition,2004,37(9):1757-1771.
[12] Fürnkranz J,Hüllermeier E,Loza Mencía E,et al.Multilabel classification via calibrated label ranking[J].Machine Learning,2008,73(2):133-153.
[13] Tsoumakas G,Vlahavas I.Random k-labelsets:An ensemble method for multilabel classification[C]//Proceedings of ECML 2007,2007:406-417.
[14] Zhang M L,Zhou Z H.ML-kNN:A lazy learning approach to multilabel learning[J].Pattern Recognition,2007,40(7):2038-2048.
[15] 張敏靈.一種新型多標記懶惰學習算法[J].計算機研究與發(fā)展,2012,49(11):2271-2282.
[16] Cheng W,Hüllermeier E.Combining instance-based learning and logistic regression for multilabel classification[J].Machine Learning,2009,76(2/3):211-225.
[17] Elisseeff A,Weston J.A kernel method for multi-labelled classification[C]//Advances in Neural Information Processing Systems,2002:681-687.
[18] Read J,Pfahringer B,Holmes G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359.
[19] Kocev D,Vens C,Struyf J,et al.Ensembles of multiobjective decision trees[C]//Proceedings of ECML 2007,2007:624-631.
[20] Aliferis C F,Tsamardinos I,Statnikov A R,et al.Causal explorer:A causal probabilistic network learning toolkitforbiomedicaldiscovery[C]//InternationalConference on Mathematics&Engineering Techniques in Medicine&Biological Sciences,2003,3:371-376.
QIAO Yaqin,MA Yingcang,CHEN Hong,et al.Multi-label classification algorithm of structure sample k-nearest neighbors data.Computer Engineering andApplications,2018,54(6):135-142.
QIAO Yaqin,MAYingcang,CHEN Hong,YANG Xiaofei
School of Science,Xi’an Polytechnic University,Xi’an 710048,China
In multi-label classification,this paper constructs the new dataset about the nearest neighbors sample class mark through the classification idea of the k-nearest neighbors.The multi-label classification algorithm are established on the new dataset through the regression model.Firstly,this paper calculates the k-nearest neighbors distance of the test samples in each label and constructs new dataset of each sample on the label set.Secondly,the multi label classification algorithm is given based on sample k-nearest neighbors dataset,using linear regression and Logistic regression.In order to further exploit the information of original dataset,considering the Markov boundary of the original property each label and combining the feature of the new dataset to establish a new regression model,a multi-label classification algorithm about Markov boundary is proposed.The experimental results show that the multi-label learning method is better than the common learning algorithm.
multi-label classification;Logistic regression;k-nearest neighbors;Markov boundary
在多標簽分類問題中,通過k近鄰的分類思想,構(gòu)造測試樣本關(guān)于近鄰樣本類別標簽的新數(shù)據(jù),通過回歸模型建立在新數(shù)據(jù)下的多標簽分類算法。計算測試樣本在每個標簽上考慮距離的k近鄰,構(gòu)造出每個樣本關(guān)于標簽的新數(shù)據(jù)集。對新數(shù)據(jù)集采取線性回歸和Logistic回歸,給出基于樣本k近鄰數(shù)據(jù)的多標簽分類算法。為了進一步利用原始數(shù)據(jù)的信息,考慮每個標簽關(guān)于原始屬性的Markov邊界,結(jié)合新數(shù)據(jù)的特征建立新的回歸模型,提出考慮Markov邊界的多標簽分類算法。實驗結(jié)果表明所給出的方法性能優(yōu)于常用的多標簽學習算法。
多標簽分類;Logistic回歸;k近鄰;Markov邊界
2017-07-20
2017-10-16
1002-8331(2018)06-0135-08
A
TP18
10.3778/j.issn.1002-8331.1707-0337
國家自然科學基金(No.11501435);西安市科技計劃項目(No.CXY1441(2));西安工程大學研究生創(chuàng)新基金(No.CX201726)。
喬亞琴(1992—),女,碩士研究生,研究領(lǐng)域為人工智能、多標簽學習等;馬盈倉(1972—),通訊作者,男,博士,教授,研究領(lǐng)域為機器學習、粒度計算等,E-mail:mayingcang@126.com;陳紅(1992—),女,碩士研究生,研究領(lǐng)域為人工智能、多標簽學習等;楊小飛(1982—),男,博士,副教授,研究領(lǐng)域為多值拓撲、多值圖論及擬陣。