亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類算法

        2020-03-11 13:53:38王晶晶楊有龍
        關(guān)鍵詞:分類信息方法

        王晶晶,楊有龍

        西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安710126

        1 引言

        在單標(biāo)簽學(xué)習(xí)中每個(gè)實(shí)例只與單一的類標(biāo)簽相關(guān)聯(lián),與傳統(tǒng)單標(biāo)簽學(xué)習(xí)不同,多標(biāo)簽學(xué)習(xí)是同時(shí)處理具有多個(gè)類標(biāo)簽的實(shí)例[1]。到目前為止,多標(biāo)簽學(xué)習(xí)已經(jīng)引起了人們的廣泛關(guān)注,并且應(yīng)用于各種領(lǐng)域,如文本或網(wǎng)站分類[2]、圖像或視頻注釋[3]和基因功能分析[4]等。多標(biāo)簽分類任務(wù)是使用一些多標(biāo)簽數(shù)據(jù)來訓(xùn)練一個(gè)分類模型,并用此模型為新出現(xiàn)的實(shí)例來預(yù)測一組標(biāo)簽集合。

        對于大部分現(xiàn)有的多標(biāo)簽分類算法,例如LP(Label Powerset)[5]、BR(Binary Relevance)[6]、ECC(Ensembles of Classifier Chains)[7]、RAKEL(Random k-Labelsets)[8]

        和ML-KNN(Multi-Label k -Nearest Neighbor)[9]等一些經(jīng)典的算法,都要求訓(xùn)練數(shù)據(jù)中所有的標(biāo)簽信息是完整的,然而在實(shí)際問題中,隨著數(shù)據(jù)的爆炸式增長,獲取完全標(biāo)記的實(shí)例并不是一件容易的事情。一方面的原因可能是獲得這些信息需要大量的人力物力或者付出的代價(jià)是昂貴的,例如:在化學(xué)研究中,獲得相應(yīng)的標(biāo)簽信息可能需要多次有害的重復(fù)實(shí)驗(yàn);在進(jìn)行新藥品的檢測時(shí),獲得新藥成分中相應(yīng)的活性分子可能涉及到研究者暫時(shí)無法知曉的專業(yè)知識。另一方面的原因可能是收集者僅僅收集了一些相對重要的信息而丟棄了其他有用的信息。由此,產(chǎn)生了弱標(biāo)記數(shù)據(jù)[10]。

        弱標(biāo)記數(shù)據(jù)是指實(shí)例的部分標(biāo)簽未被標(biāo)記或者錯(cuò)誤標(biāo)記的多標(biāo)簽數(shù)據(jù),在本文著重研究前一種情況。在針對弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類問題中,對于標(biāo)簽的分配有以下三種情況:(1)在訓(xùn)練集中,存在一部分完全標(biāo)記的實(shí)例,剩余的實(shí)例都是完全未標(biāo)記的,稱這種情況為半監(jiān)督多標(biāo)簽學(xué)習(xí)問題[11-12];(2)在訓(xùn)練集中的實(shí)例只有部分相關(guān)標(biāo)簽是已知的,其余的標(biāo)簽信息都是未知的,這部分的標(biāo)簽也被視為缺失的標(biāo)簽信息,稱這種情況為弱標(biāo)記學(xué)習(xí)問題[13];(3)在訓(xùn)練集中的實(shí)例只有部分相關(guān)和不相關(guān)的標(biāo)簽是已知的,其余的標(biāo)簽信息都是未知的,稱這種情況為擴(kuò)展的弱標(biāo)記學(xué)習(xí)問題。圖1是對這三種情況的具體解釋,圖中的1和?1分別表示相關(guān)和不相關(guān)的標(biāo)簽信息,紅色的陰影部分表示缺失的標(biāo)簽信息。在本文中,主要針對第二種情況進(jìn)行研究。

        圖1 三種標(biāo)簽分配方式

        對于上述的弱標(biāo)記學(xué)習(xí)問題,目前也有一些相應(yīng)的解決方法。Sun等人[13]最早將弱標(biāo)記問題引入多標(biāo)簽學(xué)習(xí)中,并提出WELL(Weak Label Learning)方法來解決此問題,在WELL 方法中,由一組低秩相似性矩陣來刻畫實(shí)例之間的相似性,同時(shí)考慮了弱標(biāo)記問題中固有的類別不平衡問題,并強(qiáng)制每個(gè)標(biāo)簽的分類邊界跨越低密度區(qū)域。Chen 等人[14]首次嘗試從少數(shù)的標(biāo)簽分配中重建完整或未知的標(biāo)簽集合,之后在輸入特征到重建標(biāo)簽集合之間學(xué)習(xí)一個(gè)映射來解決問題。Wu等人[15]提出一種歸納式的方法MLML(Multi-label Learning with Missing Labels)來處理多標(biāo)簽中的缺失標(biāo)簽問題,這種方法加強(qiáng)了預(yù)測標(biāo)簽和可用標(biāo)簽之間的一致性以及標(biāo)簽之間的局部平滑性。Chung 等人[16]提出了一種新的方式來解決這一問題,特別是針對缺失標(biāo)簽的分布不是均勻分布的情況,該方法能夠通過更新權(quán)重的方式來快速地恢復(fù)缺失標(biāo)簽的相關(guān)信息。Tan等人[17]提出一種歸納式的方法SMILE(Semi-supervised Multi-label Classification using Incomplete Label Information),該方法在對弱標(biāo)記數(shù)據(jù)進(jìn)行分類的過程中引入了基于圖的半監(jiān)督線性分類器,通過一致性和平滑性這兩個(gè)基本的假設(shè)來優(yōu)化最終的目標(biāo)函數(shù),進(jìn)而得到所求的線性分類器。

        為了解決上述問題,本文提出了一種MCWD(Multilabel Classification for Weak-label Data)的算法來解決弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類問題,它充分利用了實(shí)例之間的相似性和標(biāo)簽之間的相似性,同時(shí)又引入了標(biāo)簽之間的相關(guān)性,主要用于恢復(fù)訓(xùn)練數(shù)據(jù)中的缺失標(biāo)簽信息。MCWD算法首先通過在可接受的執(zhí)行時(shí)間內(nèi)迭代地更新每個(gè)訓(xùn)練實(shí)例的權(quán)重來恢復(fù)80%訓(xùn)練數(shù)據(jù)的標(biāo)簽信息;接下來利用標(biāo)簽相關(guān)性來補(bǔ)充剩余實(shí)例的標(biāo)簽信息;最后,使用完全恢復(fù)的訓(xùn)練數(shù)據(jù)來訓(xùn)練分類模型。在14 個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MCWD 算法對于不同的數(shù)據(jù)集具有較好的分類效果。

        2 提出的算法

        2.1 問題陳述

        在傳統(tǒng)的多標(biāo)簽分類任務(wù)中,訓(xùn)練集一般表示為{(xi,yi)|1 ≤i ≤m},其中xi∈?d是第i 個(gè)實(shí)例的d 維特征向量,yi=(yi1,yi2,…,yin)∈{1,-1}n是此實(shí)例相應(yīng)的n維標(biāo)簽向量,其中的值1和?1分別代表相關(guān)和不相關(guān)的標(biāo)簽信息。 m 和n 分別是實(shí)例和標(biāo)簽的數(shù)目。X=[x1;x2;…;xm]∈?m×d為實(shí)例的特征矩陣,Y=[y1;y2;…;ym]∈{1,-1}m×n為實(shí)例的真實(shí)標(biāo)簽矩陣。對于向量yi=(yi1,yi2,…,yin)中的每個(gè)分量yij,當(dāng)yij=1 時(shí)表示第j 個(gè)標(biāo)簽屬于第i 個(gè)實(shí)例,否則表示為yij=-1。多標(biāo)簽分類任務(wù)的目標(biāo)是從已知的X 和Y 矩陣中學(xué)習(xí)一個(gè)分類模型f:?d?{1,-1}n來準(zhǔn)確地預(yù)測新實(shí)例的標(biāo)簽向量。

        然而在弱標(biāo)記樣本中,標(biāo)簽矩陣Y 中的相關(guān)標(biāo)簽是部分已知的,此時(shí)只能得到一個(gè)不完整的標(biāo)簽矩陣C ∈{0,1}m×n,其中當(dāng)Cij=1 時(shí)表示第j 個(gè)標(biāo)簽屬于第i個(gè)實(shí)例(與上述yij=1 時(shí)的情況相同),而Cij=0 時(shí)上述相應(yīng)的標(biāo)簽分量yij有兩種可能出現(xiàn)的情況:一種是yij=1,它表明雖然第j 個(gè)標(biāo)簽屬于第i 個(gè)實(shí)例但是此結(jié)果沒有被觀測到;另一種是yij=-1,它表明第j 個(gè)標(biāo)簽不屬于第i 個(gè)實(shí)例,同樣此結(jié)果也是沒有被觀測到的,所以將這樣的矩陣C 作為弱標(biāo)記數(shù)據(jù)的初始標(biāo)簽矩陣。另外,p 是為每個(gè)實(shí)例所分配相關(guān)標(biāo)簽的最大數(shù)目,其值可以通過計(jì)算獲得。因此在訓(xùn)練集中為每個(gè)實(shí)例分配到的標(biāo)簽數(shù)目保持在[1,p]范圍內(nèi),即在向量Ci=(Ci1,Ci2,…,Cin)中的相關(guān)標(biāo)簽數(shù)目都不超過p 的值。本文的主要目標(biāo)是從已知的{X,C}中去學(xué)習(xí)得到一個(gè)完整的標(biāo)簽矩陣Y?∈{1,-1}m×n,同時(shí)希望Y?與真實(shí)的標(biāo)簽矩陣Y 很接近,從而能更好地執(zhí)行分類任務(wù)。

        2.2 標(biāo)簽恢復(fù)的具體過程

        在具有弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類問題中,由于訓(xùn)練數(shù)據(jù)中大多數(shù)的標(biāo)簽信息是缺失的,所以利用傳統(tǒng)的多標(biāo)簽分類算法來解決此類問題難以產(chǎn)生好的分類效果。如果能將訓(xùn)練數(shù)據(jù)中不完整的標(biāo)簽信息進(jìn)行正確地恢復(fù),此時(shí)的預(yù)測效果將會有所提升。為了解決上述問題,從而提出了一種可以正確地恢復(fù)缺失標(biāo)簽信息的MCWD 算法,圖2 簡明扼要地說明了此算法的大致流程。接下來將詳細(xì)地介紹這種算法。

        圖2 MCWD算法的流程框圖

        2.2.1 初始化

        這一步的主要想法是將已知的相關(guān)和不相關(guān)的標(biāo)簽信息分配到所有的訓(xùn)練數(shù)據(jù)中,然而此時(shí)在本文的訓(xùn)練數(shù)據(jù)中沒有不相關(guān)的標(biāo)簽信息,需要在訓(xùn)練數(shù)據(jù)的標(biāo)簽信息中添加一些不相關(guān)的標(biāo)簽信息,從而將缺失標(biāo)簽和不相關(guān)標(biāo)簽進(jìn)行有效區(qū)分。

        首先,對于初始標(biāo)簽矩陣C 中的每個(gè)標(biāo)簽j,在C中隨機(jī)選擇pj個(gè)Cij=0 的實(shí)例,同時(shí)將選定實(shí)例的Cij值由原來的0變?yōu)?1,其中pj是每個(gè)標(biāo)簽j 中所有相關(guān)標(biāo)簽的總數(shù)目。此時(shí),經(jīng)過初始化,Cij中的值由原來的{0,1}變化為{-1,0,1},其中1 代表相關(guān)的標(biāo)簽信息,0 代表缺失的標(biāo)簽信息,-1 代表不相關(guān)的標(biāo)簽信息。將此時(shí)得到的標(biāo)簽矩陣記為C1∈{-1,0,1}m×n。其次,將權(quán)重矩陣初始化為=C1ij。

        下面以一個(gè)例子來說明初始化前后訓(xùn)練集中各個(gè)實(shí)例的標(biāo)簽集所發(fā)生的具體變化。假設(shè)訓(xùn)練集中有5個(gè)實(shí)例,每個(gè)實(shí)例由3個(gè)特征和3個(gè)標(biāo)簽所組成,給定p的值為1,那么初始化前的訓(xùn)練集如表1所示,經(jīng)過初始化之后所得的訓(xùn)練集如表2所示。

        表1 初始化前的訓(xùn)練集

        表2 初始化后的訓(xùn)練集

        2.2.2 迭代和更新

        這一步的主要目標(biāo)是恢復(fù)訓(xùn)練數(shù)據(jù)中大部分的標(biāo)簽信息,具體的步驟主要分為以下三個(gè)階段:預(yù)測標(biāo)簽、更新權(quán)重以及重置標(biāo)簽。

        首先,使用一個(gè)實(shí)例加權(quán)的基分類器來逐個(gè)預(yù)測訓(xùn)練集中所有實(shí)例的標(biāo)簽信息。選用的這個(gè)基分類器為實(shí)例加權(quán)的KNN分類器,具體的過程為:給定訓(xùn)練數(shù)據(jù)以及每個(gè)實(shí)例的初始權(quán)重,將訓(xùn)練數(shù)據(jù)中的每個(gè)實(shí)例輪流作為一次測試實(shí)例,同時(shí)將其余的實(shí)例作為一個(gè)新的訓(xùn)練集;之后計(jì)算出訓(xùn)練實(shí)例與測試實(shí)例之間的歐式距離,這些距離只需要計(jì)算一次并且在迭代的過程不會發(fā)生改變。對于一個(gè)測試實(shí)例ITest,實(shí)例加權(quán)的KNN 算法先在訓(xùn)練集中尋找它的k 個(gè)近鄰KNN(ITest),確保此測試實(shí)例與這些近鄰之間的距離盡可能得小;之后在第t 次迭代時(shí),其k 個(gè)近鄰KNN(ITest)標(biāo)簽向量的加權(quán)平均作為此測試實(shí)例ITest在第t 次迭代的預(yù)測標(biāo)簽向量

        其次,用每個(gè)實(shí)例i 的每個(gè)標(biāo)簽j 的值來更新每次的權(quán)重值wij,的更新值為:

        其中,sgn()是符號函數(shù),e 是高置信度閾值并且其取值在(0.5,1),c 是低置信度閾值并且其取值在(0,0.5),同時(shí)Maxj=maxi(,Minj=mini。此外,wij的值也在區(qū)間[-1,1]。因?yàn)榈娜≈悼傇谝粋€(gè)固定的區(qū)間中,所以根據(jù)其值可以確定區(qū)分相關(guān)與不相關(guān)標(biāo)簽信息的閾值。由于輸出值總在區(qū)間[-1,1],因此以0 作為閾值來區(qū)分實(shí)例的標(biāo)簽信息,qtij的值將重新分配為:

        最后,為了在每次迭代過程中將初始標(biāo)簽矩陣C中的相關(guān)標(biāo)簽信息保留下來,需要將經(jīng)過以上步驟所獲得的的值進(jìn)行重置。這樣做的原因是因?yàn)镃 中的相關(guān)標(biāo)簽信息不僅是已知的,而且是完全正確的,有必要將這部分的信息進(jìn)行保留并有效地加以利用,現(xiàn)在所獲得的標(biāo)簽矩陣表示為Q={∈{ }-1,0,1 |1 ≤i ≤m,1 ≤j ≤n}。

        如果依次執(zhí)行完畢上述的三個(gè)步驟,則表示一次循環(huán)完成。當(dāng)訓(xùn)練數(shù)據(jù)中80%的標(biāo)簽信息完全恢復(fù)完畢時(shí),即這80%實(shí)例的標(biāo)簽中不含有缺失值“0”時(shí),循環(huán)結(jié)束,從而進(jìn)行下一步。

        2.2.3 利用標(biāo)簽相關(guān)性來恢復(fù)剩余的標(biāo)簽信息

        多標(biāo)簽學(xué)習(xí)不同于傳統(tǒng)的單標(biāo)簽學(xué)習(xí),一個(gè)實(shí)例往往關(guān)聯(lián)多個(gè)標(biāo)簽,并且這些標(biāo)簽相互之間常常存在著一定的關(guān)聯(lián),所以在多標(biāo)簽的學(xué)習(xí)過程中,研究和利用這些標(biāo)簽之間的相關(guān)性是非常有必要的[18-20]?,F(xiàn)有的關(guān)于標(biāo)簽之間相關(guān)性的求解策略可大致分為一階策略(不考慮標(biāo)簽之間的相關(guān)性)、二階策略(考慮兩兩標(biāo)簽之間的相關(guān)性)和高階策略(考慮多個(gè)標(biāo)簽之間的相關(guān)性)三大類[7,9,17,21],在本文中,所采用的是二階策略[17],主要是因?yàn)樗谑褂眠^程中的簡單性和有效性,同時(shí)這也是經(jīng)常被使用的一種策略。因此,本文定義了一個(gè)標(biāo)簽相關(guān)矩陣L ∈?n×n,用來衡量兩兩標(biāo)簽之間的相關(guān)性,具體形式如下:

        其中,qc1用來表示被標(biāo)簽c1標(biāo)注的實(shí)例集合, ||qc1表示被標(biāo)簽c1標(biāo)注的實(shí)例數(shù)目,而 ||qc1?qc2表示被標(biāo)簽c1和c2同時(shí)標(biāo)注的實(shí)例數(shù)目。s >0 是引入的一個(gè)平滑參數(shù),通過設(shè)置參數(shù)s,可以在一定程度上避免由于標(biāo)簽不平衡問題所產(chǎn)生的一些極端情況。 舉一個(gè)簡單的例子進(jìn)行說明:假設(shè)現(xiàn)在有25張圖片,其中有5張被大海、輪船和魚群這三個(gè)標(biāo)簽所標(biāo)記,而剩余的那些都是被輪船和魚群這兩個(gè)標(biāo)簽所標(biāo)記。 如果隨機(jī)選擇10 張圖片用來估計(jì)標(biāo)簽之間的相關(guān)性,并且選擇到的這10 張圖片恰好都是被輪船和魚群這兩個(gè)標(biāo)簽所標(biāo)記時(shí),那么在不考慮s 的情況下,大海與輪船之間的相關(guān)性和大海與魚群之間的相關(guān)性都會被估計(jì)為0。但是實(shí)際上這三個(gè)標(biāo)簽相互之間是有所關(guān)聯(lián)的,所以引入?yún)?shù)s 是有必要的。此外,利用在上一步所得到的80%訓(xùn)練數(shù)據(jù)中完全恢復(fù)好的標(biāo)簽信息來計(jì)算標(biāo)簽相關(guān)矩陣L。

        接下來需要在剩余20%訓(xùn)練數(shù)據(jù)中找到缺失的標(biāo)簽,同時(shí)利用得到的標(biāo)簽相關(guān)矩陣L 來將這些缺失值補(bǔ)充完整,具體補(bǔ)充過程如下:

        當(dāng)qij=0時(shí),的值變?yōu)?,其中Maxj=之后選擇一個(gè)閾值來確定最終的值,如果的值大于0.5時(shí),在Q 中qij的值變?yōu)?;否則在Q 中qij的值變?yōu)?1。通過這一步,的值會被快速地恢復(fù)。

        到目前為止,所有的缺失標(biāo)簽全部恢復(fù)完畢,換言之此時(shí)訓(xùn)練數(shù)據(jù)全部的標(biāo)簽信息都是完整的,將最終恢復(fù)好的標(biāo)簽矩陣記為?∈{1,-1}m×n,同時(shí)將其作為訓(xùn)練實(shí)例新的標(biāo)簽集。利用這個(gè)新的訓(xùn)練集{X,來訓(xùn)練一個(gè)多標(biāo)簽分類模型,其中現(xiàn)在的標(biāo)簽集與初始的標(biāo)簽集C 是不同的,之后使用得到的分類模型來預(yù)測測試數(shù)據(jù)的標(biāo)簽信息。MCWD算法的詳細(xì)過程如算法1所示。

        算法1 MCWD算法

        輸入:訓(xùn)練集D=[X,C],其中X 為特征矩陣,C 為初始的標(biāo)簽矩陣;為每個(gè)實(shí)例所分配相關(guān)標(biāo)簽的最大數(shù)目p,迭代次數(shù)t,測試集X1。

        1.for 訓(xùn)練集D 中的所有實(shí)例執(zhí)行

        2. 初始化

        3. 隨機(jī)添加不相關(guān)的標(biāo)簽信息,標(biāo)簽矩陣由初始的標(biāo)簽矩陣C 變?yōu)镃1;

        5. 迭代和更新

        6.while C1中80%的標(biāo)簽信息未恢復(fù)完全時(shí)執(zhí)行

        7. for訓(xùn)練集中第1個(gè)到第m 個(gè)實(shí)例執(zhí)行

        8. 使用式(1)來預(yù)測每個(gè)實(shí)例的標(biāo)簽向量qt;

        10. 重置標(biāo)簽信息,將C 中已知的相關(guān)標(biāo)簽信息保留下來;

        11. end for

        12. end while

        13. 利用標(biāo)簽相關(guān)性來恢復(fù)剩余的標(biāo)簽信息

        14. 使用式(4)來計(jì)算標(biāo)簽相關(guān)矩陣L;

        15. 尋找剩余20%訓(xùn)練數(shù)據(jù)中缺失的標(biāo)簽信息,使用式(5)對其進(jìn)行恢復(fù);

        16.end for

        18.利用現(xiàn)有的多標(biāo)簽分類算法從[X,Y?] 中訓(xùn)練分類模型;

        19.返回預(yù)測的標(biāo)簽矩陣Y1。

        3 實(shí)驗(yàn)及結(jié)果分析

        在這部分,主要評估所提出MCWD 算法的有效性。將MCWD算法與其他兩種標(biāo)簽恢復(fù)的方法同時(shí)配合兩種成熟的多標(biāo)簽學(xué)習(xí)算法,對來自不同研究領(lǐng)域并且有著不同規(guī)模的14 個(gè)多標(biāo)簽數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)仿真,最后將所得的實(shí)驗(yàn)結(jié)果進(jìn)行比較和分析,從而來驗(yàn)證MCWD算法的可行性和有效性。

        3.1 數(shù)據(jù)集

        選取了14個(gè)具有代表性的、公開的多標(biāo)簽數(shù)據(jù)集,表3 中總結(jié)了這些數(shù)據(jù)集各方面的一些基本信息。對于每個(gè)數(shù)據(jù)集,介紹了其所屬的領(lǐng)域、含有實(shí)例的總數(shù)目、每個(gè)實(shí)例擁有的特征數(shù)目、每個(gè)實(shí)例擁有的標(biāo)簽數(shù)目、標(biāo)簽的基數(shù)或勢和p 值的大小。其中Cardinality表示標(biāo)簽的基數(shù)或勢,其值可根據(jù)公式(6)進(jìn)行計(jì)算,它表示為每個(gè)實(shí)例所分配到的標(biāo)簽的平均數(shù)目,Density 為標(biāo)簽的密度,是標(biāo)簽的基數(shù)與標(biāo)簽總數(shù)的比值,具體的計(jì)算方式見公式(7),最后的p 值為標(biāo)簽基數(shù)的一半,在C 中它限制了為每個(gè)實(shí)例所分配標(biāo)簽的最大數(shù)目。選取的整個(gè)數(shù)據(jù)集大小從194到43 000多不等,其中的特征維數(shù)從19 維到5 000 維不等,相應(yīng)的標(biāo)簽個(gè)數(shù)從6 到370多不等,同時(shí)它們涉及到廣泛的領(lǐng)域和特征,具有一定的代表性和說服力。

        表3 選取的多標(biāo)簽數(shù)據(jù)集

        其中,yi表示第i 個(gè)實(shí)例的標(biāo)簽集。

        上述數(shù)據(jù)集的網(wǎng)站來源:http://mulan.sourceforge.net./datasets-mlc.html,https://www.uco.es/grupos/kdis/kdiswiki/index.php/Resources。

        3.2 評估指標(biāo)

        在多標(biāo)簽分類問題中,由于數(shù)據(jù)集中的每個(gè)實(shí)例往往同時(shí)關(guān)聯(lián)到多個(gè)標(biāo)簽,所以對于那些傳統(tǒng)的分類性能評估指標(biāo)例如準(zhǔn)確率、精確率和召回率等對此問題不完全適用。到目前為止,為了更好地評估多標(biāo)簽分類的分類效果,許多研究者從分類問題的各個(gè)角度著手考慮并且在傳統(tǒng)的單標(biāo)簽評估指標(biāo)的基礎(chǔ)上進(jìn)行改進(jìn),提出了許多種多標(biāo)簽分類性能的評估標(biāo)準(zhǔn)來從不同的側(cè)面去衡量學(xué)習(xí)系統(tǒng)的泛化性能。這些評估標(biāo)準(zhǔn)大致可以概括為三類:(1)基于實(shí)例的評估標(biāo)準(zhǔn);(2)基于標(biāo)簽的評估標(biāo)準(zhǔn);(3)基于標(biāo)簽排序的評估標(biāo)準(zhǔn)。評判一個(gè)算法的泛化性能不但可以從分類預(yù)測的角度進(jìn)行考慮,而且可以從標(biāo)簽排序的角度進(jìn)行衡量,特別是當(dāng)數(shù)據(jù)集中給定的真實(shí)標(biāo)簽信息不完整時(shí),通過標(biāo)簽排序的角度來評估分類性能可能更加合理。

        為了驗(yàn)證所提算法的有效性,選擇了以下三個(gè)評估指標(biāo),關(guān)于它們的具體描述如下:

        (1)One-error 主要衡量在對所有待預(yù)測實(shí)例進(jìn)行標(biāo)簽排序的過程中,預(yù)測排在第一位上的標(biāo)簽實(shí)際上不是相關(guān)標(biāo)簽真正的待預(yù)測實(shí)例所占的比例。具體的計(jì)算過程為:

        其中,S 表示測試集,f 是一個(gè)排序函數(shù),并且對于任一個(gè)條件a ,如果a 成立時(shí)則? a? =1,否則? a? =0 。由其定義可知該評估指標(biāo)的值越小,則說明算法的分類性能越優(yōu),當(dāng)One-errorS( )f =0 時(shí),分類性能達(dá)到最佳。

        (2)Macro F1是所有標(biāo)簽F1度量的平均值,其中F1度量是通過精確率和召回率計(jì)算得到的。此指標(biāo)具體的計(jì)算過程為:

        其中,pi和ri分別表示第i 個(gè)標(biāo)簽的精確率和召回率。 Macro F1的值越大,則表明算法的分類性能越優(yōu)。

        (3)Micro F1是精確率和召回率的調(diào)和平均,其中精確率和召回率是針對每個(gè)標(biāo)簽從TP、FP 和FN 的角度進(jìn)行度量。此指標(biāo)具體的計(jì)算過程為:

        對于測試實(shí)例中所關(guān)聯(lián)到的第i 個(gè)標(biāo)簽,其中TPi表示真正例的個(gè)數(shù),即正類實(shí)例被分類器預(yù)測為正類的個(gè)數(shù);FPi表示假正例的個(gè)數(shù),即負(fù)類實(shí)例被預(yù)測為正類的個(gè)數(shù);FNi表示假負(fù)例的個(gè)數(shù),即正類實(shí)例被預(yù)測為負(fù)類的個(gè)數(shù)。 Micro F1的值越大,則表明算法的分類性能越優(yōu)。

        3.3 實(shí)驗(yàn)設(shè)置

        將所提的MCWD算法與其他三種相關(guān)的方法進(jìn)行比較,其中的兩種關(guān)于標(biāo)簽恢復(fù)的方法需要同時(shí)配合兩種成熟的多標(biāo)簽學(xué)習(xí)算法來執(zhí)行分類任務(wù),所以需要同時(shí)兼顧兩方面的內(nèi)容:一方面是關(guān)于標(biāo)簽恢復(fù)工作,另一方面是關(guān)于多標(biāo)簽分類工作。

        對于標(biāo)簽恢復(fù)工作,采用以下兩種方法進(jìn)行比較:(1)文獻(xiàn)[16]中關(guān)于標(biāo)簽恢復(fù)的方法,為了方便討論,以下將這種方法簡記為文獻(xiàn)[16]。其中參數(shù)k 的取值為10,其余各個(gè)參數(shù)的具體設(shè)置詳見文獻(xiàn)[16]。(2)WELL方法,其中各個(gè)參數(shù)的具體設(shè)置詳見文獻(xiàn)[13]。

        對于多標(biāo)簽分類工作,主要采用以下三種方法進(jìn)行實(shí)驗(yàn)仿真:(1)ML-KNN方法[9],它是一種具有一階策略的多標(biāo)簽學(xué)習(xí)算法,是從傳統(tǒng)的KNN(k-Nearest Neighbor)算法演變而來。對于一個(gè)待測實(shí)例,ML-KNN首先在訓(xùn)練數(shù)據(jù)中識別出與其最近的k 個(gè)近鄰,之后從這些近鄰實(shí)例的標(biāo)簽集中獲得統(tǒng)計(jì)信息,最后根據(jù)最大后驗(yàn)概率來確定待測實(shí)例最終的標(biāo)簽集合。其中參數(shù)k 的取值為10,平滑系數(shù)的值設(shè)置為1。(2)ECC 方法[7],它是CC(Chain Classifier)方法的集成版本,其中集成的數(shù)目選擇為10,并且對于每一個(gè)CC 中的鏈序都是隨機(jī)生成的,其余各個(gè)參數(shù)的具體設(shè)置詳見文獻(xiàn)[7]。(3)SMILE[17],它是一種歸納式的半監(jiān)督多標(biāo)簽分類方法,綜合利用來自標(biāo)記實(shí)例和未標(biāo)記實(shí)例的標(biāo)簽相關(guān)性來預(yù)測新的未知實(shí)例的標(biāo)簽信息。其中各個(gè)參數(shù)的具體設(shè)置詳見文獻(xiàn)[17]。

        在本文所提的MCWD 算法中,高置信度閾值e 的取值為0.8,低置信度閾值c 的取值為0.2,與文獻(xiàn)[16]中相關(guān)參數(shù)的選擇保持一致。在每次迭代過程中,k 值會發(fā)生相應(yīng)的變化,其取值與迭代的次數(shù)有關(guān)為10 ?t ,平滑系數(shù)s 的取值為1。在實(shí)驗(yàn)過程中,對于每一個(gè)數(shù)據(jù)集,將其隨機(jī)劃分為訓(xùn)練集(占70%)和測試集(占30%),此過程反復(fù)進(jìn)行10 次,最后將這10 次實(shí)驗(yàn)結(jié)果的均值和標(biāo)準(zhǔn)差作為最終的結(jié)果輸出。

        3.4 實(shí)驗(yàn)結(jié)果分析

        經(jīng)過實(shí)驗(yàn)仿真,接下來將對MCWD 算法的性能進(jìn)行分析。首先表4 統(tǒng)計(jì)了在C 中相關(guān)標(biāo)簽的數(shù)目和標(biāo)簽的缺失率,其中標(biāo)簽的缺失率是在訓(xùn)練數(shù)據(jù)中缺失標(biāo)簽的數(shù)目與標(biāo)簽總數(shù)目的比值。從表4可以看出,當(dāng)選定的p 值較小時(shí),那么在C 中標(biāo)簽的缺失率通常較高,表中的所有值均為10次實(shí)驗(yàn)結(jié)果的平均值。

        表4 C 中的相關(guān)信息統(tǒng)計(jì)

        其次,圖3顯示了弱標(biāo)記數(shù)據(jù)的標(biāo)簽矩陣C1與多標(biāo)簽數(shù)據(jù)中真實(shí)的標(biāo)簽矩陣Y 相比的正確率以及通過使用4 種標(biāo)簽恢復(fù)方法得到的恢復(fù)后的標(biāo)簽矩陣Y?與真實(shí)的標(biāo)簽矩陣Y 相比的正確率,圖中的橫坐標(biāo)為選取的14 個(gè)多標(biāo)簽數(shù)據(jù)集,縱坐標(biāo)為與真實(shí)的標(biāo)簽矩陣Y相比的正確率。從圖3 中可以清楚地看出標(biāo)簽恢復(fù)之后的正確率有明顯的提高,并且使用本文方法進(jìn)行恢復(fù)的效果遠(yuǎn)遠(yuǎn)勝過其他三種標(biāo)簽恢復(fù)的方法,在這些數(shù)據(jù)集中Enron 數(shù)據(jù)集用本文方法進(jìn)行恢復(fù)后的效果是最好的。

        圖3 與Y 相比的正確率

        最后,在14 個(gè)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)的所有結(jié)果見表5~7,表中顯示的所有值均為10次實(shí)驗(yàn)結(jié)果的平均值與標(biāo)準(zhǔn)差的組合,同時(shí)將每個(gè)數(shù)據(jù)集中評估指標(biāo)的最佳結(jié)果用粗體突出顯示。對于表5 中的評估指標(biāo)One-error ,其值越小表明最終的分類效果越好,然而對于表6和表7中的評估指標(biāo)Macro F1和Micro F1,其值越大表明最終的分類效果越好。

        從表5 中關(guān)于One-error 評估指標(biāo)的實(shí)驗(yàn)結(jié)果可以得出:在14 個(gè)數(shù)據(jù)集中,在MCWD 方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占8 個(gè),在文獻(xiàn)[16]方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占2個(gè),在WELL方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占1個(gè),在SMILE方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占3個(gè)。與其他三種方法相比,所提的方法更具有優(yōu)勢。并且注意到CAL500 數(shù)據(jù)集在MCWD方法下使用ML-KNN 分類器后得到One-error 的值為0,此時(shí)的分類性能達(dá)到最佳,即使在使用ECC 分類器后獲得的One-error 的值也趨近于0,分類的效果也是不錯(cuò)的。

        表5 基于One-error 評估指標(biāo)的實(shí)驗(yàn)結(jié)果對比

        表6 基于Macro F1 評估指標(biāo)的實(shí)驗(yàn)結(jié)果對比

        根據(jù)表6 中關(guān)于Macro F1評估指標(biāo)的實(shí)驗(yàn)結(jié)果可以得出:在14 個(gè)數(shù)據(jù)集中,在MCWD 方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占9 個(gè),在文獻(xiàn)[16]方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占1個(gè),在WELL方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占1個(gè),在SMILE方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占3個(gè)。與其他三種方法相比,所提的方法更具有競爭力。同時(shí)注意到Scene 數(shù)據(jù)集在MCWD方法下使用ML-KNN分類器后得到的Macro F1的值約為0.67,此時(shí)的分類效果是所有數(shù)據(jù)集中最佳的。

        表7 基于Micro F1 評估指標(biāo)的實(shí)驗(yàn)結(jié)果對比

        根據(jù)表7 中關(guān)于Micro F1評估指標(biāo)的實(shí)驗(yàn)結(jié)果可以得出:在14 個(gè)數(shù)據(jù)集中,在MCWD 方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占8 個(gè),其中對于Flags 數(shù)據(jù)集,在MCWD 方法下分別使用ML-KNN 分類器和ECC 分類器后所得的Micro F1的值是相同的,在文獻(xiàn)[16]方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占2個(gè),在WELL方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占1 個(gè),在SMILE 方法下分類效果達(dá)到最優(yōu)的數(shù)據(jù)集占3 個(gè)。與其他三種方法相比,所提的方法更具有優(yōu)勢。同時(shí)注意到Genbase數(shù)據(jù)集在MCWD 方法下使用ML-KNN 分類器后得到的Micro F1的值約為0.89,此時(shí)的分類效果是所有數(shù)據(jù)集中最佳的。

        綜上所述,所提出的MCWD 算法對于絕大多數(shù)的數(shù)據(jù)集都能產(chǎn)生較好的分類效果,但是也有一些例外的情況,例如其中的Mediamill 數(shù)據(jù)集,從表5~7 可以看出,此數(shù)據(jù)集使用WELL方法進(jìn)行恢復(fù)后所產(chǎn)生的分類效果遠(yuǎn)遠(yuǎn)比使用MCWD 方法所產(chǎn)生的效果好,出現(xiàn)這種情況的原因可能是通過使用WELL 方法在恢復(fù)標(biāo)簽的過程中預(yù)測產(chǎn)生了太多的相關(guān)標(biāo)簽信息,從而使得最終Macro F1和Micro F1的值很大。同時(shí)注意到對于Flags數(shù)據(jù)集,無論是使用ML-KNN分類器還是ECC分類器,在每種方法下所產(chǎn)生的分類效果差不多相近,出現(xiàn)這種情況的原因可能是在此數(shù)據(jù)集中標(biāo)簽之間的相關(guān)性不是很強(qiáng),所以這兩種分類器產(chǎn)生的效果大致相同。對于Birds 數(shù)據(jù)集,使用SMILE 方法后在三個(gè)評估指標(biāo)上均取得了較好的結(jié)果,出現(xiàn)這種情況的原因可能是此數(shù)據(jù)集更適合用基于圖的訓(xùn)練模型進(jìn)行訓(xùn)練。最后,通過對上述實(shí)驗(yàn)結(jié)果進(jìn)行的一系列分析后,可以得出一個(gè)顯而易見的結(jié)論:通過使用MCWD 算法進(jìn)行標(biāo)簽恢復(fù)后,無論是使用ML-KNN 分類器還是ECC 分類器,對于絕大多數(shù)的數(shù)據(jù)集都能夠產(chǎn)生較好的分類效果,與其他三種方法相比,具有一定的競爭力。

        4 結(jié)束語

        在現(xiàn)實(shí)生活中,隨著數(shù)據(jù)量的迅猛增加,數(shù)據(jù)形式也越來越多樣化,這就使得利用人工對數(shù)據(jù)進(jìn)行標(biāo)注越來越不現(xiàn)實(shí),因此在收集數(shù)據(jù)的過程中很難獲得完全標(biāo)記的實(shí)例,然而大多數(shù)成熟的多標(biāo)簽分類算法都要求訓(xùn)練實(shí)例的標(biāo)簽信息必須是完整的,所以進(jìn)行標(biāo)簽的恢復(fù)工作就顯得格外重要。

        本文針對弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類問題,提出了一種有效的算法MCWD來解決訓(xùn)練實(shí)例中部分相關(guān)標(biāo)簽信息已知而其余標(biāo)簽信息未知的問題。MCWD算法主要通過迭代地更新每個(gè)訓(xùn)練實(shí)例的權(quán)重并且引入兩兩標(biāo)簽之間的相關(guān)性來恢復(fù)訓(xùn)練數(shù)據(jù)中的缺失標(biāo)簽信息,同時(shí)還在一定程度上避免了由于標(biāo)簽不平衡問題所導(dǎo)致的一些極端情況。實(shí)驗(yàn)結(jié)果表明,與其他相關(guān)方法相比,采用現(xiàn)有的多標(biāo)簽分類算法從恢復(fù)后的訓(xùn)練數(shù)據(jù)集中訓(xùn)練得到的分類模型可以在測試階段產(chǎn)生更好的預(yù)測效果。

        猜你喜歡
        分類信息方法
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        女厕厕露p撒尿八个少妇| 91精品国产自拍视频| 日韩精品人妻中文字幕有码在线| aa片在线观看视频在线播放| 欧美日韩中文国产一区| 2021亚洲色中文字幕| 亚洲精品综合久久中文字幕| 久久精品国产久精国产爱| 午夜无码国产理论在线| 亚洲熟妇一区无码| 亚洲区一区二区三区四| 一区二区三区国产免费视频| 末发育娇小性色xxxx| 日韩二三区| 亚洲人妻av在线播放| 亚洲啪啪视频一区二区| 无码人妻精品丰满熟妇区| 亚洲动漫成人一区二区| 久久精品亚洲成在人线av| 久久精品99国产精品日本| 久久综合久久鬼色| 久久亚洲第一视频黄色| 人妻少妇偷人精品视频| 精品国产乱码久久久久久郑州公司 | 亚洲中文字幕第一页在线| 亚洲一区二区高清在线| 男人的天堂手机版av| 日韩丰满少妇无码内射| 日本视频中文字幕一区在线| 国产精品自拍视频免费看| 免费观看a级毛片| 久久久久久久性潮| 亚洲熟妇夜夜一区二区三区| 成人一区二区人妻少妇| 日韩亚洲欧美中文在线| 国产91对白在线观看| 欧美亚洲精品一区二区| AV无码专区亚洲AVL在线观看| 日韩人妻精品视频一区二区三区| 人人妻人人爽人人澡欧美一区| 久草国产视频|