李星星
摘要:在整個(gè)模式識(shí)別體系內(nèi),關(guān)于現(xiàn)實(shí)內(nèi)的所有客觀對(duì)象,系統(tǒng)均會(huì)在輸入空間(屬性空間)通過使用一個(gè)樣本來描述這種對(duì)象的性質(zhì),而在輸出空間(類標(biāo)空間)中則采用類標(biāo)來描述這種對(duì)象所具有的語義信息。而其中一種基于特異性特征的多標(biāo)記學(xué)習(xí)方法LIFT尤為重要。
關(guān)鍵詞:模式識(shí)別;類別屬性;LIFT算法
一、LIFT算法的引入
在多標(biāo)記學(xué)習(xí)算法中,不同的類標(biāo)可能擁有他們自己獨(dú)特的特征[1]。例如:當(dāng)判斷一個(gè)學(xué)生是計(jì)算機(jī)系的學(xué)生還是藝術(shù)系的學(xué)生時(shí),可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來;像這類特征就可以看作是對(duì)應(yīng)類標(biāo)下的特異性特征(label-specific features)?;陬悩?biāo)特異性特征的優(yōu)點(diǎn),國內(nèi)也有很多研究者對(duì)此進(jìn)行了研究。張教授等人在文獻(xiàn)[2,3]中提出一種具有特異性特征的多標(biāo)記學(xué)習(xí)算法(multi-label learning with Label Specific Features algorithm ,LIFT)。具體地說,該類算法借鑒了BR思想;首先,對(duì)于每一個(gè)類標(biāo),所有的訓(xùn)練樣例都被劃為正樣例和負(fù)樣例,其次再利用聚類分析技術(shù)來創(chuàng)造出對(duì)應(yīng)的映射函數(shù),進(jìn)而形成特異性特征空間,再充分利用這些空間中的特異性特征來對(duì)測(cè)試樣本的類標(biāo)進(jìn)行預(yù)測(cè)。
二、LIFT算法特點(diǎn)及其優(yōu)缺點(diǎn)
LIFT算法充分考慮了在多標(biāo)記學(xué)習(xí)過程中類標(biāo)所具有的特點(diǎn),尋求每個(gè)類標(biāo)下的特異性特征。與以往的多標(biāo)記學(xué)習(xí)算法不同,LIFT算法正是在上述思想的基礎(chǔ)上,設(shè)計(jì)出相應(yīng)的多標(biāo)記學(xué)習(xí)算法。LIFT算法有很多優(yōu)點(diǎn),當(dāng)然其也有很多方面的不足。LIFT算法的優(yōu)缺點(diǎn)如下所述:
LIFT方法有如下幾個(gè)優(yōu)點(diǎn),(1)簡易性:這種算法是很簡單的而且也容易去實(shí)現(xiàn);LIFT算法僅僅需要去調(diào)準(zhǔn)唯一的一個(gè)參數(shù)就可以得到理想的效果,而不像其他的一些算法通常要去同時(shí)調(diào)準(zhǔn)好幾個(gè)參數(shù)從而得到最佳的結(jié)果。(2)靈活性:根據(jù)簡便而又有效的k均值(k-means)算法以及距離度量方法,可以靈活的生成類標(biāo)特異性特征(label-specific features)。另外,可以通過任何的二類學(xué)習(xí)方法來誘導(dǎo)出分類模型,從而可以滿足不同的需求(如決策樹要求低的訓(xùn)練成本;規(guī)則學(xué)習(xí)則需要很好的可理解性)。(3)有效性:根據(jù)文獻(xiàn)[2,3]中所得出的結(jié)果表明,與其他經(jīng)典而達(dá)到很好效果的多標(biāo)記學(xué)習(xí)算法相比,LIFT算法展示了優(yōu)越的性能。然而,這種方法也有以下幾個(gè)主要的缺點(diǎn)。
LIFT算法的缺點(diǎn)有(a)缺乏可解釋性:即在初始的特征集合中不會(huì)明顯的得知是哪些屬性存在較強(qiáng)的判別能力;(b)LIFT算法在構(gòu)建類標(biāo)特異性特征的過程中,并沒有充分考慮類標(biāo)之間的關(guān)聯(lián)性;(c)在LIFT算法所構(gòu)建的特異性特征空間中存在大量的冗余特征,這些冗余特征嚴(yán)重地影響了分類器模型的架構(gòu),不僅會(huì)增加分類模型的復(fù)雜性,增大算法的運(yùn)算量,甚至可能還會(huì)降低最終的判別精度。
三、LIFT算法結(jié)構(gòu)流程及偽代碼
由于LIFT算法具有既簡單而又靈活的特性,使得在模式識(shí)別領(lǐng)域內(nèi),越來越多的研究人員在研究多標(biāo)記學(xué)習(xí)模型時(shí),采用LIFT算法的思想,即充分考察了特征空間的性質(zhì),在樣本訓(xùn)練的過程中將樣本的本質(zhì)屬性都考慮進(jìn)去。在本章的第一小節(jié)中已經(jīng)詳細(xì)地介紹了LIFT算法的基本原理以及步驟,為了更加形象地表述LIFT算法,接下來給出LIFT算法的基本結(jié)構(gòu)流程,如圖1所示:
[1] Lei W U, Ling Z M. Label-Specific Features on Multi-Label Learning Algorithm[J]. Journal of Software, 2014.
[2] Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific Features[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120.
[3] Zhang M L. LIFT: multi-label learning with label-specific features[CInternational Joint Conference on Artificial Intelligence. AAAI Press, 2011:1609-1614.