亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于專(zhuān)家特征的條件互信息多標(biāo)記特征選擇算法

        2020-04-09 14:49:16程玉勝王一賓
        計(jì)算機(jī)應(yīng)用 2020年2期
        關(guān)鍵詞:特征實(shí)驗(yàn)

        程玉勝,宋 帆,王一賓,2,錢(qián) 坤

        (1.安慶師范大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽安慶246011;2.安徽省高校智能感知與計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽安慶246011)

        0 引言

        多標(biāo)記學(xué)習(xí)[1]作為機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點(diǎn)之一,較之傳統(tǒng)的單標(biāo)記學(xué)習(xí)中的一個(gè)對(duì)象只能局限于單個(gè)標(biāo)記,多標(biāo)記學(xué)習(xí)框架更具有實(shí)際性和廣泛性。在真實(shí)世界中,一個(gè)對(duì)象可能隸屬于多個(gè)標(biāo)記[2],此時(shí),單個(gè)標(biāo)記就難以表述對(duì)象的完整性。所以,多標(biāo)記學(xué)習(xí)的研究對(duì)于多義性對(duì)象的學(xué)習(xí)建模更具有實(shí)際運(yùn)用意義,近年來(lái)已成為一個(gè)新的研究熱點(diǎn)[3-4]。

        在多標(biāo)記學(xué)習(xí)問(wèn)題中,由于數(shù)據(jù)的高維性會(huì)引起維數(shù)災(zāi)難,導(dǎo)致分類(lèi)器精度降低[5]。而特征選擇作為一種普遍的降維手段,對(duì)于分類(lèi)器的分類(lèi)精度和泛化性能起重要作用。特征選擇的首要目的是在樣本數(shù)據(jù)集中找到一個(gè)特征子集,且使得找到的特征子集蘊(yùn)含盡可能多的區(qū)分類(lèi)別信息,同時(shí)要考慮子集內(nèi)部的冗余性盡量?。?]。而信息論中的互信息理論,作為不確定性的一種有效度量方式,被廣泛用于多標(biāo)記特征選擇,因此許多學(xué)者在此方面進(jìn)行了研究。例如Zhang等[7]提出的基于最大相關(guān)性的多標(biāo)記維度約簡(jiǎn)(Multi-label Dimensionality reduction via Dependence Maximization,MDDM)算法。Lee 等[8]通過(guò)多元互信息最大化已選特征與標(biāo)記集合的相關(guān)性,提出了基于多變量互信息的多標(biāo)記特征選擇算法PMU(Pairwise Multivariate mutual information)。Lin 等[9]提出了基于鄰域互信息的多標(biāo)記特征選擇。劉景華等[10]通過(guò)互信息排序已選特征和標(biāo)記的相關(guān)性,提出了基于局部子空間的多標(biāo)記特征選擇算法(Multi-label Feature Selection algorithm based on Local Subspace,MFSLS)。

        上述算法的多標(biāo)記特征選擇算法判定特征是否冗余的標(biāo)準(zhǔn)單一,如信息熵方法僅考慮特征和標(biāo)記間的相關(guān)性,未考慮特征和特征間的關(guān)系[11];聯(lián)合互信息雖然考慮了整體互信息大小,但未考慮單個(gè)特征和標(biāo)記間的相關(guān)性。這些算法都沒(méi)有提取關(guān)注專(zhuān)家特征,在整個(gè)特征集中進(jìn)行特征選擇,因此時(shí)間復(fù)雜度很高,如PMU 算法在大數(shù)據(jù)集中執(zhí)行時(shí)間很長(zhǎng),基于信息熵的多標(biāo)簽特征選擇(Multi-Label Feature Selection based on Information Entropy,MLFSIE)算法雖然提高了執(zhí)行速度,但未考慮特征間的冗余性。

        除此之外,包括上述算法在內(nèi)的大多數(shù)多標(biāo)記特征選擇算法均未考慮到優(yōu)先挑選出專(zhuān)家特征的現(xiàn)實(shí)意義,忽略了一個(gè)關(guān)鍵的問(wèn)題:在現(xiàn)實(shí)生活中,人們針對(duì)分類(lèi)問(wèn)題時(shí),通常根據(jù)專(zhuān)家經(jīng)驗(yàn)選取幾個(gè)或者多個(gè)最重要的特征,然后再通過(guò)相關(guān)評(píng)價(jià)準(zhǔn)則建立特征向任務(wù)目標(biāo)的映射進(jìn)行多標(biāo)記分類(lèi)。例如,在醫(yī)院中專(zhuān)家醫(yī)師看病人的病情時(shí),往往根據(jù)自己的多年臨床經(jīng)驗(yàn)先確定幾個(gè)最重要的病癥(即對(duì)結(jié)果不可或缺起到重要作用的特征(專(zhuān)家特征)),然后再在專(zhuān)家特征的基礎(chǔ)上進(jìn)行各種身體檢查、血液化驗(yàn)、分析病歷,最后分析匯總來(lái)確診。同時(shí)也要考慮某些看似不顯眼的癥狀(即與標(biāo)記空間相關(guān)性較弱的特征),因?yàn)楹雎阅承┲匾暂^次要的特征也會(huì)產(chǎn)生誤診的可能。

        基于此,再結(jié)合信息論中的互信息[12-14],本文提出一種基于專(zhuān)家特征的條件互信息多標(biāo)記特征選擇算法(Multi-label Feature Selection algorithm based on Conditional Mutual Information of Expert Feature,MFSEF)。該算法在最小冗余最大相關(guān)性前提下,通過(guò)子空間劃分,考慮了重要性較次要的特征可能對(duì)分類(lèi)性能產(chǎn)生的影響,受現(xiàn)實(shí)生活中實(shí)際問(wèn)題的啟發(fā),兼顧考慮了可能決定整體的預(yù)測(cè)方向的專(zhuān)家特征,從而提升多標(biāo)記分類(lèi)性能。首先通過(guò)瀑布圖聯(lián)合互信息選出幾個(gè)最關(guān)鍵的專(zhuān)家特征;再以該專(zhuān)家特征作條件,保持專(zhuān)家特征不變,與余下的特征作并集,構(gòu)建融合一個(gè)新的特征空間,然后計(jì)算新特征與標(biāo)記集合之間的互信息,再進(jìn)行排序形成新的特征排序集合;借鑒MFSLS 的思想,最后進(jìn)行特征選擇。實(shí)驗(yàn)在7 個(gè)多標(biāo)記數(shù)據(jù)集上測(cè)試,同其他常用的多標(biāo)記特征選擇算法進(jìn)行比較,通過(guò)4 個(gè)評(píng)價(jià)指標(biāo)的結(jié)果可以看出,本文算法優(yōu)于通用的多標(biāo)記特征選擇算法。最后,還通過(guò)統(tǒng)計(jì)假設(shè)檢驗(yàn)進(jìn)一步證實(shí)了本文方法的合理性與穩(wěn)定性。

        1 理論介紹

        1.1 多標(biāo)記學(xué)習(xí)

        由于真實(shí)世界的對(duì)象具有多義性,多標(biāo)記學(xué)習(xí)框架作為一種多義性對(duì)象學(xué)習(xí)建模工具由此產(chǎn)生[15]。在該框架下,每個(gè)對(duì)象由一個(gè)示例描述,每個(gè)示例具有多個(gè)但有限的類(lèi)別標(biāo)記,學(xué)習(xí)的目的是為每個(gè)未知示例賦予正確的標(biāo)記。在數(shù)學(xué)語(yǔ)言中,多標(biāo)記問(wèn)題可描述為:假定X={x1,x2,…,xn}Τ∈Rn*d表示有n 個(gè)樣本且每個(gè)樣本特征維度為d,Y={1,2,…,Q}表 示 樣 本 對(duì) 應(yīng) 的 標(biāo) 記 集 合[16]。T={(x1,Y1),(x2,Y2),…,(xm,Ym)}(xi∈X,Yi∈Y)表示訓(xùn)練集,多標(biāo)記學(xué)習(xí)目的是得到映射關(guān)系f:X →{-1,1}Q,從而對(duì)新樣本進(jìn)行標(biāo)記的預(yù)測(cè)。

        1.2 條件互信息

        定義1設(shè)集合A={a1,a2,…,am},令p(ai)表示元素ai的先驗(yàn)概率,則集合A的信息熵為:

        信息熵可以度量集合不確定性的程度,信息熵越大表示集合的不穩(wěn)定性越大。對(duì)于多標(biāo)記特征選擇算法,常通過(guò)信息熵來(lái)選擇特征空間中與標(biāo)記空間互信息較大的特征。

        定義2設(shè)集合A={a1,a2,…,am},B={b1,b2,…,bn},則在給定集合A的條件下集合B的條件熵為:

        條件熵可以度量在集合A 出現(xiàn)的條件下集合B 的不確定程度的大小。

        定義3設(shè)集合A={a1,a2,…,am},集合B={b1,b2,…,bn},則集合A與B的聯(lián)合熵為:

        信息熵、條件熵及聯(lián)合熵的關(guān)系為:

        定義4給定集合A 和集合B,定義集合A 和B 之間的互信息為:

        互信息被廣泛用于度量隨機(jī)變量間相關(guān)性的大小,即I(A;B)表示集合A 和集合B 間的相關(guān)性大小。I(A;B)越大,表示兩者間的相關(guān)性越大。另有I(A;B)=I(B;A),且滿(mǎn)足:

        當(dāng)I(A;B)=0 時(shí),集合A 和集合B 無(wú)相關(guān)性,集合A 和集合B之間未提供任何信息。

        定 義5設(shè) 集 合A={a1,a2,…,am},B={b1,b2,…,bn},C={c1,c2,…,ct},則在集合C 條件下集合A 和B 間的條件互信息[17]為:

        聯(lián)合互信息可由式(6)和式(7)得出:

        聯(lián)合互信息是考慮A、C 整體同B 之間的關(guān)系,由上式可知條件互信息和互信息之和為聯(lián)合互信息,根據(jù)式(5)得出聯(lián)合互信息為:

        聯(lián)合互信息I(A,C;B)越大,則表示A、C 整體同B 間的相關(guān)性越強(qiáng)。另外關(guān)于條件互信息還可變形表示如下:

        2 MFSEF

        在通過(guò)互信息考慮特征與標(biāo)記之間的相關(guān)性來(lái)進(jìn)行多標(biāo)記特征選擇中,先給定f表示描述樣本的特征,l表示樣本的類(lèi)別標(biāo)記,則I(f;l)雖然僅可以在單標(biāo)記中描述在樣本中特征和類(lèi)別標(biāo)記之間的相關(guān)性程度,而在多標(biāo)記中,一個(gè)樣本是由多個(gè)特征向量表示且隸屬于多個(gè)類(lèi)別標(biāo)記,故給出以下定義。

        定 義6給 定 特 征f 和 標(biāo) 記 空 間L={l1,l2,…,ln},為特征f 和標(biāo)記li的互信息,那么特征f和標(biāo)記空間集L的互信息可定義為:

        定義7給定一個(gè)特征子集為S={f1,f2,…,fm},特征fi與特征子集空間的互信息定義為:

        特征與標(biāo)記集合之間的互信息大小描述了兩個(gè)集合間的相關(guān)性程度,特征和標(biāo)記集合的互信息越大,表明該特征越重要;反之,表明該特征重要性越弱,當(dāng)特征和標(biāo)記集合的互信息為零時(shí),表明該特征和每個(gè)類(lèi)別標(biāo)記相互獨(dú)立,此時(shí)特征和標(biāo)記集合的互信息也取得最小值。

        給定訓(xùn)練樣本U={x1,x2,…,xn}和其構(gòu)成樣本的特征集合F={f1,f2,…,fd},以及標(biāo)記空間集合L={l1,l2,…,lt}。

        由于專(zhuān)家特征在現(xiàn)實(shí)生活中是通過(guò)人的經(jīng)驗(yàn)主觀性選定,而本文實(shí)驗(yàn)所采用數(shù)據(jù)集為常用的多標(biāo)記數(shù)據(jù)集,若單純地人為指定專(zhuān)家特征,可能會(huì)影響實(shí)驗(yàn)的可靠性和有效性,故可事先通過(guò)數(shù)據(jù)集畫(huà)出對(duì)應(yīng)的特征值瀑布圖,然后根據(jù)瀑布圖聯(lián)合互信息理論挑選出幾個(gè)特征作為專(zhuān)家特征。圖1 和圖2為常用多標(biāo)記數(shù)據(jù)集所畫(huà)的部分代表性瀑布圖。

        圖1 第600和601個(gè)樣本中所有特征對(duì)應(yīng)的特征值構(gòu)成的瀑布圖Fig.1 Waterfall plot of eigenvalues corresponding to all features in the 600th and 601th samples

        其中圖1 展示了在第600 個(gè)樣本到第601 個(gè)樣本中,每個(gè)特征所對(duì)應(yīng)的特征值大小的對(duì)比,由圖可看出:兩個(gè)樣本對(duì)應(yīng)的前100個(gè)特征的特征值基本較小且小于0.5,兩樣本特征值基本相同,表明該段特征對(duì)標(biāo)記的影響甚微;而在第200 到300 之間的特征所對(duì)應(yīng)的特征值數(shù)值有大有小,分布極其不均衡,波動(dòng)較大,說(shuō)明該段特征對(duì)樣本類(lèi)別的劃分起到?jīng)Q定性作用,即稱(chēng)隸屬特征;在第100 和200 之間的特征所對(duì)應(yīng)的特征值基本數(shù)值較大,且分布均衡,無(wú)較大波動(dòng),表明該段特征對(duì)標(biāo)記的影響至關(guān)重要,即稱(chēng)為專(zhuān)家特征。

        在圖2 中展示了在所有樣本中,每個(gè)特征所對(duì)應(yīng)的特征值大小的對(duì)比。針對(duì)100~200 的專(zhuān)家特征,明顯看出所有樣本的特征值基本較大接近1,這表明這部分特征對(duì)于標(biāo)記的劃分不可或缺,但這部分特征值基本相同,表明全部樣本基本上均具有該特征,所以如果事先把這些特征挑選部分出來(lái),作為條件與剩余特征相聯(lián)合,然后再針對(duì)剩余特征進(jìn)行后續(xù)特征選擇操作,無(wú)疑可以避免重復(fù)計(jì)算,提高特征選擇速度,而且更符合現(xiàn)實(shí)生活中面對(duì)分類(lèi)問(wèn)題時(shí),常優(yōu)先選出專(zhuān)家特征的操作習(xí)慣,因此更具有實(shí)際應(yīng)用價(jià)值。

        圖2 全部樣本所有特征對(duì)應(yīng)的特征值構(gòu)成的整體瀑布圖Fig.2 Overall waterfall plot composed of eigenvalues corresponding to all features of all samples

        先通過(guò)瀑布圖觀察出專(zhuān)家特征的大致分布,再通過(guò)互信息考慮特征空間和標(biāo)記空間的相關(guān)性大小,由互信息大小降序挑選靠前的特征,最后綜合考慮兩要素選出若干個(gè)特征作為專(zhuān)家特征。本文實(shí)驗(yàn)取前四個(gè)特征作專(zhuān)家特征,記作E={e1,e2,e3,e4}。

        傳統(tǒng)的基于互信息的多標(biāo)記特征選擇算法僅考慮特征空間F 與標(biāo)記空間L 的相關(guān)性:F →L,本文以專(zhuān)家特征E 為條件,保持專(zhuān)家特征不變,將專(zhuān)家特征和每個(gè)原始特征作并集構(gòu)建新的特征空間,再考慮其與標(biāo)記空間的相關(guān)性:E ∪F →L。

        圖3 專(zhuān)家特征聯(lián)合的圖解描述Fig.3 Graphical description of combining expert features

        由定義6 可知特征和標(biāo)記集合的互信息越大,表明該特征越重要;反之,表明該特征重要性越弱。故用互信息大小進(jìn)行降序排列得到一組新的特征序列:

        對(duì)于多標(biāo)記特征選擇,由于每個(gè)標(biāo)記隸屬于不同特征空間,因此對(duì)于特征和標(biāo)記集合的相關(guān)性通過(guò)互信息大小進(jìn)行計(jì)算時(shí),相關(guān)性強(qiáng)的特征之間可能有比較大的冗余性,而相關(guān)性弱的特征也不一定對(duì)判別標(biāo)記類(lèi)別不起作用,也有可能某個(gè)相關(guān)性弱的特征往往對(duì)最后分類(lèi)結(jié)果起決定性作用??紤]到此情景,可以通過(guò)建立局部子空間模型來(lái)解決此問(wèn)題[10]。文獻(xiàn)[18]中說(shuō)明,當(dāng)數(shù)據(jù)集的特征維度較小的時(shí)候,子空間個(gè)數(shù)可以劃分2、3、4,考慮到較多保留相關(guān)性強(qiáng)特征,同時(shí)兼顧對(duì)某些類(lèi)別標(biāo)記貢獻(xiàn)較大的但是特征與標(biāo)記相關(guān)性較弱的特征,故每個(gè)特征子空間的采樣比例可以設(shè)置為由大到小,例如對(duì)于2 個(gè)子空間,采樣比例可為:{0.6,0.4}、{0.7,0.3}、{0.9,0.2}。又由文獻(xiàn)[10]中實(shí)驗(yàn)證明3 個(gè)子空間的預(yù)測(cè)效果最好,故可以將已經(jīng)通過(guò)專(zhuān)家特征進(jìn)行互信息大小降序排列后的特征序列劃分為三個(gè)子空間,再通過(guò){0.6,0.3,0.1}的采樣比例進(jìn)行進(jìn)一步的特征選擇。

        局部子空間的詳細(xì)過(guò)程如下:

        給定有d 維特征空間,三個(gè)子空間,故每個(gè)子空間特征維數(shù)為,由定義6 可計(jì)算出在子空間中每個(gè)特征和剩余特征的互信息大小:此時(shí)互信息越大,表明其特征的冗余性越高;反之,特征間互信息越小,冗余性越低。因此將通過(guò)定義6 新得到的三個(gè)子空間中的特征進(jìn)行升序,三個(gè)子空間關(guān)于特征間的冗余性排列分別為:

        再通過(guò)采樣比例分別在三個(gè)子空間中選擇冗余性比較小的特征,由于采樣比例為{0.6,0.3,0.1},故三個(gè)子空間通過(guò)比例選擇出的特征個(gè)數(shù)分別為:

        模擬現(xiàn)實(shí)世界中分類(lèi)問(wèn)題,引入專(zhuān)家特征作為條件,同原始特征作并集,通過(guò)信息論中的互信息理論背景,計(jì)算特征與標(biāo)記空間的相關(guān)性大小,再結(jié)合局部子空間模型的劃分,最后實(shí)現(xiàn)特征選擇。這樣既考慮了多標(biāo)記特征選擇在現(xiàn)實(shí)社會(huì)中的合理性和實(shí)用性,也避免了傳統(tǒng)特征選擇只是根據(jù)相關(guān)準(zhǔn)則選擇較強(qiáng)的特征導(dǎo)致的特征間的冗余性,最后實(shí)驗(yàn)結(jié)果也顯示了較好的分類(lèi)性能。

        算法1 MFSEF。

        輸入 多標(biāo)記數(shù)據(jù)集D,專(zhuān)家特征E;

        輸出 特征子集Sub。

        2) E={e1,e2,e3,e4};

        3) for each fi∈L

        5) for each lj∈L

        6) 通過(guò)定義6計(jì)算FMI(fi∪E;lj)

        7) end

        9) end

        10)通過(guò)第8)步計(jì)算出來(lái)的特征空間和標(biāo)記空間互信息大小,對(duì)特征進(jìn)行一個(gè)降序,從而得到新特征序列S;

        11)將特征集合S均分成3個(gè)子空間S1、S2和S3;

        12)對(duì)三個(gè)子空間分別通過(guò)定義7 計(jì)算特征和特征的互信息大小,然后進(jìn)行升序排列,再通過(guò)采樣比例{0.6,0.3,0.1}在三個(gè)子空間分別挑選出新的特征子集;

        13)將四個(gè)專(zhuān)家特征和新得到的三個(gè)特征子集合并,按順序依次放入Sub。

        3 實(shí)驗(yàn)及其結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為驗(yàn)證本文算法的有效性,選取了Entertainment、Recreation、Artificial、Reference、Health、Business、Computer共7個(gè)數(shù)據(jù)集,詳細(xì)信息見(jiàn)表1。

        表1 多標(biāo)記數(shù)據(jù)集Tab.1 Multi-label datasets

        3.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

        本實(shí)驗(yàn)代碼在Matlab 2016a 中運(yùn)行;硬件環(huán)境為Intel Core i5-2525M 2.50 GHz CPU,8 GB 內(nèi) 存;操 作 系 統(tǒng) 為Windows 10。實(shí)驗(yàn)選取多標(biāo)記常用的4種性能評(píng)價(jià)指標(biāo)[19-20],即平均精度(Average Precision,AP)、海明損失(Hamming Loss,HL)、排序損失(Ranking Loss,RL)和1-錯(cuò)誤率(One Error,OE)來(lái)綜合評(píng)價(jià)多標(biāo)記學(xué)習(xí)算法性能,且分別簡(jiǎn)寫(xiě)為:AP↑、HL↓、RL↓和OE↓,其中:↑代表指標(biāo)數(shù)值越高越好,↓代表指標(biāo)數(shù)值越低越好。設(shè):多標(biāo)記分類(lèi)器h(?),預(yù)測(cè)函數(shù)f(?,?),排序函數(shù)rankf,多標(biāo)記數(shù)據(jù)集D={(xi,Yi|1 ≤i ≤n)}。上述4種評(píng)價(jià)指標(biāo)AP、HL、RL和OE形式化定義如下:

        1)Average Precision:評(píng)估在特定標(biāo)記y ∈Yi排列的正確標(biāo)記的平均分?jǐn)?shù)。

        2)Hamming Loss:用于度量樣本在單個(gè)標(biāo)記的真實(shí)標(biāo)記和預(yù)測(cè)標(biāo)記的錯(cuò)誤匹配情況。

        3)One Error:評(píng)估對(duì)象最高排位標(biāo)記并未正確標(biāo)記的次數(shù)情況。

        4)Ranking Loss:用來(lái)考察樣本的不相關(guān)標(biāo)記的排序低于相關(guān)標(biāo)記的排序的情況。

        3.3 算法選擇與相關(guān)參數(shù)設(shè)置

        為驗(yàn)證新提出的特征選擇算法性能,實(shí)驗(yàn)將MFSEF 算法與4 個(gè)經(jīng)典多標(biāo)記特征選擇算法進(jìn)行對(duì)比,分別是MDDMspc、MDDMproj、PMU及MFSLS。表2到表5中的第2列Original 表示在原始特征空間下僅通過(guò)基本的經(jīng)典多標(biāo)記分類(lèi)器ML-kNN 的分類(lèi)性能;MDDM 是基于最大相關(guān)性的多標(biāo)記維度約簡(jiǎn)算法,而MDDM 又可劃分為MDDMspc 和MDDMproj,PMU是通過(guò)多元互信息最大化已選特征與標(biāo)記集合的相關(guān)性,提出基于多變量互信息的多標(biāo)記特征選擇算法。其中MDDMspc 和MDDMproj 算法需先進(jìn)行原始數(shù)據(jù)歸一化,再進(jìn)行特征選擇,MFSLS 和PMU 是針對(duì)離散型數(shù)據(jù)進(jìn)行處理,鑒于此,為了實(shí)驗(yàn)的嚴(yán)謹(jǐn)和合理性,以MFSLS和PMU 離散化方法為基準(zhǔn),對(duì)本文實(shí)驗(yàn)數(shù)據(jù)先兩折離散化。由文獻(xiàn)[18]可知,當(dāng)選擇多標(biāo)記數(shù)據(jù)集的特征維度不高時(shí),將子空間劃分為3 個(gè),特征采樣比例設(shè)置為{0.6,0.3,0.1},專(zhuān)家特征個(gè)數(shù)k_1 設(shè)為4。另本實(shí)驗(yàn)最后分類(lèi)器采用ML-kNN,故相關(guān)參數(shù)選擇默認(rèn)值,近鄰個(gè)數(shù)k取10,平滑參數(shù)s取1。

        3.4 實(shí)驗(yàn)結(jié)果

        表2到表5給出了本文算法和其他4種算法在7個(gè)多標(biāo)記數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果,最好的結(jié)果加粗表示;同時(shí),每種方法在所有數(shù)據(jù)集上的平均排序結(jié)果列在最后一行;數(shù)據(jù)右下角括號(hào)數(shù)字表示6種算法分別在評(píng)價(jià)指標(biāo)下的排序序號(hào)。

        表2 各算法在7個(gè)數(shù)據(jù)集上的平均精度測(cè)試結(jié)果Tab.2 AP(↑)results of each algorithm on 7 datasets

        表3 各算法在7個(gè)數(shù)據(jù)集上的海明損失測(cè)試結(jié)果Tab.3 HL(↓)results of each algorithm on 7 datasets

        表4 各算法在7個(gè)數(shù)據(jù)集上的排序損失測(cè)試結(jié)果Tab.4 RL(↓)results of each algorithm on 7 datasets

        表5 各算法在7個(gè)數(shù)據(jù)集上的1-錯(cuò)誤率測(cè)試結(jié)果Tab.5 OE(↓)results of each algorithm on 7 datasets

        實(shí)驗(yàn)結(jié)果顯示:MFSEF 在Health、Recreation、Artificial、Reference、Entertainment、Business、Computer 等7 個(gè)多標(biāo)記數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果的平均排序都占優(yōu),其中,對(duì)于AP指標(biāo),平均數(shù)值越大,算法性能越優(yōu),對(duì)于其他三個(gè)評(píng)價(jià)指標(biāo),平均數(shù)值越小,算法性能越優(yōu)。從表2到表5可發(fā)現(xiàn):

        ①在AP 指標(biāo)中,MFSEF 僅在Business 數(shù)據(jù)集中AP 不是最優(yōu),排名第二。對(duì)比4種算法和原始特征空間,MFSEF 在其他數(shù)據(jù)集中AP值最大,即分類(lèi)性能達(dá)到最優(yōu)。

        ②在HL指標(biāo)中,MFSEF 在Business和Artificial數(shù)據(jù)集中HL 值排名第二,對(duì)比4 種算法和原始特征空間,MFSEF 在其他數(shù)據(jù)集中HL值最小,即分類(lèi)性能達(dá)到最優(yōu)。

        ③在RL指標(biāo)中,MFSEF在Health和Business數(shù)據(jù)集中分別排第二和第三,在其他5個(gè)數(shù)據(jù)集對(duì)比4種算法和原始特征空間,MFSEF的RL值最小,即分類(lèi)性能達(dá)到最優(yōu)。

        ④在OE 指標(biāo)中,MFSEF 在Entertainment 數(shù)據(jù)集上排第三,在Business數(shù)據(jù)集和MFSLS對(duì)比算法并列排第二,在其他5 個(gè)數(shù)據(jù)集對(duì)比4 種算法和原始特征空間,MFSEF 的OE 值最小,即分類(lèi)性能達(dá)到最優(yōu)。

        上述實(shí)驗(yàn)分析充分表明,通過(guò)本文算法特征選擇后的特征子集在后續(xù)分類(lèi)性能上,對(duì)比其他4 種算法和原始特征空間在7 個(gè)多標(biāo)記數(shù)據(jù)集中多數(shù)占優(yōu),驗(yàn)證了本文算法的有效性和魯棒性。

        圖4是對(duì)比其他4種算法,隨著選擇后的特征數(shù)目的逐漸變多,其分類(lèi)性能的變化情況。針對(duì)每一種算法,都有28 種對(duì)比結(jié)果。介于篇幅所限,本文只選取了Artificial 數(shù)據(jù)集的曲線圖進(jìn)行分析,分別展示了在AP、HL、RL和OE四種評(píng)價(jià)指標(biāo)時(shí),5 種算法在特征數(shù)逐漸變大時(shí)分類(lèi)性能的變化情況。對(duì)比原始特征空間和PMU、MDDMspc、MDDMproj、MFSLS 這4種算法的分類(lèi)性能,在Artificial 數(shù)據(jù)集上,MFSEF 基本上占優(yōu)。基本上在前80 個(gè)特征范圍類(lèi),本文算法在四個(gè)評(píng)價(jià)指標(biāo)上均明顯優(yōu)于其他對(duì)比算法,并且往往能通過(guò)較少的特征數(shù)更快地達(dá)到更好的分類(lèi)性能。另外,在其他未展示的數(shù)據(jù)集上,本文算法的分類(lèi)性能曲線變化也多數(shù)占優(yōu),這充分地表明MFSEF的有效性和合理性。

        圖4 Artificial數(shù)據(jù)集的各個(gè)評(píng)價(jià)指標(biāo)的性能變化Fig.4 Changes in performance of various evaluation indicators on Artificial dataset

        3.5 統(tǒng)計(jì)假設(shè)檢驗(yàn)

        在上述實(shí)驗(yàn)分析中,本文算法達(dá)到了顯而易見(jiàn)的效果,下面將運(yùn)用統(tǒng)計(jì)學(xué)中統(tǒng)計(jì)假設(shè)檢驗(yàn)[21]進(jìn)一步說(shuō)明本文算法的有效性和合理性。

        統(tǒng)計(jì)假設(shè)檢驗(yàn):在上述7 個(gè)數(shù)據(jù)集上采用顯著性水平為5%的Nemenyi 檢驗(yàn)[22-23]來(lái)對(duì)比MFSEF 算法與其他對(duì)比算法。如果兩個(gè)算法在所有數(shù)據(jù)集上的平均排序的差值小于或者等于臨界差值(Critical Difference,CD),那么這兩個(gè)算法之間沒(méi)有顯著性差異,反之存在顯著性差異。如圖5 所示,在最上行為臨界值CD=2.850 0時(shí),若兩個(gè)算法之間沒(méi)有顯著性差異則用實(shí)線連接。在圖5 中,隨著坐標(biāo)軸上的數(shù)值增大其算法性能依次降低。

        圖5 展示了各算法在AP、RL、HL、OE 四個(gè)指標(biāo)上的CD圖,從中可以看出,本文算法在4 個(gè)指標(biāo)上性能均處于首位。具體在平均精度指標(biāo)上,如圖5(a)、(b)、(d)所示,在Average Precision、Ranking Loss 和One Error 三 個(gè) 指 標(biāo) 上,MLSEF 與MDDMspc、PMU、MDDMproj 均有顯著差異,且優(yōu)于這三種算法;如圖5(c)在Hamming Loss 指標(biāo)上,本文算法與MDDMproj和MDDMspc有顯著差異,且優(yōu)于這兩種算法。與其他算法相比,在統(tǒng)計(jì)上,本文算法有45%的概率與其他算法無(wú)顯著性差異。

        圖5 算法綜合性能比較Fig.5 Performance comparison of algorithms.

        通過(guò)以上針對(duì)圖5 的分析,可知本文算法綜合性能最為優(yōu)秀,在統(tǒng)計(jì)上也優(yōu)于其他對(duì)比算法?;谝陨系膶?shí)驗(yàn)結(jié)果和統(tǒng)計(jì)分析再次充分表明本文算法的優(yōu)越性。

        4 結(jié)語(yǔ)

        與通過(guò)相關(guān)準(zhǔn)則挑選特征和標(biāo)記相關(guān)性強(qiáng)的多標(biāo)記特征選擇算法相比,本文不僅考慮了重要性較次要的特征可能對(duì)分類(lèi)性能產(chǎn)生的影響,還考慮了可能決定整體預(yù)測(cè)方向的最關(guān)鍵特征。模擬現(xiàn)實(shí)生活中的實(shí)際情況,通過(guò)經(jīng)驗(yàn)優(yōu)先挑選出部分專(zhuān)家特征與剩余特征相聯(lián)合,利用條件互信息和聯(lián)合互信息理論得出一個(gè)與標(biāo)記集合相關(guān)性由強(qiáng)到弱的特征序列,再通過(guò)劃分子空間去除冗余性較大的特征,最后保留專(zhuān)家特征和挑選出的新的特征作為最后的特征子集。在已公開(kāi)的多個(gè)基準(zhǔn)多標(biāo)記數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,該算法在實(shí)驗(yàn)中較其他對(duì)比的多標(biāo)記特征選擇算法有一定優(yōu)勢(shì)和較好的穩(wěn)定性,且更具有實(shí)際應(yīng)用價(jià)值。

        本文算法在專(zhuān)家特征的選取上還可以進(jìn)一步探討,目前只是通過(guò)瀑布圖聯(lián)合互信息理論模擬選出幾個(gè)專(zhuān)家特征,所以最后結(jié)果可能由于個(gè)人選取專(zhuān)家特征的不同,實(shí)驗(yàn)結(jié)果和預(yù)期效果存在一定的誤差,但是針對(duì)具體問(wèn)題分析數(shù)據(jù),合理選擇專(zhuān)家特征,還是可以有效減少誤差。

        猜你喜歡
        特征實(shí)驗(yàn)
        抓住特征巧觀察
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲精品成人网久久久久久| 国产精品亚洲第一区二区三区| 日日摸天天摸97狠狠婷婷| 亚洲精品中文字幕无码蜜桃| 国产成人精品日本亚洲专区6| 国产少妇一区二区三区| 国产精品自线一区二区三区| 在线观看热码亚洲av每日更新| 国产成人精品电影在线观看18 | 日韩一区二区三区熟女| 国产精品人人做人人爽| 久久久久麻豆v国产精华液好用吗| 色yeye在线观看| 国产亚洲精品一区二区在线观看| 日日噜噜夜夜狠狠va视频v| 精品国产一区二区三区av 性色| 欧美日韩一线| 在线看亚洲一区二区三区| 日本熟妇美熟bbw| 欧美综合自拍亚洲综合图片区| 人片在线观看无码| 国产成人亚洲精品91专区高清| aa片在线观看视频在线播放| 狠狠噜天天噜日日噜| 精品亚洲一区二区视频| 日本男人精品一区二区| 国产精品亚洲欧美大片在线看 | 97人妻碰碰视频免费上线| 国产成人精品亚洲午夜| 综合久久加勒比天然素人| 国产亚洲欧洲aⅴ综合一区| 精品久久久中文字幕人妻| 久久这里有精品国产电影网| 自拍偷拍韩国三级视频| 亚洲av无码片vr一区二区三区| 好爽…又高潮了毛片免费看| 日韩人妻中文字幕一区二区| 国产白浆在线免费观看| 国产精品成人国产乱| 仙女白丝jk小脚夹得我好爽| 精品亚洲国产日韩av一二三四区|