亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合改進密度峰值聚類和共享子空間的協(xié)同訓練算法

        2021-03-18 13:45:06
        計算機應用 2021年3期
        關鍵詞:視圖正確率分類器

        (1.重慶師范大學計算機與信息科學學院,重慶 401331;2.重慶師范大學重慶市數(shù)字農(nóng)業(yè)服務工程技術(shù)研究中心,重慶 401331)

        0 引言

        協(xié)同訓練是基于不同視圖訓練兩個分類器來互相標記樣本以擴充訓練集的一個過程,屬于半監(jiān)督學習[1-2]的范疇。由于協(xié)同訓練一方面考慮到現(xiàn)實世界中數(shù)據(jù)集的分布情況,充分利用數(shù)據(jù)集中大量無標記樣本和少量有標記樣本;另一方面考慮到多視圖數(shù)據(jù)的多態(tài)性、多源性、多描述性等特點,充分利用數(shù)據(jù)集中各視圖間的相關信息,使得協(xié)同訓練廣泛應用于圖像處理[3]、工業(yè)樣品檢測[4]、城市管理[5]、在線問答服務[6]等領域。

        協(xié)同訓練的特點是在不用人工干預的情況下,通過兩個獨立分類器的協(xié)同作用從大量無標記樣本中自動獲取訓練信息;然而,在協(xié)同訓練迭代過程中,多分類器存在的標記不一致樣本易導致分類錯誤累積,而如何選擇更具代表性的無標記樣本加入訓練集也是提高分類器性能的關鍵。針對無標記樣本的選擇,付治等[7]利用基于簡單約束的聚類算法和標記置信度來選擇可靠的實例,以此來實現(xiàn)有標記樣本的擴展;然而該方法嚴重依賴標記置信度,若樣本集的簇中心選取不準確,則會造成分類連帶錯誤。Gan等[8]用半監(jiān)督模糊聚類來發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部結(jié)構(gòu),利用該數(shù)據(jù)結(jié)構(gòu)選取局部判別能力強的無標記樣本,但該方法未考慮到數(shù)據(jù)的全局結(jié)構(gòu)信息,使得選擇的無標記樣本不能充分代表數(shù)據(jù)的原始空間結(jié)構(gòu)。Wu等[9]提出了一種自訓練半監(jiān)督分類框架,利用密度峰值聚類(Density Peak Clustering,DPC)算法[10]發(fā)現(xiàn)數(shù)據(jù)的空間結(jié)構(gòu)后將其結(jié)構(gòu)融入自訓練迭代過程中。DPC算法適用于任意形狀的數(shù)據(jù)集聚類,但需要通過決策圖來選擇簇中心,從而增加了算法的冗余性,限制了算法的應用領域。馬春來等[11]針對DPC 算法中對簇中心的判斷問題,引入基于拐點法的簇中心選擇策略來實現(xiàn)簇中心的自動選擇,降低了通過決策圖主觀確定簇中心帶來的誤差。由于考慮到不同數(shù)據(jù)集稀疏或密集程度的差異,認為拐點位置無法為簇中心的定性劃分提供理論依據(jù),從而導致無法精確選取簇中心。龔彥鷺等[12]考慮到無標記樣本隱含的空間結(jié)構(gòu)信息,利用DPC 算法選取局部密度與相對距離之和較高的無標記樣本來輔助訓練分類器,依據(jù)數(shù)據(jù)集全局的密集或稀疏程度來劃分樣本的選取區(qū)間,但忽略了樣本的內(nèi)部結(jié)構(gòu)差異,無法體現(xiàn)樣本的局部緊密或稀疏程度,可能會造成選取的無標記樣本不可靠。

        在分類器的協(xié)同過程中,多個分類器標記同一個無標記樣本可能會產(chǎn)生類標號不一致的情況。為解決該問題,Zhao等[13]設計了基于偽標記誤差的安全驗證方法,在候選標記中,選擇比前一輪迭代過程中誤差精度低的標記作為無標記樣本的最終類別,然而該方法通過偽標記誤差來確定候選標記時,對誤差較低的界限沒有明確說明。龔彥鷺等[12]采用加權(quán)K近鄰算法(WeightK-Nearest Neighbor,WKNN)為分類不一致的無標記樣本重新進行分類,但該算法的分類正確率在數(shù)據(jù)集分布不均衡的情況下會受到影響。Peng 等[14]提出多視圖增強算法Boost.SH,通過利用多個視圖的共享樣本權(quán)重分布來保證視圖的一致性,一定程度上解決了樣本分類不一致問題,但由于多視圖數(shù)據(jù)集的多態(tài)性等特點,該算法并不總是能找到滿足條件的共享樣本。

        為了更好地選擇隱含有用信息多的無標記樣本和解決標記不一致樣本的修訂問題,提出了結(jié)合改進密度峰值聚類和共享子空間的協(xié)同訓練算法(Co-Training algorithm combining Improved Density Peak Clustering and Shared Subspace,CTIDPCSS)。該算法通過定義虹吸平衡法則來實現(xiàn)簇中心的自動選擇,以提高簇中心選擇的準確度;通過引入相互鄰近度[15],結(jié)合數(shù)據(jù)集全局和局部特征來劃分樣本的選取區(qū)間,以得到更具代表性的無標記樣本;借助共享子空間(Shared Subspace,SS)[16-18],充分利用多視圖間的一致性信息,得到一種新的樣本修訂方法。仿真實驗結(jié)果表明,該算法具有更好的分類能力。

        1 提出算法

        在協(xié)同訓練的迭代過程中,通常有兩種方法選擇無標記樣本。一種是利用聚類算法來分析數(shù)據(jù)集的全局空間結(jié)構(gòu),根據(jù)樣本所屬類簇制定規(guī)則來劃分樣本選取區(qū)間,得到較好表現(xiàn)數(shù)據(jù)原始空間結(jié)構(gòu)的樣本,但該方法忽略了樣本間的內(nèi)部聯(lián)系,易造成所選樣本信息缺失。另一種是利用能體現(xiàn)樣本間局部連帶關系的算法,選取較好表現(xiàn)數(shù)據(jù)局部結(jié)構(gòu)的樣本,由于該方法忽略了數(shù)據(jù)的整體結(jié)構(gòu),易誤將局部優(yōu)選樣本當作全局優(yōu)選樣本。若能夠探討一種將兩者優(yōu)勢互補的方法,選擇出更具代表性的無標記樣本,則能提高分類器的分類性能。由此,本文考慮到DPC 算法能探索到任何簇結(jié)構(gòu)數(shù)據(jù)集的全局空間結(jié)構(gòu),而相互鄰近度能體現(xiàn)樣本的局部差異,故采用一種結(jié)合DPC 和相互鄰近度的方法來選擇無標記樣本。該方法在聚類階段確定簇中心時,由于DPC 算法提供的理論依據(jù)不足且未實現(xiàn)算法批量自動化應用,則本文通過定義虹吸平衡法則來實現(xiàn)簇中心的自動選擇,為簇中心的定性劃分提供理論依據(jù)。因此,將該方法中的DPC 算法替換為基于虹吸平衡法則的密度峰值聚類算法,再根據(jù)簇中心計算樣本的相互鄰近度,將其作為無標記樣本的選擇依據(jù)。被挑選出的無標記樣本能更好地體現(xiàn)數(shù)據(jù)的原始空間結(jié)構(gòu),則利用這些樣本包含的有用信息來提高模型的分類性能。然而,在多分類器的協(xié)同過程中存在的標記不一致樣本會造成分類錯誤累積,需及時實施樣本修訂策略才能有效避免標記錯誤樣本的干擾。修訂策略的目的是讓多分類器最大化它們對無標記樣本的一致性,從而借助無標記樣本提升分類器的學習性能。因此,本文在保持原始數(shù)據(jù)的分類和決策能力的前提下找到數(shù)據(jù)一致性表征的共享子空間,以訓練一個一致性分類器對多分類器標記不一致的樣本重新分類。

        1.1 改進的密度峰值聚類算法

        1.1.1 DPC算法

        DPC 算法[10]是一種基于密度的聚類方法,首先計算每個樣本的局部密度和相對距離,在密度和距離的決策圖上通過人工選取簇中心,最后根據(jù)密度值將非簇中心點劃分至所屬類簇。對于給定的數(shù)據(jù)集D=[x1,x2,…,xn]∈Rm×n,其中xi=[xi1,xi2,…,xim],n為樣本總數(shù),m為樣本維度,計算每個樣本xi的局部密度ρi和相對距離δi。考慮到本文存在較大規(guī)模數(shù)據(jù)集,則局部密度ρi利用式(1)中的截斷核[19]方式度量:

        其中:局部密度ρi為以鄰域截斷距離dc為半徑的圓形結(jié)構(gòu)內(nèi)的樣本數(shù),dij為樣本xi到xj的歐氏距離。

        相對距離δi指比樣本xi密度高且與它距離最近的樣本xj的距離,計算公式如下:

        根據(jù)式(1)和式(2)的計算結(jié)果,以局部密度ρi為橫軸,相對距離δi為縱軸作決策圖,決策過程如圖1所示。圖1(a)是一個共含有30個樣本的2維數(shù)據(jù)分布圖,其類別分別以3種不同的圖形來區(qū)分。圖1(b)是DPC算法的可視化決策圖,從圖中“最上最右”的點出發(fā),按照“向下向左”的原則,人工選擇標號為3、21的點作為簇中心。但由于沒有定量分析和決定性劃分理論作為判斷依據(jù),人工選擇簇中心存在一定主觀性和誤差。而作為簇中心的樣本是影響DPC算法聚類效果的一個關鍵原因,若選取的簇中心不準確或錯誤,將會造成聚類效果不佳。

        圖1 DPC算法的簇中心決策圖Fig.1 Cluster center decision diagram of DPC algorithm

        1.1.2 基于虹吸平衡法則的DPC算法

        針對DPC 算法存在的不足,馬春來等[11]從量化的角度引入簇中心權(quán)值的概念,提出根據(jù)權(quán)值的偏離度變化趨勢定位拐點位置的簇中心選擇策略,實現(xiàn)了簇中心的自動選擇,但未提供簇中心決定性劃分的理論依據(jù)。本文基于虹吸現(xiàn)象[20]提出虹吸平衡法則,為簇中心的選擇提供定量分析和決定性理論依據(jù)。虹吸現(xiàn)象的原理是:當管狀結(jié)構(gòu)兩端存在壓力差(位能差)時,水將從壓力大的一側(cè)流向壓力小的一側(cè),當兩側(cè)的壓力相等時整個裝置達到平衡狀態(tài),此時容器內(nèi)的水面到達相同的高度,水就會停止流動。

        在虹吸平衡法則中,為公開化平衡標準,將ρi和δi進行歸一化后引入簇中心權(quán)值作為平衡量:

        定義1簇中心權(quán)值。

        鑒于在一般情況下,數(shù)據(jù)集的簇類別數(shù)遠小于樣本總數(shù),為了降低計算復雜度,將簇中心權(quán)值降序排列后取前q個點作為簇中心候選點,構(gòu)造簇中心候選集Q1×q={γ1,γ2,…,γq}。為引入位差,首先確定位差分割點γc,將點γc前的候選點分配到上位區(qū)S1×c-1={γ1,γ2,…,γc-1},點γc及其之后的候選點分配到下位區(qū)X1×q-c+1={γc,γc+1,…,γq}。

        定義2位差。

        定義3相對平衡點。

        當位差分割點γc的下標取值范圍為,存在數(shù)值c使得h(c)≥0 時,則認為簇中心權(quán)值達到平衡狀態(tài),此時停止簇中心權(quán)值和候選點的轉(zhuǎn)移動作。從理論的角度分析,當少數(shù)簇中心候選點的簇中心權(quán)值總和與多數(shù)簇中心候選點的簇中心權(quán)值總和達到相對平衡時,認為少數(shù)高權(quán)值點能有效詮釋多數(shù)低權(quán)值點,則基于權(quán)值來劃分簇中心歸屬時多數(shù)與之差異度較大,從而可以將兩者清楚地劃分,以便選取到準確的簇中心。以下給出了基于虹吸平衡法則的密度峰值聚類算法的具體步驟,即改進的密度峰值聚類算法(Improved Density Peak Clustering,IDPC)。

        輸入:數(shù)據(jù)集D,截斷距離dc,簇中心候選個數(shù)q;

        輸出:聚類結(jié)果。

        過程:

        1.2 相互鄰近度

        相互鄰近度是由趙嘉等[15]定義的一種樣本間鄰近程度的度量準則,考慮到樣本的內(nèi)部結(jié)構(gòu)差異,當兩個樣本的相互鄰近度越高時,說明兩個樣本越接近,彼此的聯(lián)系越緊密,從而更能反映出數(shù)據(jù)間真實的密集或稀疏關系。對于數(shù)據(jù)集D=[x1,x2,…,xn]∈Rm×n,xi=[xi1,xi2,…,xim]。當每個點的近鄰數(shù)為k時,計算公式如下所示:

        其中:σ2=,式(6)的wij為樣本xi和xj的鄰近度,式(7)的degi→j表示樣本xi到xj的相對鄰近度,式(8)的Ai,j表示樣本xi和xj的相互鄰近度。

        1.3 共享子空間

        在協(xié)同訓練迭代過程中,多分類器標記同一個樣本會存在標記不一致的情況,如圖2的樣例所示。圖2以兩種顏色分別代表兩種類別,分類器h1和分類器h2對樣本C1、C3、C4、C5的分類標記均相同,而對樣本C2的標記卻不同。這種情況需及時實施樣本修訂策略,將多分類器對樣本的標記一致性最大化,才能有效避免標記錯誤樣本的干擾?;诖?,充分利用能表示多視圖間一致性信息的共享子空間[16]來修訂標記不一致樣本。

        圖2 多分類器標記不一致樣例圖Fig.2 Diagram of samples inconsistently labeled by multiple classifiers

        共享子空間學習技術(shù)是指在保留原始數(shù)據(jù)的分類和決策能力的前提下,將原始多視圖數(shù)據(jù)投影或因式分解得到一個共享低維子空間。非負矩陣分解(Non-negative Matrix Factorization,NMF)[21]是常用的因式分解方法,與其他矩陣分解方法的區(qū)別在于非負約束,有助于獲得基于部分原始數(shù)據(jù)矩陣的表示,也增強了學習后的子空間的可解釋性,但NMF只能處理單視圖數(shù)據(jù)。Mekthanavanh 等[22]利用多視圖非負矩陣分解(Multi-view Non-negative Matrix Factorization,Multi-NMF)方法處理多視圖數(shù)據(jù),在保留原NMF 算法優(yōu)點的同時將其擴展到多視圖領域。因此,本文通過在多視圖有標記樣本集中使用Multi-NMF 算法因式分解得到一個相同的矩陣,該矩陣即為多視圖有標記樣本集的共享子空間。給定N個樣本的非負多視圖數(shù)據(jù)集{X(1),X(2),…},每個樣本有nv個視圖。對于每個視圖,X(v)=,U(v)表示非負基矩陣,V(v)表示非負系數(shù)矩陣,使X≈UVT。采用歐氏距離對Multi-NMF算法的目標函數(shù)進行求解,數(shù)學表達式為:

        其中:V*表示多個視圖的共享矩陣,S為降維系數(shù),αv是控制不同視圖重構(gòu)誤差項與共享子空間約束項之間的相對權(quán)重。通過利用對角矩陣Q(v)=簡化U(v)上的約束條件,其中mv為第v個視圖的維度。簡化后的目標函數(shù)為:

        由于目標函數(shù)是非凸函數(shù),不易求全局最優(yōu)解,所以在求解過程中,采用逐次迭代更新方法[23]交替更新U、V、V*,直到目標函數(shù)收斂,最終得到共享子空間矩陣V*。

        1.4 本文算法

        基于以上分析,提出了結(jié)合改進密度峰值聚類和共享子空間的協(xié)同訓練算法。所提算法模型的整體結(jié)構(gòu)見圖3,算法的具體過程如下所示。

        輸入:有標記樣本集L,無標記樣本集U,截斷距離dc,簇中心候選個數(shù)q,近鄰數(shù)k,降維系數(shù)s,權(quán)重參數(shù)αv;

        輸出:分類器h1'、h2'。

        過程:

        步驟1 在L和U上根據(jù)算法1進行IDPC聚類,找到簇中心{c1,c2,…,cb}。

        步驟2 選擇以簇中心{c1,c2,…,cb}為圓心,dc為半徑的圓形區(qū)域內(nèi)的無標記樣本,構(gòu)造樣本集R1。

        步驟3 采用屬性集合互補的方式將L和U劃分為v1和v2,在L上基于v1、v2分別訓練出分類器h1、h2,用分類器h1和h2對樣本集R1分類。

        步驟4 在L上利用Multi-NMF 算法因式分解得到v1和v2的共享子空間V*,訓練一致性分類器h*。

        步驟5 若h1和h2對樣本的分類結(jié)果一致,則將該樣本加入到L集;若分類結(jié)果不一致,則用分類器h*對其重新分類得到類標號后加入到L集。

        步驟6U=U-R1,L=L+R1。

        WhileU集不為空

        步驟7 計算R1集中每個樣本與其k個鄰居的相互鄰近度,選擇與R1集中每個樣本相互鄰近度最高的無標記樣本,構(gòu)造樣本集R2。

        步驟8 采用屬性集合互補的方式將L和U劃分為v1'和v2',在L上基于v1'、v2'分別得到分類器h1'、h2',用分類器h1'和h2'對樣本集R2分類。

        步驟9 在L上利用Multi-NMF 算法因式分解得到v1'和v2'的共享子空間V*',訓練一致性分類器h*'。

        步驟10 若h1'和h2'對樣本的分類結(jié)果一致,則將該樣本加入到L集;若分類結(jié)果不一致,則用分類器h*'對其重新分類得到類標號后加入到L集。

        步驟11U=U-R2,R1=R2。

        步驟12R2=?。

        End

        圖3 本文算法結(jié)構(gòu)Fig.3 Architecture of the presented algorithm

        2 實驗結(jié)果與分析

        為了測試和評價本文算法的分類性能,將本文算法與4個對比算法在9 個數(shù)據(jù)集上進行實驗,計算出每種算法兩個視圖的平均分類正確率,作為評價本文分類模型的有效性指標。選用的對比算法如下:

        1)標準協(xié)同訓練算法(Co-Training,CT)。

        2)結(jié)合文獻[19]和共享子空間的協(xié)同訓練算法(Co-Training algorithm combining Density Peak Clustering with Shared Subspace,CTDPCSS)。

        3)文獻[12]提出的算法CTALDPCWKNN(Co-Training algorithm combined Active Learning and Density Peak Clustering and WeightK-Nearest Neighbor)。

        4)結(jié)合文獻[11]和共享子空間的協(xié)同訓練算法(Co-Training algorithm combining Density Peak Clustering based on Cluster Center Automatic Selection Strategy with Shared Subspace,CTDPCCCASSSS)。

        2.1 數(shù)據(jù)集描述

        實驗數(shù)據(jù)來源于UCI 中的9 個數(shù)據(jù)集。在實驗過程中,5種算法在9 個數(shù)據(jù)集上均采用十折交叉驗證方法重復實驗100 次來測試算法的分類性能。每個數(shù)據(jù)集按照80%和20%的比例隨機分為兩部分,前者作為訓練集用來構(gòu)造分類模型,后者作為測試集用來測試模型的分類性能。其中,訓練集依次隨機選取10%、20%、30%、40%、50%的樣本作為有標記樣本,剩余樣本去除標記作為無標記樣本。表1描述了9個數(shù)據(jù)集的詳細信息。

        表1 數(shù)據(jù)集描述Tab.1 Description of datasets

        2.2 實驗參數(shù)設置

        本文依據(jù)文獻[19]的經(jīng)驗法則將對比算法CTDPCSS、CTALDPCWKNN、CTDPCCCASSSS 和本文算法需要設定的截斷距離dc賦值為2。CTALDPCWKNN 算法還需設置模糊度參數(shù)?,根據(jù)文獻[12]設定?=0.01。當上述算法利用Multi-NMF分解共享子空間矩陣時,設置權(quán)重參數(shù)αv=0.01,降維系數(shù)s=0.5dmin,其中dmin表示多個視圖中特征向量最少視圖的特征維度。在不同規(guī)模的數(shù)據(jù)集中,相較于大樣本數(shù)據(jù)集,數(shù)量上處于劣勢的小樣本數(shù)據(jù)集的分布比較稀疏,導致樣本的局部差異度量尺度會有所不同,從而影響算法的參數(shù)設置。為了更客觀地測試所設定的參數(shù)對本文算法的普適性,選擇了3 個具有代表性的數(shù)據(jù)集對簇中心候選個數(shù)q和近鄰數(shù)k進行了參數(shù)調(diào)優(yōu),即分別在小、中、大樣本量的數(shù)據(jù)集Wine、abalone和HTRU_2 上進行性能測試,結(jié)果如圖4 所示。其中,近鄰數(shù)k以1 為步長,在[5,10]內(nèi)選??;簇中心候選個數(shù)q以5 為步長,在[10,30]內(nèi)選取。

        當有標記樣本比例選取為10%時,圖4 說明了在3 個不同規(guī)模的數(shù)據(jù)集上,參數(shù)值q、k對平均分類正確率的影響機制。由圖4可知,當簇中心候選個數(shù)的取值范圍為10≤q≤15或25≤q≤30,近鄰數(shù)取值范圍為5≤k≤8 時,算法的平均分類正確率相對較高且處于穩(wěn)定狀態(tài)。當15<q<25 時,由圖4(a)和圖4(b)發(fā)現(xiàn),平均分類正確率有上升的波動,但隨著k值的增加卻逐漸降低,最終在一定范圍內(nèi)波動。在圖4(a)中,當q=30,k=8時,存在一個明顯的凸點,且該點的x軸和y軸坐標值在上述分類正確率較高的參數(shù)取值范圍內(nèi)。為了讓本文算法的分類結(jié)果達到最優(yōu)且保證算法的泛化性,在實驗過程中將簇中心候選個數(shù)q和近鄰數(shù)k分別統(tǒng)一設置為30和8。

        圖4 參數(shù)q、k對平均分類正確率的影響Fig.4 Influence of parameters q and k on average classification accuracy

        2.3 簇中心選取策略對比

        為了驗證本文提出的IDPC 算法在選擇簇中心時的準確性,以樣本規(guī)模分別為小、中、大的數(shù)據(jù)集Wine、abalone 和HTRU_2為例,分別采用基于決策圖[19]、拐點法[11]和虹吸平衡法則的簇中心選擇策略來選擇簇中心。為了更直觀地比較各簇中心選擇策略的準確度,將每種方法得到的簇中心數(shù)與各數(shù)據(jù)集的類別數(shù)進行對比。在同一個數(shù)據(jù)集中,若各方法所得簇中心數(shù)越接近數(shù)據(jù)集本身的類別數(shù),則表明該方法選取簇中心的準確度越高。在表2中,第5列代表各數(shù)據(jù)集本身的簇類別數(shù),而第2、3、4 列代表各簇中心選擇策略分別在數(shù)據(jù)集Wine、abalone和HTRU_2下的簇中心數(shù)。

        由表2 可知,基于虹吸平衡法則的簇中心選擇策略的準確度均高于基于決策圖和拐點法的簇中心選擇方法。原因在于利用決策圖選擇簇中心時主觀性較強,當數(shù)據(jù)集的空間結(jié)構(gòu)較密集時,簇中心與一般樣本的相對決策位置差異不夠明顯,通過人眼無法精準地識別兩者的黃金分割線,從而易造成簇中心數(shù)目多選或少選。在數(shù)據(jù)集稀疏程度不同的情況下,若簇中心候選集下位區(qū)中順位靠后的任意兩個相鄰點,其簇中心權(quán)值的平均變化率大于上位區(qū)順位靠前的兩個相鄰點,則利用拐點法來確定偏離度變化趨勢的最大值點時,會造成簇中心數(shù)目多選。而虹吸平衡法則在不同稀疏程度或任意形狀的數(shù)據(jù)集下,都能通過量化分析自動確定最優(yōu)的簇中心數(shù),從而有效降低了人工輔助選擇簇中心帶來的主觀誤差。

        表2 不同選擇策略的簇中心數(shù)與類別數(shù)對比Tab.2 Comparison of the number of cluster centers and the number of categories of different selection strategies

        2.4 小樣本數(shù)據(jù)集的處理

        虹吸平衡法則是基于簇類別數(shù)遠小于樣本總數(shù)這一假設而提出,為了確定虹吸平衡法則在小樣本數(shù)據(jù)集上的使用方法以及證明其在小樣本數(shù)據(jù)集上的有效性,本文在Wine數(shù)據(jù)集上,分別選用其樣本總數(shù)的20%、40%、60%、80%來構(gòu)造新數(shù)據(jù)集。選取過程中,為了保證數(shù)據(jù)集的類別平衡,將每個類別的樣本個數(shù)選取同等數(shù)量。在設定簇中心候選個數(shù)為30和將所有樣本均納入簇中心候選集這兩種情況下,以平均分類正確率為評價指標,用構(gòu)造的4 個新數(shù)據(jù)集和原始Wine 數(shù)據(jù)集作對比,實驗結(jié)果如圖5所示。

        圖5 小樣本數(shù)據(jù)集上的平均分類正確率Fig.5 Average classification accuracy on small sample datasets

        該實驗過程中所得的簇中心數(shù)均為3,而由圖5 可知,隨著數(shù)據(jù)量的增加,算法的平均分類正確率也逐漸上升,且q=30 時的分類正確率均高于q=樣本總數(shù)時的分類正確率,證明了虹吸平衡法則適用于各種規(guī)模的數(shù)據(jù)集尋找簇中心。因此,為了保持本文算法的分類穩(wěn)定性,當數(shù)據(jù)集的樣本總量小于30 時,將其所有樣本作為簇中心候選點,否則將簇中心候選個數(shù)統(tǒng)一設置為30。

        2.5 算法分類正確率對比

        為了說明本文算法的分類有效性,表3 在有標記樣本比例選取為10%時給出了5 種算法在9 個數(shù)據(jù)集上兩個視圖的平均分類正確率。

        由表3 可知,相較于4 種對比算法,本文算法的平均分類正確率在9個數(shù)據(jù)集上最高提升了8.17個百分點。除了數(shù)據(jù)集Tic-Tac-Toe 和pima 外,本文算法在其余7 個數(shù)據(jù)集上的分類性能均優(yōu)于對比算法。因為基于IDPC 算法選出的相互鄰近度高的無標記樣本更能代表數(shù)據(jù)集的原始空間結(jié)構(gòu),一定程度避免了邊緣噪聲點的影響,后續(xù)又通過共享子空間訓練的一致性分類器修訂樣本,將多分類器對無標記樣本的一致性最大化,最終得到較好分類效果的分類器。針對基于其他兩種簇中心選擇策略的密度峰值聚類算法,本文算法的正確率均高于基于決策圖的CTDPCSS 算法。因為決策圖方法定位的簇中心不夠準確,可能會造成聚類過程中部分樣本的類簇分配錯誤,從而無法獲得足夠的有利于改善基分類器性能的無標記樣本。除數(shù)據(jù)集Tic-Tac-Toe 外,本文算法的正確率均高于基于拐點法的CTDPCCCASSSS 算法,可能因為該數(shù)據(jù)集的權(quán)值偏離度變化趨勢較明顯,拐點位置很大概率會成為簇中心與一般樣本的分界點。相較于采用加權(quán)KNN 進行樣本修訂的CTALDPCWKNN 算法,本文算法在數(shù)據(jù)集pima上的分類性能略低,這可能是因為該數(shù)據(jù)集本身具有模糊度高且易分的樣本,故利用主動學習去標記模糊度高的樣本適用此數(shù)據(jù)集。除pima 數(shù)據(jù)集外,本文算法在其余8 個數(shù)據(jù)集上的分類正確率均高于CTALDPCWKNN 算法,證明了包含視圖間一致性信息的共享子空間在重新分類標記不一致樣本過程中的可行性,有效避免了由于標記不一致樣本造成分類錯誤累積的問題。

        表3 五種算法在9個數(shù)據(jù)集上的平均分類正確率對比 單位:%Tab.3 Comparison of average classification accuracy of 5 algorithms on 9 datasets unit:%

        2.6 時間復雜度分析

        為了分析5 種算法的時間成本,本文通過劃分每個算法的組成成分并計算各成分的時間復雜度,最終得到每個算法總的時間度復雜度,結(jié)果如表4 所示。其中,各算法成分括號內(nèi)的信息為該部分的時間復雜度。

        由表4 可知,本文算法和對比算法的時間復雜度均相同,則表明5 種算法在解決模型分類問題時所需的大致時間相同。相較于4 種對比算法,本文算法的組成成分略多,但由于各部分的時間復雜度均未超過O(n2),則總的時間復雜度保持不變。所以,本文算法在加入額外的優(yōu)化步驟時,較好地控制了時間成本,保持了與對比算法同樣的復雜度。

        2.7 有標記樣本的影響

        在半監(jiān)督學習中,有標記樣本的比例會對模型的分類性能產(chǎn)生影響,為了討論有標記樣本的比例對算法的影響程度,圖6 給出了9 個數(shù)據(jù)集在有標記樣本比例分別為10%、20%、30%、40%、50%時的平均分類正確率曲線。

        從圖6 總體的關系曲線分布來看,5 種算法在除數(shù)據(jù)集HTRU_2和Tic-Tac-Toe外的其余7個數(shù)據(jù)集上,平均分類正確率隨著有標記樣本比例的增加而提升,這表明在半監(jiān)督協(xié)同訓練學習過程中,迭代初期有標記樣本量越多則訓練的基分類器越準確,進而利用分類器間的協(xié)同作用最終得到兩個能獨立完備確定樣本類別的分類器。由圖6(e)和圖6(f)可知,在數(shù)據(jù)集HTRU_2和Tic-Tac-Toe中,有標記樣本比例為10%~30%時的平均分類正確率呈上升趨勢,然而當比例提高至40%~50%時,正確率下降且最終低于比例為10%時的正確率。因為隨著有標記樣本增加到一定比例后,有標記樣本的信息對分類器的影響逐漸減弱,從而達到一種相對穩(wěn)定的狀態(tài),則此時的平均分類正確率會在一定范圍內(nèi)波動。

        表4 五種算法的時間復雜度對比Tab.4 Comparison of time complexity of 5 algorithms

        圖6 有標記樣本比例與平均分類正確率的關系曲線Fig.6 Relationship curve of labeled sample proportion and average classification accuracy

        3 結(jié)語

        本文針對協(xié)同訓練迭代過程中用來改善分類器性能的無標記樣本隱含有用信息不足和多分類器標記不一致樣本的問題,提出了結(jié)合改進密度峰值聚類和共享子空間的協(xié)同訓練算法。該算法通過定義虹吸平衡法則選擇簇中心,再結(jié)合相互鄰近度選擇出綜合數(shù)據(jù)全局和局部空間結(jié)構(gòu)的無標記樣本,最后利用共享子空間訓練的一致性分類器重新分類標記不一致樣本?;诤缥胶夥▌t的改進密度峰值聚類算法為簇中心的選擇提供定量分析和決定性理論依據(jù),實現(xiàn)了簇中心的自動選擇。通過將聚類算法與相互鄰近度結(jié)合,綜合考慮數(shù)據(jù)全局和局部的緊密和稀疏程度,選擇更能代表數(shù)據(jù)原始空間結(jié)構(gòu)的無標記樣本。引入共享子空間,充分利用多視圖間的一致性信息將標記不一致樣本統(tǒng)一描述。在9 個數(shù)據(jù)集上的仿真實驗證明了該算法的有效性,實驗結(jié)果表明該算法具有更高的模型評價能力。在后續(xù)的工作中,將進一步討論算法的最優(yōu)參數(shù)并給出具體的調(diào)優(yōu)策略,以及探索本文算法的應用拓展性,如將本文算法應用于多標簽分類問題。

        猜你喜歡
        視圖正確率分類器
        門診分診服務態(tài)度與正確率對護患關系的影響
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        5.3 視圖與投影
        視圖
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        生意
        品管圈活動在提高介入手術(shù)安全核查正確率中的應用
        天津護理(2016年3期)2016-12-01 05:40:01
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        亚洲精品成人片在线观看精品字幕 | 欧美日韩亚洲国产精品| 欧美亚洲国产人妖系列视| 精品人妻一区二区三区av| 开心五月天第四色婷婷| 小蜜被两老头吸奶头在线观看| 奇米影视久久777中文字幕| 人妻中文字幕av有码在线| 国产精品国产自产拍高清| 亚洲av久久久噜噜噜噜| 九九热在线视频观看这里只有精品| 亚洲精品美女久久久久网站| 色婷婷精品午夜在线播放| 色综合av综合无码综合网站 | 粉嫩少妇内射浓精videos| 久久精品女人天堂AV一个| 亚洲成人一区二区三区不卡| 免费女人高潮流视频在线观看| 天天干成人网| 天堂岛国精品在线观看一区二区| 99久久婷婷国产一区| 人妻色综合网站| 免费网站国产| 久久国产精品av在线观看| 精品一二三四区中文字幕| 免费99精品国产自在在线| 亚洲国产精品国语在线| 日韩精品午夜视频在线| 成人自拍三级在线观看| 日本一卡二卡3卡四卡免费观影2022 | 国产免国产免费| 99精品国产兔费观看久久| 日本女同av在线播放| 色婷婷亚洲一区二区三区| 日韩黑人欧美在线视频观看| 日本在线中文字幕一区| 白嫩丰满少妇av一区二区| 午夜dj在线观看免费视频| 特级毛片全部免费播放a一级| 国产在线观看午夜视频| 最新亚洲人成网站在线观看|