亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于哈希桶和聚類的變半徑鄰域粗糙集模型

        2024-10-18 00:00:00李華孟祥瑞

        摘"要: 鄰域粗糙集是處理機器學習與數(shù)據(jù)挖掘中不確定性的數(shù)據(jù)分析工具.鄰域粗糙集中鄰域粒的大小往往受鄰域半徑的影響.針對現(xiàn)有的鄰域粗糙集模型通常對每個樣本設(shè)置相同的鄰域半徑,導致得到的鄰域粒無法對每個樣本進行準確地刻畫的問題,基于樣本數(shù)據(jù)的分布信息,首先對數(shù)據(jù)集進行聚類,并基于哈希桶對每個類的樣本分布情況做出分析,然后為每個樣本設(shè)置合適大小的鄰域半徑,使其能夠更準確地刻畫每個樣本的信息,進而提出變半徑鄰域粗糙集模型.最后選取了8個UCI數(shù)據(jù)集進行實驗,并分別與當前最常用的鄰域粗糙集模型進行比較,理論分析與實驗結(jié)果表明所提出的變半徑鄰域粗糙集模型具有更好的學習性能.

        關(guān)鍵詞: 變半徑鄰域粗糙集;哈希桶;聚類;樣本分布;不確定性

        中圖分類號:TP301"""文獻標志碼:A"""""文章編號:1673-4807(2024)04-100-08

        Variable radius neighborhood rough set model based onhash bucket and clustering

        LI Hua, MENG Xiangrui

        (Department of Mathematics amp; Physics,Shijiazhuang Tiedao University, Shijiazhuang 050043,China)

        Abstract:Neighborhood rough set is a data analysis tool that handles uncertainty in machine learning and data mining. The size of neighborhood granules in neighborhood rough set models is often affected by neighborhood radius. However, existing neighborhood rough set models usually do not consider the distribution information of sample data, and set the same neighborhood radius for each sample, resulting in the neighborhood granules being unable to accurately depict each sample. To address this problem, based on the distribution information of data, a variable radius neighborhood rough set model is proposed. Firstly, the dataset is clustered, and the sample distribution of each class is analyzed based on the hash bucket, and then the appropriate neighborhood radius is set for each sample, so that the information of each sample can be more accurately described. Finally, on eight data sets, the variable radius neighborhood rough set model is compared with popular neighborhood rough set models. Theoretical analysis and experimental results show that the variable radius neighborhood rough set model proposed in this paper has better learning performance.

        Key words:variable neighborhood rough sets, hash bucket, clustering, sample distribution,uncertainty

        粗糙集理論[1]是一種描述數(shù)據(jù)不完整性與不確定性的數(shù)學工具,能夠定量分析不精確、不一致和不完整等各種不完備的信息.由于經(jīng)典粗糙集理論無法直接應用于連續(xù)型數(shù)據(jù)集,文獻[2]提出了鄰域粗糙集理論(neighborhood rough set,NRS).這種模型使用距離定義樣本間的相似性,將等價關(guān)系泛化為鄰域關(guān)系,使粗糙集理論的應用范圍拓寬到了連續(xù)型數(shù)據(jù).目前鄰域粗糙集理論已被廣泛應用于信息安全、圖像處理及決策分析等領(lǐng)域.

        鄰域粗糙集通過設(shè)置鄰域半徑來確定樣本的鄰域粒,合適的鄰域半徑對于構(gòu)建鄰域粗糙集模型至關(guān)重要.許多學者對鄰域半徑展開了研究.文獻[3]提出使用數(shù)據(jù)集中每一列條件屬性值的標準差所構(gòu)成的閾值向量作為鄰域半徑.這種方法只能選擇曼哈頓距離作為距離度量,一定程度上限制了鄰域的構(gòu)造方式.文獻[4]基于標準差的閾值向量設(shè)定統(tǒng)一的單鄰域半徑,增大了距離度量的選擇范圍.以上方法未考慮數(shù)據(jù)集樣本空間的分布,為數(shù)據(jù)集設(shè)定了同一個鄰域半徑.統(tǒng)一的鄰域半徑并不能準確地描述數(shù)據(jù)集中的所有樣本.因此,許多學者為數(shù)據(jù)集設(shè)定了多個鄰域半徑.文獻[5]提出k最近鄰鄰域粗糙集模型,將k近鄰粗糙集模型與鄰域粗糙集模型相結(jié)合,固定每個鄰域中樣本個數(shù)從而對不同樣本的分布情況進行區(qū)分.文獻[6]提出無需設(shè)定參數(shù)的鄰域關(guān)系Gap,根據(jù)樣本之間的距離遠近劃分鄰域范圍,使得新鄰域包含樣本個數(shù)更少.文獻[7]依據(jù)鄰域中包含樣本類別數(shù)目重新設(shè)定鄰域半徑,包含樣本類別個數(shù)與半徑大小呈負相關(guān).以上方法基于局部的樣本分布信息構(gòu)造新的鄰域半徑,欠缺考慮數(shù)據(jù)集總體樣本分布,所構(gòu)造的鄰域半徑并非完全適合于每個樣本.

        文中對比分析數(shù)據(jù)集中樣本的總體分布與局部分布情況,為每個樣本設(shè)定合適的鄰域半徑,提出了變半徑鄰域粗糙集模型.首先通過計算數(shù)據(jù)集條件屬性值的標準差得到依據(jù)總體分布的統(tǒng)一鄰域半徑,同時使用數(shù)據(jù)集中非空哈希桶刻畫樣本總體分布情況,然后將樣本聚類,用類內(nèi)哈希桶包含樣本的平均個數(shù)刻畫各個類的樣本分布情況.最后根據(jù)類內(nèi)分布情況與總體分布情況的對比得到每個類的鄰域半徑,進而給出變半徑鄰域粗糙集模型的定義.通過理論證明了變半徑鄰域粗糙集模型具有更高的分類精度與近似質(zhì)量,同時在UCI數(shù)據(jù)集上的實驗結(jié)果表明變半徑鄰域粗糙集模型具有更好的學習性能.

        1"基本概念

        1.1"鄰域粗糙集

        設(shè)S=(U,C,D,V,f)是一個決策信息系統(tǒng),其中U={x1,x2,…,xn}為非空樣本集合;C為樣本的條件屬性集合;D為樣本的決策屬性集合;V為所有屬性的值域,Vi為屬性ai的值域; f:U×C∪D→V表示信息函數(shù).即對任意ai∈C∪D,x∈U,均有fi(x)∈Vi.決策信息系統(tǒng)也稱為決策表[2],可簡化表示為S=(U,C,D).

        下面給出鄰域的定義.

        定義1[2] 設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC,給定任意x∈U,x的鄰域RB(x)定義為:

        RB(x)={yy∈U,ΔB(x,y)≤r}

        式中:ΔB:U×U→R+為樣本在屬性子集B的距離函數(shù).常用的距離函數(shù)有歐氏距離、曼哈頓距離和切比雪夫距離等.r為鄰域半徑,通常為常數(shù),用于確定樣本的鄰域大小.

        根據(jù)條件屬性集合給出樣本的鄰域后,可用兩個精確集,即上、下近似刻畫任意集合X,由此得到鄰域粗糙集模型的定義.

        定義2[2] 設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.設(shè)集合XU,X關(guān)于屬性集B的上、下近似分別定義為:

        NBX={xRB(x)∩X≠,x∈U}

        NBX={xRB(x)X,x∈U}

        上、下近似可用于逼近任意集合X,同時上、下近似構(gòu)成的模型稱為鄰域粗糙集模型.特別地,若X為決策,可得到?jīng)Q策D關(guān)于B的上、下近似.

        定義3[2] 設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策屬性集D將U劃分為s個等價類,即決策類D1,D2,…,Ds,決策D關(guān)于屬性集B的上、下近似為:

        NBD=∪si=1NBDi

        NBD=∪si=1NBDi

        式中:NBDi、NBDi分別為決策類Di關(guān)于屬性集B的上、下近似.

        給出鄰域粗糙集模型中分類能力與近似能力的度量.

        定義4[8] 設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策D關(guān)于B的上、下近似分別為NBD、NBD,則決策D關(guān)于屬性集B的分類精度為:

        PB(D)=NBDNBD

        定義5[8] 設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策D關(guān)于B的下近似為NBD,則決策D關(guān)于屬性集B的近似質(zhì)量為:

        QB(D)=NBDU

        分類精度指出了所有可能的決策中正確決策所占的比例,近似質(zhì)量表明了基于知識B可以準確做出決策的對象的比例.

        1.2"哈希桶

        文獻[9]以鄰域半徑為間距將數(shù)據(jù)集劃分為一系列桶,提出哈希桶的概念,并應用哈希桶縮小鄰域的搜索范圍.哈希桶的具體定義如下:

        定義6"設(shè)S=(U,C,D)為決策信息系統(tǒng),C={a1,a2,…,am}為條件屬性集,哈希桶Hk為:

        Hk={xx∈U∧[ΔC(x0,x)/r]=k}

        式中:[y]表示對y向下取整;ΔC為樣本在條件屬性集C上的距離函數(shù);r為預先設(shè)定的鄰域半徑;k為非負整數(shù);x0是由樣本在各個條件屬性上的最小取值所構(gòu)成的向量.

        哈希桶中樣本個數(shù)反映了桶內(nèi)樣本的疏密程度.桶中樣本個數(shù)越多,樣本分布越密集,反之,樣本分布越稀疏.因此,樣本的局部分布情況可用其所在哈希桶中樣本的個數(shù)刻畫.

        2"變半徑鄰域粗糙集模型

        已有鄰域粗糙集模型在構(gòu)造鄰域半徑時未考慮總體樣本分布,所構(gòu)造的鄰域半徑并非完全適合于每個樣本.因此,結(jié)合樣本總體分布與局部分布信息構(gòu)造適合每個樣本的鄰域半徑.首先給出適合總體樣本分布的統(tǒng)一半徑,并通過數(shù)據(jù)集中哈希桶平均包含樣本個數(shù)刻畫數(shù)據(jù)集總體樣本分布,然后通過聚類區(qū)分處于不同分布的樣本,再使用類內(nèi)哈希桶刻畫各個類的樣本分布情況.最后根據(jù)類內(nèi)分布情況與總體分布情況的對比得到每個類的鄰域半徑,進而得到變半徑鄰域粗糙集模型.

        首先,給出適合總體樣本分布的鄰域半徑,即使用條件屬性的標準差作為數(shù)據(jù)集的統(tǒng)一半徑.

        定義7[4] 設(shè)S=(U,C,D)為決策信息系統(tǒng),U={x1,x2,…,xn},C={a1,a2,…,am},統(tǒng)一半徑δ定義為:

        δ=std{δ(a1),δ(a2),…,δ(am)}

        式中:

        δ(ai)=1λstd{fi(x1),fi(x2),…,fi(xn)} i=1,…,m;

        std{x1,x2,…,xn}為變量x1,x2,…,xn的標準差;fi(x)為樣本x在屬性ai下的取值;λ為依據(jù)數(shù)據(jù)集而定的特征參數(shù).進一步,通過哈希桶刻畫數(shù)據(jù)集的總體分布情況.

        定義8"設(shè)S=(U,C,D)為決策信息系統(tǒng),哈希桶H0,H1,H2,…,Hp.數(shù)據(jù)集U的總體分布率D(H)為:

        D(H)=∪0≤k≤pHkq=Uq

        式中:q為數(shù)據(jù)集中非空哈希桶的個數(shù).

        數(shù)據(jù)集U的總體分布率D(H)為數(shù)據(jù)集中所有非空哈希桶包含樣本數(shù)的平均值,其反映了數(shù)據(jù)集中樣本的總體分布情況.由定義可知D(H)≥1.

        為了準確刻畫數(shù)據(jù)集中處于不同分布的樣本,首先對數(shù)據(jù)集進行聚類.同一類中的樣本相似度較高,不同類的樣本相似度較低.因此處于同一類中的樣本具有相同的分布情況.使用k-means聚類方法將數(shù)據(jù)集U劃分為w個類,即E1,E2,…,Ew,這里w依據(jù)文獻[10]確定.

        定義9"設(shè)S=(U,C,D)為決策信息系統(tǒng),哈希桶為H0,H1,H2,…,Hp,其中非空哈希桶為Hq1,Hq2,…,Hqt(1≤qt≤p).給定聚類E1,E2,…,Ew,類Ei(i=1,…,w)的類內(nèi)哈希桶為:

        H(Ei)=∪q1≤j≤qt{Hj|Hj∩Ei≠}"HjEi

        ∪q1≤j≤qt{Hj|HjEi}"否則

        如果類Ei包含若干個哈希桶,則H(Ei)由完全包含在類內(nèi)的非空哈希桶構(gòu)成,如果類Ei不包含任何非空哈希桶,則H(Ei)由所有與Ei相交非空的哈希桶構(gòu)成.

        用類內(nèi)哈希桶包含樣本的個數(shù)刻畫每個類的樣本分布情況.

        定義10"設(shè)S=(U,C,D)為決策信息系統(tǒng),哈希桶為H0,H1,H2,…,Hp.給定聚類E1,E2,…,Ew,類Ei(i=1,…,w)的分布率Pi為:

        Pi=H(Ei)t

        式中:t為類Ei的類內(nèi)哈希桶H(Ei)中所包含哈希桶的個數(shù).類Ei的分布率Pi為該類中每個哈希桶包含樣本數(shù)的平均值.由定義9可知,構(gòu)成H(Ei)的每個桶至少包含一個樣本,因此Pi≥1.Pi越大,表明類Ei中樣本分布越密集,反之樣本分布越稀疏.因此Pi刻畫了類Ei中樣本的分布情況.

        通過對比類內(nèi)樣本分布與總體樣本分布來刻畫類內(nèi)樣本的疏密程度.

        定義11"設(shè)S=(U,C,D)為決策信息系統(tǒng),哈希桶為H0,H1,H2,…,Hp.給定聚類E1,E2,…,Ew,類Ei(i=1,…,w)對數(shù)據(jù)集U的相對比Mi為:

        Mi=PiD(H)

        類Ei對數(shù)據(jù)集U的相對比Mi是類內(nèi)分布率與總體分布率之比.由定義可知,Migt;0.Mi越大,表明類Ei中樣本分布相對密集,反之則表明類Ei中樣本分布相對稀疏.對于分布較為密集的樣本,鄰域半徑應小于基于總體樣本分布的統(tǒng)一半徑.對于分布較為稀疏的樣本,為使樣本的鄰域粒能夠更為細致地刻畫樣本信息,這里仍采用統(tǒng)一半徑.因此,基于相對比Mi,通過調(diào)整數(shù)據(jù)集的統(tǒng)一半徑來計算類Ei的類半徑.

        定義12"設(shè)S=(U,C,D)為決策信息系統(tǒng),統(tǒng)一半徑為δ,哈希桶為H0,H1,H2,…,Hp.給定聚類E1,E2,…,Ew,類Ei(i=1,…,w)對數(shù)據(jù)集U的相對比為Mi,則類Ei的類半徑為:

        δ(Ei)=ε1Miδ"1lt;Mi

        δ0lt;Mi≤1

        式中:ε為調(diào)節(jié)參數(shù),一般0lt;ε≤1.

        變半徑鄰域可根據(jù)相應類半徑定義.

        定義13"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC,給定聚類E1,E2,…,Ew,類Ei(i=1,…,w)的類半徑為δ(Ei).設(shè)x∈Ei,則x的變半徑鄰域δB(x)為:

        δB(x)={yy∈U,ΔB(x,y)≤δ(Ei)}

        式中:ΔB:U×U→R+為樣本在屬性集B的距離函數(shù).

        根據(jù)條件屬性集合給出樣本的變半徑鄰域后,可用兩個精確集刻畫任意集合X,即上、下近似.由此得到變半徑鄰域粗糙集模型的定義.

        定義14"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.設(shè)XU,X在變半徑鄰域粗糙集中關(guān)于屬性集B的上、下近似分別定義為:

        KBX={xδB(x)∩X≠,x∈U}

        KBX={xδB(x)X,x∈U}

        上、下近似可用于逼近任意集合X,同時上、下近似構(gòu)成的模型稱為變半徑鄰域粗糙集模型.

        若X為決策,根據(jù)定義14可得到?jīng)Q策D關(guān)于B的上、下近似.

        定義15"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策屬性集D將U劃分為s個等價類,即決策類D1,D2,…,Ds.決策D在變半徑鄰域粗糙集中關(guān)于屬性集B的上、下近似為:

        KBD=∪si=1KBDi

        KBD=∪si=1KBDi

        式中:KBDi、KBDi分別為決策類Di在變半徑鄰域粗糙集中關(guān)于屬性集B的上、下近似.

        下面給出判別變半徑鄰域粗糙集模型中分類能力與近似能力的度量.

        定義16"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策D在變半徑鄰域粗糙集中關(guān)于屬性集B的上、下近似分別為KBD、KBD,則變半徑鄰域粗糙集中決策D關(guān)于屬性集B的分類精度為:

        PEB(D)=KBDKBD

        定義17"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策D在變半徑鄰域粗糙集中關(guān)于屬性集B的下近似為KBD,則變半徑鄰域粗糙集中決策D關(guān)于屬性集B的近似質(zhì)量為:

        QEB(D)=KBDU

        以下定理表明了變半徑鄰域粗糙集模型具有更高的分類精度與近似質(zhì)量.

        定理1"設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC,設(shè)PB(D)與QB(D)分別為經(jīng)典鄰域粗糙集中決策D關(guān)于屬性集B的分類精度與近似質(zhì)量.PEB(D)與QEB(D)分別為變半徑鄰域粗糙集中決策D關(guān)于屬性集B的分類精度與近似質(zhì)量.則有:

        PB(D)≤PEB(D)

        QB(D)≤QEB(D)

        證明:設(shè)S=(U,C,D)為決策信息系統(tǒng),條件屬性集合BC.決策D將U劃分為D1,D2,…,Ds等s個決策類.設(shè)經(jīng)典鄰域粗糙集的鄰域半徑為定義7所設(shè)定的統(tǒng)一半徑δ.RB(x)表示U中任意樣本x的經(jīng)典鄰域.在變半徑鄰域粗糙集中,將U按k-means聚類方法劃分為E1,E2,…,Eww個類.對于任意樣本x∈E,設(shè)類E的類半徑為δ(E),由定義12可知,δ(E)≤δ.設(shè)δB(x)表示x的變半徑鄰域.由定義13可知,δB(x)={yy∈U,ΔB(x,y)≤δ(E)}.對于任意y∈δB(x),則ΔB(x,y)≤δ(E).由δ(E)≤δ可知ΔB(x,y)≤δ,從而y∈RB(x).因此,δB(x)RB(x).

        設(shè)變半徑鄰域粗糙集中決策類Di(i=1,…,s)關(guān)于屬性集B的上、下近似分別為KBDi、KBDi.經(jīng)典鄰域粗糙集中決策類Di關(guān)于屬性集B的上、下近似分別為NBDi、NBDi.根據(jù)其定義有NBDiKBDi,KBDiNBDi.根據(jù)定義3與定義15可知, NBDKBD,KBDNBD,NBD≤KBD,KBD≤NBD.根據(jù)變半徑鄰域粗糙集與經(jīng)典鄰域粗糙集中決策D關(guān)于屬性集B的分類精度與近似質(zhì)量的定義,有:

        PB(D)=NBDNBD≤KBDKBD=PEB(D)

        QB(D)=NBDU≤KBDU=QEB(D)

        定理1表明了變半徑鄰域粗糙集的分類精度與近似質(zhì)量均高于經(jīng)典鄰域粗糙集.

        算法1給出了變半徑鄰域粗糙集模型的具體計算過程.

        算法1"變半徑鄰域粗糙集模型(neighborhood rough set model based on hash bucket and clustering,HCNRS)

        輸入:決策信息系統(tǒng)S=(U,C,D),條件屬性集合BC,任意集合XU,特征參數(shù)λ

        輸出:變半徑鄰域粗糙集模型KBX、KBX

        ① 根據(jù)定義7,定義8計算哈希桶H0,H1,H2,…,Hp與總體分布率D(H)

        ② 使用k-means聚類方法將數(shù)據(jù)集U劃分為w個類,即E1,E2,…,Ew;

        ③ 根據(jù)定義10計算各個類的分布率:P1,P2,…,Pw;

        ④ 根據(jù)定義12計算各個類的類半徑:δ(E1),δ(E2),…,δ(Ew);

        ⑤ for i=1:w

        ⑥ ""for k=0:p

        ⑦ if x∈Hk∧x∈Ei

        ⑧ """""初始化δB(x)=;

        ⑨ """"for每個y∈Hk及其相鄰哈希桶

        ⑩ """""""if ΔB(x,y)≤δB(Ei)

        δB(x)←y;/*計算樣本x的鄰域*/

        下面分析變半徑鄰域粗糙集模型計算過程的時間復雜度.其復雜度主要由步驟②~④,⑤~B16的時間復雜度組成.步驟②~④為計算樣本的類半徑,時間復雜度為O(|U|).步驟⑤~B16為計算樣本的變半徑鄰域,時間復雜度為O(|U|2).因此算法1的時間復雜度為O(|U|2).

        3"實驗

        3.1"實驗分析

        將變半徑鄰域粗糙集模型(HCNRS)與經(jīng)典鄰域粗糙集模型[3](NRS)、變鄰域粗糙集模型[7](variable radius neighborhood rough sets,VRNRs)以及k最近鄰粗糙集模型[5](k-nearest neighborhood rough sets,NNRS)在分類精度與近似質(zhì)量上進行對比實驗.從UCI機器學習數(shù)據(jù)庫中選擇了8個數(shù)據(jù)集,數(shù)據(jù)集的具體信息如表1.使用十折交叉驗證對各個模型進行實驗比較,算法使用MATLAB 2017a進行編程,實驗運行的硬件環(huán)境為intel(R) Core(TM) i5-7200U CPU和64 GB.

        為探究隨著鄰域半徑的改變,HCNRS與NRS、VRNRs以及NNRS在分類精度與近似質(zhì)量上的變化,選擇4類鄰域粗糙集模型在構(gòu)造鄰域半徑時需要設(shè)置的參數(shù)λ,并探討隨著λ的改變,變半徑鄰域粗糙集模型與其他3類鄰域粗糙集模型在分類精度和近似質(zhì)量上的變化趨勢.對表1中每個數(shù)據(jù)集分別選取了10個合適大小的λ值,并分別計算各個鄰域粗糙集模型在每個λ值下的分類精度值與近似質(zhì)量值,結(jié)果如圖1、2.

        圖1、圖2分別展示了4類鄰域粗糙集模型在8個數(shù)據(jù)集上的分類精度與近似質(zhì)量隨參數(shù)λ的變化趨勢.在Iris、Libras、Tae和German數(shù)據(jù)集中,HCNRS的分類精度與近似質(zhì)量并不隨著λ的增大而單調(diào)遞增.這是由于每次實驗時k均值聚類的結(jié)果不同,從而影響類內(nèi)哈希桶的構(gòu)成,進一步地對模型的上、下近似產(chǎn)生一定影響.因此,隨著λ的增大,分類精度與近似質(zhì)量的值可能有所波動.在Iris、Glass、Libras、Tae、Australian、Website和Abalone數(shù)據(jù)集中,HCNRS的分類精度值與近似質(zhì)量值始終高于其他3類鄰域粗糙集模型.在German數(shù)據(jù)集中,當λ取合適的值時,HCNRS的分類精度值與近似質(zhì)量值仍處于最高水平.以上對比驗證了在不同的鄰域半徑下,變半徑鄰域粗糙集模型在分類精度與近似質(zhì)量上的優(yōu)越性.

        3.2"統(tǒng)計實驗分析

        為進一步探究HCNRS與NRS、VRNRs、NNRS在分類精度與近似質(zhì)量上的差異是否具有顯著性,使用 Friedman 檢驗[11]和 Bonferroni-Dunn檢驗[12]對4類鄰域粗糙集模型進行對比分析.

        Friedman檢驗主要用于對多個模型進行統(tǒng)計比較.Ri表示第i個模型在所有數(shù)據(jù)集中關(guān)于模型性能的平均排名,F(xiàn)riedman檢驗統(tǒng)計量描述如下:

        FF=(N-1)χ2FN(k-1)-χ2F

        FF為服從自由度k-1與(k-1)(N-1)的F分布,文中N=8,k=4,顯著性水平設(shè)置為0.05.

        表2展示了在分類精度與近似質(zhì)量下的FF值以及顯著性水平為0.05的臨界值.觀察表2可知,分類精度與近似質(zhì)量的FF值均大于臨界值3.072.因此,應明確拒絕比較模型之間“相等”性能的原假設(shè),并需要進行進一步實驗區(qū)分各個鄰域粗糙集模型的分類能力與近似能力.

        使用Bonferroni-Dunn檢驗區(qū)分鄰域粗糙集模型之間存在明顯差異.Bonferroni-Dunn檢驗的臨界距離為:

        CDα=qαk(k+1)6N

        式中:k為模型的個數(shù);N為數(shù)據(jù)集個數(shù);qα為臨界表值;α表示顯著性水平,設(shè)為0.05.文中N=8,k=4. Bonferroni-Dunn檢驗結(jié)果如圖3、4.觀察圖3、4可知,HCNRS在兩個度量中平均排名最高,優(yōu)于模型VRNRs,且明顯優(yōu)于模型NRS與NNRS.

        4"結(jié)論

        隨著鄰域粗糙集模型的廣泛應用,鄰域半徑作為構(gòu)造鄰域粗糙集模型的關(guān)鍵也受到了關(guān)注.而已有鄰域粗糙集模型所構(gòu)造的鄰域半徑并非完全適合于每個樣本.因此,提出一種基于哈希桶與聚類的變半徑鄰域粗糙集模型,該模型基于數(shù)據(jù)集局部樣本分布與總體樣本分布的對比為每個樣本設(shè)置合適的鄰域半徑,生成分類性能更好的變半徑鄰域粗糙集模型.通過理論證明了變半徑鄰域粗糙集模型具有更高的分類精度與近似質(zhì)量.UCI數(shù)據(jù)集上的實驗結(jié)果表明變半徑鄰域粗糙集模型具有更好的學習性能.

        文中對數(shù)據(jù)集樣本進行分類時使用的k-means聚類方法具有隨機性,在多次實驗中,生成的鄰域半徑結(jié)果將有所波動.未來的工作將考慮使用結(jié)果更穩(wěn)定的分類方法.

        參考文獻(References)

        [1]"PAWLAK Z. Rough sets[J]. International Journal of Computer amp; Information Sciences, 1982, 11(5): 341-356.

        [2]"HU Qinghua, YU Daren, LIU Jinfu, et al. Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences, 2008, 178(18): 3577-3594.

        [3]"婁暢, 劉遵仁, 郭功振. 一種多閾值鄰域粗糙集的屬性約簡算法[J]. 青島大學學報(自然科學版), 2014, (4): 44-48 .

        [4]"李冬. 基于鄰域粗糙集的屬性約簡算法研究及應用[D]. 成都: 成都信息工程大學, 2020: 16-19.

        [5]"WANG Changzhong, SHI Yunpeng, FAN Xiaodong, et al. Attribute reduction based on k-nearest neighborhood rough sets[J]. International Journal of Approximate Reasoning, 2019, 106: 18-31.

        [6]"ZHOU Peng, HU Xuegang, LI Peipei, et al. Online streaming feature selection using adapted neighborhood rough set[J]. Information Sciences, 2019, 481 (2): 258-279 .

        [7]"ZHANG Di, ZHU Ping. Variable radius neighborhood rough sets and attribute reduction[J]. International Journal of Approximate Reasoning, 2022, 150: 98-121.

        [8]"PaWLAK Z. Rough sets [M]. Berlin: Springer Dordrecht, 1991: 10-44.

        [9]"LIU Yong, HUANG Wenliang, JIANG Yunliang, et al. Quick attribute reduct algorithm for neighborhood rough set model[J]. Information Sciences, 2014, 271(1): 65-81.

        [10]"巴婧, 陳妍, 楊習貝. 快速求解粒球粗糙集約簡的屬性劃分方法[J]. 南京理工大學學報(自然科學版), 2021, 45(4): 394-400.

        [11]"DEMIAR J, SCHUURMANS D. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7(1): 1-30.

        [12]"DUNN O J. Multiple comparisons among means[J]. Journal of the American Statistical Association, 1961, 56(293): 52-64.

        (責任編輯:曹莉)

        性欧美牲交xxxxx视频欧美| 国产亚洲一二三区精品| 国产亚洲一区二区三区| 国产午夜福利在线观看红一片| 成年女人毛片免费视频| 99久久99久久精品免观看| av在线播放一区二区免费| 久久国产精品一国产精品金尊| 色屁屁www影院免费观看入口| 久久久久亚洲av成人网址 | 少妇呻吟一区二区三区| 最近免费中文字幕中文高清6 | 国产自拍av在线观看视频| 色偷偷av男人的天堂| 亚洲国产美女在线观看| 加勒比久草免费在线观看| 国产综合精品久久99之一| 无码少妇一区二区浪潮av| 久久一区二区三区四区| 中文字幕一区二区网址| 亚洲av中文无码字幕色本草| 大陆极品少妇内射aaaaa| 日韩国产精品一本一区馆/在线| 国产自拍视频一区在线| 女人18毛片a级毛片| 亚洲av无码电影网| AV无码系列一区二区三区| 久久亚洲中文字幕精品熟| 亚洲人成电影在线播放| 欧美a级在线现免费观看| 日韩亚洲在线一区二区| 丁香五月亚洲综合在线| www插插插无码免费视频网站| 国产美女被遭强高潮露开双腿 | 在线观看日本一区二区三区四区 | www.尤物视频.com| 国产成人精品日本亚洲i8| 伊人久久大香线蕉亚洲五月天| 亚洲AV激情一区二区二三区| 偷窥偷拍一区二区三区| 美女不带套日出白浆免费视频 |