亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類研究

        2023-08-19 09:59:48張福華劉麗朱俊東朱再新余大權(quán)
        電子設(shè)計(jì)工程 2023年16期
        關(guān)鍵詞:信息熵準(zhǔn)確率權(quán)重

        張福華,劉麗,朱俊東,朱再新,余大權(quán)

        (安徽明生恒卓科技有限公司,安徽 合肥 230000)

        近年來,信息技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)信息技術(shù)、工業(yè)信息技術(shù)、通信信息技術(shù)等行業(yè)迅速崛起,這些行業(yè)產(chǎn)生了大量的數(shù)據(jù)。在當(dāng)前階段,主要是通過自適應(yīng)聚類對(duì)數(shù)據(jù)進(jìn)行整合。數(shù)據(jù)通常以靜態(tài)的形式存放在數(shù)據(jù)庫中,以便隨時(shí)提取。但由于信息產(chǎn)生方式、性質(zhì)以及數(shù)據(jù)庫的存儲(chǔ)量是有限的,數(shù)據(jù)的存放只能是短暫性的,并不能長期存放在數(shù)據(jù)庫中,而在應(yīng)對(duì)大量的數(shù)據(jù)產(chǎn)生時(shí),數(shù)據(jù)庫無法永久保存所有數(shù)據(jù),因此數(shù)據(jù)的自適應(yīng)聚類便成為解決該問題的方式。

        為了解決上述問題,一些學(xué)者進(jìn)行了數(shù)據(jù)自適應(yīng)聚類相關(guān)研究。文獻(xiàn)[1]提出了基于信息熵加權(quán)的空間聚類算法,通過引入信息熵權(quán)重約束模式,完成對(duì)數(shù)據(jù)的自適應(yīng)聚類,但此方式只適用于少量信息的多次自適應(yīng)聚類,在應(yīng)對(duì)大量數(shù)據(jù)時(shí)仍無法很好地進(jìn)行聚類,導(dǎo)致聚類準(zhǔn)確性變差。文獻(xiàn)[2]提出了基于信息流加權(quán)的集成分類算法,通過引入集成分類算法賦予數(shù)據(jù)更高的權(quán)重,并根據(jù)每個(gè)數(shù)據(jù)類別特征構(gòu)建分類器,以此完成數(shù)據(jù)的自適應(yīng)聚類,但此方式對(duì)于大量雜亂的數(shù)據(jù)無法做到精準(zhǔn)聚類,實(shí)際應(yīng)用效果并不好。

        針對(duì)目前聚類方法的漂移點(diǎn)篩選能力和抗干擾能力較弱的問題,設(shè)計(jì)了一種基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類方法,并通過實(shí)驗(yàn)對(duì)該方法的有效性進(jìn)行了驗(yàn)證。

        1 基于信息熵的數(shù)據(jù)屬性加權(quán)

        利用信息熵的加權(quán)對(duì)混亂數(shù)據(jù)進(jìn)行自適應(yīng)聚類,在構(gòu)建信息熵的加權(quán)機(jī)制前,設(shè)計(jì)一種混亂數(shù)據(jù)相異性度量方式[3-4]。

        由于所研究的數(shù)據(jù)為混亂數(shù)據(jù),因此采用K-P算法統(tǒng)計(jì)當(dāng)前數(shù)據(jù)集中相似數(shù)據(jù)出現(xiàn)的頻率,并設(shè)定模糊類中心,以此能夠更加直觀地度量數(shù)據(jù)之間的相異性。

        根據(jù)信息熵權(quán)重建立模糊類中心,計(jì)算公式如式(1)所示:

        其中,xi表示第i個(gè)數(shù)據(jù)集;C表示數(shù)據(jù)集數(shù)據(jù)的所屬類別。

        而數(shù)據(jù)集中的單一對(duì)象也可表示為模糊類中心的形式,該式為模糊類中心一種特殊的表示形式[5-6]。

        信息熵具有兩種形式,分別為數(shù)值型與分類型,針對(duì)數(shù)值型的數(shù)據(jù)屬性進(jìn)行加權(quán)時(shí),需應(yīng)用到二階Renyi 熵,Renyi 熵具有良好的計(jì)算特性[7-8]。假設(shè)X是由獨(dú)立分布的N個(gè)數(shù)據(jù)對(duì)象組成的數(shù)據(jù)集合,計(jì)算熵值f(X)如式(2)所示:

        其中,Wi為parzen 窗口函數(shù),通常為高斯核函數(shù)。通過parzen 窗口估計(jì)法得到的熵通常為正數(shù),上述定義給出的類內(nèi)熵值反映了在聚類分化結(jié)果中某一類的值在不同屬性數(shù)據(jù)情況下的分布狀態(tài),即一個(gè)類的類內(nèi)熵越小,聚類過程的數(shù)據(jù)屬性權(quán)重越大[9-10]。

        互補(bǔ)信息熵計(jì)算公式如式(3)所示:

        根據(jù)以上分析可知,通過信息匹配得到數(shù)據(jù)熵,在完成數(shù)據(jù)聚類之后確定信息的不同屬性,根據(jù)不同屬性實(shí)現(xiàn)數(shù)據(jù)分離,從而實(shí)現(xiàn)數(shù)據(jù)屬性加權(quán)。

        2 基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類

        在完成基于信息熵的數(shù)據(jù)屬性加權(quán)后,對(duì)數(shù)據(jù)進(jìn)行自適應(yīng)聚類,聚類流程如圖1 所示。

        圖1 基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類流程

        根據(jù)圖1 可知,聚類過程首先構(gòu)建一個(gè)數(shù)據(jù)自適應(yīng)聚類器,然后完成聚類模型更新,同時(shí)進(jìn)行基礎(chǔ)聚類器更新和權(quán)重更新實(shí)現(xiàn)數(shù)據(jù)自適應(yīng)聚類。

        構(gòu)造一個(gè)數(shù)據(jù)自適應(yīng)聚類器流程,假設(shè)E為一個(gè)由k個(gè)基礎(chǔ)聚類器y組成的自適應(yīng)聚類器,設(shè)S表示數(shù)據(jù)總量,將S平均分成大小相等的數(shù)據(jù)塊B,此時(shí)自適應(yīng)聚類器開始初始化,當(dāng)一個(gè)新的數(shù)據(jù)塊到達(dá)時(shí)。若數(shù)據(jù)塊中的所有數(shù)據(jù)都能夠被識(shí)別,則可將該數(shù)據(jù)塊轉(zhuǎn)變?yōu)橐粋€(gè)基礎(chǔ)聚類器,當(dāng)基礎(chǔ)聚類器的個(gè)數(shù)未達(dá)到閾值k時(shí),將不斷轉(zhuǎn)化可識(shí)別的數(shù)據(jù)塊為基礎(chǔ)聚類器,直到基礎(chǔ)聚類器的數(shù)量達(dá)到k個(gè)[11-12]。自適應(yīng)聚類器由多個(gè)基礎(chǔ)聚類器組成,若要建立一個(gè)性能完好的自適應(yīng)聚類器,則需要保證基礎(chǔ)聚類器具有多樣性與準(zhǔn)確性。滿足基礎(chǔ)聚類器的多樣性條件是數(shù)據(jù)塊都建立在不同維度的子空間中,因此每個(gè)數(shù)據(jù)塊的維度與空間特征都是隨機(jī)的。

        為了解決數(shù)據(jù)不穩(wěn)定的問題,需要使用IEWU算法對(duì)自適應(yīng)聚類器進(jìn)行更新,更新分為基礎(chǔ)聚類器的更新以及基礎(chǔ)聚類器權(quán)重的更新兩部分。

        由于IEWU 算法的中心思想與自適應(yīng)聚類器的構(gòu)建過程相似,因此在相似數(shù)據(jù)的數(shù)量達(dá)到一定程度時(shí)便可組建一個(gè)數(shù)據(jù)塊,通過數(shù)據(jù)塊得到一個(gè)基礎(chǔ)聚類器?;A(chǔ)聚類器的權(quán)重隨著數(shù)據(jù)塊屬性與性能的變化而變化,以此解決數(shù)據(jù)不穩(wěn)定問題。數(shù)據(jù)塊的大小決定了基礎(chǔ)聚類器的性能。較大的數(shù)據(jù)塊可以組建成性能更好的基礎(chǔ)聚類器,分類性能更佳。因此在基礎(chǔ)聚類器更新過程中,需要篩選出較大的數(shù)據(jù)塊來提升基礎(chǔ)聚類器的性能[13-14]。

        由于使用IEWU 算法構(gòu)建了一個(gè)混合類型的自適應(yīng)聚類器,因此在IEWU 算法應(yīng)用過程中,需要不利用新的基礎(chǔ)聚類器來替換舊的基礎(chǔ)聚類器,并需要對(duì)已有的基礎(chǔ)聚類器進(jìn)行學(xué)習(xí),結(jié)合信息熵對(duì)每個(gè)基礎(chǔ)聚類器的權(quán)重進(jìn)行更新。通過此方式可以篩選出性能更好的基礎(chǔ)聚類器,提高整個(gè)自適應(yīng)聚類器在面對(duì)不穩(wěn)定數(shù)據(jù)時(shí)的處理能力[15]。信息熵為此次研究的重要參數(shù),利用IEWU 算法計(jì)算信息熵的計(jì)算公式如下:

        式中,H表示信息熵;P表示聚類器參數(shù)。采用IEWU 算法可求得當(dāng)前數(shù)據(jù)屬性的信息熵值,由于信息熵能夠表示聚類結(jié)果的不確定性,因此信息熵越大,聚類結(jié)果的不確定性越強(qiáng)。當(dāng)利用IEWU算法所求得的信息熵足夠小時(shí),即可判定當(dāng)前聚類結(jié)果準(zhǔn)確。由于不同數(shù)據(jù)的信息熵都不相同,因此采用動(dòng)態(tài)自適應(yīng)的方式對(duì)信息熵進(jìn)行更新,信息熵更新閾值計(jì)算公式如下:

        式中,em為信息熵更新閾值;et為信息熵的平均值;en為信息熵的最小值,et與en的值會(huì)隨著數(shù)據(jù)屬性的不斷變化而發(fā)生改變。當(dāng)IEWU 算法所求得的信息熵值小于em時(shí),則信息熵更新停止。

        通常基礎(chǔ)聚類器剛建立時(shí)會(huì)被賦予最高的權(quán)重值,隨著更多數(shù)據(jù)塊的到來,每個(gè)基礎(chǔ)聚類器會(huì)根據(jù)信息熵的閾值判斷自身是否處于性能較好的基礎(chǔ)聚類器,并實(shí)時(shí)調(diào)整自身權(quán)重,使得性能較好的基礎(chǔ)聚類器能夠被識(shí)別出,不斷淘汰性能較差的基礎(chǔ)聚類器[16]。

        自適應(yīng)聚類器的聚類結(jié)果由所有列舉出的聚類器進(jìn)行加權(quán)投票,其中IEWU 算法還使用了拋棄策略,由于基礎(chǔ)聚類器的性能有好壞之分,性能較差的基礎(chǔ)聚類器由于其不穩(wěn)定性,參與投票后更容易導(dǎo)致聚類結(jié)果更加不準(zhǔn)確,因此參與投票的基礎(chǔ)聚類器都是性能較優(yōu)的。給予一個(gè)固定的權(quán)重閾值,該算法只將性能在權(quán)重閾值以上的基礎(chǔ)聚類器加入投票的排列之中,以此實(shí)現(xiàn)數(shù)據(jù)的自適應(yīng)聚類[17]。

        3 實(shí)驗(yàn)研究

        為了驗(yàn)證所提出的基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類方法的實(shí)際應(yīng)用效果,進(jìn)行了相關(guān)實(shí)驗(yàn)測試。在實(shí)驗(yàn)過程中,選用此次研究的自適應(yīng)聚類方法和傳統(tǒng)的基于人工合成的自適應(yīng)聚類方法、基于數(shù)據(jù)分析的數(shù)據(jù)自適應(yīng)聚類方法進(jìn)行實(shí)驗(yàn)對(duì)比。

        為了更好地保證實(shí)驗(yàn)效果,同時(shí)選用RanTree、SEAg、poker 三個(gè)不同的數(shù)據(jù)塊進(jìn)行實(shí)驗(yàn)對(duì)比,探究不同數(shù)據(jù)塊下的聚類準(zhǔn)確性。得到的實(shí)驗(yàn)結(jié)果如圖2-圖4 所示。

        圖2 RanTree數(shù)據(jù)塊下聚類準(zhǔn)確率

        根據(jù)圖2 可知,由于RanTree 數(shù)據(jù)塊的信息環(huán)境極其不穩(wěn)定,因此三種聚類方法的聚類準(zhǔn)確率存在明顯差異。對(duì)于RanTree 數(shù)據(jù)塊,與實(shí)驗(yàn)對(duì)比方法相比較,所提出的聚類方法始終保持著較高的聚類準(zhǔn)確性。此次提出的聚類方法通過引入信息熵進(jìn)行數(shù)據(jù)聚類,在不平穩(wěn)的環(huán)境下也能夠很好地適應(yīng)外界變化,而傳統(tǒng)的聚類方法在聚類過程中,容易受到外界因素影響,在不穩(wěn)定的環(huán)境下可能出現(xiàn)準(zhǔn)確率上升或下降的問題,難以完成快速適應(yīng),甚至?xí)霈F(xiàn)數(shù)據(jù)漂移,導(dǎo)致聚類準(zhǔn)確率下降。

        與RanTree 數(shù)據(jù)塊相比,SEAg 數(shù)據(jù)塊更加穩(wěn)定,通過分析圖3 可以發(fā)現(xiàn),三種聚類方法的準(zhǔn)確率都相對(duì)較高,但是在遇見漂移點(diǎn)時(shí),三種聚類方法的準(zhǔn)確率都有所下降,此次提出的聚類方法聚類準(zhǔn)確率僅有2%~5%的下降,而傳統(tǒng)的基于人工合成的自適應(yīng)聚類方法準(zhǔn)確率下降超過20%,基于數(shù)據(jù)分析的數(shù)據(jù)自適應(yīng)聚類方法準(zhǔn)確率下降超過50%,由此可見,所提出的聚類方法抗干擾能力更強(qiáng)。

        圖3 SEAg數(shù)據(jù)塊下聚類準(zhǔn)確率

        根據(jù)圖4 可知,poker 數(shù)據(jù)塊存在的漂移點(diǎn)極少,但是聚類過程容易受到外界干擾因素影響,因此三種聚類方法在前期的聚類準(zhǔn)確率都相對(duì)較低,但是隨著聚類時(shí)間的增加,此次所提出的聚類方法通過信息熵更新權(quán)重消除外界干擾,聚類準(zhǔn)確率大大增加,而傳統(tǒng)方法依舊難以滿足精準(zhǔn)聚類要求,導(dǎo)致聚類質(zhì)量下降。

        圖4 poker數(shù)據(jù)塊下聚類準(zhǔn)確率

        在上述基礎(chǔ)上,為了進(jìn)一步驗(yàn)證三種方法的聚類性能,比較了三種方法的數(shù)據(jù)聚類時(shí)間,比較結(jié)果如表1 所示。

        表1 數(shù)據(jù)聚類時(shí)間比較

        分析表1 中的數(shù)據(jù)可知,隨著實(shí)驗(yàn)數(shù)據(jù)量的增加,不同方法的數(shù)據(jù)聚類耗時(shí)均呈現(xiàn)上升趨勢,當(dāng)實(shí)驗(yàn)數(shù)據(jù)量達(dá)到100 GB 的情況下,三種方法的聚類時(shí)間均達(dá)到最大值。其中信息熵更新權(quán)重聚類法的聚類時(shí)間最大值為1.25 s,平均值為0.71 s;人工合成聚類法的聚類時(shí)間最大值為1.91 s,平均值為1.29 s;數(shù)據(jù)分析聚類法的聚類時(shí)間最大值為2.56 s,平均值為1.58 s;基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類方法的聚類時(shí)間更短,效率更高。

        4 結(jié)束語

        該文以解決當(dāng)前聚類方法的漂移點(diǎn)篩選能力和抗干擾能力較弱的問題作為研究目標(biāo),設(shè)計(jì)了一種基于信息熵更新權(quán)重的數(shù)據(jù)自適應(yīng)聚類方法。通過混亂數(shù)據(jù)相異性度量完成數(shù)據(jù)屬性加權(quán),構(gòu)建基礎(chǔ)聚類器,利用多個(gè)基礎(chǔ)聚類器構(gòu)建自適應(yīng)聚類器,以此達(dá)到自適應(yīng)聚類數(shù)據(jù)的最終目標(biāo)。實(shí)驗(yàn)表明,此次提出的基于信息熵更新權(quán)重的自適應(yīng)聚類方法解決了當(dāng)前方法中存在的問題,能夠在數(shù)據(jù)自適應(yīng)聚類領(lǐng)域得到廣泛應(yīng)用,以此提升數(shù)據(jù)的聚類質(zhì)量。

        猜你喜歡
        信息熵準(zhǔn)確率權(quán)重
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        權(quán)重常思“浮名輕”
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        国产人与zoxxxx另类| 少妇人妻av一区二区三区| 在线观看国产激情视频| 无码人妻一区二区三区免费视频 | 日日摸夜夜添狠狠添欧美| 国产午夜精品久久久久九九| 女同在线网站免费观看| 中文字幕无线码一区二区| 国产欧美一区二区精品仙草咪| 无码一区久久久久久久绯色AV| 一区=区三区国产视频| 亚洲精品国产电影| 中国内射xxxx6981少妇| 久久福利资源国产精品999| 国产精品日本中文在线| 无码人妻久久久一区二区三区| 熟女少妇在线视频播放| 久久半精品国产99精品国产| 久久青青草原亚洲av| 无码爽视频| 欧美aa大片免费观看视频| 99riav精品国产| 丝袜美腿制服诱惑一区二区| 插我一区二区在线观看| 日韩激情小视频| 免费在线观看视频专区| 日本视频二区在线观看| 久久国产热这里只有精品| 在线看片国产免费不卡| 国产精品日韩亚洲一区二区 | 亚洲精品理论电影在线观看| 国产亚洲一区二区毛片| 天天做天天摸天天爽天天爱| 欧洲-级毛片内射| 午夜一区二区三区av| 大陆老熟女自拍自偷露脸| 国产高颜值大学生情侣酒店| 一本大道在线一久道一区二区| 国产av剧情精品麻豆| 欧美真人性野外做爰| 人妻丰满熟妇av无码区hd|