亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)K-means結(jié)合深度學(xué)習(xí)的不完備信息選取

2021-11-17 12:38:14宋新鵬張彥波

計(jì)算機(jī)仿真 2021年9期

關(guān)鍵詞：深度信息

宋新鵬，張彥波

(1.河南大學(xué)信息化管理辦公室，河南開(kāi)封，475004) 2.河南大學(xué)物理與電子學(xué)院，河南開(kāi)封，475004)

1 引言

隨著信息技術(shù)的高速發(fā)展，現(xiàn)實(shí)生活中的數(shù)據(jù)信息量越來(lái)越大。由于數(shù)據(jù)信息在獲取過(guò)程中的有限性，及測(cè)量過(guò)程中的誤差性等原因，導(dǎo)致數(shù)據(jù)理解不全面，所掌握的數(shù)據(jù)信息通常不完備[1-2]。同時(shí)很多信息常常具有屬性偏好，如學(xué)生成績(jī)、工作效率、產(chǎn)品質(zhì)量、投資回報(bào)等等，這些屬性值會(huì)導(dǎo)致偏好次序的形成[3]。傳統(tǒng)的粗糙集理論在數(shù)據(jù)分析方面起了很大的作用，然而該理論對(duì)噪聲數(shù)據(jù)處理效果不好，在多粒度的信息系統(tǒng)中，信息的多屬性值難以獲取或經(jīng)常丟失，因此對(duì)于不完備信息系統(tǒng)進(jìn)行研究具有重要的意義，大量學(xué)者也在傳統(tǒng)的粗糙集模型基礎(chǔ)上進(jìn)行了改進(jìn)。文獻(xiàn)[4]提出一種不完備鄰域決策粗糙集的最小化代價(jià)屬性簡(jiǎn)約算法，該方法在連續(xù)型數(shù)據(jù)系統(tǒng)中引入不完備鄰域關(guān)系，利用二元關(guān)系對(duì)信息集進(jìn)行重新構(gòu)造，實(shí)驗(yàn)結(jié)果表明，該方法具有較好的約簡(jiǎn)性能，然后對(duì)于更加復(fù)雜的信息系統(tǒng)模型優(yōu)勢(shì)不明顯。文獻(xiàn)[5]提出一種基于信息熵的不完備數(shù)據(jù)特征選擇算法，該方法以不完備信息作為特征準(zhǔn)則，通過(guò)數(shù)據(jù)特征對(duì)熵值進(jìn)行分析，解決了數(shù)據(jù)間的特征相關(guān)問(wèn)題。實(shí)驗(yàn)結(jié)果表明，該算法具有較高的選擇速度和正確率，然而由于空值的影響，該方法不能直接對(duì)不完備信息進(jìn)行分析處理。文獻(xiàn)[6]提出一種面向不完備信息系統(tǒng)的集對(duì)K-means聚類(lèi)算法，該方法通過(guò)集對(duì)度量方法，取得初步聚類(lèi)數(shù)據(jù)，然后將其分到相應(yīng)域的邊界域，最后通過(guò)選取UCI數(shù)據(jù)庫(kù)的多個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明，該方法具有較好的聚類(lèi)性能，然而由于信息變化對(duì)聚類(lèi)算法的影響較大，該方法不能更好的取得合適參數(shù)。

基于現(xiàn)有研究，本文結(jié)合基礎(chǔ)理論建立不完備信息系統(tǒng)的粗糙集，根據(jù)信息的決策域，求得不完備信息系統(tǒng)粗糙集的上近似值和下近似值。并將信息擴(kuò)展到三個(gè)維度，通過(guò)對(duì)信息聚類(lèi)，將相近度高的樣本劃分到正同域中，使樣本處在聚類(lèi)的中心位置，并結(jié)合深度學(xué)習(xí)，通過(guò)對(duì)樣本的反復(fù)訓(xùn)練，增強(qiáng)選取目標(biāo)的有效性。

2 不完備信息選取

信息具備隨機(jī)性、有噪音、規(guī)模大等特性，信息選取是選擇出用戶敏感且有效的信息，決策管理者可以通過(guò)方法分析處理相關(guān)信息[7-9]。信息系統(tǒng)的另一種替代詞為知識(shí)表達(dá)系統(tǒng)，通?？擅枋鰹樗脑匠?，用公式可表示為

S=(U，A，V，f)

(1)

其中，U表示信息非空有限樣本集；A表示信息非空有限屬性集；V表示U關(guān)于A的信息值域集合；f表示關(guān)于信息的函數(shù)；以上變量可具體描述為

U={x1，x2，x3，…，xn}

A={a1，a2，a3，…，am}

V={V1，V2，V3，…，Vm}

f：vis=f(xi，as)∈Vs

(2)

其中，n表示信息非空有限樣本集中數(shù)據(jù)樣本的個(gè)數(shù)；m表示信息非空有限屬性集中屬性值的個(gè)數(shù)；Vs表示屬性as(1≤s≤m)的值域；vis表示樣本xi通過(guò)信息函數(shù)f在屬性as上的計(jì)算結(jié)果。如果存在屬性值缺失，那么信息系統(tǒng)便是不完備的系統(tǒng)。

與傳統(tǒng)的粗糙集模型相似，不完備信息系統(tǒng)的粗糙集具有相同的表達(dá)形式，對(duì)于樣本中的xi，假設(shè)鄰域類(lèi)為nφ(xi)、狀態(tài)集為Q={X，Xd}，其中X?U，Xd為X的補(bǔ)集，在不完備信息系統(tǒng)中，樣本xi的狀態(tài)集概率用公式可表示為

(3)

根據(jù)貝葉斯公式，可以求得對(duì)于?xi∈U，應(yīng)用動(dòng)作集R={ap，ab，an}的三種行為決策公式為

Costp(xi)=αpp·p(X|nφ(xi))+αpn·p(Xd|nφ(xi))

Costb(xi)=αbp·p(X|nφ(xi))+αbn·p(Xd|nφ(xi))

Costn(xi)=αnp·p(X|nφ(xi))+αnn·p(Xd|nφ(xi))

(4)

根據(jù)最小化規(guī)則，當(dāng)滿足如下條件時(shí)

(5)

可推導(dǎo)得出

αpp·p(X|nφ(xi))+αpn·(1-p(Xd|nφ(xi)))

≤αbp·p(X|nφ(xi))+αbn·(1-p(Xd|nφ(xi)))

(6)

此時(shí)滿足

(7)

其中，T(X)表示樣本xi的一種行為，根據(jù)以上信息的決策域，可以求得不完備信息系統(tǒng)粗糙集的上近似值和下近似值，用公式分別表示為

(8)

其中

(9)

3 改進(jìn)K-means聚類(lèi)算法的信息選取

測(cè)量樣本之間的距離是信息聚類(lèi)中至關(guān)重要的過(guò)程，本文將信息樣本間的距離拓展到3個(gè)維度：正同度、負(fù)反度和差異度，這樣便可以有效的解決缺失值對(duì)不完備信息系統(tǒng)的影響?；谛畔⒘Ｗ又械恼攘Ｗ蛹⒇?fù)反度粒子集和差異度粒子集，本文采用正同域、負(fù)反域和邊界域來(lái)表示不完備信息的聚類(lèi)結(jié)果。其中正同域表示樣本屬于這一類(lèi)，用Yz表示；負(fù)反域表示樣本不屬于這一類(lèi)，用Yf表示；邊界域表示樣本可能屬于這一類(lèi)，用Yb表示。通過(guò)對(duì)信息聚類(lèi)，將相近度高的樣本劃分到正同域中，使樣本處在聚類(lèi)的中心位置；將相似度低的樣本劃分到邊界域；將相似度極低的樣本劃分到負(fù)反域。這三個(gè)域應(yīng)滿足如下條件

(10)

其中，Yi表示類(lèi)簇。通過(guò)上式可以看出，每類(lèi)簇的正同域Yz都不能為空集，任何一個(gè)樣本最多只能屬于一類(lèi)簇的正同域。

針對(duì)數(shù)據(jù)缺失的不完備信息系統(tǒng)，對(duì)缺失的屬性值進(jìn)行集對(duì)分析。通過(guò)正同域、負(fù)反域和邊界域來(lái)表示一種聚類(lèi)。針對(duì)這3種劃分關(guān)系，本文將K-means聚類(lèi)分為兩個(gè)階段，第1階段：構(gòu)造正同域和邊界域的信息集合；第2階段：分離正同域和邊界域的信息集合。根據(jù)集對(duì)距離可以求得每個(gè)樣本最近的聚類(lèi)中心，假設(shè)樣本xi已經(jīng)被劃分到最近的了類(lèi)簇Yi=Yi∪{xi}，在迭代過(guò)程中，新聚類(lèi)中心用公式可表示為

(11)

其中，x∈Yj，x={t1，t2，…，tn}，j=1，2，…，k，|Yj|表示類(lèi)簇Yi的信息元素個(gè)數(shù)。通過(guò)以上過(guò)程聚類(lèi)的初步結(jié)果計(jì)算完畢，可以將類(lèi)簇的樣本分離成兩種類(lèi)型，公式表示為

(12)

通過(guò)對(duì)初步聚類(lèi)的計(jì)算結(jié)果詳細(xì)劃分，可以分離正同域和邊界域。假設(shè)正同度的閾值和負(fù)反度的閾值分別為ε和μ，計(jì)算該樣本所在的類(lèi)別中聚類(lèi)中心的關(guān)聯(lián)性。通過(guò)比較正同度和負(fù)反度與閾值大小之間的關(guān)系，依次將樣本信息分配到其對(duì)應(yīng)類(lèi)簇的正同域和邊界域中，公式表示為

(13)

4 深度學(xué)習(xí)

深度學(xué)習(xí)是以當(dāng)前的信息為依據(jù)，采取從信息系統(tǒng)中獲取相似度較高信息的過(guò)程。表示在當(dāng)前信息狀態(tài)Ht下，信息系統(tǒng)采取行為Et，根據(jù)信息轉(zhuǎn)移函數(shù)P，信息狀態(tài)由Ht轉(zhuǎn)移到Ht+1，同時(shí)信息系統(tǒng)會(huì)根據(jù)當(dāng)前狀態(tài)Ht下采取行為Et的情況，反饋回一個(gè)信號(hào)Gt。通過(guò)不斷訓(xùn)練，求得最優(yōu)策略。深度學(xué)習(xí)框架如圖1所示。

圖1 深度學(xué)習(xí)框圖

深度學(xué)習(xí)是一種經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法，可以感知不完備信息，根據(jù)深度學(xué)習(xí)部分提供的信息作出決策，從而完成信息的映射。雖然深度學(xué)習(xí)可以近似評(píng)估信息網(wǎng)絡(luò)值，然而它卻破壞了信息網(wǎng)絡(luò)值的無(wú)條件收斂性，因此本文從以下兩方面進(jìn)行了優(yōu)化。

一方面，在深度學(xué)習(xí)中由于智能體系與信息系統(tǒng)不斷迭代交互，上一個(gè)信息狀態(tài)與當(dāng)前信息狀態(tài)相似度極高，導(dǎo)致神經(jīng)網(wǎng)絡(luò)擬合時(shí)無(wú)法收斂。因此在深度學(xué)習(xí)中增加一個(gè)記憶庫(kù)，用來(lái)存儲(chǔ)這一段時(shí)間內(nèi)的訓(xùn)練數(shù)據(jù)。在每次學(xué)習(xí)過(guò)程中，深度學(xué)習(xí)算法都會(huì)從記憶庫(kù)中隨機(jī)選擇一些樣本數(shù)據(jù)，輸送到神經(jīng)網(wǎng)絡(luò)中。為了提高訓(xùn)練樣本的利用率，將每次產(chǎn)生的新訓(xùn)練樣本與舊訓(xùn)練樣本混合更新，從而混亂樣本間的關(guān)聯(lián)性。

另一方面，當(dāng)在深度學(xué)習(xí)中建立了一個(gè)與當(dāng)前評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)完全相同，而參數(shù)不同的目標(biāo)神經(jīng)網(wǎng)絡(luò)時(shí)，當(dāng)前的目標(biāo)值Q只能由評(píng)估網(wǎng)絡(luò)預(yù)測(cè)出來(lái)，這種方法可以有效的降低當(dāng)前值與目標(biāo)值的關(guān)聯(lián)性，損失函數(shù)用公式可表示為