亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘

2021-11-17 07:35:46紀(jì)沖，劉巖

計(jì)算機(jī)仿真 2021年7期

紀(jì) 沖，劉巖

(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院，內(nèi)蒙古呼和浩特 010018)

1 引言

大數(shù)據(jù)挖掘是將數(shù)據(jù)作為組成知識的主體，從大量隨機(jī)的數(shù)據(jù)里，挖掘出潛藏在數(shù)據(jù)庫內(nèi)人們不知道的有用知識[1]。互聯(lián)網(wǎng)技術(shù)的高速發(fā)展、網(wǎng)絡(luò)資源使用率的不斷提升使得各行各業(yè)對大數(shù)據(jù)挖掘的重視程度也越來越大，特別是在一些特殊網(wǎng)絡(luò)環(huán)境下，由于大數(shù)據(jù)各類特征參數(shù)較多，則數(shù)據(jù)挖掘前需要對各類數(shù)據(jù)進(jìn)行集成處理[2-3]。

數(shù)據(jù)挖掘是一種比較廣義的交叉學(xué)科，數(shù)據(jù)集成最為常見的方法是模式集成方法，這種方法是一種非常經(jīng)典的集成算法，中間件算法是模式集成算法里比較經(jīng)典的，該算法會將所有獨(dú)立的數(shù)據(jù)源，根據(jù)Wrapper進(jìn)行轉(zhuǎn)換同時(shí)封裝，這些數(shù)據(jù)的存儲位置不會出現(xiàn)變動，利用Mediator對所有封裝之后的數(shù)據(jù)源進(jìn)行視圖統(tǒng)一，Mediator會把瀏覽的歷史請求變換成局部數(shù)據(jù)源模式的搜索，利用Wrapper進(jìn)行結(jié)果提取，同時(shí)使用Mediator對數(shù)據(jù)集成，之后撤回至其它中間件或用戶中。Mediator主要提供全局優(yōu)化查詢處理，不會提供實(shí)際的數(shù)據(jù)儲存[4]。由此可見傳統(tǒng)的數(shù)據(jù)集成挖掘方法，都存在較為一致的缺陷，即數(shù)據(jù)集成與數(shù)據(jù)挖掘之間存在檢測或分類的誤差，這種誤差嚴(yán)重的會致使在結(jié)束挖掘之后，出現(xiàn)亂碼，數(shù)據(jù)顯示不全的問題。

針對上述問題，提出基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘。該方法會通過半監(jiān)督深度學(xué)習(xí)算法來檢測并分類大數(shù)據(jù)種類和特性，為后續(xù)挖掘提供較好的網(wǎng)絡(luò)環(huán)境，通過網(wǎng)格服務(wù)對大數(shù)據(jù)集成，使各不相同的數(shù)據(jù)能夠處于同一坐標(biāo)處，使用關(guān)聯(lián)度挖掘算法對數(shù)據(jù)高精度集成挖掘。

2 大數(shù)據(jù)集成挖掘

2.1 網(wǎng)絡(luò)大數(shù)據(jù)的集成挖掘條件

在網(wǎng)絡(luò)環(huán)境下，為減少數(shù)據(jù)庫的運(yùn)行內(nèi)存，提升挖掘方法的穩(wěn)定性，利用大數(shù)據(jù)集成挖掘方法組建應(yīng)對不同網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的矩陣轉(zhuǎn)換[5-6]。

擬定Dj代表網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)庫內(nèi)大數(shù)據(jù)中第j行的單排矩陣，dji代表第i列、第j行的大數(shù)據(jù)，同時(shí)i=1，2，3，…，m。假如矩陣內(nèi)所有行中一共包含m種大數(shù)據(jù)，那么Dj為

Dj=(dj1，dj2，dj3，…，djm)

(1)

假如大數(shù)據(jù)總量中存在n種，通過T來描述矩陣的轉(zhuǎn)置轉(zhuǎn)換[7-8]，那么網(wǎng)絡(luò)環(huán)境下，數(shù)據(jù)庫內(nèi)大數(shù)據(jù)的總矩陣D為

D=(D1，D2，D3，…，Dn)T

(2)

對總矩陣D里集合X的大數(shù)據(jù)x進(jìn)行挖掘，擬定其單屬性的關(guān)聯(lián)度是sim(X，Y)，其中，Y代表和X對應(yīng)的集合，通過y來描述Y內(nèi)的大數(shù)據(jù)，挖掘出的樣本通過s來進(jìn)行描述，那么s就需要符合如下條件的所有需求

(3)

其中，F(xiàn)req代表?xiàng)l件出現(xiàn)的次數(shù)，θ表示所允許的最大誤差挖掘，δ代表該誤差出現(xiàn)的概率。

2.2 基于半監(jiān)督深度學(xué)習(xí)的大數(shù)據(jù)集成

典型的機(jī)器深度學(xué)習(xí)通常會分成無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)是利用訓(xùn)練標(biāo)記的樣本，對沒有標(biāo)記的樣本預(yù)測，而無監(jiān)督學(xué)習(xí)是根據(jù)訓(xùn)練無標(biāo)記樣本，查找無標(biāo)記樣本之間存在的內(nèi)部特征來進(jìn)行預(yù)測。半監(jiān)督深度學(xué)習(xí)是對上述兩種深度學(xué)習(xí)之間的機(jī)器深度學(xué)習(xí)進(jìn)行融合，能夠同時(shí)對標(biāo)記樣本和無標(biāo)記樣本進(jìn)行訓(xùn)練[9]。

在實(shí)際使用中，有標(biāo)記的樣本總量較為稀少，因其需要通過手動來進(jìn)行標(biāo)記所以耗費(fèi)較大，因此少量存在標(biāo)記的樣本尤其珍貴，而樣本里未標(biāo)記的樣本總量有很多。本文的數(shù)據(jù)挖掘首先會通過構(gòu)建數(shù)據(jù)檢測模型來識別網(wǎng)絡(luò)中大數(shù)據(jù)屬性，但由于正常樣本多于有標(biāo)記樣本總量，因此首先把未標(biāo)記樣本都設(shè)定為正常樣本，根據(jù)無監(jiān)督學(xué)習(xí)[10]訓(xùn)練單分類數(shù)據(jù)檢測模型，之后按照有標(biāo)記的樣本，校正單分類數(shù)據(jù)檢測模型，從而達(dá)到增量學(xué)習(xí)的目的。

本文充分利用現(xiàn)存的少量有標(biāo)記樣本與大量無標(biāo)記的樣本數(shù)據(jù)，采用半監(jiān)督學(xué)習(xí)，利用先驗(yàn)單分類檢測數(shù)據(jù)模型信息和新的標(biāo)記樣本更新模型對樣本數(shù)據(jù)進(jìn)行處理，一方面能夠使訓(xùn)練之后的樣本繼承先前學(xué)習(xí)到的知識，還可以讓整體學(xué)習(xí)存在可積累性，另外一方面也可以實(shí)現(xiàn)在線學(xué)習(xí)，不斷的讓數(shù)據(jù)檢測模型獲得更新。典型的數(shù)據(jù)檢測模型是[11]無監(jiān)督深度學(xué)習(xí)，其將數(shù)據(jù)對象擬定成一種整體，組建一種封閉且緊湊的超球體，使需要描述的數(shù)據(jù)對象盡可能或全部地處于這種球體里。

(4)

式中，R代表待求解的球的最小半徑，C為懲罰系數(shù)，ζi為懲罰項(xiàng)，a為超球體的中心。

在訓(xùn)練結(jié)束之后，需要對新的數(shù)據(jù)點(diǎn)Z評定是否屬于這個(gè)類，就是

(z-a)T(z-a)≤R2

(5)

至此利用單分類數(shù)據(jù)檢測模型訓(xùn)練了未標(biāo)記樣本，針對數(shù)據(jù)樣本可以使用該模型進(jìn)行評定。但是未標(biāo)記樣本里存在少量的[12]冗余數(shù)據(jù)樣本，直接根據(jù)單分類數(shù)據(jù)檢測模型有可能會產(chǎn)生一些微小的誤差，因此本文結(jié)合了少量的標(biāo)記樣本組成了半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型。

1)對含有標(biāo)記的樣本分詞處理，根據(jù)數(shù)據(jù)檢測模型對樣本標(biāo)記之間存在的關(guān)聯(lián)性與特征詞進(jìn)行分析，條件前K種關(guān)鍵特征詞當(dāng)作篩選特征詞；

2)針對未標(biāo)記樣本，利用(1)得到篩選特征詞對應(yīng)的未標(biāo)記樣本特征；

3)針對(2)獲得的未標(biāo)記樣本特征，根據(jù)深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練取得未標(biāo)記樣本的文本向量。

4)利用文本向量，利用半監(jiān)督深度學(xué)習(xí)方法對單分類SVDD模型進(jìn)行訓(xùn)練，將超球體的半徑縮短到最小化；

5)對于新的標(biāo)記樣本，利用在線學(xué)習(xí)的方式訓(xùn)練向量學(xué)習(xí)SVDD模型，同時(shí)對單分類模型進(jìn)行校正，提高模型的識別效果。通過該模型來檢測大數(shù)據(jù)內(nèi)的信息資源。

2.3 大數(shù)據(jù)集成挖掘的實(shí)現(xiàn)

為提升所提挖掘算法的精準(zhǔn)性與實(shí)用性，需要實(shí)現(xiàn)約束大數(shù)據(jù)特征關(guān)聯(lián)度，約束的內(nèi)容需要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)庫確認(rèn)挖掘條件，約束內(nèi)容需要包含確保挖掘工作計(jì)算量小、挖掘質(zhì)量高的作用。

通過confidence(X?Y)來描述特征集合X內(nèi)涵蓋特征集合Y的概率，confidence(Y?X)和上述相反，大數(shù)據(jù)特征關(guān)聯(lián)度sim(X，Y)的挖掘結(jié)果為

(6)

由于confidence(X?Y)與confidence(Y?X)的取值范圍是[0，1]，所以，大數(shù)據(jù)特征關(guān)聯(lián)度sim(X，Y)的取值范圍也應(yīng)該是[0，1]。在sim(X，Y)=0時(shí)，即網(wǎng)絡(luò)大數(shù)據(jù)間的特征是互相獨(dú)立的，此時(shí)不需要進(jìn)行大數(shù)據(jù)集成挖掘聚類。

網(wǎng)絡(luò)數(shù)據(jù)位置的關(guān)聯(lián)度挖掘結(jié)果，能夠利用計(jì)算大數(shù)據(jù)傳輸信道的質(zhì)心得到，把大數(shù)據(jù)集合X與Y傳輸信道的質(zhì)心擬定成c1與c2，兩種質(zhì)心之間的距離是|c1c2|，下面通過圖1來對大數(shù)據(jù)位置關(guān)聯(lián)度的挖掘原理進(jìn)行描述。

圖1 大數(shù)據(jù)位置關(guān)聯(lián)度挖掘原理

(7)

網(wǎng)絡(luò)大數(shù)據(jù)方向關(guān)聯(lián)度即指大數(shù)據(jù)集合X與Y傳輸方向之間的角度(s1，s2)，其余弦值能夠通過公式描述成

(8)

通過上式能夠看出，大數(shù)據(jù)集合X與Y傳輸方向之間存在的角度(s1，s2)，如果角度cos(s1，s2)越大，(s1，s2)值就會越小。在(s1，s2)超過180度之后，cos(s1，s2)值就會變成負(fù)數(shù)。為了免除大數(shù)據(jù)位置關(guān)聯(lián)度挖掘結(jié)果，對大數(shù)據(jù)方向關(guān)聯(lián)度挖掘結(jié)果造成的干擾，所提網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法利用[1-cos(s1，s2)]的正弦值來描述方法，取代傳統(tǒng)[1-cos2(s1，s2)]的正弦值描述方法，使大數(shù)據(jù)方向關(guān)聯(lián)度被精確的挖掘出來。

基于上述方法，把大數(shù)據(jù)方向關(guān)聯(lián)度的挖掘結(jié)果擬定成sim(dist)，對大數(shù)據(jù)結(jié)合X與Y傳輸方向的平均值avg(|s1|，|s2|)，進(jìn)行加成計(jì)算，就會出現(xiàn)：

sim(dist)=avg(|s1|，|s2|)[1-cos(s1，s2)]

(9)

把上述式(6)、(7)與(8)根據(jù)式(4)給出的挖掘樣本s條件進(jìn)行聚類，確保最后的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。通過F來表述挖掘樣本s的挖掘效率，那么，F(xiàn)s就能夠表示成大數(shù)據(jù)挖掘聚類，即本文方法的集成挖掘結(jié)果為

(10)

式中，F(xiàn)j為大數(shù)據(jù)的特征、位置與方向同時(shí)出現(xiàn)的概率，F(xiàn)max為大數(shù)據(jù)特征、位置與方向關(guān)聯(lián)度內(nèi)的最大值，N為未進(jìn)行挖掘工作前的大數(shù)據(jù)樣本總量，Ns為挖掘出的數(shù)據(jù)特征、位置與方向的總量。

根據(jù)以上步驟，利用有監(jiān)督與無監(jiān)督深度學(xué)習(xí)間的機(jī)器學(xué)習(xí)，組成半監(jiān)督深度學(xué)習(xí)訓(xùn)練標(biāo)記樣本，利用支持向量數(shù)據(jù)組建超球體。利用超球體結(jié)合標(biāo)記樣本，組建半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型，采用深度學(xué)習(xí)檢測大數(shù)據(jù)，以此為基礎(chǔ)篩選樣本特征詞，利用半監(jiān)督深度學(xué)習(xí)方法訓(xùn)練單分類SVDD模型，實(shí)現(xiàn)檢測大數(shù)據(jù)內(nèi)的信息資源，獲取網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證所提方法的應(yīng)用有效性，設(shè)計(jì)一次仿真。仿真環(huán)境為Intel Celeron Tulatin1GHz CPU和384MB SD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。

3.1 不同方法的大數(shù)據(jù)集成挖掘精度對比

為進(jìn)一步驗(yàn)證所提方法的實(shí)用性，將文獻(xiàn)[1]提出的基于事務(wù)映射區(qū)間求交的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法、文獻(xiàn)[2]提出的基于數(shù)值信息抽取的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法以及文獻(xiàn)[3]提出的基于差分隱私的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法作為本次實(shí)驗(yàn)的對照組，不同方法的集成精度對比見表1。

表1 不同數(shù)據(jù)集中三種方法的大數(shù)據(jù)集成精度對比

從表1所統(tǒng)計(jì)出的數(shù)據(jù)可知，本文方法與文獻(xiàn)方法相比集成挖掘結(jié)果精度更高，且所提方法在大數(shù)據(jù)集成挖掘過程中應(yīng)用的穩(wěn)定性較高。

3.2 不同方法的大數(shù)據(jù)集成挖掘耗時(shí)對比

為進(jìn)一步驗(yàn)證所提方法的性能優(yōu)勢，設(shè)計(jì)本節(jié)實(shí)驗(yàn)。以大數(shù)據(jù)集成挖掘耗時(shí)為指標(biāo)，不同方法的大數(shù)據(jù)的集成挖掘耗時(shí)對比測試結(jié)果如圖2。

圖2 不同方法的耗時(shí)對比測試

從圖2實(shí)驗(yàn)結(jié)果中可以看出，三種傳統(tǒng)方法隨著待挖掘大數(shù)據(jù)量的增多，其耗時(shí)不斷增加，當(dāng)大數(shù)據(jù)量達(dá)到60TB時(shí)，其耗時(shí)最高為6.5ms。相比之下，所提方法的耗時(shí)明顯低于三種傳統(tǒng)方法，在大數(shù)據(jù)量為10TB時(shí)，耗時(shí)為2.3ms。當(dāng)大數(shù)據(jù)不斷增多時(shí)，該方法的集成挖掘時(shí)間明顯降低，且耗時(shí)水平較為穩(wěn)定。大數(shù)據(jù)達(dá)到最大值60TB時(shí)，其耗時(shí)仍然在2ms上下。本次實(shí)驗(yàn)數(shù)據(jù)表明所提方法具有較為理想的應(yīng)用性能，符合目前該領(lǐng)域的實(shí)際應(yīng)用要求。

4 結(jié)束語

為集成挖掘不同格式、來源、特點(diǎn)性質(zhì)的大數(shù)據(jù)，本文提出一種基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)的集成挖掘方法。通過半監(jiān)督深度學(xué)習(xí)算法對大數(shù)據(jù)實(shí)現(xiàn)集成挖掘。通過仿真驗(yàn)證了所提方法具有較高的大數(shù)據(jù)集成挖掘精度與效率。但隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模不斷擴(kuò)大、計(jì)算量高速增加，易出現(xiàn)數(shù)據(jù)查詢工作超負(fù)荷運(yùn)轉(zhuǎn)問題，因此在現(xiàn)有方法的基礎(chǔ)上，對負(fù)載優(yōu)化模型為日后進(jìn)一步需要研究的課題。