亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘

        2021-11-17 07:35:46紀(jì)沖,劉
        計(jì)算機(jī)仿真 2021年7期
        關(guān)鍵詞:深度監(jiān)督檢測

        紀(jì) 沖,劉 巖

        (內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)

        1 引言

        大數(shù)據(jù)挖掘是將數(shù)據(jù)作為組成知識的主體,從大量隨機(jī)的數(shù)據(jù)里,挖掘出潛藏在數(shù)據(jù)庫內(nèi)人們不知道的有用知識[1]。互聯(lián)網(wǎng)技術(shù)的高速發(fā)展、網(wǎng)絡(luò)資源使用率的不斷提升使得各行各業(yè)對大數(shù)據(jù)挖掘的重視程度也越來越大,特別是在一些特殊網(wǎng)絡(luò)環(huán)境下,由于大數(shù)據(jù)各類特征參數(shù)較多,則數(shù)據(jù)挖掘前需要對各類數(shù)據(jù)進(jìn)行集成處理[2-3]。

        數(shù)據(jù)挖掘是一種比較廣義的交叉學(xué)科,數(shù)據(jù)集成最為常見的方法是模式集成方法,這種方法是一種非常經(jīng)典的集成算法,中間件算法是模式集成算法里比較經(jīng)典的,該算法會將所有獨(dú)立的數(shù)據(jù)源,根據(jù)Wrapper進(jìn)行轉(zhuǎn)換同時(shí)封裝,這些數(shù)據(jù)的存儲位置不會出現(xiàn)變動,利用Mediator對所有封裝之后的數(shù)據(jù)源進(jìn)行視圖統(tǒng)一,Mediator會把瀏覽的歷史請求變換成局部數(shù)據(jù)源模式的搜索,利用Wrapper進(jìn)行結(jié)果提取,同時(shí)使用Mediator對數(shù)據(jù)集成,之后撤回至其它中間件或用戶中。Mediator主要提供全局優(yōu)化查詢處理,不會提供實(shí)際的數(shù)據(jù)儲存[4]。由此可見傳統(tǒng)的數(shù)據(jù)集成挖掘方法,都存在較為一致的缺陷,即數(shù)據(jù)集成與數(shù)據(jù)挖掘之間存在檢測或分類的誤差,這種誤差嚴(yán)重的會致使在結(jié)束挖掘之后,出現(xiàn)亂碼,數(shù)據(jù)顯示不全的問題。

        針對上述問題,提出基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘。該方法會通過半監(jiān)督深度學(xué)習(xí)算法來檢測并分類大數(shù)據(jù)種類和特性,為后續(xù)挖掘提供較好的網(wǎng)絡(luò)環(huán)境,通過網(wǎng)格服務(wù)對大數(shù)據(jù)集成,使各不相同的數(shù)據(jù)能夠處于同一坐標(biāo)處,使用關(guān)聯(lián)度挖掘算法對數(shù)據(jù)高精度集成挖掘。

        2 大數(shù)據(jù)集成挖掘

        2.1 網(wǎng)絡(luò)大數(shù)據(jù)的集成挖掘條件

        在網(wǎng)絡(luò)環(huán)境下,為減少數(shù)據(jù)庫的運(yùn)行內(nèi)存,提升挖掘方法的穩(wěn)定性,利用大數(shù)據(jù)集成挖掘方法組建應(yīng)對不同網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的矩陣轉(zhuǎn)換[5-6]。

        擬定Dj代表網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)庫內(nèi)大數(shù)據(jù)中第j行的單排矩陣,dji代表第i列、第j行的大數(shù)據(jù),同時(shí)i=1,2,3,…,m。假如矩陣內(nèi)所有行中一共包含m種大數(shù)據(jù),那么Dj為

        Dj=(dj1,dj2,dj3,…,djm)

        (1)

        假如大數(shù)據(jù)總量中存在n種,通過T來描述矩陣的轉(zhuǎn)置轉(zhuǎn)換[7-8],那么網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)庫內(nèi)大數(shù)據(jù)的總矩陣D為

        D=(D1,D2,D3,…,Dn)T

        (2)

        對總矩陣D里集合X的大數(shù)據(jù)x進(jìn)行挖掘,擬定其單屬性的關(guān)聯(lián)度是sim(X,Y),其中,Y代表和X對應(yīng)的集合,通過y來描述Y內(nèi)的大數(shù)據(jù),挖掘出的樣本通過s來進(jìn)行描述,那么s就需要符合如下條件的所有需求

        (3)

        其中,F(xiàn)req代表?xiàng)l件出現(xiàn)的次數(shù),θ表示所允許的最大誤差挖掘,δ代表該誤差出現(xiàn)的概率。

        2.2 基于半監(jiān)督深度學(xué)習(xí)的大數(shù)據(jù)集成

        典型的機(jī)器深度學(xué)習(xí)通常會分成無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)是利用訓(xùn)練標(biāo)記的樣本,對沒有標(biāo)記的樣本預(yù)測,而無監(jiān)督學(xué)習(xí)是根據(jù)訓(xùn)練無標(biāo)記樣本,查找無標(biāo)記樣本之間存在的內(nèi)部特征來進(jìn)行預(yù)測。半監(jiān)督深度學(xué)習(xí)是對上述兩種深度學(xué)習(xí)之間的機(jī)器深度學(xué)習(xí)進(jìn)行融合,能夠同時(shí)對標(biāo)記樣本和無標(biāo)記樣本進(jìn)行訓(xùn)練[9]。

        在實(shí)際使用中,有標(biāo)記的樣本總量較為稀少,因其需要通過手動來進(jìn)行標(biāo)記所以耗費(fèi)較大,因此少量存在標(biāo)記的樣本尤其珍貴,而樣本里未標(biāo)記的樣本總量有很多。本文的數(shù)據(jù)挖掘首先會通過構(gòu)建數(shù)據(jù)檢測模型來識別網(wǎng)絡(luò)中大數(shù)據(jù)屬性,但由于正常樣本多于有標(biāo)記樣本總量,因此首先把未標(biāo)記樣本都設(shè)定為正常樣本,根據(jù)無監(jiān)督學(xué)習(xí)[10]訓(xùn)練單分類數(shù)據(jù)檢測模型,之后按照有標(biāo)記的樣本,校正單分類數(shù)據(jù)檢測模型,從而達(dá)到增量學(xué)習(xí)的目的。

        本文充分利用現(xiàn)存的少量有標(biāo)記樣本與大量無標(biāo)記的樣本數(shù)據(jù),采用半監(jiān)督學(xué)習(xí),利用先驗(yàn)單分類檢測數(shù)據(jù)模型信息和新的標(biāo)記樣本更新模型對樣本數(shù)據(jù)進(jìn)行處理,一方面能夠使訓(xùn)練之后的樣本繼承先前學(xué)習(xí)到的知識,還可以讓整體學(xué)習(xí)存在可積累性,另外一方面也可以實(shí)現(xiàn)在線學(xué)習(xí),不斷的讓數(shù)據(jù)檢測模型獲得更新。典型的數(shù)據(jù)檢測模型是[11]無監(jiān)督深度學(xué)習(xí),其將數(shù)據(jù)對象擬定成一種整體,組建一種封閉且緊湊的超球體,使需要描述的數(shù)據(jù)對象盡可能或全部地處于這種球體里。

        (4)

        式中,R代表待求解的球的最小半徑,C為懲罰系數(shù),ζi為懲罰項(xiàng),a為超球體的中心。

        在訓(xùn)練結(jié)束之后,需要對新的數(shù)據(jù)點(diǎn)Z評定是否屬于這個(gè)類,就是

        (z-a)T(z-a)≤R2

        (5)

        至此利用單分類數(shù)據(jù)檢測模型訓(xùn)練了未標(biāo)記樣本,針對數(shù)據(jù)樣本可以使用該模型進(jìn)行評定。但是未標(biāo)記樣本里存在少量的[12]冗余數(shù)據(jù)樣本,直接根據(jù)單分類數(shù)據(jù)檢測模型有可能會產(chǎn)生一些微小的誤差,因此本文結(jié)合了少量的標(biāo)記樣本組成了半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型。

        1)對含有標(biāo)記的樣本分詞處理,根據(jù)數(shù)據(jù)檢測模型對樣本標(biāo)記之間存在的關(guān)聯(lián)性與特征詞進(jìn)行分析,條件前K種關(guān)鍵特征詞當(dāng)作篩選特征詞;

        2)針對未標(biāo)記樣本,利用(1)得到篩選特征詞對應(yīng)的未標(biāo)記樣本特征;

        3)針對(2)獲得的未標(biāo)記樣本特征,根據(jù)深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練取得未標(biāo)記樣本的文本向量。

        4)利用文本向量,利用半監(jiān)督深度學(xué)習(xí)方法對單分類SVDD模型進(jìn)行訓(xùn)練,將超球體的半徑縮短到最小化;

        5)對于新的標(biāo)記樣本,利用在線學(xué)習(xí)的方式訓(xùn)練向量學(xué)習(xí)SVDD模型,同時(shí)對單分類模型進(jìn)行校正,提高模型的識別效果。通過該模型來檢測大數(shù)據(jù)內(nèi)的信息資源。

        2.3 大數(shù)據(jù)集成挖掘的實(shí)現(xiàn)

        為提升所提挖掘算法的精準(zhǔn)性與實(shí)用性,需要實(shí)現(xiàn)約束大數(shù)據(jù)特征關(guān)聯(lián)度,約束的內(nèi)容需要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)庫確認(rèn)挖掘條件,約束內(nèi)容需要包含確保挖掘工作計(jì)算量小、挖掘質(zhì)量高的作用。

        通過confidence(X?Y)來描述特征集合X內(nèi)涵蓋特征集合Y的概率,confidence(Y?X)和上述相反,大數(shù)據(jù)特征關(guān)聯(lián)度sim(X,Y)的挖掘結(jié)果為

        (6)

        由于confidence(X?Y)與confidence(Y?X)的取值范圍是[0,1],所以,大數(shù)據(jù)特征關(guān)聯(lián)度sim(X,Y)的取值范圍也應(yīng)該是[0,1]。在sim(X,Y)=0時(shí),即網(wǎng)絡(luò)大數(shù)據(jù)間的特征是互相獨(dú)立的,此時(shí)不需要進(jìn)行大數(shù)據(jù)集成挖掘聚類。

        網(wǎng)絡(luò)數(shù)據(jù)位置的關(guān)聯(lián)度挖掘結(jié)果,能夠利用計(jì)算大數(shù)據(jù)傳輸信道的質(zhì)心得到,把大數(shù)據(jù)集合X與Y傳輸信道的質(zhì)心擬定成c1與c2,兩種質(zhì)心之間的距離是|c1c2|,下面通過圖1來對大數(shù)據(jù)位置關(guān)聯(lián)度的挖掘原理進(jìn)行描述。

        圖1 大數(shù)據(jù)位置關(guān)聯(lián)度挖掘原理

        (7)

        網(wǎng)絡(luò)大數(shù)據(jù)方向關(guān)聯(lián)度即指大數(shù)據(jù)集合X與Y傳輸方向之間的角度(s1,s2),其余弦值能夠通過公式描述成

        (8)

        通過上式能夠看出,大數(shù)據(jù)集合X與Y傳輸方向之間存在的角度(s1,s2),如果角度cos(s1,s2)越大,(s1,s2)值就會越小。在(s1,s2)超過180度之后,cos(s1,s2)值就會變成負(fù)數(shù)。為了免除大數(shù)據(jù)位置關(guān)聯(lián)度挖掘結(jié)果,對大數(shù)據(jù)方向關(guān)聯(lián)度挖掘結(jié)果造成的干擾,所提網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法利用[1-cos(s1,s2)]的正弦值來描述方法,取代傳統(tǒng)[1-cos2(s1,s2)]的正弦值描述方法,使大數(shù)據(jù)方向關(guān)聯(lián)度被精確的挖掘出來。

        基于上述方法,把大數(shù)據(jù)方向關(guān)聯(lián)度的挖掘結(jié)果擬定成sim(dist),對大數(shù)據(jù)結(jié)合X與Y傳輸方向的平均值avg(|s1|,|s2|),進(jìn)行加成計(jì)算,就會出現(xiàn):

        sim(dist)=avg(|s1|,|s2|)[1-cos(s1,s2)]

        (9)

        把上述式(6)、(7)與(8)根據(jù)式(4)給出的挖掘樣本s條件進(jìn)行聚類,確保最后的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。通過F來表述挖掘樣本s的挖掘效率,那么,F(xiàn)s就能夠表示成大數(shù)據(jù)挖掘聚類,即本文方法的集成挖掘結(jié)果為

        (10)

        式中,F(xiàn)j為大數(shù)據(jù)的特征、位置與方向同時(shí)出現(xiàn)的概率,F(xiàn)max為大數(shù)據(jù)特征、位置與方向關(guān)聯(lián)度內(nèi)的最大值,N為未進(jìn)行挖掘工作前的大數(shù)據(jù)樣本總量,Ns為挖掘出的數(shù)據(jù)特征、位置與方向的總量。

        根據(jù)以上步驟,利用有監(jiān)督與無監(jiān)督深度學(xué)習(xí)間的機(jī)器學(xué)習(xí),組成半監(jiān)督深度學(xué)習(xí)訓(xùn)練標(biāo)記樣本,利用支持向量數(shù)據(jù)組建超球體。利用超球體結(jié)合標(biāo)記樣本,組建半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型,采用深度學(xué)習(xí)檢測大數(shù)據(jù),以此為基礎(chǔ)篩選樣本特征詞,利用半監(jiān)督深度學(xué)習(xí)方法訓(xùn)練單分類SVDD模型,實(shí)現(xiàn)檢測大數(shù)據(jù)內(nèi)的信息資源,獲取網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。

        3 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證所提方法的應(yīng)用有效性,設(shè)計(jì)一次仿真。仿真環(huán)境為Intel Celeron Tulatin1GHz CPU和384MB SD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。

        3.1 不同方法的大數(shù)據(jù)集成挖掘精度對比

        為進(jìn)一步驗(yàn)證所提方法的實(shí)用性,將文獻(xiàn)[1]提出的基于事務(wù)映射區(qū)間求交的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法、文獻(xiàn)[2]提出的基于數(shù)值信息抽取的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法以及文獻(xiàn)[3]提出的基于差分隱私的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法作為本次實(shí)驗(yàn)的對照組,不同方法的集成精度對比見表1。

        表1 不同數(shù)據(jù)集中三種方法的大數(shù)據(jù)集成精度對比

        從表1所統(tǒng)計(jì)出的數(shù)據(jù)可知,本文方法與文獻(xiàn)方法相比集成挖掘結(jié)果精度更高,且所提方法在大數(shù)據(jù)集成挖掘過程中應(yīng)用的穩(wěn)定性較高。

        3.2 不同方法的大數(shù)據(jù)集成挖掘耗時(shí)對比

        為進(jìn)一步驗(yàn)證所提方法的性能優(yōu)勢,設(shè)計(jì)本節(jié)實(shí)驗(yàn)。以大數(shù)據(jù)集成挖掘耗時(shí)為指標(biāo),不同方法的大數(shù)據(jù)的集成挖掘耗時(shí)對比測試結(jié)果如圖2。

        圖2 不同方法的耗時(shí)對比測試

        從圖2實(shí)驗(yàn)結(jié)果中可以看出,三種傳統(tǒng)方法隨著待挖掘大數(shù)據(jù)量的增多,其耗時(shí)不斷增加,當(dāng)大數(shù)據(jù)量達(dá)到60TB時(shí),其耗時(shí)最高為6.5ms。相比之下,所提方法的耗時(shí)明顯低于三種傳統(tǒng)方法,在大數(shù)據(jù)量為10TB時(shí),耗時(shí)為2.3ms。當(dāng)大數(shù)據(jù)不斷增多時(shí),該方法的集成挖掘時(shí)間明顯降低,且耗時(shí)水平較為穩(wěn)定。大數(shù)據(jù)達(dá)到最大值60TB時(shí),其耗時(shí)仍然在2ms上下。本次實(shí)驗(yàn)數(shù)據(jù)表明所提方法具有較為理想的應(yīng)用性能,符合目前該領(lǐng)域的實(shí)際應(yīng)用要求。

        4 結(jié)束語

        為集成挖掘不同格式、來源、特點(diǎn)性質(zhì)的大數(shù)據(jù),本文提出一種基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)的集成挖掘方法。通過半監(jiān)督深度學(xué)習(xí)算法對大數(shù)據(jù)實(shí)現(xiàn)集成挖掘。通過仿真驗(yàn)證了所提方法具有較高的大數(shù)據(jù)集成挖掘精度與效率。但隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模不斷擴(kuò)大、計(jì)算量高速增加,易出現(xiàn)數(shù)據(jù)查詢工作超負(fù)荷運(yùn)轉(zhuǎn)問題,因此在現(xiàn)有方法的基礎(chǔ)上,對負(fù)載優(yōu)化模型為日后進(jìn)一步需要研究的課題。

        猜你喜歡
        深度監(jiān)督檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        深度理解一元一次方程
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        深度觀察
        深度觀察
        深度觀察
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        国产欧美亚洲精品第二区首页| 伊人久久大香线蕉av网禁呦| 少妇放荡的呻吟干柴烈火动漫| 欧美一级特黄AAAAAA片在线看| 国产一级片内射在线视频| 免费精品人妻一区二区三区| 亚洲人成电影网站色| 免费无码又爽又刺激网站| 亚洲黄色性生活一级片| 网红尤物泛滥白浆正在播放| 女人18片毛片60分钟| 乱人伦中文无码视频| 国产精品国产三级在线高清观看 | 精品日韩亚洲av无码| 国产亚洲精品久久久久久| 中文字幕巨乱亚洲| 亚洲精品女人天堂av麻| 麻豆国产精品久久人妻| 亚洲欧美日韩精品久久亚洲区| 99精品国产第一福利网站| 日本一区二区三级免费| 国产激情无码视频在线播放性色| 永久免费的av在线电影网无码| 尤物AV无码色AV无码麻豆| 蕾丝女同一区二区三区| 国产又爽又大又黄a片| 国产精品亚洲五月天高清| av网页在线免费观看| 亚洲色图三级在线观看| 日本在线看片免费人成视频1000| 亚洲精品乱码久久久久久麻豆不卡| 国产av午夜精品一区二区入口| 极品少妇xxxx精品少妇偷拍 | 国产在线手机视频| 免费av在线视频播放| 老鲁夜夜老鲁| 久久久久久免费毛片精品| 人妻无码一区二区19P| 全亚洲高清视频在线观看| 国产一区二区三区四区五区加勒比| 另类一区二区三区|