亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最小哈希的網(wǎng)絡多路虛假數(shù)據(jù)清洗算法

        2023-07-03 08:19:28李柯景
        計算機仿真 2023年5期
        關鍵詞:查全率哈希權(quán)值

        王 影,李柯景

        (1. 長春工業(yè)大學人文信息學院,吉林 長春 130122;2. 長春大學計算機科學技術(shù)學院,吉林 長春 130022)

        1 引言

        計算機網(wǎng)絡與人們的生活密切相關,但由于網(wǎng)絡儲存、計算與通信資源方面的約束,網(wǎng)絡內(nèi)的重要信息很容易被攻擊者竊取[1]。網(wǎng)絡安全極大程度上影響了用戶的正常應用需求,網(wǎng)絡安全不光牽涉通信內(nèi)容的保密性、完備性與可用性,還要考慮是否會被攻擊者注入數(shù)量眾多的虛假數(shù)據(jù)。此類虛假數(shù)據(jù)會讓網(wǎng)絡做出錯誤的預警判斷,耗損網(wǎng)絡生命周期,無法保證自身正常運行。清洗虛假數(shù)據(jù),維護網(wǎng)絡合理運行是當前計算機領域亟需解決的重要問題[2]。

        針對數(shù)據(jù)清洗問題,文獻[3]針對風速-功率散點圖中的離群異常點、0功率堆積點等異常點,分別組建基于密度聚類法、截斷法、斜率控制法、核密度估計法的異常數(shù)據(jù)識別模型,完成數(shù)據(jù)定向清洗。文獻[4]提出一種滑動標準差下的異常數(shù)據(jù)清洗方法。分析異常數(shù)據(jù)來源與分布特性,推導滑動標準差。將滑動標準差曲線上翹當作異常評估準則,達到數(shù)據(jù)定向清洗目的。

        上述兩種方案都能抵抗虛假數(shù)據(jù)的注入攻擊,但無法降低網(wǎng)絡資源損耗,不適用于節(jié)點眾多的網(wǎng)絡多路數(shù)據(jù)。為此,提出一種基于最小哈希的網(wǎng)絡多路虛假數(shù)據(jù)清洗算法。首先將多路數(shù)據(jù)進行編碼轉(zhuǎn)換,確保數(shù)據(jù)完整性,使用最小哈希計算數(shù)據(jù)之間的相似度,明確虛假數(shù)據(jù)與真實數(shù)據(jù)的區(qū)別,最后使用遺傳神經(jīng)網(wǎng)絡方法實現(xiàn)虛假數(shù)據(jù)清洗。

        2 網(wǎng)絡多路數(shù)據(jù)編碼轉(zhuǎn)換

        在完成多路網(wǎng)絡虛假數(shù)據(jù)清洗之前,首先要把網(wǎng)絡多路數(shù)據(jù)進行編碼轉(zhuǎn)換,讓網(wǎng)絡數(shù)據(jù)格式更加統(tǒng)一,增強虛假數(shù)據(jù)清洗準確性。數(shù)據(jù)編碼轉(zhuǎn)換的核心要素是設計編碼對照表,使用代碼關聯(lián)屬性特質(zhì),構(gòu)造映射統(tǒng)計表,實現(xiàn)多路數(shù)據(jù)全局整合。數(shù)據(jù)編碼轉(zhuǎn)換過程參考圖1。

        圖1 數(shù)據(jù)編碼轉(zhuǎn)換過程

        按照過往對不同類型數(shù)據(jù)標準與結(jié)構(gòu)數(shù)據(jù)庫實現(xiàn)對照轉(zhuǎn)換遷移累積的經(jīng)驗,融合專家建議,在著重分析業(yè)務庫數(shù)據(jù)準則與結(jié)構(gòu)前提下,使用機器學習模式逐漸改善規(guī)則缺陷,構(gòu)成可以支撐數(shù)據(jù)視圖展示與數(shù)據(jù)表項擇取的先驗知識庫[5]。

        關于網(wǎng)絡多源及異構(gòu)數(shù)據(jù)庫內(nèi)不同數(shù)據(jù)的編碼準則,為處理類別差異較大的數(shù)據(jù)字段與屬性編碼狀態(tài)各異的問題,采用特征歸納相關性模型完成分類,即探尋和總結(jié)特征相關性特質(zhì),對比結(jié)果在特征上的相近程度。倘若類型集合C=(C1,C2,…,Cn),訓練集D包含m個屬性,把編碼分類定義成編碼類型下的后驗概率問題,設置固定編碼為d,將從屬類型Ci的概率描述成

        (1)

        式中,P(ci)表示類型先驗概率。

        編碼轉(zhuǎn)換特征的挑選是對編碼特征集合從上至下降維的流程[6],通常剔除部分特征組來完成降維目標。按照特征真實偏重情況,對應增添特征項權(quán)重,計算過程為

        W(tik)=tf(tik)*idf(tk)*MI(w,tik)*Dk*

        (2)

        式中,W(tik)代表類Ci內(nèi)第k個特征的權(quán)重值,Dk是類間偏差的均值,MI(w,tik)表示互信息,即第k個特征項與類型間的獨立關系。

        為增強特征網(wǎng)絡多路數(shù)據(jù)的編碼變換精度,使用多維特征匹配手段對低維數(shù)據(jù)編碼特征空間實施匹配[7]。將兩種數(shù)據(jù)通過特征挑選與降維后得到的自身低維特征矢量空間記作

        (3)

        為完善數(shù)據(jù)編碼轉(zhuǎn)換特征匹配正確性,把低關聯(lián)度大于0.6的設定成標準匹配,低關聯(lián)大于0.4且高關聯(lián)大于0.6的設定成基礎匹配,高關聯(lián)小于0.4的為軟性匹配,實現(xiàn)高精度特征編碼轉(zhuǎn)換目標。

        3 基于最小哈希的網(wǎng)絡多路數(shù)據(jù)相似度計算

        最小哈希是衡量兩個集合相關性最常用的方法之一,本文提出基于最小哈希的網(wǎng)絡多路數(shù)據(jù)相似度計算方法,在相似度小于設定閾值狀態(tài)下,認定該數(shù)據(jù)為虛假數(shù)據(jù),完成虛假數(shù)據(jù)篩選。

        (4)

        (5)

        (6)

        最小哈希下網(wǎng)絡多路數(shù)據(jù)相似度推算過程是

        (7)

        利用式(7)就能得到多路網(wǎng)絡數(shù)據(jù)之間的相似度。數(shù)據(jù)間相似度等于設定閾值1則為真實數(shù)據(jù),小于設定閾值1判定此數(shù)據(jù)為虛假數(shù)據(jù),需要對其采取數(shù)據(jù)清洗,從而保證網(wǎng)絡數(shù)據(jù)安全,獲得高質(zhì)量數(shù)據(jù)集。

        4 基于遺傳神經(jīng)網(wǎng)絡的多路虛假數(shù)據(jù)清洗算法

        在明確劃分真實數(shù)據(jù)與虛假數(shù)據(jù)前提下,設計一種基于遺傳神經(jīng)網(wǎng)絡的多路虛假數(shù)據(jù)清洗算法。首先構(gòu)建前饋型神經(jīng)網(wǎng)絡數(shù)據(jù)清洗模型,如圖2所示。

        圖2 前饋型神經(jīng)網(wǎng)絡數(shù)據(jù)清洗模型示意圖

        該模型包含輸入、隱含與輸出三個層次,每個層次中均擁有數(shù)量眾多的神經(jīng)元節(jié)點。神經(jīng)元之間由權(quán)值Wij互相連接。各神經(jīng)元節(jié)點都擁有較多的輸入和一個輸出,將其數(shù)學解析式記作

        Oj=f(netj)

        (8)

        netj=∑Wij·Xi-θj

        (9)

        其中,Oj表示某層內(nèi)第j個節(jié)點的輸出值,Wij是上層第i個節(jié)點和目前層第j個節(jié)點的連接權(quán)值,Xi代表上一層節(jié)點i對目前層節(jié)點j的輸入,θj是目前層第j個節(jié)點的臨界值,f(·)是神經(jīng)元激勵函數(shù),通常使用Sigmoid函數(shù),得到

        (10)

        設置一個訓練樣本p,在輸入層輸入樣本,則網(wǎng)絡模型樣本訓練偏差是

        (11)

        其中,dpj表示輸出層第j個節(jié)點的預期輸出,Opj是輸出層中,第j個節(jié)點的真實輸出,假如訓練樣本數(shù)據(jù)集內(nèi)一共包含P′個樣本,那么網(wǎng)絡模型訓練偏差總和為

        (12)

        如果網(wǎng)絡模型擁有p個輸入,q個輸出,那么可以把輸出結(jié)果看作從p維歐式空間至q維歐式空間的非線性映射,此類映射能夠接近隨機的連續(xù)函數(shù)。實施虛假數(shù)據(jù)清洗過程中,輸出層內(nèi)的值是一個待補充值,輸入層是一個和缺失值有關的值,隱含層節(jié)點個數(shù)通常利用實驗來明確。把神經(jīng)網(wǎng)絡的整體權(quán)值替換成矩陣W,就能呈現(xiàn)出神經(jīng)網(wǎng)絡模型對待處理問題的知識儲備情況。經(jīng)過不斷地訓練樣本與修正權(quán)值,讓網(wǎng)絡模型輸出結(jié)果逐步趨近預期值,在網(wǎng)絡輸出實現(xiàn)預期精準度后,再進行網(wǎng)絡收斂。

        遺傳算法是一種在自然擇取與遺傳的全局優(yōu)化條件下的計算方法,使用選擇、交叉與變異三類基礎遺傳算子計算參變量,完成整體最優(yōu)搜尋,是一種可靠的網(wǎng)絡訓練算法,同時也能獲得更好的虛假數(shù)據(jù)清洗結(jié)果。

        把神經(jīng)網(wǎng)絡每個節(jié)點的權(quán)值根據(jù)一定次序進行排列,構(gòu)成一條染色體。染色體內(nèi)的基因就是神經(jīng)元權(quán)值。從種群內(nèi)挑選一條染色體u,將染色體內(nèi)的基因輸入至圖2的模型內(nèi)。依次引入訓練樣本,推算網(wǎng)絡偏差總值E,并獲得染色體適應度fu

        (13)

        將遺傳算法運算過程表示為圖3。

        圖3 遺傳算法運算過程

        首先對參變量與種群進行初始化。輸入神經(jīng)網(wǎng)絡的原始拓撲結(jié)構(gòu)是m-n-k,m是輸入層節(jié)點數(shù)值,n是隱含層節(jié)點數(shù)值,輸入種群規(guī)模t=population,交叉概率為Pc,變異概率是Pm。

        遺傳算法調(diào)節(jié)權(quán)值的性能較差,為了防止權(quán)值太小導致算法收斂性能遲緩,運用勻稱分布的任意數(shù)值來完成種群初始化目標,將種群P與染色體選擇概率分別描述成

        P={p1,p2,…,pt}

        (14)

        Si=α*(1-α)i-1

        (15)

        其中,α值通常為0.04,i=1,2,…,t。

        把目前具備的染色體代入到圖2的模型內(nèi),并引入訓練樣本,推算此染色體的偏差總值E、適應度fu,評估網(wǎng)絡偏差能否實現(xiàn)預期的偏差或最高迭代次數(shù),就可以實現(xiàn)終止迭代,反之繼續(xù)迭代,并把每個染色體根據(jù)適應度從大到小進行排列。

        針對染色體v來說,推導它的累積概率qv,將其描述成

        (16)

        反復執(zhí)行上面的選擇、交叉、變異行為,持續(xù)生成全新的子代染色體,直到新一代種群規(guī)模和父代相等,這樣就實現(xiàn)了高精度虛假數(shù)據(jù)清洗全過程,為網(wǎng)絡數(shù)據(jù)的安全操作與應用發(fā)揮關鍵作用。

        5 仿真研究

        分別從查全率、數(shù)據(jù)清洗效率兩方面驗證本文網(wǎng)絡多路虛假數(shù)據(jù)清洗有效性,并與文獻[3]、[4]進行仿真對比。把剔除的虛假數(shù)據(jù)和真實虛假數(shù)據(jù)個數(shù)的比率定義成查全率,查全率是權(quán)衡數(shù)據(jù)清洗方法優(yōu)劣的關鍵指標,查全率越大,表明所檢測的虛假數(shù)據(jù)記錄越多,充分說明了數(shù)據(jù)清洗方法的真實性能。將查全率計算公式寫成

        (17)

        式中,Nt表示剔除的虛假數(shù)據(jù)數(shù)量,N是真實虛假數(shù)據(jù)。

        圖4是本文方法與兩個文獻方法的查全率實驗對比結(jié)果。從圖4可知,三種方法在實驗初期的查全率相差不多,但伴隨數(shù)據(jù)量的持續(xù)增多,本文方法的查全率逐漸變大,并最終趨于穩(wěn)定,維持在95%左右,文獻[3]方法查全率約為82%,文獻[4]查全率控制在75%上下。出現(xiàn)此種現(xiàn)象的原因在于,本文方法采用了最小哈希算法,可以有效計算出網(wǎng)絡多路數(shù)據(jù)之間的相似度,對真實數(shù)據(jù)與虛假數(shù)據(jù)采取有效劃分,極大提高虛假數(shù)據(jù)的查全率。

        圖4 三種方法查全率對比

        圖5是三種方法的虛假數(shù)據(jù)清洗效率對比。從圖5看到,在數(shù)據(jù)量為500時,本文方法虛假數(shù)據(jù)清洗效率略低于兩個文獻方法,但在數(shù)據(jù)量不斷增多情況下,三種方法數(shù)據(jù)清洗效率之間的差別越來越少,最終在數(shù)據(jù)量為1000時,本文方法數(shù)據(jù)清洗效率為最優(yōu),消耗時間最短,時間變化幅度基本趨于平穩(wěn),這也表明了所提方法尤為適用于網(wǎng)絡多路數(shù)據(jù)清洗的應用環(huán)境,在龐大的多路數(shù)據(jù)量狀態(tài)下,依舊能以最快的速度完成虛假數(shù)據(jù)清洗目標,實用性強。

        圖5 三種方法虛假數(shù)據(jù)清洗效率對比

        6 結(jié)論

        網(wǎng)絡多路數(shù)據(jù)具有易被攻擊的特性,為確保數(shù)據(jù)真實性與安全性,提出一種基于最小哈希的網(wǎng)絡多路虛假數(shù)據(jù)清洗算法。通過數(shù)據(jù)編碼轉(zhuǎn)換、相似度計算兩個步驟,了解虛假數(shù)據(jù)屬性特征,構(gòu)建前饋型神經(jīng)網(wǎng)絡數(shù)據(jù)清洗模型,引入遺傳算法進行網(wǎng)絡訓練,完成高效準確的虛假數(shù)據(jù)清洗任務。但在計算時并未考慮算法的收斂性,極易導致算法迭代次數(shù)偏高,在接下來的研究中會對此點加以精進。

        猜你喜歡
        查全率哈希權(quán)值
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        CONTENTS
        海量圖書館檔案信息的快速檢索方法
        基于詞嵌入語義的精準檢索式構(gòu)建方法
        基于權(quán)值動量的RBM加速學習算法研究
        自動化學報(2017年7期)2017-04-18 13:41:02
        基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
        基于維度分解的哈希多維快速流分類算法
        計算機工程(2015年8期)2015-07-03 12:20:04
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
        計算機工程(2014年6期)2014-02-28 01:25:40
        一種基于Bigram二級哈希的中文索引結(jié)構(gòu)
        中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響
        国产午夜精品理论片| 国产精品视频白浆免费视频| 伊人中文字幕亚洲精品乱码| 久久久www免费人成精品| 日韩AV不卡六区七区| 亚欧视频无码在线观看| 综合久久精品亚洲天堂| 热re99久久精品国99热| 人成午夜免费大片| 无码AV无码免费一区二区| 99久久婷婷国产精品网| 性按摩xxxx在线观看| 色欲麻豆国产福利精品| 欧美性受xxxx狂喷水| 国产一区二区精品人妖系列在线 | 可以免费在线看黄的网站| 国产精品久久久精品三级18| 丰满少妇人妻久久精品| 国产免国产免费| 伊人久久亚洲综合影院首页| 亚洲一区二区三区麻豆| 欧美白人战黑吊| 五十路熟妇高熟无码视频| 久久精品国产亚洲AV香蕉吃奶 | 一边摸一边做爽的视频17国产| 久久丫精品国产亚洲av不卡| 亚洲人成人99网站| 中文字幕东京热一区二区人妻少妇| 丰满少妇作爱视频免费观看| 少妇激情av一区二区| 国产精品人成在线观看| 国产视频一区二区在线免费观看| 国产精品国产三级国av在线观看| 亚洲女同精品一区二区久久| 国产农村妇女毛片精品久久麻豆| 一本加勒比hezyo无码专区| 亚洲首页一区任你躁xxxxx| 亚洲一区二区三区99区| 国产精品亚洲av无人区一区香蕉| 亚洲人成色777777老人头| 久久久高清免费视频|