亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)視域下不良信息安全過濾系統(tǒng)的仿真研究

        2021-09-29 07:10:18胡紅
        微型電腦應(yīng)用 2021年9期
        關(guān)鍵詞:分類文本信息

        胡紅

        (西安培華學(xué)院 思政部, 陜西 西安 710125)

        0 引言

        隨著互聯(lián)網(wǎng)同日常生產(chǎn)生活的深入融合,使用計(jì)算機(jī)網(wǎng)絡(luò)的用戶數(shù)量不斷增加,促使大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)中的信息數(shù)據(jù)量呈爆炸式增長(zhǎng),這些信息的傳遞需基于相互連接溝通的網(wǎng)絡(luò)實(shí)現(xiàn),導(dǎo)致網(wǎng)絡(luò)中的數(shù)據(jù)信息量不斷增加,而這些數(shù)據(jù)通常蘊(yùn)含一定的使用價(jià)值,但也存在部分具有一定破壞性的不良信息,網(wǎng)絡(luò)安全穩(wěn)定運(yùn)行過程會(huì)受到不良信息不同程度的破壞。不斷發(fā)展的網(wǎng)絡(luò)業(yè)務(wù)促使針對(duì)不良信息的信息過濾系統(tǒng)成為行業(yè)內(nèi)的一項(xiàng)研究重點(diǎn)[1]。

        1 網(wǎng)絡(luò)不良信息過濾模型的構(gòu)建

        1.1 過濾模型結(jié)構(gòu)

        現(xiàn)有的過濾系統(tǒng)大多針對(duì)網(wǎng)絡(luò)不良網(wǎng)頁,并且以采用基于網(wǎng)頁內(nèi)容的過濾技術(shù)與方法為主,通過實(shí)時(shí)分析理解網(wǎng)頁內(nèi)容實(shí)現(xiàn)對(duì)文檔語義的動(dòng)態(tài)識(shí)別過程,其過濾效果優(yōu)于基于內(nèi)容分級(jí)、關(guān)鍵字、數(shù)據(jù)庫等的過濾方式,但隨著大數(shù)據(jù)時(shí)代的到來,已經(jīng)難以滿足對(duì)不良信息的過濾需求。對(duì)基于內(nèi)容理解的有害信息過濾系統(tǒng)來說,對(duì)網(wǎng)頁內(nèi)容的準(zhǔn)確分類(通過運(yùn)用機(jī)器學(xué)習(xí)方法完成)是關(guān)鍵所在,在模式分類領(lǐng)域中,K最近鄰分類器因具有簡(jiǎn)捷高效的分類功能而得到普遍應(yīng)用,K最近鄰方法(KNN)作為一種常用的分類算法發(fā)展較為成熟,作為一種懶惰學(xué)習(xí)方法,K最近鄰分類方法無需估計(jì)參數(shù)和預(yù)先訓(xùn)練,僅在需分類測(cè)試時(shí)才對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行建模,其分類原理在于從樣本特征空間中選出相鄰的樣本K個(gè),在這些樣本大多同屬一類時(shí),可將該測(cè)試樣本劃分到此類,特別適用于樣本比較大的類域分類過程,分類準(zhǔn)確率在邊界較整齊時(shí)較高。為此本研究使用K最近鄰算法設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)不良信息過濾模型,結(jié)合運(yùn)用改進(jìn)后的KNN分類算法,使分類準(zhǔn)確率及處理速度得到顯著提升,過濾模型的拓?fù)浣Y(jié)構(gòu)示意圖[1],如圖1所示。

        圖1 網(wǎng)絡(luò)不良信息過濾模型架構(gòu)示意圖

        1.2 文本表示

        文本表示模塊的主要步驟為:(1)先完成網(wǎng)頁文本的“去噪”處理并保留有用信息,清除掉包括標(biāo)簽、腳本、非文本對(duì)象等(用于描述網(wǎng)頁信息)在內(nèi)的信息源中存在的噪聲,然后分離出剩余信息的主要特征。(2)完成文本的形式化表示,具體通過向量空間模型(VSM)完成,由(T1,T2,…,Tn)表示經(jīng)去噪處理后的文本用詞條,分別對(duì)應(yīng)特征空間坐標(biāo)系中的一維,再通過使用TF-IDF公式(用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù))完成對(duì)各詞條Ti權(quán)值的計(jì)算,權(quán)值對(duì)應(yīng)特征空間坐標(biāo)系的坐標(biāo)值,由Wi表示權(quán)值,在此基礎(chǔ)上完成文本到n維空間某一向量的映射。采用兩個(gè)向量的夾角余弦完成任意兩個(gè)文本間相似度的計(jì)算[2],具體表達(dá)式如式(1)。

        (1)

        Xi=(Xi1,Xi2,…,Xin)

        Xj=(Xj1,Xj2,…,Xjn)

        1.3 基于KNN算法的分類器

        過濾的實(shí)質(zhì)屬于一個(gè)二值分類問題,需對(duì)正常信息和不良信息進(jìn)行區(qū)分。本研究使用KNN算法完成分類器的設(shè)計(jì),先針對(duì)待測(cè)試文本和訓(xùn)練集,使用VSM中的向量方法對(duì)其中的全部文本進(jìn)行表示,再完成全部文本的距離即相似度的計(jì)算,具體采用距離加權(quán)方法計(jì)算,以保證算法的穩(wěn)定性,接下來在訓(xùn)練集中找到K(K≥1)個(gè)離測(cè)試文本最近的文本。已知有N個(gè)訓(xùn)練樣本,樣本數(shù)量足夠大,由X表示測(cè)試樣本,在奇數(shù)K個(gè)最鄰近文本中,正常信息和不良信息分別對(duì)應(yīng)類標(biāo)值為 1的樣本K1個(gè)、類標(biāo)值為 0的訓(xùn)練樣本K2個(gè),判定測(cè)試樣本的類別表達(dá)式[3]如式(2)。

        (2)

        K=K1+K2

        1.4 用戶需求表示與自適應(yīng)學(xué)習(xí)

        用戶需求表示,主要用于篩選文本,在分析處理各種不同用戶需求的基礎(chǔ)上,從中篩選出主要的用戶需求特征形成一個(gè)準(zhǔn)確的用戶興趣集合。自適應(yīng)學(xué)習(xí),以KNN的分類結(jié)果為依據(jù),向過濾系統(tǒng)提供包括用戶體驗(yàn)的相關(guān)信息,系統(tǒng)據(jù)此完成自適應(yīng)的反饋學(xué)習(xí)(需基于相應(yīng)評(píng)價(jià)機(jī)制)并得到反饋學(xué)習(xí)結(jié)果,據(jù)此可動(dòng)態(tài)調(diào)整距離的權(quán)值與K值,從而使分類的準(zhǔn)確率得到顯著提升。

        1.5 K最近鄰算法的改進(jìn)

        需使訓(xùn)練樣本數(shù)充分大,以保證分類結(jié)果的準(zhǔn)確率,作為懶惰學(xué)習(xí)算法的一種,KNN算法存在前期訓(xùn)練不足的問題,進(jìn)而增加了后續(xù)分類時(shí)的計(jì)算量;此外,KNN算法獲取K值時(shí),需計(jì)算全部樣本的距離,面對(duì)較大的訓(xùn)練數(shù)量會(huì)顯著增加計(jì)算量。因此對(duì)容量較大的樣本集進(jìn)行分類時(shí),可先預(yù)處理對(duì)分類作用影響較小的樣本,為消除可能影響分類的訓(xùn)練樣本,通過優(yōu)化KNN算法得到一種縮減的RKNN(KNN優(yōu)化改進(jìn)后)算法,先對(duì)特定訓(xùn)練樣本周圍的鄰近樣本進(jìn)行判斷,找出其中和自身類別不同的大多數(shù),視為導(dǎo)致錯(cuò)誤分類的邊界樣本,并在最終訓(xùn)練集中去除這部分樣本,以提高分類準(zhǔn)確率。RKNN算法的流程為:在集合A、B(A=B)中分別置入由(x1,x2,…,xn)表示的訓(xùn)練集,對(duì)于xi∈B,若其在A中的K個(gè)最近鄰中的多數(shù)樣本不同于xi,則在B中刪除xi;取i+1,進(jìn)入新一輪學(xué)習(xí),直至i=n時(shí)結(jié)束,以B中的剩余樣本作為最終的訓(xùn)練集[4]。

        2 不良信息安全過濾系統(tǒng)總體設(shè)計(jì)

        傳統(tǒng)的識(shí)別數(shù)據(jù)過濾系統(tǒng)是實(shí)際應(yīng)用較多的網(wǎng)絡(luò)信息過濾系統(tǒng),是在全部接收完信息的基礎(chǔ)上進(jìn)行逐一的排查和比對(duì),完成過濾過程,存在明顯的過濾速度慢且最終過濾效果不佳等問題。為此本研究針對(duì)Web大數(shù)據(jù)動(dòng)態(tài)環(huán)境,基于改進(jìn)后的K最近鄰算法設(shè)計(jì)了一種過濾模型,并構(gòu)建了一種網(wǎng)絡(luò)不良信息安全過濾系統(tǒng),通過網(wǎng)閘式的過濾系統(tǒng)先完成對(duì)控制端的優(yōu)化選擇,為保證不良數(shù)據(jù)信息的過濾質(zhì)量,又進(jìn)一步優(yōu)化了權(quán)值的隨機(jī)自適應(yīng)算法,實(shí)現(xiàn)對(duì)不良信息的全面過濾。系統(tǒng)的數(shù)據(jù)過濾流程,如圖2所示。

        圖2 數(shù)據(jù)過濾流程

        為便于系統(tǒng)的使用、維護(hù)和后續(xù)升級(jí),采用C/S模式構(gòu)建該不良信息安全過濾系統(tǒng)硬件架構(gòu),該過濾系統(tǒng)適用于大量信息數(shù)據(jù)的處理,硬件系統(tǒng)主要分為3部分:前端控制層,作為過濾系統(tǒng)的命令控制中心;運(yùn)行系統(tǒng),主要由數(shù)據(jù)庫、計(jì)算器、數(shù)據(jù)分選器和調(diào)控器等構(gòu)成,主要負(fù)責(zé)分析和過濾網(wǎng)絡(luò)數(shù)據(jù);用戶端,主要負(fù)責(zé)識(shí)別用戶、下達(dá)和傳遞命令等,具體由感知運(yùn)行器、文件驅(qū)動(dòng)器等構(gòu)成。在過濾海量數(shù)據(jù)的同時(shí),需保證常規(guī)數(shù)據(jù)的正常運(yùn)行,完成對(duì)信息的把控,要求系統(tǒng)具有較強(qiáng)的邏輯計(jì)算能力,為此系統(tǒng)通過優(yōu)化選擇前端主機(jī)的控制端,有效提高了系統(tǒng)的過濾能力以及邏輯計(jì)算能力,從而使數(shù)據(jù)信息過濾過程更加精確,確保系統(tǒng)面對(duì)Web大數(shù)據(jù)動(dòng)態(tài)環(huán)境的篩選能力[5]。

        3 不良信息安全過濾系統(tǒng)軟件設(shè)計(jì)

        3.1 網(wǎng)閘式信息過濾功能的實(shí)現(xiàn)

        為有效解決配差計(jì)算失衡的問題,本研究所構(gòu)建的不良信息安全過濾系統(tǒng),在過濾不良數(shù)據(jù)使采用網(wǎng)閘過濾系統(tǒng)實(shí)現(xiàn),實(shí)現(xiàn)了良好的過濾效果,同時(shí)提高了系統(tǒng)的計(jì)算能力。對(duì)不同的數(shù)據(jù)信息類型,通過網(wǎng)閘過濾系統(tǒng)后其符號(hào)型屬性會(huì)發(fā)生改變,不同符號(hào)型屬性選擇,數(shù)據(jù)信息包含文字、圖片、邏輯等,如表1所示。

        表1 數(shù)據(jù)信息同符號(hào)型屬性的對(duì)應(yīng)關(guān)系

        對(duì)于不同的符號(hào)型屬性,先由網(wǎng)閘過濾系統(tǒng)完成有效的分類過程,以實(shí)現(xiàn)對(duì)不同數(shù)據(jù)的精確過濾。假設(shè),系統(tǒng)的過濾閥值由F(u,v)表示,uπ表示信息提取系數(shù)的參照比,WEB網(wǎng)絡(luò)數(shù)據(jù)涵蓋的甄別屬性由f(x,y)表示,基于符號(hào)型屬性建立等式[5]如式(3)。

        (3)

        (4)

        (5)

        圖3 實(shí)際信息的矩陣圖

        圖4 條件矩陣圖

        完成對(duì)比后去除不同于條件矩陣的數(shù)據(jù),進(jìn)而完成一次初級(jí)過濾過程。

        考慮到初級(jí)數(shù)據(jù)過濾無法滿足系統(tǒng)的實(shí)際過濾需求,因此對(duì)閾值進(jìn)行過濾,假設(shè),預(yù)處理的參數(shù)及屬性參數(shù)集合分別由rk-1和RK表示;IZ表示甄別系數(shù);信息的重權(quán)系數(shù)由FYLK表示;符號(hào)型屬性經(jīng)初級(jí)條件矩陣處理后由FY2K表示;其中符合進(jìn)入閾值過濾的由La表示;LB表示屬性中的只讀,過濾閾值前需先完成相應(yīng)的預(yù)處理[6],如式(6)。

        (6)

        然后再對(duì)數(shù)據(jù)進(jìn)行閾值選定即可完成閾值的計(jì)算,假設(shè),yi表示專屬閾值;yj表示專屬辨別系數(shù);調(diào)用的參數(shù)和閾值分別由αi、αj表示,對(duì)應(yīng)粒子集群由K(xi,xj)表示;閾值選定的表達(dá)式如式(7)。

        (7)

        數(shù)據(jù)信息接下來進(jìn)入閾值的過濾,過濾過程表達(dá)式如式8(得到的d值屬于一個(gè)范圍值,以確保有用的數(shù)據(jù)信息不被過濾掉)。

        (8)

        據(jù)此實(shí)現(xiàn)數(shù)據(jù)信息過濾邏輯性的有效提高,自動(dòng)分組過濾后的數(shù)據(jù)信息,在進(jìn)行分類管理時(shí),假設(shè),B表示序列號(hào);D表示可進(jìn)行分組的數(shù)據(jù)集;T表示數(shù)據(jù)識(shí)別屬性;實(shí)際數(shù)據(jù)轉(zhuǎn)換值由Δt表示[7],具體表達(dá)式如式(9)。

        (9)

        (10)

        按照上述操作和處理完成信息的分類過濾。

        3.2 基于隨機(jī)自適應(yīng)算法的過濾能力

        (11)

        (12)

        4 仿真實(shí)驗(yàn)測(cè)試與結(jié)果分析

        采用VC實(shí)現(xiàn)本研究網(wǎng)絡(luò)不良信息過濾模型的構(gòu)建和運(yùn)行,使用向量空間模型表示搜集到的全部樣本,采取不同的K值,對(duì)比分析基于KNN和RKNN兩種算法的過濾模型的性能,查準(zhǔn)率、查全率和耗時(shí)的實(shí)驗(yàn)對(duì)比結(jié)果,如圖5所示。

        圖5 RKNN與KNN的查準(zhǔn)率、查全率和耗時(shí)對(duì)比結(jié)果

        實(shí)驗(yàn)所采用的數(shù)據(jù)如表2所示。

        表2 實(shí)驗(yàn)樣本數(shù)據(jù)

        結(jié)果表明基于RKNN算法的過濾模型的性能更好,準(zhǔn)確率較高,并且K值的選擇較為關(guān)鍵,過小的K值易使分類器受到過分?jǐn)M合(由噪聲導(dǎo)致)的影響,過大的K值易融入進(jìn)遠(yuǎn)離其近鄰的數(shù)據(jù)點(diǎn),實(shí)驗(yàn)表明K取30時(shí)得到了最高的查準(zhǔn)率和查全率,這是因?yàn)镽KNN算法有效優(yōu)化了訓(xùn)練過程,通過刪除部分會(huì)產(chǎn)生分類錯(cuò)誤的樣本實(shí)現(xiàn)了距離計(jì)算量的有效降低。

        接下來設(shè)計(jì)仿真實(shí)驗(yàn)檢測(cè)本研究安全過濾系統(tǒng)信息過濾的有效性,實(shí)驗(yàn)參數(shù)如表3所示。

        表3 實(shí)驗(yàn)參數(shù)表

        SelectNsrsbh=NSRSBH,

        Nsyc_lx=CONVERT(char(6),KPRQ),

        Value_actual=sum(KPJE),

        Value_threshold=0,

        Nsyc_count=1intotemp_fp

        andCONVERT(char(6),

        KPRQ)<=Date_endgroup

        byNSRSBH,CONVERT(char(6),KPRQ)

        該安全過濾系統(tǒng)與傳統(tǒng)方法的魯棒性及過濾誤差的實(shí)驗(yàn)對(duì)比結(jié)果,如圖6所示。

        圖6 仿真試驗(yàn)結(jié)果

        相比傳統(tǒng)方法,本研究所設(shè)計(jì)系統(tǒng)的魯棒性較高,驗(yàn)證了系統(tǒng)的穩(wěn)定性,并且隨著數(shù)據(jù)量的持續(xù)增加,本研究所設(shè)計(jì)系統(tǒng)保持在較低的過濾錯(cuò)誤率,該系統(tǒng)有效實(shí)現(xiàn)了網(wǎng)絡(luò)不良信息的準(zhǔn)確過濾過程,更加適用于實(shí)時(shí)在線網(wǎng)絡(luò)系統(tǒng),具有一定的實(shí)際應(yīng)用價(jià)值。

        5 總結(jié)

        大數(shù)據(jù)時(shí)代的到來使Web環(huán)境越來越復(fù)雜,傳統(tǒng)的信息安全過濾方法普遍存在數(shù)據(jù)動(dòng)蕩的缺陷,而信息的準(zhǔn)確分類是過濾網(wǎng)絡(luò)不良信息的基礎(chǔ),本研究構(gòu)建了一種網(wǎng)絡(luò)不良信息過濾模型,設(shè)計(jì)了一種基于C/S架構(gòu)的網(wǎng)絡(luò)不良信息安全過濾系統(tǒng),進(jìn)一步優(yōu)化了權(quán)值的隨機(jī)自適應(yīng)算法,以確保過濾掉全部的動(dòng)態(tài)大數(shù)據(jù)環(huán)境中的不良數(shù)據(jù)信息,最后采用對(duì)比仿真試驗(yàn)驗(yàn)證本研究不良信息過濾方法及安全過濾系統(tǒng)的有效性,實(shí)驗(yàn)結(jié)果表明該過濾模型明顯提高了系統(tǒng)的處理效率、查準(zhǔn)率和查全率,通過該安全過濾系統(tǒng)實(shí)現(xiàn)了對(duì)不良數(shù)據(jù)信息的有效過濾過程。

        猜你喜歡
        分類文本信息
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        色偷偷av一区二区三区| 国产精品午夜福利天堂| 手机在线观看av资源| 综合色就爱涩涩涩综合婷婷| 最近中文字幕在线mv视频在线| 精品免费一区二区三区在| 亚洲少妇一区二区三区老| 日韩精品无码一区二区三区| 亚洲一区二区三区中文字幂| 国产偷国产偷高清精品 | 人妻熟女中文字幕av| 色爱情人网站| 成av人片一区二区三区久久| 亚洲国产成人资源在线桃色| 久久一区二区av毛片国产| 日本少妇浓毛bbwbbwbbw| 精品久久久久久久无码| 日本一区二区三区在线| 手机久草视频福利在线观看| 极品少妇一区二区三区四区| 免费AV一区二区三区无码| 亚洲免费av第一区第二区| 美女国产毛片a区内射| 美丽的熟妇中文字幕| 久久久久成人精品免费播放| 综合亚洲二区三区四区在线 | 性动态图av无码专区| 香蕉亚洲欧洲在线一区| 国产传媒精品成人自拍| 69一区二三区好的精华| 国产一区二区三区小说| 我的极品小姨在线观看| 亚洲成a人v欧美综合天堂| 久久人人97超碰超国产| 99精品国产av一区二区| 亚洲性无码av中文字幕| 国产内射在线激情一区| 91在线无码精品秘 入口九色十| 亚洲成人福利在线视频| 久久久久亚洲精品无码网址色欲| 亚洲区精选网址|