亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的惡意風(fēng)險網(wǎng)站過濾系統(tǒng)

        2020-09-10 07:22:44朱書林李松州
        客聯(lián) 2020年11期
        關(guān)鍵詞:目標(biāo)識別深度學(xué)習(xí)

        朱書林 李松州

        【摘 要】本文基于輕檢測、重檢測與深度學(xué)習(xí)目標(biāo)識別算法,利用嵌入式設(shè)備開發(fā)平臺開發(fā),以設(shè)計一個惡意風(fēng)險網(wǎng)站過濾系統(tǒng)為目標(biāo)進行了一個研究,并進行了測試。實驗結(jié)果表明該系統(tǒng)滿足上述要求并有較好的穩(wěn)定性。

        【關(guān)鍵詞】層次化檢測方法;目標(biāo)識別;深度學(xué)習(xí);網(wǎng)站過濾系統(tǒng)

        Abstract: Based on the algorithm of light detection, heavy detection and deep learning target identification, this paper USES the embedded device development platform to design a malicious risk website filtering system as the target to carry out a study, and carried out a test. The experimental results show that the system satisfies the above requirements and has good stability.

        Keywords: Hierarchical detection method, target recognition, deep learning, website filtering system

        一、層次化檢測方法簡介

        輕檢測

        輕檢測算法需要輕便、快速、盡量準(zhǔn)確,并達到最少數(shù)量的漏報,以達到對巨大輸入進行預(yù)處理和數(shù)據(jù)篩選的作用。針對 A 的每一個 URL,若符合以下任意一個條件,則進入到重檢測,否則丟棄。

        (1)IP 地址曾經(jīng)被惡意網(wǎng)站使用根據(jù)實踐經(jīng)驗,一個曾經(jīng)被用于惡意網(wǎng)站的 IP地址再次被利用做惡意的可能性較大。

        (2)域名注冊信息曾經(jīng)用于注冊過惡意網(wǎng)站同 IP 地址一樣,同樣的域名注冊信息可以用來注冊多個惡意網(wǎng)站。

        (3)域名曾被惡意網(wǎng)站使用過如果域名之前被惡意網(wǎng)站使用過,那么其再次被利用的可能性也比較大。

        (4)與 B 中任意 URL 含有相同的資源鏈接惡意網(wǎng)站在設(shè)計時,為了簡單,其中的圖片等元素經(jīng)常會使用合法網(wǎng)站中的資源鏈接。

        (5)與 B 中任意 URL 的標(biāo)題一致惡意網(wǎng)站為了達到仿冒的目的,一般都會和合法網(wǎng)站具有相同的標(biāo)題。

        (6)含有 B 中某些重要的關(guān)鍵字

        因為惡意網(wǎng)站是仿冒正常的合法網(wǎng)站,所以頁面內(nèi)容一般具有和合法網(wǎng)站一樣的文字內(nèi)容。

        二、黑白名單技術(shù)

        黑白名單的主要作用是,讓GMSC有權(quán)限允許或禁止由特定源點發(fā)起,或到特定目的地的電話。簡單地說,黑名單英語禁止呼叫,白名單允許呼叫。GMSC的判斷標(biāo)準(zhǔn)是預(yù)先在WEM傷配置好的Trunk Group,號馬前綴或?qū)傩缘忍匦浴?/p>

        黑白名單有三個工作模式,黑名單,白名單

        在黑名單模式下,只有設(shè)置為黑名單的配置生效,白名單同理。需要特別說明的是,在黑白模式下,黑名單和白名單的配置都生效,但是白名單的優(yōu)先級高于黑名單,如果在同一個呼叫中,主叫或被叫有一方是白名單,呼叫允許。

        三、深度學(xué)習(xí)模型設(shè)計

        深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

        深度學(xué)習(xí)的概念由Hinton等人于2006年提出。基于深信度網(wǎng)(DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結(jié)構(gòu)。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相對關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。

        深度學(xué)習(xí)是機器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。

        四、實驗過程

        (一)實驗環(huán)境

        1.基于深度學(xué)習(xí)中的深度信念網(wǎng)絡(luò)采用一種無監(jiān)督訓(xùn)練方式使得整個網(wǎng)絡(luò)能以最大概率來生成訓(xùn)練數(shù)據(jù),我們可以使用它來進行數(shù)據(jù)分類。如下:圖一為網(wǎng)絡(luò)結(jié)構(gòu)圖

        通過對比分歧算法逐層訓(xùn)練每個RBM,最終每一層的RBM的參數(shù)集w、o6構(gòu)成DBN網(wǎng)絡(luò)中的所有參數(shù)集,并用來初始化整個深度信念網(wǎng)絡(luò)。預(yù)訓(xùn)練之后,通過在深度信念網(wǎng)絡(luò)頂層疊加分類器,例如反向傳播算法、支持向量機等,使用帶標(biāo)簽的數(shù)據(jù)來對網(wǎng)絡(luò)中參數(shù)進行微調(diào),調(diào)整DBN的判別性能。

        2.使用欠采樣常常會導(dǎo)致丟失一些有用的多數(shù)類樣本信息,而使用過采樣則會增大過分擬合的可能性,充分考慮算法的復(fù)雜性和在整個惡意網(wǎng)站檢測系統(tǒng)的應(yīng)用場景,我們最終選擇使用Borderline-Smote過采樣方法[49]Borderline-Smote是基于Smote算法(Sybthetyc Minority Over-samplingTechnique),此算法是使用過采樣小類樣本來生成合成小類實例。不同于己經(jīng)存在的過采樣方法,Borderline-Smote過采樣方法只富化邊界小類實例(Borderline MinorityExample)。首先我們找到邊界小類實例,然后從邊界小類中生成合成小類實例,并添加到原始訓(xùn)練集中?;贐orderline-Smote DBN的分析模型,通過混合釆用Borderline-Smote1和Borderline-Smote2兩種方法,對數(shù)據(jù)進行采樣生成合成樣本時,先后使用這兩種方法。也即可以生成2s個合成樣本。

        3.惡意網(wǎng)站檢測的基礎(chǔ)也是最重要的一個環(huán)節(jié)就是特征值的提取,特征值的提取將很大程度上決定了惡意網(wǎng)站檢測模型的準(zhǔn)確度。網(wǎng)站頁面在惡意網(wǎng)站識別中的關(guān)鍵特征包括URL(Uniform Resource Locator,統(tǒng)一資源定位符)特征、頁面內(nèi)容特征以及圖像特征,綜合考慮特征的重要程度以及提取效率等因素。

        4.而特征提取則主要分為URL特征提取、HTML特征提取、以及特征向量的預(yù)處理

        1).URL特征提?。?/p>

        URL是網(wǎng)站的唯一定位符,通過在瀏覽器輸入網(wǎng)站URL,用戶可以進入訪問該網(wǎng)站。其擁有統(tǒng)一的傳輸協(xié)議、數(shù)據(jù)格式、資源類型以及語法等?;ヂ?lián)網(wǎng)上所有訪問的圖片、視頻、文章都稱為數(shù)據(jù)資源,每個資源都有唯一的一個URL地址,用戶可以通過對應(yīng)的URL地址找到需要訪問的資源。攻擊者通過在對應(yīng)正規(guī)網(wǎng)站域名上進行操作,構(gòu)造出與正規(guī)網(wǎng)站相似的域名或利用漏洞直接在正常網(wǎng)站地址后添加自己的惡意鏈接,從而誘導(dǎo)網(wǎng)民落入惡意網(wǎng)站。因此我們可以從URL路徑級數(shù)、URL長度、域名是否為IP形式、域名級數(shù)、URL是否使用長詞、URL中是否含有敏感詞、URL中頂級域名出現(xiàn)在異常位置、URL中是否含有端口、URL中是否有“@”符、域名存活時間等方面來進行URL特征提取。

        2)HTML特征提取

        通過深入分析網(wǎng)頁HTML文檔特征、結(jié)構(gòu)特征可以更加精確判斷惡意網(wǎng)站。惡意網(wǎng)站為了更逼真仿冒真實網(wǎng)站,常常會加上真實網(wǎng)站的版權(quán)信息。而網(wǎng)站的版權(quán)所有者和網(wǎng)站是一一對應(yīng)的,通過比對當(dāng)前訪問網(wǎng)站的版權(quán)信息可以判斷是否為惡意網(wǎng)站。如:空鏈接的數(shù)目、外部鏈接數(shù)目、內(nèi)部鏈接數(shù)目、表單數(shù)量、注冊時間、版權(quán)所有者。

        (二)實驗過程

        步驟 1:獲取網(wǎng)站的多維屬性,利用集合對多

        維屬性進行表示。

        ①提取網(wǎng)站首頁超文本標(biāo)記語言 HTML 標(biāo)題、HTML 正文和層疊樣式表 CSS 主題色彩;

        ②對所述 HTML 標(biāo)題和 HTML 正文進行分詞處理,得到單詞向量集合 B={w1,w2…wn},n 為正整數(shù);'

        ③對每一個向量 B 的單詞 wi,統(tǒng)計其在網(wǎng)頁HTML 的 標(biāo) 簽 <a>、<h1>-<h6><title>、<em>、<strong> 中出現(xiàn)的次數(shù)。按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合 B'={w1,w'2…w'm},其中i=0,1…n,m 為正整數(shù),且 m ≤ n;

        ④統(tǒng)計所述 CSS 主題色彩中使用最多的 3 種顏色類別,得到色彩向量描述集合 C,C={c1,c2,c3};

        ⑤獲取屬性值,建立屬性描述集合 S,其中屬性值包括下述中的一項或多項:網(wǎng)站務(wù)器類型、Poweredby 信息(驅(qū)動信息)、腳本語言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)處、外域個數(shù)、內(nèi)域個數(shù)和頁面大小;

        ⑥根據(jù)集合 B'、C 和 S,建立網(wǎng)站多維屬性樣本集合 V,V=B'∪ C ∪ S,其中∪表示并集。

        步驟 2:針對表示多維屬性的集合,進行自編碼特征學(xué)習(xí)。

        ①構(gòu)建三層神經(jīng)網(wǎng)絡(luò) N,其輸入特征數(shù)量等于輸出數(shù)量,且輸入特征數(shù)量等于網(wǎng)站多維屬性集合V 的特征數(shù)量;

        ②用網(wǎng)站多維屬性集合 V 作為三層神經(jīng)網(wǎng)絡(luò) N的輸入值 Input,計算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值 Output;

        ③比較輸入值 Input 與輸出值 Output,計算二者之差是否達到目標(biāo)閾值;如果達到目標(biāo)閾值,則完成學(xué)習(xí),中間隱層節(jié)點向量 V '即為自編碼學(xué)習(xí)結(jié)果;如果沒有達到目閾值,則根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò) N 的參數(shù),重新計算。

        步驟 3:利用自編碼學(xué)習(xí)結(jié)果進行網(wǎng)站聚類學(xué)習(xí),得到用于進行網(wǎng)站分類的支持向量 SVM 構(gòu)建支持向量機 SVM,這里使用向量 V '作為輸入。1014388653驟 1 和步驟 2,得到與該網(wǎng)站對應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后,將與該網(wǎng)站對應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入到步驟 3,得到用于進行網(wǎng)站分類的支持向量機SVM進行網(wǎng)站分類,從而得到網(wǎng)站類別。本方法對于具有惡意特征的惡意網(wǎng)頁,能快速偵測;采用多維屬性描述方式,增加了系統(tǒng)的便利性與通用性;采用機器學(xué)習(xí)的方法且采樣樣本較為廣泛,因此系統(tǒng)具有極強的穩(wěn)定性。

        (三)實驗結(jié)果

        最后我們可以通過層次化檢測方法保證檢測的準(zhǔn)確性,以及極大地提升系統(tǒng)的運行效率。成功用深度學(xué)習(xí)實現(xiàn)了惡意風(fēng)險網(wǎng)站過濾。

        猜你喜歡
        目標(biāo)識別深度學(xué)習(xí)
        渡口水域安全監(jiān)管技術(shù)研究
        中國水運(2016年11期)2017-01-04 12:26:13
        全自動模擬目標(biāo)搜救系統(tǒng)的設(shè)計與實現(xiàn)
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        動態(tài)場景中的視覺目標(biāo)識別方法分析
        基于PC的視覺解決方案在 Delta機器人抓放中的應(yīng)用
        價值工程(2016年32期)2016-12-20 20:36:15
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        亚洲国产美女在线观看| 国产电影无码午夜在线播放| 免费毛片a线观看| 亚洲精品成人网久久久久久| 亚洲va中文字幕欧美不卡| 亚洲天堂av黄色在线观看| 国产av久久久久精东av| 色婷婷久久一区二区三区麻豆| 亚洲成在人线电影天堂色| 久久久久亚洲av无码专区导航| 欧美金发尤物大战黑人| 不卡高清av手机在线观看| 免费在线观看视频专区| 森中文字幕一区二区三区免费| 欧美放荡的少妇| 亚洲一区二区在线| av二区三区在线观看| 午夜视频在线观看视频在线播放| 亚洲日韩一区二区三区| AV无码中文字幕不卡一二三区| 国产精品高清一区二区三区人妖| 国产极品美女高潮无套| 无码国产精品一区二区高潮| 91福利国产在线观一区二区 | 亚洲亚洲人成综合丝袜图片| 97se亚洲国产综合自在线| 在线观看一区二区女同| 国产自拍视频一区在线| 男女猛烈无遮挡免费视频| 美女裸体自慰在线观看| 亚洲国产av自拍精选| 国语对白福利在线观看| 男女性高爱潮免费网站| 久久久国产不卡一区二区| 日本不卡一区二区三区久久精品| 久热国产vs视频在线观看| 国产一区a| h视频在线观看视频在线| 疯狂做受xxxx高潮视频免费| 亚洲精品国产美女久久久| av在线男人的免费天堂|