亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種不良域名快速核驗方法的研究

        2022-10-20 09:09:00尚秋明王利軍鄧桂英趙彤張立坤
        電子技術(shù)應(yīng)用 2022年10期
        關(guān)鍵詞:文本模型

        尚秋明,王利軍,鄧桂英,趙彤,張立坤

        (中國互聯(lián)網(wǎng)絡(luò)信息中心 技術(shù)研發(fā)部,北京 100190)

        0 引言

        隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)賭博、淫穢色情等不良信息的傳播越來越泛濫,對我國網(wǎng)民尤其是未成年網(wǎng)民的生活及學(xué)習(xí)產(chǎn)生十分不良的影響[1]。網(wǎng)絡(luò)賭博、淫穢色情等網(wǎng)絡(luò)不良信息一直是我國凈化網(wǎng)絡(luò)環(huán)境重點打擊的內(nèi)容。域名是網(wǎng)絡(luò)信息的主要訪問入口,通過技術(shù)手段對網(wǎng)絡(luò)不良信息進行檢測,進而對相關(guān)域名進行過濾封堵是不良信息治理的重要保障。隨著5G 時代的到來,域名不良應(yīng)用空間不再局限于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)站,網(wǎng)絡(luò)直播、APP、微信群等新型互聯(lián)網(wǎng)應(yīng)用不斷涌現(xiàn),進一步加快不良信息的傳播速度和增長規(guī)模,管控難度增加,安全問題更加嚴(yán)峻,不良域名的實時檢測和處置需求進一步提高。

        現(xiàn)有不良域名的檢測識別多是基于域名相關(guān)信息,包括注冊信息、DNS 解析服務(wù)器、網(wǎng)站IP 歸屬地等,結(jié)合不良域名黑白名單,利用機器學(xué)習(xí)預(yù)測模型,實現(xiàn)對域名不良程度進行判定。該方法的前提是不良域名之間存在若干相關(guān)性。由于域名的注冊成本較低且可選注冊的頂級域名類型超過1 000個,借助于大量的域名托管服務(wù)商和云服務(wù)商,域名注冊者可通過打破不良域名之間關(guān)聯(lián)關(guān)系,實現(xiàn)逃避此類檢測算法的目的。同時該方法的域名不良判定結(jié)果仍需大量的人工檢驗工作,以便開展相關(guān)處置工作。

        此外,還有根據(jù)網(wǎng)頁DOM 相關(guān)結(jié)構(gòu)進行相似性判定,同時存在判斷結(jié)果不準(zhǔn)確,處置前需要人工一一核驗的工作投入問題[2]。在利用文本相似性進行判定方面,隨著網(wǎng)絡(luò)信息指數(shù)級地增長,敏感詞越發(fā)多變,要求敏感詞庫涵蓋周全且不斷更新十分不現(xiàn)實,現(xiàn)有的文本過濾篩查機制準(zhǔn)確率也相應(yīng)下降[3-5]。在利用圖片相似性進行判定方面,隨著圖片樣本空間的增大,不良圖片因其海量規(guī)模、形式多樣、隱蔽性越來越強等特點,現(xiàn)有的圖片相似性算法出現(xiàn)誤判、錯判、無法判定等現(xiàn)象,局限性越來越大,且事后需要大量人工輔助糾正,泛化能力較差,可靠性不高[6]。

        以上檢測識別方法都可識別實現(xiàn)對不良域名網(wǎng)頁內(nèi)容的自動識別、截圖取證與判定,進而加快不良域名人工核驗認(rèn)定的速度。但是,根據(jù)日常不良域名認(rèn)定處置經(jīng)驗,大量網(wǎng)絡(luò)賭博、淫穢色情等不良域名的網(wǎng)頁內(nèi)容存在高度相似性。不良域名網(wǎng)站運營者多采用注冊大量域名的方式來部署同一套網(wǎng)站代碼的方式,變相規(guī)避域名被封。

        本文根據(jù)大量不良域名內(nèi)容高度相似性特點,提出一種針對“涉黃”“涉賭”兩類網(wǎng)站快速發(fā)現(xiàn)和處置的系統(tǒng)解決方案,該方案利用圖像相似性聚類和相似性搜索等技術(shù),大幅提升不良域名人工審核工作效率,可實現(xiàn)不良域名及時判定及處置的工作目標(biāo)。結(jié)果表明,該系統(tǒng)對于全網(wǎng)的不良域名應(yīng)用實現(xiàn)常規(guī)監(jiān)測,快速發(fā)現(xiàn)、精準(zhǔn)識別、高效率處置有很好的效果。

        1 實施數(shù)據(jù)集與環(huán)境

        1.1 數(shù)據(jù)集

        實施數(shù)據(jù)集全部為主動探測數(shù)據(jù),是指通過對頂級域的區(qū)文件解析獲取到的域名列表。包含“.CN”域名和151 個通用頂級域(其中.COM 域名數(shù)量超過1.4億,.NET域名1 300 多萬個等)共計2 億多域名。

        1.2 實施環(huán)境

        本方案實施環(huán)境如表1 所示。

        表1 實施環(huán)境

        2 模型設(shè)計

        2.1 整體設(shè)計

        圖1 為提供一種不良域名核驗應(yīng)用場景示意圖,在圖1 所示場景中,互聯(lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺中存儲了已確認(rèn)不良域名、注冊數(shù)據(jù)、DNS 數(shù)據(jù)(如DNS 解析服務(wù)器)、網(wǎng)站IP 歸屬地、域名黑名單等域名相關(guān)信息?;ヂ?lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺通過接口連接有不良域名處置系統(tǒng),該不良域名處置系統(tǒng)用于對不良域名進行域名停止解析、域名刪除、網(wǎng)站停止訪問、網(wǎng)站內(nèi)容清理等處置操作?;ヂ?lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺連接至相關(guān)應(yīng)用(如不良數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計、疑似不良域名應(yīng)用識別等),對不良域名的相關(guān)信息進行統(tǒng)計分析或者對域名進行進一步識別。

        本模型設(shè)計思路為:

        (1)通過篩選規(guī)則快速篩選出疑似不良域名,完成已有頂級域的大范圍全域檢測和快速篩選。將新注冊域名放在后續(xù)黃賭識別的優(yōu)先隊列,可以提高檢測效率,有效降低延遲,便于及時發(fā)現(xiàn)將新注冊域名應(yīng)用于不良網(wǎng)站的情況。

        (2)將疑似不良域名對應(yīng)的網(wǎng)站截屏圖像作為檢索項,在已人工確認(rèn)的不良網(wǎng)頁截圖庫中進行相似性搜索,若搜索命中,則將最相似網(wǎng)頁截圖的域名不良分?jǐn)?shù)作為該域名的不良相似度分?jǐn)?shù),將該域名不良類型作為該域名的不良類型,無需人工判定。

        (3)對于在不良域名網(wǎng)頁截圖庫中未搜索到匹配項或圖片重合度未達到閾值的域名,按照不良域名人工審核時間間隔,進行網(wǎng)頁截圖的智能識別(包含文本識別、圖像識別),并分別計算色情疑似度、賭博疑似度分?jǐn)?shù)。

        (4)根據(jù)日常不良域名認(rèn)定處置經(jīng)驗,大量淫穢色情、網(wǎng)絡(luò)賭博等不良域名的網(wǎng)頁內(nèi)容存在高度相似性,為避免人工判定過程的大量重復(fù)勞動,利用圖像相似性聚類和相似性搜索技術(shù),將高相似網(wǎng)頁圖像自動歸類,推送給人工進一步判定。審核人員參照步驟(3)智能識別結(jié)果,對網(wǎng)頁圖像聚類結(jié)果每個分類進行不良類型的批量標(biāo)識,即一個不良域名標(biāo)識即全類標(biāo)識。

        下面將進行每個步驟的詳細闡述。

        2.2 疑似域名快速篩查

        疑似域名快速篩查指利用大數(shù)據(jù)技術(shù)對域名對應(yīng)網(wǎng)站數(shù)據(jù)(網(wǎng)站A 記錄、網(wǎng)頁DOM 結(jié)構(gòu)、網(wǎng)頁文本內(nèi)容等)進行特征提取及分析,根據(jù)規(guī)則篩選出涉黃、涉賭疑似域名列表。

        疑似域名快速篩查過程如圖2 所示,包含如下主要步驟:

        (1)通過解析區(qū)文件,獲取“.COM”“.NET”等通用頂級域(gTLD)域名列表,以及“.CN”等國家域名的域名列表。

        (2)采用分布式數(shù)據(jù)采集系統(tǒng)遍歷所有域名,針對域名或者域名變種(加上www.前綴),按照具備A 記錄、80端口已開通、網(wǎng)站為中或英文網(wǎng)站等規(guī)則進行快速篩查,將符合篩選條件送入篩選域名列表。

        (3)對網(wǎng)站內(nèi)容進行自動化采集、截屏取證、清洗和預(yù)處理(將域名網(wǎng)站對應(yīng)的截圖保存在圖片庫中;對網(wǎng)站文本內(nèi)容進行清洗和預(yù)處理,剔除HTML、JavaScript腳本、特殊字符、亂碼和停用詞等內(nèi)容,對漢字進行繁簡轉(zhuǎn)換以及分詞處理,將清洗后的文本內(nèi)容存入文本庫中),將包括有關(guān)網(wǎng)絡(luò)賭博、淫穢色情關(guān)鍵詞的網(wǎng)頁域名定義為疑似不良域名。

        (4)獲取疑似域名IP 解析歸屬地、ICP 備案信息、域名DNS 解析信息、域名注冊人等信息并保存,以供后續(xù)數(shù)據(jù)關(guān)聯(lián)分析。

        通過疑似域名快速篩查,完成已有頂級域的大范圍全域檢測及快速篩選,同時,基于新注冊域名的近實時的檢測,一方面可避免大范圍的爬網(wǎng),提高檢測效率;另一方面,可有效降低發(fā)現(xiàn)延遲,避免不良網(wǎng)站帶來的惡劣影響。

        2.3 不良域名圖像庫相似性檢索

        不良網(wǎng)頁截圖庫相似性檢索是指將新采集的截屏圖像文件作為檢索項,在已人工確認(rèn)的不良網(wǎng)頁截圖庫中進行相似性搜索,若搜索命中,則將最相似網(wǎng)頁截圖的域名不良分?jǐn)?shù)作為該域名的不良相似度分?jǐn)?shù),將該域名不良類型作為該域名的不良類型,無需人工判定。

        圖像相似性檢索框架如圖3 所示。

        (1)離線處理過程。首先遍歷已取證域名網(wǎng)頁截圖庫,對圖像庫中每個圖像進行特征提取,將提取的所有特征進行量化處理,創(chuàng)建多維倒排索引。

        (2)在線處理過程。對疑似不良域名網(wǎng)頁截圖進行特征提取,經(jīng)過有序量化處理及多維倒排索引后,通過圖像相似性匹配算法(近似RANSAC 算法),將疑似不良域名網(wǎng)頁截圖的特征與已取證不良域名網(wǎng)頁截圖特征庫中的特征元數(shù)據(jù)進行相似性匹配,若滿足條件(相似度閾值以上),則按照相似度數(shù)值大小返回檢索結(jié)果。

        2.4 疑似域名智能識別

        對于在不良域名網(wǎng)頁截圖庫中未搜索到或圖片重合度未達到預(yù)設(shè)值的截圖,按照不良域名人工審核時間間隔,進行基于網(wǎng)頁截圖內(nèi)容的智能識別(包含文本識別、圖像識別)。

        2.4.1 不良文本識別

        不良文本識別是指篩選域名網(wǎng)頁中滿足和不滿足文本特征值,再根據(jù)篩選出的特征值差異計算閾值的過程。當(dāng)域名文本信息特征值超過閾值時,進行不良信息分類標(biāo)記處理。

        圖4 為本方案的不良文本識別流程,關(guān)鍵詞自動提取和權(quán)值計算主要采用LDA(Latent Dirichlet Allocation)主題模型。其中,Dirichlet 是指一類高維連續(xù)概率分布,是Beta 分布在高維的推廣。LDA 模型包含文檔、主題、詞匯三層結(jié)構(gòu),假設(shè)文檔主題的先驗分布和主題中詞匯的先驗分布均服從于Dirichlet 分布。利用Dirichlet-Multi共軛特性,通過貝葉斯推斷方法得到基于Dirichlet 分布的文檔主題后驗分布和基于Dirichlet 分布的主題詞匯后驗分布,從而根據(jù)文檔與詞匯之間的知識,生成文檔與主題、主題與詞匯的信息,完成關(guān)鍵詞的提取和權(quán)值的計算。

        (1)將不良域名網(wǎng)址爬取網(wǎng)站文字內(nèi)容并進行數(shù)據(jù)清洗和預(yù)處理。

        具體包括:去掉HTML 標(biāo)簽、JavaScript 腳本、特殊字符、亂碼和停用詞,漢字繁簡轉(zhuǎn)換以及分詞處理。通過構(gòu)建詞頻矩陣訓(xùn)練LDA 模型,得到帶權(quán)重的不良關(guān)鍵詞詞典,利用AC 自動機算法針對不良關(guān)鍵詞進行高效匹配。

        (2)統(tǒng)計文本集單詞次數(shù)和文本集詞總量,計算文本集單詞平均詞頻。

        設(shè)文本集第i 個單詞次數(shù)為Ni(i 為T 特征項的維數(shù),i=1,2,3,…,N),計算文本集詞總量ΣNi(i=1,2,3,…,N),計算文本集單詞平均詞頻f(Ti,x)=ΣNi/N。

        (3)確定關(guān)鍵詞集。

        選擇出現(xiàn)次數(shù)大于文本集中單詞出現(xiàn)次數(shù)的數(shù)學(xué)期望值的單詞作為關(guān)鍵詞,即遍歷文本集T,若Ni≥f(Ti,x),將該單詞加入關(guān)鍵詞表K(Kj(j=1,2,…,M)為關(guān)鍵詞集中的關(guān)鍵詞);否則,放棄該單詞。

        (4)計算關(guān)鍵詞集的平均權(quán)重。

        ΣNj為關(guān)鍵詞集K 中所有單詞權(quán)值之和,則關(guān)鍵詞集的平均權(quán)重=ΣNj/M。

        (5)計算域名不良得分。

        對過濾出的關(guān)鍵詞去重后個數(shù)大于等于7 個的,取關(guān)鍵詞去重權(quán)值的平均值作為文檔不良度得分;對個數(shù)小于7的,取關(guān)鍵詞去重后權(quán)值平均值×關(guān)鍵詞去重后個數(shù)/7 作為文檔不良度得分,公式表示為:

        2.4.2 不良圖像識別

        相對于網(wǎng)頁文本內(nèi)容,網(wǎng)頁圖像能承載更多的內(nèi)容。如何通過圖像識別算法來對網(wǎng)頁內(nèi)容進行不良識別是不良域名發(fā)現(xiàn)的關(guān)鍵環(huán)節(jié),集中于涉黃圖像識別及涉賭圖像識別。

        (1)涉黃圖像識別

        網(wǎng)頁圖像涉黃一般是指網(wǎng)頁上的圖像包含暴露身體性器官的圖片。目前,圖像涉黃檢測技術(shù)相對成熟,主要采用深度學(xué)習(xí)技術(shù),由于涉黃圖片目標(biāo)明確,比較容易檢測。

        深度學(xué)習(xí)技術(shù)基于人工神經(jīng)網(wǎng)絡(luò),屬于機器學(xué)習(xí)的一個新領(lǐng)域,該技術(shù)通過結(jié)合低級特征表達抽象高級屬性類別及特征,可模仿人腦機制解釋數(shù)據(jù),包括文本、圖像及聲音等。目前,深度學(xué)習(xí)類型包含監(jiān)督或非監(jiān)督兩種,前者以卷積神經(jīng)網(wǎng)絡(luò)為代表,后者以深度置信網(wǎng)絡(luò)為代表[7]。深度學(xué)習(xí)方法利用大數(shù)據(jù)的優(yōu)勢,能夠自動學(xué)習(xí)特征表示、高效提取圖像的全局特征和上下文信息。但對于經(jīng)典不良圖像識別存在訓(xùn)練數(shù)據(jù)類型單一、數(shù)據(jù)質(zhì)量不高、圖片誤識率較高等缺點與難題。

        為此,研究者們根據(jù)各自研究目標(biāo)類型的特點,選擇了不同的卷積神經(jīng)網(wǎng)絡(luò)算法對圖片的基礎(chǔ)特征進行提取[8]。Girshick[9]等人提出基于區(qū)域候選的卷積神經(jīng)網(wǎng)絡(luò)R-CNN 用于圖像目標(biāo)檢測,避免了傳統(tǒng)圖像處理中涉及復(fù)雜的目標(biāo)特征,同時在準(zhǔn)確率和速度上得到很大提升。He[10]提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)(在ResNet 設(shè)計殘差模塊)解決了無法構(gòu)建更深網(wǎng)絡(luò)的問題,使得網(wǎng)絡(luò)的深度直至152 層卷積層時最低錯誤率僅為3.57%。王紅君[11]等人采用弱監(jiān)督遷移訓(xùn)練算法訓(xùn)練ResNet 模型,在大規(guī)模復(fù)雜場景下(光照、攝像機視角、存在移動物體、氣候、地貌特征等條件的大幅變化)提取圖像特征,解決了提升精度和魯棒性問題。周忠義[12]在ResNet-50 模型基礎(chǔ)上,通過增加淺層網(wǎng)絡(luò)層到深層網(wǎng)絡(luò)層的多個通路,將具有更強細節(jié)紋理信息的淺層特征和具有更明確語義分類信息的深層特征相結(jié)合,增強了后續(xù)卷積運算的特征信息,分類準(zhǔn)確率達到99.2%。雷景生等[13]以完整圖像作為輸入和輸出,利用Inception 模塊對噪聲圖像進行去噪,使用改進Inception 反卷積模塊將去噪圖像進行還原,有效去除了圖像中存在的高斯噪聲。王丹峰等[14]將Inception 網(wǎng)絡(luò)結(jié)構(gòu)融入檢測網(wǎng)絡(luò)中以提升網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度和檢測精確度,一定程度上提高精確度和檢測速率。

        以上每個算法模型在一定的條件下對涉黃圖像識別判斷均起到一定的識別效果。相比于GoogleNet,Inception3 模型的非對稱結(jié)構(gòu)在減小網(wǎng)絡(luò)計算量方面具備明顯的優(yōu)勢。該模型通過增加非線性激活減小過擬合概率,采用輔助分類結(jié)構(gòu)加速訓(xùn)練過程、提升主分類器效果,且通過一定步長卷積與池化并行的操作有效降低維度。ResNet 模型則針對于隨網(wǎng)絡(luò)加深、準(zhǔn)確率下降的問題,采用Identity Mapping 和Residual Mapping 的設(shè)計,即如果網(wǎng)絡(luò)已經(jīng)到達最優(yōu),繼續(xù)加深網(wǎng)絡(luò)時,Residual Mapping 將趨向于0,僅余Identity Mapping,使網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài)。經(jīng)過對多種模型的試驗對比,考慮算法間適應(yīng)匹配度、提高效率優(yōu)先方面,最終選定Inception3與ResNet50 構(gòu)成的雙模型進行組合預(yù)測。

        在實時圖像檢測識別場景中,圖片不良程度監(jiān)測主要包括以下兩個實施步驟:

        ①提取網(wǎng)頁圖像下載鏈接并依次下載。

        ②依次對每張圖片進行涉黃識別。首先對圖片進行預(yù)處理,主要包括:圖片顏色空間的變換、圖片灰度變換和大小調(diào)整、圖片增強和去噪。預(yù)處理過的圖像經(jīng)由Inception3 與ResNet50 雙模型進行檢測,將兩個模型的綜合打分作為圖片的涉黃度得分。選取3 個最高涉黃度得分的平均值作為域名涉黃分?jǐn)?shù)。實驗證明,該雙模型組合檢測方法在大數(shù)據(jù)量和多復(fù)雜數(shù)據(jù)類型、數(shù)據(jù)清洗手段、遷移學(xué)習(xí)等方面有效地提高了召回率,降低了單一模型帶來的誤識率。

        (2)涉賭圖像識別

        相對于涉黃網(wǎng)頁圖像區(qū)分度高,涉賭網(wǎng)頁特征不突出且不易區(qū)分,針對這種特征,本模型采用文獻[15]中提到的方法,利用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)進行涉賭圖像的識別判定。

        ①收集大量網(wǎng)頁圖像數(shù)據(jù)以構(gòu)造訓(xùn)練算法所需的數(shù)據(jù)集,采用正負樣本的網(wǎng)頁截圖,即涉賭的網(wǎng)頁截圖和正常網(wǎng)頁截圖,利用卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。

        在訓(xùn)練過程中發(fā)現(xiàn),當(dāng)ResNet 網(wǎng)絡(luò)層數(shù)達到足夠深時,在評測集上存在網(wǎng)絡(luò)退化、梯度消失爆炸問題。因此,采用重新構(gòu)造的SE-Resnet 算法(在ResNet 網(wǎng)絡(luò)基礎(chǔ)上進行優(yōu)化,增加壓縮激勵(Squeeze-and-Excitation)模塊),在驗證集上對涉賭網(wǎng)頁進行識別和評測,算法獲得了良好的識別效果。同時,通過在線數(shù)據(jù)增強技術(shù)(如隨機圖像顏色變換、隨機翻轉(zhuǎn)、隨機摳圖等技術(shù))提升數(shù)據(jù)的多樣性和數(shù)據(jù)量及模型的泛化能力。

        ②利用訓(xùn)練涉賭識別模型計算域名涉賭度分?jǐn)?shù)。對于確認(rèn)的不良網(wǎng)頁截圖,存入圖像庫,構(gòu)建圖像相似性搜索庫,供后續(xù)圖像檢索使用。

        2.5 輔助決策處置

        根據(jù)日常不良域名認(rèn)定處置經(jīng)驗,大量網(wǎng)絡(luò)賭博、淫穢色情等不良域名的網(wǎng)頁內(nèi)容存在高度相似性,即不良域名人工審核認(rèn)定存在大量的重復(fù)工作。為避免高相似不良域名重復(fù)認(rèn)定,以便及時對不良域名進行相應(yīng)處置,利用圖像相似性聚類和相似性搜索等技術(shù),將高相似網(wǎng)頁圖像自動歸類,推送給人工進一步判定。

        (1)對于在不良域名網(wǎng)頁截圖庫中未搜索到或圖片重合度未達到預(yù)設(shè)值的截圖,按不良域名人工審核時間間隔,將指定時間段內(nèi)獲取的網(wǎng)頁截圖進行自動歸類后推送給審核人員。

        (2)審核人員參照智能識別計算出的色情疑似度分?jǐn)?shù)、賭博疑似度分?jǐn)?shù),對網(wǎng)頁圖像聚類結(jié)果每個分類進行不良類型的批量標(biāo)識(即一個不良域名標(biāo)識即全類標(biāo)識),同時提供手動篩選機制,將錯誤歸類的個別域名剔除或單獨設(shè)為一類。

        (3)從已確認(rèn)的網(wǎng)頁圖像聚類結(jié)果中選取最靠近聚類中心點的圖像,存入圖像庫,構(gòu)建圖像相似性搜索庫,供后續(xù)圖像檢索使用。隨著圖像庫規(guī)模的增加,圖像相似度搜索結(jié)果將更加精準(zhǔn),將大大提升系統(tǒng)不良判定準(zhǔn)確率和系統(tǒng)自動化率,提升不良域名的人工審核效率。

        (4)考慮到圖像規(guī)模的大小,在實際檢索場景中對于中小規(guī)模圖像庫(圖像數(shù)量為5 萬幅以下)及大規(guī)模圖形庫(圖像數(shù)量為5 萬到上千萬幅)采用不同的處理方式:

        ①中小規(guī)模的最近鄰圖像檢索。當(dāng)圖像數(shù)量為5 萬幅以下時,由于圖像數(shù)目較少,通過比較查詢圖像與圖像庫中每幅圖像之間的距離,返回與查詢圖像最近鄰的圖像集合。

        ②大規(guī)模的近似最近鄰圖像檢索。當(dāng)圖像數(shù)量為5萬到上千萬幅時,考慮到特征的存儲空間和檢索速度兩個因素,采用近似最近鄰檢索策略,返回與查詢圖像最近鄰的圖像集合,同時按采樣時間和命中頻率持續(xù)地對樣本庫的圖片進行更新替換。

        為檢驗準(zhǔn)確率,采用4 萬余張疑似不良域名網(wǎng)頁截圖最終分為150 多類,網(wǎng)頁截圖聚類測試結(jié)果準(zhǔn)確率為99.86%。結(jié)果表明,該方式可大幅提升了不良域名人工核驗認(rèn)定工作效率,有效降低了人工成本,實現(xiàn)了不良域名及時處置。

        3 實驗結(jié)果與分析

        目前,該方法已應(yīng)用于基金“國家互聯(lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)(服務(wù))平臺”項目,并對2 億多的域名進行監(jiān)測采集與判定分析,最終發(fā)現(xiàn)不良域名155 萬個。為驗證本方法的準(zhǔn)確率,對經(jīng)過人工抽樣10 000 個不良域名樣本(淫穢色情和網(wǎng)絡(luò)賭博域名各自5 000 個)進行判定,驗證結(jié)果為機器打分總體準(zhǔn)確率為99.67%,其中淫穢色情類準(zhǔn)確率為99.66%,網(wǎng)絡(luò)賭博類準(zhǔn)確率為99.68%。實驗表明采用本文提出的不良域名快速核驗方法可以有效地識別出涉黃、涉賭網(wǎng)頁類別,大幅提升不良域名的人工審核效率和準(zhǔn)確率,且具有較高的準(zhǔn)確率。

        4 結(jié)論

        本文提出了一種不良域名快速檢驗方法。對于未判定為不良的疑似域名進行后續(xù)跟蹤,定期截取網(wǎng)站主頁進行檢測,一旦潛伏域名啟用后,可及時發(fā)現(xiàn)色賭類域名及非法網(wǎng)站,從而達到大幅度提升色賭類網(wǎng)站的發(fā)現(xiàn)及舉報量的目標(biāo);對于已判定為不良的域名進行挖掘分析,結(jié)合站群信息、DNS 解析數(shù)據(jù)、域名注冊數(shù)據(jù)進行綜合關(guān)聯(lián)分析,為相關(guān)部門提供有價值線索,以發(fā)現(xiàn)及治理違法組織。本模型對于網(wǎng)絡(luò)空間不良域名全方位監(jiān)測,掌握不良域名的濫用程度、分布態(tài)勢及違法域名一體化治理等方面,可發(fā)揮一定效力。

        針對實驗結(jié)果分析過程中發(fā)現(xiàn)的問題,下一步將采用遷移學(xué)習(xí)的方式對模型進行持續(xù)優(yōu)化,提升對特定類型圖片處理的敏感性,改進對攻擊樣本的抵抗效果。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        av天堂中文亚洲官网| 亚洲无码精品免费片| 黑人巨大精品欧美在线观看| 九九视频在线观看视频6| 国产96在线 | 亚洲| 精品的一区二区三区| 久久婷婷综合色一区二区| 欧美黑人又粗又大xxxx| 无码精品a∨在线观看十八禁 | 人人妻人人妻人人片av| 国产亚洲精品成人无码精品网站| 成人偷拍自拍在线视频| 国产精品一区二区三区卡| 久久精品麻豆日日躁夜夜躁| 久久无码高潮喷水| 色婷婷丁香综合激情| 桃色一区一区三区蜜桃视频| 国产精品嫩草99av在线| 亚洲第一网站免费视频| 初尝人妻少妇中文字幕在线| 国产视频一区二区三区在线免费| 天天燥日日燥| 91精品全国免费观看青青| 伊人色综合九久久天天蜜桃 | 中文字幕成人精品久久不卡| 亚洲一区二区三区日本久久九| 中文字幕乱码熟女人妻水蜜桃| 亚洲免费av电影一区二区三区| 精品久久一区二区av| 肉色丝袜足j视频国产| 日韩精品一区二区午夜成人版| 国产在线播放网址| 国语对白三级在线观看| 精品无码av无码专区| 欧美aa大片免费观看视频| 四虎无码精品a∨在线观看 | 中文字幕久久精品波多野结百度| 日韩精品免费在线视频一区| 一本色道久久综合无码人妻| 国产自产精品露脸刺激91在线| 美女射精视频在线观看|