時鎮(zhèn)軍
中國移動通信集團江蘇有限公司
近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和用戶規(guī)模的快速擴大,在巨大的市場規(guī)模和非法利益的驅(qū)使下,網(wǎng)絡(luò)不良信息泛濫。據(jù)統(tǒng)計,互聯(lián)網(wǎng)上12%的網(wǎng)站涉及不良信息,25%的搜索關(guān)鍵詞涉及不良信息,35%的網(wǎng)絡(luò)下載涉及不良信息,每秒鐘2.7 萬用戶正在觀看不良信息。這種現(xiàn)象嚴重敗壞了社會風(fēng)氣,社會各界對此深惡痛絕。
為加強互聯(lián)網(wǎng)不良信息監(jiān)控,構(gòu)建綠色文明的互聯(lián)網(wǎng)絡(luò),我國出臺了一系列法律法規(guī),2006 年頒布了《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,2012 年出臺了《關(guān)于加強網(wǎng)絡(luò)信息保護的決定》《互聯(lián)網(wǎng)信息服務(wù)管理辦法》,2016 年頒布了《中華人民共和國網(wǎng)絡(luò)安全法》。除了需要法律支撐外,在實際網(wǎng)絡(luò)不良信息監(jiān)控中還需要依靠技術(shù)手段。世界各國在互聯(lián)網(wǎng)管理過程中,均是采用“政府立法+技術(shù)過濾”的管制模式。如韓國要求公共上網(wǎng)場所安裝過濾軟件,保證未成年人獲取健康信息,還限制青少年的深夜網(wǎng)絡(luò)游戲行為;芬蘭教育部在全國學(xué)校和圖書館的電腦上安裝攔截軟件,過濾和屏蔽不良網(wǎng)站;芬蘭電信運營商也為家長提供“家長網(wǎng)上監(jiān)控”服務(wù),通過過濾器過濾掉網(wǎng)上不健康的內(nèi)容;澳大利亞的“互聯(lián)網(wǎng)安全計劃”要求網(wǎng)站加強個人認證;英國設(shè)立了專門網(wǎng)站,向家長提供最新的網(wǎng)絡(luò)安全信息。
為嚴厲打擊利用互聯(lián)網(wǎng)傳播不良信息的行為,全國“掃黃打非”工作小組辦公室、國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部每年開展一次“掃黃打非”凈網(wǎng)專項行動。其公告第三項“各互聯(lián)網(wǎng)站、基礎(chǔ)電信運營企業(yè)、網(wǎng)絡(luò)接入服務(wù)企業(yè)立即開展自查自糾,主動清理網(wǎng)上淫穢色情信息或鏈接”。
為落實國家相關(guān)部委及集團總部關(guān)于互聯(lián)網(wǎng)資源信息安全的治理工作考核要求,本文將研究不良信息監(jiān)控平臺及在運營商中的應(yīng)用,實現(xiàn)對不良信息的智能監(jiān)測與管理,解決互聯(lián)網(wǎng)用戶綠色上網(wǎng)的問題。
平臺通過主動爬蟲獲取用戶網(wǎng)絡(luò)中的文字、圖像、視頻數(shù)據(jù),利用計算機視覺相關(guān)技術(shù)(包括文字匹配算法、模式識別、深度學(xué)習(xí)、圖像指紋技術(shù)等)對網(wǎng)絡(luò)中的文本、圖像、視頻進行自動檢測與識別。識別的目標包括:黃色文字、圖像與視頻、暴力恐怖圖像、反動圖像與視頻等。平臺對發(fā)現(xiàn)不良信息內(nèi)容進行預(yù)警,同時為用戶提供掃描檢測報告和相關(guān)的統(tǒng)計分析和管理功能。
圖1 系統(tǒng)架構(gòu)圖
如圖1 所示,系統(tǒng)包括數(shù)據(jù)采集和預(yù)處理、內(nèi)容識別、應(yīng)用四個主要部分。
(1)采集層
通過鏡像、網(wǎng)絡(luò)爬蟲或者數(shù)據(jù)共享接口獲取待處理的文字、圖像、視頻數(shù)據(jù)。網(wǎng)絡(luò)爬蟲采用分布式并行處理方式,負責(zé)對所有的網(wǎng)站按照一定的周期進行深度遍歷與抓取,包括采集任務(wù)調(diào)度、網(wǎng)站內(nèi)容遍歷、視頻下載、集群運行狀態(tài)監(jiān)控等模塊。
(2)預(yù)處理層
通過協(xié)議還原、內(nèi)容解析、內(nèi)容去重等方式對采集的數(shù)據(jù)進行預(yù)處理。
(3)處理層
主要對采集并預(yù)處理后的數(shù)據(jù)進行識別分析,包括文字識別、圖像視頻模式識別、圖像視頻指紋比對識別三個主要功能。
(4)應(yīng)用層
主要實現(xiàn)垃圾彩信監(jiān)測分析功能、不良信息審核功能、黑白名單管理、違規(guī)內(nèi)容告警、系統(tǒng)自學(xué)習(xí)、IP/域名自動歸并、域名模糊封堵、網(wǎng)址位置精確定位、網(wǎng)站內(nèi)容分析識別策略管理。
通過對數(shù)據(jù)進行基礎(chǔ)協(xié)議解析及處理,并按照支持的協(xié)議范圍,對數(shù)據(jù)包中的文本、圖片數(shù)據(jù)進行還原,實現(xiàn)對網(wǎng)絡(luò)出口高速流量的數(shù)據(jù)內(nèi)容爬取,同時解析出關(guān)聯(lián)的URL 域名、訪問URL 的源IP 地址、目的IP 地址、源訪問端口、目的端口、訪問時間等信息以供后續(xù)處理使用。主要包括域名爬蟲、URL 爬蟲、IP 段爬蟲。
域名爬蟲:對添加到系統(tǒng)的網(wǎng)站地址進行主動爬取,并通過自動鏈接提取模塊完成子任務(wù)的提取,從而實現(xiàn)深度遍歷式爬取,支持文本、圖片、視頻、各類附件。
URL 爬蟲:需要與訪問日志端建立連接獲取URL 接口,通過URL 爬蟲對接收的URL 進行掃描獲取內(nèi)容,以供后續(xù)處理使用。
IP 段爬蟲:使用IP+端口號方式爬取網(wǎng)站內(nèi)容。
根據(jù)互聯(lián)網(wǎng)長尾效應(yīng),80%的訪問請求20%的內(nèi)容,因此為了節(jié)約系統(tǒng)資源,需要對采集的數(shù)據(jù)預(yù)處理,去除重復(fù)信息。主要采用方法如下:
URL 級別去重:MD5 比對法、Hash 表配合URL 壓縮法、Bloom Filter 去重。
文件唯一編碼級別的去重:一般通過文件MD5 進行相同文件的去重。
文件特征的去重:使用特征提取和比對技術(shù)進行文件相似性比對去重。
圖像特征由全局描述子和局部描述子兩部分組成。全局描述子用于建立數(shù)據(jù)庫索引,系統(tǒng)利用全局描述子快速地從數(shù)據(jù)庫中篩選出可能相似的圖像,然后利用局部描述子進一步計算檢索圖像與篩選出來的候選圖像的相似度,然后根據(jù)相似度從高到低將結(jié)果返回。
圖2 圖像特征的提取過程圖
關(guān)鍵字過濾:對采集獲取的文本數(shù)據(jù)編碼進行UTF8轉(zhuǎn)碼;對轉(zhuǎn)碼后的文本數(shù)據(jù)進行關(guān)鍵字/關(guān)鍵字組合的搜索;將搜索到的關(guān)鍵字/關(guān)鍵字組合進行標記并計算權(quán)重。
語義分析:對采集獲取的文本數(shù)據(jù)編碼進行UTF8 轉(zhuǎn)碼;對進行轉(zhuǎn)碼后的文本數(shù)據(jù)進行分詞;對分詞結(jié)果進行統(tǒng)計,生成特征向量;將特征向量輸入到文本分類模型進行識別,得到文本是否為不良文本的識別結(jié)果,并將文本傳送至后臺。
第一層(指紋庫):利用視頻圖像指紋庫技術(shù),建立分類指紋庫,包括黃色、反動、暴力、敏感事件等。對于系統(tǒng)采集的數(shù)據(jù),首先進行指紋快速比對,發(fā)現(xiàn)與指紋庫中的數(shù)據(jù)相似的數(shù)據(jù),則直接進行過濾處理。
第二層(特定模式識別庫):對網(wǎng)絡(luò)中不同來源的數(shù)據(jù)進行分級處理,對于一些特殊的圖片網(wǎng)站(如電商、人物寫真),利用模式識別技術(shù),采集相關(guān)的樣本進行針對性的學(xué)習(xí)與訓(xùn)練,在完成指紋識別后,先使用針對性的圖像庫訓(xùn)練模型進行識別。
第三層(機器學(xué)習(xí)):利用基于膚色特征的SVM 分類器進行快速過濾?;ヂ?lián)網(wǎng)中的圖像大部分是正常圖像。膚色特征過濾器能快速過濾那些明顯非黃色的圖像。在不降低識別率的情況下,保證系統(tǒng)能快速識別正常圖像,提升系統(tǒng)的處理性能。
第四層(深度學(xué)習(xí)):利用世界領(lǐng)先的深度學(xué)習(xí)算法,對畫面中的內(nèi)容進行識別,當前系統(tǒng)支持數(shù)萬種特定正常場景的圖像識別。
第五層(人臉檢測):對于泳裝照片的識別,利用人臉識別算法識別出人臉的區(qū)域,同時對人臉周邊區(qū)域的相關(guān)分析,降低系統(tǒng)的誤判。
通過指紋特征提取及指紋比對檢索,實現(xiàn)對圖像視頻的監(jiān)測。圖像視頻匹配的核心問題是將同一目標在不同時間、不同分辨率、不同光照、不同位姿情況下所成的圖像相對應(yīng)。具體為:
(1)構(gòu)建尺度空間:這是一個初始化操作,通過生成尺度空間來創(chuàng)建原始圖像的多層表示,以保證尺度不變性。
(2)LoG 近似:使用Laplacian of Gaussian 能夠很好地找到圖像中的興趣點。
(3)找到關(guān)鍵點:利用近似我們可以找到特征點,它們是Difference of Gaussian 圖像的極大、極小值。
(4)除去不好的特征點:邊界和低亮度區(qū)域是不好的特征點,除去它們以使算法有效和魯棒,在這里使用近似Harris Corner 檢測器。
(5)給特征點賦值一個方向:為每個特征點計算一個方向,依照這個方向做進一步的計算,這個操作有效地取消了方向的影響,使得算法具有旋轉(zhuǎn)不變性。
(6)生成特征:利用位置上的尺度和旋轉(zhuǎn)不變性,能夠生成一個表示,它能幫助唯一地識別特征。通過這個表示,我們可以很容易地識別尋找的特征。
(7)指紋比對檢索:相似的圖像或視頻在經(jīng)過變化后的檢索匹配。
圖3 圖像識別特征生成過程
平臺需支持移動互聯(lián)網(wǎng)GRE、HTTP、WAP1.x、WAP2.0、MMS、SMTP、POP3、FTP、Telnet 等多種協(xié)議的業(yè)務(wù)信息進行采集和識別,并且可以根據(jù)內(nèi)容類型(文字、圖片、音視頻)進行分類識別。
將互聯(lián)網(wǎng)流量中大部分的重復(fù)訪問進行去重處理。經(jīng)過去重分析處理后的記錄在數(shù)據(jù)庫中減少90%,經(jīng)過黃色圖片智能識別系統(tǒng)審核后的嫌疑圖片占總數(shù)的1%左右,低于識別門限的小圖片被自然過濾。
實現(xiàn)對文本、圖片、視頻、不良網(wǎng)址的分析,通過文本內(nèi)容比對、圖片不良特征匹配、視頻指紋特征提取及比對檢索,識別不良信息。
(1)垃圾彩信監(jiān)測分析功能
在WAP不良信息監(jiān)控系統(tǒng)上實現(xiàn)垃圾彩信監(jiān)測分析功能。
(2)不良信息審核功能
系統(tǒng)應(yīng)支持審核配置管理功能,通過關(guān)鍵字匹配、色情圖片識別和樣例圖片識別技術(shù),提取出網(wǎng)站中疑似的內(nèi)容違規(guī)信息,由人工對疑似違規(guī)數(shù)據(jù)進行確認審核。
(3)黑白名單管理
網(wǎng)站黑白名單庫,減少系統(tǒng)資源消耗。
(4)違規(guī)內(nèi)容告警
系統(tǒng)支持發(fā)現(xiàn)違規(guī)內(nèi)容時自動提供網(wǎng)頁方式的告警功能,提示審核人員及時處理。
(5)系統(tǒng)自學(xué)習(xí)
內(nèi)容匹配識別引擎可實現(xiàn)分類內(nèi)容的自動識別匹配,通過人工反饋機制實現(xiàn)匹配算法的學(xué)習(xí)。
(6)IP/域名自動歸并
系統(tǒng)可以自動整理出雷同域名的IP 地址,并提出對IP 地址進行封堵。
(7)域名模糊封堵
系統(tǒng)可以自動歸并出有害域名的最親父節(jié)點,通過與現(xiàn)網(wǎng)已建設(shè)的移動互聯(lián)網(wǎng)惡意程序監(jiān)測封堵系統(tǒng)聯(lián)動,對這個父節(jié)點實施模糊封堵。
(8)網(wǎng)址位置精確定位
通過DNS 逆向解析功能,系統(tǒng)可以精確定位每一個URL的真實IP 地址,并通過查詢得到網(wǎng)站的物理位置。
(9)網(wǎng)站內(nèi)容分析識別
內(nèi)容識別策略包括關(guān)鍵字庫策略、圖像特征庫策略、不良網(wǎng)址庫策略。
基于現(xiàn)有上網(wǎng)日志留存系統(tǒng)或上網(wǎng)導(dǎo)航系統(tǒng),獲取上網(wǎng)話單中的URL 數(shù)據(jù),進行互聯(lián)網(wǎng)頁面爬取,并基于現(xiàn)有系統(tǒng)已匯聚后的彩信流量,從彩信中心近端交換機鏡像流量到新增的彩信專用采集機上,在云平臺資源部署不良監(jiān)測系統(tǒng)進行監(jiān)控。
圖4 不良信息監(jiān)控平臺系統(tǒng)組網(wǎng)圖
(1)DPI 接口
不良信息監(jiān)控系統(tǒng)從DPI 設(shè)備中獲取指定協(xié)議的會話信息、所有被還原的文本、圖片,以及文本與圖片對應(yīng)的會話關(guān)聯(lián)信息。
前端采集機與后臺通過SFTP 進行通信,其中前端采集機為SFTP 客戶端,大區(qū)后臺為SFTP 服務(wù)器端。若傳輸失敗,采集機定時(可配置周期)重傳。包括數(shù)據(jù)傳輸接口、XDR上傳接口、策略同步接口、時鐘同步接口。
(2)時鐘同步接口
支持通過NTP 時鐘同步服務(wù)器從指定平臺同步時鐘。
(3)網(wǎng)管接口
在網(wǎng)絡(luò)管理需求上,系統(tǒng)前端設(shè)備網(wǎng)管接口支持SNMP、FTP 等管理協(xié)議,即數(shù)據(jù)網(wǎng)設(shè)備提供SNMP、FTP、Telnet、數(shù)據(jù)庫接口中的三種網(wǎng)絡(luò)管理接口。
本文針對互聯(lián)網(wǎng)不良信息泛濫的問題,研究了不良信息監(jiān)控平臺及其在運營商的應(yīng)用方案。監(jiān)測系統(tǒng)的總體目標是對用戶管轄范圍內(nèi)的目標網(wǎng)站進行爬蟲搜索監(jiān)測,針對互聯(lián)網(wǎng)網(wǎng)頁,系統(tǒng)能自動爬行頁面所有下級鏈接頁面,標記其中鏈接信息,抓取頁面中的相關(guān)內(nèi)容,并對這些內(nèi)容進行監(jiān)測,包括信息采集和分類管理、信息內(nèi)容(包括文本、圖片等)監(jiān)測和匹配識別,并建立管轄范圍內(nèi)的互聯(lián)網(wǎng)監(jiān)測信息基礎(chǔ)數(shù)據(jù)庫,對違規(guī)信息進行統(tǒng)計分析,為互聯(lián)網(wǎng)信息的監(jiān)測工作提供高效的技術(shù)手段,并為互聯(lián)網(wǎng)信息數(shù)據(jù)進行特定應(yīng)用挖掘提供基礎(chǔ)數(shù)據(jù)。
本文結(jié)合工程實際情況提出不良信息監(jiān)控平臺建設(shè)的功能架構(gòu)和接口方案,為運營商構(gòu)建類似系統(tǒng)提供一些借鑒和參考。