摘要:文章所描述的邊界不良信息屏蔽系統(tǒng)是校園網(wǎng)絡信息安全的重要部分,主要功能是屏蔽網(wǎng)上不良信息,跟蹤用戶的上網(wǎng)行為。系統(tǒng)共分三部分:防火墻不良信息屏蔽部分主要根據(jù)過濾規(guī)則庫對內(nèi)、外網(wǎng)數(shù)據(jù),基于已知的網(wǎng)址(IP)、端口、協(xié)議和關(guān)鍵字等進行屏蔽;檢測和封堵部分主要針對路由器和核心交換機對內(nèi)、外網(wǎng)數(shù)據(jù),基于內(nèi)容進行深度旁路檢測,發(fā)現(xiàn)不良信息進行封堵;數(shù)據(jù)處理中心部分主要是維護特征關(guān)鍵詞信息表,為防火墻規(guī)則庫的升級服務。文章對系統(tǒng)中所涉及的關(guān)鍵技術(shù),如數(shù)據(jù)獲取、內(nèi)容識別、內(nèi)容過濾、匹配技術(shù)、動態(tài)跟蹤技術(shù)等進行了詳細分析。
關(guān)鍵詞:防火墻;不良信息;內(nèi)容過濾;數(shù)據(jù)獲?。黄ヅ浼夹g(shù)
0 引言
校園網(wǎng)絡的建設為教學、科研和學術(shù)交流提供了一個廣闊的平臺,網(wǎng)上豐富的資源極大地方便了廣大教師和學生,促進了教學的改革和教學質(zhì)量的提高。但由于網(wǎng)絡的開放性以及相關(guān)法律不健全、監(jiān)管不得力等多種原因,網(wǎng)絡在提供豐富、有用的信息的同時,也充斥著各種不健康、甚至是有害的信息,因此如何防范這些信息已成為網(wǎng)絡工作者需要研究的重要問題。本文主要針對校園網(wǎng)邊界不良信息的防御,采用防火墻和信息檢測封堵技術(shù),設計了校園網(wǎng)邊界不良信息屏蔽系統(tǒng),以實現(xiàn)對基于邊界的不良信息屏蔽目的。
1 系統(tǒng)結(jié)構(gòu)及功能
網(wǎng)絡不良信息是指互聯(lián)網(wǎng)上出現(xiàn)的違背社會主義精神文明建設要求,違背中華民族優(yōu)良文化傳統(tǒng)與習慣,以及其他違背社會公德等的各類信息。系統(tǒng)根據(jù)用戶定義的過濾和分析策略對網(wǎng)絡數(shù)據(jù)流按不同的協(xié)議、不同的源地址和目標地址、用戶定義的文字內(nèi)容進行分析,并將不良信息屏蔽。
1.1 系統(tǒng)結(jié)構(gòu)
出于對網(wǎng)絡邊界出入帶寬和信息處理速度的考慮,系統(tǒng)分為三部分:防火墻不良信息屏蔽、基于核心交換機不良信息的檢測和封堵、不良信息數(shù)據(jù)處理中心,系統(tǒng)結(jié)構(gòu)如圖1所示。
1.2 系統(tǒng)功能
系統(tǒng)的主要功能是屏蔽不良或不當網(wǎng)站,屏蔽進出校園網(wǎng)的有害信息,跟蹤記錄用戶上網(wǎng)行為。各部分功能如下:
防火墻不良信息屏蔽部分主要根據(jù)過濾規(guī)則庫對外網(wǎng)數(shù)據(jù),基于已知的網(wǎng)址(IP)、端口、協(xié)議和關(guān)鍵字等進行屏蔽。
不良信息的檢測和封堵部分主要針對路由器和核心交換機對內(nèi)、外網(wǎng)數(shù)據(jù),基于內(nèi)容進行深度旁路檢測,發(fā)現(xiàn)不良信息進行封堵。
數(shù)據(jù)處理中心部分主要從因特網(wǎng)獲取不良信息升級資料,建立維護特征關(guān)鍵詞信息表,為內(nèi)容分析提供特征數(shù)據(jù)。同時接受封堵的不良信息數(shù)據(jù)并進行分析和處理,形成不良信息升級信息表,為防火墻規(guī)則庫的升級服務。
2 系統(tǒng)的設計與實現(xiàn)
根據(jù)人們獲取特定信息的過程,大致上可以將信息處理分為這樣幾個步驟:信息獲取階段、信息處理階段、模式匹配階段、信息表示階段、規(guī)則構(gòu)造階段,以及用戶對于敏感信息的評價與反饋階段。本文從這幾個方面對校園網(wǎng)不良信息邊界屏蔽系統(tǒng)進行研究和開發(fā)。
2.1 防火墻不良信息屏蔽實現(xiàn)
由于Internet上存在大量不良信息,這些信息的流入和流出,都將會給系統(tǒng)的安全造成重大危害。本部分采用雙防火墻結(jié)構(gòu),根據(jù)過濾規(guī)則對內(nèi)、外網(wǎng)不良信息實施過濾。它適用于各種網(wǎng)絡通信協(xié)議,例如電子郵件、文件傳輸、WWW、Telnet、News等,可以為提供統(tǒng)一的信息監(jiān)測和過濾服務,能記錄校園網(wǎng)內(nèi)所有機器的活動,具有較高應用價值。各模塊之間的關(guān)系如圖2所示。
防火墻不良信息屏蔽系統(tǒng)由4個模塊組成:網(wǎng)絡數(shù)據(jù)包捕獲偵聽模塊,信息處理模塊,決策支持模塊以及人機界面及行動反應模塊。
網(wǎng)絡數(shù)據(jù)包捕獲偵聽模塊主要負責網(wǎng)絡數(shù)據(jù)包的捕獲工作,所要考慮的主要是捕獲速度問題;
信息預處理模塊主要是根據(jù)系統(tǒng)的需要對捕獲到的信息進行預處理,如協(xié)議解釋、關(guān)鍵詞提取等;
決策支持模塊是整個系統(tǒng)的核心,負責對處理后的信息的不良與否作出決策判斷;
人機界面及行動反應模塊根據(jù)決策的結(jié)果做出相應的處理并做好相關(guān)記錄,它可實時更新一個過濾規(guī)則庫,該庫存放各種過濾規(guī)則,如不良網(wǎng)址數(shù)據(jù)庫、關(guān)鍵詞、動態(tài)分析模板、分級標準、黑白名單等。模塊根據(jù)規(guī)則庫中設定的安全策略規(guī)則,動態(tài)地檢查進出網(wǎng)絡的數(shù)據(jù)包,按照匹配的規(guī)則處理數(shù)據(jù)包。安全策略規(guī)則表中的每一條規(guī)則由一個六元組進行描述:AP=<Sa,Sp,Da,Dp,If,Action>,其中,Sa:Sp為源地址和端口號;Da:Dp為目的地址和端口號;If為流入接口號;Action為處理動作。當一個數(shù)據(jù)包進入防火墻后,系統(tǒng)根據(jù)數(shù)據(jù)包屬性(源地址、源端口號、目的地址、目的端口號)以及(流入接口號),匹配安全策略。一旦匹配成功,系統(tǒng)則根據(jù)匹配的“處理動作”對該數(shù)據(jù)包進行相應的處理,如允許通過、丟棄、網(wǎng)絡地址轉(zhuǎn)換、流向控制轉(zhuǎn)發(fā)等。
2.2 基于核心交換機不良信息的檢測和封堵實現(xiàn)
Internet中傳遞數(shù)據(jù)使用的應用層協(xié)議基本上都是基于面向連接的TCP協(xié)議,如HTTP、FTP、SMTP協(xié)議等?;谶@些應用協(xié)議傳遞的數(shù)據(jù)信息,通常分布在不同的數(shù)據(jù)報中,并且伴有一定的控制信息。不良信息檢測和封堵部分的作用是對防火墻過濾后的數(shù)據(jù)和各子網(wǎng)數(shù)據(jù)(基于核心交換機)基于不同協(xié)議數(shù)據(jù)包內(nèi)容進行深度旁路檢測。主要由捕包還原機和分析封包機組成。物理拓撲結(jié)構(gòu)如圖3所示。
圖3中的核心交換機應具有廣播功能,其目的是讓捕包還原機能夠?qū)⒕W(wǎng)卡工作模式設為雜亂模式,而獲得所有數(shù)據(jù)包,捕包還原機和分析封堵機均應安裝兩塊網(wǎng)卡,其中一塊用于二者互連,傳遞數(shù)據(jù)包信息。系統(tǒng)劃分為3個功能模塊:捕包還原模塊、內(nèi)容分析模塊和封堵模塊。
捕包還原程序運行于捕包還原機上,將出入邊界路由器的數(shù)據(jù)包捕獲,并且還原出正文長度、源地址、目的地址、源端口和正文等信息,發(fā)送給內(nèi)容分析程序模塊。
內(nèi)容分析程序讀取數(shù)據(jù)處理機的特征關(guān)鍵詞信息表的內(nèi)容,生成敏感特征搜索樹和非敏感連接搜索樹,接收捕包還原模塊發(fā)送來的數(shù)據(jù)包還原信息,進行消息碎片聚合,將數(shù)據(jù)包信息以消息流形式傳遞給特征匹配模塊,進行敏感特征搜索樹匹配和非敏感連接搜索樹匹配。如果非敏感連接搜索樹匹配成功,則丟棄該數(shù)據(jù)包信息;如果敏感特征搜索樹匹配成功,即發(fā)現(xiàn)攜帶有敏感信息的數(shù)據(jù)包,立刻通知封堵模塊進行封堵。
封堵程序運行于分析封堵機上,接收內(nèi)容分析模塊發(fā)送的待封堵信息,按照源地址和目的地址發(fā)出一個RST數(shù)據(jù)包,使目的端收到錯誤信息,從而達到切斷連接的目的。
2.3 不良信息數(shù)據(jù)處理中心
各模塊功能如圖5所示。數(shù)據(jù)處理中心可運行在任意PC上,其主要功能一是從因特網(wǎng)獲取不良信息資料,建立維護特征關(guān)鍵詞信息表,為內(nèi)容分析提供特征數(shù)據(jù)。特征關(guān)鍵詞信息表的內(nèi)容主要包括敏感內(nèi)容特征關(guān)鍵詞、敏感URL連接特征碼和非敏感URL連接特征碼等存儲在位于數(shù)據(jù)處理機中的信息表內(nèi)。二是接受封堵的不良信息數(shù)據(jù)并進行分析和處理,形成不良信息升級信息表,為防火墻規(guī)則庫提供升級。
3 關(guān)鍵技術(shù)
不良信息屏蔽技術(shù)實質(zhì)是利用互聯(lián)網(wǎng)內(nèi)容管理技術(shù),禁止或限制用戶訪問不良的互聯(lián)網(wǎng)信息,從而為廣大師生提供健康、安全、文明的網(wǎng)絡環(huán)境和內(nèi)容。
目前,由于音頻、視頻識別、過濾技術(shù)還不是十分成熟,不良信息屏蔽技術(shù)產(chǎn)品一般主要采取網(wǎng)址過濾、關(guān)鍵詞過濾、語義分析過濾和圖像過濾等技術(shù)手段。涉及到的關(guān)鍵技術(shù)主要包括數(shù)據(jù)獲取、內(nèi)容識別、內(nèi)容過濾、匹配技術(shù)、動態(tài)跟蹤技術(shù)等技術(shù)。
(1)數(shù)據(jù)獲取技術(shù)
數(shù)據(jù)獲取指采用旁路或串聯(lián)方式捕獲網(wǎng)絡上的數(shù)據(jù)包,并對這些數(shù)據(jù)包按照TCP/IP的標準進行重組和剖析。旁路式指通過鏡像或旁路偵聽方式獲取數(shù)據(jù),其特點是獲取的內(nèi)容僅限于進出本地網(wǎng)絡的數(shù)據(jù)流,不會對網(wǎng)絡造成額外流量,對網(wǎng)絡運行不存在影響和風險。串聯(lián)式指以代理的方式串聯(lián)在網(wǎng)絡出入口,分析網(wǎng)絡數(shù)據(jù)流中包含的數(shù)據(jù)包,對數(shù)據(jù)包頭中的IP地址、URL、文件名等進行分析判斷。
(2)內(nèi)容識別技術(shù)
內(nèi)容識別是指對獲取的網(wǎng)絡信息內(nèi)容進行識別、判斷、分類,確定其是否為所需要的目標內(nèi)容,識別的準確度和速度是其中的重要指標。內(nèi)容識別的對象主要有文本、圖像、音頻、視頻等。
(3)內(nèi)容過濾技術(shù)
內(nèi)容過濾主要是針對TCP、UDP的上層協(xié)議的信息內(nèi)容進行處理,且內(nèi)容主要是明文或偽明文,如base64編碼、壓縮等。目前對加密后的信息進行內(nèi)容過濾還有相當?shù)碾y度。內(nèi)容過濾的實現(xiàn)方式主要包括網(wǎng)址過濾、關(guān)鍵詞過濾、語義分析過濾等。
(4)匹配技術(shù)
當用戶要訪問網(wǎng)絡信息文檔時,過濾系統(tǒng)會運用相應的匹配算法比較需求模板與信息文檔。一般采用關(guān)鍵詞、規(guī)則或分類的方法描述用戶的信息需求,描述方法不同,匹配算法也不同。例如采用關(guān)鍵詞描述的系統(tǒng),適合用布爾模型、向量空間模型或概率模型進行匹配。采用分類描述的系統(tǒng),可以用自動分類的方法如TFIDF分類器和Bayes分類器等進行匹配。
(5)動態(tài)跟蹤技術(shù)
動態(tài)跟蹤技術(shù)利用服務器日志或者專門的程序記錄下用戶訪問網(wǎng)絡的情況,包括訪問時間、網(wǎng)頁流量、出錯情況、屏幕快照、過濾原因、網(wǎng)頁所屬類目、關(guān)鍵詞等內(nèi)容,它可以作為系統(tǒng)和管理員監(jiān)測用戶行為、記錄網(wǎng)絡使用情況和改進過濾方法的依據(jù)。
(6)不同的協(xié)議信息服務過濾方法
網(wǎng)絡使用不同傳輸協(xié)議實現(xiàn)多種信息服務,對于不同的協(xié)議要結(jié)合不同的信息過濾方法,如表1所示。
4 結(jié)束語
不良信息屏蔽技術(shù)是網(wǎng)絡研究的重要課題。沒有很好的安全機制及措施,網(wǎng)絡很難抵御有害信息的侵蝕,同時帶來無窮的后患。本文所設計的系統(tǒng)是實時校園網(wǎng)邊界不良信息屏蔽工具,通過兩層屏蔽防護機制,為管理人員提供了一種校園網(wǎng)入口不良信息入侵和向外擴散的有效屏蔽手段,能有效地保證網(wǎng)絡上傳播內(nèi)容的安全性。同時該系統(tǒng)能記錄校園網(wǎng)內(nèi)所有機器的活動,因此可以控制校園網(wǎng)的網(wǎng)絡信息安全,保證該網(wǎng)絡中沒有人員危害網(wǎng)絡的行為和重要信息失控,并對防止保密信息的泄漏和不良信息的取證也能起到一定的作用。