【摘要】信息過濾作為解決網(wǎng)絡(luò)信息超載問題而發(fā)展起來的技術(shù)與方法,目前主要集中運(yùn)用于不良信息過濾和獲取與用戶需求密切相關(guān)的信息。本文對(duì)信息過濾技術(shù)的分類及應(yīng)用進(jìn)行了研究探討。
【關(guān)鍵詞】信息過濾;技術(shù);應(yīng)用
信息過濾(information filtering,IF)作為解決網(wǎng)絡(luò)信息超載問題而發(fā)展起來的技術(shù)與方法,最初運(yùn)用于新聞和電子郵件過濾,后來被用于各類信息源過濾。目前國內(nèi)外關(guān)于信息過濾的研究主要集中在兩個(gè)方面:一是不良信息過濾,主要目的在于維護(hù)網(wǎng)絡(luò)信息的健康,凈化網(wǎng)絡(luò)環(huán)境;二是獲取相關(guān)信息過濾,過濾掉無用或不相關(guān)的信息,主要目的在于獲取與用戶需求密切相關(guān)的信息。
本文著重探討網(wǎng)上不良信息的過濾,不良信息是一個(gè)主觀的、相對(duì)的概念,同一信息相對(duì)于不同的用戶、不同的監(jiān)管者和不同的環(huán)境條件來說,可能會(huì)有不同的定位。我國自1996年以來,已經(jīng)制定了20多個(gè)涉及互聯(lián)網(wǎng)非法內(nèi)容的法律文件。一般情況下,凡是違背社會(huì)主義精神文明建設(shè)要求,違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會(huì)公德的各類文字、圖片、音視頻信息都可視為不良信息。
1.信息過濾技術(shù)的分類
目前國內(nèi)外的各種不良信息過濾軟件或系統(tǒng),在網(wǎng)頁信息鑒別上主要使用四種過濾技術(shù),即基于因特網(wǎng)內(nèi)容分級(jí)平臺(tái)過濾(PICS)、數(shù)據(jù)庫過濾(IP庫、URL庫)、關(guān)鍵詞過濾以及基于內(nèi)容理解的過濾。
1.1基于因特網(wǎng)內(nèi)容分級(jí)平臺(tái)過濾(PICS)
為了保護(hù)用戶免受網(wǎng)絡(luò)不良信息的侵?jǐn)_, W3C(World Wide Web Consortium)于1995年8月組織當(dāng)時(shí)因特網(wǎng)上的主導(dǎo)力量共同商討制定一套技術(shù)規(guī)范,即因特網(wǎng)內(nèi)容分級(jí)平臺(tái)( platform for Internet content selection,簡稱PICS),它是一種分級(jí)過濾軟件標(biāo)準(zhǔn),為網(wǎng)上信息內(nèi)容的標(biāo)記、分級(jí)提供一個(gè)平臺(tái),使用戶或組織能夠根據(jù)各自認(rèn)同的分級(jí)體系對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行分級(jí),分級(jí)體系(rating system)規(guī)定了分級(jí)的類目、類目的級(jí)別和分級(jí)的標(biāo)準(zhǔn)。
分級(jí)得到被稱為分級(jí)標(biāo)記(content rating)的數(shù)據(jù)集,分級(jí)標(biāo)記產(chǎn)生以后,凡是遵循PICS技術(shù)規(guī)范開發(fā)的軟件都可以對(duì)其進(jìn)行處理。用戶可以通過分級(jí)標(biāo)記了解到分級(jí)機(jī)構(gòu)和分級(jí)體系的情況,從而在使用時(shí)下載合適的過濾系統(tǒng)分級(jí)檔案,并在瀏覽器中設(shè)置不同的向度,在瀏覽網(wǎng)頁時(shí),瀏覽器會(huì)依據(jù)用戶設(shè)定的向度級(jí)別篩選出合適的信息。
利用網(wǎng)頁內(nèi)容分級(jí)法,采取人工分級(jí)方法過濾不良信息,其錯(cuò)誤率相對(duì)較低,并可以準(zhǔn)確地對(duì)圖像、視頻等多媒體信息進(jìn)行準(zhǔn)確分級(jí),尤其是網(wǎng)頁作者能主動(dòng)采用標(biāo)準(zhǔn)的分級(jí)體系分級(jí)時(shí),將對(duì)過濾不良信息、凈化網(wǎng)絡(luò)環(huán)境有較大的推動(dòng)作用。但這與網(wǎng)頁作者希望更多的人瀏覽其網(wǎng)頁的初衷是相違背的,如果網(wǎng)頁作者是惡意地傳播不良信息的話,用戶對(duì)其是無法控制的。
1.2數(shù)據(jù)庫過濾
數(shù)據(jù)庫過濾就是通過對(duì)網(wǎng)上各種信息進(jìn)行分類后,精確地匹配URL和與之對(duì)應(yīng)的頁面內(nèi)容,形成一個(gè)預(yù)分類的網(wǎng)址庫。網(wǎng)址庫有兩種類型的列表,一種為“黑名單”,包括禁止訪問的目標(biāo)網(wǎng)站的URL,另一個(gè)是“白名單”,包括允許訪問的目標(biāo)網(wǎng)站的URL。在用戶訪問網(wǎng)頁時(shí),依據(jù)數(shù)據(jù)庫中的IP地址或URL來判定是否需要過濾掉相應(yīng)的內(nèi)容。數(shù)據(jù)庫必須依賴事先列出的特定網(wǎng)址,對(duì)非法URL的覆蓋程度不高,此外這種方法對(duì)許多寄生在綜合性網(wǎng)站內(nèi)的不良信息也無法過濾。但數(shù)據(jù)庫過濾的過濾速度快,準(zhǔn)確率比較高,且經(jīng)過系統(tǒng)的不斷訓(xùn)練反饋,通過一定時(shí)間一定規(guī)模的積累之后,禁用地址數(shù)據(jù)庫將動(dòng)態(tài)地修改完善,在一定程度上可以滿足用戶要求。
1.3基于關(guān)鍵詞的過濾
基于關(guān)鍵詞的過濾原理簡單,就是給定一系列描述文檔特征的關(guān)鍵字或索引詞,或者時(shí)間、作者姓名等個(gè)性信息。在過濾過程中,它以數(shù)據(jù)流中是否包含關(guān)鍵詞或衡量與關(guān)鍵詞的相似度,判斷是否要過濾掉該頁面。這種方法的性能取決于是否建立精確完備的禁用關(guān)鍵詞庫,它過濾速度快,但往往不考慮上下文的關(guān)聯(lián)性,漏報(bào)、錯(cuò)報(bào)率較高,而且有些信息內(nèi)容的發(fā)布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關(guān)鍵詞的信息過濾機(jī)制不能識(shí)別。
1.4基于內(nèi)容理解的過濾
基于內(nèi)容理解的過濾是指對(duì)獲取的網(wǎng)絡(luò)信息內(nèi)容進(jìn)行識(shí)別、判斷、分類,確定其是否為需要過濾的目標(biāo)內(nèi)容,并對(duì)已確定的目標(biāo)內(nèi)容進(jìn)行過濾等檢測(cè)控制的技術(shù)。它是根據(jù)不良信息的一些內(nèi)容所呈現(xiàn)的特征來進(jìn)行判斷的一種識(shí)別過濾方法?;趦?nèi)容理解的過濾技術(shù)具有適應(yīng)性強(qiáng)、精度高等特點(diǎn),能有效地解決基于數(shù)據(jù)庫和關(guān)鍵詞的過濾技術(shù)不能處理好的問題,包括文本內(nèi)容理解過濾、圖像內(nèi)容分析過濾、視頻內(nèi)容分析過濾和智能混合過濾等。
1.5其他過濾策略
基于提高過濾不良信息的整體性能和運(yùn)行速度考慮,分級(jí)匹配過濾的策略也被提出來。第一級(jí)過濾是基于查詢關(guān)鍵詞的過濾和基于數(shù)據(jù)庫的過濾,這兩種過濾方式過濾速度快,可以快速剔除一部分不良信息,緩解了系統(tǒng)壓力。第二級(jí)過濾是基于內(nèi)容理解的過濾,是主要的過濾環(huán)節(jié)。兩種過濾方式的有機(jī)結(jié)合,在一定程度上提高了過濾的效率和準(zhǔn)確率。
2.信息過濾技術(shù)的應(yīng)用
通過在服務(wù)器端或是計(jì)算機(jī)終端安裝過濾產(chǎn)品,信息過濾技術(shù)已經(jīng)被廣泛地應(yīng)用于網(wǎng)絡(luò)環(huán)境的凈化。公安、安全網(wǎng)絡(luò)監(jiān)察部門廣泛采用各種信息過濾產(chǎn)品,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)接入單位網(wǎng)絡(luò)出口的信息審計(jì)管理。教育部、財(cái)政部、工業(yè)和信息化部、國務(wù)院新聞辦2009年4月下發(fā)通知,為各中小學(xué)校聯(lián)網(wǎng)的計(jì)算機(jī)終端免費(fèi)提供綠色上網(wǎng)過濾軟件,以凈化校園網(wǎng)絡(luò)環(huán)境。中國電信、中國網(wǎng)通等運(yùn)營商也陸續(xù)在全國各地推出綠色上網(wǎng)業(yè)務(wù),為用戶提供不良信息過濾服務(wù),這些舉措都可以為部隊(duì)網(wǎng)絡(luò)管理部門所借鑒。
目前,經(jīng)過公安部審核頒發(fā)銷售許可證的硬件或軟件的信息過濾產(chǎn)品已達(dá)30余種,可以實(shí)現(xiàn)IP過濾、自動(dòng)收集、識(shí)別網(wǎng)上的各種信息,具有智能化地提取摘要和關(guān)鍵詞、建立索引、提供查詢和對(duì)不良信息的報(bào)警等功能?;谥虚g服務(wù)器過濾的網(wǎng)絡(luò)安全管理系統(tǒng)或網(wǎng)關(guān)型產(chǎn)品,對(duì)于部隊(duì)網(wǎng)絡(luò)管理部門來說是一個(gè)良好的選擇,所有的信息都要經(jīng)過它的過濾才能進(jìn)出內(nèi)網(wǎng),可以對(duì)不良信息進(jìn)行有效控制,實(shí)現(xiàn)把內(nèi)網(wǎng)安全管理由被動(dòng)防護(hù)轉(zhuǎn)變?yōu)橹鲃?dòng)檢測(cè),根據(jù)用戶工作性質(zhì)設(shè)置管理策略,對(duì)用戶網(wǎng)上行為進(jìn)行監(jiān)管、審計(jì)、追蹤等,能夠有效提高網(wǎng)絡(luò)信息管理水平。
依靠專門的網(wǎng)絡(luò)信息過濾產(chǎn)品,在隔離不良信息方面雖然能起到明顯的作用,但任何一種過濾策略不可能剔除網(wǎng)上所有的不良信息。創(chuàng)建良好的網(wǎng)絡(luò)環(huán)境,引導(dǎo)和督促使用者養(yǎng)成良好的上網(wǎng)習(xí)慣,加強(qiáng)對(duì)上網(wǎng)行為的嚴(yán)格管理是關(guān)鍵。在現(xiàn)實(shí)生活中,管理者往往只關(guān)注系統(tǒng)是否完備、應(yīng)用是否通暢,以及設(shè)備的檢修維護(hù)等,卻忽視了對(duì)上網(wǎng)人員的行為管理和教育。
上網(wǎng)行為管理,又稱網(wǎng)絡(luò)行為管理,就是對(duì)上網(wǎng)人員在網(wǎng)上進(jìn)行的各種個(gè)人或社會(huì)活動(dòng),進(jìn)行合理的、規(guī)范的管理。近幾年來,上網(wǎng)行為管理已經(jīng)引起各國政府的關(guān)注,上網(wǎng)行為管理產(chǎn)品也逐漸形成了獨(dú)立的系統(tǒng)。這些產(chǎn)品以網(wǎng)絡(luò)行為記錄和控制為主要手段,可以對(duì)BBS發(fā)帖內(nèi)容等進(jìn)行關(guān)鍵詞過濾,并對(duì)此類行為自動(dòng)記錄;對(duì)流量進(jìn)行控制,保障重要用戶和核心用戶的帶寬;進(jìn)行網(wǎng)絡(luò)行為客觀評(píng)估,形成詳盡的網(wǎng)絡(luò)流量日志、郵件日志、網(wǎng)絡(luò)監(jiān)控日志等統(tǒng)計(jì)報(bào)表,并向管理者報(bào)告;對(duì)不規(guī)范網(wǎng)絡(luò)行為進(jìn)行阻斷,實(shí)現(xiàn)帶寬資源的合理利用,保障健康網(wǎng)絡(luò)文化的傳播。上網(wǎng)行為管理支持網(wǎng)關(guān)模式、網(wǎng)橋模式等多種方式,由用戶根據(jù)需要自由選擇,與各種網(wǎng)絡(luò)安全軟件和防病毒、防入侵技術(shù)相互補(bǔ)充,為各個(gè)內(nèi)部網(wǎng)絡(luò)安全建設(shè)和管理提供幫助。在平時(shí)的管理工作中,準(zhǔn)確把握不良信息傳播的動(dòng)向,及時(shí)采取有效的過濾處理技術(shù),堵住不良信息來源路徑,切斷傳播渠道,并教育和引導(dǎo)用戶增強(qiáng)識(shí)別不良信息的判斷力、抵抗力,有效防止和控制不良信息侵入內(nèi)部網(wǎng)絡(luò)。