亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制研究綜述

        2010-08-15 00:42:56林向陽(yáng)
        關(guān)鍵詞:有害信息關(guān)鍵字分詞

        林向陽(yáng)

        中國(guó)移動(dòng)通信集團(tuán)福建有限公司福州分公司支撐中心 福建 350001

        0 引言

        互聯(lián)網(wǎng)的快速發(fā)展使得人們可以很方便的獲得各種信息,與此同時(shí),抵御互聯(lián)網(wǎng)上的反動(dòng)、淫穢或色情等有害信息的思想文化滲透成了一個(gè)迫切需要解決的問(wèn)題。如何監(jiān)管和控制這些有害信息,使之不會(huì)對(duì)互聯(lián)網(wǎng)和國(guó)家社會(huì)造成危害,是一個(gè)頗具研究?jī)r(jià)值的課題。

        互聯(lián)網(wǎng)上主要有兩類(lèi)有害信息:一類(lèi)是反動(dòng)、色情、迷信、謾罵和機(jī)密等有礙社會(huì)公德和不便公開(kāi)的信息;另一類(lèi)是會(huì)影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼,如特殊控制、計(jì)算機(jī)病毒等。

        1 網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)研究

        網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)機(jī)制主要有主動(dòng)發(fā)現(xiàn)和被動(dòng)防御兩種方式。主動(dòng)發(fā)現(xiàn)的方式主要有基于搜索引擎的有害信息主動(dòng)監(jiān)測(cè),被動(dòng)防御的方式以網(wǎng)絡(luò)內(nèi)容過(guò)濾為主。

        1.1 基于搜索引擎的有害信息主動(dòng)監(jiān)測(cè)技術(shù)

        采用主動(dòng)掃描探測(cè)方法進(jìn)行有害信息監(jiān)控的系統(tǒng),首先要設(shè)計(jì)網(wǎng)絡(luò)蜘蛛模塊,實(shí)現(xiàn)對(duì)html、asp、php和jsp等網(wǎng)頁(yè)的自動(dòng)抓取,采用算法實(shí)現(xiàn)中文分詞,開(kāi)發(fā)信息索引模塊,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的批量和增量索引,并且包含有害信息檢索模塊,實(shí)現(xiàn)有害信息監(jiān)控及預(yù)警功能。

        搜索引擎,概括起來(lái)其組成大致分為四個(gè)部分:

        (1)搜索器。主要完成互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)和鏈接結(jié)構(gòu)信息進(jìn)行分析處理;

        (2)索引器。理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表,為用戶檢索奠定基礎(chǔ)。索引器可以使用集中式索引算法或分布式索引算法 ;

        (3)檢索器。用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制;

        (4)用戶接口。主要作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要目的是方便用戶使用搜索引擎,高效率和多方式地從搜索引擎中得到有效并且及時(shí)的信息。

        1.2 內(nèi)容過(guò)濾技術(shù)

        內(nèi)容過(guò)濾技術(shù)一般包括名單過(guò)濾技術(shù)、關(guān)鍵詞過(guò)濾技術(shù)、圖像過(guò)濾技術(shù)、模版過(guò)濾技術(shù)和智能過(guò)濾技術(shù)等。

        現(xiàn)階段的內(nèi)容過(guò)濾技術(shù)主要分為基于網(wǎng)關(guān)和基于代理兩種,二者都不能解決的問(wèn)題是對(duì)網(wǎng)絡(luò)速度的負(fù)面影響。而且因?yàn)槭谴刑幚恚绻W(wǎng)關(guān)和代理出現(xiàn)故障都會(huì)使網(wǎng)絡(luò)不通。

        目前過(guò)濾技術(shù)大多在網(wǎng)絡(luò)處理的應(yīng)用層實(shí)現(xiàn),適應(yīng)性和安全性較差?;诰W(wǎng)絡(luò)層的實(shí)現(xiàn),最大的挑戰(zhàn)有兩個(gè)方面:首先,應(yīng)用層分析技術(shù)必須全面, 因?yàn)橹苯訉?duì)網(wǎng)絡(luò)包進(jìn)行應(yīng)用層分析,需要充分了解需要過(guò)濾的所有應(yīng)用在網(wǎng)絡(luò)層是如何實(shí)現(xiàn)的。其次,是實(shí)現(xiàn)兼容性,為實(shí)現(xiàn)與操作系統(tǒng)網(wǎng)絡(luò)底層處理融合,需要充分了解操作系統(tǒng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)制,甚至替代部分功能,如何不影響操作系統(tǒng)的原有功能是相當(dāng)困難的,特別是在Windows環(huán)境缺乏底層資料的情況下。

        1.3 有害信息監(jiān)測(cè)的核心技術(shù)

        有害信息監(jiān)測(cè)的核心技術(shù)包括分詞技術(shù)、文本內(nèi)容分類(lèi)、關(guān)鍵字識(shí)別、變形關(guān)鍵字識(shí)別、錨文本分析、有害代碼特征識(shí)別等。

        1.3.1 分詞技術(shù)

        對(duì)網(wǎng)頁(yè)進(jìn)行監(jiān)測(cè)時(shí)需要進(jìn)行特征項(xiàng)的提取。對(duì)于英文文本,一般是進(jìn)行詞匯的提取, 由于詞匯之間有天然的分隔符(空格),所以特征項(xiàng)的提取比較容易。中文信息沒(méi)有這個(gè)特點(diǎn),所以必須采用中文分詞技術(shù),把沒(méi)有詞匯標(biāo)示的中文句子,通過(guò)某種特殊的技術(shù)切分出詞匯?,F(xiàn)有的分詞算法可分為三大類(lèi) :基于字符串匹配的分詞方法(機(jī)械分詞方法)、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法?;谧址ヅ涞姆衷~方法也稱為基于詞典的分詞方法是目前三種分詞方法中最快的。影響這種方法分詞速度的因素主要有兩點(diǎn):詞典的結(jié)構(gòu)以及匹配算法。

        1.3.2 文本內(nèi)容分類(lèi)

        文本內(nèi)容分類(lèi)是一個(gè)廣泛研究的課題,它的任務(wù)是把一篇文章分類(lèi)到一些預(yù)定義的類(lèi)型中。在對(duì)網(wǎng)頁(yè)進(jìn)行監(jiān)測(cè)時(shí)可以通過(guò)文本分類(lèi)的方法,把網(wǎng)頁(yè)分為有害信息網(wǎng)頁(yè)和普通信息網(wǎng)頁(yè)。現(xiàn)有的文本分類(lèi)方法有支持向量機(jī)(SVM)、決策樹(shù)、Nearest neighbor、algorithm等。這些訓(xùn)練過(guò)程的基本思路都是從文章中抽取出一些特征關(guān)鍵詞,根據(jù)這些關(guān)鍵詞在文章中的出現(xiàn)次數(shù)對(duì)文章進(jìn)行向量化之后進(jìn)行訓(xùn)練。

        1.3.3 關(guān)鍵字識(shí)別

        1.3.4 變形關(guān)鍵字識(shí)別

        為了逃避過(guò)濾,不法分子會(huì)故意將留言中的關(guān)鍵字進(jìn)行適當(dāng)變形后進(jìn)行提交。關(guān)鍵字常用的變形方法有同音字法、拼音法、字詞顛倒法、字詞間加其它字符串、以及多種變形混用法等。

        由于關(guān)鍵字特征被完全打亂,基本上找不到可以匹配的關(guān)鍵字。因此首先根據(jù)關(guān)鍵詞識(shí)別的情況,就可以判斷出屬于此類(lèi)問(wèn)題。然后只要采用矩陣的轉(zhuǎn)秩算法就可以將這段文字恢復(fù)回正常的順序,最后再進(jìn)行過(guò)濾。

        1.3.5 錨文本分析

        每一個(gè)超級(jí)鏈接都有一個(gè)描述文本即錨文本,這個(gè)文本反映了該網(wǎng)頁(yè)與該鏈接所至網(wǎng)頁(yè)的某種關(guān)系,是互聯(lián)的關(guān)鍵所在。通過(guò)分析這個(gè)描述文本,就可以得到網(wǎng)頁(yè)之間重要的關(guān)系。導(dǎo)向詞是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索網(wǎng)絡(luò)。通過(guò)設(shè)置導(dǎo)向詞以及對(duì)應(yīng)的權(quán)值,錨文本中含有導(dǎo)向詞的網(wǎng)頁(yè)會(huì)被優(yōu)先進(jìn)行信息采集。權(quán)值的設(shè)定有根據(jù)經(jīng)驗(yàn)手工設(shè)定和采用程序進(jìn)行特征提取兩種方法。

        1.3.6 有害代碼特征識(shí)別

        網(wǎng)絡(luò)上除了有礙社會(huì)公德的有害信息外,還存在影響互聯(lián)網(wǎng)本身和用戶計(jì)算機(jī)安全的不良代碼,如特殊控制、計(jì)算機(jī)病毒等。計(jì)算機(jī)病毒等可以通過(guò)各類(lèi)防火墻的殺毒模塊進(jìn)行查殺,而在網(wǎng)絡(luò)論壇上可以通過(guò)BBS提交的惡意代碼,則是網(wǎng)絡(luò)過(guò)濾的重點(diǎn)。

        基于瀏覽器的BBS不僅能發(fā)表文字信息,而且還能在信息中加入超文本代碼。如果這些超文本代碼含有有害指令,輕則會(huì)使用戶顯示異常,重則會(huì)傳播病毒,甚至?xí)诳蛻魴C(jī)上安裝木馬程序等。因此需要過(guò)濾掉發(fā)言信息中有害的代碼。

        (1)可執(zhí)行代碼的過(guò)濾

        2.5 兩組手術(shù)前后CSI及BSI比較 術(shù)前,兩組CSI及BSI比較,差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);術(shù)后,兩組CSI及BSI均下降,組間比較差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。見(jiàn)表5。

        HTML是一種標(biāo)記語(yǔ)言,即在普通文本中插入一些標(biāo)記(Tag)來(lái)控制文本的顯示屬性。通常HTML本身不具有執(zhí)行程序的功能,但HTML支持插入功能各異的ActiveX控件,如一般的客戶端瀏覽器就支持非常流行的VbScript腳本語(yǔ)言和Java.Script腳本語(yǔ)言。為使調(diào)用Script腳本語(yǔ)言的代碼失效,可以用“<”代替“<”。因?yàn)椤?lt;”是“<”的轉(zhuǎn)定義字符,瀏覽器在解釋“<”時(shí)會(huì)把它當(dāng)作“<”來(lái)處理,但它這時(shí)不會(huì)把“<”作控制符看,而只是把它當(dāng)作顯示字符。為避免大小寫(xiě)混寫(xiě)的“<Script>”查不出來(lái),可使用Lcase()函數(shù)先把字符串變成小寫(xiě)再查,這樣就限制了“<Script>”后面的腳本程序的執(zhí)行,同時(shí)將代碼顯示出來(lái)。

        (2)貼圖代碼的過(guò)濾

        在BBS中,文字可使用過(guò)濾的方法進(jìn)行處理,圖像信息和視頻信息目前卻無(wú)好的解決辦法。通常的做法是在BBS中禁用貼圖和加視頻流的代碼。在HTML中,除了正常的貼圖指令<IMG SRC=“…”>以外,還有很多可以貼圖的非正規(guī)指令,也必須一一找出來(lái)加以過(guò)濾。

        (3)其它代碼的過(guò)濾

        除上述代碼外,還有一些代碼如果出現(xiàn)在BBS中,也有可能造成危害,因而需要在過(guò)濾程序中將這些代碼過(guò)濾掉,如包含頁(yè)代碼<IFRAME></IFRAME>,可以在頁(yè)面中插入任何其它頁(yè)面;自動(dòng)跳轉(zhuǎn)頁(yè)面代碼<meta http-equiv=“refresh”content=“3;url=http://……/newpage.htm”>可以將頁(yè)面從當(dāng)前頁(yè)跳轉(zhuǎn)到任何頁(yè)面。如果包含頁(yè)或跳轉(zhuǎn)頁(yè)面含有有害信息,則客戶機(jī)同樣將受到危害。因此這兩條指令也是需要過(guò)濾掉的。一般來(lái)說(shuō),在BBS中需要過(guò)濾掉的代碼有<img,background,<embed,<input,<iframe,<o(jì)bject,<applet,<script,<meta等。

        2 結(jié)論

        網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)和處置方面還有很多研究工作要做,以下幾方面值得考慮:

        (1)為提高信息查找的準(zhǔn)確性,還需要進(jìn)一步研究采用語(yǔ)法和語(yǔ)義分析,自然語(yǔ)言理解等技術(shù);為了提高信息獲取的效率,更好的適應(yīng)網(wǎng)上各種機(jī)器環(huán)境,還需要進(jìn)一步研究采用分布式的多智能體系統(tǒng)協(xié)同工作。

        (2)現(xiàn)有的面向互聯(lián)網(wǎng)上的智能檢測(cè)還不能令人滿意地解決中文信息的查詢問(wèn)題,還有必要在漢語(yǔ)分詞、漢語(yǔ)的信息提取和理解等方面進(jìn)行研究,以期獲得更為理想的監(jiān)控過(guò)濾效果。

        (3)內(nèi)容過(guò)濾技術(shù)最終的發(fā)展方向必然是實(shí)時(shí)、準(zhǔn)確、智能地進(jìn)行內(nèi)容分類(lèi)。中文的詞義/語(yǔ)義分析和圖形的識(shí)別需要進(jìn)一步研究和實(shí)用化。

        (4)基于高層協(xié)議解析的入侵檢測(cè)是未來(lái)的入侵檢測(cè)技術(shù)方向。

        (5)由于HTML語(yǔ)言特點(diǎn),使得Web信息的組織結(jié)構(gòu)性很差,如何利用XML語(yǔ)言更有效地實(shí)現(xiàn)對(duì)Web有害信息的挖掘,是值得研究的方向。

        未來(lái)的研究需要把網(wǎng)絡(luò)有害信息的發(fā)現(xiàn)與各類(lèi)網(wǎng)絡(luò)安全技術(shù)結(jié)合起來(lái),創(chuàng)造出更加安全、更加干凈的互聯(lián)網(wǎng)絡(luò)環(huán)境。

        [1] 王艷華.一種基于人工神經(jīng)網(wǎng)絡(luò)的有害信息實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)系統(tǒng)模型及其實(shí)現(xiàn).燕山大學(xué)學(xué)報(bào).2004.

        [2] 張曉梅,蘇斌,王竹林,楊柳.基于搜索引擎的有害信息監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).鐵路計(jì)算機(jī)應(yīng)用.2007.

        [3] 黃東平,田芳.BBS信息過(guò)濾技術(shù)研究.長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版).2004.

        [4] 劉宗仁.網(wǎng)上內(nèi)容過(guò)濾技術(shù)的現(xiàn)狀及面臨的問(wèn)題.現(xiàn)代情報(bào).2005.

        [5] 唐文榮.網(wǎng)絡(luò)有害信息識(shí)別和控制技術(shù).西安交通大學(xué)碩士學(xué)位論文.2003.

        [6] 宋治國(guó).數(shù)據(jù)挖掘在Internet有害信息過(guò)濾中的應(yīng)用.山東師范大學(xué)碩士學(xué)位論文.2006.

        [7] 馬驪.基于搜索引擎技術(shù)的警情信息搜集系統(tǒng)的研究與實(shí)現(xiàn).山東大學(xué)碩士學(xué)位論文.2006.

        猜你喜歡
        有害信息關(guān)鍵字分詞
        通用人工智能提供者內(nèi)容審查注意義務(wù)的證成
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤(pán)點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        成功避開(kāi)“關(guān)鍵字”
        上半年利用AI技術(shù)清理有害信息312.2億條
        結(jié)巴分詞在詞云中的應(yīng)用
        行政法在治理網(wǎng)絡(luò)有害信息中的作用研究
        法制博覽(2018年24期)2018-01-22 22:27:15
        值得重視的分詞的特殊用法
        網(wǎng)絡(luò)有害信息的類(lèi)型及治理措施
        新聞前哨(2016年7期)2016-09-27 21:28:28
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        基于用戶反饋的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵字查詢系統(tǒng)
        av影院在线免费观看不卡| 国产精品入口蜜桃人妻| 成年人男女啪啪网站视频| 亚洲免费一区二区三区四区| 18禁黄污吃奶免费看网站 | 欧美日韩久久久精品a片| 久久久99精品视频| 国产成人精品一区二区不卡| 精品乱人伦一区二区三区| 精品成人乱色一区二区| 在线看亚洲十八禁网站| 亚洲熟女av在线观看| 国产精品综合色区在线观看| 精品一区二区三区无码视频| 国产91AV免费播放| 精品日本一区二区三区| 久久无码专区国产精品| 国产一级特黄无码免费视频| 蜜桃视频在线免费观看完整版| 蜜桃91精品一区二区三区| 国产精品 人妻互换| 成人国产精品一区二区网站| 色妞一区二区三区免费视频| 国产成人av无码精品| 欧美尺寸又黑又粗又长| 免费国产h视频在线观看86| 日韩不卡一区二区三区色图| 亚洲香蕉成人av网站在线观看| 最新亚洲av日韩av二区| 青青手机在线视频观看| 中文字幕在线亚洲三区 | 亚洲午夜久久久精品影院| 丰满熟妇乱又伦| 在线偷窥制服另类| 亚洲av毛片在线网站| 女人喷潮完整视频| 亚洲精品亚洲人成在线下载| 丰满人妻被持续侵犯中出在线| 亚洲av成人片色在线观看高潮| 国产精品原创巨作AV女教师 | 国产又爽又大又黄a片|