趙偉 梁曉雁
摘 要:該課題研究過(guò)程中,查閱了大量的國(guó)內(nèi)外關(guān)于文本、圖片和過(guò)濾技術(shù)研究的著作、論文和期刊,從理論角度分析了現(xiàn)階段國(guó)內(nèi)外先進(jìn)技術(shù)、實(shí)現(xiàn)方式和過(guò)濾算法,通過(guò)技術(shù)驗(yàn)證和分析,以及實(shí)際的測(cè)試結(jié)果表明了采用協(xié)議還原、數(shù)據(jù)爬蟲(chóng)引擎進(jìn)行數(shù)據(jù)采集分析,使用關(guān)鍵字識(shí)別匹配、語(yǔ)義圖像識(shí)別等技術(shù)可實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中文本、圖片和視頻信息的過(guò)濾。
關(guān)鍵詞:網(wǎng)絡(luò) 不良信息 危害 過(guò)濾
中圖分類號(hào):TN9198 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)09(c)-0003-02
不良信息過(guò)濾系統(tǒng),設(shè)計(jì)和實(shí)現(xiàn)對(duì)信息有效識(shí)別和過(guò)濾,并為用戶管理員提供進(jìn)行可視化監(jiān)控。即用戶和管理員可查看信息保留和過(guò)濾不良信息過(guò)濾情況。因此,系統(tǒng)切實(shí)設(shè)計(jì)和實(shí)現(xiàn)系統(tǒng)分析識(shí)別功能和過(guò)濾功能,并將采集、分析和過(guò)濾的效能進(jìn)行優(yōu)化,以達(dá)到優(yōu)良的用戶體現(xiàn)。
1 研究目的
該課題設(shè)計(jì)基于大數(shù)據(jù)技術(shù)的采集、分析和過(guò)濾的不良信息過(guò)濾系統(tǒng),該系統(tǒng)能夠有效識(shí)別互聯(lián)網(wǎng)中不同分類的不良信息,并根據(jù)用戶的需求,可實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行關(guān)鍵詞識(shí)別,然后對(duì)其URL進(jìn)行相應(yīng)的處理,完成互聯(lián)網(wǎng)不良信息的過(guò)濾,其中內(nèi)容過(guò)濾是不良絡(luò)信息過(guò)濾系統(tǒng)的重點(diǎn)功能。具體的系統(tǒng)設(shè)計(jì)目標(biāo)為:
(1) 系統(tǒng)對(duì)內(nèi)容過(guò)濾的效率性能要求較高;
(2) 系統(tǒng)除了實(shí)現(xiàn)傳統(tǒng)的基于URL、關(guān)鍵字等信息的過(guò)濾,還實(shí)現(xiàn)了通過(guò)語(yǔ)義分析對(duì)文本內(nèi)容的智能過(guò)濾;
(3) 系統(tǒng)根據(jù)互聯(lián)網(wǎng)信息的變化情況具有適應(yīng)性學(xué)習(xí)的能力;
(4) 系統(tǒng)采用低耦合高內(nèi)聚的設(shè)計(jì)方法,將分詞、特征識(shí)別和分類算法進(jìn)行模塊化設(shè)計(jì);
(5) 將網(wǎng)頁(yè)劃分為多個(gè)處理單元,并實(shí)現(xiàn)分布式多引擎處理機(jī)制。
2 設(shè)計(jì)與實(shí)現(xiàn)
2.1 系統(tǒng)結(jié)構(gòu)
該信息過(guò)濾系統(tǒng)的架構(gòu)采集-分析-過(guò)濾-可視化”的架構(gòu)進(jìn)行設(shè)計(jì),并在這個(gè)基礎(chǔ)上滿足業(yè)務(wù)的可擴(kuò)展性要求。整個(gè)系統(tǒng)包括如下四個(gè)部分:
2.1.1 采集系統(tǒng)
通過(guò)搜索監(jiān)測(cè)引擎的方式實(shí)現(xiàn)基于不良信息規(guī)格的數(shù)據(jù)采集,并將采集內(nèi)容分裝至采集庫(kù)。
2.1.2 分析系統(tǒng)
基于數(shù)據(jù)清洗和分析技術(shù),對(duì)所釆集的數(shù)據(jù)進(jìn)行協(xié)議還原,包括數(shù)據(jù)重組,下載網(wǎng)頁(yè)或文字、圖片、視頻等信息,并完成內(nèi)容識(shí)別、分析和存儲(chǔ)。
2.1.3 過(guò)濾系統(tǒng)
根據(jù)分詞規(guī)則,通過(guò)檢索規(guī)則庫(kù)等技術(shù),對(duì)信息進(jìn)行過(guò)濾,并提供完成格式優(yōu)化、策略配置和入庫(kù)建檔。
2.1.4 可視化系統(tǒng)
負(fù)責(zé)與用戶的交互、完成審核、報(bào)警和報(bào)表功能,并包括采集、分析和過(guò)濾的配置管理功能。
2.2 系統(tǒng)流程
該系統(tǒng)按照EPC 模型,通過(guò)將業(yè)務(wù)過(guò)程中的采集資源、分析資源、過(guò)濾資源和可視化資源(系統(tǒng)、組織、數(shù)據(jù)等),組織設(shè)計(jì)完成一個(gè)能夠完成不良信息過(guò)濾任務(wù)流程的動(dòng)態(tài)模型。
2.2.1 數(shù)據(jù)采集
采集的種類分為兩大類,一種是使用互聯(lián)網(wǎng)的搜索引擎,根據(jù)指定的關(guān)鍵字進(jìn)行相關(guān)內(nèi)容的數(shù)據(jù)采集,第二種是對(duì)指定網(wǎng)站類型的數(shù)據(jù)進(jìn)行采集(如博客、論壇、新聞等)。根據(jù)這兩大類采集方式,分別執(zhí)行相應(yīng)的采集子流程,在采集子流程中根據(jù)不同的采集類型執(zhí)行相應(yīng)的采集規(guī)則,并將采集的數(shù)據(jù)存入數(shù)據(jù)庫(kù)中。
2.2.2 數(shù)據(jù)分析
數(shù)據(jù)分析階段,首先從采集數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)內(nèi)容,然后根據(jù)數(shù)據(jù)內(nèi)容的不同選擇不同的數(shù)據(jù)分析器,最后進(jìn)入相應(yīng)的數(shù)據(jù)清洗子流程。數(shù)據(jù)清洗子流程中,根據(jù)不同的分析器選擇文本分析法或者內(nèi)容分析法進(jìn)行相應(yīng)的數(shù)據(jù)清洗,并將清洗后的數(shù)據(jù)結(jié)果存入數(shù)據(jù)庫(kù)中。
2.2.3 數(shù)據(jù)處理
數(shù)量處理階段,首先從清洗后的數(shù)據(jù)庫(kù)中獲取初步處理的數(shù)據(jù),然后對(duì)該數(shù)據(jù)根據(jù)配置的處理的方式,選擇相應(yīng)的處理流程。該階段的處理流程主要包括:檢索、分類、聚合等;還可以通過(guò)插件的方式對(duì)其進(jìn)行擴(kuò)展來(lái)完成更多的功能。
2.2.4 數(shù)據(jù)展示階段
主要是通過(guò)頁(yè)面的形式對(duì)數(shù)據(jù)進(jìn)行一個(gè)有效的展示,更能直觀的表達(dá)出數(shù)據(jù)的作用,包括展現(xiàn)預(yù)警信息、負(fù)面信息、熱點(diǎn)趨勢(shì)等,通過(guò)擴(kuò)展頁(yè)面的方式可以增加更多的展示效果。
3 結(jié)語(yǔ)
該課題最初的研究是基于研究解決不同不良信息的過(guò)濾問(wèn)題,但是隨著對(duì)現(xiàn)狀的分析和工作的難度增加,越來(lái)越發(fā)現(xiàn)針對(duì)網(wǎng)絡(luò)不良信息的過(guò)濾是一個(gè)可以上至關(guān)系國(guó)家民生,下至老百姓生活的具體防范措施,從而調(diào)整工作的步驟,逐步建立可視化監(jiān)測(cè)平臺(tái)、規(guī)劃不良信息搜集、持續(xù)實(shí)時(shí)監(jiān)測(cè)過(guò)濾機(jī)制、完成研究報(bào)告。這個(gè)過(guò)程是非常艱辛,其中過(guò)很多的迷茫和未知,都是通過(guò)檢索和收集大量的相關(guān)資料,以及在不斷地部署開(kāi)發(fā)驗(yàn)證中磨練。其中也體會(huì)到了技術(shù)改變一切,但是不斷業(yè)務(wù)需求是驅(qū)動(dòng),業(yè)務(wù)剖析和其他手段的輔助也關(guān)切到不良信息的成果,這里就涉及到了國(guó)內(nèi)外的法律法規(guī)、管理措施、道德約束,這些各自都是一定因素的助力和局限,直接影響著網(wǎng)絡(luò)不良信息的現(xiàn)狀。
參考文獻(xiàn)
[1] 叢健.不良信息過(guò)濾技術(shù)研究[D].北京:北京郵電大學(xué),2012.
[2] 史乙力.基于關(guān)鍵詞匹配的網(wǎng)頁(yè)文本過(guò)濾算法的研究和實(shí)現(xiàn)[D].貴陽(yáng):貴州大學(xué),2009.
[3] 賈美娟.基于互聯(lián)網(wǎng)的不良信息過(guò)濾技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工程大學(xué),2006.
[4] 王銀利.基于啟發(fā)式規(guī)則和文本分類的信息過(guò)濾技術(shù)[D].北京:北京交通大學(xué),2007.
[5] 黃勃.基于語(yǔ)義分析的網(wǎng)絡(luò)過(guò)濾設(shè)計(jì)與實(shí)現(xiàn)[D].長(zhǎng)沙:湖南大學(xué),2011.
[6] 林建.網(wǎng)絡(luò)不良信息過(guò)濾研究[D].武漢:華中師范大學(xué),2007.
[7] 蘇云,馬慧芳.基于Web的信息過(guò)濾技術(shù)[J].情報(bào)雜志,2005,24(5):72-73.