亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法匹配的互聯(lián)網(wǎng)企業(yè)內(nèi)容日志檢測(cè)工具的設(shè)計(jì)與實(shí)現(xiàn)

        2022-07-08 14:58:48熊逸文
        江蘇通信 2022年3期

        熊逸文 項(xiàng) 菲 苗 杰

        1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心江蘇分中心;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心

        0 引言

        《中華人民共和國(guó)網(wǎng)絡(luò)安全法》規(guī)定:“國(guó)家網(wǎng)信部門和有關(guān)部門依法履行網(wǎng)絡(luò)信息安全監(jiān)督管理職責(zé),發(fā)現(xiàn)法律、行政法規(guī)禁止發(fā)布或者傳輸?shù)男畔⒌?,?yīng)當(dāng)要求網(wǎng)絡(luò)運(yùn)營(yíng)者停止傳輸,采取消除等處置措施,保存有關(guān)記錄。網(wǎng)絡(luò)運(yùn)營(yíng)者對(duì)網(wǎng)信部門和有關(guān)部門依法實(shí)施的監(jiān)督檢查,應(yīng)當(dāng)予以配合?!睘榧訌?qiáng)網(wǎng)絡(luò)生態(tài)治理、清朗網(wǎng)絡(luò)空間,網(wǎng)信、公安和通信部門作為國(guó)家互聯(lián)網(wǎng)管理的三駕馬車,每年都會(huì)常態(tài)化對(duì)互聯(lián)網(wǎng)企業(yè)進(jìn)行網(wǎng)絡(luò)信息安全檢查,并通報(bào)問(wèn)題,指導(dǎo)企業(yè)整改網(wǎng)絡(luò)信息安全隱患。在信息大爆炸時(shí)代,互聯(lián)網(wǎng)平臺(tái)一般都會(huì)發(fā)布大量平臺(tái)生成內(nèi)容(PGC)和用戶生成內(nèi)容(UGC);然而由于安全意識(shí)淡薄、安全投入不足、技術(shù)審核不嚴(yán)、管理措施不到位等原因,互聯(lián)網(wǎng)平臺(tái)往往會(huì)出現(xiàn)一些色情、賭博、詐騙等違法違規(guī)信息。根據(jù)法律法規(guī)要求,互聯(lián)網(wǎng)平臺(tái)的網(wǎng)絡(luò)日志必須存儲(chǔ)六個(gè)月以上。理論上,互聯(lián)網(wǎng)平臺(tái)產(chǎn)生的違法違規(guī)信息均要在企業(yè)內(nèi)容日志存儲(chǔ)至少六個(gè)月,因此,對(duì)互聯(lián)網(wǎng)企業(yè)內(nèi)容日志的檢查可有效發(fā)現(xiàn)和識(shí)別這些違法違規(guī)信息,及時(shí)排查內(nèi)容安全隱患。

        監(jiān)管部門一般采取臺(tái)賬查閱、人員訪談、遠(yuǎn)程檢測(cè)等手段,嘗試發(fā)現(xiàn)互聯(lián)網(wǎng)企業(yè)違法違規(guī)信息。但這些手段受多種因素制約,存在以下局限性:一是遠(yuǎn)程檢測(cè)中,受企業(yè)反爬蟲(chóng)策略或流量加密的限制,難以大批量地采集數(shù)據(jù),多以內(nèi)容抽查為主,抽查方式使得待檢樣本覆蓋面不廣、代表性不足,且考慮到對(duì)計(jì)算資源的消耗,整體成本較高。二是在現(xiàn)場(chǎng)檢查中,多以人工檢查為主,檢查人員由于經(jīng)驗(yàn)差異導(dǎo)致檢查標(biāo)準(zhǔn)很難統(tǒng)一,受現(xiàn)場(chǎng)檢查時(shí)間和檢查人員數(shù)量限制實(shí)際檢查量不大。從技術(shù)路線角度來(lái)看,開(kāi)發(fā)一款現(xiàn)場(chǎng)檢查工具,對(duì)互聯(lián)網(wǎng)企業(yè)內(nèi)容日志進(jìn)行檢測(cè)過(guò)濾,快速溯源定位違法有害內(nèi)容,能夠靈活、有效滿足涉網(wǎng)監(jiān)管部門現(xiàn)場(chǎng)技術(shù)檢查的需求。鑒于該工具可長(zhǎng)期復(fù)用,整體成本不高,且檢查人員經(jīng)簡(jiǎn)單培訓(xùn)后即可上手操作,適配性較強(qiáng)。

        基于該技術(shù)路線,我單位已開(kāi)發(fā)一款針對(duì)互聯(lián)網(wǎng)企業(yè)內(nèi)容日志進(jìn)行自動(dòng)化檢測(cè)的工具,可兼容目前互聯(lián)網(wǎng)企業(yè)主流內(nèi)容日志格式(txt、csv、xls、xlsx 四種文件格式),可自定義敏感詞詞庫(kù),支持定位敏感詞所在位置及上下文,并基于機(jī)器學(xué)習(xí)算法匹配過(guò)濾內(nèi)容日志,進(jìn)而提升結(jié)果的準(zhǔn)確性和精確性。本文提煉總結(jié)了該工具設(shè)計(jì)和實(shí)現(xiàn)的技術(shù)方法,從工具方案設(shè)計(jì)出發(fā),推導(dǎo)工具功能模塊的實(shí)現(xiàn),并介紹了工具內(nèi)嵌的算法技術(shù)。文章結(jié)構(gòu)如圖1 所示。

        圖1 文章結(jié)構(gòu)示意圖

        1 方案設(shè)計(jì)

        檢測(cè)工具方案設(shè)計(jì)主要包括賬號(hào)、詞庫(kù)、文件等檢測(cè)規(guī)則的設(shè)計(jì)和API 接口的設(shè)計(jì)。

        1.1 規(guī)則設(shè)計(jì)

        (1)用戶賬號(hào)規(guī)則

        系統(tǒng)內(nèi)隨機(jī)生成若干個(gè)賬號(hào)和密碼,賬號(hào)和密碼的數(shù)量可根據(jù)需要?jiǎng)討B(tài)調(diào)整;輸入相應(yīng)賬號(hào)和密碼,點(diǎn)擊登錄按鈕即可登錄系統(tǒng)。對(duì)外服務(wù)時(shí)可通過(guò)遠(yuǎn)程授權(quán)省內(nèi)涉網(wǎng)監(jiān)管部門賬號(hào)和密碼的形式,配置用戶使用人數(shù)的權(quán)限,工具未授權(quán)則不可使用。

        (2)敏感詞庫(kù)規(guī)則

        敏感詞管理應(yīng)遵循分級(jí)分類原則,色情、賭博、詐騙、宗教、暴恐等敏感詞不適合在公共互聯(lián)網(wǎng)環(huán)境下暴露顯示,但檢測(cè)工具須在互聯(lián)網(wǎng)企業(yè)公共互聯(lián)網(wǎng)環(huán)境下使用,因此有必要對(duì)敏感詞庫(kù)進(jìn)行加密處理,使得工具使用人員不能看到敏感詞文件。可在內(nèi)網(wǎng)環(huán)境下由高權(quán)限內(nèi)容審核人員編輯敏感詞,對(duì)敏感詞進(jìn)行分類,并根據(jù)檢查任務(wù)或目標(biāo)提取相關(guān)分類的敏感詞,自定義生成敏感詞庫(kù),并對(duì)其進(jìn)行混淆加密;在外網(wǎng)環(huán)境下,高權(quán)限內(nèi)容審核人員將經(jīng)過(guò)封裝后的敏感詞庫(kù)移交給工具使用人員,使用時(shí)將已加密的敏感詞庫(kù)導(dǎo)入工具,工具自動(dòng)解壓縮敏感詞庫(kù)并導(dǎo)入程序,整個(gè)流程敏感詞庫(kù)對(duì)工具使用人員不可見(jiàn)。

        (3)待檢文件規(guī)則

        互聯(lián)網(wǎng)企業(yè)內(nèi)容日志存儲(chǔ)在不同類型的操作系統(tǒng)、數(shù)據(jù)庫(kù)中,采用不同的安全策略限制數(shù)據(jù)訪問(wèn);鑒于成本和技術(shù)上的考慮,檢測(cè)工具開(kāi)發(fā)不同接口去適配企業(yè)內(nèi)容日志數(shù)據(jù)庫(kù)較為復(fù)雜,為此本設(shè)計(jì)將內(nèi)容日志導(dǎo)出為主流文件格式,工具支持對(duì)這些文件格式的檢測(cè);鑒于內(nèi)容日志存儲(chǔ)量一般較大,設(shè)計(jì)支持將內(nèi)容日志導(dǎo)出為多個(gè)文件,工具支持對(duì)多文件的檢測(cè)。

        (4)日志檢測(cè)規(guī)則

        現(xiàn)場(chǎng)技術(shù)檢查應(yīng)與其它檢查進(jìn)程同步,有時(shí)需要中止檢查,并顯示實(shí)時(shí)檢查結(jié)果;設(shè)計(jì)檢測(cè)工具運(yùn)行時(shí)可顯示進(jìn)度、可暫停檢測(cè)、可導(dǎo)出結(jié)果。設(shè)計(jì)可通過(guò)字符數(shù)判斷待檢文件的類型,如用戶昵稱通常字符數(shù)較少,發(fā)布的文章每行字符數(shù)則較多,靈活選擇待測(cè)字符區(qū)間,可顯著提高檢測(cè)效率。在config 文件配置中可以選擇參數(shù),設(shè)置字符最大展示個(gè)數(shù);待測(cè)文件每行少于字符最大展示個(gè)數(shù),直接忽略,檢測(cè)工具只檢測(cè)每行不小于字符最大展示個(gè)數(shù)的樣本。

        1.2 接口設(shè)計(jì)

        本工具共設(shè)計(jì)3 個(gè)API 接口,分別為CreateTask 接口、GetTaskInfo 接口、CancelTask 接口。接口原理設(shè)計(jì)為上傳待測(cè)文件之后,調(diào)用CreateTask 接口去創(chuàng)建文件檢測(cè)任務(wù),通過(guò)后端處理模塊進(jìn)行數(shù)據(jù)處理,并將處理的結(jié)果放入到隊(duì)列中;然后通過(guò)GetTaskInfo 接口去實(shí)時(shí)隊(duì)列中對(duì)結(jié)果進(jìn)行判斷,并將判斷結(jié)果實(shí)時(shí)反饋給UI 界面;最后通過(guò)調(diào)用CancelTask 接口可以中止文件檢測(cè)。如表1 所示。

        表1 檢測(cè)工具API 接口處理邏輯

        2 功能模塊

        企業(yè)內(nèi)容日志檢查工具共有三個(gè)功能模塊,分別為數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)檢測(cè)模塊和結(jié)果展示模塊,如圖2 所示。數(shù)據(jù)預(yù)處理模塊實(shí)現(xiàn)對(duì)敏感詞的預(yù)處理和待測(cè)文本的預(yù)處理,將敏感詞和待測(cè)文件從原始格式轉(zhuǎn)化為檢測(cè)工具可識(shí)別的格式;數(shù)據(jù)檢測(cè)模塊支持多種類型的檢測(cè)模式,可根據(jù)檢查需要?jiǎng)討B(tài)調(diào)整檢測(cè)模式;結(jié)果展示模塊可根據(jù)檢測(cè)進(jìn)度,靈活選擇展示或保存檢測(cè)結(jié)果,明示違法內(nèi)容所在位置和上下文關(guān)系。

        圖2 檢測(cè)工具模塊架構(gòu)圖

        2.1 數(shù)據(jù)預(yù)處理模塊

        2.1.1 檢測(cè)流程

        關(guān)鍵詞僅支持txt 格式,使用ICSharpCode.SharpZipLib第三方的DLL 庫(kù)實(shí)現(xiàn)對(duì)敏感詞庫(kù)的加密壓縮和解壓縮功能,將加密詞庫(kù)導(dǎo)入到檢測(cè)工具后,檢測(cè)工具再逆向?qū)用茉~庫(kù)進(jìn)行解密,用于下一步的文本過(guò)濾。待測(cè)文件支持txt、csv、xls、xlsx 四種主流的文件格式,內(nèi)容日志從互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)庫(kù)導(dǎo)出后須先轉(zhuǎn)換為這些文件格式。對(duì)待測(cè)文件的檢測(cè)支持目錄檢測(cè),待測(cè)文件以文件夾形式導(dǎo)入檢測(cè)工具。關(guān)鍵詞和待測(cè)文件均以UTF-8 格式編碼;UTF-8 包含簡(jiǎn)體和繁體中文字符,能正確顯示多種語(yǔ)言文字,鑒于部分有害內(nèi)容可能以繁體中文字符顯示,使用UTF-8 覆蓋更為全面。

        2.1.2 邏輯篩選

        上傳文件,系統(tǒng)會(huì)根據(jù)文件類型進(jìn)行篩選,過(guò)濾掉非txt、csv、xls、xlsx 文件格式的待測(cè)文件,對(duì)篩選后的結(jié)果計(jì)算文件大小。以大小1M 為基準(zhǔn)對(duì)文件進(jìn)行劃分,規(guī)定大于1M 的文件為大文件,小于1M 的文件為小文件。對(duì)于大文件,以文件中文本行數(shù)一萬(wàn)行為基準(zhǔn)進(jìn)行切割,以此類推,直至劃分成單個(gè)或多個(gè)文本行數(shù)為一萬(wàn)行的文件和一個(gè)小文件,分別進(jìn)行檢測(cè);對(duì)于小文件,直接進(jìn)行檢測(cè)即可。如圖3 所示。

        圖3 文件分類邏輯篩選圖

        2.2 數(shù)據(jù)檢測(cè)模塊

        數(shù)據(jù)檢測(cè)支持詞庫(kù)檢測(cè)、模型檢測(cè)和模型+詞庫(kù)檢測(cè)三種檢測(cè)模式,可根據(jù)任務(wù)類型、時(shí)間要求和檢測(cè)精度選擇檢測(cè)模式。詞庫(kù)檢測(cè)原理為關(guān)鍵詞比對(duì),命中關(guān)鍵詞即顯示目標(biāo)結(jié)果;模型檢測(cè)原理為利用機(jī)器學(xué)習(xí)算法進(jìn)行模糊比對(duì),模糊比對(duì)命中即顯示目標(biāo)結(jié)果。一般情況下,在敏感詞較少(如專項(xiàng)檢測(cè))、待測(cè)文件不大(如用戶昵稱、簡(jiǎn)介)時(shí),使用詞庫(kù)檢測(cè)效率較高;在敏感詞較多(如覆蓋全部敏感詞樣本)、待測(cè)文件較大(如系統(tǒng)發(fā)布文章)時(shí),建議采用模型檢測(cè);在檢測(cè)時(shí)間允許時(shí),可采用模型+詞庫(kù)檢測(cè)。

        2.3 結(jié)果展示模塊

        在進(jìn)行大文件檢測(cè)時(shí)為防止數(shù)據(jù)丟失,可設(shè)置實(shí)時(shí)保存結(jié)果選項(xiàng),并在檢測(cè)開(kāi)始前選擇結(jié)果文件保存路徑,即可實(shí)時(shí)將已檢測(cè)結(jié)果保存并顯示在UI 界面。UI 界面實(shí)時(shí)顯示檢測(cè)進(jìn)度,若文件過(guò)大過(guò)多、等待時(shí)間較長(zhǎng),可中止檢測(cè),并保存已完成檢測(cè)的結(jié)果。檢測(cè)結(jié)束后,UI 界面展示檢測(cè)結(jié)果,包括文件路徑、危險(xiǎn)等級(jí)、敏感詞分類、命中敏感詞、行號(hào)和上下文六個(gè)數(shù)據(jù)字段。檢測(cè)工具支持結(jié)果文件的導(dǎo)出,結(jié)果文件可保存為csv 或xlsx 格式。

        3 算法技術(shù)

        3.1 算法原理

        檢測(cè)工具使用的機(jī)器學(xué)習(xí)匹配算法共兩種,分別為隨機(jī)森林算法和DFA 算法,檢測(cè)工具會(huì)將兩種算法匹配到的數(shù)據(jù)進(jìn)行合并,并分析判斷是否存在敏感詞。兩種算法均判斷為違規(guī)則認(rèn)為是“危險(xiǎn)”數(shù)據(jù),一種算法判斷為違規(guī)另一種算法判斷為正常則認(rèn)為是“未知”數(shù)據(jù),兩種算法均判斷為正常則認(rèn)為是“安全”數(shù)據(jù)。機(jī)器學(xué)習(xí)算法匹配邏輯如圖4所示,機(jī)器學(xué)習(xí)算法重要參數(shù)設(shè)置如表2 所示。從算法特點(diǎn)來(lái)看,隨機(jī)森林算法對(duì)數(shù)據(jù)的適應(yīng)性較好,但在噪音較大的過(guò)濾分類上會(huì)出現(xiàn)過(guò)擬合問(wèn)題;DFA 算法針對(duì)變種詞等特殊字符檢測(cè)較為靈敏,但在關(guān)鍵詞數(shù)量較多時(shí)消耗內(nèi)存較大。綜合使用兩種算法,能夠平衡變體詞、形近詞、擬聲詞等特殊字符的檢測(cè)速度和精度。

        表2 機(jī)器學(xué)習(xí)算法重要參數(shù)設(shè)置

        圖4 機(jī)器學(xué)習(xí)算法匹配邏輯圖

        隨機(jī)森林算法匹配過(guò)程直接調(diào)用Python Sklearn 庫(kù)中的隨機(jī)森林分類器Random Forest Classifier,使用Jieba 庫(kù)對(duì)待測(cè)文件中文字符進(jìn)行分詞操作,用LabelEncoder、OneHotEncoder 函數(shù)對(duì)已分詞字符進(jìn)行編碼;以Hashing Vectorizer 詞袋模型對(duì)文本進(jìn)行特征向量化(該模型可通過(guò)哈希技巧標(biāo)記文本的索引位置,而不創(chuàng)建詞典,占用內(nèi)存較低,適用大型數(shù)據(jù)集);使用fit_transform 函數(shù)訓(xùn)練數(shù)據(jù)、transform 函數(shù)測(cè)試數(shù)據(jù),使用predict 函數(shù)預(yù)測(cè)數(shù)據(jù),使用optimize_model 函數(shù)優(yōu)化模型。如圖5 所示。

        圖5 隨機(jī)森林算法匹配流程圖

        DFA 算法原理是一個(gè)狀態(tài)通過(guò)一系列事件可轉(zhuǎn)換為另一個(gè)狀態(tài),鑒于通過(guò)樹(shù)結(jié)構(gòu)而非哈希表方法能夠更容易實(shí)現(xiàn)對(duì)文本的狀態(tài)標(biāo),因此本文采用的是基于Trie 樹(shù)字典機(jī)制的DFA 算法。在Trie 樹(shù)上進(jìn)行檢索類似于查閱英語(yǔ)詞典,首先將敏感詞分為多個(gè)片段,每個(gè)片段作為狀態(tài),構(gòu)成樹(shù)結(jié)構(gòu);然后通過(guò)樹(shù)結(jié)構(gòu)進(jìn)行敏感詞匹配。流程上,通過(guò)create_node函數(shù)新建節(jié)點(diǎn),使用dfa 函數(shù)掃描待測(cè)文本,以add_word函數(shù)添加關(guān)鍵詞,以add_words 函數(shù)添加關(guān)鍵詞組,最后用query 函數(shù)查詢是否包含敏感詞。如表3 所示。

        3.2 算法實(shí)踐

        (1)數(shù)據(jù)抽?。罕疚膶?shí)驗(yàn)數(shù)據(jù)的原始樣本共2000 條,其中正常樣本1600 條,違法違規(guī)內(nèi)容樣本400 條。以9:1的比例通過(guò)train_test_split 函數(shù)劃分訓(xùn)練集和測(cè)試集,即訓(xùn)練集占90%,測(cè)試集占10%。

        (2)特征抽?。河?jì)算訓(xùn)練集和測(cè)試集的特征向量。

        表3 DFA 算法函數(shù)介紹

        (3)建立模型:使用Sklearn 機(jī)器學(xué)習(xí)庫(kù)中的Count Vectorizer、TFIDF Vectorizer、Hashing Vectorizer 三種詞袋模型,配置模型重要參數(shù),得到預(yù)測(cè)結(jié)果。如表4 所示。

        表4 隨機(jī)森林模型重要參數(shù)設(shè)置

        (4)性能計(jì)算:計(jì)算三種模型評(píng)價(jià)指標(biāo),包括準(zhǔn)確率(Precision)和召回率(Recall)。

        (5)重復(fù)1-4 步,共進(jìn)行10 輪實(shí)驗(yàn),計(jì)算平均結(jié)果。

        從平均性能來(lái)看,Hashing Vectorizer 模型表現(xiàn)最好,TFIDF Vectorizer 模型其次,Count Vectorizer 模型表現(xiàn)最差。如表5 所示。

        表5 隨機(jī)森林模型實(shí)驗(yàn)性能結(jié)果

        4 結(jié)束語(yǔ)

        本文基于對(duì)互聯(lián)網(wǎng)企業(yè)內(nèi)容日志的現(xiàn)場(chǎng)技術(shù)檢查需求,提出了一種內(nèi)容日志的自動(dòng)化檢測(cè)工具設(shè)計(jì)方案,并完成了檢測(cè)工具的實(shí)現(xiàn)開(kāi)發(fā)。該工具內(nèi)嵌機(jī)器學(xué)習(xí)算法模型,并支持基于關(guān)鍵詞的詞庫(kù)檢測(cè)、基于算法的模型檢測(cè)和基于前兩者混合的檢測(cè)三種檢測(cè)模式,可根據(jù)現(xiàn)場(chǎng)檢查需要靈活調(diào)整檢測(cè)模式,快速、高效發(fā)現(xiàn)涉詐、涉黃、涉賭等違法有害信息。

        四虎影视国产在线观看精品| 2019nv天堂香蕉在线观看| 国模雨珍浓密毛大尺度150p| 又粗又大又黄又爽的免费视频| 国产精品一区2区三区| 国产精品视频白浆免费看| 国产精品视频白浆免费看| 西川结衣中文字幕在线| 精品少妇人妻av无码专区| 国产自偷亚洲精品页65页| 国产高清国内精品福利99久久| 久久午夜一区二区三区| 在线免费看91免费版.| 久久精品国产亚洲7777| 中文乱码人妻系列一区二区| 97色偷偷色噜噜狠狠爱网站97| 久久久成人av毛片免费观看| 色小姐在线视频中文字幕| 中文无码人妻有码人妻中文字幕 | 亚洲精品网站在线观看你懂的| 亚洲熟女av超清一区二区三区| 黄片免费观看视频播放| 国产夫妇肉麻对白| 亚洲中文无码av在线| 中文字幕一二区中文字幕| 亚洲乱熟妇一区二区三区蜜桃| 老师开裆丝袜喷水视频| 国产老熟女狂叫对白| 完整在线视频免费黄片| 国产影片一区二区三区| 亚洲成在人网站av天堂| 亚洲mv国产精品mv日本mv| 久久亚洲综合亚洲综合| 欧美成人猛片aaaaaaa| 亚洲中文字幕无码永久在线| 谁有在线观看av中文| 91精品国产色综合久久| 精品亚洲成a人无码成a在线观看| 日韩精品无码区免费专区| 天堂a版一区二区av| 欧美黑人巨大videos精品|