亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的網(wǎng)站敏感信息識(shí)別及其變體還原技術(shù)研究

        2024-11-30 00:00:00符澤凡姚竟發(fā)滕桂法
        現(xiàn)代電子技術(shù) 2024年23期

        摘" 要: 針對(duì)各類網(wǎng)站為了避免被檢測(cè)到敏感信息,網(wǎng)站內(nèi)的文字常采用變體詞對(duì)敏感詞詞庫(kù)進(jìn)行規(guī)避。為解決這一問題,文中提出一種基于BERT模型結(jié)合變體字還原算法的網(wǎng)站敏感信息識(shí)別的方法。該方法將針對(duì)文本中的變體詞進(jìn)行還原,通過采用BERT模型對(duì)文本內(nèi)容進(jìn)行向量化,并將其輸入由BiLSTM層和CNN層構(gòu)成的模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對(duì)網(wǎng)站內(nèi)敏感信息及其變體詞的識(shí)別。實(shí)驗(yàn)結(jié)果顯示,變體詞還原的正確率較高,通過BERT模型獲取的文本向量在文本分類任務(wù)中表現(xiàn)出色。與其他模型相比,BERT?BiLSTM?CNN模型在網(wǎng)站敏感信息識(shí)別任務(wù)中表現(xiàn)出更高的準(zhǔn)確率、召回率和[F1]值,呈現(xiàn)明顯的提升。文中模型為變體詞還原問題和敏感信息識(shí)別領(lǐng)域提供了參考和支持,具有一定的實(shí)際應(yīng)用價(jià)值。

        關(guān)鍵詞: 網(wǎng)站; 敏感信息; 變體詞; BERT; 雙向長(zhǎng)短期記憶網(wǎng)絡(luò); 卷積神經(jīng)網(wǎng)絡(luò)

        中圖分類號(hào): TN711?34; TP391.1" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " "文章編號(hào): 1004?373X(2024)23?0105?08

        Research on website sensitive information identification and variant restoration technology based on BERT model

        FU Zefan1, YAO Jingfa2, 3, TENG Guifa1, 4, 5

        (1. College of Information Science and Technology, Hebei Agricultural University, Baoding 071001, China;

        2. Software Engineering Department, Hebei Software Institute, Baoding 071000, China;

        3. Hebei College Intelligent Interconnection Equipment and Multi?modal Big Data Application Technology Research and Development Center, Baoding 071000, China;

        4. Hebei Digital Agriculture Industry Technology Research Institute, Shijiazhuang 050021, China;

        5. Hebei Key Laboratory of Agricultural Big Data, Baoding 071001, China)

        Abstract: In view of the rapid development of the network and the decreasing cost of website establishment, to avoid detection of sensitive information, variant words are frequently utilized within texts of various types of websites, so that the sensitive word databases can be evaded. Therefore, this study proposes a method for identifying website sensitive information based on a BERT (bidirectional encoder representation from transformers) model combined with a variant word restoration algorithm. In this method, the variant words within the texts are restored, the text content are vectorized by the BERT model and then inputted into a model composed of BiLSTM (bi?directional long short?term memory) layer and CNN (convolutional neural network) layer for training, so as to achieve the identification of sensitive information and its variant words within websites. Experimental results demonstrate a high accuracy in variant word restoration, and the text vectors obtained by the BERT model exhibit excellent performance in the tasks of text classification. In comparison with the other models, the BERT?BiLSTM?CNN model demonstrates higher accuracy rate, recall rate, and [F1] score in the task of identifying sensitive information on websites, which indicates a significant improvement. The proposed model provides reference and support for variant word restoration and the field of sensitive information identification, possessing a certain practical application value.

        Keywords: website; sensitive information; variant word; BERT; BiLSTM; CNN

        0" 引" 言

        隨著網(wǎng)絡(luò)和經(jīng)濟(jì)的發(fā)展,互聯(lián)網(wǎng)用戶的增多,個(gè)人網(wǎng)站的創(chuàng)建成本大幅降低,網(wǎng)站數(shù)量日益增長(zhǎng)。我國(guó)發(fā)布的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》對(duì)保護(hù)隱私信息、追查敏感信息及維護(hù)國(guó)家信息安全等方面提出了嚴(yán)格要求。為更準(zhǔn)確、高效地識(shí)別網(wǎng)絡(luò)敏感信息,研究者們進(jìn)行了大量研究,提出了多種方法,包括基于敏感詞匹配的網(wǎng)絡(luò)敏感信息識(shí)別、基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別和基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別[1]。這些研究提供了主要的思路和方向,為當(dāng)前的網(wǎng)絡(luò)信息安全和網(wǎng)站內(nèi)容管理等領(lǐng)域提供了理論依據(jù),對(duì)于網(wǎng)站內(nèi)可能存在的敏感信息的識(shí)別提供了技術(shù)支持。

        另一方面,網(wǎng)站內(nèi)的內(nèi)容書寫相較于正式的板書更為隨意,其中會(huì)摻雜著大量的網(wǎng)絡(luò)用語(yǔ),對(duì)于變體字的使用也較為頻繁。為了避免和躲避網(wǎng)絡(luò)監(jiān)管的審查和檢測(cè),部分網(wǎng)站內(nèi)的文本內(nèi)容會(huì)采用大量的變體字進(jìn)行規(guī)避,通過變體字躲避網(wǎng)絡(luò)監(jiān)管的敏感詞詞庫(kù)的檢測(cè)。而中文漢字的多變性和諧音也阻礙了更好地檢測(cè)出網(wǎng)站內(nèi)可能存在的敏感信息。對(duì)于變體字的還原和識(shí)別成為敏感信息識(shí)別和檢測(cè)的重要課題之一。

        以上問題的出現(xiàn)有礙于對(duì)網(wǎng)站內(nèi)容的管理和敏感信息的識(shí)別檢測(cè)。針對(duì)這些問題,本文引入變體詞還原算法對(duì)變體詞進(jìn)行還原,并且通過構(gòu)建BERT?BiLSTM?CNN語(yǔ)言模型對(duì)網(wǎng)站內(nèi)可能存在的敏感信息識(shí)別任務(wù)進(jìn)行訓(xùn)練,主要工作如下。

        1) 對(duì)變體詞進(jìn)行識(shí)別和還原:由于變體詞形式較為多變,如拼音、縮寫、添詞、刪詞等形式均在當(dāng)今互聯(lián)網(wǎng)網(wǎng)站中以組合的形式出現(xiàn),這使得敏感詞詞庫(kù)難以通過簡(jiǎn)單的匹配檢測(cè)出文本中可能包含的敏感信息。因此,在對(duì)敏感信息進(jìn)行檢測(cè)和識(shí)別之前需要對(duì)變體詞進(jìn)行識(shí)別,將其還原為原來(lái)的詞語(yǔ),為后續(xù)的敏感信息檢測(cè)工作提供語(yǔ)料。

        2) 訓(xùn)練語(yǔ)言模型以識(shí)別變體字和敏感信息:通過采用BERT模型對(duì)文本內(nèi)容進(jìn)行向量化。BiLSTM用于捕獲文本的上下文信息,CNN則可以通過使用不同尺寸的卷積核對(duì)待測(cè)文本的語(yǔ)義信息進(jìn)行提取。實(shí)驗(yàn)結(jié)果表明,該模型在變體詞和敏感信息的識(shí)別任務(wù)上對(duì)比其他模型表現(xiàn)更優(yōu)。

        1" 相關(guān)工作

        當(dāng)前對(duì)于互聯(lián)網(wǎng)網(wǎng)站的敏感信息識(shí)別的主要研究方法大體可以分為以下三類。

        1) 基于敏感信息匹配原則,通過構(gòu)建敏感詞詞庫(kù)和相應(yīng)的詞典,根據(jù)詞典中對(duì)應(yīng)的敏感詞進(jìn)行敏感信息的檢測(cè)以及后續(xù)的分類識(shí)別。如文獻(xiàn)[2]通過人工構(gòu)建敏感信息詞庫(kù)的方式,根據(jù)敏感詞在語(yǔ)料中的頻率計(jì)算文本信息的敏感度,從而實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中存在的敏感信息的識(shí)別。此類方法依賴于敏感詞庫(kù)和詞典的構(gòu)建,同時(shí)整體算法的最終效果也與敏感詞詞庫(kù)和詞典的質(zhì)量相關(guān)。需要消耗一定的人力和時(shí)間專注于敏感詞詞庫(kù)的維護(hù)。此類方法在面對(duì)突發(fā)事件和專項(xiàng)行動(dòng)任務(wù)時(shí),對(duì)于新出現(xiàn)的個(gè)別敏感詞無(wú)法進(jìn)行精確的識(shí)別,從而導(dǎo)致時(shí)效性較差。

        2) 基于傳統(tǒng)的機(jī)器學(xué)習(xí)的敏感信息識(shí)別,通過特征提取的方式實(shí)現(xiàn)了對(duì)于敏感信息的識(shí)別檢測(cè)。如文獻(xiàn)[3]從敏感信息特征中提取出支持向量,對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,通過這種方法提高網(wǎng)絡(luò)敏感信息識(shí)別的檢測(cè)速度以及其準(zhǔn)確性。文獻(xiàn)[4]從輿情特征信息詞中提取出包含的輿情敏感信息,研究輿情敏感信息與突發(fā)事件情景之間的關(guān)系,通過生成映射函數(shù)的方法提高網(wǎng)絡(luò)敏感信息不同情景的分類效果。

        3) 基于深度學(xué)習(xí)的敏感信息識(shí)別。在機(jī)器學(xué)習(xí)的基礎(chǔ)上,通過引入深度學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò),以彌補(bǔ)機(jī)器學(xué)習(xí)在語(yǔ)義信息和語(yǔ)境判斷方面的不足。如文獻(xiàn)[5]使用深度學(xué)習(xí)的方法,對(duì)于輿情中含有敏感信息的部分進(jìn)行識(shí)別和篩查,以發(fā)現(xiàn)網(wǎng)絡(luò)中含有敏感信息的部分。文獻(xiàn)[6]通過BERT模型方法和語(yǔ)義分析方法相結(jié)合,對(duì)新聞的風(fēng)險(xiǎn)水平進(jìn)行評(píng)估,實(shí)現(xiàn)了網(wǎng)絡(luò)新聞敏感信息識(shí)別和敏感程度計(jì)算。

        在中文變體字研究方面,文獻(xiàn)[7]通過分析漢字的結(jié)構(gòu)和讀音等特征,針對(duì)詞的簡(jiǎn)稱、拼音和拆分三種變體形式提出了一種中文敏感詞變形體的識(shí)別方法。文獻(xiàn)[8]則構(gòu)建了概率模型,研究敏感詞中的拼音、縮寫等變形體的特征對(duì)變體詞識(shí)別并且實(shí)現(xiàn)了變體詞的還原。

        2" BERT?BiLSTM?CNN模型構(gòu)建

        2.1" 模型設(shè)計(jì)

        本文通過結(jié)合BERT模型和BiLSTM(雙向長(zhǎng)短期記憶)網(wǎng)絡(luò)以及CNN(卷積神經(jīng)網(wǎng)絡(luò))來(lái)構(gòu)建BERT?BiLSTM?CNN模型。整個(gè)模型結(jié)構(gòu)分為五個(gè)主要部分,分別是輸入層、BERT層、BiLSTM層、CNN層以及最后的輸出層。在輸入層處輸入待檢測(cè)的網(wǎng)站文本內(nèi)容,通過變體詞的還原算法對(duì)需要檢測(cè)的文本內(nèi)容進(jìn)行變體字的檢測(cè)與還原,將含有變體詞的文本轉(zhuǎn)換成普通待檢測(cè)的文本。規(guī)定輸入的文件格式為csv文件,并且字段與規(guī)定字段相匹配。通過BERT層對(duì)文本內(nèi)容進(jìn)行預(yù)處理,并且進(jìn)行詞向量轉(zhuǎn)換。由BERT層進(jìn)入BiLSTM層和CNN層后,對(duì)網(wǎng)站文本內(nèi)容的深層語(yǔ)義特征進(jìn)行提取,最后在文本輸出部分輸出文本內(nèi)容檢測(cè)結(jié)果。具體模型結(jié)構(gòu)如圖1所示。

        2.2" 變體詞還原算法

        針對(duì)網(wǎng)站文本內(nèi)容中可能出現(xiàn)的填詞、少詞、改詞、拼音、縮寫等變體形式,本文采用一種基于編輯距離(Edit Distance)的變體字相似度匹配算法。

        首先根據(jù)匹配算法通過構(gòu)建的敏感詞詞庫(kù)在文本內(nèi)容中檢索出所有含敏感詞的文本,將文本認(rèn)定為敏感信息并不參與接下來(lái)的變體字還原工作?;诰庉嬀嚯x的算法主要依靠與變體詞和還原后的詞之間的編輯距離進(jìn)行相似度的判斷。編輯距離本質(zhì)是操作步數(shù),當(dāng)一個(gè)字符串轉(zhuǎn)化為另一個(gè)字符串時(shí)需要通過一定的步數(shù)進(jìn)行轉(zhuǎn)換,編輯距離為所需的最少操作步數(shù)。例如原詞的漢字排列為“我愛你”,進(jìn)行變體后的變體詞為“我你愛”。將“我愛你”替換為“我你愛”需要進(jìn)行2次替換修改操作,則最小編輯距離[d]=2。替換過程如圖2所示。

        在針對(duì)不同的變體形式中,編輯距離的計(jì)算公式也有所不同。假設(shè)有兩個(gè)字符串[A]和[B],其句子長(zhǎng)度分別為[LA]和[LB] ,則計(jì)算公式如下:

        當(dāng)進(jìn)行增加操作時(shí):

        [d1=ED(Ai-1,Bj)+1] (1)

        當(dāng)進(jìn)行刪除操作時(shí):

        [d2=ED(Ai,Bj-1)+1] (2)

        當(dāng)進(jìn)行修改操作,常出現(xiàn)使用拼音或縮寫進(jìn)行替換,出現(xiàn)拼音縮寫的變體字分為部分為縮寫、全部為縮寫、部分由拼音組成、全部由拼音組成等四種情況[9],例如詞語(yǔ)“六合彩”的拼音縮寫可能是:LHC、6合彩、liu合彩、liuhecai等情況,此時(shí)編輯距離的計(jì)算公式為:

        [d3=ED(Ai-1,Bj-1)," " "Ai=BjED(Ai-1,Bj-1)+1," " "Ai≠Bj] (3)

        若同時(shí)存在多種狀態(tài),則取上述三種狀態(tài)中的最小值作為最小編輯距離。因此,可以得到一個(gè)狀態(tài)轉(zhuǎn)換方程:

        [EDAiBj=max(LA,LB)," " LA=0LB=0minED(Ai-1,Bj)+1,ED(Ai,Bj-1)+1,ED(Ai-1,Bj-1)," nbsp; "Ai=BjED(Ai-1,Bj-1)+1," " "Ai≠Bj] (4)

        得到最小編輯距離后,通過最小編輯距離計(jì)算兩個(gè)句子或是詞語(yǔ)之間的相似度,當(dāng)相似度達(dá)到一定閾值時(shí),判斷為存在變體詞并且通過敏感詞詞庫(kù)內(nèi)的敏感詞對(duì)其進(jìn)行還原操作。

        例如存在句子[A]為“今天氣溫適宜,適合去打球,也適合旅游。”;存在句子[B]為“今天氣溫正常,適合去玩,也適合去旅游?!眲t它們的最小編輯距離為[d]=5。由此可以計(jì)算其相似度,計(jì)算公式如下:

        [similarity=1-EDABmax(LA,LB)=0.75] (5)

        兩個(gè)句子具有75%的相似程度,因此可以判斷兩個(gè)句子類似為同一句話,其表達(dá)的意思相同。變體詞同理,通過計(jì)算變體詞和敏感詞詞庫(kù)中的詞的最小編輯距離,可以獲得變體詞和敏感詞之間的相似度,當(dāng)相似度大于75%時(shí),可以判斷該變體詞的還原形式為敏感詞詞庫(kù)中的敏感詞,則包含有該變體詞的文本信息判斷為敏感信息。75%的閾值可以隨實(shí)際情況而調(diào)整,例如當(dāng)遇到長(zhǎng)句時(shí),可以適當(dāng)下調(diào)相似度閾值,放在錯(cuò)漏潛在的包含敏感信息的句子中。

        2.3" BERT預(yù)訓(xùn)練模型

        中文文本處理與英文有所不同,中文需要考慮到詞和字的區(qū)別。在自然語(yǔ)言處理的語(yǔ)言模型里,BERT系列語(yǔ)言模型效果表現(xiàn)良好。相較于OpenAI的GPT與ELMo這兩個(gè)較為主流的語(yǔ)言模型, BERT采用雙向Transformer作為編碼器[10]。BERT系列語(yǔ)言模型包含有根據(jù)任務(wù)的大小提供可以選擇的base和large版本,對(duì)應(yīng)參數(shù)如表1所示。

        BERT模型主要分為兩個(gè)階段:用于使用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練的預(yù)訓(xùn)練階段(pre?training)和用于增加輸出層后的微調(diào)階段(fine?tuning)。在預(yù)訓(xùn)練階段進(jìn)行預(yù)訓(xùn)練任務(wù)時(shí),會(huì)調(diào)用模型內(nèi)的多個(gè)Encoder結(jié)構(gòu),由多個(gè)Encoder堆疊而成從而實(shí)現(xiàn)預(yù)訓(xùn)練任務(wù),如圖3所示。

        BERT預(yù)訓(xùn)練模型的主要部分為雙向Transformer編碼器,主要核心技術(shù)和思想為自注意力機(jī)制。其思想是計(jì)算一句話中每一詞與所有詞的相互關(guān)系,并利用相互關(guān)系調(diào)整每個(gè)詞的權(quán)重來(lái)獲得新的表達(dá),表示在詞本身語(yǔ)義的基礎(chǔ)上還包含與其他詞的關(guān)系,可以實(shí)現(xiàn)一詞多義的區(qū)分[11]。

        對(duì)于每個(gè)注意力頭,計(jì)算公式為:

        [Attention(Q,K,V)=SoftmaxQKTdkV] (6)

        式中:[Q]為查詢矩陣;[K]為鍵矩陣;[V]為值矩陣。鍵矩陣[K]中的每一個(gè)向量維度都是以[dk]來(lái)表示:

        [dk=d1,d2,…,dn] (7)

        由于在詞向量轉(zhuǎn)化過程中,為防止在最終實(shí)驗(yàn)計(jì)算過程中詞向量維度過高導(dǎo)致詞向量維度膨脹帶來(lái)的計(jì)算問題,公式中對(duì)詞向量維度進(jìn)行開平方的計(jì)算操作。這樣做的目的是使Softmax歸一化指數(shù)函數(shù)的結(jié)果更加穩(wěn)定,以便接下來(lái)在梯度反向傳播過程中模型能夠更加容易地獲取平衡的梯度[12]。

        BERT模型具有兩個(gè)預(yù)訓(xùn)練任務(wù),分別為掩碼語(yǔ)言模型(Masked Language Model, MLM)任務(wù)和NSP任務(wù),通過這兩個(gè)任務(wù)完成對(duì)于文本內(nèi)容特征的學(xué)習(xí)。其中,MLM是BERT及其變體中最重要的預(yù)訓(xùn)練任務(wù),它模擬了雙向上下文推理能力[13]。

        在MLM學(xué)習(xí)方法中,80%采用[mask]token標(biāo)記,10%采用隨機(jī)選取一個(gè)詞來(lái)代替[mask]token,10%保持不變,即用句子中的原始token,如表2所示。

        2.4" BiLSTM層

        長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)由Hochreiter于1997年首次提出。與RNN相比,LSTM增加了一個(gè)“門”結(jié)構(gòu),可以控制信息的丟棄或添加,以控制信息的遺忘和記憶[14]。LSTM網(wǎng)絡(luò)結(jié)構(gòu)控制信息的傳遞主要依托于遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。

        通過[t]-1時(shí)刻內(nèi)的hidden state [ht-1]來(lái)計(jì)算遺忘門[ft],輸出門[it],輸入門[ot]的結(jié)果,計(jì)算公式如下所示:

        [ft=σ(wfxt+ufht-1+bf)] (8)

        [it=σ(wixt+uiht-1+bi)] (9)

        [ot=σ(woxt+uoht-1+bo)] (10)

        通過[t]-1時(shí)刻內(nèi)的hidden state [ht-1]來(lái)計(jì)算候選值[ct]和[ct]的值,計(jì)算公式如下所示:

        [ct=tanh(wcxt+ucht-1+bc)] (11)

        [ct=ft?ct-1+it?ct] (12)

        最終根據(jù)輸出門[ot]和[ct]計(jì)算外部狀態(tài)[ht]。

        [ht=ot?tanh(ct)] (13)

        本文采用的LSTM在前后兩個(gè)方向上提取更多的特征。前向和后向LSTM接收前一層的輸出,并分別從左到右和從右到左進(jìn)行處理[15],計(jì)算公式如下所示:

        [LLSTM=LSTM(wiEi)," " i∈[0,t]] (14)

        [LLSTM=LSTM(wiEi)," " i∈[t,0]] (15)

        最終雙向LSTM模塊連接起來(lái),整個(gè)LSTM模塊接收BERT模塊處理后的向量化輸入,將文本中的正向和逆向語(yǔ)句的序列狀態(tài)信息輸出至下一個(gè)模塊。BiLSTM層結(jié)構(gòu)如圖4所示。

        在前向的LSTML輸入文本后,將會(huì)按照文本內(nèi)容依次得到向量{[hL0],[hL1],[hL2],…,[hLn]},并且同樣對(duì)后向的LSTMR依次輸入文本,按照文本內(nèi)容依次得到向量{[hR0],[hR1],[hR2],…,[hRn]}。通過這種方式就可以得到前后雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)所提供的向量,最后將前向和后向的向量進(jìn)行拼接,得到[n]×2的向量矩陣:{[[hL0,hRn]],[[hL1,hRn-1]],[[hL2,hRn-2]],…,[[hLn,hR0]]}。由于前后向量的方向相反,所以前向LSTM的第一個(gè)向量即[L0]對(duì)應(yīng)著后向LSTM的第[n]個(gè)向量即[Rn],其他向量以此類推。最終得到向量組[{h0,h1,h2,…,hn}]。

        最終輸出結(jié)果為如下公式所示:

        [LLSTM=[LLSTM,LLSTM]] (16)

        2.5" CNN層

        在文本處理中,對(duì)句子做分詞處理,得到詞向量數(shù)據(jù),然后將詞向量數(shù)據(jù)輸入到CNN的卷積層,使用卷積核對(duì)其做卷積操作,得到新的特征矩陣[16]。卷積核在向量矩陣[T]中通過上下滑動(dòng)的方式進(jìn)行特征的提取,利用不同大小的卷積核的向量矩陣滑動(dòng)進(jìn)行卷積。卷積層是CNN的主要構(gòu)建塊,該層通過將數(shù)據(jù)與[N]個(gè)隨機(jī)生成的過濾器進(jìn)行卷積來(lái)計(jì)算語(yǔ)義向量上的卷積函數(shù)[17],從而形成維度大小為[(n-h+1)×1]的特征矩陣,計(jì)算公式如下所示:

        [c=[c1,c2,…,cn-h+1]] (17)

        卷積層文本特征表示公式如下所示:

        [ci=f(Wi?T+b)] (18)

        CNN層的輸入層接受來(lái)自BiLSTM層的上下文語(yǔ)義信息對(duì)特征詞進(jìn)行判斷。模型選用了有別于傳統(tǒng)卷積在圖像處理中所使用的二維卷積,而是選擇更適合處理文本序列的一維卷積作為模型的卷積核[18]。經(jīng)過卷積層[a]后,數(shù)據(jù)經(jīng)過最大池化層處理,然后進(jìn)入卷積層[b]進(jìn)行高維特征學(xué)習(xí)。在二次卷積層處理后,增加平均池化層,使模型更平滑,防止過擬合現(xiàn)象。最終輸出的CNN層結(jié)構(gòu)如圖5所示。

        CNN層處理特征詞步驟如下。

        1) 獲取上一層即BiLSTM層的信息,其中每條數(shù)據(jù)具有相同的維度(256,128)。

        2) 將數(shù)據(jù)輸入到一維卷積層[a]中進(jìn)行處理。其中的卷積核大小為3、維度為64。

        3) 生成的向量進(jìn)入大小為3的最大池化層進(jìn)行處理,最終將向量壓縮為(84,64)。

        4) 接入到一維卷積層[b]中學(xué)習(xí)高維特征。其中的卷積核大小為3,由于要進(jìn)行高維特征學(xué)習(xí),其維度上升為128。

        5) 通過平均池化層將數(shù)據(jù)拉長(zhǎng)變?yōu)橐痪S的數(shù)組形式。

        6) 最終使用Sigmoid為激活函數(shù)在全連接層生成判定值。通過該值判斷特征詞屬于何種類型,從而進(jìn)行文本分類。

        3" 實(shí)驗(yàn)分析

        3.1" 實(shí)驗(yàn)環(huán)境與設(shè)置

        本實(shí)驗(yàn)采用同一套設(shè)備和同一數(shù)據(jù)集,對(duì)不同的模型進(jìn)行訓(xùn)練后,進(jìn)行對(duì)照實(shí)驗(yàn)從而判斷效果最佳的模型。實(shí)驗(yàn)所用設(shè)備的軟件和硬件的版本以及具體型號(hào)如表3所示。

        本實(shí)驗(yàn)基于PyTorch框架,并且選擇了使用CUDA進(jìn)行GPU加速模型的訓(xùn)練。實(shí)驗(yàn)中所需要的環(huán)境配置以及版本號(hào)如表4所示。

        在訓(xùn)練過程中,模型采取統(tǒng)一參數(shù)。經(jīng)過測(cè)試,在相同參數(shù)的情況下各個(gè)模型的訓(xùn)練時(shí)間大約都控制在30 min。參數(shù)配置為:詞向量維度為768,batch_size為128,PAD_size為32,epochs次數(shù)為3次,學(xué)習(xí)率為5×10-5。本文實(shí)驗(yàn)中使用到的數(shù)據(jù)集數(shù)量較多,故上調(diào)了batch大小和學(xué)習(xí)率,并且當(dāng)連續(xù)訓(xùn)練超過1 000個(gè)batch后模型效果仍未提升,則會(huì)提前終止訓(xùn)練,以減少資源和時(shí)間的浪費(fèi)。同時(shí),認(rèn)定此時(shí)的模型參數(shù)已達(dá)到最佳狀態(tài)。表5為模型的詳細(xì)參數(shù)設(shè)置。

        3.2" 數(shù)據(jù)收集與處理

        本文所涉及的實(shí)驗(yàn)數(shù)據(jù)并非來(lái)自第三方的公開數(shù)據(jù)集,而是由個(gè)人及團(tuán)隊(duì)有針對(duì)性地收集和處理的。研究與河北省保定市國(guó)家互聯(lián)網(wǎng)信息辦公室進(jìn)行合作,數(shù)據(jù)收集對(duì)象為河北省保定市及其下屬縣級(jí)市區(qū)域內(nèi)的網(wǎng)站。通過由河北省保定市互聯(lián)網(wǎng)信息辦公室提供的名單,使用網(wǎng)絡(luò)爬蟲針對(duì)保定市區(qū)域內(nèi)的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行文本信息的爬取。網(wǎng)絡(luò)爬蟲所使用的框架為Scrapy框架。Scrapy架構(gòu)由引擎、調(diào)度器、下載器、數(shù)據(jù)分析與數(shù)據(jù)管道五方面構(gòu)成[19]。在爬取策略方面選擇廣度優(yōu)先,優(yōu)先遍歷網(wǎng)站內(nèi)的全部子頁(yè)面。

        在數(shù)據(jù)收集的過程中,采用網(wǎng)絡(luò)爬蟲方式,共爬取10 370家網(wǎng)站,其中政府類型的網(wǎng)站為27家。

        在與保定市互聯(lián)網(wǎng)信息辦公室溝通合作后,由保定市互聯(lián)網(wǎng)信息辦公室提供敏感詞列表,基于國(guó)家對(duì)網(wǎng)絡(luò)信息安全風(fēng)險(xiǎn)防控與治理的主要焦點(diǎn)問題,結(jié)合《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》和《互聯(lián)網(wǎng)信息服務(wù)管理辦法》的相關(guān)內(nèi)容[20]進(jìn)行單獨(dú)敏感詞詞庫(kù)的構(gòu)建。

        敏感詞列表內(nèi)的敏感詞進(jìn)行了敏感詞類型分類,并且對(duì)每一個(gè)敏感詞類型都添加了相對(duì)應(yīng)的標(biāo)簽,最后統(tǒng)計(jì)每個(gè)敏感詞類型內(nèi)所含敏感詞的數(shù)量。敏感詞詞庫(kù)信息如表6所示。

        在文本預(yù)處理階段,首先需要對(duì)語(yǔ)料文本進(jìn)行分詞處理。將收集到的原始文本內(nèi)容進(jìn)行分詞處理后,使用基于匹配原則的方法識(shí)別出文本內(nèi)包含有上述敏感詞詞庫(kù)內(nèi)的敏感詞文本,并且通過查找敏感詞對(duì)應(yīng)的標(biāo)簽找到其對(duì)應(yīng)的敏感詞類型。

        在中文文本環(huán)境下的分詞領(lǐng)域內(nèi),jieba(結(jié)巴)分詞的分詞效果較為優(yōu)秀,并且可以提供多種不同的分詞模式以適配所需要的分詞效果。分詞模式選擇全模式分詞,可以做到盡可能地將全部的詞切分出來(lái)。在分詞過程中,如果文本中包含有自定義詞典內(nèi)的詞,則認(rèn)為該文本包含有所需識(shí)別的敏感詞。

        數(shù)據(jù)集內(nèi)的文本格式為[label,text],如:[7,開云體育競(jìng)技]。將全部數(shù)據(jù)集以6∶2∶2的比例分配為訓(xùn)練集(Train)、測(cè)試集(Test)和驗(yàn)證集(Val),最終獲得數(shù)據(jù)集信息如表7所示。

        3.3" 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)選擇準(zhǔn)確率、召回率以及[F1]數(shù)值作為評(píng)判標(biāo)準(zhǔn),其計(jì)算公式分別如下所示:

        [Acc=TP+TNTP+FP+FN+TN] (19)

        [R=TPTP+FN] (20)

        [F1=2TP2TP+FP+FN] (21)

        式中:TP(True Positive)和FN(False Negative)為在正樣本的情況下被正確識(shí)別為正樣本和被錯(cuò)誤識(shí)別為負(fù)樣本的情況;FP(False Positives)和TN(True Negative)為在負(fù)樣本的情況下被錯(cuò)誤識(shí)別為正樣本和被正確識(shí)別為負(fù)樣本的情況。

        實(shí)驗(yàn)分為兩組:不包含變體詞組和包含變體詞組,兩組實(shí)驗(yàn)采用相同的實(shí)驗(yàn)環(huán)境和配置,以及相同的對(duì)照組模型。實(shí)驗(yàn)最終結(jié)果如表8、表9所示。

        根據(jù)上述兩組實(shí)驗(yàn)結(jié)果得出:在對(duì)于網(wǎng)站內(nèi)的敏感信息(不含變體詞)進(jìn)行識(shí)別任務(wù)中,與其他模型相比,本文提出的基于BERT?BiLSTM?CNN模型在此類任務(wù)中表現(xiàn)得更為出色,其性能指標(biāo)在數(shù)值上有明顯提升。其準(zhǔn)確率可以達(dá)到95%以上,召回率達(dá)到95%,[F1]值達(dá)到96%。在第二組實(shí)驗(yàn)中,考慮到變體詞的干預(yù),其他模型的準(zhǔn)確率普遍下降,而本文采用的基于編輯距離的變體詞還原算法準(zhǔn)確率仍可達(dá)到88%以上,召回率達(dá)到91%,[F1]值達(dá)到89%。實(shí)驗(yàn)結(jié)果表明,BERT模型所獲取的文本向量在任務(wù)中表現(xiàn)良好。而基于BERT?BiLSTM?CNN模型在網(wǎng)站文本敏感信息的檢測(cè)和識(shí)別任務(wù)上的表現(xiàn)優(yōu)于其他模型,準(zhǔn)確率、召回率、[F1]值都有顯著提升。當(dāng)面對(duì)通過變體詞隱藏敏感信息的情況時(shí),本文方法仍能保持較高的準(zhǔn)確率,有效解決了網(wǎng)站中可能存在的敏感信息及其變體形式的識(shí)別問題。

        綜上所述,本文提出的基于BERT?BiLSTM?CNN模型的網(wǎng)站文本敏感信息及其變體識(shí)別的方法能夠更好地完成對(duì)網(wǎng)站內(nèi)可能存在的敏感文本信息進(jìn)行識(shí)別,并且可以較為優(yōu)秀地針對(duì)敏感信息可能出現(xiàn)的變體形式進(jìn)行還原。對(duì)當(dāng)前日益增多的網(wǎng)站內(nèi)可能存在的敏感信息和對(duì)其變體形式識(shí)別困難的問題提供了較為有效的解決方法。

        4" 結(jié)" 語(yǔ)

        本文從當(dāng)前網(wǎng)絡(luò)中日益增多的網(wǎng)站數(shù)量導(dǎo)致網(wǎng)站內(nèi)文本內(nèi)容頻繁出現(xiàn)敏感信息的問題出發(fā),著重分析和研究了有關(guān)區(qū)域內(nèi)網(wǎng)站上的文本內(nèi)容中敏感信息部分的相關(guān)檢測(cè)和分類技術(shù),提出了一種基于BERT模型的網(wǎng)站敏感信息識(shí)別及變體還原方法。通過變體詞還原算法將變體詞進(jìn)行還原后,使用深度學(xué)習(xí)的方法,將BERT語(yǔ)言模型與雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,充分發(fā)揮各網(wǎng)絡(luò)模型的優(yōu)勢(shì)。目前在針對(duì)互聯(lián)網(wǎng)網(wǎng)站內(nèi)存在的敏感信息識(shí)別任務(wù)中,不單局限于使用一種單一模型來(lái)解決問題,例如多任務(wù)學(xué)習(xí)與CNN網(wǎng)絡(luò)結(jié)合[21]、使用TF?IDF改進(jìn)聚類算法 [22]等多種模型和算法融合的方法來(lái)解決問題,其融合實(shí)驗(yàn)結(jié)果相較于單一模型有明顯提升。多模型融合也會(huì)是未來(lái)將要著重研究的方向。

        在日后的工作和研究中,敏感詞詞庫(kù)仍然有待優(yōu)化和提升。針對(duì)更多形式的變體詞,如拆字、諧音詞、生僻字或是帶有emoji的詞組等形式的變體詞需要更多的還原方法。

        注:本文通訊作者為姚竟發(fā)。

        參考文獻(xiàn)

        [1] 吳樹芳,楊強(qiáng),侯曉舟,等.基于SSI?GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識(shí)別研究[J].情報(bào)雜志,2023,42(11):119?125.

        [2] 杜智濤,謝新洲.利用灰色預(yù)測(cè)與模式識(shí)別方法構(gòu)建網(wǎng)絡(luò)輿情預(yù)測(cè)與預(yù)警模型[J].圖書情報(bào)工作,2013,57(15):27?33.

        [3] LI W P, WU H Y, YANG J. Intelligent recognition algorithm for social network sensitive information based on classification technology [J]. Discrete and continuous dynamical systems?S, 2019, 12(4/5): 1385?1398.

        [4] 陳祖琴,蔣勛,葛繼科.基于網(wǎng)絡(luò)輿情敏感信息的突發(fā)事件情景分析[J].現(xiàn)代情報(bào),2021,41(5):25?32.

        [5] 鄧?yán)?,孫培洋.基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)研究[J].電子科技,2022,35(12):97?102.

        [6] 李瀛,王冠楠.網(wǎng)絡(luò)新聞敏感信息識(shí)別與風(fēng)險(xiǎn)分級(jí)方法研究[J].情報(bào)理論與實(shí)踐,2022,45(4):105?112.

        [7] 付聰,余敦輝,張靈莉.面向中文敏感詞變形體的識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究,2019,36(4):988?991.

        [8] WANG A B, KAN M Y. Mining informal language from Chinese microtext: Joint word recognition and segmentation [C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2013: 731?741.

        [9] 路松峰,鄭召作,周軍龍,等.融合變體字還原和語(yǔ)義分析的敏感信息檢測(cè)[J].湖北大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,45(6):879?887.

        [10] WANG Z N, JIANG M, GAO J L, et al. Chinese named entity recognition method based on BERT [J]. Computer science, 2019, 46(S2): 138?142.

        [11] LI Y C, QIAN L F, MA J. Early detection of micro blog rumors based on BERT?RCNN model [J]. Information studies: Theory amp; application, 2021, 44(7): 173?177.

        [12] 綦方中,田宇陽(yáng).基于BERT和LDA模型的酒店評(píng)論文本挖掘[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(7):71?76.

        [13] CUI Y M, CHE W X, LIU T. Pre?training with whole word masking for Chinese BERT [C]// IEEE/ACM Transactions on Audio, Speech, and Language Processing. New York: IEEE, 2021: 3504?3514.

        [14] LI X Y, RAGA R C. BiLSTM model with attention mechanism for sentiment classification on Chinese mixed text comments [J]. IEEE access, 2023, 11: 26199?26210.

        [15] KAUR K, KAUR P. BERT?RCNN: An automatic classification of APP reviews using transfer learning based RCNN deep model [EB/OL]. [2023?01?24]. https://doi.org/10.21203/rs.3.rs?2503700/v1.

        [16] 胡任遠(yuǎn),劉建華,卜冠南,等.融合BERT的多層次語(yǔ)義協(xié)同模型情感分析研究[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(13):176?184.

        [17] KAUR K, KAUR P. BERT?CNN: Improving BERT for requirements classification using CNN [J]. Procedia computer science, 2023, 218: 2604?2611.

        [18] 江魁,余志航,陳小雷,等.基于BERT?CNN的Webshell流量檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2023,43(z1):126?132.

        [19] 劉多林,呂苗.Scrapy框架下分布式網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集算法仿真[J].計(jì)算機(jī)仿真,2023,40(6):504?508.

        [20] 李潔,周毅.網(wǎng)絡(luò)信息內(nèi)容生態(tài)安全風(fēng)險(xiǎn):內(nèi)涵、類型、成因與影響研究[J].圖書情報(bào)工作,2022,66(5):4?12.

        [21] 孟旭陽(yáng),徐雅斌.社交網(wǎng)絡(luò)中的敏感內(nèi)容檢測(cè)方法研究[J].現(xiàn)代電子技術(shù),2019,42(15):72?78.

        [22] 孟彩霞,陳紅玉.基于TF?IDF改進(jìn)聚類算法的網(wǎng)絡(luò)敏感信息挖掘[J].現(xiàn)代電子技術(shù),2015,38(24):44?46.

        作者簡(jiǎn)介:符澤凡(2000—),男,河北保定人,碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理。

        姚竟發(fā)(1983—),男,河北衡水人,博士研究生,講師,碩士生導(dǎo)師,研究方向?yàn)榇髷?shù)據(jù)與人工智能。

        滕桂法(1963—),男,河北衡水人,博士研究生,教授,博士生導(dǎo)師,主要從事人工智能應(yīng)用技術(shù)研究。

        亚洲七七久久综合桃花| 国产a在亚洲线播放| 永久免费观看的黄网站在线| 深夜福利国产精品中文字幕| 小妖精又紧又湿高潮h视频69| 日本午夜精品一区二区三区电影| 中文字幕在线观看亚洲日韩 | 国产成人AV无码精品无毒| 一区二区三区四区四色av| 亚洲最大在线视频一区二区| 我和丰满妇女激情视频| 精品国产麻豆免费人成网站| 人人爽久久涩噜噜噜av| 亚洲成人观看| 国产成人一区二区三区影院免费| 国产一区二区三区亚洲精品| 中文字幕第一页人妻丝袜| 亚洲a∨无码男人的天堂| 亚洲饱满人妻视频| 亚洲双色视频在线观看| 宅男天堂亚洲一区二区三区| 日本不卡的一区二区三区中文字幕| 国产精品高清一区二区三区不卡| 亚洲国产精品嫩草影院久久| 国产精品98视频全部国产| 一区二区三区在线观看视频精品| 中国美女a级毛片| 国产丰满老熟女重口对白| 精品人妻免费看一区二区三区| 久久精品一区二区三区蜜桃| 芒果乱码国色天香| 精品综合久久久久久97超人 | 亚洲视频观看一区二区| 精品粉嫩av一区二区三区| 日本天堂免费观看| 国产免费一区二区三区在线观看| 成人片99久久精品国产桃花岛| 日韩美女av二区三区四区| 亚洲av高清天堂网站在线观看| 亚洲一卡2卡3卡4卡5卡精品| 亚洲av日韩av不卡在线观看|