亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的網(wǎng)絡(luò)不良文本識別分析研究

        2021-08-15 13:18:26武夢旭
        統(tǒng)計理論與實踐 2021年7期
        關(guān)鍵詞:分類特征文本

        武夢旭

        (燕山大學(xué) 理學(xué)院,河北 秦皇島066004)

        一、引言

        識別網(wǎng)絡(luò)不良文本問題的實質(zhì)是文本分類問題,即將網(wǎng)絡(luò)文本分為正常文本和不良文本兩類,其中不良文本多是敏感性、攻擊性、辱罵性的內(nèi)容。對于不良文本信息的攔截過濾技術(shù)研究可以追溯到21世紀初,Denning[1]首次提出了垃圾信息過濾的概念,在郵件的接收過程中可以通過郵件內(nèi)容判斷郵件的緊急性,以保證郵件接收者及時處理緊急郵件。近年來,許多研究人員在社交媒體安全性研究方面取得了長足進步,對不良內(nèi)容的過濾許多都是基于黑白名單、關(guān)鍵字、規(guī)則表達式和分類技術(shù)等方法。Njaji、Zhang等[2]利用與仇恨言論相關(guān)的主觀性和語義特征,構(gòu)建包含仇恨動詞的詞典來檢測仇恨言論。Silva、Mondal等[3]根據(jù)句子結(jié)構(gòu)提出一個基本表達式來檢測Whisper和Twitter中的仇恨言論,并將這些仇恨言論通過人工標記劃分細粒度。

        隨著自然語言處理技術(shù)的發(fā)展以及計算機性能的提高,深度學(xué)習(xí)網(wǎng)絡(luò)模型逐漸應(yīng)用到文本分類領(lǐng)域,憑借其高效的特征提取方法,能夠有效的提升分類效果。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是深度神經(jīng)網(wǎng)絡(luò)的兩個主要結(jié)構(gòu)。Le、Botton等[4]在研究計算機圖像處理時首次提出卷積神經(jīng)網(wǎng)絡(luò),主要利用卷積核提取局部特征,效果優(yōu)于當時其他技術(shù)。Socher、Huval等[5]利用矩陣和向量構(gòu)建了一個循環(huán)神經(jīng)網(wǎng)絡(luò)(MV-RNN),通過該網(wǎng)絡(luò)能夠從任意句法類型和長短不一的句子中學(xué)習(xí)潛在的語義關(guān)系,每個句子生成長度一致的特征向量,實驗結(jié)果顯示相比傳統(tǒng)機器學(xué)習(xí)算法其效果更好。Yang、Zhang等[6]基于兩個前后連接的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)并結(jié)合注意力機制(Attention Mechanism)構(gòu)建分層注意力網(wǎng)絡(luò)模型,在單詞層面和句子層面應(yīng)用兩個級別的注意機制對文本內(nèi)容進行編碼,取得較好的分類效果。

        網(wǎng)絡(luò)不良文本多由網(wǎng)民自主創(chuàng)造,具有靈活多變的特點。深度學(xué)習(xí)模型能自主地學(xué)習(xí)文本中的特征,可以有效地避免人工標準特征存在的不足,并且深度學(xué)習(xí)模型能通過不斷的學(xué)習(xí)來適應(yīng)文本的變化。

        二、基于特征融合的BiLSTM模型

        (一)模型總體設(shè)計

        將詞特征和語義特征結(jié)合,提出一種基于多特征融合的BiLSTM模型的網(wǎng)絡(luò)不良文本分類方法,用于提高檢測的性能,模型結(jié)構(gòu)圖如圖1所示。該方法主要由三部分組成,第一部分是利用N-Gram進行文本詞特征的向量表示,第二部分是使用Word2Vec模型提取深層語義特征,第三部分是將這兩部分的特征向量拼接相融合并使用Softmax激活函數(shù)實現(xiàn)分類。

        圖1 多特征融合的BiLSTM模型結(jié)構(gòu)圖

        1.詞特征提取

        選用語法特征作為詞特征。N-Gram是一種基于統(tǒng)計語言模型的算法,對文本內(nèi)容按照字節(jié)采取大小為N的滑動窗口操作,形成長度是N的字節(jié)片段序列,即將連續(xù)的N個詞作為向量空間中的一個維度。忽視一個文本的詞序、語法,句法,僅將其視為一個詞集合,且假設(shè)文中的每個詞的出現(xiàn)都是獨立的,不依賴于其他詞是否出現(xiàn),則從一個句子中提取N個連續(xù)的單詞,可以獲取到詞的前后信息。

        N-Gram模型基于隱馬爾科夫假設(shè),各個詞出現(xiàn)的概率乘積就等于整個句子出現(xiàn)的概率,各個詞出現(xiàn)的概率可以直接通過語料統(tǒng)計計算得到。當一個詞的出現(xiàn)只依賴于前一個詞,概率計算公式如下:

        如果一個詞的出現(xiàn)僅依賴于它前面出現(xiàn)的兩個詞時,概率計算公式如下:

        公式(1)和(2)中,n表示文本包含的詞數(shù)量,每一個詞用 wi表示,P(wi|wi-1)和 P(wi|wi-1wi-2)表示在文本中前1個詞是wi-1和前2個詞是wi-1、wi-2的條件下第i個詞是wi的概率。

        在對n值的選取上,n越大計算所依賴的詞越多,可獲得的信息量越多,對未來的預(yù)測就越準確,模型效果也越好。然而,考慮到網(wǎng)絡(luò)不良文本中存在較多拼寫錯誤和語法不規(guī)范問題,若n取值較大,可以獲得下一個詞更多的約束信息,但很容易出現(xiàn)訓(xùn)練集中沒有的詞,產(chǎn)生數(shù)據(jù)稀疏。若n取值較小,則在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,統(tǒng)計結(jié)果更可信。所以n取值不宜過大,可以取n值為2,選用Bi-gram提取文本詞特征。

        2.語義特征提取

        采用結(jié)合Word2Vec預(yù)訓(xùn)練詞嵌入的BiLSTM(Bi-directional Long Short-Term Memory)模型提取深層語義特征。首先,采用Word2Vec方法中的CBOW模型進行詞向量的表示。其次,BiLSTM作為文本特征的映射器,將CBOW模型學(xué)習(xí)到的文本詞向量輸入BiLSTM模型的數(shù)據(jù)通道中,在forward層從前向后計算一遍,在backward層從后往前運算一遍,每個時刻結(jié)合forward層和backward層的相應(yīng)時刻輸出的結(jié)果,經(jīng)過映射和激活函數(shù)的處理,將得到一組輸出,并將其進行全連接處理,作為文本語義特征。

        (1)Word2Vec

        Word2Vec在語料集訓(xùn)練上主要分為CBOW(Continuous Bag-of-Word Model)和 Skip-Gram兩種模式,結(jié)構(gòu)如圖2所示。其中CBOW是在NNLM的基礎(chǔ)上去除前向反饋神經(jīng)網(wǎng)絡(luò)中的非線性隱層,直接將中間層與輸出層連接,輸入層輸入詞的One-Hot向量,隱藏層直接對輸入的向量累加求和并取平均值的運算,輸出層輸出當前詞的某個向量概率,向量概率最大的位置代表的單詞為預(yù)測出的中間詞,即CBOW是從上下文到當前詞的某種映射或者預(yù)測,CBOW模型的目標函數(shù)是輸出的真實中心詞概率最大,計算公式為:

        圖2 CBOW和Skip-Gram模型結(jié)構(gòu)示意圖

        公式(3)中,wt表示當前詞匯,wt-c,wt-1,wt+1,…,wt+c表示與wt距離c個單位以內(nèi)的詞匯,通過相鄰的c個詞匯可以計算wt的概率分布,然后使用中間隱藏層進行均值計算得到詞匯wt的詞向量表示。Skip-Gram則是從當前詞預(yù)測上下文,Skip-Gram模型的計算公式如下:

        (2)BiLSTM

        LSTM模型是RNN的一種變體,RNN存在梯度消失的問題且只有短期記憶。LSTM將短期記憶與長期記憶通過精妙的門控制結(jié)合起來,并且在一定程度上緩解了梯度消失的問題,LSTM結(jié)構(gòu)圖如圖3所示。LSTM模型只使用了上文的信息,而沒有考慮到下文的信息,而預(yù)測可能需要使用到整個輸入序列的信息,BiLSTM是結(jié)合文本從前到后作為輸入的LSTM和從后向前作為輸入的LSTM組合而成,BiLSTM結(jié)構(gòu)圖如圖4所示。

        圖3 LSTM結(jié)構(gòu)圖

        圖4 BiLSTM結(jié)構(gòu)圖

        LSTM包括輸入門、遺忘門、輸出門三個“門”結(jié)構(gòu),通過對細胞狀態(tài)中信息遺忘和記憶新的信息使得對后續(xù)時刻計算有用的信息得以傳遞,而無用的信息被丟棄,并在每個時間步輸出隱層狀態(tài),遺忘門決定從細胞狀態(tài)中丟棄信息,通過上一個細胞狀態(tài)的輸出和當前細胞的輸入,使用Sigmoid函數(shù)輸出一個在0到1之間的數(shù)值,1表示完全保留信息,0表示完全舍棄。其計算公式為:

        輸出門確定輸出值。確定細胞狀態(tài)的輸出部分ot,然后對細胞狀態(tài)進行過濾處理確定輸入部分ht:

        其中xt為t時刻的輸入詞向量,ht-1表示循環(huán)單元上一時刻的隱層狀態(tài),Wf,Wi,Wo,WC分別表示上一時刻輸出值在遺忘門、記憶門、輸出門、臨時細胞狀態(tài)更新中的權(quán)重系數(shù),bf、bi、bo、bC表示遺忘門、記憶門、輸出門、臨時細胞狀態(tài)的更新偏置量。

        3.輸出層

        對本節(jié)模型的前兩部分的中間層輸出向量作拼接的靜態(tài)融合,得到該模型的特征向量,包含了詞和語義兩種特征,然后進行協(xié)同訓(xùn)練使用Softmax激活函數(shù)將特征向量轉(zhuǎn)化成概率,根據(jù)概率判斷網(wǎng)絡(luò)文本是正常文本或不良文本,其計算公式為:

        (二)模型實驗

        1.數(shù)據(jù)采集及標注

        通過網(wǎng)絡(luò)爬蟲的方式進行網(wǎng)絡(luò)文本數(shù)據(jù)的采集。采用Scrapy框架在微博平臺上獲取相應(yīng)數(shù)據(jù),這個框架爬取數(shù)據(jù)的結(jié)構(gòu)圖如圖5所示。

        圖5 微博數(shù)據(jù)爬取流程圖

        網(wǎng)絡(luò)文本分析所需要的數(shù)據(jù)類型主要包括兩部分:網(wǎng)絡(luò)不良文本和網(wǎng)絡(luò)正常文本。從微博社區(qū)管理中心的舉報處理大廳收集來自人身攻擊類、辱罵低俗類的微博。從微博首頁收集正常微博,共搜集微博文本數(shù)據(jù)8000條,并對所有數(shù)據(jù)集按照8:2的比例分配給訓(xùn)練集和測試集。對于爬取到的微博文本數(shù)據(jù),根據(jù)其是否為不良文本用0和1對其進行人工標記,其中不良文本標記為1,正常文本標記為0,實驗數(shù)據(jù)見表1。

        表1 文本分類實驗數(shù)據(jù)表

        2.文本預(yù)處理

        微博搜集的文本存在噪音干擾大的問題,針對微博文本采取以下方法對文本數(shù)據(jù)集進行預(yù)處理,從而提高網(wǎng)絡(luò)不良文本的識別精確度。

        (1)去噪

        構(gòu)建正則表達式過濾html、url,去除@及用戶名、情感符號和非中英文的字符,保留文本中的標簽信息以及將繁體字轉(zhuǎn)為簡體字等。html和url對于判斷文本是否屬于不良文本沒有任何實質(zhì)作用,故過濾掉html和url;針對帶有@及用戶名的文本,需要排除用戶名對文本的干擾,所以去除@及用戶名;為了防止干擾,將特殊字符及非中英文的字符統(tǒng)一去除掉;針對帶有“#標簽#”的文本數(shù)據(jù),如果僅去除符號#和標簽內(nèi)容,可能會影響微博用戶所要表達的意思,因此保留文本中的標簽內(nèi)容。

        (2)去除停用詞

        對于一些沒有意義的詞,例如“的、了、哦”和一些標點等,使用停用詞詞典進行去除。在互聯(lián)網(wǎng)上中英文混用的現(xiàn)象非常普遍,而有些無意義的英文單詞的出現(xiàn)也會對不良文本識別產(chǎn)生影響,因此也需要將英文停用詞加入到停用詞典中。本文使用的停用詞詞典是基于哈工大停用詞詞表構(gòu)造的,在哈工大停用詞詞表的基礎(chǔ)上增加英文停用詞。哈工大停用詞詞表共含有768項中文、標點以及特殊字符,在此基礎(chǔ)上增加英文停用詞640項,新的停用詞詞典共1408項。

        (3)分詞

        現(xiàn)在的中文分詞工具有很多,本文使用基于結(jié)巴分詞的工具來對微博文本進行中文分詞。結(jié)巴分詞工具中的自定義詞典可以添加一些最新的網(wǎng)絡(luò)熱詞以及縮略詞,但是還有一些不良詞匯及變體沒有收錄。因此,構(gòu)建不良詞匯詞典,并將不良詞匯詞典添加到結(jié)巴分詞工具的自定義詞典中,實現(xiàn)對文本更準確的切分。

        3.模型參數(shù)設(shè)置

        模型中會有許多的超參數(shù)需要設(shè)置,不同超參數(shù)的設(shè)置會對模型的性能有不同的影響。對這些超參數(shù)論文進行基準值設(shè)定,超參數(shù)基準設(shè)定如表2所示。

        表2 超參數(shù)基準設(shè)定值

        4.評價標準

        在對網(wǎng)絡(luò)文本分類過程中,評價指標包括準確率(precision)、召回率(recall)和F1值。在對網(wǎng)絡(luò)文本進行分類過程中,有可能會出現(xiàn)4種結(jié)果,模型預(yù)測結(jié)果如表3所示。

        表3 模型預(yù)測結(jié)果

        準確率表示在對網(wǎng)絡(luò)文本進行分類的過程中,模型正確分類出來的網(wǎng)絡(luò)不良文本數(shù)和預(yù)測出來的網(wǎng)絡(luò)不良文本數(shù)的比值,準確率的計算公式如下:

        召回率表示在對網(wǎng)絡(luò)文本進行分類的過程中,模型正確分類出來的網(wǎng)絡(luò)不良文本數(shù)和實際產(chǎn)生的網(wǎng)絡(luò)不良文本數(shù)的比值,召回率的計算方式如下:

        F1值是用來對精確率以及召回率進行調(diào)和的平均值。F1值是對模型的精確率和召回率進行綜合的考慮,與精確率和召回率相比更能反應(yīng)模型的分類效果。F1值的計算方式如下:

        5.實驗結(jié)果分析

        為了避免實驗結(jié)果出現(xiàn)偶然性,對于模型均采用十折交叉驗證取平均值。

        (1)對于傳統(tǒng)的機器學(xué)習(xí)方法,使用樸素貝葉斯分類器和SVM分類器。

        SVM的懲罰系數(shù)設(shè)為1000,徑向基核函數(shù)參數(shù)設(shè)為0.001。

        (2)Word2Vec-CNN模型:模型以Word2Vec模型作為詞向量模型,然后把詞向量輸入到CNN模型,CNN利用不同大小的卷積核提取每條數(shù)據(jù)中詞語的信息,多層CNN可以提取每條數(shù)據(jù)中的深層信息,然后通過Softmax對文本進行分類。對于CNN設(shè)置3、4、5三種高度的卷積核,卷積核個數(shù)設(shè)置為100。

        (3)Word2Vec-LSTM模型:模型以 Word2Vec模型作為詞向量模型,以LSTM模型對文本數(shù)據(jù)再次提取特征信息,最后通過Softmax對文本進行分類。

        (4)Word2Vec-BiLSTM模型:模型以Word2Vec模型作為詞向量模型,以BiLSTM模型對文本數(shù)據(jù)再次提取特征信息,最后通過Softmax進行分類。

        在數(shù)據(jù)集上,各個模型的實驗結(jié)果如表4所示。

        表4 各模型實驗結(jié)果對比

        從實驗結(jié)果可以看出本文提出的模型在網(wǎng)絡(luò)網(wǎng)絡(luò)文本數(shù)據(jù)集中的評價指標均優(yōu)于其他模型,驗證了本文模型在網(wǎng)絡(luò)不良文本分類中的有效性。

        實驗數(shù)據(jù)顯示,在數(shù)據(jù)相同的條件下,深度學(xué)習(xí)方法在準確率和召回率上相比于傳統(tǒng)的機器學(xué)習(xí)方法均有較大的提高,驗證了深度學(xué)習(xí)模型在網(wǎng)絡(luò)不良文本分類上確實優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法。

        在實驗結(jié)果中,樸素貝葉斯和線性SVM模型的分類效果較差,原因主要在于特征選取的方式是以詞頻和逆向詞頻為主,文本中每個詞出現(xiàn)的頻率都較低,無法通過統(tǒng)計詞頻大小進行文本重要性的判斷,所以在網(wǎng)絡(luò)不良文本的分類中不占優(yōu)勢。

        對比循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),在嵌入層輸入矩陣組成相同的情況下,循環(huán)神經(jīng)網(wǎng)絡(luò)比卷積神經(jīng)網(wǎng)絡(luò)有一定的提高。由于網(wǎng)絡(luò)文本存在長短不一的情況,卷積神經(jīng)網(wǎng)絡(luò)只能提取局部的信息,而沒有關(guān)心上下文的相關(guān)性,循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢就會顯現(xiàn)。

        對比本文模型和Word2Vec-BiLSTM模型,本文模型在精確率、召回率和F1值上均有提高,原因在于本文模型使用的特征多了一個詞特征,在網(wǎng)絡(luò)文本分類的任務(wù)中,BiLSTM網(wǎng)絡(luò)通過結(jié)合詞特征和語特征就能較好地區(qū)分網(wǎng)絡(luò)不良文本。

        三、結(jié)語

        本文對網(wǎng)絡(luò)不良文本的特點做了相關(guān)分析,針對網(wǎng)絡(luò)不良文本分類時特征提取不足導(dǎo)致分類精度不高的問題,將N-Gram提取的詞特征和基于Word2Vec的BiLSTM提取文本語義特征融合,能有效避免文本信息損失,更好地提取文本信息。在數(shù)據(jù)集上實驗并與其他分類方法進行對比,結(jié)果表明,特征融合分類方法比傳統(tǒng)機器學(xué)習(xí)方法和單一特征提取的深度學(xué)習(xí)方法具有更好的網(wǎng)絡(luò)不良文本分類性能和效果?!?/p>

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产美女白浆| 亚洲精品无码专区在线在线播放| 国产日产精品一区二区三区四区的特点 | 国产超碰人人做人人爽av大片| 亚洲日韩国产精品第一页一区| 高h视频在线免费观看| 久久精品亚洲热综合一本色婷婷| 在线中文字幕乱码英文字幕正常| 先锋影音av最新资源| 日本a在线播放| 91久久大香伊蕉在人线国产| 亚洲av无码成h在线观看| 中文字幕av无码一区二区三区 | 蜜桃一区二区免费视频观看 | 国产精品国产精品国产专区不卡| 台湾佬综合网| 久久国产精品超级碰碰热| 亚洲av产在线精品亚洲第三站| 精品成在人线av无码免费看| 国产精品-区区久久久狼| 国产亚洲青春草在线视频| 日韩亚洲无吗av一区二区| 老少配老妇老熟女中文普通话 | 日本免费精品免费视频| 日本动漫瀑乳h动漫啪啪免费| 乱人伦中文字幕成人网站在线| 日日躁欧美老妇| 国内自拍偷国视频系列| 色综合久久久久久久久久| 99热这里只有精品4| 亚洲综合av一区在线| 岳丰满多毛的大隂户| 国产剧情av麻豆香蕉精品| 日韩女优一区二区视频| 国产亚洲人成在线观看| 97久久人人超碰超碰窝窝| 亚洲欧美日韩中文v在线| 狼狼色丁香久久女婷婷综合| 久久天堂综合亚洲伊人hd妓女| 亚洲国产美女精品久久| 国产网友自拍视频在线观看|