周 婭,李 賽
(桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)
越來(lái)越多的人傾向于在網(wǎng)絡(luò)上發(fā)表意見(jiàn)和表達(dá)情感,也因此產(chǎn)生了各式各樣的數(shù)據(jù)。但其中卻隱藏很多攻擊性甚至騷擾的惡意評(píng)論,如文獻(xiàn)[1]對(duì)4248名美國(guó)成年人進(jìn)行的一項(xiàng)新的全國(guó)性調(diào)查發(fā)現(xiàn),近41%民眾曾在網(wǎng)上受到過(guò)個(gè)人騷擾行為,近18%民眾在互聯(lián)網(wǎng)收到不同程度的騷擾和威脅。這些問(wèn)題引起了學(xué)術(shù)界、媒體和社交平臺(tái)的高度關(guān)注。如何更好利用最新技術(shù)對(duì)這些短文本進(jìn)行分類,經(jīng)成為相關(guān)研究者研究的熱點(diǎn)之一[2]。文獻(xiàn)[4]提出基于LSTM的分類器集合,討論了用戶的種族主義或性別歧視傾向等。采用來(lái)自維基百科對(duì)話頁(yè)面的評(píng)論數(shù)據(jù)來(lái)構(gòu)建檢測(cè)模型。雖然數(shù)據(jù)集包含大量的標(biāo)注,針對(duì)此數(shù)據(jù)集特點(diǎn)總結(jié)出現(xiàn)有檢測(cè)模型還存在一些待改進(jìn)之處:
(1)現(xiàn)有評(píng)論文本檢測(cè)模型針對(duì)性較強(qiáng),不適用于本文惡意評(píng)論數(shù)據(jù)集;
(2)評(píng)論文本自身有類不平衡的問(wèn)題存在,加大了檢測(cè)的困難度,在實(shí)際檢測(cè)中低頻的惡意評(píng)論將很難被及時(shí)識(shí)別。不易及時(shí)訓(xùn)練出行之有效的檢測(cè)算法,也是惡意行為檢測(cè)難度增大和效率低的原因;
(3)現(xiàn)有模型擬合能力弱,傳統(tǒng)機(jī)器學(xué)習(xí)模型不僅結(jié)構(gòu)簡(jiǎn)單,同時(shí)在特征提取和學(xué)習(xí)能力也比較弱。不能很好處理一些特殊文本和大規(guī)模數(shù)據(jù)集,更無(wú)法對(duì)數(shù)據(jù)分布形成有效映射。
所以針對(duì)以上問(wèn)題,提出一種基于樣本分層欠采樣算法和Bi-GRU網(wǎng)絡(luò)的網(wǎng)絡(luò)惡意行為檢測(cè)模型(SSU-BG)。
文中惡意評(píng)論檢測(cè)與現(xiàn)有的一些其它評(píng)論檢測(cè)相比存在一些不同之處,本文所述的惡意評(píng)論只是針對(duì)人自身存在的惡意攻擊行為進(jìn)行的檢測(cè),比如一些恐嚇、騷擾、謾罵、猥褻、侮辱等不良行為。惡意評(píng)論數(shù)據(jù)集本身在內(nèi)容和結(jié)構(gòu)上也與其它數(shù)據(jù)集大相徑庭。在此次實(shí)驗(yàn)的數(shù)據(jù)集中總共包含7個(gè)大類,通過(guò)統(tǒng)計(jì)很容易發(fā)現(xiàn)一些非常明顯的問(wèn)題,比如這7類數(shù)據(jù)之間存在嚴(yán)重的類不平衡問(wèn)題,其中正常的評(píng)論有143 346條,其它6種不正常的評(píng)論加在一起也與正常評(píng)論相差甚遠(yuǎn),在6種不正常的評(píng)論中同樣也存在類不平衡問(wèn)題,這一問(wèn)題將嚴(yán)重影響評(píng)論文本的整體檢測(cè)效率。
若想提高惡意評(píng)論的檢測(cè)率首先要緩解類間數(shù)據(jù)相差巨大問(wèn)題,即類不平衡問(wèn)題。類間距過(guò)大問(wèn)題及現(xiàn)有檢測(cè)模型的局限性使得改善類間距過(guò)大問(wèn)題的分類模型應(yīng)時(shí)而生。如下針對(duì)類間距過(guò)大問(wèn)題的研究做了一些總結(jié)和分析。在文獻(xiàn)[5]中研究者們針對(duì)類不平衡問(wèn)題分析探討了在聚類、大數(shù)據(jù)分析與應(yīng)用、回歸、數(shù)據(jù)流及分類等7個(gè)應(yīng)用領(lǐng)域上目前所面臨的一些新的問(wèn)題和挑戰(zhàn),同時(shí)針對(duì)各個(gè)領(lǐng)域給出了一些針對(duì)性的意見(jiàn)和建議。
目前解決該問(wèn)題的方法主要分為算法層面、數(shù)據(jù)層面以及混合方法。
算法層面:是指通過(guò)提出新算法或?qū)σ恍┈F(xiàn)有的算法進(jìn)行修改,以降低其對(duì)高頻類的偏移量,從而側(cè)面緩解類不平衡問(wèn)題。目前主流的有兩種改變策略,代價(jià)敏感策略[6]及決策輸出補(bǔ)償策略[7]。在文獻(xiàn)[8]中,研究者們通過(guò)將數(shù)據(jù)清洗與代價(jià)敏感學(xué)習(xí)策略結(jié)合的方法改進(jìn)了BP算法,這一算法的創(chuàng)新不僅解決了類不平衡問(wèn)題還一定程度上緩解了類間重疊的問(wèn)題。而在文獻(xiàn)[9]中,研究者們采用了決策輸出補(bǔ)償技術(shù),提出了加權(quán)ELM算法,此算法的目的是為每一個(gè)類賦予大小不同的權(quán)值。此算法雖然一定程度上提高了低頻類的檢測(cè)率,但因?yàn)槠鋵?duì)同類樣本賦予了相同的權(quán)值,導(dǎo)致其不能很好考慮到樣例的閑言信息分布。
數(shù)據(jù)層面:是指針對(duì)現(xiàn)有模型特點(diǎn),修改現(xiàn)有數(shù)據(jù)集,以使其適應(yīng)現(xiàn)有的算法模型。此方法相對(duì)修改算法而言大大降低了時(shí)間復(fù)雜度,同時(shí)也避免了選擇哪一種分類器的問(wèn)題??杉?xì)分為過(guò)采樣和欠采樣兩種解決辦法,且存在各自的優(yōu)缺點(diǎn)。很多研究者也做了進(jìn)一步的探討,文獻(xiàn)[10]中研究者采用雅虎中用戶針對(duì)財(cái)經(jīng)新聞欄目的評(píng)論采用專家手動(dòng)標(biāo)記的方法識(shí)別出其中的一些仇恨言論。文獻(xiàn)[11]中采用和本文中來(lái)自相同的數(shù)據(jù)集,他們同樣提出一些改善類不平衡問(wèn)題的策略,他們采用數(shù)據(jù)增強(qiáng)的方式,首先將檢測(cè)問(wèn)題轉(zhuǎn)換成分類問(wèn)題,先對(duì)輸入的評(píng)論進(jìn)行惡意傾向的判斷,進(jìn)一步將其判定為哪一類惡意行為,并取得了很好的實(shí)驗(yàn)結(jié)果。在文獻(xiàn)[12]中,研究者們提出了線性不平衡和階梯不平衡兩種形式,同時(shí)采用相同的評(píng)價(jià)指標(biāo)分別做了4組實(shí)驗(yàn)作為對(duì)比。實(shí)驗(yàn)結(jié)果顯示:采用線性不平衡形式不適合隨機(jī)欠采樣方法,在隨機(jī)過(guò)采樣數(shù)據(jù)集上能取得較好的結(jié)果;而采用階梯不平衡方式時(shí),原始數(shù)據(jù)集檢測(cè)效果依然不如隨機(jī)過(guò)采樣效果好。
混合方法:是指結(jié)合算法和數(shù)據(jù)處理兩者的優(yōu)點(diǎn),采用一種集成的思想,將分類器與數(shù)據(jù)策略集成在一起形成一種新的分類模型。如文獻(xiàn)[6]和文獻(xiàn)[13]中的研究者們都提出了敏感代價(jià)策略與采樣技術(shù)結(jié)合的形式組合成新的分類模型[13],并取得了不錯(cuò)的分類效果。
通過(guò)分析惡意評(píng)論數(shù)據(jù)集的內(nèi)容及結(jié)構(gòu)得的特點(diǎn),提出了SSU-BG惡意行為檢測(cè)模型。SSU-BG模型的結(jié)構(gòu)具有一定的層級(jí)關(guān)系,根據(jù)各層結(jié)構(gòu)在整個(gè)模型中所起的作用將其劃分為三個(gè)模塊,首先,頂層是數(shù)據(jù)預(yù)處理模塊,中間一層為模型的核心模塊,即不平衡處理模塊,最底層為分類器模塊。其中在數(shù)據(jù)預(yù)處理模塊最重要的過(guò)程是特征的選擇和歸一化,歸一化的目的是加速模型的收斂速度和簡(jiǎn)化模型的運(yùn)算過(guò)程,通過(guò)分析發(fā)現(xiàn)大多數(shù)的惡意詞匯都出現(xiàn)在句子的末尾,所以為增強(qiáng)模型檢測(cè)的準(zhǔn)確率,本文考慮將句末詞加入向量化。考慮到惡意評(píng)論數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)單一,為更好發(fā)現(xiàn)評(píng)論的特征,本文為每一條評(píng)論都構(gòu)造一個(gè)多維的特征模型,隨后依據(jù)每個(gè)特征與預(yù)測(cè)值之間的相關(guān)性,篩選出關(guān)聯(lián)性相對(duì)較強(qiáng)的來(lái)作為刻畫(huà)評(píng)論內(nèi)容真實(shí)性特征。而在數(shù)據(jù)不平衡模塊,本文提出一種基于樣本最高密度點(diǎn)的隨機(jī)欠采樣算法(SSU)對(duì)高頻的樣本進(jìn)行適當(dāng)?shù)臏p法操作。在分類器模塊,本文采用基于Bi-GRU網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),Bi-GRU比Bi-LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,且具有Bi-LSTM神經(jīng)網(wǎng)絡(luò)可以捕捉到評(píng)論文本的上下文的優(yōu)點(diǎn)。
為了解決惡意評(píng)論文本的類不平衡問(wèn)題,首先分析了隨機(jī)欠采樣算法及一些研究現(xiàn)狀,發(fā)現(xiàn)采用隨機(jī)欠采樣算法時(shí)的采樣比例設(shè)定相對(duì)比較簡(jiǎn)單,僅依據(jù)樣本之間的比例設(shè)定,且不能解決采樣的隨機(jī)性和樣本直接的重疊問(wèn)題,導(dǎo)致最終的實(shí)驗(yàn)效果并不是很理想。而本文在此算法的基礎(chǔ)上提出了一種檢查模型,基于最高密度點(diǎn)的樣本采樣算法SSU-BG模型。
SSU算法核心思想是,首先通過(guò)統(tǒng)計(jì)和計(jì)算出各個(gè)標(biāo)簽對(duì)應(yīng)的不平衡度,然后計(jì)算出這些不平衡度的均值并將其賦值為樣本的整體采樣比例;隨后采用傳統(tǒng)歐氏距離算法計(jì)算出各個(gè)類的類內(nèi)平均歐氏距離及高頻類的最高密度點(diǎn),依據(jù)這個(gè)兩個(gè)值將高頻類區(qū)域劃分為3個(gè)模塊,分別為稀疏區(qū)、稠密區(qū)及稀疏區(qū)的邊界層,以類內(nèi)平均歐式距離為半徑,以最高密度點(diǎn)為圓心畫(huà)一個(gè)圓,此時(shí),將圓以內(nèi)的區(qū)域稱之為稠密區(qū),將圓以外區(qū)域稱之為稀疏區(qū);根據(jù)樣本需求,我們選擇從稠密區(qū)、稀疏區(qū)的邊界層獲取樣本數(shù)據(jù),而對(duì)于稀疏區(qū)邊界層以外的區(qū)域,我們將其定義為非采樣區(qū)。為了使獲取的樣本能具有一定的均衡性,本文做了進(jìn)一步的探討,將獲得的稠密區(qū)進(jìn)行再次劃分,最終將其劃分為不同個(gè)數(shù)的等距圓環(huán),而此時(shí)圓環(huán)范圍被定義在1到N+1個(gè),按照設(shè)定好的采樣比例分別在每個(gè)圓環(huán)里隨機(jī)采集樣本點(diǎn),得到模型訓(xùn)練數(shù)據(jù)集。樣本模擬平面分布圖如圖1所示。
圖1 樣本模擬平面分布
此算法減少了樣本的總數(shù),從而降低后續(xù)所提模型的訓(xùn)練量和訓(xùn)練時(shí)間。算法流程如下:
(1)輸入訓(xùn)練集X={(x1,y1),(x2,y2),…(xn,yn)} 及所需參數(shù),其中xi∈Rq,yi∈{-1,1},(i=1,2,…n)。
在上述表述中,X為包含n條評(píng)論的樣本點(diǎn),yi=1表示標(biāo)簽屬性為1的低頻類樣本點(diǎn),yi=-1表示標(biāo)簽屬性為0高頻類樣本點(diǎn),分別記為:S={(x1,1),(x2,1),…(xs,1)} 和M={(x1,-1),(x2,-1),…(xm,-1)}。
(2)從高頻類樣本點(diǎn)中隨機(jī)選出的兩個(gè)樣本點(diǎn)xi,xj,q表示樣本點(diǎn)對(duì)應(yīng)的特征數(shù),兩點(diǎn)之間的歐氏距離,記為D(xi,xj)
(1)
(3)根據(jù)(2)中得出的結(jié)果,統(tǒng)計(jì)高頻類的類內(nèi)平均歐式距離,記為:Avg_dist
M={(x1,-1),(x2,-1),…(xm,-1)}
(2)
(3)
(4)根據(jù)(2)中計(jì)算的結(jié)果,統(tǒng)計(jì)各樣本點(diǎn)的平均密度,記為Avg_density(xi)
(4)
(5)D(xi,xj) 的值越大則表明樣本越不密集, Avg_density(xi) 的值越大則表明樣本越密集,根據(jù)Avg_density(xi) 計(jì)算高頻類樣本的最高密度點(diǎn),記為xsup_den
xsup_den=argsup(Avg_density(xi)),xi∈M
(5)
(6)根據(jù)(5)計(jì)算的xsup_den值及(3)計(jì)算的Avg_dist,根據(jù)M={(x1,-1),(x2,-1),…(xm,-1)} 樣本,分別以xsup_den、Avg_dist兩個(gè)值為圓心和半徑畫(huà)一個(gè)圓,稠密區(qū)和稀疏區(qū)分別記為:Lay_den和Lay_spa
Lay_den={xi|D(xi,xsup_den)≤Avg_dist,xi∈M}
(6)
Lay_spa={xi|D(xi,xsup_den)≥Avg_dist,xi∈M}
(7)
(7)隨機(jī)選擇兩個(gè)點(diǎn)xt,xj∈Lay_spa, 同時(shí)結(jié)合(2)和(5)計(jì)算出稠密區(qū)的邊界域,記為margin
margin=max(D(xsup_den,xj))-max(D(xt,xj))
(8)
(8)根據(jù)(7)可以計(jì)算出稀疏區(qū)的邊界層,記為Mar_lay
Mar_lay={xk|max(D(xi,xsup_den))≤margin,xi∈Lay_den,xk∈Lay_spa}
(9)
(9)設(shè)每個(gè)樣本對(duì)應(yīng)的標(biāo)簽數(shù)為N,結(jié)合樣本對(duì)應(yīng)的標(biāo)簽數(shù)統(tǒng)計(jì)出1到N個(gè)標(biāo)簽數(shù)對(duì)應(yīng)的樣本的不平衡度及均值,分別記為αi、α_mean
αi={α1,α2,…αN}
(10)
(11)
(10)根據(jù)(6)中計(jì)算結(jié)果,將稀疏區(qū)邊界層及稠密區(qū)定義為采樣區(qū),而將稀疏邊界層以外的區(qū)域劃分為非采樣區(qū),為了均衡采樣,將稠密區(qū)劃分成不同個(gè)數(shù)的等距圓環(huán),圓環(huán)范圍為1到N+1個(gè),按照既定的采樣比例分別在每層上隨機(jī)采樣,劃分圓環(huán)個(gè)數(shù)記為δ
δ={δ1,δ2,…δN+1}
(12)
(11)根據(jù)(10)計(jì)算的結(jié)果,得到N+1組相同比例,不同樣本點(diǎn)的數(shù)據(jù)集,記為Tnew
Tnew={T1,T2,…TN+1}
(13)
Bi-GRU模型與Bi-LSTM模型結(jié)構(gòu)非常類似,Bi-GRU模型包括前向GRU和后向GRU,兩個(gè)GRU單元與同一個(gè)輸出層相連,因?yàn)镚RU單元可以對(duì)歷史信息進(jìn)行選擇性記憶,因此其參數(shù)學(xué)習(xí)過(guò)程也比較快,雙向GRU可以保留從前往后的信息和從后往前的信息。
Bi-GRU即為兩層的GRU網(wǎng)絡(luò),其基本網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Bi-GRU網(wǎng)絡(luò)結(jié)構(gòu)
Bi-GRU模型將已學(xué)習(xí)到的特征向量輸入到分類器中,即先將檢測(cè)問(wèn)題轉(zhuǎn)化成一個(gè)多分類問(wèn)題。
本次實(shí)驗(yàn)數(shù)據(jù)集相對(duì)比較權(quán)威,由Kaggle官網(wǎng)提供的一些評(píng)論文本,數(shù)據(jù)集獲取網(wǎng)址為:https://www.kaggle.com。
此數(shù)據(jù)集總共包含7個(gè)標(biāo)簽,總評(píng)論條數(shù)為159 571條,分別被標(biāo)記,如表1。
表1 標(biāo)簽
根據(jù)圖3所示,它們分別所占比例為:89.6%、9.6%、1.0%、5.3%、0.3%、4.9%及0.9%。從這里也能明顯看到它們之間存在嚴(yán)重的類不平衡問(wèn)題。如圖3所示。
圖3 評(píng)論類別分布
為了更好分析每條評(píng)論的結(jié)構(gòu)和信息,本實(shí)驗(yàn)還分別對(duì)每條評(píng)論長(zhǎng)度的平均值、方差及最大值進(jìn)行了統(tǒng)計(jì),分別為:67.86、100.52及2273。且統(tǒng)計(jì)出每天評(píng)論所包含1的數(shù)量,1的值越多表明惡意的程度越嚴(yán)重,如果所有的值都是0,則說(shuō)明此條評(píng)論不存在惡意行為。圖4中縱坐標(biāo)表示對(duì)應(yīng)的評(píng)論條數(shù),橫坐標(biāo)表示每條評(píng)論標(biāo)簽存在1的數(shù)量。如圖4所示。
圖4 評(píng)論標(biāo)簽數(shù)分布
分析圖3和圖4統(tǒng)計(jì)結(jié)果,可以發(fā)現(xiàn)各類評(píng)論之間存在較嚴(yán)重的類不平衡問(wèn)題,因此,為了緩解這一問(wèn)題,本文提出了一種基于最高密度點(diǎn)的SSU欠采樣采樣算法。該算法雖然減少了樣本數(shù)量,降低了樣本的利用率,但是提高了分類準(zhǔn)確率,同時(shí)提高了分類效率。
為了較好評(píng)估衡量SSU算法效率,及更好的與其它算法做對(duì)比,本文采用了較傳統(tǒng)高效的準(zhǔn)確率(Acc)和錯(cuò)誤率(Loss)、F-measure及AUC 4個(gè)比較常用評(píng)價(jià)指標(biāo)。具體見(jiàn)表2。
表2 性能評(píng)估列聯(lián)表
精確率(Precision)計(jì)算公式
(14)
分類器錯(cuò)誤率(false positive rate,F(xiàn)PR)
(15)
準(zhǔn)確率(Accuracy,Acc)
(16)
F-measure值的計(jì)算
(17)
式(17)中:β可以較好調(diào)節(jié)Precision和Recall的權(quán)值,通常情況下將其賦值為1,F(xiàn)-measure是一個(gè)廣泛應(yīng)用于不平衡分類的評(píng)價(jià)指標(biāo),其既可以兼顧查全率又可以兼顧查詢率。
AUC是ROC曲線下面的面積[14,15],也對(duì)分類器性能評(píng)估起到至關(guān)重要的作用,ROC曲線的X軸表示FPR,Y軸表示TPR即公式TPR=FP/(TN+FP)。
通過(guò)對(duì)此次實(shí)驗(yàn)用到的數(shù)據(jù)集進(jìn)行分析統(tǒng)計(jì)發(fā)現(xiàn),此數(shù)據(jù)集于正常評(píng)論文本之間存在較大的差別,為了量化兩者之間的差別,本文將總結(jié)的11個(gè)特征加入訓(xùn)練模型,11個(gè)特征見(jiàn)表3所示:
表3 特征
表4中,為了驗(yàn)證我們新加入的11個(gè)特征的影響度,本文計(jì)算了特征與每個(gè)預(yù)測(cè)值之間的相關(guān)程度,通過(guò)對(duì)比分析選擇出了對(duì)預(yù)測(cè)值貢獻(xiàn)度高的特征,見(jiàn)表4。
表4 特征與預(yù)測(cè)值相關(guān)性
為了篩選出影響程度較高的特征,我們又分別統(tǒng)計(jì)11個(gè)特征對(duì)每個(gè)類別的相關(guān)性值的絕對(duì)值之和,通過(guò)對(duì)比各個(gè)相關(guān)性值的絕對(duì)值之和的大小,發(fā)現(xiàn)Question_mark、Smilies以及Symbols 3個(gè)特征對(duì)評(píng)論文本的類別影響程度相對(duì)較小,因此本文考慮將不再引入這3個(gè)特征到訓(xùn)練模型中,此時(shí)實(shí)際引入特征為其余8個(gè)。
為了驗(yàn)證SSU算法與Bi-GRU網(wǎng)絡(luò)結(jié)合模型,即SSU-BG模型相比其它模型的優(yōu)點(diǎn),本文將基于在隨機(jī)下采樣數(shù)據(jù)集、SMOTE算法過(guò)采樣、SSU分層欠采樣數(shù)據(jù)集上分別做對(duì)比實(shí)驗(yàn),同時(shí)分別與表5中3種傳統(tǒng)模型算法及表6中的3種深度學(xué)習(xí)模型算法分別在上述3類數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn)。
表5所示為3中傳統(tǒng)算法的對(duì)比實(shí)驗(yàn)結(jié)果:
表5中XG-Boost、LR、NBSVM這3種模型分別在3種數(shù)據(jù)集上進(jìn)行了9組實(shí)驗(yàn)。每組實(shí)驗(yàn)都采用了4個(gè)相同的評(píng)價(jià)指標(biāo)。在數(shù)據(jù)居選取層面上可以發(fā)現(xiàn),SSU欠采樣數(shù)據(jù)集在3大組實(shí)驗(yàn)中整體表現(xiàn)較好。雖然SMOTE算法在AUC指標(biāo)上表現(xiàn)略好一些,比SSU算法的AUC值高出0.0127,比隨機(jī)欠采樣算法的AUC值高出0.0063,但綜合考察3種模型中的Acc、Loss、F-measure這3個(gè)評(píng)價(jià)指標(biāo),可以發(fā)現(xiàn)在SSU算法下整體實(shí)驗(yàn)結(jié)果最好,為了驗(yàn)證這一點(diǎn),我們可以做進(jìn)一步的分析,例如對(duì)SSU算法下表現(xiàn)較好的NBSVM模型下的實(shí)驗(yàn)結(jié)果分析可得,SSU欠采樣算法在準(zhǔn)確率上比隨機(jī)欠采樣算法高出0.0453及比SMOTE算法高出了0.014;在錯(cuò)誤率上比隨機(jī)欠采樣算法降低0.1289,相比SMOTE算法降低0.048;F-measure值比其它們分別高出0.0256和0.008。因此可以發(fā)現(xiàn)SSU算法在3種傳統(tǒng)采樣算法中整體表現(xiàn)最好。
表5 傳統(tǒng)算法實(shí)驗(yàn)結(jié)果
本文還做了其它12組針對(duì)4種深度學(xué)習(xí)算法的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表6。
表6 深度學(xué)習(xí)算法實(shí)驗(yàn)結(jié)果
在表6中展示了3種數(shù)據(jù)集與4種結(jié)構(gòu)類似的深度學(xué)習(xí)模型組合的對(duì)比實(shí)驗(yàn)結(jié)果,采用同上一組實(shí)驗(yàn)相同的評(píng)價(jià)指標(biāo)。通過(guò)分析隨機(jī)欠采樣算法可發(fā)現(xiàn),隨機(jī)欠采樣算法中只抽取了少量的數(shù)據(jù)集做為輸入,大量的數(shù)據(jù)被選擇放棄使用,最終導(dǎo)致實(shí)驗(yàn)結(jié)果并不理想。通過(guò)SMOTE算法過(guò)得的數(shù)據(jù)集可發(fā)現(xiàn),此算法可以是整個(gè)數(shù)據(jù)集進(jìn)行擴(kuò)增,使得輸入模型中的數(shù)據(jù)增多。在SMOTE算法算法下,Bi-LSTM網(wǎng)絡(luò)表現(xiàn)較好一些,但如果從整體實(shí)驗(yàn)結(jié)果上來(lái)看,SSU算法表現(xiàn)略勝一籌。本文著重對(duì)比了SSU算法分別與這4種深度學(xué)習(xí)模型組合的實(shí)驗(yàn)結(jié)果。通過(guò)對(duì)比可以得出SSU-BG模型在4種評(píng)價(jià)指標(biāo)下表現(xiàn)較好一些,得出結(jié)果如下:
(1)Acc值比其它最小值高出0.0228;
(2)Loss值比其它最高值降低0.0408;
(3)F-measure值比其它最小值高出0.0788;
(4)AUC值比其它最小值高出0.0157。
最后,結(jié)合表5和表6的實(shí)驗(yàn)結(jié)果對(duì)比和分析,可以得出如下結(jié)論:①SSU-BG評(píng)論檢測(cè)模型提高了低頻類的檢測(cè)率;②SSU-BG評(píng)論檢測(cè)模型沒(méi)用損失高頻類的檢查準(zhǔn)確率;③SSU-BG評(píng)論檢測(cè)模型對(duì)比其它檢測(cè)模型,整體樣本檢測(cè)率有所提高。
通過(guò)統(tǒng)計(jì)和分析惡意評(píng)論文本的結(jié)構(gòu)特點(diǎn),得出該數(shù)據(jù)集內(nèi)容比較單一,且7類評(píng)論數(shù)量差距較大,使得各類之間存在嚴(yán)重的類不平衡問(wèn)題,這將嚴(yán)重影響惡意評(píng)論的檢測(cè)效果。為此,本文提出了SSU-BG檢測(cè)模型來(lái)一定程度上緩解以上問(wèn)題,同時(shí)提交檢測(cè)效率。為驗(yàn)證SSU-BG模型的效果,本文分別與其它6個(gè)模型在3種數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn),總共21組實(shí)驗(yàn)。同時(shí)為了驗(yàn)證本文提出的SSU算法及SSU-BG模型優(yōu)勢(shì),對(duì)比實(shí)驗(yàn)設(shè)計(jì)時(shí)考慮到在相同分類器下不同算法獲取的數(shù)據(jù)集做對(duì)比實(shí)驗(yàn)及在相同數(shù)據(jù)集下不同分類器做對(duì)比實(shí)驗(yàn)。最終的實(shí)驗(yàn)結(jié)果顯示,SSU算法相比其它兩種采樣算法表現(xiàn)較好,同時(shí)SSU-BG模型在處理不平衡問(wèn)題上相比其它幾種模型表現(xiàn)較好。在未來(lái)的研究工作中我們將驗(yàn)證該模型在更多應(yīng)用領(lǐng)域上的表現(xiàn)效果,同時(shí)從考慮改進(jìn)分類器角度進(jìn)一步提高檢測(cè)效率。