亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

通信垃圾文本識別的半監(jiān)督學(xué)習(xí)優(yōu)化算法

2020-09-04 03:15:54邱寧佳沈卓睿

計算機(jī)工程與應(yīng)用 2020年17期

邱寧佳，沈卓睿，王輝，王鵬

長春理工大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院，長春 130022

1 引言

現(xiàn)如今，隨著民生平臺的廣泛使用垃圾數(shù)據(jù)急劇增加，避免垃圾數(shù)據(jù)的干擾來提高系統(tǒng)工作效率和服務(wù)水平成為熱點研究。非平衡樣本分類問題作為垃圾文本識別的基礎(chǔ)，存在分類效果不佳的問題。針對此問題，從算法角度考慮主要包括分類集成法、代價敏感法和特征選擇方法。Sundarkumar等提出通過串聯(lián)使用k反向最近鄰和一類支持向量機(jī)（OCSVM）來糾正數(shù)據(jù)不平衡問題[1]。Kaur通過引入特征縮放，抑制或中和平均絕對誤差（MAE）的方法，有效提高了信用卡欺詐檢測模型精度[2]。Gu等為了糾正分類面的偏移問題，對不平衡數(shù)據(jù)到分類面的距離進(jìn)行參數(shù)調(diào)優(yōu)，有效地完成了少數(shù)類和多數(shù)類的識別工作[3]。Agnihotri根據(jù)類中術(shù)語的分布從每類中選擇可變數(shù)量的特征，提出了一種新的變量全局特征選擇方案（VGFSS），此方法在處理不平衡數(shù)據(jù)時優(yōu)于全局特征選擇方案[4]。Duan 等使用馬氏距離繪制聚類二叉樹，將SVM從上到下應(yīng)用于二叉樹進(jìn)行分類，此方法在機(jī)械故障診斷多分類問題中具有很高的分類精度[5]。Wu 等使用類重疊法和樣本點重要性來設(shè)計樣本模糊隸屬函數(shù)和分配隸屬度值，提出模糊多類支持向量機(jī)算法，該算法能夠更有效解決多類別不平衡數(shù)據(jù)和噪聲問題[6]。Chan 等通過使用先驗類概率加權(quán)后驗類概率來處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練不平衡數(shù)據(jù)時少數(shù)類被錯誤分類的問題，此算法的平均召回率得到了提高[7]。Xu等通過定義新的基分類器初始權(quán)值矩陣更新規(guī)則和集成權(quán)重計算公式，提出一種污水處理故障診斷建模方法，此方法提高了故障類的識別率和分類精度[8]。

對于不平衡分類問題從訓(xùn)練集角度入手主要包括上采樣方法和下采樣方法，都是通過改變訓(xùn)練集樣本的分布，提高不平衡樣本的判別精度。Pozzolo 等通過使用貝葉斯最小風(fēng)險理論找到正確的分類閾值，對不平衡數(shù)據(jù)在欠采樣處理后進(jìn)行調(diào)整，降低了欠采樣對分類精度和概率校準(zhǔn)的影響[9]。Huang 等根據(jù)類內(nèi)、類間距離和不平衡度三者的關(guān)聯(lián)，在樣本特征的基礎(chǔ)上提出一種新穎的上采樣方法，顯著提升了負(fù)樣本的分類準(zhǔn)確率[10]。Vannucci等提出使用遺傳算法將欠采樣和過采樣結(jié)合的方法，確定最優(yōu)不平衡率，使稀有模式檢測率和分類性能有了明顯的提高[11]。Zhao 等通過約束合成數(shù)據(jù)產(chǎn)生的范圍，使數(shù)據(jù)集中化，提出了TSMOTE和MDSMOTE算法，解決了分類器和SMOTE 對于不平衡數(shù)據(jù)集存在邊緣化分布的缺點[12]。Yang 等分別添加和刪除與少數(shù)類相關(guān)性強(qiáng)和與多數(shù)類相關(guān)性弱的樣本來實現(xiàn)樣本的類分布平衡，提出關(guān)鍵值抽樣法，提高了關(guān)聯(lián)分類方法處理不平衡數(shù)據(jù)的精度[13]。Geng 等采用k-means 采樣方法和分類指導(dǎo)詞提出了一種組合策略，提高了不平衡數(shù)據(jù)的分類精度[14]。Zhang等分別對多數(shù)類和少數(shù)類進(jìn)行不同權(quán)重調(diào)整，基于AdaBoost算法，提出了一種新穎的欠采樣方法，提高了不平衡數(shù)據(jù)的分類效果[15]。

在通過聚類改進(jìn)下采樣時，為了避免傳統(tǒng)聚類算法聚類數(shù)目不易確定和算法復(fù)雜度高的問題，本文提出基于否定選擇密度聚類的下采樣算法（Down-Sampling algorithm based on Negative Selection Density Clustering，NSDC-DS），首先結(jié)合否定選擇算法自體異常檢測機(jī)制的思想，將聚類中心點和待聚類樣本分別作為檢測器和自體集來進(jìn)行異常匹配提出基于否定選擇的密度聚類算法；然后使用基于否定選擇的密度聚類算法對樣本進(jìn)行相似度評估來改進(jìn)傳統(tǒng)下采樣代表性難以保證的問題，并選擇NBSVM分類器對采樣后的通信文本進(jìn)行半監(jiān)督垃圾識別；最后使用PCA 樣本所具有信息量進(jìn)行評估，提出改進(jìn)的PCA-SGD（Stochastic Gradient Descent based on Principal Component Analysis）算法對模型參數(shù)進(jìn)行調(diào)優(yōu)，以達(dá)到提高通信垃圾文本識別精度的目的。

2 相關(guān)工作

2.1 否定選擇算法

否定選擇（Negative Selection，NS）算法是根據(jù)免疫系統(tǒng)自體、非自體細(xì)胞的識別工作仿真得到的一種選擇方案，檢測器是隨機(jī)產(chǎn)生的，能夠保留包含非自體的檢測器，刪除包含自體的檢測器，最終實現(xiàn)兩種數(shù)據(jù)的分類。其算法思想如下：首先定義需要保護(hù)與檢測的自體集，然后產(chǎn)生檢測器集合，檢測器為不與受保護(hù)數(shù)據(jù)匹配的集合，最后將檢測器與自體集進(jìn)行比較來檢測自體集的改變，如果自體集與檢測器匹配，表示自體集發(fā)生了異常變化。結(jié)構(gòu)如圖1所示。

圖1 否定選擇算法

2.2 NBSVM分類算法

樸素貝葉斯和支持向量機(jī)常被用在文本分類的基線模型，但是性能受特征和數(shù)據(jù)集等因素的影響較大。Wang 等使用樸素貝葉斯對數(shù)計數(shù)比率作為特征值的SVM 變種，提出了一種將樸素貝葉斯與支持向量機(jī)結(jié)合的算法（NBSVM），此算法在文本分類領(lǐng)域取得了不錯的效果[16]。此算法是使用NB 算法生成的特征訓(xùn)練SVM來構(gòu)造一個線性分類器。測試實例k的預(yù)測函數(shù)如公式（1）所示：

其中，w和b通過最小化目標(biāo)函數(shù)獲得，為樣本所包含類別，為第i個訓(xùn)練樣本的特征向量，反之此處相乘的方法為對應(yīng)位置元素相乘，為特征在正、負(fù)樣本中出現(xiàn)的概率比值對數(shù)化后的值，稱為對數(shù)計數(shù)比率（log-為平滑系數(shù)。

3 改進(jìn)的隨機(jī)采樣算法

3.1 基于否定選擇的密度聚類算法

k-means算法存在聚類數(shù)目不易確定和只適用于凸樣本空間數(shù)據(jù)集的問題，并且對于非平衡數(shù)據(jù)集，其聚類效果不佳。譜聚類算法適用于任意形狀樣本空間的數(shù)據(jù)集，但仍存在聚類數(shù)目不易確定的缺點，當(dāng)樣本維度大時，對聚類效果影響較大。針對以上問題，本文提出一種基于否定選擇的密度聚類算法，將聚類中心點和待聚類樣本分別作為檢測器和自體集來進(jìn)行相似度匹配，匹配條件使用改進(jìn)的相似度計算公式，即在距離測量相似度的基礎(chǔ)上加入了密度來刻畫相似度。其具體思想如下：

（1）首先利用分詞工具對待聚類樣本進(jìn)行分詞、去停，使用TfidfVectorizer工具將文本向量化，轉(zhuǎn)化為特征矩陣，如式（2）所示：

其中，每一行代表一個樣本，共具有n個樣本和m個特征。

（2）檢測器和自體集。計算所有待聚類樣本點的鄰域密度ρi，去除孤立點，選擇待聚類樣本Dwait中密度最大的樣本點ρmax作為聚類中心點，即否定選擇算法中的檢測器。其他待聚類樣本點作為自體集，對兩者使用步驟（3）中的匹配條件進(jìn)行檢測匹配。

（3）設(shè)置否定選擇中的“匹配條件”，使用距離和密度結(jié)合的相似度計算方法，如公式（3）所示。在距離度量相似度的基礎(chǔ)上加入密度是由于：歐式距離在某些情況下不能刻畫真實的數(shù)據(jù)分布。例如在圖2中，點a為其他類，在此希望b、c間相似度比b、a間的相似度更大，但使用歐式距離計算時，b、a分為一類，因而本文引入密度權(quán)值來調(diào)節(jié)相似度值。

圖2 不同流行上的數(shù)據(jù)點

其中，x1t和x2t代表兩個樣本的第t個維度為兩樣本的歐氏距離。σ1和σ2代表樣本點所處鄰域內(nèi)的密度。這樣在計算數(shù)據(jù)點間相似度的過程中，當(dāng)兩樣本點所在的密度存在差異時，就可以通過權(quán)值對相似度進(jìn)行調(diào)整，密度相差越大，相似度越小。

根據(jù)多次實驗得到合適的相似度閾值γ，當(dāng)檢測器與自體集滿足匹配條件時，即當(dāng)檢測器與自體集之間相似度大于等于相似度閾值γ時便找到樣本中心點密度可達(dá)的所有樣本，生成一個聚類簇；每聚成一個簇后，繼續(xù)尋找待聚類樣本中密度最大的點作為下一個聚類中心點，更新其為檢測器，與其他作為自體集的待聚類樣本點計算相似度，找到滿足相似度閾值匹配條件的樣本聚成下一個簇，直到滿足終止條件。

（4）終止條件。當(dāng)待聚類樣本點為空時聚類結(jié)束，得到聚類后的k類樣本。整體聚類流程圖如圖3所示。

圖3 基于否定選擇的密度聚類算法

3.2 否定選擇密度聚類的不平衡數(shù)據(jù)處理

本文使用通信文本數(shù)據(jù)集，在對此數(shù)據(jù)集進(jìn)行垃圾文本識別時，為了使學(xué)習(xí)效果更好，因此需要解決訓(xùn)練集樣本中通信垃圾文本和通信非垃圾文本的不平衡問題。隨機(jī)的下采樣方法會丟失大量的數(shù)據(jù)，使模型只學(xué)習(xí)到總體模式的一部分，削弱了樣本的多樣性。為了避免以上問題，本文提出一種基于否定選擇密度聚類的下采樣算法（NSDC-DS）。

對于樣本比例不平衡的數(shù)據(jù)采用下采樣方法時，如果先將多數(shù)類樣本聚類為k個不相交子類，再從每個子類中均勻采樣出樣本作為與少數(shù)類樣本重構(gòu)為平衡數(shù)據(jù)集再進(jìn)行分類器學(xué)習(xí)，將會避免原采樣方法削弱多數(shù)類樣本多樣性和只學(xué)習(xí)到其總模式一部分的缺點。其改進(jìn)方法如下：

（1）使用基于否定選擇的聚類算法對多數(shù)類別樣本聚類為k類。

（2）使用距離與密度結(jié)合的改進(jìn)相似度公式計算出每個簇中各個樣本點距離聚類中心點的相似度，選擇每個簇中距離聚類中心點最近的若干個樣本，從每個簇中采樣出的個數(shù)為多數(shù)類樣本個數(shù)與聚類個數(shù)的比值。

（3）所有簇中采樣得到的樣本與少數(shù)類樣本重構(gòu)為平衡樣本。

基于否定選擇密度聚類的下采樣算法（NSDC-DS）歸納如下：

算法1 NSDC-DS算法

通過此算法得到的樣本比隨機(jī)下采樣得到的樣本具有更完整的特征和更強(qiáng)的多樣性，使用此算法得到的樣本組成的平衡樣本作為訓(xùn)練集用于分類器的學(xué)習(xí)，有助于提高分類器的性能。

4 通信垃圾文本識別模型優(yōu)化

4.1 垃圾識別模型優(yōu)化

經(jīng)過否定選擇密度聚類下采樣處理得到平衡樣本后，選擇NBSVM 分類器對平衡訓(xùn)練集進(jìn)行學(xué)習(xí)，使用半監(jiān)督學(xué)習(xí)方法對通信垃圾文本進(jìn)行識別，為了進(jìn)一步提高模型的分類效果，達(dá)到更好的垃圾文本識別效果，采用PCA-SGD算法對模型參數(shù)進(jìn)行優(yōu)化。

隨機(jī)梯度下降每次迭代使用一個樣本對參數(shù)進(jìn)行更新，具有訓(xùn)練速度快的優(yōu)點，但每次更新可能不會按照正確的方向進(jìn)行，引起較大的優(yōu)化波動，模型難以收斂。針對此問題，本文提出一種改進(jìn)的隨機(jī)梯度下降算法PCA-SGD，使用PCA 對特征所含信息量的大小進(jìn)行判斷，并計算出每一個樣本具有的全部特征所含信息量大小，選擇出更能代表全體樣本的單一樣本來進(jìn)行參數(shù)更新，降低樣本不確定性導(dǎo)致其朝著非優(yōu)化的方向前進(jìn)的概率，加快隨機(jī)梯度下降的收斂速度和減少優(yōu)化時的波動。梯度下降參數(shù)更新公式如公式（5）所示：

其中，θ為優(yōu)化參數(shù)，η為學(xué)習(xí)率，?θ J(θ)為參數(shù)梯度。

損失函數(shù)使用交叉熵代價函數(shù)，如公式（6）所示：

其中，r為訓(xùn)練集大小，c為類別總數(shù)，y為預(yù)測類別，為實際類別，λ||θ||2為正則項。具體描述如算法2所示：

算法2 PCA-SGD算法

由于使用PCA 來估計樣本所含信息量，使用含有信息量高的樣本對參數(shù)更新，進(jìn)而降低了樣本不確定性導(dǎo)致其朝著非優(yōu)化方向前進(jìn)的概率，此算法將減少SGD的波動和加快其收斂速度。

4.2 模型描述

在進(jìn)行通信垃圾文本識別時，為了提高識別的準(zhǔn)確率，首先將訓(xùn)練集中的多數(shù)類使用改進(jìn)的否定選擇密度聚類算法進(jìn)行無監(jiān)督學(xué)習(xí)，然后從每一類中采樣出若干具有代表性的樣本與訓(xùn)練集中的少數(shù)類重組為平衡訓(xùn)練集，選擇NBSVM 分類器進(jìn)行有監(jiān)督學(xué)習(xí)，最后使用改進(jìn)的PCA-SGD 算法對整體模型進(jìn)行優(yōu)化，完成半監(jiān)督學(xué)習(xí)下的垃圾文本識別任務(wù)。整體解決方案如圖4。

圖4 通信垃圾文本識別模型

5 實驗與結(jié)果分析

5.1 實驗描述與實驗數(shù)據(jù)

為了驗證本文在三個改進(jìn)方面的有效性，設(shè)計了如下三個實驗。通過使用具有不同屬性的數(shù)據(jù)集，對比傳統(tǒng)算法和否定選擇密度聚類算法在不同數(shù)據(jù)集下的聚類純度和時間（時間復(fù)雜度和空間復(fù)雜度），驗證后者具有更高的效率和更強(qiáng)的魯棒性；使用隨機(jī)下采樣方法、否定選擇密度聚類算法與傳統(tǒng)的聚類算法分別對非平衡通信數(shù)據(jù)中的多數(shù)類進(jìn)行采樣，將重組后的平衡樣本作為訓(xùn)練集使用NBSVM分類器進(jìn)行學(xué)習(xí)分類，并使用驗證集驗證改進(jìn)后的下采樣方法的有效性；使用改進(jìn)后的隨機(jī)梯度下降算法對模型進(jìn)行優(yōu)化，通過與傳統(tǒng)算法對比收斂速度和模型訓(xùn)練速度來驗證PCA-SGD算法的性能。

實驗1中，為了驗證改進(jìn)聚類算法的魯棒性和有效性，本文分別選擇樣本數(shù)均接近的非凸、高維和不平衡樣本空間數(shù)據(jù)集：Double-circles、Wine、Glass 和對比數(shù)據(jù)集Iris；實驗2和實驗3使用不平衡通信文本數(shù)據(jù)對否定選擇密度聚類的下采樣和PCA-SGD算法進(jìn)行性能評估，其中Lingspam 和Spambase 為常用的通信數(shù)據(jù)集，Unicom數(shù)據(jù)為民生平臺客戶咨詢的不平衡通信文本數(shù)據(jù)。詳細(xì)實驗數(shù)據(jù)集及其屬性的如表1所示。

表1 數(shù)據(jù)集及其屬性

5.2 評價指標(biāo)

本文使用聚類純度、準(zhǔn)確率和時間三個指標(biāo)設(shè)計實驗對改進(jìn)算法進(jìn)行評估，其具體說明如下：

（2）準(zhǔn)確率：Accuracy=(TP+TN)/(TP+FN+FP+TN)，其中TP表示真實類別為正類，預(yù)測類別為正類；TN表示真實類別為負(fù)類，預(yù)測類別為負(fù)類；FP表示真實類別為負(fù)類，預(yù)測類別為正類；FN表示真實類別為正類，預(yù)測類別為負(fù)類。

5.3 算法性能驗證

實驗1 否定選擇密度聚類算法（NSDC）性能驗證

k-means 算法只適用凸樣本空間數(shù)據(jù)集，對于非平衡數(shù)據(jù)集聚類效果不佳，并且對于高維數(shù)據(jù)集，k-means與譜聚類算法存在聚類精確度下降和時間消耗長的缺點。為了驗證否定選擇密度聚類算法能夠改進(jìn)以上缺點，本實驗分別使用了凸樣本空間數(shù)據(jù)集Double-circles和非凸樣本空間高維數(shù)據(jù)集Wine、不平衡數(shù)據(jù)集Glass和對比數(shù)據(jù)集Iris。實驗選擇傳統(tǒng)k-means，譜聚類作為對比算法，與否定選擇聚類算法進(jìn)行性能比較，使用聚類純度和時間作為評價指標(biāo)，具體實驗結(jié)果如圖5、6所示。

由結(jié)果可以看出，對于非凸樣本空間數(shù)據(jù)集Doublecircles，k-means并不適用于此類數(shù)據(jù)集，因而具有較低的純度，譜聚類雖然適用于此類數(shù)據(jù)集，但由于計算的復(fù)雜度，導(dǎo)致需要的時間較長。對于非平衡數(shù)據(jù)集Glass，其中的少數(shù)類樣本在最小化均方誤差過程中會被k-means算法忽略而導(dǎo)致聚類純度對比平衡數(shù)據(jù)集Iris降低。對于高維數(shù)據(jù)集Wine，k-means算法由于需要反復(fù)更新聚類中心點、譜聚類算法由于需要進(jìn)行高維矩陣運(yùn)算而需要較大的時間開銷。本文提出的否定選擇密度聚類（NSDC）算法通過將距離和密度集合來計算相似度，改進(jìn)了k-means 不適用與非凸球形樣本空間的缺點，對于Double-circles 數(shù)據(jù)集，具有較高的純度和需要較少的時間；由于避免了k-means最小化均方誤差過程，減少了非平衡數(shù)據(jù)Glass對其聚類純度的影響；此外，否定選擇密度聚類算法避免了傳統(tǒng)k-means 算法反復(fù)更新聚類中心點和譜聚類高維矩陣計算導(dǎo)致較高的時間復(fù)雜度，減少了高維數(shù)據(jù)對聚類所需時間的影響。從實驗結(jié)果可以看出，否定選擇密度聚類算法具有更高的聚類純度、時間效果和更強(qiáng)的魯棒性。

圖5 不同數(shù)據(jù)集下各個算法聚類準(zhǔn)確度比較

圖6 不同數(shù)據(jù)集時間比較/對比

實驗2 改進(jìn)下采樣方法性能比較

為了對比隨機(jī)下采樣方法和通過聚類下采樣方法對不平衡數(shù)據(jù)處理的差異性，本實驗設(shè)計使用隨機(jī)下采樣、通過k-means聚類算法下采樣和否定選擇密度聚類算法下采樣對不平衡數(shù)據(jù)中多數(shù)類樣本進(jìn)行處理，并與少數(shù)類樣本重組成平衡樣本，使用NBSVM分類算法對這三組平衡數(shù)據(jù)分別進(jìn)行分類，分類混淆矩陣如圖7所示。

圖7 不同方法處理不平衡樣本，NBSVM分類混淆矩陣

通過圖7可以看出，在使用隨機(jī)下采樣方法對多數(shù)類樣本處理時，由于隨機(jī)采樣得到的樣本可能并不具有代表性，分類器在進(jìn)行學(xué)習(xí)時不能學(xué)到較完整的特征，從而導(dǎo)致分類器具有較多的誤分樣本和較低的準(zhǔn)確率。通過聚類算法對多數(shù)類樣本聚類再進(jìn)行采樣得到的樣本，由于聚類后的每個簇與簇間具有低的相似度、簇中樣本間具有高的相似度，每個簇中距離聚類中心點越近的樣本越可以更好地代表此簇樣本，所以從每個簇中均選擇出若干具有代表性的樣本即可更好地代表全部多數(shù)類樣本，使用此采樣方法得到的樣本進(jìn)行訓(xùn)練，能使分類器學(xué)習(xí)到更完整的全樣本特征。因此，通過k-means聚類算法對不平衡樣本進(jìn)行下采樣處理比隨機(jī)下采樣方法對其進(jìn)行處理降低了垃圾文本和非垃圾文本的誤分率，垃圾文本誤分率從0.49 減少到0.23，非垃圾文本誤分率從0.40減少到0.21，準(zhǔn)確率從59.62%升高到79.22%，很大程度上提高了分類的準(zhǔn)確率。同時，對比通過k-means算法對不平衡數(shù)據(jù)集進(jìn)行處理，使用本文改進(jìn)的NCBA 聚類算法對其進(jìn)行處理使垃圾文本誤分率從0.23減少到0.15，非垃圾文本誤分率從0.21減少到0.14，準(zhǔn)確率達(dá)到了85.62%，分類器具有更精準(zhǔn)的文本垃圾識別率，進(jìn)一步說明了改進(jìn)聚類的有效性。以上數(shù)據(jù)可以說明，通過聚類改進(jìn)隨機(jī)下采樣提高了分類器的準(zhǔn)確率，彌補(bǔ)了隨機(jī)下采樣分類器只學(xué)習(xí)到部分特征的缺點，實驗結(jié)果證明了改進(jìn)下采樣方法的有效性。

實驗3 改進(jìn)PCA-SGD算法性能驗證

為了驗證本文改進(jìn)的PCA-SGD算法具有更高的穩(wěn)定性和更快的優(yōu)化速度，本實驗設(shè)計改進(jìn)算法與BGD、MBGD、SGD三種算法進(jìn)行誤差變化率與分類精度的比較，使用表1中Unicom不平衡通信文本數(shù)據(jù)集共17 223條。其中，四個算法誤差變化率比較結(jié)果如圖8，分類精度隨時間變化比較結(jié)果如圖9所示。

圖8 同迭代次數(shù)對模型訓(xùn)練穩(wěn)定性的影響

圖9 不同訓(xùn)練時間下模型分類準(zhǔn)確率比較

由圖8和圖9可以看出，由于BGD使用全樣本對模型進(jìn)行訓(xùn)練，保證了每次迭代都朝著整體最優(yōu)化的方向進(jìn)行，基本保證了損失值是單調(diào)下降的，但使用全樣本進(jìn)行訓(xùn)練同樣帶來了訓(xùn)練速度過慢的缺點；SGD 與MSGD由于使用部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練，加快了訓(xùn)練的速度，但隨機(jī)選取的樣本不能保證每次迭代損失值都是下降的，所以導(dǎo)致?lián)p失值的變化存在較大的波動；而改進(jìn)的PCA-SGD 由于在選取樣本時進(jìn)行了評估，選擇出了更具代表性的樣本進(jìn)行參數(shù)的更新，進(jìn)而使損失值的變化得到了比SGD 和MSGD 都小的波動，并具有更快訓(xùn)練速度的優(yōu)點。通過實驗結(jié)果驗證，PCA-SGD 算法具有較高的穩(wěn)定性和較快的收斂速度，綜上，此算法具有較高的可行性。

實驗4 垃圾文本識別模型性能對比

為了驗證本文提出的半監(jiān)督通信垃圾文本識別模型的有效性，選取 Lingspam、Spambase 和 Unicom 三個通信文本數(shù)據(jù)集，使用本文改進(jìn)的模型與TFGE[17]、IDRF[18]模型進(jìn)行準(zhǔn)確率對比，實驗結(jié)果如表2所示。

表2 3種方法文本識別準(zhǔn)確率對比 %

可以看出，由于Unicom 數(shù)據(jù)集對比Lingspam 和Spambase 數(shù)據(jù)集具有更多的樣本數(shù)和更高的不平衡比例，導(dǎo)致三個模型的準(zhǔn)確率均有所下降，但本文提出的半監(jiān)督模型具有最小的準(zhǔn)確率下降幅度。此外，由于本文提出的模型在解決不平衡樣本時，不僅使用改進(jìn)的NSDC-DS 欠采樣方法對其中的多數(shù)類進(jìn)行欠采樣，并且在使用NBSVM分類器對重組后的均衡樣本分類后，再使用改進(jìn)的優(yōu)化算法PCA-SGD 對模型進(jìn)行優(yōu)化，得到了更好的垃圾文本識別效果。實驗結(jié)果證明，本文提出的半監(jiān)督模型在解決不平衡問題時，三個數(shù)據(jù)集上均優(yōu)于其他兩個模型，表現(xiàn)出了較優(yōu)的通信垃圾文本識別性能。

6 結(jié)語

在對通信垃圾文本進(jìn)行識別時，本文將無監(jiān)督與有監(jiān)督學(xué)習(xí)結(jié)合，改進(jìn)算法模型優(yōu)化參數(shù)，更好地實現(xiàn)了垃圾文本識別的效果，具體如下：（1）無監(jiān)督學(xué)習(xí)部分。提出否定選擇密度聚類算法，改進(jìn)傳統(tǒng)聚類算法聚類中心點敏感和聚類數(shù)目不易確定的缺點。（2）有監(jiān)督學(xué)習(xí)部分。使用否定選擇密度聚類算法改進(jìn)了傳統(tǒng)隨機(jī)下采樣方法，采樣后的樣本具有更完整的整體特征，提高了分類器的性能，使用半監(jiān)督學(xué)習(xí)的方法完成通信文本的垃圾識別工作。（3）模型優(yōu)化。最后使用改進(jìn)的PCA-SGD 算法實現(xiàn)對文本垃圾識別模型的優(yōu)化任務(wù)，提高了模型的識別性能。實驗結(jié)果表明，否定選擇密度聚類算法具有更高的效率和更低的復(fù)雜度，改進(jìn)的下采樣方法NSDC-DS 使分類器具有更高的性能，改進(jìn)的隨機(jī)梯度下降算法PCA-SGD具有更穩(wěn)定收斂趨勢和更快的收斂速度，本文提出的半監(jiān)督學(xué)習(xí)下的通信垃圾文本識別模型具有較高的識別性能。在基于否定選擇的密度聚類算法中，相似度閾值的選取是通過多次實驗得到，需要較大的人工精力，如果根據(jù)不同數(shù)據(jù)集對閾值進(jìn)行自適應(yīng)調(diào)整是接下來工作的重點研究方向。