亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信識別①

2020-09-22 07:45:24吳思慧陳世平

計算機系統(tǒng)應用 2020年9期

關鍵詞：機制

吳思慧,陳世平

1(上海理工大學光電信息與計算機工程學院,上海 200093)

2(復旦大學上海市數(shù)據(jù)科學重點實驗室,上海 201203)

21世紀以來,手機用戶不斷增加,特別是智能手機的使用越來越多,人們可以通過短信快速高效的獲取信息,但隨之而來的是垃圾短信的泛濫,垃圾短信不僅僅影響到人們正常的手機使用和體驗,更主要的是垃圾短信會帶來嚴重的安全隱患,很多不法分子通過垃圾短信獲取用戶的私人信息,危害到用戶隱私安全.因此,垃圾短信的識別具有重要的現(xiàn)實意義.治理垃圾短信不僅需要有關部門的持法監(jiān)督和相應手機安全廠商的屏蔽,同時應該利用先進的技術,直接在源頭上消滅垃圾短信.

目前常用的垃圾短信識別的方法主要包括基于黑白名單的方法,基于規(guī)則的方法和基于短信內容的方法這樣3 種[1],前兩種方法要人工手動添加發(fā)送垃圾短信號碼的名單或者手動添加與垃圾短信對應關鍵詞,由于手動添加的數(shù)據(jù)量有限且效率低,因此目前主要是使用基于短信內容的方法來進行短信識別,即將文本分類技術用于識別垃圾短信.

文本分類是計算機應用于根據(jù)特定的分類系統(tǒng)或者標準自動分類文本[2,3].隨著深度學習在自然語言預處理領域的應用,相對于傳統(tǒng)的文本分類算法如樸素貝葉斯,支持向量機等[4-6],深度學習在文本分類上獲得了令人滿意的結果.目前長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)已經廣泛應用在文本分類里面,與循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)相比,LSTM 網(wǎng)絡采用了特殊隱式單元,因此更適合于處理長期依賴關系,很好的解決了RNN 的梯度消失或者梯度爆炸的問題,可以更好的獲取文本的全局特征信息.以LSTM 網(wǎng)絡為基礎的雙向循環(huán)神經網(wǎng)絡(Bidirectional LSTM,Bi-LSTM) 網(wǎng)絡是由向前的LSTM 和向后的LSTM 組成[7-13],在處理文本分類上面可以更好的捕捉雙向的語義依賴,對于詞向量[14]的依賴更少,從而提高文本的分類效率.

專家學者根據(jù)基于對人類視覺的研究,提出注意力(attention)機制[15],目前Attention 機制已經引入到自然語言預處理領域[16,17],學習并重點關注目標區(qū)域,使得模型在有效資源的情況下關注重點消息.Attention機制通常結合編碼解碼(encoder-decoder)模型使用,應用場景十分廣泛,因此隨后出現(xiàn)多種注意力機制的變形,如自注意力(self-attention)機制.

根據(jù)以上背景本文提出一種結合TFIDF 的selfattention-based Bi-LSTM 神經網(wǎng)絡模型.首先,使用Word2Vec[18-20]將短信文本處理成詞向量形式,隨后使用Bi-LSTM 模型對詞向量形式的短信文本的特征信息進行提取,接著引入自注意機制,并結合TFIDF 模型,對重點詞匯進行加權,最后將輸出的特征向量輸入Softmax 分類器得到分類結果.該模型不僅能夠充分利用上下文本信息來進行短信文本特征提取,還能在對短信文本進行分類時分辨中不同詞語的重要程度從而實現(xiàn)對重點詞語的提取,與未使用自注意機制和TFIDF 模型的Bi-LSTM 模型相比,在對垃圾短信和正常短信分類時的分類準確率,召回率,F1 值,運行時間等值上有較大的提升,其中分類準確率達到了90.1%,召回率達到了90.5%,F1 值達到了90.2%,說明該模型在對短信文本處理時具有更好的分類能力[21],同時從實驗結果的準確率與訓練集大小的性能趨勢曲線上來看,該模型始終優(yōu)于其他模型,該模型相較于其他模型需要更少的訓練數(shù)據(jù)就可以到達較高的準確率.實驗結果驗證了結合TFIDF 的self-attention-based Bi-LSTM神經網(wǎng)絡模型的可行性和有效性.

本文的主要貢獻如下:

(1)將Bi-LSTM 模型運用到垃圾短信識別中,既可以利用過去的信息也可以利用將來的信息.

(2)將自注意機制和TFIDF 模型相結合,進一步加強重點詞匯的權重,增強分類效果.

(3)在BI-LSTM 模型中引用自注意機制和TFIDF模型,進一步獲取對短信文本分類結果產生影響的重點詞語的特征.

1 模型構建

本文結合TFIDF 的self-attention-based Bi-LSTM神經網(wǎng)絡總體模型如圖1所示,模型包含詞向量輸入層,Bi-LSTM 網(wǎng)絡層,結合TFIDF 的自注意層,Softmax 層.模型流程主要是短信文本以詞向量的方式輸入到Bi-LSTM 層,經過特征提取并結合TFIDF 和自注意層的重點詞匯加權從而獲得最后的特征向量,最后通過Softmax 分類器對最終的特征向量進行分類從而得到短信文本分類結果.

1.1 RNN 模型

RNN 能處理序列問題,允許信息持久化,即將上一刻運算結果添加到當前計算的輸入中去,從而實現(xiàn)了“考慮上下文信息”的功能,可用于一段段連續(xù)的語義,一段段連續(xù)的段落等,RNN 包含循環(huán)結構,例如一個tanh 層.具體運行過程是t時刻輸入當前信息xt并由神經網(wǎng)絡模塊A 接收,之后由A 得到t時刻的輸出ht,并且將當前時刻的部分信息傳遞到下一刻t+1,RNN結構如圖2所示.

圖1 結合TFIDF 的self-attention-based Bi-LSTM 模型

1.2 LSTM 模型

在RNN 模型中僅靠一條線來記錄所有的輸入信息其工作效果并不是很理想,很難完美的處理具有長期依賴的信息,如一段很長的英語句子,RNN 很難記住前面主語的時態(tài)形式從而在句子后面選擇相應的合適的時態(tài).因此在RNN 模型的基礎上,出現(xiàn)了LSTM.LSTM 是一種特殊的循環(huán)神經網(wǎng)絡,可以學習長期依賴信息,其結構和傳統(tǒng)的RNN 結構相同,只是重復模塊A 結構更加復雜些,多了一個單元控制器Cell,其能夠判斷信息是否有用,從而解決了RNN 常有的梯度消失或者梯度爆炸的問題.LSTM 結構內部主要包括輸入門it,遺忘門ft,輸出門ot和Cell 狀態(tài)更新向量ct等部分,LSTM 結構如圖3所示.

圖3 LSTM 結構

(1)遺忘門ft決定需要舍棄的信息部分,其計算公式如下:

其中,Wf和bf分別表示遺忘門的權重矩陣和遺忘門的偏置矩陣,σ為激活函數(shù),ht-1表示歷史信息,xt表示當前流入Cell 中新的信息,xt作用是為了根據(jù)當前輸入的新的信息來決定要忘記哪些歷史信息,將上一時刻的輸出ht-1和本時刻的輸入xt兩個向量拼接起來,通過激活函數(shù)輸出一個在0 到1 之間的數(shù)值,0 表示完全拋棄,1 表示完全保留,同時,絕大部分數(shù)值都是接近0 或者1 的,這個數(shù)據(jù)決定要遺忘多少歷史信息,0 表示完全拋棄,1 表示完全保留.

(2)輸入門it處理當前位置的輸入,確定什么樣的新信息被存放在Cell 中,此處包含兩個部分,首先,Sigmoid 層的“輸入門層”會決定更新哪些值,接著tanh 層會建立一個新的候選值向量,在獲得了輸入門和遺忘門系數(shù)之后則更新當前的Cell 狀態(tài),Ct-1更新為Ct,其計算公式如下:

其中,Wi和bi分別表示輸入門的權重,tanh 為激活函數(shù).

(3)輸出門控制哪些信息用于此刻的輸出,輸出門是由歷史信息ht-1和新的信息xt來決定的,此處包含兩個部分,首先,運行一個Sigmoid 層,主要用于決定Cell 狀態(tài)的哪個部分將被輸出出去,將Cell 狀態(tài)通過一個tanh 層進行處理,得到一個在-1 到1 之間的值,將這個值乘以Sigmoid 門的輸出,最后模型將僅輸出確定要輸出的部分,其計算公式如下:

其中,Wo和bo分別表示輸入門的權重矩陣和輸入門的偏置矩陣.

1.3 Bi-LSTM 模型

Bi-LSTM 是對LSTM 的改進,因為LSTM 是序列化處理信息,所以在信息處理上有先后的順序,也就是常常忽略下文信息,不能綜合上下文的信息,例如:“作業(yè)寫完了,我想_手機”,要在橫線中填詞,如果只考慮前面的信息,那么橫線可以填“睡覺”,“玩”,“看電視”等,但是如果同時結合后面的信息“手機”一詞,那么橫線處填“玩”的概率最大,而Bi-LSTM 模型包含一個前向的LSTM 模型和一個后向的LSTM 模型,可以獲取足夠的上下文信息,并且兩個模型都被連接到相同的輸出層,Bi-LSTM 結構如圖4所示.

圖4 Bi-LSTM 結構

圖4中前向的LSTM 模型捕捉當前時刻的前文特征信息,后向的LSTM 模型捕捉當前時刻的后文特征信息,Bi-LSTM 模型t時刻的輸入的計算公式如下:

1.4 TFIDF 模型

TFIDF 是一種于咨詢檢索與咨詢勘探的常用加權技術,主要用以評估一字詞對于一個文集的重要程度或者對于一個語料庫中的其中一份文件的重要程度,字詞的重要程度與它在文檔中出現(xiàn)的次數(shù)成正比,與它在整個語料庫出現(xiàn)次數(shù)成反比.該模型主要包括:詞頻(TF)和逆文檔頻率(IDF)兩個部分,TF表示某個詞wn在文檔dm中的出現(xiàn)頻率,IDF 代表該詞的類別區(qū)分,計算公式如下:

其中,dm為文檔集中任意一篇,M為文檔集中文檔的總數(shù),dm有詞匯集合w={wn,wn,···,wn,···,wN},N為每篇文檔的詞匯總數(shù),fn,m表示詞wn在文檔dm中出現(xiàn)的次數(shù);表示文檔dm中出現(xiàn)的所有詞匯數(shù);D為文檔集合所有的文檔數(shù)量,Dwn表示出現(xiàn)了詞wn的文檔數(shù)量,并且為了不會出現(xiàn)由于語料集不包括詞wn而導致的分母等于零的情況,在此將分母加上一個常數(shù)1.

TFIDF權重即為TF和IDF的乘積,計算公式如下:

1.5 Self-Attention 機制

短信文本的識別過程中,文本所包含的詞數(shù)比較少,很難獲取更多的句子語義信息,但通過對比語料庫可以發(fā)現(xiàn),在句子中的某些重點詞匯可以更快的幫助識別短信類別,如在“元旦特惠,原價xxx 的三星手機現(xiàn)在特惠,全部八折,最高直降xxx”這樣的一條垃圾短信中,就包含了一些重點詞匯:“三星”(品牌名稱),“特惠”,“八折”,“直降”等.對于不同的詞匯,其對文本分類起到的作用也不一樣,因此為突出關鍵詞并優(yōu)化特征詞提取過程,引入Attention 機制,結構如圖5所示.

圖5 Attention 機制結構

Attention 機制通過對不同的詞匯分配不同的權重從而強化關鍵信息的比重.傳統(tǒng)的attention 機制模型需要依賴部分外部信息,而self-attention 機制不需要使用其他外部的信息,它會自動從自身所給的信息訓練來更新參數(shù)從而給不同信息分配不同的權重,因此本文采用self-attention 機制.

根據(jù)Bi-LSTM 所有的輸出向量組成的矩陣H=[H1,H2,···,HN],結合TFIDF 模型所得到了當前輸入文本的權重,更好將注意力集中的重點詞匯上,從而獲得更好的分類效果,基于TFIDF 的self-attention 機制的計算公式下:

計算公式如下:

H包含Bi-LSTM 所輸出向量 [H1,H2,···,HN],TFIDFN為當前輸入文本的權重,eN為N 維單位向量,N為輸入文本的長度,WT為隨機初始化并在訓練中學習的權重矩陣,γ基于TFIDF 的self-attention 層的輸出值,將輸出值輸入激活函數(shù)得到分類結果,短信文本進行“正常短信”和“垃圾短信”的二元分類.

2 實驗介紹

2.1 實驗數(shù)據(jù)

本文參與實驗的短信數(shù)據(jù)共有20 萬條,分為垃圾短信(negative)和正常短信(positive)兩種,其中正常短信數(shù)量為10 萬條,垃圾短信數(shù)量為10 萬條,這些數(shù)據(jù)在初始化時已經被分為了垃圾短信或者正常短信.

2.2 實驗數(shù)據(jù)預處理和參數(shù)設置

原始短信數(shù)據(jù)包含了很多非法符號,例如表情符號這些對于短信分類并沒有用,所以數(shù)據(jù)不直接使用,先進行數(shù)據(jù)的清洗.經過清洗過的短信數(shù)據(jù)要進行中文分詞處理,將短信的句子拆成單個中文單詞,本文中使用結巴分詞工具對短信進行分詞,分詞結束之后去除短信文本中的停用詞,常見的停用詞有“的”“得”“在”等,提高關鍵詞密度,增強搜索效率.

分詞處理之后,本文使用Word2Vec 工具初始化詞向量,同時使用Skip-gram[22,23]模型訓練數(shù)據(jù)集,并結合維基中文語料庫訓練詞向量維度,詞向量維度越高可以越好的表達中文單詞的語義,但是隨著維度的升高也會增加模型參數(shù)的數(shù)量,因此經過實驗對比,將詞向量維度設置為100,隱藏層設置為128,窗口大小設置為5,經過預處理之后的短信數(shù)據(jù)最長的一條為100 個中文詞匯,因此每條短信的特征矩陣大小均為,將特征矩陣作為TFIDF-self-attention-based Bi-LSTM模型的輸入?yún)⑴c到模型的訓練中去.

2.3 評價指標

本文以準確率Precision,召回率Recall和F1 作為指標來評估模型在垃圾短信識別任務中的有效性,計算公式如下:

其中,Nright,Nwrong,TP,FN分別表示短信分類準確的數(shù)量,短信分類錯誤的數(shù)量,正常短信被判斷成正常短信的數(shù)量和正常短信被判斷成垃圾短信的數(shù)量.

本文采用十折交叉驗證法來評估模型在短信測試集上的準確率.

3 結語

3.1 實驗結果

在本文中,設計了4 組對比實驗,分別使用了LSTM,Bi-LSTM,self-attention-based Bi-LSTM (SA Bi-LSTM),結合TFIDF 的self-attention-based Bi-LSTM (TSA Bi-LSTM) 4 組不同的模型,準確率實驗結果和運行時間對比實驗結果分別如表1和表2所示,對4 種模型根據(jù)不同訓練集的大小進行實驗結果如圖6所示.

表1 準確率對比實驗結果

表2 運行時間對比實驗結果

圖6 訓練集大小與準確率比較

3.2 模型對比分析

4種不同模型的準確率可以看出,LSTM 模型的準確率低于Bi-LSTM 模型的準確率,在Bi-LSTM 模型中引入attention 機制準確率得到了提高,而self-attentionbased BI-LSTM 模型結合TFIDF 則又進一步提高了模型準確率.

因此,通過以上實驗結果可得出結論:

(1)對比LSTM 模型和Bi-LSTM 模型,發(fā)現(xiàn)Bi-LSTM1 模型準確率高于LSTM 模型,同時模型用時更短,所以Bi-LSTM 模型對文本特征信息提取具有更精確的效果.

(2)對比Bi-LSTM 模型和self-attention-based Bi-LSTM 模型,可以得出在Bi-LSTM 模型引入selfattention 機制之后可以提高模型的準確率并且一定程度上縮短了模型運行時間,證明了self-attention 機制的有效性.

(3)對比self-attention-based Bi-LSTM 模型和結合TFIDF 的self-attention-based Bi-LSTM 模型,可以得出將注意力機制和TFIDF 模型相結合,更能有效提高重點詞匯的權重達到更好的分類效果.

4 結語

本文將self-attention 機制和TFIDF 模型相結合加入到Bi-LSTM 模型,設計出結合TFIDF 的selfattention-based Bi-LSTM 模型,并應用到垃圾短信識別中,通過4 組對比實驗,驗證了該模型具有良好的使用效果.

由于self-attention 機制的引用需要消耗一定的計算成本,因此在未來的工作中,將考慮如何在減少selfattention 機制對計算成本消耗的基礎上繼續(xù)優(yōu)化結合TFIDF 的self-attention-based Bi-LSTM 模型,使得該模型能在未來的應用中達到更好的使用表現(xiàn).