亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于TF-IDF和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的社交平臺(tái)垃圾文本過濾①

2019-03-11 06:02:26王非凡張舒宜黃少芬許閃閃趙晨曦趙傳信

計(jì)算機(jī)系統(tǒng)應(yīng)用 2019年3期

王楊,王非凡,張舒宜,黃少芬,許閃閃,趙晨曦,趙傳信

(安徽師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,蕪湖 241000)

1 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)將大千世界連接在一起,很多社交平臺(tái)應(yīng)運(yùn)而生并發(fā)展壯大.其為世界各地的人們提供了便利的交流方式與資源共享的平臺(tái),從而深深地融入到了人們的學(xué)習(xí)生活和工作中.然而,社交平臺(tái)的開放性、傳播的迅速性與普遍性使得很多不法分子與廣告商散布垃圾文本,垃圾短文本是指涉及色情、暴力、廣告推銷等方面的文本消息.其擾亂了社交平臺(tái)的安寧、破壞了社交平臺(tái)的綠色環(huán)境.為響應(yīng)國(guó)家號(hào)召,打造綠色社交平臺(tái)、實(shí)現(xiàn)垃圾文本檢測(cè)與過濾迫在眉睫.垃圾文本的檢測(cè)與過濾主要分為如下幾個(gè)步驟:(1)數(shù)據(jù)集的收集;(2)對(duì)數(shù)據(jù)集中的文本進(jìn)行分詞;(3)構(gòu)造文本向量;(4)對(duì)文本向量進(jìn)行降維,得到特征向量,構(gòu)造關(guān)鍵詞集;(5)運(yùn)用關(guān)鍵詞集進(jìn)行訓(xùn)練,得到分類器.從而完成垃圾文本的檢測(cè)并對(duì)其進(jìn)行過濾.針對(duì)這些步驟,在對(duì)已有研究成果學(xué)習(xí)、分析各自利弊的基礎(chǔ)上,我們提出了一種基于TF-IDF和BP神經(jīng)網(wǎng)絡(luò)的社交平臺(tái)垃圾短文本過濾的方法.

2 相關(guān)工作

為了研究垃圾文本的接收端過濾技術(shù),根據(jù)文本接收端過濾技術(shù).其主要分為基于行為模式的過濾技術(shù)以及基于內(nèi)容的過濾技術(shù)兩類.針對(duì)本文研究的問題,短文本的來源比較廣泛且行為模式具有很大的不確定性,從而基于行為模式的過濾技術(shù)并不適用.我們選擇運(yùn)用基于內(nèi)容的過濾技術(shù)對(duì)本文提出的問題進(jìn)行研究.其對(duì)垃圾郵件的處理過程如圖1.根據(jù)文獻(xiàn)[1],基于內(nèi)容的垃圾短文本過濾的主要研究難點(diǎn)首先是對(duì)數(shù)據(jù)集中的文本進(jìn)行分詞,高效率的分詞可以為之后關(guān)鍵詞集的構(gòu)建提供良好的基礎(chǔ),繼而利于分類器的構(gòu)建;其次是關(guān)鍵詞集的構(gòu)建,如何對(duì)原始文本向量進(jìn)行特征選擇,從而進(jìn)行特征降維,便于之后的研究;最后是分類器的訓(xùn)練,用怎樣的方法才可以得到一個(gè)高精度、高準(zhǔn)確率的分類器.

針對(duì)難點(diǎn)一,目前用的比較多的是一個(gè)開源項(xiàng)目—“結(jié)巴分詞”[2],它將文本中漢字可能構(gòu)成的一個(gè)有向無環(huán)圖,通過動(dòng)態(tài)規(guī)劃的方法找到圖中最大概率路徑,基于路徑找出基于詞頻的最大切分組合.同時(shí),由于漢語的表達(dá)習(xí)慣,在分詞中需要注意停用詞的干擾,停用詞指的是樣本集中頻繁出現(xiàn)且分布均勻的、攜帶的類別信息量小的詞條,如語氣助詞、介詞等.如果分詞后的文本樣本中存在大量的停用詞,會(huì)影響分類器效果,同時(shí)延長(zhǎng)了測(cè)試集測(cè)試需要的時(shí)間,因此需要通過去停用詞提高分類效率.常用去停用詞的方法有兩種,一種為查表法,通過與現(xiàn)有的停用詞表進(jìn)行匹配刪除文本中的停用詞;另一種為對(duì)某個(gè)特征指標(biāo)設(shè)定閾值,如果某個(gè)詞條在該指標(biāo)上的數(shù)值超過閾值,則該詞定義為停用詞并刪除.

圖1 基于內(nèi)容的垃圾郵件過濾流程

對(duì)于研究難點(diǎn)二,此前主要的特征降維的方法有信息增益[3]、互信息[4]以及期望交叉熵.由于信息增益缺乏互信息,互信息和期望交叉熵缺乏對(duì)特征詞的集中度和分散度的評(píng)估,因此我們選取了一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù) TF-IDF[5].TF-IDF 相比于如主成分分析法,層次分析法等特征提取的方法,客觀性以及真實(shí)性更強(qiáng),同時(shí)它具有計(jì)算簡(jiǎn)便、利于理解、性價(jià)比高的特點(diǎn).

對(duì)于研究難點(diǎn)三,比較常用的分類器構(gòu)建的方法有貝葉斯[6,7]、SVM[8]等,近年比較流行的是運(yùn)用樸素貝葉斯[9],其算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn);分類過程中時(shí)空開銷小;理論上與別的分類方法相比有較小的誤差率,但樸素貝葉斯分類有一個(gè)限制條件,就是特征屬性必須有條件獨(dú)立或基本獨(dú)立,實(shí)際上在現(xiàn)實(shí)應(yīng)用中幾乎不可能做到完全獨(dú)立.當(dāng)這個(gè)條件成立時(shí),樸素貝葉斯分類法的準(zhǔn)確率是最高的,但不幸的是,現(xiàn)實(shí)中各個(gè)特征屬性間往往并不條件獨(dú)立,而是具有較強(qiáng)的相關(guān)性,這樣就限制了樸素貝葉斯分類的能力.通過查閱相關(guān)資料[10-12]我們發(fā)現(xiàn),與樸素貝葉斯相比,由于BP神經(jīng)網(wǎng)絡(luò)是模擬人的認(rèn)知思維推理模式,具有非線性映射能力,自學(xué)習(xí)和自適應(yīng)能力,同時(shí)具有較好的泛化能力和一定的容錯(cuò)能力,因此我們選取BP神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器.

3 BP 神經(jīng)網(wǎng)絡(luò)分類器

BP網(wǎng)絡(luò)模型處理信息的基本原理是:輸入信號(hào)Xi通過中間節(jié)點(diǎn)(隱層點(diǎn))作用于輸出節(jié)點(diǎn),經(jīng)過非線形變換,產(chǎn)生輸出信號(hào)Yk,網(wǎng)絡(luò)訓(xùn)練的每個(gè)樣本包括輸入向量X和期望輸出量t,網(wǎng)絡(luò)輸出值Y與期望輸出值t之間的偏差,通過調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的聯(lián)接強(qiáng)度取值Wij和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間的聯(lián)接強(qiáng)度Tjk以及閾值,使誤差沿梯度方向下降,經(jīng)過反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練即告停止.此時(shí)經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)即能對(duì)類似樣本的輸入信息,自行處理輸出誤差最小的經(jīng)過非線形轉(zhuǎn)換的信息.BP網(wǎng)絡(luò)模型包括其輸入輸出模型、作用函數(shù)模型、誤差計(jì)算模型和自學(xué)習(xí)模型,BP神經(jīng)網(wǎng)絡(luò)的原理圖如圖2.

(1)節(jié)點(diǎn)輸出模型

隱節(jié)點(diǎn)輸出模型:

輸出節(jié)點(diǎn)輸出模型:

其中,f表示非線形作用函數(shù);θ表示神經(jīng)單元閾值.

(2)作用函數(shù)模型

作用函數(shù)是反映下層輸入對(duì)上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù)又稱刺激函數(shù),一般為(0,1)內(nèi)連續(xù)取值Sigmoid函數(shù):

(3)誤差計(jì)算模型

誤差計(jì)算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計(jì)算輸出之間誤差小的函數(shù):

其中,tpi_i節(jié)點(diǎn)的期望輸出值;Opi_i節(jié)點(diǎn)計(jì)算輸出值.

(4)自學(xué)習(xí)模型

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,即連接下層節(jié)點(diǎn)和上層節(jié)點(diǎn)之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過程.BP網(wǎng)絡(luò)有師學(xué)習(xí)方式-需要設(shè)定期望值和無師學(xué)習(xí)方式-只需輸入模式之分.自學(xué)習(xí)模型為:

其中,η表示為學(xué)習(xí)因子;Φij表示為輸出節(jié)點(diǎn)i的計(jì)算誤差;Oj表示為輸出節(jié)點(diǎn)j的計(jì)算輸出;a表示為動(dòng)量因子.

由于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)在算法效率與收斂效果并不盡如人意,因此在原有的BP神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化改進(jìn),從而提高其效率與收斂性,使得分類效果更高.

圖2 BP 神經(jīng)網(wǎng)絡(luò)原理圖

(1)學(xué)習(xí)因子η的優(yōu)化

采用變步長(zhǎng)法根據(jù)輸出誤差大小自動(dòng)調(diào)整學(xué)習(xí)因子,來減少迭代次數(shù)和加快收斂速度.

其中,a為調(diào)整步長(zhǎng),在 0～1 之間取值.

(2)隱層節(jié)點(diǎn)數(shù)的優(yōu)化

隱節(jié)點(diǎn)數(shù)的多少對(duì)網(wǎng)絡(luò)性能的影響較大,當(dāng)隱節(jié)點(diǎn)數(shù)太多時(shí),會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)時(shí)間過長(zhǎng),甚至不能收斂;而當(dāng)隱節(jié)點(diǎn)數(shù)過小時(shí),網(wǎng)絡(luò)的容錯(cuò)能力差.利用逐步回歸分析法并進(jìn)行參數(shù)的顯著性檢驗(yàn)來動(dòng)態(tài)刪除一些線形相關(guān)的隱節(jié)點(diǎn),節(jié)點(diǎn)刪除標(biāo)準(zhǔn):當(dāng)由該節(jié)點(diǎn)出發(fā)指向下一層節(jié)點(diǎn)的所有權(quán)值和閾值均落于死區(qū)(通常取±0.1、±0.05 等區(qū)間)之中,則該節(jié)點(diǎn)可刪除.要確定最佳隱含層節(jié)點(diǎn)數(shù)應(yīng)該滿足以下條件:隱含層節(jié)點(diǎn)數(shù)必須小于N-1(N為訓(xùn)練樣本數(shù)),輸入層的節(jié)點(diǎn)數(shù)也必須小于N-1.最佳隱含節(jié)點(diǎn)數(shù)L可參考下面公式計(jì)算:

其中,m表示為輸入節(jié)點(diǎn)數(shù);n表示為輸出節(jié)點(diǎn)數(shù);c表示為介于1～10的常數(shù).

(3)輸入和輸出神經(jīng)元的確定輸入?yún)?shù),來減少輸入節(jié)點(diǎn)數(shù).

4 理論基礎(chǔ)

4.1 TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù).

在一份給定的文件里,詞頻TF指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù).這個(gè)數(shù)字通常會(huì)被歸一化,以防止它偏向長(zhǎng)的文件.對(duì)于在某一特定文件里的詞語來說,它的重要性可表示為:

其中,ni,j是該詞ti在文件dj中出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和.

逆向文件頻率IDF是一個(gè)詞語普遍重要性的度量.某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:

其中,|D|表示語料庫中的文件總數(shù),{J:ti∈dj}包含詞語t的文件數(shù)目(即ni,j≠0的文件數(shù)目),如果該詞不在語料庫中,就會(huì)導(dǎo)致被除數(shù)為0,因此一般情況下使用1+{J:ti∈dj},TF-IDF 傾向于過濾掉常見的詞語,保留重要的詞語,從而實(shí)現(xiàn)特征降維.

4.2 相關(guān)算法

4.2.1 利用 TF-IDF 獲取文本分類特征向量

TF-IDF用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度.因此算法首先應(yīng)對(duì)兩類數(shù)據(jù)集Spam和Ham內(nèi)的文本進(jìn)行分詞處理.“結(jié)巴分詞”支持三種分詞模式:精確模式,全模式和搜索引擎模式,因精確模式試圖將句子最精確地分開,能解決歧義,適合文本分析,所以本實(shí)驗(yàn)采用精確模式試圖實(shí)現(xiàn)文本語句的高精確度分割,以便后續(xù)工作的分析處理.另外,停用詞會(huì)對(duì)分類的準(zhǔn)確率產(chǎn)生較大影響,為了提高準(zhǔn)確率,去停用詞的步驟不必可少.兩類數(shù)據(jù)集內(nèi)的文本分詞完成后,將每一類分詞結(jié)果整合為一個(gè)“分詞包”.基于兩個(gè)包含詞匯豐富的分詞包,應(yīng)用TF-IDF算法計(jì)算兩類分詞包內(nèi)所有詞語的TF-IDF值,選取前N個(gè)TF-IDF值較高的詞語作為文本分類特征詞.在確定文本特征詞之后,我們按照詞語在文本中是否出現(xiàn)將每個(gè)文本轉(zhuǎn)換為有和0組成的N維特征向量,在特征向量的基礎(chǔ)上進(jìn)行垃圾文本檢測(cè)工作.

算法 1.TF-IDF 選取特征詞算法 (Algorithm for selecting feature words by TF-IDF)Step 1.導(dǎo)入垃圾文本和正常文本數(shù)據(jù)集Spam和Ham;Step 2.采用“結(jié)巴分詞”精確分詞模式對(duì)文本進(jìn)行分詞處理;Step 3.導(dǎo)入停用詞集stop_words.txt;Step 4.去停用詞后得到垃圾文本的分詞包記為package1,正常文本的分詞包記為package2;Step 5.導(dǎo)入{package1,package2},建立循環(huán),對(duì)分詞包的所有分詞計(jì)算詞頻IF和逆向文件頻率IDF;Step 6.計(jì)算每個(gè)分詞的IF-IDF=TF×IDF;Step 7.按照分詞的IF-IDF值從高到低的次序,對(duì)所有詞語進(jìn)行排序;Step 8.選取TF×IDF值最高的前N個(gè)詞語作為文本分類特征詞feature_words={word1,word2,…,wordN};Step 9.構(gòu)建文本特征向量feature_vector={0,0,…,0},維度為N;Step 10.對(duì)數(shù)據(jù)集的每一個(gè)文本進(jìn)行檢測(cè),構(gòu)造文本特征向量{w1,w2,…,wN}.

4.2.2 基于特征向量的垃圾文本檢測(cè)

從TF-IDF實(shí)現(xiàn)思想來看,基于特征詞的特征向量能夠更好的區(qū)分文本所屬類別.目前基于特征向量的垃圾文本檢測(cè)方法主要有一般的貝葉斯網(wǎng)絡(luò)分類器、樸素貝葉斯、支持向量機(jī)SVM和人工神經(jīng)網(wǎng)絡(luò)等,如何利用已有數(shù)據(jù)集進(jìn)行分類器的訓(xùn)練以及訓(xùn)練結(jié)果的滿意程度是衡量分類模型優(yōu)劣的主要標(biāo)準(zhǔn).神經(jīng)網(wǎng)絡(luò)算法模擬人體大腦處理問題的過程,使用最速下降法,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,最后使全局誤差系數(shù)最小.對(duì)于文本分類問題,實(shí)驗(yàn)采用兩層網(wǎng)絡(luò),且第一層使用 log sig(n)=1/(1+exp(-n))線性激活函數(shù),第二層使用purelin(n)=n對(duì)數(shù)S形轉(zhuǎn)移函數(shù).神經(jīng)網(wǎng)絡(luò)是一種自調(diào)整權(quán)重的學(xué)習(xí)方法,訓(xùn)練過程中只需正確提供訓(xùn)練集并明確輸入與輸出信號(hào)即可.

算法2.基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)分類算法(ANN Classification algorithm based on supervised learning)Step 1.導(dǎo)入訓(xùn)練集文本特征化后的向量,記訓(xùn)練樣本數(shù)目為n;Step 2.確定訓(xùn)練集的輸入為文本的特征向量,即N個(gè)輸入信號(hào);輸出結(jié)果有兩種:1或0;Step 3.根據(jù)輸入信號(hào),創(chuàng)建神經(jīng)網(wǎng)絡(luò)net_classifier進(jìn)行訓(xùn)練;Step 4.給定測(cè)試數(shù)據(jù),采用訓(xùn)練完成后的網(wǎng)絡(luò)net_classifier對(duì)測(cè)試文本進(jìn)行分類.

5 實(shí)驗(yàn)設(shè)計(jì)與分析

我們選用 CDCSE (Ccert Data Sets of Chinese Emails)中的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)集內(nèi)所有文本分為垃圾文本Spam和正常文本Ham兩類,各自數(shù)據(jù)量的大小分別為25 088和9272.首先我們通過TF-IDF算法選取特征詞算法選取1000個(gè)用于文本分類的特征詞,部分特征詞有{公司，工作，發(fā)票，水木，社區(qū)，合作，發(fā)信站，喜歡，有限公司，優(yōu)惠，網(wǎng)上，建筑工程，介紹，獨(dú)家代理，想要，發(fā)信人，放棄，生產(chǎn)，主動(dòng)，有時(shí)候},生成的特征詞云圖如圖3.

圖3 文本特征詞云圖

選取特征詞后,依次對(duì)兩類數(shù)據(jù)集分詞后的文本進(jìn)行特征化處理,將每個(gè)由眾多分詞組成的文本量化為1000維有0和1組成的特征向量,部分量化結(jié)果如表1.

基于上述操作,我們得到了各個(gè)文本的特征向量,文本將這1000個(gè)特征屬性為分類標(biāo)準(zhǔn),同時(shí)選取數(shù)據(jù)集的70%作為分類器訓(xùn)練集,30%作為分類器測(cè)試集.實(shí)驗(yàn)選用了樸素貝葉斯、貝葉斯、改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的方法分別對(duì)文本進(jìn)行分類,用以說明改進(jìn)BP神經(jīng)網(wǎng)絡(luò)相較于貝葉斯與樸素貝葉斯對(duì)垃圾文本過濾的優(yōu)越性.首先我們利用優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器.所得分類效果如圖4所示,分類平均準(zhǔn)確率達(dá)到了97.720%.本實(shí)驗(yàn)中BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果目標(biāo)誤差規(guī)定為0.01,從訓(xùn)練效果圖來看,隨著迭代次數(shù)的遞增訓(xùn)練結(jié)果的誤差在不斷降低,并在400次迭代左右趨于穩(wěn)定.從網(wǎng)絡(luò)訓(xùn)練回歸圖像來看,R達(dá)到了0.964 83,具有優(yōu)良的訓(xùn)練效果.我們將特征維度降為100維,重復(fù)該實(shí)驗(yàn)過程,所得結(jié)果如圖5.此時(shí)平均分類準(zhǔn)確率達(dá)到96.576%,相較于1000維特征向量,準(zhǔn)確率變化不大,具有較強(qiáng)的穩(wěn)定性.

表1 特征向量量化

圖4 1000維文本特征向量的BP神經(jīng)網(wǎng)絡(luò)結(jié)果

樸素貝葉斯分類效果可由混淆矩陣度量.混淆矩陣是對(duì)有監(jiān)督學(xué)習(xí)分類算法準(zhǔn)確率進(jìn)行評(píng)估的工具,通過將模型預(yù)測(cè)的數(shù)據(jù)與測(cè)試數(shù)據(jù)進(jìn)行對(duì)比,使用準(zhǔn)確率,覆蓋率和命中率等指標(biāo)評(píng)價(jià)模型的分類效果.本實(shí)驗(yàn)采用樸素貝葉斯對(duì)文本分類后得到的混淆矩陣如表2.

從表2中可以看出,模型正確預(yù)測(cè)正常文本的正確率SPC較高,達(dá)到了99.31%;而垃圾文本的預(yù)測(cè)準(zhǔn)確率TPR較低,僅在0.7左右.說明樸素貝葉斯模型在預(yù)測(cè)文本所屬種類時(shí)有單向偏差,對(duì)垃圾文本的預(yù)測(cè)效果不太理想.在同樣的實(shí)驗(yàn)環(huán)境下,從總體的預(yù)測(cè)結(jié)果來看,樸素貝葉斯預(yù)測(cè)準(zhǔn)確率ACC僅達(dá)到了86.75%.同樣的,我們將特征維度降至 100 維,從總體的預(yù)測(cè)結(jié)果來看,預(yù)測(cè)準(zhǔn)確率大幅降低,僅為77.23%.

表2 1000 維樸素貝葉斯混淆矩陣

圖5 100維文本特征向量的BP神經(jīng)網(wǎng)絡(luò)結(jié)果

表3 100 維貝葉斯混淆矩陣

貝葉斯分類效果類似于樸素貝葉斯,可用混淆矩陣度量.貝葉斯對(duì)文本分類后得到的混淆矩陣如表3.

表4 準(zhǔn)確率實(shí)驗(yàn)結(jié)果對(duì)比圖(單位:%)

從表3中可以綜合看到,貝葉斯預(yù)測(cè)準(zhǔn)確率為85.37%.將特征維度降至100維,從總體的預(yù)測(cè)結(jié)果來看,預(yù)測(cè)準(zhǔn)確率大幅降低,僅為74.93%.對(duì)實(shí)驗(yàn)所得結(jié)果進(jìn)行整合,如表4.

綜上,優(yōu)化的 BP 神經(jīng)網(wǎng)絡(luò),在同等實(shí)驗(yàn)環(huán)境下,不僅僅在分類效果上有著明顯的優(yōu)勢(shì),同時(shí)在性能上也具有較強(qiáng)的穩(wěn)定性,受特征集數(shù)目影響較小.

6 結(jié)論

社交平臺(tái)的綠色環(huán)境對(duì)建設(shè)文明中國(guó)的意義重大,因此社交平臺(tái)垃圾文本的過濾與篩選迫在眉睫.TFIDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),科學(xué)合理,使用簡(jiǎn)單方便,適用于分詞后特征集的選擇.由于樸素貝葉斯及貝葉斯對(duì)文本的預(yù)處理要求較高,特別是樸素貝葉斯,對(duì)文本獨(dú)立性要求極高,因此我們將優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類器的構(gòu)建,由于神經(jīng)網(wǎng)絡(luò)是一種具有一定容錯(cuò)性模仿人類思考的模型,且優(yōu)化后的神經(jīng)網(wǎng)絡(luò)的收斂性及效率有所提高,因此運(yùn)用優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)所訓(xùn)練的文本分類效率極好且具性能穩(wěn)定,且成本有所節(jié)省,因此,基于 TF-IDF和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)方法的社交平臺(tái)垃圾文本過濾不僅科學(xué)合理、結(jié)果準(zhǔn)確、且較于其他方法具有一定的優(yōu)越性及實(shí)用價(jià)值.