亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種半監(jiān)督的中文垃圾微博過濾方法

2016-05-04 02:43:15姚子瑜屠守中黃民烈朱小燕

中文信息學報 2016年5期

關(guān)鍵詞：分類文本效果

姚子瑜，屠守中，黃民烈，朱小燕

(清華大學計算機科學與技術(shù)系，北京 100084)

一種半監(jiān)督的中文垃圾微博過濾方法

姚子瑜，屠守中，黃民烈，朱小燕

(清華大學計算機科學與技術(shù)系，北京 100084)

微博作為目前國內(nèi)外最活躍的信息分享平臺之一，其中卻充斥著大量的垃圾內(nèi)容。因此，如何從給定話題的微博數(shù)據(jù)中，過濾掉與話題不相關(guān)的垃圾微博、保留話題相關(guān)微博，成為迫切需要解決的問題。該文提出了一種半監(jiān)督的中文微博過濾方法，基于樸素貝葉斯分類模型和最大期望算法，實現(xiàn)了利用少量標注數(shù)據(jù)的垃圾微博過濾算法，其優(yōu)勢是僅僅利用少量標注數(shù)據(jù)就可以獲得較為理想的過濾性能。分別對十個話題140 000余條新浪微博數(shù)據(jù)進行過濾，該文提出的模型準確度和F值優(yōu)于樸素貝葉斯和支持向量機模型。

垃圾微博過濾；半監(jiān)督學習；EM算法；樸素貝葉斯

1 引言

微博(Microblog)是一種基于用戶關(guān)系的短文本信息分享平臺。根據(jù)文獻[1]統(tǒng)計顯示，截止到2014年8月，推特上注冊用戶數(shù)達到近十億，月活躍用戶達2.71億。微博已經(jīng)成為互聯(lián)網(wǎng)用戶獲取和傳遞信息的重要平臺。微博中的博文或推文(Tweets)，涵蓋了多個話題，涉及經(jīng)濟、政治、科技、娛樂等多個領(lǐng)域。用戶在微博上獲取的信息很大一部分來源于微博的話題搜索功能。從“微博搜索”功能搜索下來的話題微博，具有優(yōu)良的話題實時性和實效性，為用戶提供了大量具有高度價值的相關(guān)話題信息。然而，其中夾雜著不少包含廣告信息的微博(如圖1)。

事實上，這些帶有廣告信息的微博，極大影響了微博用戶體驗。文獻[2]指出，微博的低門檻、易操作以及傳播影響力大等因素，使得“微博廣告”的衍生成為一種必然。然而，過度泛濫的微博廣告不僅降低了用戶的微博體驗，更影響了整個微博生態(tài)圈的發(fā)展。例如，不少用戶的微博常常被陌生賬號“@”、轉(zhuǎn)發(fā)，同時伴有含廣告信息及鏈接的評論；買賣“僵尸粉”成為商家牟利的常用手段；一些不正規(guī)的、含有敏感詞匯的廣告，也逐漸在各大微博門戶網(wǎng)站上傳播，影響了微博產(chǎn)業(yè)的健康發(fā)展。

參考新浪微博發(fā)布的《垃圾營銷信息管理規(guī)定征求意見稿》[3]，本文定義“垃圾微博”為：通過信息流或微博公共區(qū)域(如話題搜索頁)發(fā)布的，帶有售賣鏈接、軟性植入推廣或有獎營銷活動宣傳的微博。我們可以將垃圾微博劃分為兩類：

圖1 iphone6話題下垃圾微博示例

(1) 廣告推廣類

此類微博一般有兩種表現(xiàn)形式： ①以“關(guān)鍵詞堆積”的形式提及熱搜話題，以提高廣告自身的檢索命中率，但其內(nèi)容與話題無關(guān)。例如，搜索話題“理財產(chǎn)品”，可以檢索到下面的微博：

“#那些年，我們一起追過的女孩##烏俄地緣局勢##普京講話##聰明理財##理財產(chǎn)品##最火理財產(chǎn)品##如何理財”。

這條微博通過堆積關(guān)鍵詞如“那些年，我們一起追過的女孩”、“普京講話”等均為時間段內(nèi)的熱搜詞，提高了廣告被檢索到的概率，但微博內(nèi)容本身與檢索話題無關(guān)，是商家實現(xiàn)微博營銷的一種常用手段。②微博話題本身就是一種銷售產(chǎn)品，或自身不是銷售產(chǎn)品、但具有潛在產(chǎn)業(yè)鏈的情況下，微博文本雖然與話題相關(guān)，但是提供的均為銷售信息。例如，搜索話題“iphone5”，可以檢索到：

“iPhone5S情侶彩繪 iphone4s手機殼 iphone5手機殼卡通蘋果5S外殼 32包郵”。

由于“iphone5”本身就是一種銷售產(chǎn)品，且它含有很廣泛的產(chǎn)業(yè)鏈(手機殼，手機貼膜等)，因此，搜索“iphone5”話題時，往往會含有大量的廣告微博。

(2) 有獎營銷類

此類微博主要表現(xiàn)為，存在大量的“活動宣傳”詞匯，如“中獎”、“抽獎”、“好禮”等；含有#(Hashtag)符號，尤其在微博的“微話題”中最常見。例如，搜索話題“環(huán)?！?，可以檢索到諸如“#到國美購海爾健康環(huán)保# 521期待人品大爆發(fā)，大獎小獎統(tǒng)統(tǒng)搬回我的家！”和“#環(huán)保#祝小編天天開心，也祝貴博粉絲多到爆，越來越紅火！”的微博。這兩條微博均為微博上的“微話題”活動，以一對#符號開頭，正文含有“大獎”“小獎”等詞，表現(xiàn)出“期望在活動中贏取大獎”的正向情感。

從新浪微博隨機爬取的話題微博數(shù)據(jù)顯示，手機產(chǎn)品的微博中，垃圾微博占比高達70%！因此，從相關(guān)話題的微博中過濾垃圾微博、篩選出非垃圾微博，逐漸得到了學術(shù)界和工業(yè)界的關(guān)注。TREC從2011年新增了微博任務(wù)開始，一直將給定話題的實時微博信息篩選作為其任務(wù)之一。

垃圾微博的過濾工作，可以轉(zhuǎn)化為微博的文本分類工作。然而，微博文本具有內(nèi)容短小、用語不規(guī)范、大量社會化內(nèi)容等特點，使得傳統(tǒng)的長文檔的分類方法不再適用。同時，在給定話題下，垃圾微博與非垃圾微博往往具有“區(qū)分度低”、“主題接近”的情況，也給垃圾微博過濾帶來了極大的挑戰(zhàn)。此外，由于人工標注數(shù)據(jù)獲取代價高，往往需要耗費大量人力物力，而無標注數(shù)據(jù)易于獲取、數(shù)量大，因此，在實現(xiàn)文本分類時，我們需要盡可能地減少人工標注數(shù)據(jù)量，充分利用無標注數(shù)據(jù)。這為垃圾微博過濾問題帶來了更大的挑戰(zhàn)。

本文針對給定話題的垃圾微博過濾問題，提出了基于樸素貝葉斯分類器(Naive Bayesian Classifier)和最大期望(Expectation Maximization)算法的半監(jiān)督中文垃圾微博過濾模型。本文提出的方法，將垃圾微博過濾問題轉(zhuǎn)化為二分類問題，即將微博分為“垃圾微博”和“非垃圾微博”兩類；同時，使用半監(jiān)督的學習方法，僅需要人工標注少量的樣本作為訓練數(shù)據(jù)，充分利用未標注數(shù)據(jù)，迭代地擴充了分類器中的特征，自動地生成新的分類器，極大緩解了人工標注樣本的困難。另外，考慮到同一話題下，“垃圾微博”與“非垃圾微博”在主題和詞分布上的接近，本文模型使用的訓練數(shù)據(jù)均為同一個話題下的正負樣本，從而挖掘出更細粒度、更具代表性的特征詞匯用于分類。最終，本文提出的方法在十個微博話題、十四萬余條新浪微博文本的測試數(shù)據(jù)上，對每個話題分別進行五組不同訓練集標注量的實驗，實現(xiàn)了具有較高準確度和F值的微博過濾工作，且效果優(yōu)于經(jīng)典的樸素貝葉斯分類模型和支持向量機模型。

2 相關(guān)工作

近年來，國內(nèi)外學者針對虛假評論做了大量的研究。研究人員針對虛假評論的研究主要分為兩個方面：對虛假評論文本內(nèi)容的研究和對評論發(fā)布者的特征研究。Jindal和Liu[4-5]將評論站點上的虛假評論分成三種類型：對特定產(chǎn)品的不真實的評論、對品牌的評論以及不帶情感信息的評論。對于第二和第三種類型的虛假評論，他們標注了一部分數(shù)據(jù)集，用有監(jiān)督學習的方法來識別虛假評論。實驗結(jié)果發(fā)現(xiàn)這類虛假評論比較容易識別。對于第一種類型的虛假評論，他們假設(shè)重復的評論都是虛假評論，將虛假情感識別問題轉(zhuǎn)化成重復評論識別任務(wù)。但是，直接使用重復評論來當作虛假評論是不合適的。Li等人[6]提出使用LDA主題模型識別旅店評論中的虛假評論，在800條旅店評論測試集上獲得了非常高的準確率，但是這種有監(jiān)督的方法需要較多人工標注，并不適用于實際應(yīng)用。針對這個問題，文獻[7]提出了一種檢測欺詐性評論的半監(jiān)督方法。在只標注正樣本的情況下，作者首先獲得可靠的負樣本，后基于支持向量機模型和LDA主題模型對測試文本進行分類。另一個角度，研究人員主要考慮從評論發(fā)布者的特征屬性來判斷該發(fā)布者是否是評論造假者(Opinion Spammer)。Lim等人[8]提出使用用戶的行為特征來識別評論造假者，但沒有考慮對應(yīng)評論的文本內(nèi)容特征。Wang等人[9]結(jié)合評論文本和評論發(fā)布者，提出了用戶可信度(trustiness of reviewers)、評論真實性(honesty of reviews)和商店可靠性(reliability of stores)三個概念，用圖模型闡述了三個概念之間的聯(lián)系。

在文本分類技術(shù)方面，國外學者積極致力于尋找新的分類方法，減少文本分類對標注數(shù)據(jù)的依賴性。一方面，不少學者致力于以標注“特征”作為標注樣本。Druck等人[10]于2008年提出Generalized Expectation Criteria，用標注的特征樣本，學習未標注特征的類別，實現(xiàn)文本分類；文獻[11]基于Generalized Expectation Criteria，完成了自動的特征抽取，其訓練出的情感分類器在實驗中效果優(yōu)于用標注文本訓練出來的分類器。另一方面，國內(nèi)外學者提出了半監(jiān)督的學習方法，試圖減少樣本標注量。文獻[12]基于經(jīng)典的樸素貝葉斯分類器與最大期望算法提出了半監(jiān)督的文本分類方法，在20Newsgroups[13]的不同話題上做了30組實驗，每組實驗均只標注正樣本，獲得了較高的F值。文獻[14]同樣基于樸素貝葉斯分類器，但是，作者提出了一種利用未標注樣本中詞匯邊際概率作為約束的樸素貝葉斯分類器。作者利用大量未標注數(shù)據(jù)表現(xiàn)出來的詞匯邊際概率特征，避免了標注樣本量少、標注數(shù)據(jù)稀疏帶來的問題。Settles在文獻[15]中同時考慮了標注文本和標注特征，并在訓練樸素貝葉斯分類器過程中，對標注特征加大權(quán)重。

由于微博文本相對標準數(shù)據(jù)集而言，缺少語言規(guī)范性，文本也更加短小，常規(guī)的文本分類方法很難在微博文本上得到很好的應(yīng)用。此外，研究人員在評價分類模型效果時，往往采用準確度(Accuracy)作為評價標注。然而，在垃圾微博過濾的問題中，我們更關(guān)注“垃圾微博”的分類效果，希望尋找一種能夠精確而高效地將“垃圾微博”從微博文本中過濾出來的方法，即一種F值較高的過濾方法。這是因為，在一般情況下，由于給定話題下的“垃圾微博”占整個話題微博的比例較小(約10%—20%)，即使分類器將所有微博均判定為“非垃圾微博”，也能達到較高的準確度，但是卻難以達到良好的F值。本文提出的模型，將樸素貝葉斯分類模型應(yīng)用在實際生活中，用于解決同一話題下的微博分類問題，并且結(jié)合最大期望算法迭代地挖掘未標注文本中的新的特征，有效地降低了人工標注樣本的成本，達到較高的F值，且易于推廣到處理多個話題的實際應(yīng)用中。

3 半監(jiān)督的垃圾微博過濾算法

在實際生活中，每天的微博話題不計其數(shù)，且每個話題下的數(shù)據(jù)有各自的特點，需要分別標注訓練樣本。因此，采用傳統(tǒng)的有監(jiān)督的垃圾微博過濾方法，需要昂貴的大量數(shù)據(jù)標注。本文提出了一種半監(jiān)督的垃圾微博過濾方法，在少量標注樣本的情況下，充分利用大量的未標注數(shù)據(jù)，能夠獲得較高的F值和準確度，大大降低了微博過濾的數(shù)據(jù)標注規(guī)模，相比有監(jiān)督的方法，更適用于實際應(yīng)用。

3.1 符號定義

在文本分類中，假設(shè)：

本文解決的問題，就是在已知少量標注訓練集Dl和大量未標注文本集Du的情況下，估計待分類文本集中，每一則文本屬于各個類別的概率。

3.2 算法概覽

圖2 算法總體流程

步驟4-5對待分類文本集中的文本進行分類，當其屬于“垃圾微博”類別的概率大于其屬于“非垃圾微博”類別的概率時，判斷該文本為垃圾微博文本。最后，返回過濾后的類別結(jié)果，算法結(jié)束。

3.3EM-NB算法

基于樸素貝葉斯模型和最大期望算法的EM-NB算法如圖3所示。算法中涉及迭代的步驟，以上角標t表示迭代次數(shù)。算法由兩步完成。

1. Expectation步驟(E-Step)：

(3)

2. Maximization步驟(M-Step)：

(4)

(5)

迭代進行E-Step和M-Step(圖3，步驟2-5)直至分類器參數(shù)收斂。步驟3中，用KL距離(Kullback-Leibler Divergence)來衡量兩次迭代的分類器參數(shù)概率分布的相似性，如式(6)所示。當兩次迭代的參數(shù)分布距離小于閾值σ(σ≥0)時，認為參數(shù)收斂。

(6)

圖3 EM-NB算法流程

實際實驗中，當?shù)螖?shù)兩次時，分類器參數(shù)已經(jīng)收斂，故實驗過程中迭代次數(shù)為兩次。

4 實驗及分析

4.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)來自新浪微博2014年的微博數(shù)據(jù)，分別按“阿里巴巴”、“iphone5”、“余額寶”、“霧霾”、“環(huán)?！?、“理財產(chǎn)品”、“NBA”、“自貿(mào)區(qū)”、“華為”、“油價”十個話題進行微博搜索，按話題隨機爬取了如下共145 304條微博數(shù)據(jù)，如表1所示。每個話題均隨機抽取若干條數(shù)據(jù)作為“標注集”，人工標注后，用于實驗中的訓練集和測試集數(shù)據(jù)；剩余微博作為“未標注集”，不做標注。

表1 話題微博實驗數(shù)據(jù)

不同話題的微博數(shù)據(jù)，垃圾微博與非垃圾微博的數(shù)量比例不同。例如，“iphone5”話題的垃圾微博大約占85%，“阿里巴巴”話題的垃圾微博則僅占20%左右。每個話題的標注集垃圾微博分布如表2所示。

表2 標注集數(shù)據(jù)

4.2 實驗步驟

1. 文本預(yù)處理

文本預(yù)處理分為兩個步驟：

(1) 微博內(nèi)容抽?。?從爬取下來的原始微博數(shù)據(jù)中，抽取出微博內(nèi)容本文，其他數(shù)據(jù)如微博用戶ID、微博ID、發(fā)布時間等，暫不予以考慮；

(2) 微博內(nèi)容分詞：分詞工具采用張華平博士提供的NLPIR(ICTCLAS2014版本)中文分詞工具*http://ictclas.nlpir.org/。同時，導入用戶詞典(共1416個常用詞)，防止常見詞匯如“淘寶”、“微博”等被錯誤拆分，影響最終效果。

2. 特征抽取

本文使用的特征為詞匯特征、表情符號和數(shù)字。

(1) 詞匯特征：在文本預(yù)處理后的分詞結(jié)果中，去掉停用詞，剩余每個詞匯作為一個特征；同時，對于微博中的“@用戶名”結(jié)構(gòu)，僅保留@符號作為符號特征，刪去@后的用戶名；

(2) 表情符號：刪去中英文標點符號如句號(。.)、逗號(，,)、雙引號(“”)、頓號(、)、冒號(： : )等，保留符號如Hashtag(#)【】以及其他少見的符號如*☆～o等。

(3) 數(shù)字處理：在商業(yè)廣告或宣傳中，常常出現(xiàn)商品標價。然而，由于商品標價不盡相同，難以提取作為表征廣告微博的特征。因此，特征抽取過程中，將數(shù)字如“123”“12.34”等轉(zhuǎn)化為字符串“Number”，即用“Number”字符串表示所有不同數(shù)值的數(shù)字。

3. 模型選擇

實驗主要比較三個模型的微博過濾效果：

(1) 支持向量機SVM：模型實現(xiàn)采用LibSVM工具*http://www.csie.ntu.edu.tw/～cjlin/libsvm/，選擇在文本分類任務(wù)中效果較好的線性核支持向量機(Linear-SVM)。文本特征取用“特征抽取”后的結(jié)果，但需要轉(zhuǎn)化為其在文本中的頻率。同時注意，由于支持向量機對訓練集正負數(shù)據(jù)比例非常敏感，在實現(xiàn)支持向量機過濾微博時，首先對訓練集數(shù)據(jù)進行比例調(diào)整，對比例較大的一類數(shù)據(jù)進行隨機抽樣，保證訓練集數(shù)據(jù)中兩個類別的比例大約在1: 1。實驗表明，比例調(diào)整后，支持向量機的微博過濾效果優(yōu)于比例失衡情況下的效果。

(2) 樸素貝葉斯分類器NB：文本特征取用“特征抽取”后的結(jié)果，利用訓練集中“垃圾微博”與“非垃圾微博”的數(shù)據(jù)，實現(xiàn)一個完全有監(jiān)督的模型；

(3) 本文的中文微博過濾算法Spam-Weibo：文本特征及訓練集處理同樸素貝葉斯分類器，同時，使用話題下的“未標注集”作為算法中所需的未標注文本集；

4. 實驗內(nèi)容

為了驗證在少量標注數(shù)據(jù)集下三個模型的微博過濾效果，實驗采用不同數(shù)量的標注訓練集：分別隨機抽取32、64、128、256、512條標注微博用于訓練分類器，剩余的微博作為測試集，對每個話題分別進行五種訓練集數(shù)量的實驗。例如，對于標注集共1500條微博的話題，五組實驗中的訓練集和測試集數(shù)據(jù)量如表3所示。

注意，每個話題的每組實驗，均進行十次實驗，最終取十次實驗的平均結(jié)果作為該組實驗的結(jié)果。

表3 實驗組數(shù)據(jù)

4.3 評價指標

評價垃圾微博的過濾效果，主要從兩個指標入手：準確率和F值。

? 準確率(Accuracy)表征了測試數(shù)據(jù)的整體分類效果，如式(7)所示。

(7)

? F值表征了測試數(shù)據(jù)分類為“垃圾微博”類別的分類效果，如式(8)所示。

(8)

其中，TP(True Positives)表示被正確判斷為垃圾微博的垃圾微博數(shù)；FN(False Negatives)表示被錯誤判斷為非垃圾微博的垃圾微博數(shù)；TN(True Negatives)表示被正確判斷為非垃圾微博的非垃圾微博數(shù)；FP(False Positives)表示被錯誤判斷為垃圾微博的非垃圾微博數(shù)。

以上兩個評價指標中，準確率(Accuracy)考慮了垃圾微博與非垃圾微博的整體分類效果。然而，準確率的高低容易受到微博數(shù)據(jù)中垃圾微博與非垃圾微博數(shù)量比例的影響。例如，當測試集中80%的文本屬于“垃圾微博”類別時，即使將所有的測試集微博均判斷為垃圾微博，依舊能夠得到80%的準確度。因此，F(xiàn)值顯得更加重要。在本文的評價指標中，F(xiàn)值僅考慮了“垃圾微博”的分類效果。理想情況下，希望“垃圾微博”的精確度(Precision)和召回率(Recall)都很高，保證過濾之后的剩余微博中，絕大部分都是“非垃圾微博”，且盡可能少地將非垃圾微博劃分為垃圾微博類別。F值很好的衡量了這個效果。

4.4 實驗結(jié)果及分析

實驗結(jié)果如表4～8及圖2～3所示。表4～5顯示，當訓練集標注量為32或64條微博時，Spam-Weibo的微博過濾F值平均比樸素貝葉斯分類器分別提高了4%和3%，且每個話題下，Spam-Weibo均有最好的F值。此外，Spam-Weibo在大部分話題下同樣取得了最高的準確度(90.3%，92.6%)，即，該模型在保證整體過濾效果的前提下，提高了“垃圾微博”過濾的能力。相反，支持向量機只有少量幾個話題如“霧霾”、“環(huán)?！薄ⅰ袄碡敭a(chǎn)品”取得了較好的分類準確度，整體過濾效果較差。此外，對于話題“阿里巴巴”、“理財產(chǎn)品”、“自貿(mào)區(qū)”、“華為”四個話題，當訓練集僅為32條標注數(shù)據(jù)時，Spam-Weibo取得的分類效果優(yōu)于64條訓練集數(shù)據(jù)時樸素貝葉斯分類器的過濾效果，也就是說，在本文提出的Spam-Weibo微博過濾模型下，僅標注32條數(shù)據(jù)，就能取得優(yōu)于樸素貝葉斯分類器下兩倍標注量的效果。

表6顯示，當訓練集標注量為128條微博時，Spam-Weibo模型依舊在所有話題下均擁有最高的準確度(93.7%)和F值(85.7%)?！鞍⒗锇桶汀?、“iphone5”、“環(huán)?！?、“理財產(chǎn)品”、“NBA”、“自貿(mào)區(qū)”、“華為”七個話題中，當數(shù)據(jù)標注量為64條微博時，Spam-Weibo取得的過濾效果優(yōu)于或近似于其他模型在128條標注量下的過濾效果。

隨著訓練集標注量的增大，Spam-Weibo模型在256條訓練集標注量(表7)下雖然依舊有最高的準確度和F值，但是與NB模型的差距在縮?。划敇俗⒘窟_到512條時(表8)，我們提出的模型相對于樸素貝葉斯分類模型，過濾效果均略低(0.5%)。因此，我們提出的Spam-Weibo模型更適用于在標注數(shù)據(jù)量較少的情況。同時，需要注意，標注量從256增加到512時，兩個模型的準確度都幾乎沒有變化，F(xiàn)值只增加了1%。實際生活中，新浪微博等每天產(chǎn)生的話題數(shù)不計其數(shù)，如果每個話題都標注500條數(shù)據(jù)，這是非常耗費人力的；因此，我們使用的Spam-Weibo模型更具實用性，它為數(shù)據(jù)標注人員減輕了大量負擔。

最后，實驗結(jié)果顯示，SVM模型在各種訓練標注集下，都無法取得較好的效果，這是因為SVM模型對于訓練集數(shù)據(jù)量的大小以及正負樣本比例非常敏感。首先，注意到當訓練標注量達到512條時，大部分話題已經(jīng)在SVM模型下取得了較優(yōu)秀的準確度，其中，話題“NBA”的準確度，比其在256條訓練集下增加了約10個百分點；并且，幾乎每個話題都在訓練標注量翻倍以后，準確度或F值都有5至10個百分點的增加，例如，“環(huán)?！保坝囝~寶”話題。因此，SVM模型對于標注數(shù)據(jù)的需求遠比樸素貝葉斯模型和本文模型要強烈。同時，SVM模型對于訓練數(shù)據(jù)的正負比例異常敏感。實驗過程中，我們在進行比對后，發(fā)現(xiàn)先對訓練集數(shù)據(jù)進行正負比例調(diào)整，再使用SVM模型，效果會比直接使用SVM模型要好的多。并且，在標注量512條微博時，“理財產(chǎn)品”，“華為”等正負比例相對均衡的話題，SVM模型取得的分類效果是很好的，并且隨著標注量的增加，其分類準確度能夠穩(wěn)步增長。最后，需要注意的是，在調(diào)整SVM模型訓練集正負樣本比例的過程中，會對原有訓練樣本進行抽樣，因此，即使是在大標注量的情況下，對于比例嚴重失衡的一些話題來說，抽樣過后實際的標注量還是很少的，這是導致SVM模型在某些話題下，分類效果一直不穩(wěn)定且很差的原因。然而，現(xiàn)實生活中，大部分話題下的垃圾微博比例在10%—20%左右，因此，SVM模型并不能適用于實際的垃圾微博過濾中。

表4 32條訓練集數(shù)據(jù)的過濾效果

續(xù)表

表5 64條訓練集數(shù)據(jù)的過濾效果

表6 128條訓練集數(shù)據(jù)的過濾效果

表7 256條訓練集數(shù)據(jù)的過濾效果

表8 512條訓練集數(shù)據(jù)的過濾效果

圖2 不同訓練集標注量的過濾準確度

圖3 不同訓練集標注量的過濾F值

5 總結(jié)

本文針對給定話題下的垃圾微博過濾問題，提出了基于樸素貝葉斯分類模型和最大期望算法的中文話題微博過濾模型。本文提出的方法以少量標注數(shù)據(jù)對話題下的微博數(shù)據(jù)進行分類，極大降低了人工標注數(shù)據(jù)的成本。在新浪微博的十個話題、十四萬余條微博文本下，本文提出的方法在訓練集標注量分別為32、64、128、256條微博的情況下，準確度和F值均高于樸素貝葉斯分類模型(在32條標注量時，提高1%的準確度和4%的F值)，且遠優(yōu)于支持向量機模型。同時，在本文提出的模型下，部分話題僅需要用一半的訓練集標注量，就能達到比其他模型用成倍訓練集更好的效果。

[1] By The Numbers: 220 Amazing Twitter Statics [OL].2014.http://expandedramblings.com/index.php/march-2013-by-the-numbers-a-few-amazing-twitter-stats/#.VCdgtaiSzI0

[2] 陳倩. 微博廣告發(fā)展現(xiàn)狀與傳播效果分析[J]. 產(chǎn)業(yè)與科技論壇，2012,11(2)： 33-35.

[3] 垃圾營銷信息管理規(guī)定征求意見稿[OL]. http://weibo.com/p/1001603697836242954625,2014.

[4] Jindal,Nitin, Bing Liu.Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.ACM,2008: 219-230.

[5] Jindal N, Liu B. Reviewspam detection[C]//Proceedings of the 16th International Conference on World Wide Web, New York, NY, USA: ACM, 2007: 1189-1190.

[6] Li Jiwei, Claire Cardie, Sujian Li. Topic Spam: a Topic-Model based approach for spam detection[C]//Proceedings of the ACL，2013.

[7] Ren,Yafeng,Donghong Ji,and Hongbin Zhang.Positive Unlabeled Learning for Deceptive Reviews Detection[C]//Proceedings of the EMNLP，2014.

[8] Lim,Ee-Peng,et al.Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM,2010: 939-948.

[9] Wang Guan, et al. Review graph based online store review spammer detection[C]//Proceedings of Data Mining (ICDM), 2011 IEEE 11th International Conference on. IEEE, 2011.

[10] Druck Gregory, Gideon Mann, Andrew McCallum. Learning from labeled features using generalized expectation criteria[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008.

[11] YULAN He， Deyu Zhou. Self-training from labeled features for sentiment analysis[C]//Proceedings of Information Processing & Management 2011,47(4): 606-616.

[12] Liu Bing, et al. Partially supervised classification of text documents[C]//ICML,Vol.2.2002.

[13] Lang Ken.Newsweeder: Learning to filter netnews[C]//Proceedings of the 12th international conference on machine learning.1995: 331-339.

[14] Lucas, Michael, and Doug Downey. Scaling Semi-supervised Naive Bayes with FeatureMarginals[C]//Proceedings of ACL，2013.

[15] Settles Burr. Closing the loop: Fast, interactive semi-supervised annotation with queries on features and instances[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.

A Semi-supervised Method for Filtering Chinese Spam Tweets

YAO Ziyu, TU Shouzhong, HUANG Minlie , ZHU Xiaoyan

(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)

Microblogging sites are one of the most popular information sharing platforms today. However, among the large amount of posted published every day, spam texts are seen everywhere: users utilize spam posts to advertise, broadcast, boast their own products, and defame their competitors. Therefore, filtering spam tweets is a critical and fundamental problem. In this paper, we propose a semi-supervised algorithm based on Expectation Maximization and Naive Bayesian Classifier (EM-NB), which is able to filter spam tweets effectively using only a small amount of labeled data. The experimental results on more than 140 thousand tweets from Sina Weibo show that our method achieves higher accuracy and F-score than baselines.

spam tweet; naive bayesian classifier; expectation maximization; semi-supervised learning

姚子瑜(1993—)，美國俄亥俄州立大學碩士研究生，主要研究領(lǐng)域為自然語言處理、數(shù)據(jù)挖掘等。E?mail：yao．470@osu．edu屠守中(1983—)，博士研究生，主要研究領(lǐng)域為社交網(wǎng)絡(luò)分析、信息安全、人工智能等。E?mail：Kart123@163．com黃民烈(1977—)，副教授，主要研究領(lǐng)域為自然語言處理、人工智能等。E?mail：aihuang@tsinghua．edu．cn

1003-0077(2016)05-0176-11

2015-09-21 定稿日期： 2016-03-20

國家自然科學基金(61332007，61272227)