趙 一,何克清,李 昭,黃貽望
1.武漢大學(xué) 計(jì)算機(jī)學(xué)院 軟件工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430072
2.三峽大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,湖北 宜昌 443002
微博演化網(wǎng)絡(luò)的負(fù)信息分類方法*
趙 一1,何克清1,李 昭2+,黃貽望1
1.武漢大學(xué) 計(jì)算機(jī)學(xué)院 軟件工程國家重點(diǎn)實(shí)驗(yàn)室,武漢 430072
2.三峽大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,湖北 宜昌 443002
ZHAO Yi,HE Keqing,LI Zhao,et al.Micro blog evolutionary network to classification method of negative information.Journal of Frontiers of Computer Science and Technology,2017,11(1):91-98.
序列最小優(yōu)化(SMO);支持向量機(jī)(SVM);演化網(wǎng)絡(luò);UCI數(shù)據(jù)集;負(fù)信息
隨著Web2.0的興起,不僅是電子郵件成為人們生活中不可缺少的部分,微博和微信等也成為人們彼此交流的主要工具。自從2006年Williams創(chuàng)建了Twitter以來,微博對(duì)整個(gè)互聯(lián)網(wǎng)產(chǎn)生了巨大的影響。據(jù)美國財(cái)經(jīng)雜志《商業(yè)周刊》稱,Twitter已經(jīng)成為世界最大同時(shí)也是信息速度傳遞最快的虛擬社區(qū),擁有著超乎想象的社會(huì)和政治影響力。信息交流主要是通過關(guān)注和轉(zhuǎn)帖等互動(dòng)形式來進(jìn)行,因此用戶消息會(huì)在Twitter中呈幾何級(jí)數(shù)增長,并在用戶間迅速傳播。而信息的多元化也將影響到未來社會(huì)和政治的發(fā)展[1]。因此微博這樣一個(gè)互聯(lián)網(wǎng)新生事物已經(jīng)成為文本挖掘、網(wǎng)絡(luò)輿情分析與垃圾信息處理等重要研究方向[2]。以SNS(social networking services)和微博為代表的Web2.0應(yīng)用占整個(gè)互聯(lián)網(wǎng)流量的比重越來越高,它們與互聯(lián)網(wǎng)用戶的聯(lián)系越來越密切,網(wǎng)民花費(fèi)大量的時(shí)間上網(wǎng),主要集中在SNS網(wǎng)站(如人人網(wǎng)、開心網(wǎng))和發(fā)布微博(新浪微博、騰訊微博、搜狐微博等),但是有用數(shù)據(jù)中夾雜著眾多的無用信息或者是有危害的信息,從而它對(duì)互聯(lián)網(wǎng)上人們的影響日趨增強(qiáng)。因此對(duì)微博進(jìn)行分類在用戶個(gè)性化推薦、微博社群以及垃圾信息過濾中都至關(guān)重要。而有些微博屬于長文本,有些微博屬于短文本,包含各式各樣的信息量,傳統(tǒng)的文本分類方式并不能很好地用在微博上。目前主流的分類垃圾信息的方法有以下幾種:第一種是利用Navie Bayes[3](后驗(yàn)概率)計(jì)算特征所屬空間的概率,取其最大者為判定結(jié)果。它通過訓(xùn)練數(shù)萬封電子郵件內(nèi)容,包含垃圾郵件/非垃圾郵件,提取郵件內(nèi)單詞,輸入字典,過濾出現(xiàn)設(shè)定次數(shù)的單詞,具體公式為:
式(1)中p表示概率;?表示所屬類別。然后定義probSPAM=probHAM=1,完成4步統(tǒng)計(jì)后,兩個(gè)prob變量分別乘以對(duì)應(yīng)類別的郵件數(shù),然后除以所有郵件總數(shù),即得到Prior。比較probSPAM和probHAM,如果probSPAM大就分到垃圾信息類,如果probHAM大就分到正常信息類。但是此方法對(duì)信息分類太過于考慮一個(gè)詞匯的垃圾性,如果垃圾信息發(fā)送者插入通常與垃圾郵件無關(guān)的隨機(jī)無害詞,從而降低電子郵件的垃圾郵件分?jǐn)?shù),使得它更有可能在Prior值上更接近于正常信息。
近年來,有關(guān)短文本分類及應(yīng)用的研究不斷推出很多新的方法,并已經(jīng)成為自然語言領(lǐng)域和文本挖掘的一個(gè)熱點(diǎn)研究課題。同時(shí),在很多知名的國內(nèi)外會(huì)議和期刊上都有這方面的論文發(fā)表。其中,有使用LDA(latent Dirichlet allocation)聚類來找到同一主題的類別[4],這種使用聚類的方法缺點(diǎn)是無法準(zhǔn)確定義類簇。比如文獻(xiàn)[5]提出了兩類垃圾評(píng)論的類型:(1)顯式垃圾評(píng)論;(2)隱式垃圾評(píng)論。文章雖然利用LDA找出了隱藏的垃圾評(píng)論,擴(kuò)大了垃圾評(píng)論的范圍,但是因?yàn)樽髡呤褂靡话愕腖DA模型,所以對(duì)topic話題個(gè)數(shù)K取值無法明確分出話題個(gè)數(shù),它能否代表準(zhǔn)確的垃圾評(píng)論類別是值得深入研究的。但是LDA聚類缺點(diǎn)是如果處理短文本,比如特征稀疏的評(píng)論處理,聚類效果就會(huì)打折扣。另外,當(dāng)發(fā)現(xiàn)整個(gè)博客垃圾評(píng)論后,并不能及時(shí)地控制整個(gè)網(wǎng)絡(luò)的傳播路徑,因此要想準(zhǔn)確地定位垃圾評(píng)論最有效的方法還是對(duì)評(píng)論文本進(jìn)行分類,日前只能利用機(jī)器學(xué)習(xí)的方法分辨出垃圾郵件以及它們的特征。
文獻(xiàn)[6]試圖通過對(duì)微博平臺(tái)上廣告?zhèn)鞑サ姆治觯l(fā)現(xiàn)微博廣告?zhèn)鞑サ哪J教卣?;并且收集了一些廣告信息的傳播數(shù)據(jù),將每條信息的傳播途徑用一個(gè)傳播樹表示;針對(duì)每個(gè)傳播樹,共提取了包括傳播參與者的數(shù)量、傳播途徑的拓?fù)浣Y(jié)構(gòu)和時(shí)間的傳播特征3個(gè)方面共33個(gè)特征,并使用K-Means聚類算法對(duì)這些傳播樹進(jìn)行了聚類,驗(yàn)證了名人效應(yīng)在信息傳播中的推動(dòng)作用,從而證明了網(wǎng)絡(luò)微博的傳播網(wǎng)絡(luò)不是隨機(jī)網(wǎng)絡(luò)結(jié)構(gòu)。但是文章中并沒有對(duì)微博拓?fù)浣Y(jié)構(gòu)隨時(shí)間變化進(jìn)行驗(yàn)證,也沒有提出有效的控制垃圾廣告軟件傳播的防御機(jī)制,說明微博垃圾信息處理與管理在國內(nèi)大數(shù)據(jù)信息化研究中是一個(gè)亟待解決的問題?;谝陨闲枨蟊疚闹饕鉀Q了垃圾信息分類問題和跟蹤垃圾信息發(fā)送者ID,依據(jù)微博轉(zhuǎn)發(fā)形成的演化網(wǎng)絡(luò),從源頭隔離垃圾發(fā)送者。第2章主要介紹了一些相關(guān)準(zhǔn)備工作;第3章介紹本文的核心算法——基于SMO(sequential minimal optimization)的SVM(support vector machine)垃圾信息的分類算法,并對(duì)UCI數(shù)據(jù)集構(gòu)建演化網(wǎng)絡(luò)模型,利用SVM分類算法找出垃圾信息發(fā)送者,并根據(jù)演化網(wǎng)絡(luò)結(jié)構(gòu),在關(guān)鍵節(jié)點(diǎn)標(biāo)記垃圾發(fā)送者ID,并根據(jù)轉(zhuǎn)發(fā)內(nèi)容是否為垃圾信息,來判定是否應(yīng)該隔離它;第4章是實(shí)驗(yàn)流程以及結(jié)果分析和驗(yàn)證;最后,總結(jié)全文并計(jì)劃下一步的工作。
2.1 UCI新浪微博數(shù)據(jù)集
UCI數(shù)據(jù)庫是CaliforniaIrvine大學(xué)提出的用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫[7],這個(gè)數(shù)據(jù)庫在2015年5月進(jìn)行了更新,新增了各行各業(yè)的數(shù)據(jù)集12個(gè),加上原來數(shù)據(jù)庫的200多個(gè)數(shù)據(jù)集,基本覆蓋知識(shí)領(lǐng)域。每個(gè)數(shù)據(jù)文件(*.data)包含以“屬性-值”對(duì)形式描述的很多個(gè)體樣本的記錄。對(duì)應(yīng)的*.info文件包含大量的文檔資料。
本文數(shù)據(jù)集來源UCI官網(wǎng)[8],2015年3月17日更新。此數(shù)據(jù)集提供者爬取新浪微博,這些數(shù)據(jù)適合用于研究和學(xué)習(xí),以及做一些社會(huì)網(wǎng)絡(luò)研究。其中weibo_user.csv文件描述屬性如下:user_id是新浪微博用戶ID;user_name是賬戶昵稱;account registration gender包括男和女;class是微博賬戶等級(jí);message是賬號(hào)注冊(cè)地點(diǎn)或其他個(gè)人信息;post_num是到現(xiàn)在為止發(fā)帖數(shù)量;follower_num是此賬號(hào)微博粉絲的數(shù)量;followee_num是此賬號(hào)關(guān)注過的微博;follow ratio是博客A關(guān)注過微博數(shù)/A關(guān)注的微博;is_spammer是手動(dòng)標(biāo)注標(biāo)簽,1指垃圾信息發(fā)送者,0指正常信息發(fā)送者。user_post.csv文件描述屬性如下:post_id是發(fā)新浪微博的用戶ID;微博發(fā)送的時(shí)間;微博帖子接收者ID;repost_num是帖子通過別人的轉(zhuǎn)發(fā)數(shù)。Commnet_num是別人評(píng)論的次數(shù)。followefollowee.csv文件描述屬性如下:follower是粉絲(關(guān)注者)的昵稱;follower_id是粉絲的ID;followee是關(guān)注的微博昵稱;followee_id是關(guān)注的微博ID。
2.2 構(gòu)造演化網(wǎng)絡(luò)
通過以上分析,可以得出,如果微博用戶A的帖子被用戶B轉(zhuǎn)發(fā),記為eAB;或者微博用戶A的帖子被用戶B關(guān)注,記為eBA。最終構(gòu)成無向圖,記為G(V,E)。邊權(quán)[9]是網(wǎng)絡(luò)中用來衡量節(jié)點(diǎn)A和節(jié)點(diǎn)B共享的邊的關(guān)聯(lián)度大小的量,記A轉(zhuǎn)發(fā)B的次數(shù)即出度為repost_num,B發(fā)給A的次數(shù)即入度為post_num;N=repost_num+post_num。則A和B鏈接的權(quán)重構(gòu)建出新浪微博社交網(wǎng)絡(luò)中具有互粉關(guān)系[10]的無向權(quán)重圖G′=(V,E)。
依據(jù)UCI新浪微博數(shù)據(jù)集,得到所構(gòu)建的復(fù)雜系統(tǒng)擁有共同的重要特性:大部分節(jié)點(diǎn)只有少數(shù)幾個(gè)鏈接,而某些節(jié)點(diǎn)卻擁有與其他節(jié)點(diǎn)的大量鏈接。這些具有大量鏈接的節(jié)點(diǎn)稱為“集散節(jié)點(diǎn)”,從圖1可知,“集散節(jié)點(diǎn)”所擁有的鏈接數(shù)可能高達(dá)數(shù)百、數(shù)千甚至數(shù)萬,由此得出,這一特性似乎能說明新浪微博的演化網(wǎng)絡(luò)是無尺度的。從而也會(huì)擁有無尺度網(wǎng)絡(luò)具有的某些重要特性,比如它們都可以承受意外的故障,但面對(duì)協(xié)同式攻擊卻很脆弱。
由于篇幅所限,本文提供的新浪微博演化網(wǎng)絡(luò)圖,只是隨機(jī)抽取用戶昵稱節(jié)點(diǎn),并且使用Gephi工具畫出UCI數(shù)據(jù)集中用戶的帖子轉(zhuǎn)發(fā)關(guān)系圖。從中可以看出,演化網(wǎng)絡(luò)中存在著一些“集散節(jié)點(diǎn)”,比如“新百倫商城”,“孚禾靜靜_”“積奇薄荷少女懷亦”,“手機(jī)用戶1779439745”等。圖1中也有一些離散的節(jié)點(diǎn),這些用戶只發(fā)過微博,出度和入度都為0,比如“IT經(jīng)濟(jì)學(xué)”“戰(zhàn)刀_騎士”等孤立節(jié)點(diǎn),轉(zhuǎn)發(fā)關(guān)系和出度與入度可以清晰觀測(cè)。
2.3 中文分詞算法
對(duì)用戶帖子內(nèi)容的分詞,本文使用的是改進(jìn)的中科院中文分詞算法[11]。本文舉例“新百倫商城”和“孚禾靜靜_”,對(duì)微博帖子的分詞改進(jìn)效果如表1所示。
兩位微博用戶發(fā)帖,對(duì)帖子正文進(jìn)行分詞。從表1中可以得出,使用改進(jìn)后的分詞算法可以在幾次迭代運(yùn)算識(shí)別出準(zhǔn)確的名詞,并且能夠識(shí)別出符號(hào)中的特有名詞,如[]中的“奧汀羽酵素反饋”名詞。
2.4 SMO SVM模型
本文分析博客所發(fā)帖子是否為垃圾信息的分類算法選用的是SMO優(yōu)化算法[12],該算法是Platt在1998年提出,被認(rèn)為是很快的二次規(guī)劃優(yōu)化算法,對(duì)線性SVM和數(shù)據(jù)稀疏能更好地處理。SMO SVM模型已經(jīng)成功應(yīng)用到文本分類、信息檢索等諸多文本相關(guān)的領(lǐng)域[13-14]。圖2為SMO SVM模型算法流程。
Fig.1 Evolving network user of forwarding relationship圖1 用戶轉(zhuǎn)發(fā)關(guān)系的演化網(wǎng)絡(luò)
Table 1 Improved Chinese word segmentation method表1 改進(jìn)中文分詞法
Fig.2 SMO SVM model algorithm圖2 SMO SVM模型算法
SMO SVM需要把文本信息分為有用文本和負(fù)面文本,該問題是基本的線性可分。
如果用x表示數(shù)據(jù)點(diǎn),用y表示類別(y取值可以為1或者-1),分解方程可以表示為:
根據(jù)文獻(xiàn)[9]得知,
當(dāng)SVM模型建立完成后,第3章將詳細(xì)描述本文如何對(duì)UCI數(shù)據(jù)集文本進(jìn)行分類。
3.1 特征抽取
本文認(rèn)為負(fù)面信息可以通過情感詞典來輔助抽取特征項(xiàng),利用情感詞典HowNet[15]作為基礎(chǔ)詞表,并融入當(dāng)今熱點(diǎn)網(wǎng)絡(luò)流行情感詞匯構(gòu)成的新情感詞典,例如“代理產(chǎn)品”、“減肥產(chǎn)品”等,具有明顯特征色彩的詞匯,用于篩選出這些關(guān)鍵詞語。
針對(duì)UCI用戶發(fā)送帖子進(jìn)行預(yù)處理后只留下了名詞、動(dòng)詞、形容詞,這些帶有特征的詞匯,設(shè)正面信息記為POS,負(fù)面信息記為NEG,再進(jìn)行特征提取,其步驟如下。
(1)計(jì)算每個(gè)詞特征t的觀測(cè)值:
A為包含t且屬于POS的文本個(gè)數(shù)。
B為包含t且屬于NEG的文本個(gè)數(shù)。
C為不包含t且屬于POS的文本個(gè)數(shù)。
D為不包含t且屬于NEG的文本個(gè)數(shù)。
(2)對(duì)每個(gè)特征t計(jì)算它的卡方值x2:
(3)取x2排序前5個(gè)值作為t的特征項(xiàng)。
訓(xùn)練集的建立,以“新百倫商城”用戶為例,他發(fā)布了一條微博,其內(nèi)容包括“專賣”詞匯,則“專賣”屬于正面類別的文檔數(shù)為2篇,包含“專賣”屬于負(fù)面類別的文檔數(shù)為10,不包含“專賣”,卻屬于正面文檔數(shù)為12,既不包含“專賣”又不屬于正面文檔數(shù)為8。代入式(4)中可以得到卡方驗(yàn)證的值,然后生成SVM分類的特征數(shù)據(jù)。
3.2 用戶節(jié)點(diǎn)屏蔽
通過上述分析,判斷當(dāng)前用戶所發(fā)信息是否屬于負(fù)面信息,如果是負(fù)面信息則屏蔽用戶。從圖1可以知道,“新百倫商城”用戶是一個(gè)集散節(jié)點(diǎn),他與另外一個(gè)集散節(jié)點(diǎn)“積奇薄荷少女懷亦”互粉過,從分類結(jié)果得知,“新百倫商城”是一個(gè)負(fù)面信息發(fā)送者,他所發(fā)微博基本被分到負(fù)面類中,而“積奇薄荷少女懷亦”是一個(gè)主要發(fā)送正面信息為主的用戶。正是因?yàn)檫@種原因,他們的follower(粉絲)眾多。本文引入演化網(wǎng)絡(luò)方法,并結(jié)合SMO SVM分類算法,能夠準(zhǔn)確地分辨誰是負(fù)面信息(主要以廣告信息為主)的發(fā)送者,因此屏蔽了“新百倫商城”,如圖3所示。
Fig.3 Evolving network after SVM classifying圖3 SVM分類后生成的演化網(wǎng)絡(luò)
從圖3中可以看到“新百倫商城”和“積奇薄荷少女懷亦”節(jié)點(diǎn)已經(jīng)過處理,屏蔽了“新百倫商城”??梢宰詣?dòng)完成負(fù)面節(jié)點(diǎn)邊的刪除,從而實(shí)現(xiàn)對(duì)負(fù)面信息來源的屏蔽功能。
算法1演化網(wǎng)絡(luò)分類算法
本文實(shí)驗(yàn)數(shù)據(jù)全部來源于“2015年UCI自然語言處理和機(jī)器學(xué)習(xí)”提供的測(cè)評(píng)數(shù)據(jù)集,它包含142 369位用戶,發(fā)布近20萬篇帖子。測(cè)評(píng)數(shù)據(jù)以CVS格式存儲(chǔ),總數(shù)據(jù)大小為27.2 MB。
本文對(duì)測(cè)試數(shù)據(jù)分別進(jìn)行3種方法的實(shí)驗(yàn),包括現(xiàn)在流行的負(fù)面信息分類法貝葉斯分類法、SVM分類法、SMO SVM分類法[16]。
在對(duì)SVM分類方法的有效性進(jìn)行評(píng)估時(shí),本文使用的評(píng)估指標(biāo)是準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-measure)。對(duì)SVM分類法與SMO SVM分類法的分類情況進(jìn)行人工觀測(cè)。
通過圖4和圖5得知,針對(duì)二分類數(shù)據(jù)(微博負(fù)面信息數(shù)據(jù)集),SMO SVM分類算法比一般的SVM分類算法要更加準(zhǔn)確。圖中紅色點(diǎn)代表微博中的負(fù)面信息,藍(lán)色點(diǎn)代表微博中的正面信息,褐黃色點(diǎn)代表未知準(zhǔn)確分類信息。圖4使用SMO SVM分類算法,其中只有6個(gè)點(diǎn)的文本特征沒有準(zhǔn)確分類。圖5使用SVM分類算法,可以得知,未分類的褐黃色點(diǎn)有8個(gè),這比SMO算法效率要低20%左右。
Fig.4 SMO SVM classification algorithm圖4 SMO SVM分類算法
Fig.5 SVM classification algorithm圖5 SVM分類算法
從圖6中可以知道,對(duì)于微博短文本SMO SVM算法在傾向于負(fù)面信息的文本分詞上性能有一定的提高,它較前兩個(gè)方法都有較高的正確率、召回率、精度值。
Fig.6 Distinguish results of negative information圖6 負(fù)面信息識(shí)別結(jié)果
實(shí)驗(yàn)表明,基于UCI數(shù)據(jù)集的SMO SVM分類算法結(jié)合用戶轉(zhuǎn)發(fā)微博連接的演化網(wǎng)絡(luò)分類方法,能夠有效地分辨微博用戶發(fā)帖子的性質(zhì),如果該用戶所發(fā)帖子為正面信息,則不屏蔽該貼,若是用戶發(fā)送負(fù)面信息,如廣告、謠言等信息時(shí),能立刻分辨出,并且屏蔽用戶。
本文以UCI最新微博數(shù)據(jù)集為實(shí)驗(yàn)基礎(chǔ),使用卡方驗(yàn)證抽取特征向量,并使用SMO SVM算法與貝葉斯和SVM分類算法在處理二分類問題上進(jìn)行比較。最后在正確率、召回率、F值方面對(duì)以上3種算法進(jìn)行比較,得到SMO SVM檢測(cè)負(fù)面信息文本有較高的準(zhǔn)確率,并且能提供更好的微博屏蔽效果。下一步工作,將完善情感詞典,改進(jìn)SMO SVM算法,來提高自動(dòng)識(shí)別新興詞匯,加強(qiáng)短語樣本的學(xué)習(xí),繼續(xù)優(yōu)化特征向量的選取,加強(qiáng)實(shí)時(shí)數(shù)據(jù)爬取,希望能做到實(shí)時(shí)監(jiān)控用戶發(fā)送信息等功能。
[1]Bowles C.TwitterCore data library team Hadoop optimization experience[EB/OL].Twitter Job Bole[2015-07-02].http:// blog.jobbole.com/88283/.
[2]Peng Xixian,Zhu Qinghua,Liu Xuan.Research on behavior characteristics and classification of micro-blog users-taking“Sina Micro-blog”as an example[J].Information Science, 2015,33(1):69-75.
[3]Hui Bei,Wu Yue.Anti-spam model based on semi-na?ve Bayesian classification model[J].Journal of Computer Applications,2009,29(3):903-904.
[4]Wang Peng,Gao Cheng,Chen Xiaomei.Research on LDA model based on text clustering[J].Information Science, 2015,33(1):63-68.
[5]Diao Yufeng,Yang Liang,Lin Hongfei.LDA-based opinion spam discovering[J].Journal of Chinese Information Processing,2011,25(1):41-47.
[6]Chen Xiao,Huang Shuguang,Qin Li.Social network model based on micro-blog transmission[J].Journal of Computer Applications,2015,35(3):638-642.
[7]Li Dahua.Probability model and computer vision[EB/OL]. MIT Courser[2015-07-02].http://www.sigvc.org/bbs/thread-165-1-1.html.
[8]Sina mirco-blog.UCI data sites[EB/OL].(2015-03)[2015-07-02].http://www.archive.ics.uci.edu/ml.
[9]Kernighan B W,Lin S.An efficient heuristic procedure for partitioning graphs[J].Bell System Technical Journal,1970, 49(2):291-307.
[10]Zhao Yi,He Keqing,Chen Jingliang,et al.Evolution knowledge tree for services computing domain in Wikipedia[J].Journal of Wuhan University:Natural Science Edition,2015,61 (4):331-338.
[11]Plantt J C.Sequential minimal optimization:a fast algorithm for training support vector machines,MSR-TR-98-14 [R].Microsoft Research,1998.
[12]Han Zhongming,Zhang Hui,Xie Xiaomeng.Effective sentiment classification method based on SVM for microblogging text[D].Beijing:Beijing Technology and Business University,2013.
[13]Yang Chao,Feng Shi,Wang Daling,et al.Analysis on Web public opinion orientation based on extending sentiment lexicon[J].Journal of Chinese Computer Systems,2010,31 (4):44-49.
[14]Ding Jianli,Ci Xian,Huang Jianxiong.Orientation analysis of Web reviews[J].Journal of Computer Applications,2010, 30(11):2937-2940.
[15]Wang Zhenyu,Wu Zeheng,Hu Fangtao.Words sentiment polarity calculation based on HowNet and PMI[J].Computer Engineering,2012,38(15):187-193.
[16]Li Yingle,Yu Hongtao,Liu Lixiong.Predict algorithm of micro-blog retweet scale based on SVM[J].Application Research of Computers,2013,30(9):2594-2597.
附中文參考文獻(xiàn):
[2]彭希羨,朱慶華,劉璇.微博客用戶特征分析及分類研究——以“新浪微博”為例[J].情報(bào)科學(xué),2015,33(1):69-75.
[3]惠孛,吳躍.基于不完全樸素貝葉斯分類模型的垃圾郵件分類模型[J].計(jì)算機(jī)應(yīng)用,2009,29(3):903-904.
[4]王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報(bào)科學(xué),2015,33(1):63-68.
[5]刁宇峰,楊亮,林鴻飛.基于LDA模型的博客垃圾評(píng)論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2011,25(1):41-47.
[6]陳驍,黃曙光,秦李.基于微博轉(zhuǎn)發(fā)的社交網(wǎng)絡(luò)模型[J].計(jì)算機(jī)應(yīng)用,2015,35(3):638-642.
[10]趙一,何克清,陳荊亮,等.面向維基百科服務(wù)計(jì)算領(lǐng)域的演化知識(shí)樹[J].武漢大學(xué)學(xué)報(bào):理學(xué)版,2015,61(4):331-338.
[12]韓忠明,張慧,解筱夢(mèng).基于SVM的微博文本情感傾向性識(shí)別[D].北京:北京工商大學(xué),2013.
[13]楊超,馮時(shí),王大玲,等.基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(4):44-49.
[14]丁建立,慈祥,黃劍雄.網(wǎng)絡(luò)評(píng)論傾向性分析[J].計(jì)算機(jī)應(yīng)用,2010,30(11):2937-2940.
[15]王振宇,吳澤衡,胡方濤.基于HowNet和PMI的詞語情感極性計(jì)算[J].計(jì)算機(jī)工程,2012,38(15):187-193.
[16]李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597.
ZHAO Yi was born in 1984.He is a Ph.D.candidate at Computer School,Wuhan University,and the member of CCF.His research interests include service computing,software engineering and complex network,etc.
趙一(1984—),男,湖北荊門人,武漢大學(xué)計(jì)算機(jī)學(xué)院博士研究生,CCF會(huì)員,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,軟件工程,復(fù)雜網(wǎng)絡(luò)等。
HE Keqing was born in 1947.He is a professor at Wuhan University,and the member of CCF.His research interests include service computing,software engineering and complex network,etc.
何克清(1947—),男,湖北武漢人,博士,武漢大學(xué)教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,軟件工程,復(fù)雜網(wǎng)絡(luò)等。
LI Zhao was born in 1986.He is a lecturer at College of Computer and Information Technology,Three Gorges University.His research interests include service computing,software engineering and complex network,etc.
李昭(1986—),男,湖北宜昌人,博士,三峽大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院講師,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,軟件工程,復(fù)雜網(wǎng)絡(luò)等。
HUANG Yiwang was born in 1978.He is an associate professor at Computer School,Wuhan University,and the member of CCF.His research interests include service computing,business process management and formal method,etc.
黃貽望(1978—),男,湖南懷化人,博士,武漢大學(xué)計(jì)算機(jī)學(xué)院副教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,業(yè)務(wù)流程管理,形式化方法等。
Micro Blog Evolutionary Network to Classification Method of Negative Information*
ZHAO Yi1,HE Keqing1,LI Zhao2+,HUANG Yiwang1
1.State Key Laboratory of Software Engineering,Computer School,Wuhan University,Wuhan 430072,China
2.College of Computer and Information Technology,Three Gorges University,Yichang,Hubei 443002,China
+Corresponding author:E-mail:zhaoli@ctgu.edu.cn
Aiming at the relationship of the Sina micro blogging,this paper establishes the evolving network by user's transmit blog,which classifies blog by SMO SVM(sequential minimal optimization support vector machine)algorithm,and implements the classification of malicious posts,spam,trash marketing information.The method enables users to accurately block the unwanted posts and blogger.The first step,classifying the entire Sina micro blogs based on the evolving network of transmit relationship and SVM classification algorithm;The second step,annotating the bloggers of often sending malicious advertisements by using the complex network technology;When the malicious bloggers sending message,blocking them in the network;Finally,finding out the source of spam,and discerning the blogger malicious or not,on the macro to better curb the spread of spam.The results of this paper are compared with user feedback actual situation from the UCI data set,the experimental results of machine learning classification reaches 89%.
sequential minimal optimization(SMO);support vector machine(SVM);evolutionary network;UCI data set;negative information
A
:TP393.092
10.3778/j.issn.1673-9418.1509090
*The National Basic Research Program of China under Grant No.2014CB340401(國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)).
Received 2015-08,Accepted 2015-10.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-30,http://www.cnki.net/kcms/detail/11.5602.TP.20151030.1618.004.html
摘 要:針對(duì)Sina微博博文的轉(zhuǎn)發(fā)關(guān)系,建立起用戶轉(zhuǎn)發(fā)博文之間的演化網(wǎng)絡(luò),從而利用SMO SVM(sequential minimal optimization support vector machine)分類算法對(duì)博文進(jìn)行分類,篩選出惡意博文、垃圾廣告、垃圾營銷信息,使用戶能夠精確地屏蔽不想要的博文和博主。第一步基于微博轉(zhuǎn)發(fā)關(guān)系的演化網(wǎng)絡(luò)和SVM分類算法對(duì)整個(gè)Sina微博進(jìn)行分類;第二步利用復(fù)雜網(wǎng)絡(luò)等技術(shù)對(duì)經(jīng)常發(fā)送惡意廣告的博主進(jìn)行標(biāo)注,從而在網(wǎng)絡(luò)中對(duì)他們進(jìn)行屏蔽;最后找出垃圾信息的來源以及分辨出博主是不是惡意轉(zhuǎn)發(fā)者,在宏觀上能更好地遏制垃圾信息的傳播。與用戶從UCI數(shù)據(jù)集中實(shí)際反饋情況進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)分類的實(shí)驗(yàn)結(jié)果吻合度達(dá)到89%。