摘 要: 針對(duì)微博內(nèi)容實(shí)時(shí)性的特點(diǎn),對(duì)話題聚類的Single?Pass算法進(jìn)行了改進(jìn),提出將時(shí)間參數(shù)添加到微博話題相似度檢測方法中,并針對(duì)微博轉(zhuǎn)發(fā)特性的處理方法給出了算法的處理步驟。仿真實(shí)驗(yàn)表明,該算法的優(yōu)點(diǎn)是邏輯簡單、算法執(zhí)行效率高,通過算法的應(yīng)用有效提高了基于Web數(shù)據(jù)挖掘的微博話題檢測準(zhǔn)確度。
關(guān)鍵詞: Web; 數(shù)據(jù)挖掘; 微博; 相似度
中圖分類號(hào): TN911?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)03?0115?05
Research on Web data mining and its application in microblog topic detection
JIANG Yuting
(School of Information Engineering, Jiangsu Maritime Institute, Nanjing 211170, China)
Abstract: For the real?time characteristic of microblog content, the Single?Pass algorithm of topic clustering was improved. The time parameter is added to the method of microblog topic similarity detection, and the processing steps of the algorithm are given according to the processing method of the microblog forwarding characteristic. The simulation results show that the algorithm has the advantages of simple logic and high execution efficiency, and can effectively improve the accuracy of microblog topic detection based on Web data mining.
Keywords: Web; data mining; microblog; similarity
0 引 言
近年來,微博服務(wù)有了爆炸性的增長[1?2]。作為一個(gè)為用戶與朋友提供交流和信息共享的平臺(tái),微博開辟了新的交流推薦機(jī)會(huì)[3]。推特和微博等服務(wù)開辟了新的提高熱點(diǎn)話題推薦準(zhǔn)確性的方法。作為用戶與朋友交流和分享信息的流行平臺(tái),微博服務(wù)每天都產(chǎn)生大量的內(nèi)容。豐富的內(nèi)容有助于形成對(duì)用戶的偏好以及物品特點(diǎn)更好的理解。此外,信息中用戶的社會(huì)關(guān)系和相互交互是通過微博服務(wù)體系顯示的。所有以上信息可以利用數(shù)據(jù)挖掘算法來提高挖掘熱點(diǎn)話題的準(zhǔn)確性[4]。
在熱點(diǎn)話題的挖掘中經(jīng)常使用的方法有兩種:其一是基于內(nèi)容過濾法;其二是協(xié)同過濾法[5]。第一種方法在挖掘類似項(xiàng)目時(shí),類似于過去的用戶喜歡模式?;趦?nèi)容的過濾需要項(xiàng)目的知識(shí)特點(diǎn),這并不總是可用的;相反,協(xié)同過濾方法不依賴問題的特征項(xiàng)?;谟脩舻膮f(xié)同過濾方法假定相似用戶的偏好往往有相似的項(xiàng)目。通過收集和分析大量的用戶行為信息,當(dāng)用戶行為被發(fā)覺后,可以使用協(xié)同過濾方法去預(yù)測相似項(xiàng)目中用戶和基于相似用戶的期望。這種方法經(jīng)常遭受來自三個(gè)方面的問題,冷啟動(dòng),數(shù)據(jù)稀疏和可伸縮性。事實(shí)上,結(jié)合協(xié)同過濾的混合方法和基于內(nèi)容的過濾已經(jīng)證明能夠在一定程度上緩解上述問題。利用微博挖掘熱點(diǎn)話題時(shí),需要注意的是:用戶的社會(huì)網(wǎng)絡(luò)和各自的偏好需要形成一個(gè)動(dòng)態(tài)平衡。具有相似的興趣和喜好的人更有可能與對(duì)方相互連接和交互;另一方面,個(gè)體在許多方面往往是受他/她的社會(huì)關(guān)系影響,包括利益和偏好??紤]到上述兩個(gè)屬性,有學(xué)者提出了一個(gè)基于概率矩陣分解的混合推薦模型,一個(gè)受歡迎的協(xié)同過濾方法。兩個(gè)正則化被添加到矩陣分解過程中:社會(huì)正則化和項(xiàng)目相似性正則化,并借助于新浪微博數(shù)據(jù)集驗(yàn)證所提出算法在電視節(jié)目推薦中的有效性。實(shí)驗(yàn)結(jié)果表明,該算法明顯優(yōu)于最先進(jìn)的協(xié)同過濾方法,展示了在結(jié)合社會(huì)信任和推薦相似項(xiàng)目中的重要性。此外,有學(xué)者針對(duì)向新用戶推薦過程中的魯棒性進(jìn)行了研究[6?7]。
本文采用數(shù)據(jù)挖掘知識(shí)探索了挖掘微博熱點(diǎn)話題的可能性。特別地,利用微博的以下兩個(gè)重要特性:
(1) 用戶發(fā)布的豐富內(nèi)容,顯示用戶在熱點(diǎn)話題中的偏好;
(2) 用戶之間的相互影響導(dǎo)致各種社會(huì)互動(dòng)的發(fā)生。通過利用用戶社交互動(dòng)以及用戶在微博網(wǎng)站發(fā)布的內(nèi)容,探索提高挖掘熱點(diǎn)話題的準(zhǔn)確性。
1 Web數(shù)據(jù)挖掘
微博話題檢測涉及從微博相關(guān)網(wǎng)頁中抽取制定的數(shù)據(jù)并進(jìn)行數(shù)據(jù)挖掘,該種挖掘方式是以Web為基礎(chǔ)進(jìn)行的挖掘。使用一些數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)文檔、網(wǎng)頁中的有用信息進(jìn)行抽取,這一過程就是以Web為基礎(chǔ)進(jìn)行的數(shù)據(jù)挖掘,因?yàn)閃eb數(shù)據(jù)挖掘的對(duì)象不同,所以可將Web數(shù)據(jù)挖掘分為如下三類[8?10]。
(1) 以Web頁面為基礎(chǔ)進(jìn)行的內(nèi)容挖掘
在各類網(wǎng)頁內(nèi)容中將一些具有價(jià)值的知識(shí)信息提取出來,這是以Web頁面為基礎(chǔ)進(jìn)行內(nèi)容挖掘的重要任務(wù)。在應(yīng)用中,可將網(wǎng)頁中的主題內(nèi)容當(dāng)作依據(jù),將信息分成不同的類別。分類工作和數(shù)據(jù)挖掘工作有一些相同點(diǎn),由于網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了該種需求,因此在網(wǎng)絡(luò)中也出現(xiàn)了與之對(duì)應(yīng)的應(yīng)用。所以在各類媒介中都可以添加應(yīng)用,例如將應(yīng)用添加到BBS和微博中,進(jìn)而完成各目標(biāo)。
(2) 以Web結(jié)構(gòu)為基礎(chǔ)進(jìn)行的挖掘
將一些具有價(jià)值的信息從Web結(jié)構(gòu)的鏈接中挖掘出來,這就是以Web結(jié)構(gòu)為基礎(chǔ)進(jìn)行的挖掘。在實(shí)際應(yīng)用中,運(yùn)用此項(xiàng)技術(shù)能夠找到某些網(wǎng)頁,搜索引擎經(jīng)常使用這項(xiàng)技術(shù)。從該角度考慮,在數(shù)據(jù)挖掘任務(wù)中,以Web結(jié)構(gòu)為基礎(chǔ)的數(shù)據(jù)挖掘和其他數(shù)據(jù)挖掘具有明顯的差異。
(3) 以Web使用記錄為基礎(chǔ)進(jìn)行的挖掘
將一些有價(jià)值的信息從使用者記錄或Web服務(wù)器日志中挖掘出來就是基于Web使用記錄的挖掘。將具有價(jià)值的信息從Web使用記錄中挖掘出來,決策者根據(jù)這些信息能夠了解系統(tǒng)的運(yùn)行狀況,從而制定各類決策,通過Web使用記錄得到的信息能夠讓決策更加科學(xué)、合理。
2 Web數(shù)據(jù)挖掘方法
2.1 微博數(shù)據(jù)信息提取及處理
當(dāng)利用微博等開放平臺(tái)進(jìn)行相關(guān)數(shù)據(jù)獲取之前,需要首先在平臺(tái)上注冊一個(gè)賬號(hào)。如果有新浪微博賬號(hào),可以直接登錄平臺(tái),還可以注冊新的賬號(hào),可在http://open.weibo.com/上注冊新的賬號(hào),并記住API接口驗(yàn)證序號(hào)和密鑰,同時(shí)將返回地址填寫到微博的高級(jí)設(shè)置中,從而使獲取的數(shù)據(jù)記入開發(fā)者的配置文件中[11]。
本文主要利用API接口statuses/public_timeline進(jìn)行微博數(shù)據(jù)的獲取。返回到最近發(fā)布的200條微博是該接口的主要功能,返回到的結(jié)果并不一定是實(shí)時(shí)動(dòng)態(tài),所以要對(duì)API接口進(jìn)行多次調(diào)用,確保獲得的數(shù)據(jù)滿足要求。由于調(diào)用接口的頻率受到網(wǎng)站的限制,為了控制調(diào)用頻率,可采用線程和隊(duì)列的方式進(jìn)行控制。URL是原來存在的接口,其返回格式為JSON,超文本轉(zhuǎn)移協(xié)議的請(qǐng)求方式是GET。
漢字話是微博中的一個(gè)主要特點(diǎn),因此要對(duì)微博數(shù)據(jù)進(jìn)行一系列操作,例如去除停用詞等。假如要處理一些英文微博數(shù)據(jù),必須先刪除一些符號(hào)再進(jìn)行處理,從而還原詞干。之所以進(jìn)行這項(xiàng)工作是因?yàn)橛⑽闹械脑~語存在時(shí)態(tài)變化,處理后可以更加真實(shí)的理解微博所表達(dá)的意思。
2.2 文本模型構(gòu)建
對(duì)微博中的文本可以利用空間向量模型進(jìn)行文本建模,以便用空間向量去代替原來微博中的文本內(nèi)容,即將文本[Di]轉(zhuǎn)換為[Di],轉(zhuǎn)化公式為:
式中:[tij]是特征項(xiàng),[wij]是特征權(quán)重,[1≤j≤M,][Di]中的特征項(xiàng)的數(shù)量是[M。]
微博中的文本內(nèi)容并不多,所以在微博中提取的文本內(nèi)容也較少。因此,向量模型中的特征項(xiàng)都可以由文本預(yù)處理后的詞匯來表示,當(dāng)特征項(xiàng)被確定后,就要為特征項(xiàng)設(shè)置權(quán)重,權(quán)重設(shè)置越大,說明特征項(xiàng)越重要。因此權(quán)重設(shè)計(jì)的好壞決定了話題檢測算法的好壞,是話題檢測算法實(shí)現(xiàn)的重要步驟。詞頻?反文檔頻率方法是常用的話題檢測算法,以此為基礎(chǔ),考慮微博具有的特點(diǎn),以語義基礎(chǔ)下的特征權(quán)重計(jì)算方法為依據(jù),能夠得到詞頻?反文檔頻率(TF?IDF)函數(shù),它和語義具有相似性。此時(shí)還要利用計(jì)算方法計(jì)算詞語的相似度。改造后的結(jié)合語義相似度的詞頻?反文檔頻率函數(shù)(TF?IDF)為:
式中:[wij]表示特征項(xiàng);[tij]表示特征權(quán)重;[fij]表示[tij]特征項(xiàng)在某個(gè)特定文本[Di]中出現(xiàn)的次數(shù);[lgNmij+0.01]用來表示反文檔的頻率;文本總數(shù)量是[N;][M]是文本[Di]中的特征項(xiàng)總數(shù)量;[nij]用來表示包含特征項(xiàng)[tij]的文本數(shù)量;[mij]用來表示包括特征項(xiàng)[tij]的文本數(shù)與特征項(xiàng)相似度大于某個(gè)閾值的文本數(shù)的平均值的總和;文本數(shù)是[Pj],它存在于其他文本中,和[tij]的語義相似;[c]是與特征項(xiàng)[tij]具有相似語義的詞語的總數(shù)量。
2.3 微博系統(tǒng)數(shù)據(jù)挖掘算法
本節(jié)對(duì)本文提出的話題聚類算法Single?Pass進(jìn)行介紹,并借助該算法的具體思想將改進(jìn)后的算法在微博話題檢測中進(jìn)行應(yīng)用。為適應(yīng)微博內(nèi)容實(shí)時(shí)性的特點(diǎn),可以將一些時(shí)間參數(shù)添加到檢測微博話題相似度的方法中,并將針對(duì)微博轉(zhuǎn)發(fā)特性處理的方法添加到算法步驟中,本方法有效地利用了微博的結(jié)構(gòu)化信息,使得檢測的準(zhǔn)確度得到提升[12]。
單遍聚類算法是基于向量空間模型的話題檢測經(jīng)常采用的算法,它也被稱作是Single?Pass算法。該算法在對(duì)數(shù)據(jù)進(jìn)行處理時(shí),是以微博輸入的次序?yàn)橐罁?jù)。假定初始話題為零,第一個(gè)話題的創(chuàng)建就要以首個(gè)文本輸入來確定,之后對(duì)檢測到的類似話題和輸入的文本數(shù)據(jù)進(jìn)行比較,通過比較得出結(jié)果。當(dāng)相似度大于既定閾值時(shí),則合并這個(gè)話題和文本,如果相似度小于既定閾值,則進(jìn)行新話題的創(chuàng)建。邏輯簡單、算法執(zhí)行效率高是該算法的優(yōu)點(diǎn)[13?14]。
本文針對(duì)Single?Pass算法單一使用余弦相似度、雅各比相似度和語義相似度的不足,采用了組合相似度策略進(jìn)行微博話題檢測。該算法稱之為改進(jìn)的Single?Pass微博話題檢測算法。
改進(jìn)的Single?Pass微博話題檢測算法如圖1所示。算法的具體步驟如下:
Step1:微博數(shù)據(jù)的獲取,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為文本建模。
Step2:對(duì)數(shù)據(jù)文本進(jìn)行讀取,判斷各數(shù)據(jù)文本,如果這些數(shù)據(jù)文本屬于首個(gè)文本向量,則轉(zhuǎn)到Step4,否則轉(zhuǎn)Step3。
Step3:根據(jù)數(shù)據(jù)存儲(chǔ)服務(wù)器中數(shù)據(jù)的格式進(jìn)行微博話題轉(zhuǎn)發(fā)關(guān)系的確認(rèn),若該微博與之前的話題有轉(zhuǎn)發(fā)關(guān)系,則直接轉(zhuǎn)到Step7,否則轉(zhuǎn)Step5。
Step4:進(jìn)行新話題的創(chuàng)建,并將讀取的文本向量[Da]作為新話題的文本向量[da]。
Step5:對(duì)該文本向量與已有話題關(guān)系的判斷,并根據(jù)關(guān)系的相似程度,依次計(jì)算當(dāng)前輸入文本與己有話題的相似程度[sim(Da,da),]根據(jù)計(jì)算結(jié)果,進(jìn)行相似度的排序,并獲得其中相似度值最大的[Sa=maxk=1,2,…,Tsim(Da,da),]己檢測出的話題的數(shù)量通過公式中的[T]進(jìn)行表示。
Step6:比較[Sa]與預(yù)先設(shè)定的相似度閾值[γ,][γ]的預(yù)設(shè)值在0.6~0.9之間,本文中設(shè)置的相似度閾值為0.80,在比較之后,如果相似度大于閾值則進(jìn)入Step7,若比設(shè)定的閾值小則轉(zhuǎn)到Step4。
Step7:并入到相似話題。將當(dāng)前獲得的文本放置在相似度高的話題中。
Step8:對(duì)文本判斷,如果這個(gè)文本是最后的文本,說明數(shù)據(jù)已經(jīng)全部處理完畢,若該文本不是最后文本,則再次重復(fù)Step2到Step7,當(dāng)輸入的數(shù)據(jù)全部被檢測完后,就要存儲(chǔ)和話題對(duì)應(yīng)的文本以及檢測完的話題。
常用的相似度計(jì)算方法有余弦相似度、雅各比相似度、語意相似度等[15]。
余弦相似度的定義為:
雅各比相似度的定義為:
式中:[posi?posj]表示帖子[i]和帖子[j]的公共特征數(shù)量;[posi?posj]表示帖子[i]和帖子[j]的不同特征數(shù)量。
借鑒信息融合中的順序加權(quán)思想,語義相似度的定義如下:
如引言所述,這3種相似度的思想和角度不同,而且僅單一使用一種相似度都存在一些不足。本文基于以上方法,提出了組合相似度策略,見式(8):
式中:[α,β,γ]表示加權(quán)系數(shù),反映了3種不同相似度對(duì)總體相似度的貢獻(xiàn)大小。
3 數(shù)據(jù)仿真實(shí)驗(yàn)及結(jié)果分析
3.1 數(shù)據(jù)采集
以新浪微博平臺(tái)為本文的實(shí)驗(yàn)平臺(tái),從中采集了三亞海天盛筵、私人定制、中日戰(zhàn)爭、防空識(shí)別區(qū)、H7N10禽流感、支付寶、理財(cái)、銀行錢荒、春晚主持人、穿絲襪的狗狗、郭德綱、如何鑒定各種表、傳微信將收費(fèi)、電影·風(fēng)暴等14個(gè)熱門話題,微博數(shù)據(jù)超過了110 000條,每條微博都有對(duì)應(yīng)的發(fā)送時(shí)間。為了準(zhǔn)確地測試算法能否發(fā)揮有效性,可以從各類話題中挑選出一些微博,這些微博的文字內(nèi)容好,格式也較好,之后對(duì)這些挑選出來的微博進(jìn)行算法測試。
3.2 確定話題相似度及時(shí)間參數(shù)
通過話題相似度計(jì)算公式可知,在算法測試前,要對(duì)時(shí)間參數(shù)[α]的值和[β]的值以及相似度進(jìn)行確定。[α]用來表示內(nèi)容相似的微博帶來的影響,[β]用來表示時(shí)間參數(shù)對(duì)相似度產(chǎn)生的影響,圖2反映了各類影響情況。
由圖2可知,微博內(nèi)容相似度的地位比較重要,發(fā)揮輔助作用的是時(shí)間參數(shù)。[α+β=1]是通過相似度計(jì)算公式得到的結(jié)果,所以想要得到[β]的值,一定要先確定[α]的值。
在本文中,當(dāng)[α]參數(shù)的取值確定時(shí),[α=0.8],對(duì)文本向量相似度閾值[γ]的取值和特征項(xiàng)相似度閾值[ε]進(jìn)行討論,從而得到最小化的耗費(fèi)函數(shù)值,即得到最小的[CDet]的值。本文中分別取[(ε,γ)]的值為(0.85,0.75),(0.95,0.95)和(0.80,0.70),采用參數(shù)取值對(duì)算法進(jìn)行試驗(yàn),通過試驗(yàn)可以證明:當(dāng)[(ε,γ)]的取值為(0.80,0.70)時(shí),耗費(fèi)函數(shù)值取得最小值為0.052 4,故選取的參數(shù)[(ε,γ)]為(0.80,0.70)。
3.3 實(shí)驗(yàn)結(jié)果
針對(duì)不同的算法,本文通過設(shè)計(jì)不同的比較實(shí)驗(yàn)對(duì)Single?Pass算法進(jìn)行改造測試。K?means算法是話題檢測常常使用的對(duì)比算法。針對(duì)14個(gè)不同的話題分別使用不同的算法進(jìn)行實(shí)驗(yàn)對(duì)比。當(dāng)完成運(yùn)算后,可以得到運(yùn)行結(jié)果的平均值。圖3就是不同算法得到的實(shí)驗(yàn)結(jié)果對(duì)比。
由圖3的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可知:在本文采用的評(píng)測標(biāo)準(zhǔn)指標(biāo)上,本文改進(jìn)的Single?Pass算法相對(duì)于K?means算法來說有了較大的提升。就性能而言,在計(jì)算后發(fā)現(xiàn)性能提升了30%。之所以會(huì)出現(xiàn)這種結(jié)果,是因?yàn)镾ingle?Pass算法在改進(jìn)后對(duì)微博的結(jié)構(gòu)化信息進(jìn)行了調(diào)整,該結(jié)構(gòu)化信息主要指考慮了微博轉(zhuǎn)發(fā)功能的實(shí)際應(yīng)用,在Single?Pass算法中時(shí)間參數(shù)和基于語義的相似度表示也能有效提升性能。
由圖4的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可知:在本文采用的評(píng)測標(biāo)準(zhǔn)指標(biāo)上,本文改進(jìn)的Single?Pass算法相對(duì)于未改進(jìn)的Single?Pass算法提升較大。從評(píng)測指標(biāo)來看,在所有的5個(gè)指標(biāo)中,本文改進(jìn)的Single?Pass算法均要好于未改進(jìn)的Single?Pass,證明了本文方法的有效性。
4 結(jié) 論
以文本為對(duì)象進(jìn)行的話題檢測算法發(fā)展時(shí)間較長,本文提出的算法是以話題檢測算法思想為基礎(chǔ),將其應(yīng)用于新浪微博的話題檢測中。微博是近幾年才出現(xiàn)在互聯(lián)網(wǎng)中的應(yīng)用,微博不僅具有平民化特點(diǎn),它的操作也十分簡單,同時(shí)它能夠反映人們的真實(shí)社會(huì)生活,因此得到了大眾的喜愛和認(rèn)可。本文提出的數(shù)據(jù)挖掘平臺(tái)為微博平臺(tái),這種數(shù)據(jù)挖掘方式能夠快速找出焦點(diǎn)話題,減少用戶瀏覽微博的時(shí)間,快速定位當(dāng)前社會(huì)討論的熱點(diǎn)話題,同時(shí)也有利于廣告商等第三方應(yīng)用進(jìn)行市場走勢的定位。
參考文獻(xiàn)
[1] ZHANG L. The development research of China′s weibo [D]. Nanchang, Jiangxi University of Finance and Economics, 2012.
[2] FU L, YU L. Review of 2012?2013 mobile Internet development trend [J]. Journal of Interconnected World, 2013, 55(2): 1?6.
[3] ZHANG T. Weibo dissemination and public domain [D]. Shanghai: Shanghai Foreign Language University, 2013.
[4] YANG S, LONG B. Like alike?joint friendship and interest propagation in social networks [C]// Proceedings of the 20th International Conference on World Wide Web. [S.l.]: IEEE, 2011: 537?546.
[5] 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計(jì)算機(jī)科學(xué),2013,40(3):127?130.
[6] PENNACCHIOTTI M. A machine learning approach to twitter user classification [C]// Proceedings of the Fifth IEEE International Conference on Weblogs and Social Media. Barcelona: IEEE, 2011: 121?125.
[7] 詹勇,楊燕,王紅軍.混合模型的微博交叉話題發(fā)現(xiàn)[J].計(jì)算機(jī)科學(xué)與探索,2013(8):747?753.
[8] HU N, BOSE I, GAO Y, et al. Manipulation in digital word?of?mouth: a reality check for book reviews [J]. Decision Support Systems, 2011, 50(3): 22?30.
[9] 劉茂福,康樂,顧進(jìn)廣.微博關(guān)注網(wǎng)構(gòu)建與統(tǒng)計(jì)分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(11):45?49.
[10] LEE R, WAKAMIYA S, SUMIYA K. Discovery of unusual regional social activities using geo?tagged microblogs [J]. World Wide Web, 2011, 14(4): 321?349.
[11] DAVID J, MOSS R, MARK B, et al. A tale of two sites: Twitter vs. Facebook and the personality predictors of social media usage [J]. Computers in Human Behavior, 2012, 28(2): 561?569.
[12] YIN S. Weibo user network characteristics of research based on complex network [J]. Journal of Southwest Normal University, 2011, 33(6): 57?61.
[13] QIAO Y. Building and empirical weibo users fans evolution model [D]. Baoding, Hebei University, 2012.
[14] CHENG W, LONG Z. For Internet news topic detection algorithm [J]. Computer Engineering, 2009, 35(18): 28?30.
[15] 周剛,鄒鴻程,熊小兵,等.MB?SinglePass:基于組合相似度的微博話題檢測[J].計(jì)算機(jī)科學(xué),2012,39(10):198?202.
[16] 韓忠明,張玉沙,張慧,等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89?93.