琚春華,鮑福光,戴俊彥
(1.浙江工商大學(xué)現(xiàn)代商貿(mào)研究中心,浙江 杭州 310018;2.浙江工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,浙江 杭州 310018;3.浙江工商大學(xué)工商管理學(xué)院,浙江 杭州 310018)
一種融入公眾情感投入分析的微博話題發(fā)現(xiàn)與細(xì)分方法
琚春華1,2,鮑福光1,3,戴俊彥2
(1.浙江工商大學(xué)現(xiàn)代商貿(mào)研究中心,浙江 杭州 310018;2.浙江工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,浙江 杭州 310018;3.浙江工商大學(xué)工商管理學(xué)院,浙江 杭州 310018)
為了提升微博話題發(fā)現(xiàn)效率以及發(fā)現(xiàn)質(zhì)量問題,提出了一種融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)與細(xì)分方法,促使話題演化,進(jìn)而產(chǎn)生新話題及其情感變化趨勢。首先,基于情感詞典和TFDF值在歷史語料庫中挖掘常用情感詞并構(gòu)建情感詞庫;其次,快速抽取情感文本,結(jié)合Sigmoid函數(shù)檢測情感投入密集期,保證話題事件挖掘的質(zhì)量;最后,通過改進(jìn)的模糊C-均值聚類算法在新的微博數(shù)據(jù)中發(fā)現(xiàn)高質(zhì)量話題。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效提升移動環(huán)境下的話題發(fā)現(xiàn)效率及質(zhì)量。
情感詞;微博;話題發(fā)現(xiàn);NE-FCM
微博作為代表性的移動社交應(yīng)用,允許人們即時(shí)分享最新消息和想法。2013年,新浪微博注冊用戶已超過5.36億戶,微博內(nèi)容涵蓋了社會生活的各個(gè)方面,公眾不僅僅是在網(wǎng)上沖浪,同時(shí)也成為了波浪的制造者。而據(jù)參考文獻(xiàn)[1]所述,合理采用新浪微博API所爬取的數(shù)據(jù)將有較大的價(jià)值。研究微博的使用狀況發(fā)現(xiàn),微博作為一種社交工具在移動互聯(lián)網(wǎng)時(shí)代正慢慢承擔(dān)著短信、博客、即時(shí)通信等功能,提供的服務(wù)種類也日趨多樣化,總體來說微博成為了用戶表達(dá)自身感受,分享各種信息的主要途徑。微博文本在這一過程中作為一種用戶情感的微觀實(shí)例,以短文本的形式傳遞出用戶對話題的情感信息,如對新聞和當(dāng)前事態(tài)的評論等。
通過對信息進(jìn)行話題的自動識別和已知話題的持續(xù)跟蹤,幫助人們發(fā)現(xiàn)網(wǎng)絡(luò)中討論的熱點(diǎn),一直是自然語言處理領(lǐng)域的研究重點(diǎn)[2]。以微博為代表的社交工具不同于傳統(tǒng)媒體,在移動互聯(lián)網(wǎng)時(shí)代具有數(shù)據(jù)量大、文本較短、產(chǎn)生速度快和非結(jié)構(gòu)化等特點(diǎn),加大了其話題發(fā)現(xiàn)的難度[3]。情感投入分析是目前分析Web文本的一種重要方向和方法。同時(shí),互聯(lián)網(wǎng)公眾在網(wǎng)絡(luò)上發(fā)表的語言狀態(tài)情感存在一種“涌現(xiàn)和傳播演化”現(xiàn)象,針對上述現(xiàn)象,本文提出了一種融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)與細(xì)分方法。其中,基于情感詞計(jì)算文本情感投入是一種有效的方法,其主要思想是應(yīng)用情感詞匯在文本中的出現(xiàn)情況來預(yù)測和衡量文本情感投入以及公眾的各類態(tài)度和趨勢,從而使話題分化,衍生出新的話題并引導(dǎo)網(wǎng)友的討論,如參考文獻(xiàn)[4,5]。網(wǎng)友對“#話題 #”進(jìn)行討論,發(fā)表自己的評論,包含了自己的觀點(diǎn),促使老話題衍生新話題,促使話題演化,進(jìn)而產(chǎn)生新話題及其情感變化趨勢。
隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,海量信息的挖掘方法逐漸受到研究人員的關(guān)注。社交應(yīng)用內(nèi)的話題信息發(fā)現(xiàn)是新形勢下的重要研究方向,目的在于幫助人們應(yīng)對信息過載問題,從而提升處理效率。傳統(tǒng)的話題發(fā)現(xiàn)方法可以追溯到VSM(vector space model,向量空間模型)的信息數(shù)據(jù)映射。但使用VSM是建立在特征向量維數(shù)穩(wěn)定的基礎(chǔ)之上,一旦各文本特征維數(shù)相差較大就會影響最終的計(jì)算效果。針對這一現(xiàn)象,孫宏綱等人[6]利用知網(wǎng)詞庫,提出了一種VSM擴(kuò)展的解決方法。Kaleel S B等人[7]提出了一種基于LSH(location sensitive hash,位置敏感散列)函數(shù)的話題事件檢測算法,采用兩次LSH分別獲取網(wǎng)絡(luò)數(shù)據(jù)中的獨(dú)立事件和交叉事件。但使用上述方法進(jìn)行話題挖掘,在文本特征處理上將耗費(fèi)大量的時(shí)間,不適用于移動互聯(lián)網(wǎng)下海量信息的話題發(fā)現(xiàn)。
[8]提出了基于情感符號的在線突發(fā)事件檢測方法,通過已有的微博情感符號抽取相應(yīng)文本以滿足實(shí)時(shí)處理要求。O’Connor等人通過采用Opinion Finder中的主觀詞匯對微博進(jìn)行情感標(biāo)記,并將結(jié)果同手工測得的指數(shù)進(jìn)行聯(lián)系,發(fā)現(xiàn)消費(fèi)者信心指數(shù)和政治情感指數(shù)都與從微博中計(jì)算出來的情感相關(guān)聯(lián)[5]。楊小平等人[9]利用微博表情符號對微博文本進(jìn)行情感傾向標(biāo)注,構(gòu)建情感詞典。馮時(shí)等人[10]利用句法進(jìn)行博文的情感分析,發(fā)現(xiàn)在普通主題搜索的基礎(chǔ)上進(jìn)行情感傾向分析,將有助于主題趨勢的理解。應(yīng)晶等人[11]認(rèn)為公眾在表達(dá)觀點(diǎn)時(shí),往往會用情感詞來突顯,而這些情感詞會隨著話題的周期變化而變化。因此,通過情感詞典構(gòu)建,分析微博或Web文本情感傾向,對當(dāng)前熱門話題發(fā)現(xiàn)及其變化趨勢有著重要的作用。由此得知,從公眾情感角度分析文本類數(shù)據(jù)擁有一定的理論基礎(chǔ)且能夠有很好的擴(kuò)展性。
本文在傳統(tǒng)話題發(fā)現(xiàn)研究基礎(chǔ)之上進(jìn)行了改進(jìn),通過情感詞結(jié)合微博特性挖掘情感密集期,約簡了文本集。設(shè)計(jì)了一種融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)與細(xì)分方法,采用名詞性實(shí)體改進(jìn)話題聚類算法,增強(qiáng)話題發(fā)現(xiàn)效率及質(zhì)量。
定義 1 情感詞庫:S=<s1,s2,…,sn>,si表示情感詞。
定義 2 微博文本集:D=<d1,d2,…,dn>,其中,di={w1,w2,…,wn},wi表示文本di的特征項(xiàng)。時(shí)間T內(nèi)的文本可表示為DT={dT}。
定義3 情感文本:DS={d1S,d2S,…,dnS}表示為存在情感詞的文本集合,diS即情感文本,S表示情感詞庫。
定義4 話題集:在時(shí)間T內(nèi),基于情感投入檢測到的話題集表示為:CT={c1T,c2T,…,cnT},其中,話題 ciT={d1,d2,…,dn}表示由一系列相應(yīng)文本組成的話題。
本文主要目的在于通過微博情感投入密集期的檢測達(dá)到約簡文本集、有效提升話題發(fā)現(xiàn)效率及質(zhì)量的目的,并以此為基礎(chǔ)增強(qiáng)移動互聯(lián)網(wǎng)環(huán)境下的話題掌控力。為此,需解決以下幾個(gè)問題:
·如何構(gòu)造適宜的微博情感詞庫;
·如何檢測情感投入密集期及快速抽取情感文本;
·如何基于微博短文本特征提升發(fā)現(xiàn)話題價(jià)值。
基于上述問題,本文提出的模型框架如圖1所示,主要由微博情感詞庫構(gòu)建、情感投入密集期檢測、融入情感投入的微博話題發(fā)現(xiàn)三大模塊組成。其中,模塊1基于知網(wǎng)的HowNet情感詞典、中國臺灣大學(xué)的Ntusd情感詞典和大連理工大學(xué)的情感詞匯本體庫構(gòu)建初始情感詞庫;微博影響力代表著文本在話題發(fā)現(xiàn)中的參考價(jià)值,模塊2中結(jié)合微博影響力并采用Sigmoid函數(shù)檢測情感投入密集期;模糊C-均值算法是眾多模糊聚類算法中應(yīng)用最成功的算法[12],模塊3通過改進(jìn)的FCM算法,設(shè)計(jì)了一種基于名詞性實(shí)體的模糊C-均值算法NE-FCM。
情感詞庫的構(gòu)建過程中面臨兩個(gè)問題:詞庫情感詞在微博語言環(huán)境中需具有一定的適用性,即出現(xiàn)概率;基于情感詞庫抽取情感投入較多的文本,匹配時(shí)間往往過長。因此,本文基于大規(guī)模微博語料庫和三大著名情感詞集,運(yùn)用TF和DF算法相結(jié)合的TFDF值以及雙字散列索引表實(shí)現(xiàn)具體情感詞庫的構(gòu)建,詞庫滿足語料庫和情感詞集變化而動態(tài)更新的需求。語料庫的采集,利用中國爬盟所提供的WeiboCrawlerApp爬取了600萬條新浪微博,每條微博作為一個(gè)文本單位。
在文本特征選擇和權(quán)重計(jì)算領(lǐng)域,TFIDF算法因其計(jì)算簡單、較高的準(zhǔn)確率和召回率受到廣泛應(yīng)用[13,14]。逆向文件頻率(IDF)是指某文本集D的特征詞 wi,根據(jù)其在文本di中出現(xiàn)的頻率賦予相應(yīng)權(quán)重,而給予只在少數(shù)文檔中出現(xiàn)的特殊詞較高的權(quán)重,顯然無法適用于微博情感詞庫的構(gòu)建需求。
因此本文在對三大情感詞集進(jìn)行冗余處理后,首先基于語料庫過濾非常用低頻特征,即計(jì)算情感詞的最大值,再乘以文本頻數(shù)DF,記為si的TFDF值。在實(shí)際微博環(huán)境中,由于大量推廣類信息的影響,增加了部分情感詞的TF值,故本文采用增加DF值的方式提高微博情感詞庫的代表性。經(jīng)過上述步驟,本文從600萬條微博語料庫中共挖掘得到1 231個(gè)適用情感詞。詞庫構(gòu)建后很容易以順序表的方式存儲在硬件設(shè)備中,但海量數(shù)據(jù)的查找匹配效率會成為制約其發(fā)展的重要因素。在微博情感詞庫中各長度情感詞的統(tǒng)計(jì)見表1。
表1 情感詞長度統(tǒng)計(jì)
從表1可以發(fā)現(xiàn),微博情感詞庫中長度為2的情感詞約占據(jù)了一半,一般情感詞長度越長所占比例越小。基于以上事實(shí),采用雙字散列索引[15]的數(shù)據(jù)結(jié)構(gòu),對于最大匹配和全切分法,其處理速度比以往的逐字二分提高了57.5%和60.5%。情感詞索引結(jié)構(gòu)如圖2所示。
圖1 融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)模型
圖2 情感詞散列索引示意
情感投入密集期檢測是基于已有情感詞庫對微博短文本進(jìn)行情感詞匹配,挖掘出微博用戶情感投入的密集期,并將文本按密集期進(jìn)行歸類。對于微博文本集D,根據(jù)微博情感詞庫S及雙字散列索引結(jié)構(gòu)快速抽取情感文本diS,算法如下。
算法1 情感文本抽取
輸入 微博文本集D,微博情感詞庫S。
輸出 情感文本集DS
(1)?d∈D,設(shè)定文本標(biāo)記 flag=false;
(2)For A in d:
If首字散列索引 a≠null:flag=true
若a的指針q1為空,continue;
否則得到以A字起始的次字散列索引b;
在b中通過散列定位到字B,由指針q2得到以AB起始的剩余字串組L;
將上述行星機(jī)構(gòu)各構(gòu)件的轉(zhuǎn)角代入式(3),再將α等于齒圈與太陽輪齒數(shù)比代入,經(jīng)推導(dǎo),可求出雙星行星機(jī)構(gòu)的裝配條件為
按正向最大匹配規(guī)則從L中依次匹配,取得情感詞s;
If遍歷結(jié)束:flag=true,將文本 d加入 DS;
(3)重復(fù)步驟(1)、(2),直至所有文本分類完成。
伴隨著話題熱度的提升,用戶微博文本中采用情感詞表達(dá)自身觀點(diǎn)的比例會明顯增加,出現(xiàn)情感投入的密集期。本文對經(jīng)過算法1抽取得到的情感文本集DS進(jìn)行情感密集期挖掘。對于抽象的微博文本情感投入,以情感詞作為其標(biāo)準(zhǔn)度量是現(xiàn)今公認(rèn)的有效方法。而對于微博環(huán)境,信息流的傳播過程中高影響力微博對公眾情感表達(dá)有直接導(dǎo)向作用,例如明星微博往往會引起涌現(xiàn)情況的發(fā)生。
為此,本文引入測算微博影響力的轉(zhuǎn)發(fā)R(d)和評論M(d)指標(biāo)以及統(tǒng)計(jì)得到的文本情感詞數(shù)Num(d),規(guī)范化求和得到f(d)。Sigmoid函數(shù)對數(shù)據(jù)細(xì)微變化敏感,并可以抑制高頻次商業(yè)微博對數(shù)值結(jié)果的影響。其函數(shù)圖像如圖3所示。
圖3 Sigmoid函數(shù)
本文采用Sigmoid函數(shù)構(gòu)造密集期度量函數(shù)。設(shè)時(shí)間T內(nèi)文本數(shù)為NT,搜尋不同時(shí)段,選用整體均值作為度量標(biāo)準(zhǔn),稱時(shí)間T為公眾情感投入的密集期,設(shè)f(d)的中值為q、均值為 u,若:
從而情感文本集DS根據(jù)不同情感密集期T而被劃分為幾個(gè)不相交的子集。
對情感密集期內(nèi)的文本集DT,采用改進(jìn)的模糊C-均值聚類方法NE-FCM發(fā)現(xiàn)微博話題。由于真實(shí)語言環(huán)境的復(fù)雜性,特征詞隸屬于各聚類對象之間的界限往往不是很清晰。一種處理廣泛存在不確定性的模糊集合論,對中文語境下的模糊概念劃分具有較好的處理效果,其中,F(xiàn)CM算法通過不斷迭代優(yōu)化目標(biāo)函數(shù)J(U,C),得到樣本點(diǎn)di對所有類中心的隸屬度矩陣U[uij],從而決定樣本點(diǎn)的類屬c,以達(dá)到對數(shù)據(jù)樣本自動分類的目的。
其中,m為模糊度,distij表示第 j個(gè)樣本到類 ci的歐式距離。
由上述可見,算法采用類內(nèi)平均加權(quán)誤差的方法不斷優(yōu)化目標(biāo)函數(shù)J(U,C),一旦改變量小于閾值ε或達(dá)到最大迭代次數(shù)則停止。對任一初始聚類中心C0,由式(2)可知隸屬度矩陣U中各列獨(dú)立,依據(jù)拉格朗日乘子法計(jì)算一階式后可知:
得到當(dāng)目標(biāo)函數(shù)J(U,C)有解時(shí),隸屬度uij及聚類中心ci滿足的必要條件,即式(3)、式(4)。因此可知 FCM 算法將聚類結(jié)果C看作由初始聚類中心C0出發(fā)的一種映射,不斷迭代。微博文本話題集中,各類樣本間數(shù)目往往相差較大,極易發(fā)生收斂到局部極小點(diǎn)的情況。
在對大量以微博為代表的短文本進(jìn)行分析的基礎(chǔ)上,發(fā)現(xiàn)以人名、地名、時(shí)間等為代表的名詞性實(shí)體在文本中擁有較強(qiáng)的代表性,選用名詞性實(shí)體較多的點(diǎn)作為聚類中心會具有更好的話題發(fā)現(xiàn)效果,從而提出了一種基于名詞性實(shí)體的模糊C-均值聚類算法(NE-FCM)?;贜LPIR詞性標(biāo)識系統(tǒng),在名詞性特征詞中計(jì)算DF值進(jìn)行篩選,避免多余計(jì)算消耗。從而將文本的詞空間劃分為名詞性實(shí)體集及一般特征項(xiàng)集,如:
采用歐式距離計(jì)算名詞性實(shí)體空間和特征項(xiàng)空間距離,定義新的文本點(diǎn)di和dj之間的距離為:
其中,β為柔性參數(shù),且β<0.5。包含的相同名詞性實(shí)體越多,兩者之間距離越小。
為避免算法依賴初始聚類中心的缺陷,本文轉(zhuǎn)變隨機(jī)初始值為滿足名詞性實(shí)體代表性的有目的的初始聚類中心選擇,具體步驟如下:
步驟1 計(jì)算任意文本點(diǎn)di和dj之間的距離,生成點(diǎn)距離矩陣Dist,選取擁有最短距離的兩文本點(diǎn)的中間值作為c10;
步驟2 選定距離閾值α,依據(jù)Dist矩陣從與C10兩點(diǎn)距離都大于閾值α的文本點(diǎn)中選擇c20;
步驟3 如上所述,依據(jù)Dist矩陣在余下文本點(diǎn)集中尋找與已確定類屬的點(diǎn)距離都大于閾值α的點(diǎn),并以此確定初始聚類中心ci0。
可以看到,本文方法通過不斷搜索距離矩陣Dist,避免了大量因?yàn)橛?jì)算距離產(chǎn)生的時(shí)間消耗。雖然犧牲了部分精確度,但在后續(xù)迭代過程中完全允許類似初始值的選取方式?;緷M足了在不同名詞性實(shí)體表征空間內(nèi)的聚類需求。文本特征矩陣往往具有較高的維數(shù),本文采用PCA主成分依次降維。
采用NE-FCM算法的基本步驟如下。
算法2 基于名詞性實(shí)體的模糊C-均值聚類算法(NE-FCM)
輸入 情感密集期T內(nèi)相關(guān)文檔DT,最大迭代次數(shù)iter,聚類數(shù) Cn,閾值 ε。
輸出 聚類CT={ciT}。
(1)?d∈D,形成文檔d的特征詞項(xiàng)劃分;
(2)依據(jù)式(6),聚類數(shù) Cn和上述步驟選出初始聚類中心C0;
(3)計(jì)算目標(biāo)函數(shù)J(U,C),利用矩陣范數(shù)比較相鄰兩次隸屬度U,若小于ε或達(dá)到最大迭代次數(shù)iter,則算法停止;
(4)重新計(jì)算隸屬度矩陣 U及聚類中心ci,重復(fù)步驟(3)。
對情感密集期T內(nèi)的文本集DT經(jīng)過NE-FCM算法后,各文本被分到不同的類c,由于同一話題時(shí)間延續(xù)的不確定性,本文采用話題相似性度量的方式進(jìn)行合并。
驗(yàn)證本文提出的融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)方法的有效性,語料庫構(gòu)建的數(shù)據(jù)為2013年7月采集得到的600萬條新浪微博。為保證研究內(nèi)容意義,使用在 2013年 11月 1-21日內(nèi)包含“二胎”關(guān)鍵字的95 404條有效微博作為數(shù)據(jù)集,在以上數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),所有數(shù)據(jù)都通過新浪微博API獲得。本文實(shí)驗(yàn)操作環(huán)境為 Windows7 64位,Intel Pentium4,4 GB內(nèi)存的 PC。采用Python作為數(shù)據(jù)處理工具。本文通過Python接口,運(yùn)用張華平博士發(fā)布的NLPIR漢語分詞系統(tǒng),并去除代詞、語氣助詞等高頻出現(xiàn)但無實(shí)際意義的停用詞,提升算法性能。
表2是以天為單位的數(shù)據(jù)集中情感文本的分布情況,可以發(fā)現(xiàn)每日微博文本中超50%的文本會運(yùn)用情感詞表達(dá),而總體來說數(shù)據(jù)集中平均78.45%的微博有用情感詞表達(dá)自身情感或觀點(diǎn)的習(xí)慣。這也從側(cè)面證明了本文使用情感詞作為公眾情感投入的衡量以及數(shù)據(jù)集重要約簡指標(biāo)的有效性。
表2 情感文本比例
進(jìn)一步驗(yàn)證了公眾情感投入中情感詞的使用規(guī)律,設(shè)定時(shí)間窗口T為0.5天,并以圖4所示內(nèi)容說明。圖4中曲線分別展示了各時(shí)間窗口內(nèi)情感詞與文本數(shù)量,其Pearson相關(guān)指數(shù)為0.91,一方面說明本文情感詞庫構(gòu)建方法的有效性;另一方面說明了結(jié)合情感詞作為微博短文本的密集期發(fā)現(xiàn)指標(biāo)符合數(shù)據(jù)潛在規(guī)律,對于數(shù)據(jù)集進(jìn)行話題發(fā)現(xiàn)有較強(qiáng)的指導(dǎo)價(jià)值。
圖4中14條柱體分別標(biāo)注了運(yùn)用本文方法挖掘得到的情感密集期以及其時(shí)間窗口序號。微博話題的高速傳播期一般在2~3天,可以看到密集期基本涵蓋了所有數(shù)據(jù)時(shí)段,過濾數(shù)據(jù)的同時(shí)仍擁有較高的代表性。
本文采用上述融入公眾情感投入分析的微博話題發(fā)現(xiàn)方法框架進(jìn)行對比實(shí)驗(yàn),設(shè)定算法最大迭代次數(shù)為1 000,閾值ε=10-6,模糊度m=2。在各時(shí)間窗口內(nèi)分別設(shè)定聚類數(shù)為25,構(gòu)成最終的話題列表。在Singlepass、FCM算法中不進(jìn)行名詞性實(shí)體標(biāo)識,聚類各時(shí)間窗口內(nèi)數(shù)據(jù)集;本文NE-FCM算法聚類情感密集期內(nèi)的數(shù)據(jù)集。由于實(shí)驗(yàn)數(shù)據(jù)量大,人工分類所有微博話題將耗費(fèi)大量的時(shí)間,本文采用如下方式對實(shí)驗(yàn)結(jié)果進(jìn)行評估。
(1)發(fā)現(xiàn)時(shí)間
發(fā)現(xiàn)時(shí)間是指數(shù)據(jù)集中話題發(fā)現(xiàn)的時(shí)間消耗。時(shí)間越短越能體現(xiàn)相應(yīng)方法的優(yōu)越性。從表3中可以看出,本文算法平均在1.8 min。其中,最快檢測時(shí)間小于1 min,平均檢測時(shí)間接近Singlepass檢測時(shí)間。
(2)準(zhǔn)確率
圖4 數(shù)據(jù)分布情況
準(zhǔn)確率為算法檢測出的話題集中相關(guān)文檔數(shù)與話題文檔總數(shù)的比例,是衡量話題發(fā)現(xiàn)精度的重要指標(biāo)。對于檢測出的話題列表集合,抽取其中10個(gè)話題計(jì)算其準(zhǔn)確率,人工判定微博文本是否屬于此話題。其結(jié)果見表4。
表3 檢測時(shí)間比較
表4 算法準(zhǔn)確率對比
由表4可以看出,本文算法具有相對較好的準(zhǔn)確率,平均準(zhǔn)確率超過84%,能夠適應(yīng)微博環(huán)境下的話題發(fā)現(xiàn)要求。與傳統(tǒng)的Singlepass、FCM話題發(fā)現(xiàn)方法相比,本文通過情感密集期的挖掘與名詞性實(shí)體的標(biāo)注可以避免大量的非目標(biāo)文本的干擾,有效提升話題發(fā)現(xiàn)準(zhǔn)確率。
(3)命中率
命中率為算法檢測出的話題占參考話題的比例,是衡量算法發(fā)現(xiàn)話題能力的重要指標(biāo)。為確保參考事件的完備性,參閱了新浪微博風(fēng)云榜以及各大主流網(wǎng)站當(dāng)時(shí)有關(guān)的新聞報(bào)道,人工標(biāo)注“二胎”相關(guān)話題作為參考話題,包括“國家放開單獨(dú)二胎政策”、“馬伊琍文章懷二胎”以及“山東長島放開二胎人口負(fù)增長”在內(nèi)的參考話題共計(jì)31個(gè)。分別選取各時(shí)間窗口中文本集準(zhǔn)確率 Top12、Top16、Top20、Top24的類,合并得到最終話題列表。話題命中率比較結(jié)果如圖5所示。
圖5 話題命中率對比
從圖5看出,3種算法都可以檢測出大部分微博話題,NE-FCM算法通過對情感密集期內(nèi)的數(shù)據(jù)集操作,明顯擁有更高的話題發(fā)現(xiàn)效率。雖然FCM方法在Top12擁有較好的命中率,但隨著合并類數(shù)的增多,無法避免冗余數(shù)據(jù)引起的話題模糊問題,導(dǎo)致命中率增長緩慢,而Singlepass算法則受制于低準(zhǔn)確率的影響。本文方法通過情感密集期的選擇,約簡數(shù)據(jù)集的同時(shí)保證了話題發(fā)現(xiàn)的完備性,NE-FCM算法在不同范圍內(nèi)選擇初始聚類點(diǎn),保證了算法話題發(fā)現(xiàn)的穩(wěn)定性,結(jié)合較高的話題準(zhǔn)確率,在較小合并類值的條件下,已經(jīng)達(dá)到較高的話題命中率。
(4)話題發(fā)現(xiàn)質(zhì)量分析
本文通過設(shè)定情感密集期約簡數(shù)據(jù)集,大大降低了處理數(shù)據(jù)的規(guī)模,其目的在于提升微博話題發(fā)現(xiàn)效率以及發(fā)現(xiàn)質(zhì)量。發(fā)現(xiàn)話題的質(zhì)量主要可由準(zhǔn)確率和命中率組成,從圖6可以看出,隨著情感密集期窗口數(shù)的增加,準(zhǔn)確率逐漸降低,命中率迅速升高。
圖6 話題發(fā)現(xiàn)質(zhì)量分析
因此合理選擇情感密集期窗口數(shù)不僅可以大幅降低數(shù)據(jù)處理規(guī)模,提升話題發(fā)現(xiàn)效率,也有助于話題發(fā)現(xiàn)質(zhì)量的提高,降低研究人員工作的復(fù)雜度。進(jìn)一步,在本文方法得到的相關(guān)話題文本集中取Top6的情感詞。從表5中可以看出,公眾對話題1多采用改革、重大等情感詞,表明對政策類話題的高關(guān)注度以及重視程度;對話題2采用支持、如愿以償?shù)惹楦性~,表明對這一話題人物的支持及祝福;而對話題3,公眾更多表達(dá)了對結(jié)果的驚訝以及對事件原因的評論。表5表明,通過高質(zhì)量話題可以較清晰地分析得到公眾對相關(guān)話題的情感態(tài)度。
表5 話題情感詞
移動互聯(lián)網(wǎng)社交應(yīng)用的快速發(fā)展,加大了對社會熱點(diǎn)話題挖掘的需求。本文提出了一種融入公眾情感投入分析的微博話題快速發(fā)現(xiàn)與細(xì)分方法。采用構(gòu)建情感詞庫的方式適應(yīng)微博語言環(huán)境,挖掘情感密集期,從而提升微博話題發(fā)現(xiàn)效率以及發(fā)現(xiàn)質(zhì)量。實(shí)驗(yàn)證明,本文提出的方法在處理以微博為代表的海量短文本方面有較強(qiáng)的準(zhǔn)確率、命中率和實(shí)用性,進(jìn)而可以發(fā)現(xiàn)廣大用戶的話題情感態(tài)度和興趣特征,構(gòu)建用戶話題模型,廣泛應(yīng)用在信息服務(wù)業(yè)和商業(yè)等領(lǐng)域的推薦,為信息服務(wù)推薦奠定良好基礎(chǔ),也是下一步研究的重點(diǎn)。
參考文獻(xiàn):
[1] 陳舜華,王曉彤,郝志峰.基于微博API的分布式抓取技術(shù)[J].電信科學(xué),2013,29(8):146-149.CHEN S H,WANG X T,HAO Z F.A distributed data-crawling technology for microblog API[J].Telecommunications Science,2013,29(8):146-149.
[2]張曉艷,王挺.話題發(fā)現(xiàn)與追蹤技術(shù)研究 [J].計(jì)算機(jī)科學(xué)與探索,2009,3(4):347-357.ZHANG X Y,WANG T.Research of technologies on topic detection and tracking[J].Journal of Frontiers of Computer Science&Technology,2009,3(4):347-357.
[3]MCANDREW A J,MOSHFEGHI Y,JOSE J M.Building a large-scale corpus for evaluating event detection on Twitter[C]//The 22nd ACM International Conference on Information&Knowledge Management,October 27-November 1,2013,San Francisco,USA.New York:ACM Press,2013:409-418.
[4]李生琦,田巧燕,湯承.基于《<知網(wǎng)>》詞匯語義相關(guān)度計(jì)算的消歧方法[J].情報(bào)學(xué)報(bào),2009,28(5):706-711.LI S Q,TIAN Q Y,TANG C.Disambiguating method for computing relevancy based on HowNet semantic knowledge[J].Journalofthe China Society forScientific Andtechnical Information,2009,28(5):706-711.
[5]O’ CONNOR B,BALASUB R,ROUTLEDGE B R,et al.From tweets to polls:linking text sentiment to public opinion time series[C]//The Fourth International AAAI Conference on Weblogs and Social Media,May 23-26,2010,Washington,DC,USA.Palo Alto:AAAI Press,2010:122-129.
[6] 孫宏綱,陸余良,劉金紅,等.基于HowNet的 VSM模型擴(kuò)展在文本分類中的應(yīng)用研究[J].中文信息學(xué)報(bào),2007,21(6):101-108.SUN H G,LU Y L,LIU J H,et al.A study of the application of VSM expansion in text categorization based on HowNet[J].Journal of Chinese Information Processing,2007,21(6):101-108.[7]KALEEL S B,ABHARI A.Cluster-discovery of Twitter messages for event detection and trending[J].Journal of Computational Science,2015(6):47-57.
[8]張魯民,賈焰,周斌,等.一種基于情感符號的在線突發(fā)事件檢測方法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(8):1659-1667.ZHANG L M,JIA Y,ZHOU B,et al.Online bursty events detection based on emoticons[J].Chinese Journal of Computers,2013,36(8):1659-1667.
[9]桂斌,楊小平,張中夏,等.基于微博表情符號的情感詞典構(gòu)建研究[J].北京理工大學(xué)學(xué)報(bào),2014(5):537-541.GUI B,YANG X P,ZHANG Z X,et al.Research on building lexicon for sentiment analysis based on the Chinese microblogging[J].Journal of Beijing Institute of Technology,2014(5):537-541.
[10]馮時(shí),付永陳,陽鋒,等.基于依存句法的博文情感傾向分析研究[J].計(jì)算機(jī)研究與發(fā)展,2012(11):2395-2406.FENG S,FU Y C,YANG F,et al.Blog sentiment orientation analysis based on dependency parsing[J].Journal of Computer Research and Development,2012(11):2395-2406.
[11]陳旻,朱凡微,吳明暉,等.觀點(diǎn)挖掘綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014(8):1461-1472.CHEN M,ZHU F W,WU M H,et al.Survey of opinion mining[J].Journal of Zhejiang University(Engineering Science),2014(8):1461-1472.
[12]齊淼,張化祥.改進(jìn)的模糊 C-均值聚類算法研究 [J].計(jì)算機(jī)工程與應(yīng)用,2009,45(20):133-135.QI M,ZHANG H X.Research on modified fuzzy C-means clustering algorithm[J].Computer Engineering and Applications,2009,45(20):133-135.
[13]范云滿,馬建霞.基于LDA與新興主題特征分析的新興主題探測研究[J].情報(bào)學(xué)報(bào),2014,33(7):698-711.FAN Y M,MA J X.Detection of emerging topics based on LDA and feature analysis of emerging topics[J].Journal of the China Society for Scientific and Technical Information,2014,33(7):698-711.
[14]賀亮,李芳.基于話題模型的科技文獻(xiàn)話題發(fā)現(xiàn)和趨勢分析[J].中文信息學(xué)報(bào),2012,26(2):109-115.HE L,LI F.Topic discovery and trend analysis in scientific literature based on topic model[J].JournalofChinese Information Processing,2012,26(2):109-115.
[15]李慶虎,陳玉健,孫家廣.一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J].中文信息學(xué)報(bào),2003,17(4):13-18.LI Q H,CHEN Y J,SUN J G.A new dictionary mechanism for Chinese word segmentation[J].Journal of Chinese Information Processing,2003,17(4):13-18.
Discovery and segmentation method in micro-blog topics based on public emotional engagement analysis
JU Chunhua1,2,BAO Fuguang1,3,DAI Junyan2
1.School of Computer and Information Engineering,Zhejiang Gongshang University,Hangzhou 310018,China 2.Contemporary Business and Trade Research Center of Zhejiang Gongshang University,Hangzhou 310018,China 3.School of Business Administration,Zhejiang Gongshang University,Hangzhou 310018,China
To improve the discovery efficiency and quality of micro-blog topic,a method of rapid discovery and segmentation in micro-blog topics based on public emotional engagement analysis was proposed,it would prompt evolution of the topics,then generate new topics and gain emotional change trend.Firstly,common emotional words were mined from corpus to build emotional thesaurus based on emotional word dictionary and TFDF.Then,emotional text was extracted quickly and sigmoid function was utilized to detect the intensive period of emotional engagement,ensuring the validity of topic mining.Besides,an improved adaptive FCM was used to cluster and discover topics.The experimental results show that this method can enhance the efficiency and quality of topic discovery in mobile environment.
emotional word,micro-blog,topic discovery,NE-FCM
s:The National Natural Science Foundation of China(No.71571162),The National Key Technology R&D Program of China(No.2014BAH24F06),Zhejiang Province Philosophy Social Sciences Planning Project(No.16NDJC188YB),Natural Science Foundation of Zhejiang ProvinceofChina(No.LY14F020002),KeyResearchInstitutesofSocialSciencesandHumanitiesMinistryofEducation(No.14JJD630011,No13JDSM16YB)
TP311
A
10.11959/j.issn.1000-0801.2016158
2016-03-09;
2016-06-03
國家自然科學(xué)基金資助項(xiàng)目(No.71571162);國家科技支撐計(jì)劃基金資助項(xiàng)目(No.2014BAH24F06);浙江省哲學(xué)社會科學(xué)規(guī)劃課題(No.16NDJC188YB);浙江省自然科學(xué)基金資助項(xiàng)目(No.LY14F020002);教育部人文社會科學(xué)重點(diǎn)研究基地項(xiàng)目資助(No.14JJD630011,No.13JDSM16YB)
琚春華(1962-),男 ,博 士 ,浙 江 工 商 大 學(xué) 教授、博士生導(dǎo)師、校長助理,計(jì)算機(jī)與信息工程學(xué)院院長,主要研究方向?yàn)橹悄苄畔⑻幚怼?shù)據(jù)挖掘、電子商務(wù)與物流優(yōu)化等。
鮑福光(1986-),男,浙江工商大學(xué)博士生,主要研究方向?yàn)橹悄苄畔⑻幚?、?shù)據(jù)挖掘和供應(yīng)鏈協(xié)同合作。
戴俊彥(1990-),男,浙江工商大學(xué)碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、智能信息處理等。