蔣偉進(jìn),王揚(yáng),劉曉亮,呂斯健
(1.湖南工商大學(xué)大數(shù)據(jù)與互聯(lián)網(wǎng)創(chuàng)新研究院,湖南 長(zhǎng)沙 410205;2.新零售虛擬現(xiàn)實(shí)技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410205;3.湖南工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,湖南 長(zhǎng)沙 410205;4.武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430073)
隨著Web 2.0 的發(fā)展,一系列新的社交網(wǎng)絡(luò)正在迅速興起。盡管此類網(wǎng)絡(luò)相對(duì)較新,但它們吸引了很多用戶來(lái)分享其觀點(diǎn)和感受,在社交網(wǎng)絡(luò)上實(shí)時(shí)討論真實(shí)生活中發(fā)生的焦點(diǎn)、熱度高的事情成為許多用戶的一種趨向性消遣,并且他們對(duì)事情發(fā)表帶有主觀性、影響力較強(qiáng)的評(píng)論,使現(xiàn)實(shí)生活中的突發(fā)事件在社交虛擬網(wǎng)絡(luò)上爆發(fā)的時(shí)間往往比官方發(fā)布新聞的時(shí)間更早[1]。具有用戶發(fā)布內(nèi)容的社交媒體和在線服務(wù)已經(jīng)生成了數(shù)量驚人的信息,這些信息在事件分析和應(yīng)急管理等各個(gè)領(lǐng)域都有潛在的應(yīng)用[2]。突發(fā)事件在微博和微信等社交網(wǎng)絡(luò)上迅速發(fā)酵[3-4],其突發(fā)性影響了后續(xù)的應(yīng)急處理,包括輿論以及救援等。通過(guò)從緊急災(zāi)難等事件檢測(cè)模型發(fā)出大量及時(shí)、準(zhǔn)確的警報(bào),可以幫助人們迅速采取行動(dòng),以減輕損失。因此,在各種突發(fā)事件發(fā)生后,通過(guò)社交網(wǎng)絡(luò)實(shí)時(shí)監(jiān)測(cè)事件的演變情況,并采取相應(yīng)措施控制其發(fā)展對(duì)輿論指導(dǎo)具有重要意義。
隨著時(shí)間的推移,控制突發(fā)事件的進(jìn)一步擴(kuò)大將有助于決策者分析整體情況,并根據(jù)演變過(guò)程做出正確的決策。在這種情況下,有必要確定關(guān)鍵事件并通過(guò)時(shí)間表對(duì)其進(jìn)行控制,可以通過(guò)提取和分析與社交事件相關(guān)的微博來(lái)獲取時(shí)間信息[5]。微博平臺(tái)可以充當(dāng)信息源,使個(gè)人、公司和政府組織可以隨時(shí)了解“當(dāng)前情況”和“人們對(duì)它們的看法”。檢測(cè)突發(fā)事件和用戶對(duì)其的看法至關(guān)重要,因?yàn)樗鼈兛梢詭?lái)寶貴的信息。例如,公司可以使用這些信息來(lái)分析用戶對(duì)其產(chǎn)品(或競(jìng)爭(zhēng)對(duì)手)的看法,以回應(yīng)用戶的投訴并改善決策。與傳統(tǒng)的信息傳播渠道相比,在社交網(wǎng)絡(luò)上檢測(cè)獲得的突發(fā)事件能使人更快地了解到事件的詳細(xì)發(fā)展情況,以便相關(guān)部門(mén)迅速采取應(yīng)對(duì)策略,這具有重要的現(xiàn)實(shí)意義。本文圍繞微博突發(fā)詞提取及多歸屬譜聚類檢測(cè)2 個(gè)核心內(nèi)容,開(kāi)展了微博社交網(wǎng)絡(luò)突發(fā)事件檢測(cè)的研究,主要?jiǎng)?chuàng)新點(diǎn)如下。1) 在突發(fā)詞提取上,根據(jù)微博的時(shí)空特點(diǎn),在綜合考慮博文內(nèi)容及社交關(guān)系的基礎(chǔ)上,利用詞頻增長(zhǎng)率特征、用戶影響力及詞權(quán)重3 類指標(biāo),提出了新穎的突發(fā)詞提取模型;2) 在突發(fā)事件檢測(cè)上,針對(duì)突發(fā)事件檢測(cè)中參數(shù)過(guò)多的問(wèn)題,將文本處理轉(zhuǎn)化為圖劃分,從特征關(guān)系圖的角度出發(fā),基于事件突發(fā)特征的相似性和共現(xiàn)性構(gòu)建詞關(guān)系圖,對(duì)突發(fā)事件進(jìn)行檢測(cè)。
由于本文結(jié)合文本和詞相關(guān)性特征來(lái)檢測(cè)突發(fā)事件,因此相關(guān)工作集中在文本分析、突發(fā)特征分析以及用戶特征分析等用于突發(fā)事件檢測(cè)的方法。當(dāng)前的核心問(wèn)題和挑戰(zhàn)是如何快速、準(zhǔn)確地從指數(shù)增長(zhǎng)的數(shù)據(jù)中檢測(cè)到突發(fā)事件?,F(xiàn)有的突發(fā)事件檢測(cè)方法主要分為3 類。
1) 以文本為中心。將文本語(yǔ)義之間的相似程度通過(guò)相關(guān)方法度量為距離對(duì)文本進(jìn)行聚類分析,根據(jù)聚類結(jié)果檢測(cè)突發(fā)事件。該方法將單詞的時(shí)間序列離散為一小組級(jí)別,記錄每個(gè)單詞和每個(gè)單詞對(duì)的出現(xiàn)次數(shù)。然后通過(guò)滑動(dòng)時(shí)間窗口將共現(xiàn)標(biāo)記聚類,形成候選事件簇,對(duì)滿足相應(yīng)突發(fā)規(guī)則的類進(jìn)行突發(fā)事件的識(shí)別[6-8]。李瑩瑩等[9]通過(guò)聚類定義了有關(guān)事件的隱式語(yǔ)義信息,以引入相關(guān)事件,對(duì)具有相同主題的意外事件進(jìn)行聚類,該聚類是在監(jiān)視事件演變的社交網(wǎng)絡(luò)中進(jìn)行的。張婧麗等[10]通過(guò)計(jì)算事件檢測(cè)標(biāo)簽的文本框架類型相似度方法來(lái)識(shí)別框架,從而檢測(cè)出一種緊急情況,并改進(jìn)緊急情況觸發(fā)詞的識(shí)別,能更正確地識(shí)別觸發(fā)詞,有效提高識(shí)別率。陸垚杰等[11]基于不確定的語(yǔ)言變量構(gòu)建突發(fā)事件模型,減少了文字語(yǔ)言的干擾,從文本的語(yǔ)法和語(yǔ)義2 個(gè)角度進(jìn)行研究,使突發(fā)事件的檢測(cè)模型更具準(zhǔn)確性。Zhu 等[12]提出了一種改進(jìn)的術(shù)語(yǔ)頻率逆文檔頻率(TF-IDF,term frequency inverse document frequency)算法,稱為T(mén)A TF-IDF,用于根據(jù)時(shí)間分布信息和用戶注意來(lái)查找熱門(mén)術(shù)語(yǔ),從而實(shí)現(xiàn)對(duì)新聞中熱點(diǎn)話題的檢測(cè)。但是,由于微博文本含有大量的口語(yǔ)單詞、網(wǎng)絡(luò)短語(yǔ)、廣告、鏈接和其他垃圾郵件信息,在對(duì)數(shù)據(jù)信息進(jìn)行聚類分析和計(jì)算詞語(yǔ)相關(guān)突發(fā)特征時(shí),引入過(guò)多無(wú)用信息會(huì)對(duì)其造成噪聲干擾。另外,對(duì)微博文本進(jìn)行聚類分析時(shí),需要對(duì)一些參數(shù)閾值進(jìn)行調(diào)試以達(dá)到最好的實(shí)驗(yàn)效果,但一般都是以研究的相關(guān)經(jīng)驗(yàn)設(shè)定參數(shù)閾值,并且閾值選擇的質(zhì)量會(huì)直接影響聚類的結(jié)果,從而對(duì)檢測(cè)的準(zhǔn)確性產(chǎn)生影響。
2) 以突發(fā)特征為中心。這類方法首先獲取與突發(fā)事件相關(guān)的微博內(nèi)容特征,然后對(duì)得到的突發(fā)事件相關(guān)特征進(jìn)行聚類分析,最后根據(jù)聚類算法的結(jié)果獲取突發(fā)事件的相關(guān)信息。張魯民等[13]在微博上建立了一個(gè)情緒符號(hào)模型,以確定一般情況下網(wǎng)民的情緒可以控制事件傳播的程度,緊急情況的發(fā)生導(dǎo)致相關(guān)事件的信息量迅速上升,網(wǎng)民的情緒也隨著評(píng)論起伏不定。因此,對(duì)微博的原始文本和評(píng)論內(nèi)容進(jìn)行情感分析可以顯著提高緊急事件檢測(cè)的準(zhǔn)確性,但只考慮網(wǎng)民的情緒變化還不夠全面。仲兆滿等[14]考慮到地域突發(fā)特征,構(gòu)建了基于網(wǎng)絡(luò)地域的突發(fā)事件檢測(cè)方法,但是該方法檢測(cè)不到?jīng)]有地域突發(fā)特征的內(nèi)容。Kalden[15]引入網(wǎng)頁(yè)排名的方法,對(duì)用戶影響力的比值進(jìn)行計(jì)算,并提取了突發(fā)詞特征來(lái)發(fā)現(xiàn)突發(fā)事件。該方法引入了用戶影響力因素,但是一些僵尸用戶以及“水軍”也被引入,增加了噪聲信息。Zou 等[16]提出了一種結(jié)合情感和主題標(biāo)簽的模型,以在線檢測(cè)微博流的中文突發(fā)事件,但在沒(méi)有任何標(biāo)簽的情況下,這種方法將失敗。張仰森等[17]提出了基于最小代價(jià)函數(shù)的目標(biāo)檢測(cè)與跟蹤融合算法對(duì)突發(fā)事件進(jìn)行檢測(cè),以降低檢測(cè)的錯(cuò)誤率。該算法能夠自適應(yīng)地調(diào)整跟蹤參數(shù)的大小,并在丟失目標(biāo)后重新捕獲目標(biāo),它可以同時(shí)滿足多個(gè)事件的檢測(cè)跟蹤。Zhang 等[18]提出了一種基于突發(fā)項(xiàng)值計(jì)算和偽突發(fā)項(xiàng)識(shí)別的突發(fā)主題檢測(cè)(BTDF,bursty term detection and filtration)方法,通過(guò)使用術(shù)語(yǔ)的基本權(quán)重和突發(fā)權(quán)重來(lái)提取突發(fā)項(xiàng),并通過(guò)分析術(shù)語(yǔ)的新穎性來(lái)過(guò)濾偽突發(fā)項(xiàng),但沒(méi)有對(duì)無(wú)效突發(fā)項(xiàng)進(jìn)行過(guò)濾。
3) 以用戶行為特征為中心。對(duì)用戶在社交網(wǎng)絡(luò)的行為數(shù)據(jù)進(jìn)行分析,在突發(fā)事件檢測(cè)系統(tǒng)輸入用戶行為數(shù)據(jù),判斷系統(tǒng)檢測(cè)的結(jié)果是否與現(xiàn)實(shí)事件基本相同。Gupta 等[19]對(duì)10 350 條獨(dú)特的推特信息進(jìn)行了特征分析,以了解偽造圖像傳播的時(shí)間、社會(huì)聲譽(yù)和影響模式,并利用用戶行為特征和文本特征構(gòu)建分類器進(jìn)行研究,結(jié)果顯示,在10 215 位用戶中,排名前30 位的用戶(0.3%)導(dǎo)致了90%的偽造圖像轉(zhuǎn)發(fā)。Wang 等[20]研究用戶轉(zhuǎn)發(fā)行為,提出了一種基于多層個(gè)人信息(MII,multi-layered individual information)和動(dòng)態(tài)時(shí)間序列(DTS,dynamic time series)算法的用于謠言事件檢測(cè)的新型兩層門(mén)控循環(huán)單元(GRU,gated recurrent unit)模型,稱為MII-DTS-GRU。在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MII-DTS-GRU 模型達(dá)到了96.3%的高精度。趙海林[21]提出了一種基于用戶行為特征的監(jiān)督式機(jī)器學(xué)習(xí)事件確定方法,利用從推文文本和元數(shù)據(jù)中提取的統(tǒng)計(jì)特征,并在突發(fā)序列中將推文簇的特征對(duì)應(yīng)于緊急情況確定,以實(shí)現(xiàn)分類器。但是有許多用戶行為與國(guó)家安全無(wú)關(guān),這將延遲緊急情況的判斷時(shí)間。介飛等[22]針對(duì)網(wǎng)絡(luò)媒體的突發(fā)問(wèn)題隱式事件,根據(jù)檢測(cè)到的事件來(lái)分析突發(fā)社會(huì)行為特征,引入關(guān)鍵詞功能,動(dòng)態(tài)調(diào)整每個(gè)候選關(guān)鍵詞的時(shí)間窗。不同事件具有不同的關(guān)鍵詞功能綁定,避免了事件之間的干擾,準(zhǔn)確地識(shí)別了隱性突發(fā)事件,但對(duì)于單詞中的巨大語(yǔ)義變化并不適用。
為了解決這些問(wèn)題,本文提出了一種結(jié)合詞語(yǔ)相關(guān)特征和多歸屬譜聚類算法檢測(cè)突發(fā)事件。首先,按時(shí)間順序?qū)ε廊〉奈⒉?shù)據(jù)進(jìn)行分段,利用連續(xù)時(shí)間劃分?jǐn)?shù)據(jù)切片,計(jì)算每個(gè)時(shí)間片段的數(shù)據(jù)信息的各詞語(yǔ)的詞頻特征、用戶影響力和詞頻增長(zhǎng)率特征,運(yùn)用突發(fā)度計(jì)算方法來(lái)提取突發(fā)詞。然后,利用特征相似性對(duì)提取突發(fā)詞進(jìn)行矩陣構(gòu)建,轉(zhuǎn)化為詞語(yǔ)關(guān)系圖。最后,運(yùn)用多歸屬譜聚類算法對(duì)單詞關(guān)系圖進(jìn)行最優(yōu)劃分,并在時(shí)間窗滑過(guò)時(shí)關(guān)注異常詞語(yǔ),通過(guò)子圖中詞語(yǔ)突發(fā)度的變化而引起的結(jié)構(gòu)變化對(duì)突發(fā)事件進(jìn)行判斷?;谕话l(fā)事件的檢測(cè)模型流程如圖1 所示。
圖1 基于突發(fā)事件的檢測(cè)模型流程
在進(jìn)行事件檢測(cè)之前對(duì)文本進(jìn)行預(yù)處理能夠使檢測(cè)的結(jié)果更加準(zhǔn)確。文本預(yù)處理首先進(jìn)行噪聲過(guò)濾,采用NLPIR(natural language processing and information retrieval)分詞系統(tǒng)過(guò)濾掉無(wú)用文本,包括去除不含事件三要素[23-24]的博文、粉絲數(shù)在某一閾值以下的用戶,以及文本中包含的圖片網(wǎng)址鏈接、表情符號(hào)等。其次使用BosonNLP 情感詞典[25-26]過(guò)濾掉含情感的詞語(yǔ),如式(1)所示。最后對(duì)文本進(jìn)行規(guī)范。
其中,Se(n)為詞語(yǔ)的情感度,positive_word(ωi)為積極正面的情感詞語(yǔ)數(shù)量,negative_word(ωj)為消極負(fù)面的情感詞語(yǔ)數(shù)量。
1) 詞頻增長(zhǎng)率特征
在一個(gè)時(shí)間窗口內(nèi),詞頻特征在單詞頻率特性中考慮了高頻單詞,但沒(méi)有考慮單詞頻率的變化趨勢(shì)。如果某個(gè)事件剛剛發(fā)生,突發(fā)的單詞只在Ti時(shí)間窗口涌動(dòng),就不能通過(guò)單詞頻率以及引入的增長(zhǎng)率來(lái)重新提取突發(fā)正確的單詞,以識(shí)別意外單詞。本文綜合一些研究方法,計(jì)算詞語(yǔ)在某段時(shí)間Tm的頻率與之前的平均歷史頻率A m?1(ω)之和。
其中,f m(ω)表示詞ω在時(shí)間窗Tm下的詞頻。根據(jù)式(2),對(duì)多個(gè)連續(xù)時(shí)間段的詞語(yǔ)計(jì)算平均增長(zhǎng)率,能夠顯示出單詞頻率的波動(dòng)趨勢(shì)。
2) 用戶影響力
一般來(lái)說(shuō),擁有眾多粉絲的用戶發(fā)布的微博會(huì)更具影響力,相應(yīng)地這些用戶討論的事件有很大的潛力能成為突發(fā)事件,這會(huì)使計(jì)算出的突發(fā)度不夠準(zhǔn)確,少數(shù)高影響力的用戶會(huì)成為主導(dǎo)因素,一些普通用戶的影響力會(huì)被大幅度減弱。綜上所述,本文采用歸一化的方法計(jì)算用戶的影響力,定義用戶H=(Rep,Com,Fan,Type,Update),如式(3)所示。
其中,Rep 和Com 分別表示用戶一個(gè)月之內(nèi)轉(zhuǎn)發(fā)和評(píng)論微博數(shù)量;Fan 表示用戶的粉絲數(shù)量;Type 表示用戶的類型,不同的類型權(quán)重不同,官方認(rèn)證的微博權(quán)重為1,“大V”即粉絲數(shù)量多的微博權(quán)重為 0.7,普通用戶的微博權(quán)重為0.5;Update 表示用戶一個(gè)月之內(nèi)的更博數(shù),最小值不能為零。
在社交網(wǎng)絡(luò)上,用戶的粉絲數(shù)量越多,影響力越大,如明星所發(fā)布的微博在幾分鐘內(nèi)就有可能被幾十萬(wàn)人看到。因此,影響力越高的用戶對(duì)事件傳播速度的貢獻(xiàn)越大,其中出現(xiàn)詞語(yǔ)描述突發(fā)事件的可能性也越高。
3) 詞權(quán)重的計(jì)算
在突發(fā)事件中,與事件有關(guān)的微博會(huì)呈井噴式爆發(fā),突發(fā)詞會(huì)頻繁地出現(xiàn)在同一事件的不同文本中[26]。在微博短文本中,傳統(tǒng)TF-IDF 方法難以衡量關(guān)鍵詞與普通詞語(yǔ)的差異性,因此采用文獻(xiàn)[27]中的文檔頻率?倒文檔頻率(DF-IDF,document frequency-inverted document frequency)詞權(quán)重算法。對(duì)于網(wǎng)絡(luò)熱議的話題,單詞的DF 會(huì)上升;若發(fā)生突發(fā)事件,單詞的IDF 會(huì)呈指數(shù)形式上升。該算法彌補(bǔ)了TF-IDF 方法的缺點(diǎn),能準(zhǔn)確地計(jì)算詞權(quán)重。
式(4)為單詞j第t天的詞權(quán)重,與傳統(tǒng)TF-IDF不同,本文IDF 只限于近期微博(不超過(guò)一個(gè)月),為第t?τ?t天內(nèi)單詞j的平均DF,其表示第t天包含單詞j的博文。由于一般社會(huì)事件的關(guān)注度都會(huì)隨著時(shí)間而降低,不會(huì)超過(guò)兩周,因此單詞的時(shí)間段τ被設(shè)置為14。
為了能更好地得到一個(gè)突發(fā)詞,綜合用戶影響力和突發(fā)詞的重要性,突發(fā)度的計(jì)算式為
其中,wordj,t是單詞j在時(shí)間窗t內(nèi)的突發(fā)度;是包含單詞j的一條微博的發(fā)布者pn的影響力;Pj,t是在時(shí)間窗t內(nèi)包含單詞j的所有微博;N是時(shí)間窗的總數(shù)。突發(fā)度值高的被提取為突發(fā)詞。
為迅速獲取每日事件的信息,需要選取用于構(gòu)建關(guān)系圖的突發(fā)詞集合,利用突發(fā)詞集合構(gòu)建詞語(yǔ)關(guān)系圖。根據(jù)上述突發(fā)詞的提取方法,按突發(fā)度的高低排序,選擇突發(fā)度高的n個(gè)詞語(yǔ),過(guò)濾了含大量與事件無(wú)關(guān)的詞語(yǔ)。
假設(shè)從文本流中連續(xù)獲取邊緣序列,詞關(guān)系圖是無(wú)向的,定義為
其中,V是從文本流中提取的詞語(yǔ)集合,E是在文本滑動(dòng)窗口中與詞語(yǔ)相對(duì)應(yīng)的邊緣集合。具體來(lái)說(shuō),V中一個(gè)節(jié)點(diǎn)上具有相同含義的多個(gè)實(shí)體或動(dòng)詞。由于圖形隨著時(shí)間的變化,G中節(jié)點(diǎn)之間的邊緣權(quán)重將發(fā)生顯著變化。邊緣節(jié)點(diǎn)gi在時(shí)間ts邊緣權(quán)重定義為R=(gi,ts)。
給定2 個(gè)詞語(yǔ)矩陣ωi和ωj,通過(guò)余弦距離定義它們之間的語(yǔ)義相似性為
其中,vω是從word2vec 模型計(jì)算出的單詞的單位向量。
歸一化將具有表達(dá)式的維數(shù)轉(zhuǎn)換為無(wú)量綱的表達(dá)式后,ω將成為標(biāo)量,可將計(jì)算量簡(jiǎn)化。歸一化交叉相似度Dcc(ωi,ωj)定義如式(8)所示,其中表示單詞ωi的矩陣形式。
通過(guò)式(8)計(jì)算,得到詞語(yǔ)關(guān)系圖的相似矩陣,且維度為n(單詞ωi和ωj的相似度),相似度高的即為同義詞。然后使用word2vec 模型將多個(gè)同義詞合并到一個(gè)節(jié)點(diǎn)中。對(duì)于每個(gè)詞語(yǔ),遍歷詞語(yǔ)關(guān)系圖上的每個(gè)節(jié)點(diǎn),如果相似度超過(guò)閾值則將該詞語(yǔ)與存在的節(jié)點(diǎn)進(jìn)行比較,并按字典順序用前一個(gè)短語(yǔ)表示。
對(duì)于微博文本中多個(gè)詞語(yǔ)同時(shí)出現(xiàn),本文通過(guò)最大化而非累積來(lái)更新該詞語(yǔ)的權(quán)重。遍歷所有文本后,通過(guò)將權(quán)重加在一起來(lái)合并它們。熱門(mén)話題的影響會(huì)隨著時(shí)間的流逝而逐漸消失,因此單詞共現(xiàn)度在很長(zhǎng)一段時(shí)間內(nèi)都不會(huì)穩(wěn)定下來(lái)。為了模擬時(shí)間效應(yīng),引入衰減因子λ來(lái)調(diào)節(jié)單詞共現(xiàn)度隨時(shí)間衰減的速率。
其中,f(ωi,ωj)表示單詞ωi和ωj在某時(shí)間段內(nèi)微博文本中同時(shí)出現(xiàn)的次數(shù),f(ωi)表示詞語(yǔ)ωi和ωj在時(shí)間窗內(nèi)出現(xiàn)的總次數(shù)。共現(xiàn)度顯示了單詞共同出現(xiàn)的頻率,數(shù)值越高,描述同一事件的概率越大。
譜聚類算法從數(shù)據(jù)的親和力矩陣(即相似性矩陣)得出拉普拉斯矩陣的特征向量,并將數(shù)據(jù)轉(zhuǎn)換為新的維度,然后可以使用其他最小化失真度量的算法對(duì)其進(jìn)行圖劃分。在這種情況下,親和矩陣證明了數(shù)據(jù)點(diǎn)之間的成對(duì)相似性,并用于克服由于數(shù)據(jù)分布缺乏凸度而帶來(lái)的困難。具體而言,與K 均值不同,譜聚類不會(huì)在數(shù)據(jù)上施加超球形聚類,并且在大多數(shù)情況下,甚至在數(shù)據(jù)點(diǎn)不對(duì)應(yīng)于凸區(qū)域時(shí),也可以獲得令人滿意的聚類結(jié)果。多歸屬譜聚類的圖劃分流程如圖2 所示。
圖2 多歸屬譜聚類的圖劃分流程
1) 目標(biāo)函數(shù)建立
為了對(duì)單詞關(guān)系圖進(jìn)行最優(yōu)劃分,本文首先運(yùn)用子圖歸屬度向量表示詞語(yǔ)對(duì)劃分子圖的歸屬程度,使子圖內(nèi)部的單詞盡量相似,定義為
其中,ui,r表示單詞ωi對(duì)第r個(gè)子圖的歸屬程度,0≤ui,r≤1,L表示詞語(yǔ)的數(shù)量。每個(gè)子圖包含一個(gè)事件的突發(fā)詞,而一個(gè)突發(fā)詞能對(duì)應(yīng)多個(gè)事件,即對(duì)應(yīng)多個(gè)子圖,則不同子圖會(huì)包含同一個(gè)單詞。
NJW 方法[28]使用歸一化相似度矩陣作為圖拉普拉斯矩陣,并通過(guò)考慮對(duì)應(yīng)于最大特征值的特征向量,基于歸一化割準(zhǔn)則優(yōu)化分區(qū)建立目標(biāo)函數(shù)P如式(11)所示。式(11)的目標(biāo)是同時(shí)考慮最小化cut邊和劃分平衡,即優(yōu)化不同子圖的歸屬度向量ur,以免cut 出一個(gè)單獨(dú)的詞語(yǔ)。W是詞語(yǔ)關(guān)系圖頂點(diǎn)之間的相似度矩陣,D是相應(yīng)的度矩陣。
目標(biāo)函數(shù)P的最小化可轉(zhuǎn)化為拉普拉斯矩陣特征值的最大化,使用U表示所有子圖的歸屬度矩陣,其定義為
2) 歸屬度矩陣近似優(yōu)化
向量矩陣Ue按數(shù)學(xué)方法進(jìn)行旋轉(zhuǎn)變換,在不改變向量大小的情況下轉(zhuǎn)換向量原有的方向,保持原矩陣的特性。轉(zhuǎn)換之后得到單詞的最優(yōu)歸屬度矩陣Uopt,即Uopt=U eR,其中R為旋轉(zhuǎn)矩陣,屬于單位正交矩陣。由于在連續(xù)域空間中優(yōu)化Uopt無(wú)法得到最優(yōu)結(jié)果,屬于NP 難問(wèn)題,因此本文運(yùn)用近似方法在離散域中對(duì)其優(yōu)化以期得到最好的結(jié)果,近似矩陣
近似方法通過(guò)衡量近似矩陣Ua與最優(yōu)歸屬度矩陣Uopt的誤差進(jìn)行優(yōu)化,即在約束條件下如何使誤差最小的問(wèn)題。Ua與Uopt通過(guò)弗羅貝尼烏斯范數(shù)(Frobenius norm)進(jìn)行表示,即
其中,(Π,Ω,Ξ)是矩陣的奇異值分解矩陣,矩陣Π和Ξ均是正交矩陣。使用迭代的方法進(jìn)行求解,具體算法偽代碼如算法1 所示。
算法1優(yōu)化歸屬矩陣
輸入n,m,U
輸出Uopt
3) 聚類個(gè)數(shù)自適應(yīng)方法
譜聚類劃分將微博文本數(shù)據(jù)聚類轉(zhuǎn)換為單詞關(guān)系圖的多向劃分問(wèn)題,解決圖劃分的關(guān)鍵是找到準(zhǔn)確的聚類個(gè)數(shù)。當(dāng)確定了聚類的個(gè)數(shù)時(shí),能夠優(yōu)化通過(guò)近似方法求出的近似矩陣值,并進(jìn)一步精確該值。在本文中,為了使算法更適用于突發(fā)事件檢測(cè)的實(shí)時(shí)應(yīng)用場(chǎng)景,最優(yōu)聚類個(gè)數(shù)由特征值的下降程度決定,由于下降程度無(wú)法精確,因此是近似估計(jì)。
算法2 給出了確定聚類個(gè)數(shù)的偽代碼。使用該方法計(jì)算最優(yōu)聚類個(gè)數(shù)的線性時(shí)間復(fù)雜度為O(L),可以及時(shí)地檢測(cè)出實(shí)時(shí)事件。運(yùn)用歸屬度矩陣優(yōu)化的方法劃分單詞關(guān)系圖,由算法得出的最優(yōu)聚類個(gè)數(shù)是多少,則劃分子圖的個(gè)數(shù)就是多少。
算法2使用特征值向量?jī)?yōu)化聚類個(gè)數(shù)
4) 突發(fā)事件識(shí)別
子圖劃分之后,每個(gè)子圖包含若干個(gè)突發(fā)詞,這些突發(fā)詞組成一個(gè)事件,即每個(gè)子圖代表一個(gè)事件的集合。判斷事件是否為突發(fā)事件由對(duì)應(yīng)的單詞關(guān)系圖結(jié)構(gòu)是否發(fā)生變化決定,即突發(fā)事件發(fā)生時(shí),短時(shí)間內(nèi)會(huì)出現(xiàn)與該事件有關(guān)的大量微博文本,而這些文本中會(huì)包含高突發(fā)度的詞語(yǔ),并出現(xiàn)在構(gòu)建關(guān)系圖的單詞集合中。此時(shí),發(fā)生變化的詞語(yǔ)會(huì)顯示突發(fā)性,構(gòu)成新的單詞關(guān)系圖。因此,在關(guān)系圖中單詞突發(fā)度發(fā)生改變代表突發(fā)事件產(chǎn)生,偽代碼如算法3 所示。
算法3判定突發(fā)事件
算法4 說(shuō)明了突發(fā)事件與文本聚類簇的映射關(guān)系,比較了事件關(guān)鍵詞集合和聚類簇的關(guān)系,通過(guò)循環(huán),找出與事件關(guān)鍵詞集合相似度最大的文本聚類簇,即為突發(fā)事件的具體信息。
算法4將子圖結(jié)果映射到文本聚類簇
輸入subgraph,cluster
輸出eventcluster
本文使用的數(shù)據(jù)集來(lái)自新浪微博,通過(guò)模擬微博登錄來(lái)爬取微博數(shù)據(jù),采集了2019 年11 月1 日至11 月30 日的微博數(shù)據(jù),這些數(shù)據(jù)沒(méi)有進(jìn)行事件標(biāo)注。由于微博不僅包含官方新聞事件,也包含娛樂(lè)新聞事件[29-31],因此本文以官方新聞熱議事件作為微博事件的參考。對(duì)于所有數(shù)據(jù)集,本文使用3.1 節(jié)方法進(jìn)行文本預(yù)處理。所有實(shí)驗(yàn)均在具有8 GB 內(nèi)存并在Windows 8 上運(yùn)行的4.00 GHz Intel CPU 上進(jìn)行。本文實(shí)現(xiàn)了該算法,以獲取準(zhǔn)確的突發(fā)事件并驗(yàn)證檢測(cè)是否成功。
鑒于微博數(shù)據(jù)中存在的大量噪聲,本文對(duì)數(shù)據(jù)進(jìn)行噪聲過(guò)濾以及情感過(guò)濾,經(jīng)處理后的微博存儲(chǔ)結(jié)構(gòu)如表1 所示。
表1 處理后的微博存儲(chǔ)結(jié)構(gòu)
為了測(cè)試突發(fā)詞提取模型的效果,從數(shù)據(jù)庫(kù)中抽取2019 年11 月20 日到2019 年11 月30 日的數(shù)據(jù)。首先分析時(shí)間窗口參數(shù)對(duì)突發(fā)事件檢測(cè)結(jié)果的影響,如圖3(a)所示;然后分析提取突發(fā)詞數(shù)量的多少是否會(huì)影響實(shí)驗(yàn)結(jié)果,如圖3(b)所示。
如圖3(a)所示,當(dāng)時(shí)間窗口長(zhǎng)度過(guò)小時(shí),事件的準(zhǔn)確率和召回率較小,IDF 僅在短期內(nèi)被平均化,使關(guān)鍵詞提取模型受到干擾,并且容易獲取到大量毫無(wú)關(guān)聯(lián)的關(guān)鍵詞。當(dāng)時(shí)間窗口長(zhǎng)度在2~14 時(shí),準(zhǔn)確率和召回率都呈逐漸上升趨勢(shì),無(wú)關(guān)聯(lián)的關(guān)鍵詞被剔除,對(duì)檢測(cè)效果產(chǎn)生正面影響。當(dāng)時(shí)間窗口長(zhǎng)度繼續(xù)增加,準(zhǔn)確率繼續(xù)上升,召回率下降較快。為使準(zhǔn)確率和召回率都在一個(gè)大的數(shù)值范圍上,時(shí)間窗口長(zhǎng)度取14。由圖3(b)可知,關(guān)鍵詞數(shù)量較少,無(wú)法檢測(cè)到突發(fā)事件,因此召回率和準(zhǔn)確率都比較低。當(dāng)關(guān)鍵詞數(shù)量從2%增長(zhǎng)到4.5%時(shí),召回率和準(zhǔn)確率都達(dá)到了頂峰,而當(dāng)關(guān)鍵詞數(shù)量繼續(xù)增加時(shí),太多的關(guān)鍵詞容易引起混亂,使檢測(cè)效果變差(準(zhǔn)確率下降)。因此為了使檢測(cè)效果最好,使用整個(gè)數(shù)據(jù)集4.5%的詞語(yǔ)來(lái)提取突發(fā)詞。
1) 單詞關(guān)系圖參數(shù)測(cè)試
詞關(guān)系圖是進(jìn)行譜聚類圖劃分的基礎(chǔ),據(jù)此可分析基于圖聚類的事件檢測(cè)效果。圖4 分析了關(guān)系圖節(jié)點(diǎn)近鄰數(shù)的大小對(duì)突發(fā)事件檢測(cè)效果的影響。當(dāng)節(jié)點(diǎn)近鄰數(shù)較小時(shí),即突發(fā)詞之間的關(guān)系不足,極大地影響了事件的檢測(cè)效果。直到數(shù)量達(dá)到6 時(shí),召回率和準(zhǔn)確率都是最大值,事件檢測(cè)的性能才最好。
圖3 不同突發(fā)詞提取參數(shù)對(duì)事件檢測(cè)的影響
圖4 詞關(guān)系圖節(jié)點(diǎn)近鄰數(shù)對(duì)事件檢測(cè)性能的影響
圖5 顯示了突發(fā)詞相似度閾值的變化對(duì)突發(fā)事件檢測(cè)性能的影響??梢园l(fā)現(xiàn),事件的準(zhǔn)確率隨著相似度閾值的增大而上升,表明突發(fā)詞的相似度越高,越容易檢測(cè)到突發(fā)事件。但閾值太大,會(huì)過(guò)濾掉一些相似度較小的突發(fā)詞,導(dǎo)致事件的召回率較低。考慮到準(zhǔn)確率和召回率的平衡,選擇兩者交點(diǎn)處的閾值,即1.2。
根據(jù)上述結(jié)果調(diào)好參數(shù)之后,選取突發(fā)度較高的8 個(gè)單詞按順序構(gòu)建單詞關(guān)系圖,8 個(gè)單詞的關(guān)系網(wǎng)絡(luò)如圖6 所示。實(shí)線表示2 個(gè)詞語(yǔ)之間相似度高(在0.7 以上),細(xì)虛線表示詞語(yǔ)之間相似度較低,粗虛線表示通過(guò)word2vec 模型連接的邊。
圖5 相似度閾值對(duì)事件檢測(cè)性能的影響
圖6 詞關(guān)系圖效果示意
2) 多歸屬譜聚類效果測(cè)試
利用2019 年11 月1 日至11 月30 日的微博數(shù)據(jù),根據(jù)提出的詞的突發(fā)度計(jì)算式得到了詞的突發(fā)度,突發(fā)關(guān)鍵詞的熱度頻率如圖7 所示,本文對(duì)11 月的突發(fā)事件進(jìn)行分析。在圖7中,這些關(guān)鍵詞的趨勢(shì)是相同的。同樣,與不同事件相關(guān)的相同關(guān)鍵詞也具有此特征,如圖8所示。事件4 與突發(fā)詞1、2、3 相關(guān),事件2與突發(fā)詞1、4 相關(guān)。這2 個(gè)圖揭示了關(guān)于不同事件的關(guān)鍵詞彼此之間具有某些語(yǔ)義相關(guān)性,并且相互影響。
最終選取突發(fā)度排名前70 的突發(fā)詞構(gòu)建詞關(guān)系圖,得到58 個(gè)詞語(yǔ)組成的關(guān)系圖。再利用MASCA(multi-attribute spectral clustering algorithm)對(duì)關(guān)系圖進(jìn)行劃分,并且給出了圖劃分的最優(yōu)個(gè)數(shù)為7。
表2 顯示了突發(fā)事件檢測(cè)算法中事件相似度閾值參數(shù)μ的各項(xiàng)指標(biāo),它能衡量檢測(cè)突發(fā)事件的難易程度,參數(shù)值越高,檢測(cè)到的突發(fā)事件數(shù)量就越多。為了選擇最佳的參數(shù)值,當(dāng)μ為0.5、0.6、0.7、0.8、0.9 時(shí),計(jì)算相對(duì)應(yīng)的指標(biāo)大小,并對(duì)其進(jìn)行比較。
圖7 突發(fā)關(guān)鍵詞的熱度頻率
圖8 突發(fā)事件的熱度頻率
表2 閾值參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
Precision、Recall 和F1 在不同相似度閾值參數(shù)μ下的變化趨勢(shì)如圖9 所示。Precision 隨著μ的增加而逐漸下降,0.7~0.9 下降幅度較大;與之相反,μ越大,Recall 也隨著增大,0.8~0.9 基本保持不變;而F1 的變化趨勢(shì)是先增大然后減小,在μ=0.7 時(shí),F(xiàn)1 值最大,此時(shí)突發(fā)事件檢測(cè)算法達(dá)到最優(yōu)的效果,與之對(duì)應(yīng)的Precision、Recall 分別為82.57%、87.95%。因此在檢測(cè)突發(fā)事件時(shí),事件相似度閾值參數(shù)μ取0.7。
圖9 突發(fā)事件檢測(cè)效果
在國(guó)內(nèi)微博突發(fā)事件檢測(cè)中,尚沒(méi)有識(shí)別手動(dòng)標(biāo)記的語(yǔ)料庫(kù)[32-35]。因此,結(jié)合使用Search Billboard中的微博和微博數(shù)據(jù)本身,可以手動(dòng)注釋30 天的緊急情況,包括32 個(gè)事件。近一個(gè)月內(nèi)社交網(wǎng)絡(luò)上熱議最多的7 個(gè)突發(fā)事件在表3 顯示,包含了事件的基本信息,即事件編號(hào)、與事件相符的子圖詞語(yǔ)數(shù)量、單詞重合率。
表3 部分突發(fā)事件檢測(cè)結(jié)果
與單詞重合率代表子圖中包含了多少突發(fā)事件的關(guān)鍵詞不同,子圖單詞重合率是衡量子圖與事件是否相符的指標(biāo)。該值越大,子圖與事件的相符程度越高,包含事件關(guān)鍵詞的數(shù)量就越多。從突發(fā)事件檢測(cè)的Recall 值來(lái)看,子圖單詞都能描述對(duì)應(yīng)事件的發(fā)展經(jīng)過(guò),同時(shí)子圖單詞重合率平均值為0.892 9,表明本文提出的算法能準(zhǔn)確地劃分單詞關(guān)系圖,并且被劃分的子圖內(nèi)單詞集合能對(duì)事件進(jìn)行簡(jiǎn)單的表達(dá)。
由事件檢測(cè)結(jié)果知,本文提出的突發(fā)事件檢測(cè)算法能準(zhǔn)確地識(shí)別突發(fā)事件,并且通過(guò)不同時(shí)刻單詞關(guān)系圖的變化反映事件在不同時(shí)間的演變趨勢(shì),說(shuō)明本文提出的突發(fā)事件檢測(cè)方法檢測(cè)事件更全面。
本節(jié)將本文與其他文獻(xiàn)的方法進(jìn)行對(duì)比,使用標(biāo)準(zhǔn)指標(biāo)Precision、Recall 和F1 評(píng)估量化模型的有效性,計(jì)算式為
其中,Bcorrect 為系統(tǒng)中識(shí)別正確的突發(fā)事件個(gè)數(shù),Bnumber 為數(shù)據(jù)集中事件的總數(shù)量,Boutout 為數(shù)據(jù)集手動(dòng)標(biāo)注的突發(fā)事件個(gè)數(shù)。
1) 指標(biāo)對(duì)比
文獻(xiàn)[29]提到的基于詞共現(xiàn)圖的方法將微博數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)主題詞間的共現(xiàn)度構(gòu)建詞共現(xiàn)圖,把詞共現(xiàn)圖中每個(gè)不連通的簇集看成一個(gè)新聞話題進(jìn)行突發(fā)事件檢測(cè),當(dāng)共現(xiàn)度閾值為0.6 時(shí)F1 值最高,達(dá)到0.661 5,Precision 是0.645 4,Recall 是0.77。文獻(xiàn)[20]通過(guò)博文的轉(zhuǎn)發(fā)關(guān)系、跟隨關(guān)系和轉(zhuǎn)發(fā)時(shí)間創(chuàng)建消息傳遞圖,然后從圖結(jié)構(gòu)方面提取時(shí)間演化特征識(shí)別突發(fā)事件,當(dāng)時(shí)間演化聚類距離閾值為0.8 時(shí),F(xiàn)1 值最高,達(dá)到0.766 8,Precision 是0.736 4,Recall 是0.805 0。將其與本文方法的Precision、Recall、F1 值相比較,如圖10 所示。
圖10 實(shí)驗(yàn)結(jié)果對(duì)比
由圖10 可知,本文方法在Precision、Recall與F1 值上都要優(yōu)于其他2 種方法,這是由于本文為了解決微博的時(shí)間特性專門(mén)設(shè)計(jì)了一種新型詞語(yǔ)突發(fā)度以及詞語(yǔ)矩陣相似度的計(jì)算方法,使提取的突發(fā)詞全面準(zhǔn)確,能夠更好地對(duì)突發(fā)事件進(jìn)行描述。并且本文采用的基于多歸屬譜聚類的圖劃分的事件檢測(cè)方法能夠使突發(fā)詞構(gòu)建的共現(xiàn)圖包含較大較全的信息量,提高檢測(cè)的準(zhǔn)確率。
2) 事件檢測(cè)時(shí)延
檢測(cè)時(shí)延是指事件發(fā)生到檢測(cè)到事件之間的時(shí)間間隔,它反映了算法的效率[36-38]。本文選擇30 個(gè)通過(guò)給定5 種方法成功檢測(cè)到的事件。圖11 顯示了突發(fā)事件檢測(cè)時(shí)延對(duì)比。在所有方法中,本文方法花費(fèi)最少的時(shí)間進(jìn)行事件檢測(cè)。由于此數(shù)據(jù)集中每個(gè)事件的稀疏分布,因此所有方法比由預(yù)定義事件組成的其他數(shù)據(jù)集花費(fèi)的時(shí)間更長(zhǎng),說(shuō)明本文提出的突發(fā)事件檢測(cè)方法在較短的時(shí)間內(nèi)能夠檢測(cè)到結(jié)果,能使相關(guān)人員及時(shí)采取措施進(jìn)行控制。
圖11 突發(fā)事件檢測(cè)時(shí)延對(duì)比
值得注意的是,本文發(fā)現(xiàn)實(shí)驗(yàn)中其他方法的召回率比MASCA 低得多,檢查了真實(shí)數(shù)據(jù)后發(fā)現(xiàn),關(guān)系圖中最早和最新的事件不一定彼此相似。但是其他方法將它們視為無(wú)關(guān)事件,因?yàn)樗鼪](méi)有達(dá)到閾值。本文方法獲得了由最相似事件之前已經(jīng)構(gòu)造的舊關(guān)系圖,并將本文的候選事件放入其中,因此事件不需要足夠相似就可以放在一個(gè)圖中,這會(huì)增加召回率。
本文提出了一種結(jié)合詞相關(guān)性特征和MASCA算法的模型,用于檢測(cè)微博流的中文突發(fā)事件。在此模型中,引入了增量word2vec 以在檢測(cè)過(guò)程中合并同義詞,以詞語(yǔ)的基本特征為基礎(chǔ),通過(guò)使用DF-IDF 和用戶影響力提取事件的突發(fā)詞,結(jié)合詞語(yǔ)關(guān)系圖和事件的相似性度量來(lái)進(jìn)行圖劃分。當(dāng)任務(wù)完成時(shí),本文不僅可以檢測(cè)突發(fā)事件,還可以提取人們對(duì)突發(fā)事件的把握程度。實(shí)驗(yàn)結(jié)果表明,本文方法具有很高的性能和有效性。為了提高性能,本文對(duì)檢測(cè)模型的相關(guān)參數(shù)進(jìn)行調(diào)整,得到了最優(yōu)檢測(cè)性能,當(dāng)μ=0.7 時(shí),Precision、Recall 與F1 值都有良好的效果,本文方法在精度、召回率和時(shí)延方面均優(yōu)于其他對(duì)比方法。
由于社交網(wǎng)絡(luò)不僅是文本信息,也有其他非結(jié)構(gòu)數(shù)據(jù)。因此,在未來(lái)的工作中,會(huì)繼續(xù)對(duì)突發(fā)事件的檢測(cè)模型進(jìn)行優(yōu)化,并加入更多的其他模態(tài)數(shù)據(jù),使檢測(cè)更加準(zhǔn)確,并能使用多方面的信息對(duì)事件進(jìn)行描述。