亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于重點(diǎn)博文的突發(fā)事件檢測(cè)方法

        2020-02-18 15:19:58李東昊楊文忠仲麗君張志豪王雪穎
        關(guān)鍵詞:用戶檢測(cè)方法

        李東昊,楊文忠,仲麗君,張志豪,王雪穎

        新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊830046

        1 引言

        隨著移動(dòng)終端和移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,人們不再受時(shí)間地域的限制,可以方便快捷地接入互聯(lián)網(wǎng),隨時(shí)隨地地獲取信息、表達(dá)情感。社交網(wǎng)絡(luò)中每天都會(huì)產(chǎn)生大量的數(shù)據(jù)信息,這使得利用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行事件分析成為熱點(diǎn)。例如2017年11月的紅黃藍(lán)幼兒園事件、2018年7月長(zhǎng)生疫苗事件等,很多事件通過(guò)網(wǎng)絡(luò)首先被爆料出來(lái),然后才吸引主流媒體關(guān)注并報(bào)道。在這段時(shí)期,公眾易受不良信息的影響,會(huì)對(duì)某些社會(huì)問(wèn)題或事件產(chǎn)生強(qiáng)烈的主觀情感并通過(guò)發(fā)表微博、點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等社交行為表達(dá)出來(lái),帶有負(fù)面情感的信息在社交群體中相互傳播、相互作用,從而導(dǎo)致新一輪輿情爆發(fā),這種非常態(tài)的網(wǎng)絡(luò)輿情通過(guò)負(fù)面情緒的擴(kuò)散,會(huì)隨著時(shí)間的推移逐漸演變成一種特殊的社會(huì)壓力。突發(fā)事件具有突發(fā)性、導(dǎo)向性,如果不加以監(jiān)管,其引發(fā)的輿論信息會(huì)隨著互聯(lián)網(wǎng)四處傳播,不僅會(huì)污染網(wǎng)絡(luò)環(huán)境,還會(huì)造成社會(huì)恐慌,影響社會(huì)穩(wěn)定。文獻(xiàn)[1]發(fā)現(xiàn)當(dāng)突發(fā)事件發(fā)生后,社交網(wǎng)絡(luò)上的討論總是爆發(fā)在傳統(tǒng)新聞媒體的報(bào)道之前,這為社交網(wǎng)絡(luò)下突發(fā)事件檢測(cè)打下了基礎(chǔ),許多學(xué)者展開了基于社交網(wǎng)絡(luò)的事件檢測(cè)研究。

        由于微博事件發(fā)展變化迅速,表現(xiàn)形式復(fù)雜,從海量實(shí)時(shí)的微博數(shù)據(jù)流中檢測(cè)突發(fā)事件仍然是事件檢測(cè)領(lǐng)域中具有挑戰(zhàn)性的問(wèn)題?;谕话l(fā)事件檢測(cè)的研究已經(jīng)廣泛應(yīng)用在結(jié)構(gòu)化的文本上,如新聞數(shù)據(jù)、博客帖子、文章報(bào)道等[2]。微博信息具有用戶情感傾向,與結(jié)構(gòu)化語(yǔ)言不同,微博文本長(zhǎng)短不一,口語(yǔ)化嚴(yán)重,同時(shí)混合多種信息,包括不同語(yǔ)言、符號(hào)圖片等,這給基于微博的突發(fā)事件檢測(cè)帶來(lái)了極大的困難。

        2 研究現(xiàn)狀

        目前社交網(wǎng)絡(luò)中突發(fā)事件檢測(cè)方法總體上分為三大類:(1)通過(guò)計(jì)算時(shí)間間隔內(nèi)的社交網(wǎng)絡(luò)用戶發(fā)布內(nèi)容的相似性進(jìn)行聚類,從而進(jìn)行突發(fā)事件檢測(cè),如文獻(xiàn)[1,3-4]。(2)通過(guò)計(jì)算從社交網(wǎng)絡(luò)數(shù)據(jù)中獲得的具有突發(fā)特征的詞,統(tǒng)計(jì)突發(fā)詞的共現(xiàn)度,進(jìn)行突發(fā)事件的檢測(cè),如文獻(xiàn)[5-7]。(3)引入情感分析技術(shù),利用時(shí)間窗口間的差異性進(jìn)行事件檢測(cè),通過(guò)判斷兩個(gè)時(shí)間間隔內(nèi)的特征變化(情感傾向、情感符號(hào))進(jìn)行突發(fā)事件檢測(cè)。如文獻(xiàn)[8]根據(jù)相鄰時(shí)間窗口內(nèi)情感符號(hào)的態(tài)勢(shì)變化進(jìn)行突發(fā)事件檢測(cè)。文獻(xiàn)[9]計(jì)算兩個(gè)相鄰時(shí)間窗口內(nèi)情感的相對(duì)熵進(jìn)行事件檢測(cè)。文獻(xiàn)[2]將獲取的Twitter數(shù)據(jù)經(jīng)過(guò)情感分析后,通過(guò)擬合的指數(shù)分布模型計(jì)算日本地震發(fā)生的概率。文獻(xiàn)[10]考慮到事件空間、時(shí)間或主題信息的區(qū)別,提出一種基于事件的演化(考慮事件增長(zhǎng))進(jìn)行檢測(cè)的方法,通過(guò)事件演化特征可以識(shí)別出不同的Twitter事件集群,應(yīng)用在75個(gè)品牌Twitter銷售數(shù)據(jù)中,并嘗試預(yù)測(cè)銷售中出現(xiàn)的事件,得出帶有情緒的博文能夠提高對(duì)銷售事件預(yù)測(cè)的準(zhǔn)確率。文獻(xiàn)[11]結(jié)合微博內(nèi)容和社交關(guān)系提出一種基于用戶興趣的微博話題檢測(cè)模型,實(shí)驗(yàn)證明能夠有效檢測(cè)出突發(fā)事件。

        突發(fā)事件檢測(cè)方法建立在對(duì)實(shí)時(shí)獲取的數(shù)據(jù)流進(jìn)行分析的基礎(chǔ)上,實(shí)時(shí)獲取全局的微博數(shù)據(jù)流難度較大,而且在海量的社交網(wǎng)絡(luò)數(shù)據(jù)中存在許多噪聲數(shù)據(jù),這會(huì)降低事件檢測(cè)的準(zhǔn)確性與時(shí)效性。鑒于此,許多專家學(xué)者采用限定地域的方式精簡(jiǎn)數(shù)據(jù)集,再進(jìn)行事件檢測(cè)。

        文獻(xiàn)[5]首先對(duì)地域進(jìn)行劃分,然后結(jié)合詞頻、關(guān)聯(lián)用戶、博文、社交行為等特征進(jìn)行突發(fā)事件檢測(cè),提高了檢測(cè)的準(zhǔn)確率。但是,基于地理位置的博文數(shù)量較少,同時(shí)突發(fā)事件除了會(huì)引起當(dāng)?shù)厝说膹V泛討論,還會(huì)借助社交網(wǎng)絡(luò)的影響力,迅速蔓延,引發(fā)全網(wǎng)的討論。基于地域的方法通過(guò)地理位置過(guò)濾掉噪聲信息,單一地根據(jù)事件發(fā)生地域的社交網(wǎng)絡(luò)信息進(jìn)行突發(fā)事件檢測(cè),縮小了數(shù)據(jù)集,減少了計(jì)算量,但忽略了在突發(fā)事件檢測(cè)中至關(guān)重要卻又不包含地理位置的信息。

        文獻(xiàn)[6]提出了一種核心詞加從屬詞的方法對(duì)微博突發(fā)事件進(jìn)行檢測(cè)。收集2012年7月到11月的30萬(wàn)條微博數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,用核心詞與從屬詞表示微博,通過(guò)LDA(Latent Dirichlet Allocation)提取主題特征,采用凝聚的層次聚類方式檢測(cè)突發(fā)事件。在實(shí)時(shí)事件的檢測(cè)上表現(xiàn)出了較好的性能,但是對(duì)于檢測(cè)到的事件,需要借助搜索引擎以突發(fā)詞檢索相關(guān)報(bào)道的方式,對(duì)事件進(jìn)行分析與描述,降低了時(shí)效性。

        文獻(xiàn)[12]提出GeoBurst方法進(jìn)行突發(fā)事件檢測(cè),對(duì)內(nèi)容完整、語(yǔ)法明確的博文,通過(guò)TFIDF權(quán)重計(jì)算出突發(fā)詞,采用隨機(jī)游走的方式進(jìn)行相似度檢測(cè),對(duì)于滿足閾值條件的博文,根據(jù)地域條件和語(yǔ)義條件進(jìn)行聚類,得到候選事件集,將與突發(fā)詞聯(lián)系密切的博文作為描述事件的背景知識(shí),對(duì)聚類得到的地域事件簇進(jìn)行事件描述。實(shí)驗(yàn)表明該方法在時(shí)間與空間利用度上均有較好的效果。通過(guò)博文輔助突發(fā)詞進(jìn)行事件的描述,增加了事件檢測(cè)的準(zhǔn)確性與可描述性,但是通過(guò)突發(fā)詞確定描述突發(fā)事件的博文需要人工選擇。

        研究地域事件所能使用的數(shù)據(jù)較少,帶有地理標(biāo)記的微博數(shù)據(jù)僅占總數(shù)據(jù)量的2%[6],擴(kuò)充數(shù)據(jù)集的方式也僅僅是通過(guò)微博內(nèi)容的地域關(guān)鍵字進(jìn)行地域微博數(shù)據(jù)集的擴(kuò)充。與局部地域事件檢測(cè)不同,突發(fā)事件由于其顯著的影響力能夠在短時(shí)間內(nèi)通過(guò)社交網(wǎng)絡(luò)擴(kuò)散開來(lái),與地域無(wú)關(guān)的引發(fā)公眾關(guān)注并廣泛參與討論的突發(fā)事件的相關(guān)微博數(shù)能夠在短期井噴,并隨著事件的發(fā)展變化,數(shù)量發(fā)生進(jìn)一步的變化。因此直接應(yīng)用傳統(tǒng)的限定地域的事件檢測(cè)方法具有局限性,準(zhǔn)確率與召回率較低,同時(shí)還要考慮如何過(guò)濾日常發(fā)生的事件。

        針對(duì)社交網(wǎng)絡(luò)的突發(fā)事件檢測(cè)研究,與傳統(tǒng)事件檢測(cè)相比存在以下問(wèn)題:

        (1)突發(fā)事件的判定沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。無(wú)論是通過(guò)基于突發(fā)事件特征的突發(fā)詞聚類,還是基于內(nèi)容相似度的博文聚類,在從潛在的事件集中挖掘突發(fā)事件時(shí),均采用人工判斷的方式進(jìn)行突發(fā)事件的檢測(cè),沒(méi)有對(duì)事件的突發(fā)性進(jìn)行定量分析。

        (2)無(wú)法兼顧全局事件和局部事件。局部突發(fā)事件受有效數(shù)據(jù)較少的影響,容易被大量噪聲數(shù)據(jù)淹沒(méi);全局突發(fā)事件檢測(cè),從海量數(shù)據(jù)中檢測(cè)事件發(fā)生與否,受到數(shù)據(jù)采集困難的限制,無(wú)法獲得全面實(shí)時(shí)的海量數(shù)據(jù)。

        現(xiàn)有的突發(fā)事件檢測(cè)研究中均沒(méi)有考慮過(guò)博文影響力對(duì)突發(fā)事件的貢獻(xiàn)度,在處理時(shí)間間隔內(nèi)的微博數(shù)據(jù)時(shí),僅通過(guò)計(jì)算詞頻的變化來(lái)反映突發(fā)事件的爆發(fā)特性,存在噪聲數(shù)據(jù)的干擾,具有偶然性,導(dǎo)致事件檢測(cè)的效果不夠理想。因此,本文在分析社交網(wǎng)絡(luò)中突發(fā)事件特點(diǎn)的基礎(chǔ)上,以微博突發(fā)事件數(shù)據(jù)集的構(gòu)建為核心,提出了一種基于重點(diǎn)微博識(shí)別的突發(fā)事件檢測(cè)方法。通過(guò)計(jì)算詞的突發(fā)度,展開了基于突發(fā)詞與相關(guān)博文相結(jié)合的突發(fā)事件檢測(cè)的研究,通過(guò)關(guān)聯(lián)重點(diǎn)微博數(shù)據(jù)與突發(fā)詞判斷潛在事件的突發(fā)性,最后從準(zhǔn)確率、召回率、時(shí)效性三方面進(jìn)行方法的有效性分析。

        3 突發(fā)事件檢測(cè)框架

        由于突發(fā)事件具有突發(fā)性、隨機(jī)性的特點(diǎn),單一的特征無(wú)法準(zhǔn)確地檢測(cè)出突發(fā)事件,因此針對(duì)社交網(wǎng)絡(luò)中突發(fā)事件的檢測(cè)目前常采用多特征融合的方法,從多個(gè)角度出發(fā),描述、檢測(cè)社交網(wǎng)絡(luò)突發(fā)事件。

        本文提出考慮博文影響力的突發(fā)事件檢測(cè)方法(Key Burst Database,KBD),目的在于通過(guò)重點(diǎn)微博信息,挖掘突發(fā)詞,構(gòu)建潛在突發(fā)事件集,進(jìn)行突發(fā)事件檢測(cè)。為此,著重解決以下幾個(gè)問(wèn)題:

        (1)重點(diǎn)微博的判斷以及如何從海量數(shù)據(jù)中獲取重點(diǎn)微博。

        (2)如何在時(shí)間間隔內(nèi)獲得突發(fā)詞。

        (3)如何通過(guò)突發(fā)詞構(gòu)建突發(fā)事件數(shù)據(jù)集。

        下面結(jié)合本文提出的突發(fā)事件檢測(cè)框架進(jìn)行說(shuō)明。

        不同的用戶表達(dá)自己看法的方式不同,用戶對(duì)于事件的看法,可以通過(guò)發(fā)布帶有主觀情感的原創(chuàng)內(nèi)容,以及對(duì)相關(guān)事件的微博進(jìn)行評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等一系列的社交行為表現(xiàn)出來(lái)。根據(jù)微博信息傳播的特性[13],不同微博對(duì)事件的影響力不同,因此事件檢測(cè),首先要識(shí)別出一些重要的博文,將其作為中心軸點(diǎn)。如用戶媒體發(fā)布的第一條相關(guān)事件的爆料微博,這種具有爆炸性信息的微博,一經(jīng)出現(xiàn)能夠迅速吸引大量用戶的關(guān)注,從而引發(fā)全網(wǎng)討論。因此,本文認(rèn)為重點(diǎn)微博的檢測(cè)是突發(fā)事件檢測(cè)的基礎(chǔ)。根據(jù)獲得的重點(diǎn)微博數(shù)據(jù),提取突發(fā)詞,利用突發(fā)詞,采用關(guān)鍵詞搜索的方式從海量數(shù)據(jù)集中構(gòu)建出潛在突發(fā)事件微博數(shù)據(jù)集。將突發(fā)事件檢測(cè)的重點(diǎn)放在構(gòu)建高質(zhì)量的潛在突發(fā)事件數(shù)據(jù)集上,不僅能夠減少噪音數(shù)據(jù)的干擾,同時(shí)還能降低數(shù)據(jù)量,提高檢測(cè)效率。本文將突發(fā)事件檢測(cè)系統(tǒng)分為7個(gè)模塊,突發(fā)事件檢測(cè)系統(tǒng)框架如圖1所示。

        圖1 突發(fā)事件檢測(cè)系統(tǒng)框架

        3.1 數(shù)據(jù)獲取

        本文以新浪微博數(shù)據(jù)為研究對(duì)象。由于新浪上線了新版的個(gè)人保護(hù)政策,導(dǎo)致通過(guò)使用申請(qǐng)開發(fā)者權(quán)限調(diào)用API的采集方式,無(wú)法獲得實(shí)時(shí)數(shù)據(jù)。采集到的信息數(shù)量及質(zhì)量不能夠支撐突發(fā)事件的檢測(cè),因此本文采用網(wǎng)絡(luò)爬蟲的方式,通過(guò)構(gòu)造訪問(wèn)請(qǐng)求,解析網(wǎng)頁(yè)信息來(lái)獲得本文的實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)包括微博用戶信息、微博內(nèi)容、微博發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)。

        3.2 數(shù)據(jù)預(yù)處理

        由于新浪微博的更新,用戶發(fā)布的微博內(nèi)容長(zhǎng)度不再限于140字以內(nèi),使得新浪微博可以發(fā)布的內(nèi)容更加豐富,包括圖像、鏈接、表情、符號(hào)在內(nèi)的信息會(huì)干擾到下一步的計(jì)算,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作。處理流程如下:

        (1)過(guò)濾內(nèi)容中的url、表情、圖片、符號(hào)。

        (2)過(guò)濾掉長(zhǎng)度低于4個(gè)字的微博,太短的微博無(wú)法表達(dá)事件信息。

        (3)對(duì)過(guò)濾后的數(shù)據(jù)分詞,去停用詞。

        3.3 重點(diǎn)微博識(shí)別

        微博用戶在社交網(wǎng)絡(luò)中談?wù)撏话l(fā)事件的同時(shí),還會(huì)提及他們的日常生活和個(gè)人興趣。為了提高從微博數(shù)據(jù)流中檢測(cè)突發(fā)事件的準(zhǔn)確率,過(guò)濾掉這些“私人”博文是非常有必要的。利用熱點(diǎn)微博傳播的特性[14],本文提出的重點(diǎn)微博計(jì)算模型如圖2所示。

        圖2 重點(diǎn)微博計(jì)算模型

        本文提出的重點(diǎn)微博計(jì)算模型充分考慮了社交網(wǎng)絡(luò)中信息傳播的各種特征,一條重點(diǎn)微博由四部分組成。當(dāng)爆料信息剛剛出現(xiàn),轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論數(shù)較小時(shí),考慮用戶影響力能夠使重要信息不會(huì)被遺漏。同時(shí),假設(shè)某個(gè)用戶在某一時(shí)刻發(fā)布的微博,在一定時(shí)間內(nèi)被閱讀的次數(shù)可以通過(guò)點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等價(jià)代替,因此將點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)作為衡量信息傳播能力的指標(biāo)。在綜合考慮上述四個(gè)特征的基礎(chǔ)上,通過(guò)計(jì)算得到重點(diǎn)微博。四種指標(biāo)的計(jì)算方法如下:

        用戶影響力:用戶影響力Ui是指發(fā)布微博的用戶在社交網(wǎng)絡(luò)中的身份,不同的用戶具有不同的粉絲數(shù)、關(guān)注數(shù)、發(fā)布微博數(shù)等信息,通過(guò)對(duì)這些信息的計(jì)算,能夠?qū)ζ浒l(fā)布信息的重要性進(jìn)行初步篩選。

        其中,Nfee指用戶的關(guān)注數(shù),Nfed指用戶的粉絲數(shù),Npost指用戶發(fā)表的微博數(shù)。Ui越大說(shuō)明該用戶發(fā)表的微博產(chǎn)生的影響力越大,其發(fā)表的該條微博wi越重要。

        點(diǎn)贊數(shù):Sup(wi)代表微博wi獲得的點(diǎn)贊數(shù),可以直接從微博wi中獲取。Sup(wi)直接反映了其他用戶對(duì)微博wi的認(rèn)可程度,其值越大表示人們的關(guān)注度越大。

        評(píng)論數(shù):Com(wi)表示微博wi獲得的評(píng)論數(shù),可以直接從微博中獲取。Com(wi)反映了其他用戶對(duì)微博wi的觀點(diǎn),其值越大表明該條微博的熱度就越高。

        轉(zhuǎn)發(fā)數(shù):Rep(wi)是微博wi被轉(zhuǎn)發(fā)的次數(shù),可以直接從微博中獲取。Rep(wi)越大表明該微博的傳播影響力越大。

        基于一般性討論提出假設(shè):

        如果用戶影響力較小,但是其發(fā)布的微博能夠在短時(shí)間內(nèi)引發(fā)大量的用戶評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā),認(rèn)為這是一條重點(diǎn)微博。

        如果用戶影響力大,且在一定時(shí)間內(nèi)引發(fā)了大量的討論,認(rèn)為屬于重點(diǎn)微博。

        如果用戶影響力大,但是在一定時(shí)間內(nèi)沒(méi)有引發(fā)大量用戶評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等社交行為,認(rèn)為屬于重點(diǎn)微博。

        如果用戶影響力小,且在一定時(shí)間內(nèi)沒(méi)有引起大量用戶評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等社交行為,認(rèn)為不屬于重點(diǎn)微博。

        注:一定時(shí)間指微博發(fā)布到采集的這段時(shí)間間隔。

        表1使用的數(shù)據(jù)是人工抽取的來(lái)自微博8月27日的300條重點(diǎn)微博。通過(guò)計(jì)算用戶影響力、評(píng)論數(shù)、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)之間的關(guān)聯(lián)關(guān)系,對(duì)影響微博重要程度的特征進(jìn)行分析。

        如表1所示,在突發(fā)事件中微博重要程度的計(jì)算上,微博的評(píng)論數(shù)與點(diǎn)贊數(shù)呈現(xiàn)出中等強(qiáng)度相關(guān),評(píng)論數(shù)與轉(zhuǎn)發(fā)數(shù)呈現(xiàn)出強(qiáng)相關(guān),點(diǎn)贊數(shù)與轉(zhuǎn)發(fā)數(shù)呈現(xiàn)出極強(qiáng)相關(guān)。而用戶影響力與點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)呈現(xiàn)出弱相關(guān)或極弱相關(guān)。這種現(xiàn)象符合突發(fā)事件的特征,微博信息傳播擴(kuò)散的方式具有不確定性、突發(fā)性[15]。社交網(wǎng)絡(luò)中突發(fā)事件的引爆點(diǎn)與用戶的相關(guān)性很小,相關(guān)微博的出現(xiàn),通過(guò)網(wǎng)絡(luò)擴(kuò)散開,引發(fā)廣泛討論,從而形成社會(huì)輿論。整個(gè)過(guò)程中用戶的影響力對(duì)其產(chǎn)生的突發(fā)性影響較小。在突發(fā)事件中,網(wǎng)民關(guān)注的焦點(diǎn)都集中在事件上,而不會(huì)集中注意力去關(guān)注發(fā)布微博的用戶,網(wǎng)民受突發(fā)事件的影響,或產(chǎn)生共鳴引發(fā)群眾發(fā)泄自己的情感,表現(xiàn)形式多為點(diǎn)贊或轉(zhuǎn)發(fā)該微博;或產(chǎn)生對(duì)未來(lái)的擔(dān)憂引發(fā)群眾對(duì)未來(lái)事件發(fā)展趨勢(shì)的相關(guān)評(píng)價(jià),表現(xiàn)形式多為網(wǎng)民對(duì)該事件主觀的評(píng)論。由于突發(fā)事件的社會(huì)影響力大,微博用戶會(huì)更加主動(dòng)地了解事件的詳情,為了全面地了解事態(tài)的嚴(yán)重性,用戶會(huì)不斷通過(guò)查閱微博內(nèi)容來(lái)了解突發(fā)事件相關(guān)的信息,并時(shí)刻關(guān)注事件的進(jìn)展。因此與表1反映出的信息一致,驗(yàn)證了假設(shè)的有效性。用戶在突發(fā)事件中關(guān)注的焦點(diǎn)是事件自身的信息,在深入了解事件的過(guò)程中會(huì)以點(diǎn)贊、轉(zhuǎn)發(fā)、發(fā)布評(píng)論等形式表現(xiàn)出來(lái)。通過(guò)相關(guān)性分析,驗(yàn)證了用戶影響力、點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)四方面特征間的聯(lián)系,證實(shí)了不同特征對(duì)微博重要性的影響力不同,不能一概而論。這里提出重點(diǎn)微博的計(jì)算方法:

        其中,α、β、γ、δ是調(diào)節(jié)系數(shù),用于調(diào)節(jié)Rep(wi)、Com(wi)、Sup(wi)、Ui四類特征的權(quán)重,α+β+γ+δ=1,α≥0,β≥0,γ≥0,δ≥0。Key(wi)為微博wi的重要度,其值越大,說(shuō)明wi越重要,其內(nèi)容更有說(shuō)服力。因此重點(diǎn)微博計(jì)算模型的準(zhǔn)確性,取決于Key(wi)的閾值θ。調(diào)節(jié)參數(shù)α、β、γ、δ的確定以及閾值θ的計(jì)算在實(shí)驗(yàn)部分給出(詳見第4.2節(jié))。

        算法1重點(diǎn)博文識(shí)別算法

        輸入:帶有社交行為與用戶信息的微博wi。

        輸出:時(shí)間間隔t內(nèi)的重點(diǎn)博文集Dt。

        (1)計(jì)算用戶影響力Ui;

        (2)統(tǒng)計(jì)Com(wi)、Sup(wi)、Rep(wi);

        (3)計(jì)算微博wi的重點(diǎn)度Key(wi);

        (4)將重點(diǎn)度大于閾值θ的微博wi加入到重點(diǎn)博文集Dt。

        應(yīng)用算法1通過(guò)計(jì)算構(gòu)建出時(shí)間間隔t內(nèi)的重點(diǎn)微博數(shù)據(jù)集,能夠過(guò)濾掉一些噪聲數(shù)據(jù),提高突發(fā)詞計(jì)算的準(zhǔn)確性。

        3.4 提取突發(fā)詞

        首先將重點(diǎn)微博中無(wú)法表達(dá)實(shí)際意義的動(dòng)詞去掉,如“過(guò)去”“做”“發(fā)現(xiàn)”等,然后判斷剩下的詞語(yǔ)是否為突發(fā)詞。計(jì)算方法如下[1]:

        表1 突發(fā)事件中微博重要程度相關(guān)性分析

        這里,Bt(tw)表示在時(shí)間間隔t中詞tw的爆發(fā)度,它反映了該詞在時(shí)間間隔t內(nèi)的變化量;ft(tw)表示詞tw在時(shí)間間隔t中出現(xiàn)的頻率;ut(tw)表示在時(shí)間間隔t中詞tw出現(xiàn)的平均次數(shù)。文獻(xiàn)[1]在計(jì)算詞對(duì)突發(fā)事件的影響程度時(shí),將權(quán)重分為兩部分,基礎(chǔ)權(quán)重(詞頻)與爆發(fā)權(quán)重(Bt(tw)),通過(guò)組合分析得出突發(fā)詞。式(3)在計(jì)算突發(fā)詞時(shí)沒(méi)有考慮到突發(fā)事件的爆發(fā)特性,即在突發(fā)事件發(fā)生時(shí),事件相關(guān)信息迅速擴(kuò)散,會(huì)吸引大量用戶關(guān)注并參與討論,因此會(huì)產(chǎn)生大量與突發(fā)事件相關(guān)的微博,用于描述突發(fā)事件的單詞頻率就會(huì)快速上升,而在突發(fā)事件產(chǎn)生前,與描述突發(fā)事件相關(guān)的詞出現(xiàn)的頻率不高。鑒于這一點(diǎn),本文得出結(jié)論:?jiǎn)卧~出現(xiàn)的歷史數(shù)據(jù)會(huì)影響突發(fā)事件檢測(cè)效果。

        因此,本文在計(jì)算突發(fā)詞時(shí),將歷史數(shù)據(jù)考慮在內(nèi),在文獻(xiàn)[5]的基礎(chǔ)上,提出了一種利用歷史數(shù)據(jù)計(jì)算基礎(chǔ)權(quán)重的方法:其中,為時(shí)間間隔數(shù),越大,表明在當(dāng)前時(shí)間間隔內(nèi)詞tw更有可能成為突發(fā)詞,分母引入歷史數(shù)據(jù)的標(biāo)準(zhǔn)差,能夠更加準(zhǔn)確地識(shí)別出在過(guò)去時(shí)間間隔內(nèi)變化平穩(wěn),而在當(dāng)前時(shí)間間隔內(nèi)突發(fā)性強(qiáng)的詞。

        如果考慮太久的歷史數(shù)據(jù),不僅會(huì)加大計(jì)算量,還會(huì)產(chǎn)生未知的負(fù)面影響,因此這里僅考慮將前一個(gè)時(shí)間間隔的數(shù)據(jù)作為歷史數(shù)據(jù),式(4)可簡(jiǎn)寫為:

        將基礎(chǔ)權(quán)重Ft(tw)與爆發(fā)權(quán)重Bt(tw)線性結(jié)合起來(lái),計(jì)算詞tw的突發(fā)度Et(tw)。

        考慮到博文間影響力的差異,在利用歷史博文數(shù)據(jù)的基礎(chǔ)上,詞突發(fā)度的計(jì)算如算法2所示。

        算法2詞突發(fā)度計(jì)算算法

        輸入:使用算法1得到的重點(diǎn)博文集Dt。

        輸出:詞tw的突發(fā)度Et(tw)。

        (1)計(jì)算詞tw的爆發(fā)度Bt(tw);

        (2)計(jì)算詞tw的基礎(chǔ)權(quán)重Ft(tw);

        (3)聯(lián)合Bt(tw)與Ft(tw)計(jì)算詞tw的突發(fā)度Et(tw)。

        將每個(gè)詞tw按照突發(fā)度Et(tw)排序,得到候選突發(fā)詞集kw,利用四分差法確定突發(fā)度出現(xiàn)的閾值,大于閾值的詞作為突發(fā)詞。閾值計(jì)算方式如下[16]:

        其中,Q1為第一個(gè)四分位數(shù),Q3是第三個(gè)四分位數(shù),IQS(kw)是四分差的距離,其計(jì)算公式如下:

        由公式可知,閾值過(guò)小將導(dǎo)致突發(fā)詞數(shù)量過(guò)多,不僅會(huì)增加計(jì)算成本,還會(huì)增加時(shí)間開銷;閾值過(guò)大會(huì)導(dǎo)致突發(fā)詞較少,一些重要的突發(fā)詞可能會(huì)被遺漏,使得構(gòu)造出的突發(fā)事件數(shù)據(jù)集不夠全面。由于四分位數(shù)的間距不受個(gè)別極大值或極小值的影響,因此采用突發(fā)詞集中突發(fā)度的四分位距離作為閾值的判斷標(biāo)準(zhǔn)[16],可以穩(wěn)定地描述數(shù)據(jù)的離散程度。本文以一天作為時(shí)間間隔,從數(shù)據(jù)庫(kù)中抽取8月27日的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),同時(shí)將8月26日的數(shù)據(jù)作為歷史數(shù)據(jù),共計(jì)實(shí)驗(yàn)數(shù)據(jù)12 345條。采用本文提出的重點(diǎn)微博發(fā)現(xiàn)方法獲得共計(jì)300條重點(diǎn)微博,進(jìn)行預(yù)處理后得到2925個(gè)詞,采用提出的突發(fā)詞提取方法,得到597個(gè)突發(fā)詞,由式(7)計(jì)算出Threshold為4,最終得到突發(fā)詞數(shù)為60個(gè)。采用的實(shí)驗(yàn)設(shè)備:操作系統(tǒng)為Win8,處理器為Intel Core i5 3230M,內(nèi)存8 GB,CPU為2.5 GHz。計(jì)算突發(fā)詞耗時(shí)約1 min,在時(shí)間成本上是可接受的。如果選擇性能更高的服務(wù)器,在海量微博數(shù)據(jù)流中計(jì)算突發(fā)詞在時(shí)間成本上也是可行的。

        3.5 構(gòu)建突發(fā)事件集

        社交網(wǎng)絡(luò)中的用戶數(shù)量龐大,每天產(chǎn)生的數(shù)據(jù)量非常多,同時(shí)數(shù)據(jù)中存在大量噪音數(shù)據(jù)。針對(duì)突發(fā)事件的檢測(cè)需要細(xì)化分析,因此高質(zhì)量的事件數(shù)據(jù)集是事件檢測(cè)準(zhǔn)確率的重要保障。本文以重點(diǎn)微博為基礎(chǔ),將計(jì)算出的突發(fā)詞集作為關(guān)鍵詞,從爬取的微博數(shù)據(jù)集中通過(guò)關(guān)鍵詞匹配的方式檢索相關(guān)微博,構(gòu)造潛在突發(fā)事件數(shù)據(jù)集??紤]到數(shù)據(jù)量大,數(shù)據(jù)類型繁多,非結(jié)構(gòu)化數(shù)據(jù)庫(kù)憑借處理并發(fā)性高、查詢速度快、存儲(chǔ)格式多等優(yōu)勢(shì),已經(jīng)廣泛應(yīng)用在數(shù)據(jù)挖掘領(lǐng)域。因此本文采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB進(jìn)行數(shù)據(jù)的存儲(chǔ)與查詢。

        3.6 數(shù)據(jù)聚類

        在突發(fā)事件檢測(cè)中,常用的聚類思路有兩種:一種是利用突發(fā)詞進(jìn)行聚類,利用歷史數(shù)據(jù)和當(dāng)前時(shí)間窗口內(nèi)的數(shù)據(jù)提取多維度特征(用戶數(shù)、微博數(shù)、詞頻等)計(jì)算突發(fā)詞,構(gòu)建突發(fā)詞集共現(xiàn)矩陣,并將其作為聚類輸入,用得到的突發(fā)詞簇來(lái)進(jìn)行突發(fā)事件檢測(cè)。另一種是利用當(dāng)前時(shí)間窗口內(nèi)的數(shù)據(jù)通過(guò)微博文本相似度直接聚類,從聚類的簇中提取突發(fā)事件的特征進(jìn)行事件檢測(cè)。

        由于微博取消了博文字?jǐn)?shù)的限制,長(zhǎng)度不再局限于140個(gè)字符,越來(lái)越多的用戶開始利用微博來(lái)描述自己的所見所聞,因而微博內(nèi)容中含有更豐富的與事件相關(guān)的潛在信息。在以突發(fā)詞為聚類輸入的突發(fā)事件檢測(cè)方法中,突發(fā)詞的數(shù)量難以確定,太少會(huì)造成信息丟失,太多會(huì)產(chǎn)生歧義;同時(shí),從文本中提取突發(fā)詞信息,根據(jù)突發(fā)詞集進(jìn)行聚類,不能夠全面地描述事件特征,無(wú)法進(jìn)行深入的事件分析。以文本作為聚類輸入的事件檢測(cè)方法,存在噪聲數(shù)據(jù)的干擾,同時(shí)會(huì)消耗大量計(jì)算資源,提取到的特征與數(shù)據(jù)集的質(zhì)量密切相關(guān),無(wú)法保證事件檢測(cè)的準(zhǔn)確性。

        本文提出的KBD方法,融合了上述兩種方式的優(yōu)點(diǎn),首先從初始數(shù)據(jù)集中提取重要微博,計(jì)算得到突發(fā)詞,然后通過(guò)關(guān)鍵詞檢索的方式過(guò)濾初始數(shù)據(jù)集,得到事件相關(guān)數(shù)據(jù)集,最后利用K-Means聚類算法對(duì)文本進(jìn)行聚類,進(jìn)而提取特征,進(jìn)行突發(fā)事件檢測(cè)。通過(guò)突發(fā)詞進(jìn)行過(guò)濾的方法提高了數(shù)據(jù)集與事件的相關(guān)性,同時(shí)采用文本作為聚類輸入的方式則保留了更多的事件信息,能夠全面地提取到事件的特征,提高事件檢測(cè)的準(zhǔn)確性。

        3.7 突發(fā)事件描述

        與大多數(shù)專家學(xué)者將聚類結(jié)果與瀏覽器搜索網(wǎng)頁(yè)相結(jié)合的描述方式不同,本文認(rèn)為對(duì)事件描述的準(zhǔn)確與否對(duì)判斷該事件是否為突發(fā)事件起著至關(guān)重要的作用,且重點(diǎn)微博中包含大量事件相關(guān)信息,因此本文采用與類簇中的關(guān)鍵詞相關(guān)性最強(qiáng)的重點(diǎn)微博進(jìn)行事件描述,克服了結(jié)合人工描述事件的主觀性因素。相應(yīng)的驗(yàn)證由4.3節(jié)表6給出。

        4 實(shí)驗(yàn)及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)指標(biāo)

        本文使用的數(shù)據(jù)集來(lái)自新浪微博,通過(guò)模擬微博登錄來(lái)爬取微博數(shù)據(jù),以具有代表性的微博用戶ID為起點(diǎn),采集數(shù)據(jù)并存入數(shù)據(jù)庫(kù),獲取粉絲與關(guān)注列表用戶的ID,遞歸執(zhí)行,即可獲得大量微博數(shù)據(jù)。獲得的數(shù)據(jù)存在大量冗余信息,這里可以根據(jù)新浪用戶ID與發(fā)布時(shí)間去重過(guò)濾,然后根據(jù)發(fā)布時(shí)間排序,得到帶有時(shí)間序列的微博數(shù)據(jù)集。語(yǔ)料采集時(shí)間為2018年8月24日至2018年8月28日,共40 842條微博,統(tǒng)一格式存儲(chǔ)在MongoDB中,微博的存儲(chǔ)格式如下:

        {

        "_id":ObjectId("5b83a8b4ff7a7d40fc7d9cbf"),

        "id":"4277391314945737",

        "follow":"528",

        "fans":"3380000",

        "pubnum":"1230",

        "attitudes":57413,

        "time":"2018-08-26 22:31",

        "text":"#延禧攻略#劇終人不散,感恩大家",

        "comments":8018,

        "reposts":3402

        }

        其中_id是MongoDB中的鍵值,每個(gè)文檔都有唯一的"_id"值,來(lái)確保集合中每個(gè)文檔都能被唯一標(biāo)識(shí),id是新浪微博用戶的唯一用戶編號(hào),follow是用戶的關(guān)注數(shù),fans是用戶的粉絲數(shù),pubnum是用戶發(fā)布的微博總數(shù),attitudes是該條微博的點(diǎn)贊數(shù),time是該條微博的發(fā)表時(shí)間,text是該條微博的內(nèi)容,comments是該條微博的評(píng)論數(shù),reposts是該條微博的轉(zhuǎn)發(fā)數(shù)。

        目前,突發(fā)事件檢測(cè)依舊屬于開放性問(wèn)題,無(wú)論是限定地域還是限定類型的突發(fā)事件檢測(cè)方法,因?yàn)闆](méi)有統(tǒng)一規(guī)范的數(shù)據(jù)集,所以評(píng)測(cè)標(biāo)準(zhǔn)不定。研究者們?cè)u(píng)價(jià)方法時(shí)選取的數(shù)據(jù)集都是來(lái)自真實(shí)的社交網(wǎng)絡(luò),如twitter、新浪微博等,在限定突發(fā)事件產(chǎn)生的時(shí)間間隔內(nèi),進(jìn)行事件檢測(cè)性能的評(píng)價(jià),從而比較各個(gè)方法的優(yōu)劣。表2列出了近年來(lái)部分事件檢測(cè)所采用的數(shù)據(jù)集及評(píng)價(jià)指標(biāo)。

        由表2可知,不同學(xué)者評(píng)價(jià)檢測(cè)效果采用的方法受時(shí)間間隔、數(shù)據(jù)量大小等特征影響,選擇的評(píng)測(cè)標(biāo)準(zhǔn)不同。因此,參考主流的評(píng)測(cè)方法,本文選用準(zhǔn)確率、召回率、運(yùn)行時(shí)間作為突發(fā)事件檢測(cè)的評(píng)價(jià)指標(biāo)。

        表2 部分文獻(xiàn)檢測(cè)的突發(fā)事件以及評(píng)價(jià)標(biāo)準(zhǔn)

        表3 重點(diǎn)微博的調(diào)節(jié)參數(shù)取值

        這里P表示正確檢測(cè)到的突發(fā)事件數(shù)量,S表示檢測(cè)到的總事件數(shù),T表示人工判斷得到的真實(shí)突發(fā)事件數(shù)。

        4.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)所采用的方法為KDB,通過(guò)重點(diǎn)微博挖掘突發(fā)詞來(lái)構(gòu)建突發(fā)事件數(shù)據(jù)集,從而進(jìn)行突發(fā)事件的檢測(cè)。本文將人工挑選的1 000條重點(diǎn)微博與隨機(jī)抽取的普通微博數(shù)據(jù)作為訓(xùn)練集,對(duì)重點(diǎn)微博計(jì)算模型進(jìn)行訓(xùn)練,計(jì)算出模型的調(diào)節(jié)參數(shù)α、β、γ、δ以及重點(diǎn)度閾值θ。綜合考慮每個(gè)特征的重要程度,采用人工干預(yù)的方式調(diào)節(jié)參數(shù)的取值,進(jìn)行了17組實(shí)驗(yàn),其中將每個(gè)參數(shù)可取的權(quán)重值分別設(shè)為[0,0.25,0.3,0.4,0.6,0.7,1.0]。

        區(qū)分度=重點(diǎn)微博重點(diǎn)度均值-普通微博重點(diǎn)度均值。本文根據(jù)區(qū)分度進(jìn)行調(diào)節(jié)參數(shù)的選擇。由表3可知,將調(diào)節(jié)參數(shù)α、β、γ、δ分別設(shè)置為0、0、1、0時(shí)重點(diǎn)微博的重點(diǎn)度均值與普通微博重點(diǎn)度均值有明顯的差距,區(qū)分度為12.95,重點(diǎn)微博的重點(diǎn)度最小值(9.78)大于普通微博重點(diǎn)度(7.90)。但是這樣的參數(shù)設(shè)置,刻意強(qiáng)調(diào)了點(diǎn)贊的影響力,并沒(méi)有考慮到社交媒體用戶的多樣性以及微博內(nèi)容的靈活性,不能全面地描述微博的重要性,因此不予考慮。當(dāng)調(diào)節(jié)參數(shù)α、β、γ、δ分別設(shè)置為0.1、0.1、0.7、0.1時(shí),能夠取得較大的區(qū)分度(11.60),并且重點(diǎn)微博重點(diǎn)度均值(8.76)大于普通微博重點(diǎn)度(7.29)。分析原因發(fā)現(xiàn),這樣的參數(shù)設(shè)置與3.3節(jié)表1的重點(diǎn)微博相關(guān)性分析結(jié)果一致,點(diǎn)贊數(shù)對(duì)重點(diǎn)微博的貢獻(xiàn)度最大。因此針對(duì)本文的微博數(shù)據(jù)集,通過(guò)實(shí)驗(yàn)調(diào)節(jié)參數(shù)分別設(shè)置為α=0.1、β=0.1、γ=0.7、δ=0.1,重點(diǎn)度閾值θ=8.76。

        4.3 實(shí)驗(yàn)結(jié)果分析

        本文設(shè)定時(shí)間間隔為一天,設(shè)定K-Means聚類算法的最大迭代次數(shù)max_iter=300,獲取初始簇中心的更迭次數(shù)n_init=40,初始簇中心的獲取方法init='kmeans++',最大聚類數(shù)k=9,以詞向量表示的文本空間相似度為特征進(jìn)行聚類,構(gòu)成最終事件集合,閾值及參數(shù)設(shè)置見4.2節(jié)。

        為了驗(yàn)證本文提出的KBD方法的有效性,設(shè)定通過(guò)時(shí)間間隔內(nèi)的數(shù)據(jù)計(jì)算博文突發(fā)特征,利用博文進(jìn)行事件檢測(cè)的方法作為基線方法[4],并與BBW(Basic-Burst Weight)[1]在準(zhǔn)確率、召回率、運(yùn)行時(shí)間三方面進(jìn)行了對(duì)比。BBW是2015年Zhang等人在改進(jìn)TFIDF的基礎(chǔ)上提出的突發(fā)事件檢測(cè)方法,針對(duì)Twitter數(shù)據(jù)流,抽取時(shí)間窗口中的突發(fā)詞,并根據(jù)獲得的突發(fā)詞共現(xiàn)度進(jìn)行層次聚類,從而檢測(cè)突發(fā)事件。設(shè)置層次聚類閾值θ=1.2,時(shí)間間隔為1天,能取得較好實(shí)驗(yàn)效果。在8月27日檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表4。

        表4 算法性能比較

        由表4可以看出,本文提出的KBD方法,綜合了利用博文與基于突發(fā)詞事件檢測(cè)的優(yōu)點(diǎn),在保證事件檢測(cè)準(zhǔn)確率、召回率的同時(shí)優(yōu)化了檢測(cè)時(shí)間,與基線方法和BBW方法相比在準(zhǔn)確率與召回率上均有顯著提高。在運(yùn)行時(shí)間上,與基線方法相比因?yàn)榭s減了數(shù)據(jù)集,所以提高了事件檢測(cè)的效率。與BBW相比增加了運(yùn)行時(shí)間,原因在于KBD方法存在計(jì)算重點(diǎn)微博以及構(gòu)建潛在突發(fā)事件集的步驟,雖然會(huì)增加一定的運(yùn)行時(shí)間,但是時(shí)間增長(zhǎng)量在可接受的范圍內(nèi)。將聚類得到的事件簇,根據(jù)關(guān)鍵詞排名降序取出前5個(gè)關(guān)鍵詞對(duì)聚類結(jié)果的描述,事件檢測(cè)結(jié)果見表5。

        基線方法聚類得到的事件結(jié)果如表5所示,第一個(gè)話題是“延禧攻略”,第二個(gè)是“順風(fēng)車女孩遇害”,第三個(gè)屬于日常生活相關(guān)的話題。從結(jié)果上看,基線方法檢測(cè)的效果較差,主要是由于時(shí)間間隔內(nèi)的數(shù)據(jù)量大,包含過(guò)多噪聲數(shù)據(jù)(如廣告與飲食旅游推薦等信息),這些無(wú)關(guān)的博文增加了數(shù)據(jù)的維度,不僅會(huì)影響聚類結(jié)果的準(zhǔn)確性,還會(huì)增加計(jì)算成本。

        BBW方法并不直接對(duì)文本進(jìn)行處理,而是根據(jù)其定義的突發(fā)詞計(jì)算方法,從實(shí)驗(yàn)數(shù)據(jù)集中計(jì)算出代表突發(fā)事件的突發(fā)詞集,再根據(jù)突發(fā)詞在數(shù)據(jù)集中的共現(xiàn)次數(shù),構(gòu)建出共現(xiàn)矩陣,將其作為特征進(jìn)行聚類從而進(jìn)行突發(fā)事件的檢測(cè)。從事件檢測(cè)的結(jié)果上看,與KBD方法比較發(fā)現(xiàn),將突發(fā)詞間的共現(xiàn)矩陣作為突發(fā)事件特征,沒(méi)有考慮到句子整體的語(yǔ)義特征,因此每個(gè)事件簇的可解釋性不高。如表5中的第二個(gè)聚類結(jié)果將兩個(gè)不相關(guān)的事件突發(fā)詞聚到了一起。由結(jié)果可知,第三個(gè)類簇主要是事件“亞運(yùn)會(huì)蘇炳添奪冠”,卻出現(xiàn)了中國(guó)藍(lán)十周年慶典的相關(guān)事件突發(fā)詞。

        本文提出的KBD方法,綜合考慮用戶以及博文的影響力,從獲取的微博數(shù)據(jù)中發(fā)現(xiàn)重點(diǎn)微博,通過(guò)改進(jìn)突發(fā)詞計(jì)算方法,結(jié)合歷史數(shù)據(jù)挖掘在重點(diǎn)微博數(shù)據(jù)集時(shí)間間隔內(nèi)的突發(fā)詞,通過(guò)突發(fā)詞構(gòu)建出一個(gè)高質(zhì)量的潛在突發(fā)事件數(shù)據(jù)集,進(jìn)而進(jìn)行突發(fā)事件的檢測(cè)。從表5的實(shí)驗(yàn)結(jié)果可以看出,第一個(gè)是滴滴順風(fēng)車事件,第二個(gè)是2018年8月雅加達(dá)亞運(yùn)會(huì)上蘇炳添奪冠事件,第三個(gè)是延禧攻略大結(jié)局事件。從結(jié)果上看該方法取得的效果最理想。分析原因主要是通過(guò)實(shí)驗(yàn)數(shù)據(jù)集中的重點(diǎn)微博計(jì)算出的突發(fā)詞,能夠充分考慮到微博突發(fā)事件發(fā)展的特征,以突發(fā)詞構(gòu)建出的數(shù)據(jù)集,過(guò)濾掉了大量噪聲數(shù)據(jù),避免了局部日常事件的干擾,降低了數(shù)據(jù)維度,采用以TFIDF為詞向量表示博文特征的聚類方法,與突發(fā)詞共現(xiàn)矩陣聚類相比增加了事件的可解釋性。

        由表6可知,采用事件檢測(cè)結(jié)果關(guān)聯(lián)重點(diǎn)微博的方式能夠?qū)λ鶛z測(cè)事件進(jìn)行全面的描述,進(jìn)而可以判斷檢測(cè)出的事件是否為突發(fā)事件,對(duì)輔助決策有重要意義。

        5 結(jié)束語(yǔ)

        在基于社交網(wǎng)絡(luò)突發(fā)事件檢測(cè)的研究中,不應(yīng)忽視博文間影響力的差異,結(jié)合突發(fā)事件爆發(fā)特征的事件檢測(cè)方法是日后研究的重點(diǎn)方向。通過(guò)與主流突發(fā)事件檢測(cè)方法的比較,KBD方法提高了事件檢測(cè)的準(zhǔn)確率。結(jié)果表明,本文提出的突發(fā)事件檢測(cè)框架能夠有效地從微博數(shù)據(jù)中檢測(cè)突發(fā)事件。該流程框架對(duì)實(shí)際系統(tǒng)開發(fā)有一定的參考價(jià)值,對(duì)社交網(wǎng)絡(luò)中突發(fā)事件的管理與監(jiān)控也有著積極的促進(jìn)作用。

        在后續(xù)的研究中,應(yīng)著重于以下幾個(gè)方面:(1)如何甄別出粉絲惡意提高權(quán)重的重點(diǎn)微博(如刷評(píng)論、騙關(guān)注、刷轉(zhuǎn)發(fā)數(shù)等行為),從而剔除虛假重點(diǎn)微博;(2)在縮短時(shí)間間隔的條件下如何提高重點(diǎn)微博的識(shí)別率;(3)為了應(yīng)對(duì)海量的微博數(shù)據(jù),將嘗試引入高效的數(shù)據(jù)挖掘算法,提高實(shí)時(shí)檢測(cè)突發(fā)事件的效率。

        表5 突發(fā)事件檢測(cè)結(jié)果(各取前3個(gè))

        表6 重點(diǎn)微博描述突發(fā)事件

        猜你喜歡
        用戶檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對(duì)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲啪av永久无码精品放毛片| 亚洲国产精品av麻豆一区| av在线高清观看亚洲| 国产果冻豆传媒麻婆精东 | 美女大量吞精在线观看456| 91福利国产在线观看网站| 国产一区二区三区尤物| 亚洲精品国偷拍自产在线| 成在人线av无码免观看麻豆 | 国产精品成人一区二区不卡| 激情综合丁香五月| 国产日韩欧美在线| 色偷偷亚洲女人的天堂| 亚洲女人毛茸茸粉红大阴户传播 | 中国无码人妻丰满熟妇啪啪软件| 后入内射欧美99二区视频| 国产成人综合亚洲av| 亚洲一区二区三区成人网| 99久久精品国产一区二区| 欧美性猛交xxxx黑人| 久久综合一本中文字幕| 国产自拍在线观看视频| 国产一区二区三区四区五区加勒比| 国产高清在线精品免费| 成人免费视频自偷自拍| 美女在线一区二区三区视频| 欧美极品jizzhd欧美| 久久久久亚洲精品天堂| 日本免费三级一区二区| 丰满少妇弄高潮了www| 八戒网站免费观看视频| 无码精品人妻一区二区三区98| 蜜桃免费一区二区三区| 久久国产精品99精品国产| 欧美a在线播放| 日韩成人高清不卡av| 国产丝袜美女| 猫咪www免费人成网最新网站| 日本午夜一区二区视频| 日本精品视频一区二区三区四区| 亚洲精品无播放器在线播放 |