亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微博數(shù)據(jù)下突發(fā)事件在線檢測的研究

        2020-08-26 07:46:55方中純宋平
        電腦知識與技術(shù) 2020年20期
        關(guān)鍵詞:在線檢測突發(fā)事件

        方中純 宋平

        摘要:為了改善現(xiàn)有突發(fā)檢測的不足,提出一種融合詞特征和Strom框架的突發(fā)事件在線檢測模型。在基于詞特征的檢測模型的基礎(chǔ)上,使用Strom分布式框架,結(jié)合層次聚類算法,在線檢測微博事件中的突發(fā)事件。實驗結(jié)果表明進行檢索評估測試時取得了較好結(jié)果,很好的實現(xiàn)在線檢測。

        關(guān)鍵詞:突發(fā)事件;Strom框架;層次聚類;在線檢測

        中圖分類號:TP391 文獻標(biāo)識碼:A

        文章編號:1009-3044(2020)20-0211-02

        Research on Online Detection of Emergency Events under Weibo Data Stream

        FANG Zhong-chun1, Song Ping2

        (1.Engineering and Training Center.Inner Mongolia University of Science and Technology, Baotou 014010. China; 2. InformationEngineering School, Inner Mongolia University of Science and Technology, Baotou 014010, China)

        Abstract : In order to improve the shortcomings of the existing burst detection,an online event detection model comhining word fea-tures and Strom framework is proposed.On the basis of the word feature-based detection model,the Strom distributed framework iscombined with a hierarchical clustering algorithm to detect unexpected events in Weibo events online.The experimental resultsshow that good results are obtained during the retrieval evaluation test.and the online detection is well achieved.

        Key words : emergencies; storm framework; hierarchical clustering; online detection

        1引言

        微博作為分享簡短實時信息的社交網(wǎng)絡(luò)平臺,在對突發(fā)事件的報道上要遠快于傳統(tǒng)媒體的正規(guī)報道,消息的傳播也更快速,更能形成熱門話題,但是在高效傳播的同時,也帶來了各種形式的數(shù)據(jù),如何及時準(zhǔn)確地檢測出微博中突發(fā)事件,進行必要輿情管控與社會引導(dǎo),一直以來是研究的熱點。

        針對微博突發(fā)事件檢測的研究方法大致分為兩類:(1)基于突發(fā)詞特征的方法,文獻[1]利用多種詞特征提取時間窗內(nèi)的突發(fā)詞,基于層次聚類產(chǎn)生話題。該方法效率較高,但在突發(fā)檢測的精度上欠佳;(2)基于文本的方法,文獻[2]引用LDA模型,與時間序列結(jié)合,彌補LDA模型在進行短文本檢測時的不足,但是時間復(fù)雜度較高,數(shù)量的選取也受人為因素的干擾。

        基于以上分析,本文利用Strom分布式框架,參考文獻[3]提出的情感過濾對單位時間內(nèi)的數(shù)據(jù)流進行預(yù)處理,通過詞特征的突發(fā)檢測模型得到詞集,構(gòu)建相似矩陣,使用層次聚類算法,生成簇集,得到突發(fā)話題簇,完成在線檢測。

        2在線檢測模型的實現(xiàn)

        2.1數(shù)據(jù)預(yù)處理

        微博數(shù)據(jù)中充斥著大量如傳銷、廣告等垃圾信息。此類信息會影響事件檢測的效率。采用jieba分詞進行切詞,去停用詞和預(yù)處理操作。

        1)參考文獻[4]中的預(yù)處理規(guī)則,去除包含詞匯少于3個的微博。

        2)去除微博中的URL鏈接,表情符。

        3)詞性過濾,參照詞性表,過濾掉除名詞,動詞以外的詞性。

        4)參照SnowNLP情感詞典,進行情感過濾,篩選負面情緒的文本進行突發(fā)詞檢測。

        2.2突發(fā)詞檢測

        微博文本的突發(fā)事的出現(xiàn)總是伴隨著一些特性,基于突發(fā)詞的特征人手,本文從以下三方面出發(fā),作為衡量突發(fā)詞集標(biāo)準(zhǔn)。

        1)詞頻熱度

        即在一個時間窗口內(nèi)詞頻個數(shù),若一個詞匯的出現(xiàn)次數(shù)較多,在一定程度上可以理解為在該時間窗口內(nèi)出現(xiàn)了該詞相關(guān)的突發(fā)事件。

        2)詞頻增長率

        作為突發(fā)詞檢測中最明顯的特征,借助相鄰兩個時間窗口,計算詞頻增長。同時為了避免事件爆發(fā)期間相鄰時間窗的十?dāng)_,影響對該類突發(fā)事件的追蹤,引入歷史時間窗口,計算公式如下:

        其中,F(xiàn)i,k表示在當(dāng)前k時間窗口下詞匯i的增長率,Ni,k表示詞匯i在窗口k中出現(xiàn)的頻率,Ni,k表示在n個時間窗口下詞匯i出現(xiàn)的平均頻率[5]。

        3)詞頻權(quán)重

        對于微短文本且相關(guān)報道集中爆發(fā)的特點,傳統(tǒng)TF-IDF方法,會使一些具有代表突發(fā)事件的詞語賦予較低的權(quán)值。因此,對TF-IDF方法進行改進,計算公式如下:

        其中,α是詞頻權(quán)重的初始值,Nmax,k是時間窗口k下最大詞頻數(shù)。

        將上述三種特征進行歸一化計算,計算公式如下:

        Bi,k=Hi,k+Fi,k+Ci,k

        (3)

        其中,Bi,k表示詞語i在時間窗口k下的突發(fā)程度,Hi,k表示詞語i在時間窗口k下的詞頻熱度。

        2.3相似度矩陣構(gòu)建

        對提取的突發(fā)詞集進行共詞分析。共詞即詞匯對同時出現(xiàn)在同一文本。統(tǒng)計詞匯共現(xiàn)情況,能夠反映關(guān)鍵詞之間的關(guān)聯(lián)程度,相較通過語義詞典進行相似詞匯對識別,更適用于微博短文本的突發(fā)檢測。對形成的共詞矩陣,采用Jaccard系數(shù),形成相似矩陣,計算公式如下:

        其中,Dki為在k時間窗口下,包含詞匯i的相關(guān)文本集合。

        2.4突發(fā)詞聚類

        本文采用凝聚式層次聚類。參考對于一個事件的描述,離不開何地,何事,何人等三要素說明,過濾掉少于3個詞的類簇,剩下的就是本時間窗口的突發(fā)詞簇。

        算法步驟如下所示:

        1)基于所求得的相似度矩陣,找出距離最小的兩個類簇

        2)合并最接近的兩個簇

        3)更新鄰近度矩陣,以反映新的簇與原來的簇之間的鄰近性

        4)直到簇之間的距離均大于某一值,輸出結(jié)果并結(jié)束。

        2.5基于Strom的分布式框架設(shè)計

        本文利用Strom框架,對突發(fā)事件檢測模型做分布式擴展,提高檢測模型的效率。其拓撲圖如下所示。

        PreSpout:接收數(shù)據(jù)源,通過隨機分組方式將數(shù)據(jù)源分配給計算節(jié)點Bolt。

        CleanBolt:數(shù)據(jù)清理工作,具體參照微博數(shù)據(jù)預(yù)處理模塊。

        CalcuBot:突發(fā)詞檢測操作,使用aIIGrouping分組方式將處理后的結(jié)果全部分配給TestBolt。

        TestBolt:相似度矩陣的計算和層次聚類的操作,最終返回符合條件的簇集,完成對突發(fā)事件的在線檢測。

        3實驗與分析

        3.1實驗數(shù)據(jù)及評價標(biāo)準(zhǔn)

        本文借助微博的接口,采集了2020年1月8號和9號約40萬條數(shù)據(jù),其中包含用戶ID,時間,博文內(nèi)容等。以一小時作為單位時間窗口,選出突發(fā)度排名前100的突發(fā)詞組成該時間段內(nèi)的突發(fā)詞集。

        通過訪問國家突發(fā)事件信息網(wǎng)和中國軍網(wǎng),對國內(nèi)外突發(fā)事件進行統(tǒng)計,詳見表1。

        評價標(biāo)準(zhǔn)參考信息檢索評估中使用的正確率P,召回率R和F1值。其公式如下所示:

        x1表示該框架檢測出來的突發(fā)事件與表1相符的事件數(shù)量,x2表示檢測出表1不存在的突發(fā)事件的數(shù)量,X3表示未檢測出表1的相關(guān)事件的數(shù)量。

        3.2實驗結(jié)果及分析

        通過本實驗框架檢測出來的突發(fā)事件與媒體突發(fā)事件報道進行比對,與已有離線檢測方法1:通過詞頻、詞頻增長率和詞突發(fā)度進行檢測,實驗結(jié)果如圖2所示。

        從結(jié)果中看出,本文提出在線檢測框架,在保證召回率的同時,準(zhǔn)確率和F1值均得到了提升,同時還檢測出媒體未報到,如:“女子投訴快遞員遭暴打”這些民生類網(wǎng)絡(luò)突發(fā)事件。在在線突發(fā)事件檢測上有著良好的效果。

        4結(jié)語

        本文提出了一種融合Strm分布式框架的突發(fā)事件檢測方法,在單位時間窗口內(nèi)的突發(fā)事件測試中取得了良好的結(jié)果。但是本文采用的聚類算法時間復(fù)雜度高,檢測結(jié)果耗時較大,因此后續(xù)會研究如何降低在線聚類算法的耗時。同時縮小時間窗口,在實時性上做出研究。

        參考文獻:

        [1]丁晟春,龔思蘭,李紅梅,基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J].現(xiàn)代圖書情報技術(shù),2016,32(7-8):12-20.

        [2] CUI L,ZHANC X.ZHOU X,et aI.Topicalevent detection onTwitter[C]//Proceedings of the 2016 Australasian DatabaseConference.LNCS9877.Berlin:Springer,2016,257-268.

        [3]費紹棟,楊玉珍,劉培玉,等.融合情感過濾的突發(fā)事件檢測方法[J],計算機應(yīng)用,2015,35(5):1320-1323.

        [4]郭趾秀,呂學(xué)強,李卓基.基于突發(fā)詞聚類的微博突發(fā)事件檢測方法[J].計算機應(yīng)用,2014,34(2);486-490.

        [5]楊書寧,基于微博的突發(fā)事件網(wǎng)絡(luò)輿情監(jiān)測方法研究[D].大連:大連理工大學(xué),2014.

        【通聯(lián)編輯:唐一東】

        收稿日期:2020-03-25

        作者簡介:方中純(1971-),男,四川遂寧人,內(nèi)蒙古科技大學(xué)副教授,博士,主要研究方向為人工智能。

        猜你喜歡
        在線檢測突發(fā)事件
        二次表在石油樹脂粘度檢測中的應(yīng)用
        基于度分布的流量異常在線檢測方法研究
        關(guān)于鉑熱電阻在線檢測方法的實踐探討
        縣級電視臺如何做好突發(fā)事件的報道
        新聞傳播(2016年19期)2016-07-19 10:12:08
        突發(fā)事件的輿論引導(dǎo)
        新型過濾器箱體的國產(chǎn)化研發(fā)
        科技視界(2016年11期)2016-05-23 23:21:23
        變壓器局部放電在線檢測中的抗干擾技術(shù)研究
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        基于可見光譜的非接觸式金屬離子水質(zhì)監(jiān)測原理研究
        科技視界(2016年4期)2016-02-22 12:32:54
        突發(fā)事件
        小說月刊(2014年10期)2014-04-23 08:53:40
        欧美性生交大片免费看app麻豆 | 天天躁日日躁狠狠躁人妻 | 亚洲精一区二区三av| 粉嫩被粗大进进出出视频| 啪啪免费网站| 熟女少妇丰满一区二区| 国产麻豆久久av入口| 人人妻人人澡人人爽欧美一区九九| 国际无码精品| 久久人妻少妇中文字幕| 久久精品国产av麻豆五月丁| 日韩欧美亚洲综合久久影院ds| 狠狠色噜噜狠狠狠97影音先锋 | 亚洲精品黄网在线观看| 国产亚洲精品一区二区在线播放| 级毛片内射视频| 青青草视频免费观看| 狠狠丁香激情久久综合| 日本大片一区二区三区| 免费无遮挡无码永久视频| 亚洲尺码电影av久久| 国产日产亚洲系列av| 中文字幕一区在线直播| 97夜夜澡人人双人人人喊| 国产精品乱一区二区三区| 亚洲福利网站在线一区不卡| 优优人体大尺大尺无毒不卡| 亚洲日本va午夜在线电影| 99RE6在线观看国产精品| 日本亚洲中文字幕一区| 国产人妻丰满熟妇嗷嗷叫| 亚洲视频99| 亚洲av色精品国产一区二区三区| 国产a级三级三级三级| 中文字幕无线码中文字幕| 中文字幕乱码av在线| 精品国产一区二区三区三| 欧美黑人又粗又硬xxxxx喷水| 国产免费无码9191精品| 天堂网日韩av在线播放一区| 日本一卡2卡3卡4卡无卡免费网站|