亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于影響力的微博新興熱點(diǎn)事件檢測(cè)

        2016-06-08 05:48:35
        關(guān)鍵詞:用戶檢測(cè)

        李 華 朱 荔

        (重慶大學(xué)計(jì)算機(jī)學(xué)院 重慶 400044)

        ?

        基于影響力的微博新興熱點(diǎn)事件檢測(cè)

        李華朱荔

        (重慶大學(xué)計(jì)算機(jī)學(xué)院重慶 400044)

        摘要從微博中準(zhǔn)確高效地挖掘出正在發(fā)生的熱點(diǎn)事件是近年來研究的熱點(diǎn)。通過綜合考慮微博用戶的粉絲數(shù)量和微博本身的轉(zhuǎn)發(fā)、評(píng)論次數(shù)計(jì)算每條微博的影響力,從而提出一種基于影響力的微博新興熱點(diǎn)事件檢測(cè)方法IEED(Influence-Based Emerging Hotspot Event Detection)。該方法運(yùn)用層次聚類將微博帖子聚類為事件集,并提取出事件中的關(guān)鍵詞構(gòu)成事件摘要。通過運(yùn)用現(xiàn)實(shí)生活中的新浪微博數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集來測(cè)試所提出的方法,實(shí)驗(yàn)結(jié)果證明,基于影響力的微博新興熱點(diǎn)事件檢測(cè)方法(IEED)能在早期高效地檢測(cè)出微博中的新興熱點(diǎn)事件,具備一定的應(yīng)用價(jià)值。

        關(guān)鍵詞新興事件檢測(cè)微博影響力聚類

        0引言

        微博作為一個(gè)新興的社交媒體服務(wù),是當(dāng)前最流行的網(wǎng)絡(luò)社交應(yīng)用之一。國(guó)外最具代表性的微博平臺(tái)是Twitter,在中國(guó)最具代表性的則是新浪微博(現(xiàn)已改名為微博),新浪微博全球注冊(cè)用戶已經(jīng)超過6億。

        微博具有支持多平臺(tái)終端的特點(diǎn),人們可以隨時(shí)隨地發(fā)布自己的所見所聞,但是發(fā)布的信息不能超過140個(gè)字符,這使得微博產(chǎn)生大量貼近現(xiàn)實(shí)生活的數(shù)據(jù)。然而由于微博數(shù)據(jù)量十分巨大,用戶無法通過閱讀大量微博獲取自己感興趣的熱點(diǎn)事件,因此對(duì)微博的海量信息進(jìn)行挖掘,發(fā)現(xiàn)微博中的新興熱點(diǎn)事件能有效地幫助用戶找到感興趣的話題。 本文主要的研究方向是新興熱點(diǎn)事件的檢測(cè),定義新興熱點(diǎn)事件為何時(shí)(when)、何地(where)正在或者即將要發(fā)生的事件(what)。

        新興熱點(diǎn)事件需要在正確的時(shí)間檢測(cè)出來,特別是某些事件,如自然災(zāi)害、傳染疾病和危害巨大的襲擊等事件如果在早期就能檢測(cè)出來能有效地幫助政府或者個(gè)人及時(shí)預(yù)防和處理相關(guān)事件,從而盡量減少不必要的傷害和損失。針對(duì)上述問題本文提出一種基于影響力的微博新興熱點(diǎn)事件檢測(cè)算法IEED。該算法運(yùn)用微博帖子的轉(zhuǎn)發(fā)、評(píng)論次數(shù)和用戶的粉絲數(shù)量計(jì)算微博的影響力,同時(shí)運(yùn)用不同時(shí)間段發(fā)布的微博數(shù)量對(duì)事件的新興程度進(jìn)行界定,綜合考慮進(jìn)行新興熱點(diǎn)事件檢測(cè)。

        1相關(guān)工作

        傳統(tǒng)的文本話題發(fā)現(xiàn)方法是將文本看作向量,然后運(yùn)用聚類的方法找出熱點(diǎn)話題。當(dāng)前多數(shù)事件檢測(cè)研究工作都是針對(duì)文本新聞和網(wǎng)頁新聞的,但是隨著微博用戶的迅速增長(zhǎng),微博文本的相關(guān)研究已經(jīng)成為熱點(diǎn),針對(duì)微博事件檢測(cè)的研究,國(guó)內(nèi)外也已經(jīng)取得了很多成果。

        不管是針對(duì)新聞文本還是微博文本,事件檢測(cè)的相關(guān)工作都主要是TDT(topic detection and tracking)[1]。微博事件檢測(cè)方面國(guó)內(nèi)外已有大量的研究。Sayyadi等人在文獻(xiàn)[2]中提出了一種構(gòu)造關(guān)鍵詞圖(KeyGraph)檢測(cè)博客中事件的算法,算法檢測(cè)效果顯著,但是算法檢測(cè)到的事件數(shù)量取決于閾值的設(shè)定,而且沒有對(duì)得到的結(jié)果進(jìn)行評(píng)估。Ozdikis等人在文獻(xiàn)[3]中提出一種Twitter下基于主題標(biāo)簽(Hashtag)聚類的事件檢測(cè)方法,但是在該方法中每個(gè)tweet只用一個(gè)主題標(biāo)簽標(biāo)記,這樣會(huì)忽略一些重要的事件。童薇等人在文獻(xiàn)[8]中提出一種基于微博數(shù)據(jù)文本特征的事件檢測(cè)算法(EMD),但是該算法沒有增量地對(duì)事件進(jìn)行檢測(cè)。李鳳嶺等人在文獻(xiàn)[9]中研究了基于LDA 模型的微博話題發(fā)現(xiàn)技術(shù);郭跇秀等人綜合考慮用戶影響力和微博本身的文本特征和傳播特征提出一種微博突發(fā)事件檢測(cè)方法[11]。

        在微博新興標(biāo)題和事件檢測(cè)方面,國(guó)內(nèi)外研究都很稀少。Cataldi等人在文獻(xiàn)[4]中提出了一種檢測(cè)新興標(biāo)題的方法,但是該方法需要運(yùn)用到用戶權(quán)限計(jì)算權(quán)值,在現(xiàn)實(shí)中用戶權(quán)限是很難收集全的。Alvanaki等人提出一種跟蹤標(biāo)簽關(guān)聯(lián)項(xiàng)的新興標(biāo)題檢測(cè)方法,開始的種子標(biāo)簽從當(dāng)前滑動(dòng)窗口選擇獲得[5]。Unankard等人在文獻(xiàn)[6]中提出了一種基于位置信息的新興熱點(diǎn)事件檢測(cè)方法,該方法檢測(cè)效果很好,但是需要用到發(fā)布微博的位置信息,用戶有可能不愿意透露自己的位置信息。

        與上述方法不同,本文綜合考慮微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)及發(fā)布微博用戶的粉絲數(shù)量,得到微博帖子的影響力,并運(yùn)用微博帖子的影響力計(jì)算事件的熱點(diǎn)值。同時(shí)考慮事件各個(gè)時(shí)間段包含帖子的數(shù)量對(duì)事件新興性進(jìn)行評(píng)定,提出一種基于影響力的微博新興熱點(diǎn)事件檢測(cè)算法IEED。運(yùn)用此算法能在早期有效的從微博帖子中檢測(cè)出新興熱點(diǎn)事件。在進(jìn)行事件摘要時(shí)提取出與主題最相關(guān)的關(guān)鍵詞(what、where、who)、事件最早發(fā)帖時(shí)間(when),總結(jié)出事件摘要。

        2IEED算法結(jié)構(gòu)

        本文的IEED算法主要分為三個(gè)步驟:微博數(shù)據(jù)預(yù)處理、微博文本聚類和新興熱點(diǎn)事件檢測(cè),算法的詳細(xì)結(jié)構(gòu)如圖1所示。

        圖1 IEED算法結(jié)構(gòu)

        2.1微博文本預(yù)處理

        微博文本通常簡(jiǎn)短且含有很多噪聲數(shù)據(jù),為了加快算法處理的效率和提高檢測(cè)的精確度,在進(jìn)行新興熱點(diǎn)事件檢測(cè)之前需要對(duì)微博文本進(jìn)行預(yù)處理,去除噪聲數(shù)據(jù),保留高質(zhì)量的微博數(shù)據(jù)。微博數(shù)據(jù)主要由用戶ID、用戶名、發(fā)布時(shí)間、發(fā)布地址、內(nèi)容、粉絲數(shù)量、轉(zhuǎn)發(fā)次數(shù)、評(píng)論次數(shù)等組成,表1詳細(xì)展示了新浪微博數(shù)據(jù)的字段。其中F表示該用戶的粉絲數(shù)量(關(guān)注他的用戶總數(shù)),R和C分別表示該條微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)。

        表1 新浪微博帖子字段

        在微博帖子中提取出微博內(nèi)容、發(fā)布時(shí)間、轉(zhuǎn)發(fā)次數(shù)、評(píng)論次數(shù)和對(duì)應(yīng)發(fā)布該微博用戶的粉絲數(shù)量。對(duì)于提取出的微博內(nèi)容去除hashtag、內(nèi)嵌鏈接URL、表情符號(hào)、@后的用戶名和轉(zhuǎn)發(fā)標(biāo)記”RT”,采用中科院提供的中文分詞軟件ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[12]對(duì)微博內(nèi)容進(jìn)行分詞,分詞得到的結(jié)果去除中英文的停頓詞(stopwords),過濾掉虛詞和停用的詞。最后去除剩余關(guān)鍵詞少于三個(gè)的微博。預(yù)處理過后的微博可以表示為Di={wi,1,wi,2,…,Ri,Ci,Fu}。

        2.2微博文本聚類

        本文面對(duì)的問題是如何從給定的微博帖子中識(shí)別出事件。現(xiàn)實(shí)中一個(gè)事件往往對(duì)應(yīng)多條微博,而在大多數(shù)情況下每條微博只討論了一個(gè)事件,本文只考慮每條微博只討論一個(gè)事件的情況。微博中討論的事件的數(shù)量非常大,不知道到底有多少事件正在被討論,因此本文運(yùn)用層次聚類自動(dòng)將微博帖子聚類為事件集。同時(shí)為了處理大量流入的微博文本,運(yùn)用滑動(dòng)窗口來跟蹤控制微博文本流入系統(tǒng),窗口的大小可以設(shè)定為文本的具體數(shù)量或者一定的時(shí)間段。本文運(yùn)用時(shí)間段來定義窗口大小,如5小時(shí)。1天等,時(shí)間段的大小可以隨著實(shí)際情況做出改變。此外,以前時(shí)間段的聚類事件會(huì)作為歷史聚類記錄在系統(tǒng)中,因?yàn)楹竺嬗?jì)算事件的新興評(píng)分時(shí)會(huì)用到。

        本文選用增強(qiáng)規(guī)范化詞頻[14]計(jì)算詞匯在每個(gè)微博帖子中的權(quán)重,該方法能降低微博長(zhǎng)度對(duì)權(quán)重計(jì)算的干擾,具體計(jì)算公式如下:

        (1)

        微博文本具有內(nèi)容較短的特點(diǎn),預(yù)處理后得到的詞匯較少,本文選用余弦相似性函數(shù)計(jì)算已經(jīng)存在的聚類和新進(jìn)入系統(tǒng)微博帖子間的相似性,計(jì)算公式如下:

        (2)

        其中,Di是微博帖子i,C是聚類的中心點(diǎn),wi,j是詞匯j在Di中的權(quán)重。

        本文選用引導(dǎo)者-追隨者聚類[7]算法,當(dāng)進(jìn)入系統(tǒng)的微博帖子的時(shí)間跨度大于滑動(dòng)窗口大小時(shí),系統(tǒng)開始聚類。當(dāng)新的微博帖子進(jìn)入系統(tǒng)時(shí),系統(tǒng)會(huì)計(jì)算它與已存在聚類之間的相似度,如果相似度大于預(yù)先設(shè)定的閾值時(shí),記錄下來,最后把微博加入與其相似度最大的聚類中(相似度大于閾值的聚類);如果微博文本和已存在的所有聚類的相似度都小于閾值,則建立一個(gè)新的聚類,將微博加入。計(jì)算微博帖子和已存在聚類的相似度時(shí),每個(gè)聚類都用質(zhì)心替代(質(zhì)心的凝聚力很強(qiáng),能代表該聚類),這有利于提高系統(tǒng)聚類的速度和效率。最后是聚類間的合并,合并最相似的聚類,計(jì)算聚類間的余玄相似性,如果相似度大于閾值,則合并兩個(gè)聚類。

        2.3新興熱點(diǎn)事件檢測(cè)

        2.3.1計(jì)算事件熱點(diǎn)評(píng)分

        新興熱點(diǎn)事件檢測(cè)需要事件的熱點(diǎn)評(píng)分,計(jì)算事件的熱點(diǎn)評(píng)分需要用到微博影響力,本文綜合考慮微博用戶的粉絲數(shù)量和微博帖子的轉(zhuǎn)發(fā)、評(píng)論次數(shù)得到微博帖子的影響力。

        計(jì)算微博影響力評(píng)分InfScorei,需要微博用戶的粉絲數(shù)量評(píng)分、微博轉(zhuǎn)發(fā)和評(píng)論次數(shù)評(píng)分,定義微博用戶粉絲數(shù)量評(píng)分FNScoreu的計(jì)算公式如下:

        (3)

        其中,F(xiàn)u為用戶u的粉絲數(shù)量,F(xiàn)max為粉絲數(shù)最多的用戶的粉絲數(shù)量。因?yàn)楝F(xiàn)實(shí)中用戶粉絲數(shù)量相差非常大,為了消除數(shù)量級(jí)之間的差距,對(duì)用戶粉絲數(shù)量取對(duì)數(shù),添加平滑因子1是為了保證對(duì)數(shù)底數(shù)大于0。

        不同于Twitter,中國(guó)的微博用戶中存在大量的僵尸粉和活躍度很低的用戶,用戶的粉絲數(shù)不能完全說明該條微博的影響力。所以微博影響力不能簡(jiǎn)單的只運(yùn)用用戶粉絲數(shù)來評(píng)定,因此本文加入微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)更直觀地說明微博的影響力,微博轉(zhuǎn)發(fā)、評(píng)論次數(shù)評(píng)分RCScorei計(jì)算公式如下:

        (4)

        其中,Ri和Ci分別為微博帖子Di的轉(zhuǎn)發(fā)次數(shù)、評(píng)論次數(shù),取對(duì)數(shù)同樣是為了消除數(shù)量級(jí)的影響;r為轉(zhuǎn)發(fā)、評(píng)論次數(shù)之和取對(duì)數(shù)后的一個(gè)閥值,當(dāng)微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)之和取對(duì)數(shù)后的值大于該閥值時(shí)認(rèn)為微博轉(zhuǎn)發(fā)、評(píng)論次數(shù)評(píng)分為1。

        運(yùn)用粉絲數(shù)量評(píng)分和微博轉(zhuǎn)發(fā)、評(píng)論次數(shù)評(píng)分計(jì)算微博帖子Di的影響力評(píng)分InfScorei,計(jì)算公式如下:

        InfScorei=α×FNScoreu+(1-α)×RCScorei

        (5)

        其中,F(xiàn)NScoreu為發(fā)布該微博的用戶粉絲數(shù)量評(píng)分,RCScorei為微博轉(zhuǎn)發(fā)、評(píng)論次數(shù)評(píng)分,α∈[0,1]設(shè)置用戶粉絲數(shù)量評(píng)分和轉(zhuǎn)發(fā)、評(píng)論次數(shù)評(píng)分各自所占的比重,本文設(shè)置α=0.5。

        最后,聚類事件C的熱點(diǎn)評(píng)分HotScorec根據(jù)聚類中微博帖子的影響力計(jì)算得到,具體計(jì)算公式如下:

        (6)

        其中,Di為聚類C中發(fā)布的微博帖子,InfScorei為Di的影響力評(píng)分,NC是聚類C中包含的微博帖子數(shù)量,由前面的計(jì)算公式分析可以知道HotScoreC的取值范圍為[0,1]。熱點(diǎn)評(píng)分將會(huì)在接下來計(jì)算事件的新興熱點(diǎn)評(píng)分中用到,最終會(huì)選擇出top-k評(píng)分的事件作為檢測(cè)出的新興熱點(diǎn)事件推薦給用戶。

        2.3.2新興熱點(diǎn)事件檢測(cè)

        本文的研究的目的是為了檢測(cè)出新興熱點(diǎn)事件,所有以前時(shí)間段發(fā)生的事件都不是新興熱點(diǎn)事件?,F(xiàn)實(shí)生活中有些事件的微博發(fā)布數(shù)量增長(zhǎng)得非??斓€是過去發(fā)生的事件,所以微博當(dāng)前階段發(fā)布的數(shù)量不能作為判定事件是否為新興熱點(diǎn)事件的唯一條件。本文運(yùn)用增長(zhǎng)率作為事件新興性的評(píng)定條件,增長(zhǎng)率定義為事件當(dāng)前時(shí)間段包含微博帖子數(shù)量和以前時(shí)間段包含微博帖子的平均值加上標(biāo)準(zhǔn)差的比值。

        計(jì)算事件的新興熱點(diǎn)評(píng)分首先需要計(jì)算事件C以前時(shí)間段平均包含的微博帖子數(shù)量和標(biāo)準(zhǔn)差。當(dāng)增長(zhǎng)率大于等于1時(shí)將事件列為候選新興熱點(diǎn)事件,同時(shí)計(jì)算事件的新興熱點(diǎn)評(píng)分,事件C在當(dāng)前時(shí)間段的新興熱點(diǎn)評(píng)分EmergScoreC計(jì)算公式如下:

        (7)

        其中,HotScoreC為事件C的熱點(diǎn)評(píng)分,NC為事件C當(dāng)前時(shí)間段微博帖子數(shù)量,Meanprev和SDprev分別為事件C以前時(shí)段平均包含的微博帖子數(shù)量和標(biāo)準(zhǔn)差。

        計(jì)算所有增長(zhǎng)率大于等于1的事件的新興熱點(diǎn)評(píng)分,并按照新興熱點(diǎn)評(píng)分大小降序排序,選出top-k的事件作為IEED系統(tǒng)檢測(cè)結(jié)果,并給出事件摘要。

        2.3.3事件摘要

        為了更好地理解每個(gè)事件具體談?wù)摰膬?nèi)容,為用戶提供更加直觀可讀的事件歸納,需要對(duì)每個(gè)事件作事件摘要。本文提取關(guān)鍵詞(what、who、where)和事件發(fā)生時(shí)間(when)作為事件摘要。提取關(guān)鍵詞時(shí),希望提取出最能表達(dá)事件主題的關(guān)鍵詞,采用童薇等人在文獻(xiàn)[8]中提出的方法提取事件的關(guān)鍵詞和時(shí)間作為事件摘要,主要思路分為以下二個(gè)步驟:(1) 提取出關(guān)鍵詞;(2) 提取出事件發(fā)生的最早時(shí)間。

        采用詞匯wj在事件C包含的微博帖子中出現(xiàn)的總次數(shù)w_countj來度量一個(gè)詞匯和該事件主題的相關(guān)性。同時(shí)考慮微博的轉(zhuǎn)發(fā)和評(píng)論次數(shù)對(duì)關(guān)鍵詞的影響,采用轉(zhuǎn)發(fā)、評(píng)論次數(shù)之和加權(quán)進(jìn)一步計(jì)算關(guān)鍵詞與主題的相關(guān)性,因?yàn)檗D(zhuǎn)發(fā)、評(píng)論次數(shù)一定程度反應(yīng)了微博帖子的影響力,從而在一定程度上可以影響出現(xiàn)在該微博中的詞匯。由于兩條微博的轉(zhuǎn)發(fā)和評(píng)論次數(shù)相差可能非常大,可能出現(xiàn)數(shù)量級(jí)的差距,所以對(duì)微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)之和取對(duì)數(shù)以消除數(shù)量級(jí)的差異。由于某條微博的轉(zhuǎn)發(fā)和評(píng)論次數(shù)之和可能為0,但是對(duì)數(shù)的自變量必須大于0,所以在計(jì)算公式中加一個(gè)平滑因子1。具體計(jì)算公式如下:

        (8)

        其中,w_currenti,j為詞匯wj在微博帖子Di中出現(xiàn)的次數(shù),Ri和Ci分別為Di的轉(zhuǎn)發(fā)和評(píng)論次數(shù)。

        計(jì)算出事件C中所有詞匯與該事件的相關(guān)性,對(duì)w_countj進(jìn)行降序排序,取出top-k個(gè)詞匯作為事件C的關(guān)鍵詞,即為事件摘要的what、who、where。

        提取出事件C的主題后,還需要提取出事件C最早發(fā)生時(shí)間,提取出事件C中最早發(fā)布的微博帖子的時(shí)間作為事件的發(fā)生時(shí)間when,本文的時(shí)間精確度只到某天。

        3實(shí)驗(yàn)結(jié)果及分析

        3.1數(shù)據(jù)集

        采用新浪微博提供的API接口,收集了從2012年9月30日至2012年10月22日間712 543條微博帖子,同時(shí)獲取到微博帖子的轉(zhuǎn)發(fā)、評(píng)論次數(shù)及微博用戶的粉絲數(shù)量。收集到的微博帖子包含字段如表1所示。

        3.2實(shí)驗(yàn)結(jié)果

        3.2.1評(píng)估指標(biāo)

        傳統(tǒng)的信息檢索評(píng)估中,精確度(precision)和召回率(recall)是兩個(gè)重要的指標(biāo)。本文采用文獻(xiàn)[10]中的定義精確度,如下:

        (9)

        由于沒有專門的工具能給出數(shù)據(jù)集中檢測(cè)到的事件是否真實(shí)發(fā)生,本文采用百度新聞搜索檢測(cè)所有事件,如果能搜索出相關(guān)事件的新聞則認(rèn)為該事件為真實(shí)發(fā)生過的事件。

        召回率(recall)是指實(shí)驗(yàn)結(jié)果檢測(cè)到的事件占數(shù)據(jù)集中現(xiàn)實(shí)生活中所有真實(shí)事件的比例。因?yàn)闊o法知道數(shù)據(jù)集內(nèi)描述現(xiàn)實(shí)世界發(fā)生事件的總數(shù),本文采用文獻(xiàn)[13]中定義的召回率,由于檢測(cè)出的事件中可能有多個(gè)事件都對(duì)應(yīng)現(xiàn)實(shí)中的一個(gè)事件,召回率定義為:

        (10)

        精確度和召回率將作為本文的評(píng)估指標(biāo)對(duì)本文提出的IEED算法得到的實(shí)驗(yàn)結(jié)果作出評(píng)估。

        3.2.2實(shí)驗(yàn)結(jié)果及分析

        在數(shù)據(jù)集上用KeyGraph[2]算法與本文提出的算法IEED比較,具體實(shí)驗(yàn)結(jié)果如表2所示。比較后可以發(fā)現(xiàn)采用本文提出IEED算法能以0.691的精確度高效地檢測(cè)出微博中的新興熱點(diǎn)事件,比KeyGraph 算法的0.420高出很多。同時(shí)IEED算法檢測(cè)出的真實(shí)發(fā)生事件的總量也遠(yuǎn)高于KeyGraph算法,同時(shí)也具有很高的召回率。表3、表4為檢測(cè)出的具體事件的例子。

        表2 KeyGraph和IEED算法檢測(cè)結(jié)果

        表3 KeyGraph算法檢測(cè)出的結(jié)果(2012年10月11日)

        表4 IEED算法檢測(cè)出的結(jié)果(2012年10月11日)

        4結(jié)語

        本文基于微博的數(shù)據(jù)特征,運(yùn)用微博用戶的粉絲數(shù)量,微博的轉(zhuǎn)發(fā)、評(píng)論次數(shù)計(jì)算得到微博的影響力,提出了一種基于影響力的微博新興熱點(diǎn)事件檢測(cè)方法IEED。實(shí)驗(yàn)結(jié)果證明,本方法能在早期有效地檢測(cè)出微博中的新興熱點(diǎn)事件,具有很高的事件檢測(cè)精確度,同時(shí)能生成直觀可讀的事件摘要。

        由于微博數(shù)據(jù)量大、文本短、噪聲數(shù)據(jù)多的特點(diǎn)給微博熱點(diǎn)事件檢測(cè)帶來很大的挑戰(zhàn)。本文在綜合考慮微博數(shù)據(jù)多樣化的特征進(jìn)行熱點(diǎn)事件檢測(cè)上做了初步的探索。如何盡可能多的去除噪聲數(shù)據(jù)提高數(shù)據(jù)質(zhì)量、如何消除微博數(shù)據(jù)稀疏的特征以及如何進(jìn)一步提高新興熱點(diǎn)事件檢測(cè)的精確度和召回率,將是未來工作中需要研究的重點(diǎn)。

        參考文獻(xiàn)

        [1] Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,Feb 1998:194-218.

        [2] Sayyadi H,Hurst M,Maykov A.Event detection andtrackingin social streams[C]//Proceedings of the 3rd InternationalAAAI Conference on Weblogs and Social Media (ICWSM 09),San Jose,California,USA,May 17-20,2009:311-314.

        [3] Ozdikis O,Senkul P,Oguztuzun H.Semantic expansion of hashtags for enhanced event detection in Twitter[C]//Proceedings of the 1st International Workshop on Online Social Systems(WOOS),2012.

        [4] Cataldi M,Di Caro L,Schifanella C.Emerging topic detection on twitter based on temporal and social terms evaluation[C]//Proceedings of the Tenth International Workshop on Multimedia Data Mining(MDMKDD).ACM,2010:4.

        [5] Alvanaki F,Michel S,Ramamritham K,et al.See what’s enblogue:real-time emergent topic identification in social media[C]//Proceedings of the 15th International Conference on Extending Database Technology.ACM,2012:336-347.

        [6] Unankard S,Li X,Sharaf M A.Location-based emerging event detection in social networks[M].Web Technologies and Applications.Springer Berlin Heidelberg,2013.

        [7] Duds R O,Hart P E.Pattern classification and scene analysis[M].A Wiley lnterscience Publication,John Wiley and Sons,Inc,1973.

        [8] 童薇,陳威,孟小峰.EDM:高效的微博事件檢測(cè)算法[J].計(jì)算機(jī)科學(xué)與探索,2012,6(12):1076-1086.

        [9] 李鳳嶺,朱保平.基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(10):24-26,66.

        [10] Weng J,Lee B S.Event Detection in Twitter[J].Proceedings of Association for the Advancement of Artificial Intelligence,2011(11):401-408.

        [11] 郭跇秀,呂學(xué)強(qiáng),李卓.基于突發(fā)詞聚類的微博突發(fā)事件檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2014,34(2):486-490.

        [12] Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17.Association for Computational Linguistics,2003:184-187.

        [13] Li C,Sun A,Datta A.Twevent: segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:155-164.

        [14] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management,1988,24(5):513-523.

        INFLUENCE-BASED DETECTION OF EMERGING HOT EVENTS IN MICROBLOGS

        Li HuaZhu Li

        (SchoolofComputer,ChongqingUniversity,Chongqing400044,China)

        AbstractTo accurately and efficiently mine the hot events on occurrence from microblogs is the focus of research in recent years. In this paper we propose an influence-based emerging hot events detection (IEED) approach by comprehensively considering the fans number of microblogging users and the influence of each microblog calculated from the number of its forwarding and comments. The approach uses hierarchical clustering to cluster the microblogging messages into event set, and extracts the keywords in the events to form event abstracts. We tested the approach presented in the paper by using the experimental dataset set up from Sina microblogging data in real life, the experimental result proved that the influence-based IEED could efficiently detect the emerging hot events in microblogs at early time, and had certain applied value.

        KeywordsEmerging events detectionMicroblog influenceClustering

        收稿日期:2014-11-18。李華,副教授,主研領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò),網(wǎng)絡(luò)教育,大數(shù)據(jù)。朱荔,碩士。

        中圖分類號(hào)TP391

        文獻(xiàn)標(biāo)識(shí)碼A

        DOI:10.3969/j.issn.1000-386x.2016.05.025

        猜你喜歡
        用戶檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        亚洲一区日本一区二区| 中文字幕乱伦视频| 国产视频导航| 亚洲青涩在线不卡av| 综合91在线精品| 国产性感主播一区二区| 性人久久久久| 欧美一区二区三区激情| 天天狠天天透天干天天| av男人的天堂手机免费网站| 人妻久久久一区二区三区蜜臀| 日日澡夜夜澡人人高潮| 视频国产精品| 日本久久大片中文字幕| 欧美精品国产综合久久| 亚洲免费观看在线视频| 国产精品无码久久AⅤ人妖| 性生大片免费观看性少妇| 国产色xx群视频射精| 精品人无码一区二区三区 | 国产亚洲人成a在线v网站| 亚洲h电影| av免费在线播放观看| 在线亚洲高清揄拍自拍一品区| 欧美情侣性视频| 国产精品一区二区日韩精品| 国产精品黑丝高跟在线粉嫩| 亚洲精品无码不卡在线播放he| 91亚洲精品福利在线播放| 日本免费大片一区二区三区 | 97在线观看| 国产精品欧美韩国日本久久| 青青草视频在线观看绿色| 亚洲精品一品区二品区三品区| 国产精品片211在线观看| 少妇激情一区二区三区| 免费无遮挡无码永久在线观看视频 | 日本精品视频免费观看| 久久人人爽人人爽人人av| 在线亚洲AV不卡一区二区| 日本亚洲中文字幕一区|