亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)方法*

        2018-03-21 06:25:42賈彩燕
        數(shù)據(jù)采集與處理 2018年1期
        關(guān)鍵詞:方法

        李 偉 賈彩燕

        (1.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京,100044; 2.交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京,100044)

        引 言

        微博作為一種重要的信息交流平臺(tái),得到了廣泛的關(guān)注和使用。由于微博是一個(gè)公平、開放的交流平臺(tái),越來越多的組織、機(jī)構(gòu)通過官方微博發(fā)布信息或?qū)ν话l(fā)事件做出回應(yīng),明星和企業(yè)也將微博當(dāng)作自我展示的一個(gè)重要渠道。同時(shí),一些事件通過微博用戶的爆料后成為熱點(diǎn)話題被大眾所關(guān)注。微博顛覆了傳統(tǒng)的信息傳播方式,以媒體為主導(dǎo)的新聞傳播方式正在面臨挑戰(zhàn)。微博平臺(tái)使得人人都能成為記者,人人都可以報(bào)道新聞。正是因?yàn)槲⒉┬畔鬟f過程中的方便和自由,對微博平臺(tái)的管理和微博信息分析變得更具挑戰(zhàn)性。微博平臺(tái)擁有著龐大的數(shù)據(jù)量,如何挖掘和處理這些數(shù)據(jù)已成為海內(nèi)外學(xué)者的研究熱點(diǎn),其中微博平臺(tái)的話題發(fā)現(xiàn)方法是微博研究領(lǐng)域的一個(gè)重點(diǎn)課題。

        傳統(tǒng)文本處理領(lǐng)域中使用的話題檢測與追蹤(Topic detection and tracking, TDT)[1-2]技術(shù)已經(jīng)日趨成熟。在進(jìn)行微博話題發(fā)現(xiàn)的時(shí)候借鑒了傳統(tǒng)話題檢測與跟蹤中使用的方法。其大體思路是:以詞為特征使用向量空間模型(Vector space model,VSM)[3]將微博文本轉(zhuǎn)化到空間向量,并且使用詞頻-逆向文檔頻率(Term frequency-inverse document frequency,TF-IDF)方法計(jì)算每一維的權(quán)重,然后使用聚類方法將相同話題下的微博文本劃分成一個(gè)微博話題簇。周剛等人[4]提出了基于組合相似度的微博話題發(fā)現(xiàn)方法MB-SinglePass來提升聚類效果;鄭斐然等人[5]提出了一種基于詞聚類的新聞話題發(fā)現(xiàn)方法;Li等人[6]提出了一種改進(jìn)的基于增量聚類的微博話題發(fā)現(xiàn)方法。然而由于微博文本被限制在了140個(gè)字以內(nèi),使用空間向量對微博文本進(jìn)行建模存在嚴(yán)重的數(shù)據(jù)稀疏和維度過高問題。為了解決這個(gè)問題,Huang等人[7]提出了一種基于LDA主題模型和潛在語義分析的微博話題發(fā)現(xiàn)方法。由于微博主題分散、更新速度快且數(shù)據(jù)量大,使用LDA主題模型進(jìn)行微博話題發(fā)現(xiàn)時(shí)存在計(jì)算量大的問題。趙文清等人[8]提出了一種基于網(wǎng)絡(luò)圖的微博新聞話題發(fā)現(xiàn)方法,該方法先找到微博文本中出現(xiàn)的高頻詞,然后計(jì)算高頻詞之間的共現(xiàn)度,使用共現(xiàn)度高于閾值共現(xiàn)詞,構(gòu)建共現(xiàn)圖呈現(xiàn)潛在的話題。

        詞共現(xiàn)關(guān)系常被用在分析各個(gè)學(xué)科研究領(lǐng)域的研究主題[8-9],是指幾個(gè)詞在同一文章或者句子、段落而構(gòu)成的共現(xiàn)關(guān)系。當(dāng)幾個(gè)詞頻繁地出現(xiàn)在一起的時(shí)候,它們之間很可能存在語義上的關(guān)系。隨著復(fù)雜網(wǎng)絡(luò)研究的深入,復(fù)雜網(wǎng)絡(luò)中的一些方法在多個(gè)領(lǐng)域得到了應(yīng)用。本文將復(fù)雜網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)方法應(yīng)用到微博主題識(shí)別領(lǐng)域,提出了一種基于詞共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)方法:基于詞共現(xiàn)網(wǎng)絡(luò)的話題發(fā)現(xiàn)方法(Topic detection in freqent word network,TDFWN)。該方法首先挖掘微博中的k-頻繁詞集(k≥3),對微博k-頻繁項(xiàng)集中的詞構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),然后利用社區(qū)劃分的方法對其進(jìn)行社區(qū)劃分。每一個(gè)社區(qū)對應(yīng)一個(gè)微博熱點(diǎn)話題。最后,以這些話題社區(qū)為聚類中心點(diǎn),找到微博話題簇。實(shí)驗(yàn)結(jié)果顯示TDFWN方法進(jìn)行微博話題發(fā)現(xiàn)時(shí),能夠準(zhǔn)確快速地找出微博中的熱門話題,并且實(shí)現(xiàn)了對大量短文本的快速聚類。

        1 TDFWN方法

        TDFWN方法基于詞共現(xiàn)模型基本假設(shè):在大規(guī)模的語料中,如果某些詞經(jīng)常共同出現(xiàn)在同一窗口(如一句話,一條微博),則他們在語義上是關(guān)聯(lián)的。共同出現(xiàn)的一組詞,通常會(huì)被用來表述同一個(gè)主題?;谠~共現(xiàn)社區(qū)的微博話題發(fā)現(xiàn)方法TDFWN可分為4個(gè)步驟:數(shù)據(jù)預(yù)處理、頻繁詞集挖掘、詞共現(xiàn)社區(qū)發(fā)現(xiàn)及微博話題簇獲取(算法流程見圖1)。數(shù)據(jù)預(yù)處理對微博數(shù)據(jù)進(jìn)行篩選和切詞,并且過濾掉一些微博平臺(tái)常見的無主題高頻詞組,例如:“轉(zhuǎn)發(fā)微博”“美圖秀秀手機(jī)端發(fā)送”等。頻繁詞集挖掘使用FP-Growth算法挖掘微博文本中頻繁出現(xiàn)的詞集,然后利用頻繁詞集中的共現(xiàn)關(guān)系構(gòu)建共現(xiàn)網(wǎng)絡(luò)。詞共現(xiàn)社區(qū)發(fā)現(xiàn)對詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,劃分出的每一個(gè)社區(qū)都是一個(gè)微博話題。微博話題簇獲取利用計(jì)算微博話題與微博文本相似度的方法找到微博話題簇。

        圖1 TDFWN方法流程
        Fig.1 Flow chart of TDFWN method

        1.1 數(shù)據(jù)預(yù)處理

        微博數(shù)據(jù)的預(yù)處理包括對微博的篩選、微博文本切詞以及特殊詞過濾。微博數(shù)據(jù)是一系列相互獨(dú)立的短文本,通常微博文本不超過140個(gè)字。微博文本中存在大量的非正式用語以及表情符號(hào)。其中,“@用戶名”這種表達(dá)方式用來提到某個(gè)用戶,“#主題#”用來參與某個(gè)主題的討論。微博的內(nèi)容大部分是無主題的,為了提高話題發(fā)現(xiàn)的效果,本文采用以下方法對微博數(shù)據(jù)進(jìn)行過濾。

        (1) 忽略粉絲數(shù)量和關(guān)注數(shù)量小于閾值的用戶所發(fā)布的微博,粉絲和關(guān)注較少的用戶可能是僵尸用戶或者是不活躍用戶。

        (2) 忽略微博數(shù)量少于閾值的用戶所發(fā)布的微博,發(fā)布微博少的用戶,在微博平臺(tái)上不活躍,他們的微博很少涉及熱點(diǎn)話題。

        (3) 忽略文本長度小于閾值的微博,文字?jǐn)?shù)量較少的微博通常沒有明確的主題。

        (4) 忽略某些特殊用戶所發(fā)布的微博,微博平臺(tái)上存在著一些特別用途的賬號(hào),例如:發(fā)廣告、推銷產(chǎn)品、發(fā)布笑話等。這些用戶發(fā)布的微博有特定的目的,對話題發(fā)現(xiàn)有一定的干擾。

        中文切詞工具有很多種[10],如中科院的NLPIR/ICTCLAS漢語分詞系統(tǒng)和Java 開源工具Jcseg。Jcseg是一款開源的中文切詞工具,Jcseg在進(jìn)行中文切詞時(shí)有3種模式:①簡單模式-FMM算法,適合速度要求場合。②復(fù)雜模式-MMSEG算法,能夠有效地去除歧義,分詞準(zhǔn)確率達(dá)到了98.41%。③檢測模式,只返回詞庫中已有的詞條,很適合某些應(yīng)用場合。另外,Jcseg較好地支持了地名、人名等專有名詞,還支持自定義詞典,可以按照自己的需求在詞庫里加詞。Jcseg還提供了過濾功能,被加入到過濾列表的詞,在分詞過程中會(huì)被自動(dòng)過濾掉。

        停用詞是指在自然語言中具有一定功能但又沒什么實(shí)際意義的詞。這些詞往往以較高的頻率出現(xiàn),會(huì)對文本處理造成一定干擾,在自然語言處理過程中往往會(huì)將其去掉。本文在切詞過程中將出現(xiàn)的停用詞去掉。微博系統(tǒng)中有一些詞和詞組,例如:“轉(zhuǎn)發(fā)”“微博”“手機(jī)微博客戶端發(fā)送”等,會(huì)以較高的頻率出現(xiàn),但沒有實(shí)際含義,也和停用詞一起去掉。

        1.2 頻繁詞集挖掘

        詞共現(xiàn)模型是統(tǒng)計(jì)自然語言處理領(lǐng)域的重要模型之一[11]。詞共現(xiàn)模型假設(shè)在大規(guī)模的語料中,如果某些詞經(jīng)常共同出現(xiàn)在同一窗口(如一句話,一條微博),則他們在語義上是關(guān)聯(lián)的。共同出現(xiàn)的一組詞,通常會(huì)被用來表述同一個(gè)主題。例如:在同一時(shí)間段的微博文本中,“冰桶”“挑戰(zhàn)”“ASL”這組詞以較高頻率共同出現(xiàn)在同一條微博中。這3個(gè)詞的組合描述了“ASL冰桶挑戰(zhàn)賽”這一話題,包含這3個(gè)詞的微博很可能和這一話題相關(guān)。

        定義1頻繁詞集:設(shè)W={w1,w2,w3,…,wn}為n條微博文本,微博文本wi(i=1,2,…,n)的詞集合為Ci,Ci={ci1,ci2,ci3,…,cin},其中cij是wi的第j個(gè)詞。T為W中所有微博詞的集合,T={t1,t2,t3,…,tN}。詞集U為T的子集,定義U的支持度SUP(U)=W(U),其中W(U)為W中包含詞集U的微博的條數(shù)。當(dāng)SUP(U)大于閾值θ的時(shí)候,稱U為一個(gè)頻繁詞集。

        本文使用FP-GROWTH算法[12]挖掘k頻繁詞(k指頻繁項(xiàng)集項(xiàng)的個(gè)數(shù))。將經(jīng)過數(shù)據(jù)預(yù)處理的微博文本作為頻繁詞集挖掘的輸入,最小支持度SUP取3%。k為1和k為2的頻繁詞集包含大量的噪聲,因此將其舍棄。

        1.3 詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建

        使用從微博網(wǎng)絡(luò)中挖掘出的k頻繁詞集(k≥3)中的詞匯作為網(wǎng)絡(luò)中的點(diǎn),詞和詞之間的共現(xiàn)關(guān)系作為邊,構(gòu)建詞共現(xiàn)網(wǎng)絡(luò)。使用復(fù)雜網(wǎng)絡(luò)中常用的數(shù)據(jù)格式NET來描述詞共現(xiàn)網(wǎng)絡(luò),常用的復(fù)雜網(wǎng)絡(luò)分析工具,例如:Pajek(Pajek是大型復(fù)雜網(wǎng)絡(luò)分析工具,是用于研究目前所存在的各種復(fù)雜非線性網(wǎng)絡(luò)的有力工具)[13]、Gephi(Gephi是一款開源免費(fèi)跨平臺(tái)基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件)[14]等都支持該格式的網(wǎng)絡(luò)描述文件。NET文件分為*Vertices和*Edges兩部分內(nèi)容,Vertices描述了網(wǎng)絡(luò)中存在的節(jié)點(diǎn),Vertices描述了節(jié)點(diǎn)之間的關(guān)系。假設(shè){A, B, C}是從微博語料中挖掘出的一個(gè)頻繁詞集,將該集合以NET格式進(jìn)行描述,結(jié)果如下所示。

        *Vertices

        1 “A”

        2 “B”

        3 “C”

        *Edges

        1 2

        1 3

        2 3

        將從微博文本中挖掘到的全部頻繁項(xiàng)集整合成節(jié)點(diǎn)的集合Vertices Set和邊的集合 Edges Set,兩個(gè)集合依次輸出到NET文件中。

        1.4 微博話題簇獲取

        社區(qū)是復(fù)雜網(wǎng)絡(luò)中的常見現(xiàn)象,它由一群高度聚集、緊密聯(lián)系的節(jié)點(diǎn)聚集而成。社區(qū)是一種介于宏觀和微觀之間的網(wǎng)絡(luò)特征。在真實(shí)網(wǎng)絡(luò)中,同一個(gè)社區(qū)的節(jié)點(diǎn)往往具有相似的性質(zhì)或者相近的功能。在以頻繁詞集為基礎(chǔ)構(gòu)建的詞共現(xiàn)網(wǎng)絡(luò)中,同一社區(qū)內(nèi)的詞通常描述同一話題,即話題以社區(qū)的結(jié)構(gòu)出現(xiàn)。當(dāng)兩個(gè)話題有具有較多共同的特征詞時(shí),將會(huì)出現(xiàn)重疊的社區(qū)結(jié)構(gòu)。這種重疊很可能是兩個(gè)話題語義上相關(guān)造成的,也可能僅僅是因?yàn)橛邢嗤奶卣髟~。

        本文在檢查頻繁詞集共現(xiàn)網(wǎng)絡(luò)中存在的社區(qū)結(jié)構(gòu)時(shí),使用的是經(jīng)典的社區(qū)發(fā)現(xiàn)算法GN算法[13]。GN算法是一種采用分裂思想的算法,在執(zhí)行社區(qū)發(fā)現(xiàn)任務(wù)時(shí)通過不斷地移除邊介數(shù)最高的邊來對網(wǎng)絡(luò)進(jìn)行分類。邊介數(shù)是網(wǎng)絡(luò)中的邊所具有的一種屬性,是指在一個(gè)網(wǎng)絡(luò)中全部經(jīng)過了這個(gè)邊的兩個(gè)點(diǎn)的最短路徑的個(gè)數(shù)與網(wǎng)絡(luò)中所有經(jīng)過了這個(gè)邊的路徑的個(gè)數(shù)的比值。GN算法是一種層次化的社區(qū)發(fā)現(xiàn)算法,最后能得到不同層次的社區(qū)結(jié)構(gòu),GN算法的執(zhí)行流程如下所示:

        (1) 依次地算出待挖掘的網(wǎng)絡(luò)中每一條邊的邊介數(shù);

        (2) 找到網(wǎng)絡(luò)中邊介數(shù)最大的一條邊然后將它刪除;

        (3) 重新計(jì)算剩下的所有邊的邊介數(shù);

        (4) 重復(fù)上述幾個(gè)步驟,只到所有的邊都刪除為止。

        為了使話題發(fā)現(xiàn)結(jié)果更加直觀,TDFWN算法在得到微博話題社區(qū)后,以同一社區(qū)內(nèi)的詞(微博話題詞集)作為聚類中心點(diǎn),對W中的n條微博文本進(jìn)行聚類,以找到同一微博話題下的微博話題簇。在進(jìn)行聚類時(shí)使用單遍聚類方法,利用式(1)計(jì)算微博與微博話題詞集之間的相似度S,當(dāng)微博與微博話題詞集的相似度S大于閾值時(shí),認(rèn)為該微博是這個(gè)話題下的微博。

        設(shè)C,H為兩個(gè)詞集C={c1,c2,c3,…,ct},H={h1,h2,h3,…,hm}。計(jì)算兩個(gè)詞集相似度的時(shí)候,引入函數(shù)R(C,H)表示詞集C相對于H的相似度,表達(dá)式為

        (1)

        進(jìn)而,定義C與H相似度S(C,H)為

        (2)

        當(dāng)H與C相似度S(C,H)大于某閾值時(shí)認(rèn)為H與C是相似的。

        傳統(tǒng)的文本聚類方法處理微博數(shù)據(jù)時(shí),因?yàn)槲⒉?shù)據(jù)中存在大量噪聲,導(dǎo)致大量的微博文本無主題。因此會(huì)得到大量的無主題微博簇,聚類結(jié)果不理想。TDFWN算法首先找到微博話題的詞集,確定了聚類的中心(即微博話題),可以快速準(zhǔn)確地對微博文本聚類。

        2 實(shí) 驗(yàn)

        基于共詞網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)方法較少,目前只有趙文清等[8]基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別方法。因此,本實(shí)驗(yàn)采用趙文清等人基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別作為對照實(shí)驗(yàn)。但本文與對照實(shí)驗(yàn)的方法之間的差別主要在于:(1)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò)時(shí)所使用的關(guān)系不同,本文使用微博文本中詞的k頻繁項(xiàng)集(k≥3)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),而趙文清等人的方法利用高頻詞之間的共現(xiàn)關(guān)系構(gòu)建網(wǎng)絡(luò)。因?yàn)楸疚倪^濾掉了k≤2時(shí)的共現(xiàn)關(guān)系,因此能夠有效消除大量噪聲。(2)對照實(shí)驗(yàn)以圖的方式呈現(xiàn)微博話題發(fā)現(xiàn)結(jié)果,當(dāng)節(jié)點(diǎn)和邊過多時(shí)無法直觀地看出話題,不能自動(dòng)區(qū)分微博話題。本文采用了社區(qū)發(fā)現(xiàn)的方法對詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,當(dāng)節(jié)點(diǎn)和邊較多時(shí)也能以社區(qū)的方式將微博話題清晰地呈現(xiàn)。(3)本文在發(fā)現(xiàn)微博話題的同時(shí),實(shí)現(xiàn)了微博文本的聚類。在發(fā)現(xiàn)微博話題社區(qū)后,以話題社區(qū)內(nèi)的關(guān)鍵詞為聚類中心,采取單遍聚類的方法,將相似度大于閾值的微博文本分配到同一微博話題簇內(nèi)。

        2.1 實(shí)驗(yàn)環(huán)境

        電腦型號(hào): 聯(lián)想 ThinkPad X230 筆記本電腦。

        操作系統(tǒng): Windows 7 專業(yè)版 64位 SP1。

        處理器: 英特爾 第三代酷睿 i5-3320M @ 2.60 GHz 雙核。

        主板: 聯(lián)想 23255NC。

        內(nèi)存: 4 GB ( 三星 DDR3L 1 600 MHz)。

        主硬盤: 三星 MZ7TD128HAFV-000L1(128 GB/固態(tài)硬盤)。

        2.2 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)集是自然語言處理與信息檢索共享平臺(tái)公開的NLPIR微博內(nèi)容語料庫(見表1)。從新浪微博獲取實(shí)驗(yàn)數(shù)據(jù)有兩種方式:調(diào)用微博API,網(wǎng)絡(luò)爬蟲抓取。調(diào)用微博API會(huì)受到新浪微博系統(tǒng)API調(diào)用規(guī)則的限制,無法大規(guī)模獲取微博數(shù)據(jù)。使用網(wǎng)絡(luò)爬蟲抓取微博數(shù)據(jù)可以獲得大量的微博數(shù)據(jù),但由于微博系統(tǒng)反爬蟲措施,在技術(shù)上較難實(shí)現(xiàn)。

        表1 微博數(shù)據(jù)

        2.3 FSWCN實(shí)驗(yàn)過程與結(jié)果

        對NLPIR微博內(nèi)容語料庫2012-02-01的1 586條微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。首先進(jìn)行頻繁詞集的挖掘,選取最小支持度MINSUP為0.01,頻繁詞集挖掘部分結(jié)果如表2所示。

        表2 頻繁詞集部分結(jié)果

        頻繁詞共現(xiàn)網(wǎng)絡(luò)如圖2所示,對該網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,結(jié)果如圖3所示:本次試驗(yàn)共發(fā)現(xiàn)5個(gè)微博話題,分別對應(yīng)深藍(lán)、淺藍(lán)、紅色、綠色和紫色5個(gè)共現(xiàn)網(wǎng)絡(luò)社區(qū)。這5個(gè)社區(qū)對應(yīng)的微博話題如表3所示。

        圖2 頻繁詞共詞網(wǎng)絡(luò)Fig.2 Frequent co-word net

        圖3 社區(qū)劃分結(jié)果Fig.3 Result of community partition

        表3 微博話題

        Tab.3 Microblog topic

        編號(hào)顏色對應(yīng)微博話題編號(hào)顏色對應(yīng)微博話題1深藍(lán)南京金鎖村城管眼神盯走小販4綠色吳英案網(wǎng)民呼吁刀下留人2淺藍(lán)合肥城管年會(huì)跳斧頭幫舞蹈5紫色大陸游客香港擾亂秩序引發(fā)沖突3紅色人民日報(bào)報(bào)道公款吃喝腐敗

        使用式(2),設(shè)定相似度S閾值為0.2,進(jìn)行單遍聚類得到微博話題簇,部分結(jié)果為:

        (1) 深藍(lán),南京金鎖村城管眼神盯走小販。

        南京鎖金村一處路口,十多位身著制服的城管隊(duì)員肅立圍觀占道經(jīng)營的魚攤,不一會(huì),攤主便抵擋不住,匆忙撤攤。城管隊(duì)伍能夠在媒體的不斷曝光下在執(zhí)法方式上求變,這起碼算是一種進(jìn)步。

        (2) 淺藍(lán),合肥城管年會(huì)跳斧頭幫舞蹈。

        身著黑衣、手拿板斧、群魔亂舞……傳說中的斧頭幫來了?這是合肥高新區(qū)城管局年會(huì)上的舞蹈串燒,整段舞蹈由斧頭舞、甩蔥舞、草裙舞組成。網(wǎng)友質(zhì)疑尺度略大,城管回應(yīng)只為自娛?!枪芴鸶^幫舞蹈,土匪形象和搶蔥歸來歡慶場面,創(chuàng)意反變成妖魔化自己,弄巧成拙呀。

        (3) 紅色,人民日報(bào)報(bào)道公款吃喝腐敗。

        “貪污和浪費(fèi)是極大的犯罪”,這是句眾人皆知的話。實(shí)際上,公款大吃大喝既是貪污,也是浪費(fèi)。我國也因此成為泔水大國,以至于地溝油泛濫成災(zāi),連政府機(jī)關(guān)食堂也未能幸免。 “嘴上腐敗”應(yīng)盡早入刑治罪。

        (4) 綠色,吳英案網(wǎng)民呼吁刀下留人

        老易始終是明白人。以他和韓寒的交情,現(xiàn)在卻更關(guān)注吳英!李莊,易中天:請最高院的法官大人刀下留人,最好能夠重審!至少,不要馬上簽署死刑命令。救人一命,勝造七級(jí)浮屠。今天救下吳英,明天就會(huì)有更多的人來救我們,包括諸位法官。大人勾決的朱筆只要現(xiàn)在停住,就是為法治積德,也是為自己積德!

        (5) 紫色,大陸游客擾亂秩序引發(fā)沖突。

        香港特區(qū)旅發(fā)局主席田北俊關(guān)注近日港人與內(nèi)地旅客有爭拗,他呼吁雙方克制。他認(rèn)為內(nèi)地旅客到訪香港時(shí),應(yīng)入鄉(xiāng)隨俗,遵守香港法規(guī),不應(yīng)在地鐵上吃東西或者隨處便溺。

        2.4 對照實(shí)驗(yàn)

        按照文獻(xiàn)[14]中的參數(shù)設(shè)置進(jìn)行共現(xiàn)詞挖掘,得到共現(xiàn)度結(jié)果(見表4),使用共現(xiàn)度結(jié)果構(gòu)建共現(xiàn)網(wǎng)絡(luò),得到詞共現(xiàn)圖(見圖4)。從圖4中可以得出微博語料中存在的話題(見表5)。

        表4 共現(xiàn)度結(jié)果

        2.5 實(shí)驗(yàn)分析

        TDFWN算法沒有對詞性進(jìn)行過濾,因此TDFWN算法結(jié)果圖中包含的節(jié)點(diǎn)和邊較多,使得每一個(gè)話題下的詞集元素較多。較多的詞匯有助于提升聚類效果。對照實(shí)驗(yàn)只保留了動(dòng)詞和名詞,所得結(jié)果圖較為簡潔直觀。TDFWN算法因?yàn)槭褂昧松鐓^(qū)劃分,將不同熱門話題下的關(guān)鍵詞分成不同的社區(qū),并且著以不同顏色,能夠直觀生動(dòng)地看出微博話題。對照實(shí)驗(yàn)在邊和節(jié)點(diǎn)較少時(shí)能夠直觀地看出微博話題,為了達(dá)到能夠直觀看出微博話題這一效果,設(shè)置了較高的共現(xiàn)度閾值并過濾了詞性,信息有所缺失,使得微博話題發(fā)現(xiàn)結(jié)果有所缺失,部分話題沒有找到。對照實(shí)驗(yàn)最后需人來識(shí)別出圖中蘊(yùn)含的話題,當(dāng)微博數(shù)據(jù)中同屬含有多個(gè)話題,形成的網(wǎng)絡(luò)將難以識(shí)別。TDFWN算法能夠找到各個(gè)話題的特征詞集,對數(shù)據(jù)敏感性低,同時(shí)可以實(shí)現(xiàn)聚類。

        圖4 對照實(shí)驗(yàn)結(jié)果Fig.4 Result of contrast experiment

        表5 熱點(diǎn)話題

        Tab.5 Hot topic

        編號(hào)熱點(diǎn)話題表示編號(hào)熱點(diǎn)話題表示1吳英、死刑、呼吁、集資3南京、小販、圍觀、舞蹈2香港、大陸、港人4大陸、香港、港人

        3 結(jié)束語

        本文提出了一種微博話題發(fā)現(xiàn)方法TDFWN,該方法能夠快速準(zhǔn)確地發(fā)現(xiàn)微博數(shù)據(jù)中潛在的話題,并實(shí)現(xiàn)微博文本的自動(dòng)聚類。TDFWN將已有的復(fù)雜網(wǎng)絡(luò)社區(qū)劃分算法應(yīng)用到短文本處理中,以詞社區(qū)的形式確定了微博文本聚類時(shí)的中心,利用聚類中心可以快速地實(shí)現(xiàn)聚類。目前關(guān)于頻繁詞集網(wǎng)絡(luò)的研究較少,除TDFWN算法外暫未發(fā)現(xiàn)使用頻繁詞集網(wǎng)絡(luò)中存在的社區(qū)結(jié)構(gòu)進(jìn)行話題發(fā)現(xiàn)的算法。頻繁詞集共現(xiàn)網(wǎng)絡(luò)是本文提出的一種全新的短文本模型,基于該模型除了識(shí)別微博話題外還能用作短文本聚類。使用高頻詞共現(xiàn)網(wǎng)絡(luò)(Frequent word network,F(xiàn)WN)對文本進(jìn)行聚類的方法在本文中已作介紹,F(xiàn)WN網(wǎng)絡(luò)的一些其他應(yīng)用正在研究中。

        隨著網(wǎng)絡(luò)科學(xué)的發(fā)展,復(fù)雜網(wǎng)絡(luò)的理論和科研成果在許多方面得到了應(yīng)用。本文將復(fù)雜網(wǎng)絡(luò)中的方法應(yīng)用到微博話題發(fā)現(xiàn)中,結(jié)果表明微博詞集間的共現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地發(fā)現(xiàn)微博中的熱點(diǎn)話題。微博是一個(gè)融合了社交網(wǎng)絡(luò)、興趣網(wǎng)絡(luò)、主題網(wǎng)絡(luò)等多個(gè)因素的大型復(fù)雜網(wǎng)絡(luò)系統(tǒng),如何將復(fù)雜網(wǎng)絡(luò)的方法及微博系統(tǒng)中的這些多模態(tài)信息相融合,進(jìn)一步提高對微博數(shù)據(jù)的信息抽取效用,還有待進(jìn)一步研究。

        [1] 洪宇, 張宇, 劉挺,等.話題檢測與跟蹤的評(píng)測及研究綜述[J]. 中文信息學(xué)報(bào), 2007, 21(6):71-87.

        Hong Yu , Zhang Yu, Liu Ting,et al. Topic detection and tracking review[J]. Journal of Chinese Information Processing, 2007, 21(6):71-87.

        [2] 宗慧, 劉金嶺. 基于短文本信息流的熱點(diǎn)話題檢測[J]. 數(shù)據(jù)采集與處理, 2015,30(2):464-468.

        Zong Hui, Liu Jinling. Hot topic detection based on short text information flow[J]. Journal of Data Acquisition and Processing, 2015,30(2):464-468.

        [3] 郭慶琳, 李艷梅, 唐琦. 基于vsm的文本相似度計(jì)算的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2008,25(11):3256-3258.

        Guo Qinglin, Li Yanmei, Tang Qi. Similarity computing of documents based on VSM[J]. Application Research of Computers, 2008,25(11):3256-3258.

        [4] 周剛, 鄒鴻程, 熊小兵,等. MB-SinglePass:基于組合相似度的微博話題檢測[J]. 計(jì)算機(jī)科學(xué), 2012, 39(10):198-202.

        Zhou Gang, Zou Hongcheng, Xiong Xiaobing, et al. MB-SinglePass: Microblog topic detection base on combined similarity[J]. Computer Science, 2012, 39(10):198-202.

        [5] 鄭斐然, 苗奪謙, 張志飛,等. 一種中文微博新聞話題檢測的方法[J]. 計(jì)算機(jī)科學(xué), 2012, 39(1):138-141.

        Zheng Feiran, Miao Duoqian, Zhang Zheifei, et al. News topic detection approach on chinese microblog[J]. Computer Science, 2012, 39(1):138-141.

        [6] Li G, Meng K, Xie J. An improved topic detection method for Chinese microblog based on incremental clustering[J]. Journal of Software, 2013, 8(9): 2313-2320.

        [7] Huang B, Yang Y, Mahmood A, et al. Microblog topic detection based on LDA model and single-pass clustering[C]//Rough Sets and Current Trends in Computing. [S.l.]:Springer Berlin Heidelberg, 2012: 166-171.

        [8] 趙文清, 侯小可. 基于詞共現(xiàn)圖的中文微博新聞話題識(shí)別[J]. 智能系統(tǒng)學(xué)報(bào), 2012, 7(5):444-449.

        Zhao Wenqing, Hou Xiaoke. News topic recognition of Chinese microblog based on work co-occurrence graph[J]. CAAI Transactions on Intelligent Systems, 2012, 7(5):444-449.

        [9] 劉則淵, 尹麗春. 國際科學(xué)學(xué)主題共詞網(wǎng)絡(luò)的可視化研究[J]. 情報(bào)學(xué)報(bào), 2006(5):634-640.

        Liu Zeyuan, Yin Lichun. Visualization of international science of science co-word network[J]. Journal of the China Society for Scientific and Technical Information, 2006(5):634-640.

        [10] 黃昌寧, 趙海.中文分詞十年回顧[J]. 中文信息學(xué)報(bào), 2007,21(3): 8-19.

        Huang Changning, Zhao Hai. Chinese word segmentation:A decade review[J]. Journal of Chinese Information Processing,2007,21(3):8-19.

        [11] Hankerson D, Hernandez J L, Menezes A. Software implementation of elliptic curve cryptography over binary fields[C]// Cryptographic Hardware and Embedded Systems—CHES 2000.Berlin Heidelberg:Springer, 2000:1-24.

        [12] Han J, Pei J, Yin Y, et al. Mining frequent patterns without candidate generation:A frequent-pattern tree approach[J]. Data Mining and Knowledge Discovery, 2004(8):53-87.

        [13] Heymann S. Gephi[M]. New York:Springer, 2014.

        [14] Batagelj V, Mrvar A. Pajek[J]. Encyclopedia of Social Network Analysis & Mining, 2014, 39(6):114-115.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        狠狠色婷婷久久综合频道日韩| 91久久国产精品综合| 国产在线一区二区三区四区乱码| 蜜臀av在线观看| 射死你天天日| 国产午夜精品无码| 国产精品久久久久精品一区二区| 天美传媒精品1区2区3区| 伊人婷婷色香五月综合缴激情| 高清国产亚洲va精品| 国产精品丝袜美女久久| 十八禁视频在线观看免费无码无遮挡骂过 | 亚洲国产精品va在线看黑人| 久久久久这里只有精品网| 99久久国产一区二区三区| 一本色道久久88—综合亚洲精品| 777精品久无码人妻蜜桃| 日日猛噜噜狠狠扒开双腿小说| 中文字幕无码免费久久99| av男人天堂网在线观看| 亚洲av无码一区东京热久久| 99久久亚洲精品无码毛片| 2021亚洲色中文字幕| 国产亚洲一本二本三道| 国产免费一区二区三区免费视频| 麻豆AⅤ无码不卡| 亚洲精品精品日本日本| 国产精品会所一区二区三区| 风间由美性色一区二区三区| 91精品久久久久含羞草| 天堂久久一区二区三区| 国产尤物精品视频| 国产成人综合久久精品推| 国产精品丝袜一区二区三区在线| 国产一级一级内射视频| 在线亚洲午夜理论av大片| 日韩国产精品一本一区馆/在线| 日韩精品免费在线视频一区| 中国老熟女重囗味hdxx| 囯产精品无码va一区二区| 中文亚洲一区二区三区|