亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BBS網(wǎng)絡(luò)輿情的在線自適應(yīng)話題演化模型

        2014-09-29 10:32:26楊春明石大文
        計算機工程 2014年7期
        關(guān)鍵詞:數(shù)量強度文本

        楊春明,張 暉,石大文

        (西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)

        1 概述

        電子公告欄(Bulletin Board System,BBS)的開放性與互動性使其成為了新聞、觀點、民生的集散地,在BBS上圍繞某一話題的報道、言論、觀點能在互聯(lián)網(wǎng)上迅速傳播,在短時間、大范圍內(nèi)形成強大的影響力。話題是指事件相關(guān)報道的集合[1],話題演化則表示了話題隨時間推移表現(xiàn)出的動態(tài)性、發(fā)展性和差異性。研究BBS中話題的發(fā)現(xiàn)與演化是網(wǎng)絡(luò)輿情[2]分析的重要內(nèi)容之一,有助于全面把握公眾對社會突發(fā)事件所表達出的具有較強影響力、帶有傾向性的言論和觀點,了解事件變化規(guī)律及發(fā)展趨勢,便于提前采取相應(yīng)的應(yīng)對措施。

        話題演化主要研究在時間維度上話題的變化情況,表現(xiàn)為話題在內(nèi)容上的延續(xù)性和強度的變化。近年來對新聞話題演化的研究較多[3],而對BBS話題演化研究較少,主要集中在熱點話題的檢測與預(yù)警上。BBS中的信息具有特征稀疏性、奇異性和動態(tài)性等特點,與新聞話題區(qū)別較大。特征稀疏性是指發(fā)表在BBS上的信息長短不一,存在大量的短文本,信息量少,以詞為維度的向量空間模型呈現(xiàn)出高維稀疏的特點;奇異性是指這些信息中廣泛存在用詞不規(guī)范、諧音詞、簡寫詞等;動態(tài)性表現(xiàn)在隨著時間的推移,文本信息流的數(shù)量在變化,會產(chǎn)生新話題,消亡舊話題,同時還需要實時處理新增文本流。

        針對BBS信息的以上特點,本文提出針對BBS內(nèi)容的自適應(yīng)在線話題演化模型。以歷史時間窗口中話題、詞分布的后驗作為當前時間窗口中話題、詞分布的先驗,利用在線新話題檢測和消亡話題檢測方法自動適應(yīng)數(shù)據(jù)流中的話題數(shù)量。

        2 相關(guān)研究

        話題演化是話題檢測與跟蹤(Topic Detection and Tracking,TDT)的一項重要研究任務(wù),目的是研究話題在時間維度上的變化情況[4]。早期的TDT沒有充分利用語料的時間信息研究話題隨時間的演化,近年來,隨著統(tǒng)計話題模型潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)的興起,在模型中引入語料的時間信息研究話題在時間維度上的演化,成為機器學(xué)習(xí)和文本挖掘領(lǐng)域的研究熱點。

        LDA模型是一種具有文本話題表示能力的非監(jiān)督學(xué)習(xí)模型,通過潛在的話題變量將文檔與詞關(guān)聯(lián)起來,文檔在主題上的分布和主題在詞上的分布式都是條件獨立同分布。LDA將每篇文檔看成是所有話題的一個多項式分布,而文檔中的每個詞則先由文檔-話題多項式分布生成一個話題,再由話題-詞多項式分布生成[5]。該模型可以很好地模擬文本的生成過程,對文本的預(yù)測也有很好的效果。很多研究人員通過引入時間信息對LDA模型進行了擴展來研究話題演化,根據(jù)模型是否具有在線的處理能力,可以分為線下模型和在線模型2類。

        線下的話題演化模型主要對特定的語料進行建模分析,不能在線處理新到的文本,其主要方法有2種:

        (1)TOT(Topic Over Time)模型[6],將時間作為一個可觀測的連續(xù)變量來指導(dǎo)語料集合上的話題分布,話題的演化反映在時間上的分布強度。

        (2)后離散分析方法[7],該方法把時間看作一個離散的變量,首先不考慮時間的影響,在文本集上運行LDA模型,獲得模型的參數(shù),然后按照時間把文檔分配到對應(yīng)的時間窗口中,對于某個話題考慮它在每個時間窗口中的強度,從而發(fā)現(xiàn)熱話題和冷話題。

        類似的模型還有DTM(Dynamic Topic Model)模型、CTDTM(Continuous Time Dynamic Topic Model)模型、MTTM(Multi-Scale Topic Tomography)模型等。

        在線的話題演化模型需要實時分析新到文本,ILDA(Incremental Latent Dirichlet Allocation)模型根據(jù)文本到達時間進行增量建模,以每個時間窗口上話題個數(shù)的變化情況研究話題內(nèi)容的演化[8]。OLDA(Online Latent Dirichlet Allocation)模型利用歷史的數(shù)據(jù)作為模型的先驗分布,對時間間隔內(nèi)到達的數(shù)據(jù)流采用LDA模型,展現(xiàn)話題在內(nèi)容和強度上的演化[9]。文獻[10]提出一種基于LDA的在線話題演化挖掘模型,研究了不同時間窗口話題所含關(guān)鍵詞的聯(lián)系,以發(fā)現(xiàn)話題演化中的話題遺傳和話題變異。文獻[11]針對網(wǎng)絡(luò)輿情的特點,提出一種基于OLDA的話題演化方法,在BBS數(shù)據(jù)集上分析了不同時間窗口之間話題的關(guān)聯(lián)。

        上述研究多基于行文規(guī)范的新聞報道,BBS上的文本信息主要由轉(zhuǎn)載其他新聞網(wǎng)站的報道、網(wǎng)民原創(chuàng)內(nèi)容以及回復(fù)構(gòu)成,其表達上具有口語化、寫作不規(guī)范的特點。由于BBS的強交互性,使得同一帖子表達的話題具有外延性,可能涉及多個話題,如“我爸是李剛”事件中,很多帖子的內(nèi)容是描述李剛有幾套房、開什么檔次的汽車、岳父是副省長等。上述特點使得BBS中每一時刻都有新話題的產(chǎn)生與舊話題的消亡,話題的數(shù)量在不同時間窗口內(nèi)不一樣。而在LDA模型中,評估參數(shù)時都需要假設(shè)話題數(shù)量是固定的;在文獻[9]的OLDA模型中通過保留每一個時刻的話題分布來發(fā)現(xiàn)新的話題和評估話題的演化,只考慮到相鄰時刻的話題相似性,沒有考慮話題數(shù)量的變化。文獻[11]針對輿情信息的特點,主要分析了不同時間片話題間的關(guān)聯(lián),且話題的粒度較大。

        本文在上述2種方法的基礎(chǔ)上,利用時間片間話題的相似度監(jiān)測新話題的產(chǎn)生及舊話題的消亡,細化話題粒度,提出針對BBS上網(wǎng)絡(luò)輿情的自適應(yīng)在線話題演化模型,以解決不同時刻話題數(shù)量變化的問題。

        3 自適應(yīng)的在線話題演化模型分析

        3.1 BBS內(nèi)容話題演化建模

        話題的演化表達了話題隨著時間推移的變化過程,如BBS中一個帖子產(chǎn)生后,會引起很多為圍繞這一帖子的討論,隨著時間的推移,討論的熱度會降低,或者會起波動,最后直到淡化。這個演化過程可分為形成、高漲、波動、消亡等階段,反映了話題在內(nèi)容上的延續(xù)性和強度。

        在線的話題演化需要實時處理到達的文本數(shù)據(jù)流,根據(jù)話題演化分析的實際要求,將按時間序列到達的文本以一定的時間粒度劃分,時間窗口t內(nèi)到達的文本集為Dt={d1,d2,…,dn},di為其中的一個文本。話題是文本集在語義空間中的表現(xiàn),在LDA模型中,由一組關(guān)鍵詞的分布來表示一個話題,每個文本視為一組話題的混合分布。則時間窗口內(nèi)話題的分布可由文本di中詞w對于話題z的后驗概率表示,如下式所示:

        其中,z是一組話題向量,第k維即表示話題k。

        延續(xù)性表達了相鄰時間窗口間文本內(nèi)容的關(guān)聯(lián),強度表達的是某一時間窗口內(nèi)某個話題討論的熱度。歷史時間窗口中話題以及所含詞語的分布為當前時間窗口的話題演化分析提供了先驗知識。不同時間窗口內(nèi)話題的分布體現(xiàn)了內(nèi)容的延續(xù)性,而強度則表現(xiàn)為話題所含詞語的分布,因此,可由時間窗口內(nèi)文本表達話題的相關(guān)性來表示,相關(guān)性越大,該話題的強度越大,反之越小。考慮話題k在時間窗口t中每個文檔所占的比重之和為該話題的強度,公式如下所示:

        其中,TS(K)t為時間窗口t中話題k的強度;|Dt|為時間窗口t中文檔的數(shù)量;為話題k在文檔d中的概率。

        3.2 自適應(yīng)的BBS話題演化模型

        假設(shè)每個時間窗口中文本集涉及的話題數(shù)為K,令t時刻文本d上的話題分布服從參數(shù)為θ(d)的多項分布,話題在詞匯集合上服從參數(shù)為φk的多項分布,同時令話題分布和詞分布的先驗服從Dirichlet分布,分別為θ:Dirichlet(α)和φ:Dirichlet(β)。

        使用Gibbs[12]抽樣方法估計當前時間窗口中的參數(shù)θ(d)和φk,考慮到不同的歷史數(shù)據(jù)對當前時間窗口話題分布的影響,以t–1時間窗口中話題分布和詞分布的后驗作為時間窗口t中話題分布和詞分布的先驗。時間窗口t上,參數(shù)θ(d)對應(yīng)話題k以及參數(shù)φk對應(yīng)詞w的估計公式如式(3)、式(4)所示:

        其中,λ為權(quán)重因子,離當前時間窗口越近,影響越大,權(quán)重越大。

        上述模型中需要確定時間窗口中的話題數(shù)K,在強交互的BBS數(shù)據(jù)流中,話題的數(shù)量時刻發(fā)生變化,一個話題可以演化為多個話題。因此,需要考慮在每一個時刻話題數(shù)量的變化,既有新產(chǎn)生的話題,又有消亡的話題。新話題的產(chǎn)生是檢測上一時刻話題分布的評估值,利用話題檢測算法生成;話題消亡則通過考慮在ρ個時間間隔內(nèi)該話題的強度小于給定的閾值ε,即認為該話題已經(jīng)消亡。通過上述調(diào)整自動更新時間窗口內(nèi)話題的數(shù)量,形成一個話題在時間和內(nèi)容上的演化矩陣。

        3.3 時間窗口內(nèi)新話題的檢測

        時間窗口內(nèi)新話題的出現(xiàn)表現(xiàn)為當前數(shù)據(jù)流中的一個異常值,該異常值由相鄰時間窗口中話題的相似性來衡量,如果相似性到一定閾值NTVt,則表明有新話題產(chǎn)生。話題間的相似性用KL(Kullback-Leibler)散度衡量,記作KLS(p||q)。KLS是KL散度的變形,是一個對稱的KL散度測度,定義為KL(p||q)和KL(q||p)的平均值,表達了2個話題p和q之間的相似性,計算公式如下:

        定義Kt維距離向量DV,其中DV(k)表示話題k在t–1時刻和t時刻的相似性。引入新話題發(fā)現(xiàn)自信水平測量(NTCL,t時刻話題達到自信水平的百分比)來確定NTVt,使小于NTVt值的距離占所有距離的百分比正好是NTCL。則t時刻的新話題檢測算法(NTDetect)如下:

        3.4 話題消亡檢測

        舊話題的消亡表現(xiàn)為話題的強度明顯地不同于數(shù)據(jù)流中的其他話題,但在t時刻話題的強弱不僅與時間窗口的大小有關(guān)而且與話題本身的發(fā)展有關(guān),如由其他突發(fā)事件而暫時降低了該話題的關(guān)注度。因此,考慮在連續(xù)σ個時間窗口內(nèi)話題強度都被標記為消亡話題,則該話題標記為真正消亡話題,并刪除該話題,話題的數(shù)量也相應(yīng)減少,否則取消消亡話題標記。

        4 實驗及分析

        實驗中利用網(wǎng)絡(luò)爬蟲采集了天涯虛擬社區(qū)上2011年3月-4月發(fā)布的正文大于20個字符且回復(fù)數(shù)小于20000的帖子,共計25495條,保留了URL、發(fā)表時間、發(fā)表作者、標題、正文內(nèi)容、回復(fù)等信息。實驗前對數(shù)據(jù)集進行了分詞、去停用詞和向量化等預(yù)處理,分詞時使用ICTCLA分詞器,添加20000用戶詞典,主要來源搜狗輸入法詞庫;去除了副詞、助動詞以及BBS上的無意義詞,如:“回復(fù)”、“發(fā)表時間”、“轉(zhuǎn)載”、“頂一下”等;向量化帖子內(nèi)容的詞頻,使每一個詞都對應(yīng)詞表中的一個維度。

        實驗時以周為單位,將數(shù)據(jù)集劃分為8個時間窗口,設(shè)置話題參數(shù)K=30,α=0.3,β=0.01,λ=0.4,σ=2,NTCL=90%,OTCL=95%,迭代500次,抽取出的話題涉及大學(xué)教育、自然災(zāi)害、食品安全、工資收入、醫(yī)療問題、土地拆遷、房價等。從時間窗口2開始,有新話題的產(chǎn)生,從第3個時間窗口開始有消亡話題,其數(shù)量在動態(tài)變化。話題數(shù)量由初始的30動態(tài)變化為最終的34,驗證了模型中每個時間窗口中話題數(shù)量動態(tài)變化的假設(shè),如圖1所示。

        圖1 時間窗口中的話題數(shù)量變化

        進一步分析話題在內(nèi)容上的演化趨勢,選擇一個已有話題21和新產(chǎn)生話題32在不同時間窗口中出現(xiàn)概率最大的10個詞語展示,如表1所示,令ω為時間窗口。從每個時間窗口占主導(dǎo)地位的關(guān)鍵詞變化情況可以看出,話題21由食品安全開始演化為雙匯的瘦肉精事件,在第2個時間窗口產(chǎn)生了關(guān)于日本地震的新話題,并由開始的地震報道演化為救援,反映了該時間段中發(fā)生的一些重大突發(fā)事件。

        表1 話題內(nèi)容在時間窗口中的關(guān)鍵詞

        話題演化的趨勢也表現(xiàn)為話題在每個時間窗口的強度上,如圖2所示。話題21和32在8個時間窗口上的強度變化趨勢與其在內(nèi)容上的演化一致。隨著時間的推移,強度逐漸減弱,其中話題21在消亡,有新的話題將要產(chǎn)生。實驗進一步采用OLDA模型,使用相同的參數(shù)在數(shù)據(jù)集上與本文的模型進行對比分析,由于OLDA模型的話題數(shù)固定,只能對比話題在時間窗口上的關(guān)鍵詞。同樣以食品安全和日本地震的話題為例,OLDA模型在8個時間窗口上的關(guān)鍵詞如表2所示。

        圖2 話題在強度上的演化

        表2 OLDA模型話題演化關(guān)鍵詞

        OLDA模型僅考慮了時間窗口上話題內(nèi)部關(guān)鍵詞間的關(guān)聯(lián),但時間窗口間的話題關(guān)聯(lián)不強,具有一定跳躍性,話題在時間上的演化過程不明顯。根據(jù)計算的KL散度,也驗證了上述情況,如圖3所示。其中,1#2表示時間窗口1與時間窗口2;2#3表示時間窗口2與時間窗口3;以此類推。

        圖3 話題21時間窗口間KL散度比較

        以上實驗表明,本文模型能直觀地表達出話題在時間維度上內(nèi)容和強度的演化,且能檢測新產(chǎn)生的話題和消亡的話題,對話題數(shù)量進行動態(tài)更新,最終趨向一個真實值,彌補了OLDA模型的不足。同時也表明模型能夠較好地捕獲正在發(fā)生的熱點事件,分析它們在時間和內(nèi)容上的演化,表明該方法在真實的網(wǎng)絡(luò)數(shù)據(jù)上也能夠獲得較好的結(jié)果。

        5 結(jié)束語

        BBS的強交互性使得話題數(shù)量在演化過程中動態(tài)變化,對傳統(tǒng)話題演化模型要事先確定話題數(shù)量的問題。為此,本文提出了自適應(yīng)的在線話題演化模型。模型將按時間序列到達文本以一定時間粒度劃分為多個時間窗口,在每個時間窗口內(nèi)應(yīng)用LDA模型獲取話題分布,歷史時間窗口中話題以及所含詞語的分布為當前時間窗口的話題演化分析提供了先驗知識。不同時間窗口內(nèi)的話題強度表現(xiàn)為詞的分布,以此提出了在線新話題檢測和消亡話題檢測方法來自動適應(yīng)數(shù)據(jù)流中的話題數(shù)量。在天涯社區(qū)數(shù)據(jù)集上的實驗結(jié)果表明,該模型能較好地反映出不同時間窗口內(nèi)話題數(shù)量的變化,并能分析在時間和內(nèi)容上的演化,及時發(fā)現(xiàn)一些正在發(fā)生的熱點事件,在一定程度上彌補了傳統(tǒng)話題演化模型的不足。本文只對BBS帖子的內(nèi)容進行了分析,今后將研究帖子之間的鏈接、作者、回帖者等信息在網(wǎng)絡(luò)輿情演化中的作用。

        [1]洪 宇,張 宇,劉 挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.

        [2]曾潤喜.網(wǎng)絡(luò)輿情信息資源共享研究[J].情報雜志,2009,28(8):187-191.

        [3]趙旭劍.中文新聞話題動態(tài)演化及其關(guān)鍵技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2012.

        [4]單 斌,李 芳.基于LDA話題演化研究方法綜述[J].中文信息學(xué)報,2010,24(6):43-49.

        [5]Blei D M.Probabilistic Topic Models[J].Communications of the ACM,2012,55(4):77-84.

        [6]Wang Xuerui,Mccallum A.Topics over Time:A Non-Markov Continuous-time Model of Topical Trends[C]//Proc.of the 12th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2006:424-433.

        [7]Canini K R,Shi L,Griffiths T L.Online Inference of Topics with Latent Dirichlet Allocation[C]//Proc.of the 12th International Conference on Artificial Intelligence and Statistics.New York,USA:ACM Press,2009:937-946.

        [8]Iwata T,Yamada T,Sakurai Y,et al.Online Multiscale Dynamic Topic Models[C]//Proc.of the 16th International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:663-672.

        [9]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]//Proc.of International Conference on Data Mining.Pisa,Italy:IEEE Press,2008:3-12.

        [10]崔 凱,周 斌,賈 焰,等.一種基于LDA的在線主題演化挖掘模型[J].計算機科學(xué),2010,37(11):156-159.

        [11]胡艷麗,白 亮,張維明.網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J].國防科學(xué)技術(shù)大學(xué)學(xué)報,2012,34(1):150-154.

        [12]Kozumi H,Kobayashi G.Gibbs Sampling Methods for Bayesian Quantile Regression[J]. Journalof Statistical Computation and Simulation,2011,81(11):1565-1578.

        猜你喜歡
        數(shù)量強度文本
        低強度自密實混凝土在房建中的應(yīng)用
        在808DA上文本顯示的改善
        統(tǒng)一數(shù)量再比較
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
        地埋管絕熱措施下的換熱強度
        頭發(fā)的數(shù)量
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        我國博物館數(shù)量達4510家
        基于DEFORM-3D的300M超高強度鋼切削性能的比較
        国产精品美女久久久久av福利| 日本高清在线一区二区三区| 音影先锋中文字幕在线| 亚洲日韩精品a∨片无码加勒比| 午夜射精日本三级| 永久免费不卡在线观看黄网站| 美女啪啪国产| 国产自偷亚洲精品页65页| 国产精品女同av在线观看| 亚洲中文字幕第15页| 国产av一级片在线观看| 丁香五月亚洲综合在线| 亚洲一卡2卡3卡4卡5卡精品| 欧美性性性性性色大片免费的| 久久国产精彩视频| 在线免费观看亚洲天堂av| 偷偷夜夜精品一区二区三区蜜桃 | 亚洲黄色精品在线播放| 在线亚洲高清揄拍自拍一品区| 欧美人和黑人牲交网站上线| 亚洲日韩欧美国产另类综合| 91久久国产自产拍夜夜嗨| 国产性感丝袜美女av| 亚洲岛国一区二区三区| 午夜dv内射一区二区| 欧洲vat一区二区三区| 在线观看国产精品日韩av| 在线观看网址你懂的| 国产在线观看不卡网址| av影片在线免费观看| 在线观看视频播放| 成人无码午夜在线观看| 日本中文字幕一区二区高清在线 | 白白色发布在线观看视频| 蜜臀性色av免费| 亚洲av男人的天堂在线观看| 黄色毛片视频免费| 中文字幕亚洲精品码专区| 一本色道久久88加勒比—综合 | 无码人妻一区二区三区兔费| 久久老子午夜精品无码怎么打|