亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向新聞事件的故事樹構(gòu)建方法

        2020-07-20 06:16:00陳黎明黃瑞章秦永彬陳艷平

        陳黎明,黃瑞章,秦永彬,陳艷平

        (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.貴州大學(xué) 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025)

        0 引 言

        新聞數(shù)據(jù)的爆炸級增長使得人們難以獲得總結(jié)性的信息,喪失對信息的全局把控[1]。因此對新聞事件進(jìn)行動(dòng)態(tài)追蹤并構(gòu)建其發(fā)展脈絡(luò)是如今迫切需要解決的問題。事件追蹤是在后續(xù)新聞報(bào)道中辨認(rèn)出給定事件所相關(guān)的報(bào)道[2]。脈絡(luò)構(gòu)建是根據(jù)追蹤到的新聞來對事件發(fā)展進(jìn)行梳理,以一定的形式,比如時(shí)間線、事件線索等方式來呈現(xiàn)事件的發(fā)展過程[3]。然而現(xiàn)有方法存在以下問題:①隨著時(shí)間發(fā)展,事件重心會(huì)發(fā)生漂移[4],在事件追蹤時(shí)容易遺漏相關(guān)新聞;②事件脈絡(luò)構(gòu)建僅在時(shí)間以及內(nèi)容相似度等層面做研究,沒有從全局的角度來進(jìn)行脈絡(luò)構(gòu)建,造成事件脈絡(luò)不連貫,整體性較差。

        針對上述問題,本文提出了一種面向新聞事件的故事樹構(gòu)建方法。首先在事件追蹤過程中,根據(jù)追蹤到的新聞的關(guān)鍵詞詞頻-逆類別頻率(term frequency-inverse category frequency,TF-ICF)和熱度對事件關(guān)鍵詞進(jìn)行反饋更新。其次采用有主干和分支的故事樹結(jié)構(gòu)來展現(xiàn)事件脈絡(luò),并利用新聞熱詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),生成故事的主干結(jié)構(gòu)。本文利用真實(shí)事件新聞數(shù)據(jù)集來實(shí)驗(yàn)提出的面向新聞事件的故事樹構(gòu)建方法,并基于用戶體驗(yàn)來評價(jià)方法表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該方法所構(gòu)建的事件故事樹在可讀性、完整性上表現(xiàn)良好。

        1 相關(guān)工作

        信息過載的問題日益凸顯,如何提高知識(shí)獲取的效率一直以來是一個(gè)熱點(diǎn)研究問題。事件追蹤作為傳統(tǒng)TDT的子任務(wù),被廣泛用于獲取事件相關(guān)的信息。傳統(tǒng)的追蹤方法基于分類[5]和聚類[6]算法,但由于漂移現(xiàn)象的存在,因此已經(jīng)不能滿足動(dòng)態(tài)話題追蹤的需求。近年來,基于自適應(yīng)追蹤的方法成為該領(lǐng)域的研究熱點(diǎn)。文獻(xiàn)[7]提出了一種基于動(dòng)態(tài)閾值及分類器集成的自適應(yīng)話題追蹤方法,旨在解決動(dòng)態(tài)閾值和傳統(tǒng)分類器集成方式的不足。文獻(xiàn)[8]通過自動(dòng)抽取出的話題相關(guān)特征詞條來描述話題中的事件信息,并且通過本體的不斷進(jìn)化來進(jìn)行話題自適應(yīng)追蹤。文獻(xiàn)[9]提出了一種基于關(guān)鍵詞衰減指數(shù)的自適應(yīng)追蹤方法,然而在新增關(guān)鍵詞權(quán)重上每次只增加固定的值,未考慮到新增詞的重要性信息。文獻(xiàn)[10]利用最小特征平均可信度閾值更新策略來完善話題模型。文獻(xiàn)[11]基于時(shí)間的分布屬性調(diào)整特征向量權(quán)重分配,實(shí)現(xiàn)模型的自適應(yīng)學(xué)習(xí)更新。文獻(xiàn)[12]提出一種基于關(guān)聯(lián)語義網(wǎng)絡(luò)的話題追蹤方法,解決了無法詳細(xì)描述話題追蹤趨勢的問題。

        構(gòu)建事件脈絡(luò)是TDT領(lǐng)域衍生的新研究問題,旨在用一定的形式來展現(xiàn)事件的發(fā)展趨勢。目前有許多方法基于相似度來尋找子事件之間的聯(lián)系。文獻(xiàn)[3]基于內(nèi)容相似度和時(shí)間距離計(jì)算新事件與已有事件的連接強(qiáng)度,將新事件連接到連接強(qiáng)度最大的節(jié)點(diǎn)。文獻(xiàn)[13]構(gòu)造了一種結(jié)合文本相似度、時(shí)間相似度和實(shí)體相似度的多視圖屬性圖來表示文章之間的關(guān)系,并提出了一種社區(qū)檢測算法,對圖中的子事件進(jìn)行分割和鏈接。文獻(xiàn)[14]先識(shí)別重要的事件,并根據(jù)語義相關(guān)性來捕捉它們之間關(guān)系。文獻(xiàn)[15]根據(jù)動(dòng)態(tài)閾值的設(shè)定、相似度平滑、子主題動(dòng)態(tài)增量策略等過程來進(jìn)行事件演化分析。文獻(xiàn)[16]基于事件地點(diǎn)、人物、核心詞等相似度生成事件有向無環(huán)圖,然后從有向無環(huán)圖中構(gòu)造最大生成樹,并用最大生成樹表示事件的分支。這些基于相似度的方法僅停留在關(guān)系分析上,未從全局的角度考慮到事件的發(fā)展結(jié)構(gòu)是有規(guī)律的,同一發(fā)展階段的子事件描述的內(nèi)容各不相同,基于相似度很難將它們聯(lián)系到一起。

        此外,還有一些方法從其它角度來進(jìn)行脈絡(luò)構(gòu)建。文獻(xiàn)[17]從詞覆蓋的角度提出一種新聞脈絡(luò)鏈構(gòu)建方法, 利用新聞的評論信息來定位新聞事件轉(zhuǎn)折點(diǎn)。文獻(xiàn)[18]提出了一種基于無參數(shù)生成模型的故事情節(jié)結(jié)構(gòu)化表示和演化模式提取方法,并結(jié)合中國餐館過程(CRP)自動(dòng)確定故事情節(jié)的數(shù)量。文獻(xiàn)[19]提出了一種基于神經(jīng)網(wǎng)絡(luò)的方法來提取故事情節(jié)的結(jié)構(gòu)化表示和演變模式。文獻(xiàn)[20]通過分析社交媒體中的文本、時(shí)間、圖像、評論、觀點(diǎn)、情感和用戶交互等多模態(tài)數(shù)據(jù),感知事件并刻畫事件的關(guān)系,從而實(shí)現(xiàn)對事件的總結(jié)。

        相比于上述的方法,本文方法更適用于新聞事件的追蹤與發(fā)展脈絡(luò)構(gòu)建,從關(guān)鍵詞的角度出發(fā),對事件相關(guān)新聞進(jìn)行動(dòng)態(tài)追蹤,并根據(jù)新聞熱詞定位事件的關(guān)鍵發(fā)展節(jié)點(diǎn),解決事件脈絡(luò)構(gòu)建僅在時(shí)間以及內(nèi)容相似度等層面做研究而造成脈絡(luò)不連貫、整體性較差的問題。

        2 術(shù)語定義與研究目標(biāo)

        2.1 術(shù)語定義

        定義1 新聞(news):一篇新聞d由新聞標(biāo)題、正文、發(fā)布時(shí)間組成。

        定義2 子事件(subevent):子事件指涉及特定的時(shí)間和地點(diǎn)、相關(guān)人物的某件具體事情,由四元組 表示,其中Tse表示子事件發(fā)生時(shí)間,Dse表示子事件的簡要描述,Kse表示子事件的關(guān)鍵詞集合,News_set={d1,d2,…,dn} 表示子事件的新聞集合。

        定義3 事件(event):事件由一個(gè)種子子事件以及與其直接相關(guān)的子事件組成。新聞事件通常會(huì)包含不同的子事件,反應(yīng)的是事件的不同側(cè)面或者發(fā)展。比如“埃航波音客機(jī)墜毀”事件,它是由“埃塞俄比亞157人客機(jī)起飛6分鐘后墜毀”這個(gè)種子子事件以及后續(xù)的“救援”、“調(diào)查”、“停飛波音737MAX”、“索賠”等一系列高度相關(guān)的子事件組成。

        定義4 故事樹(story tree):每顆故事樹S={branch1,branch2,…,branchn} 對應(yīng)一個(gè)事件,由多個(gè)分支按時(shí)間先后順序連接而成。每個(gè)分支branch= 代表著事件的一個(gè)發(fā)展階段,其中E={se1,se2…se|E|} 表示分支的子事件集合;Li,j= 表示有一條有向的邊從子事件sei指向子事件sej, 代表著兩個(gè)事件有著時(shí)間先后的關(guān)系;Kbranch表示分支的關(guān)鍵詞集合;Tbranch表示分支時(shí)間,是分支中子事件的最早發(fā)生時(shí)間。

        圖1展示了“孟晚舟被捕”事件對應(yīng)的故事樹,該故事樹包含了20個(gè)節(jié)點(diǎn),3個(gè)分支,其中分支上的每個(gè)圓節(jié)點(diǎn)代表了一個(gè)子事件,每個(gè)分支代表了該事件的一個(gè)發(fā)展階段,3個(gè)分支的根節(jié)點(diǎn)構(gòu)成了樹的主干結(jié)構(gòu),展示了事件的發(fā)展過程。分支A 對應(yīng)著“孟晚舟在加拿大被捕”初始階段的信息,分支B對應(yīng)著“孟晚舟保釋”相關(guān)信息,分支C對應(yīng)著“孟晚舟引渡”相關(guān)信息,該事件還在繼續(xù)發(fā)展,還會(huì)產(chǎn)生新的分支。由此可見,通過有主干和分支的故事樹來展現(xiàn)事件的發(fā)展脈絡(luò),有助于用戶快速了解事件的主要信息,輕松掌握事件的發(fā)展過程。

        圖1 “孟晚舟被捕”事件故事樹

        2.2 研究目標(biāo)

        給定一組新聞信息流 {D1,D2,…,Dt,…}, 其中Dt是時(shí)間窗口t內(nèi)的新聞集合,本文的目標(biāo)是:

        (1)從Dt內(nèi)提取事件相關(guān)新聞;

        (2)將事件相關(guān)新聞聚類成子事件集合subevent_set={se1,se2…se|E|}, 并提取相關(guān)信息將子事件進(jìn)行封裝為四元組 ;

        (3)將步驟(2)輸出的子事件組裝成故事樹S, 并進(jìn)行可視化。

        3 故事樹構(gòu)建方法

        3.1 方法總體設(shè)計(jì)

        本文方法總體設(shè)計(jì)如圖2所示,主要分為4個(gè)部分。第一個(gè)部分是數(shù)據(jù)預(yù)處理,對于持續(xù)到來的新聞數(shù)據(jù)流,先過濾掉正文長度低于20的新聞,然后使用Hanlp工具包對新聞進(jìn)行分詞和去停用詞處理。第二個(gè)部分是事件追蹤,包含了提取有故事偏向性的新聞關(guān)鍵詞、提取事件相關(guān)新聞、反饋更新事件關(guān)鍵詞3個(gè)步驟。第三個(gè)部分是子事件聚類,在提取出事件相關(guān)新聞后,使用流式聚類算法SinglePass聚類出子事件,并提取相關(guān)信息來封裝子事件。最后一個(gè)部分是故事樹構(gòu)建,首先根據(jù)當(dāng)前時(shí)間窗口內(nèi)的新聞熱詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),判斷是否需要新建故事樹分支,即判斷故事是否發(fā)展到了一個(gè)新階段,其次是判斷故事樹中是否存在當(dāng)前子事件,如果存在則合并子事件,否則查找該子事件在故事樹中所屬的分支,并更新故事樹。接下來,將詳細(xì)介紹后3個(gè)部分。

        圖2 方法總體設(shè)計(jì)

        3.2 事件追蹤

        事件追蹤階段,其主要目的是從大量的日常新聞中提取出事件相關(guān)的新聞,其流程如圖3所示。在每批待追蹤新聞數(shù)據(jù)到來時(shí),其追蹤流程是一個(gè)循環(huán)處理的過程。首先,通過對事件關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法來提取有故事偏向性的新聞關(guān)鍵詞來作為新聞文本特征表示。其次是通過計(jì)算相似度來提取事件相關(guān)新聞。最后,判斷這一輪提取的新聞數(shù)量和上一輪提取的是否相同,相同則結(jié)束追蹤流程。否則計(jì)算本輪提取出所有新聞的關(guān)鍵詞TF-ICF和熱度,并根據(jù)TF-ICF、熱度和衰減指數(shù)來反饋更新事件關(guān)鍵詞,繼續(xù)下一輪循環(huán),直至提取出的新聞數(shù)量不再發(fā)生變化,這可以最大程度地將事件相關(guān)新聞提取出來。在接下來的小節(jié)里,將詳解介紹這些步驟。

        圖3 事件追蹤流程

        3.2.1 提取有故事偏向性的新聞關(guān)鍵詞

        TextRank是一種常見的關(guān)鍵詞抽取算法,但該算法忽略了詞語本身的重要性信息。在該算法中詞語的重要性會(huì)影響相鄰節(jié)點(diǎn)間的影響力傳遞而導(dǎo)致關(guān)鍵詞抽取效果不佳。當(dāng)對某個(gè)的特定事件進(jìn)行追蹤時(shí),隨著時(shí)間發(fā)展而變化的事件關(guān)鍵詞的重要性比其它詞語高,因此,本文對事件關(guān)鍵詞的權(quán)重進(jìn)行了調(diào)整,使用加權(quán)的TextRank算法來提取有故事偏向性的新聞關(guān)鍵詞,提高事件關(guān)鍵詞在新聞中出現(xiàn)時(shí)被作為新聞關(guān)鍵詞提取出來的概率。

        設(shè)Vi為給定文本中的任何一個(gè)詞語,則基于加權(quán)Text-Rank算法的權(quán)值迭代公式為

        (1)

        式中:d為調(diào)節(jié)系數(shù),一般取0.85;In(Vi) 表示指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合;Out(Vj) 表示節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)的集合。wji為節(jié)點(diǎn)Vj的詞語重要性影響力傳遞到節(jié)點(diǎn)Vi的權(quán)重,其計(jì)算公式如下

        (2)

        式中:I(vi) 表示節(jié)點(diǎn)Vi的重要性取值。設(shè)λ為對詞語進(jìn)行加權(quán)的參數(shù),本文中λ取2,則I(vi) 賦值如下

        (3)

        (4)

        基于式(1)~式(4)進(jìn)行迭代運(yùn)算,當(dāng)式(1)兩次迭代結(jié)果之間的差異非常小時(shí)停止迭代運(yùn)算,該值一般取0.0001。然后按照大小對WS(V) 進(jìn)行降序排序,選取前8個(gè)候選詞作為新聞文本關(guān)鍵詞。

        3.2.2 提取事件相關(guān)新聞

        通過式(5)計(jì)算追蹤的事件和新聞文本之間的相似度,其中KT為事件關(guān)鍵詞集合,KN為新聞文本關(guān)鍵詞集合。Jaccard相似度用來比較樣本集之間的相似性,Jaccard系數(shù)值越大,說明相似度越高。相似度大于閾值的新聞文本被判定為與事件相關(guān),相似度低于閾值的則判定為與事件不相關(guān)

        (5)

        3.2.3 反饋更新事件關(guān)鍵詞

        由于在事件追蹤過程中存在漂移現(xiàn)象,事件重心會(huì)發(fā)生變化,事件關(guān)鍵詞也隨之變化,使用初始給定的關(guān)鍵詞對后續(xù)新聞進(jìn)行追蹤時(shí)效果較差。為了更全面準(zhǔn)確地對事件進(jìn)行追蹤,需要融入新的事件特征,對事件關(guān)鍵詞進(jìn)行反饋更新。因此本文提出了融合關(guān)鍵詞TF-ICF、關(guān)鍵詞熱度以及關(guān)鍵詞衰減指數(shù)計(jì)算的反饋更新方法,TF-ICF和熱度旨在融入新的事件特征,衰減指數(shù)旨在對事件原始特征進(jìn)行減弱。值得一提的是,事件最重心的詞并不會(huì)隨著時(shí)間的推進(jìn)而消失,因?yàn)樗恢背霈F(xiàn)在事件新聞中,在減弱的同時(shí)也增加了其權(quán)重。

        TF-ICF被用來衡量詞語的重要程度,一個(gè)詞語的重要性與它在文檔中出現(xiàn)的次數(shù)成正比,但同時(shí)會(huì)隨著它在各個(gè)類別中出現(xiàn)的頻率成反比下降。例如 “繼續(xù)”這類詞,雖然它出現(xiàn)的頻率較高,但由于它出現(xiàn)在各類別的頻率也比較高,由此可以推斷出是一個(gè)常用詞,重要性較低。通過ICF的計(jì)算可以過濾掉這種詞頻很高但不重要的常用詞。TF是一種用于數(shù)據(jù)挖掘的常用加權(quán)技術(shù),表示一個(gè)詞語在一篇文章中出現(xiàn)的頻率,在本文中表示詞語在事件新聞關(guān)鍵詞中出現(xiàn)的頻率。ICF是逆向類別頻率,由總類別數(shù)目除以包含該詞語的類別數(shù)目,再將得到的商以10為底取對數(shù)得到,在本文中ICF的類別由Kmeans預(yù)聚類得到。

        設(shè)n(vi) 為詞語Vi在新聞關(guān)鍵詞中出現(xiàn)的次數(shù),Ci為詞語Vi出現(xiàn)的類別,則TF-ICF的計(jì)算公式如下所示

        (6)

        (7)

        tficf(vi)=tf(vi)*icf(vi)

        (8)

        此外,一個(gè)詞語的重要性還與其熱度有關(guān)。熱度代表了詞語被提及或被關(guān)注的趨勢。一個(gè)詞語的熱度越高,它出現(xiàn)的頻率相比于歷史時(shí)刻就會(huì)有明顯的增高趨勢。這種在使用頻率上發(fā)生較大變化的詞,稱之為熱詞,代表著事件有了新的發(fā)展,在更新事件關(guān)鍵詞時(shí)其重要性比較高。例如對于西安奔馳維權(quán)事件來說,“金融”以及“服務(wù)費(fèi)”在2019年4月14日的新聞中頻繁出現(xiàn),而在之前的事件新聞中從未出現(xiàn),在融入新的事件特征時(shí),考慮到它們反映了事件的發(fā)展情況,其權(quán)重要有所增加。

        本文通過熱度分?jǐn)?shù)來衡量一個(gè)詞語的熱度。設(shè)K為詞語個(gè)數(shù),n(vi,tj)為詞語vi在時(shí)間窗口tj內(nèi)的詞頻,g(vi,tj) 為詞語vi在時(shí)間窗口tj內(nèi)的詞頻梯度,aver(g,tj) 為在時(shí)間窗口tj內(nèi)所有詞語的平均詞頻梯度,n(vi,t1,t2,…,tj) 為詞語vi在全部時(shí)間窗口內(nèi)的詞頻,aver(n,t1,t2,…,tj) 為在全部時(shí)間窗口上所有詞的平均詞頻,則詞語vi在當(dāng)前時(shí)間窗口tj的熱度分?jǐn)?shù)s(vi,tj) 計(jì)算公式如下所示

        (9)

        (10)

        (11)

        (12)

        在每一輪提取出事件新聞后,通過以上方法計(jì)算提取出的所有新聞的關(guān)鍵詞TF-ICF值和熱度分?jǐn)?shù),將新的特征融入至事件模型,并根據(jù)關(guān)鍵詞衰減指數(shù)對原始特征進(jìn)行減弱,具體的計(jì)算方法如下。

        設(shè)當(dāng)前時(shí)間窗口tj的事件候選關(guān)鍵詞向量為V(tj)=(v1∶w1,tj,v2∶w2,tj,…,vi∶wi,tj), 其中vi表示事件候選關(guān)鍵詞,wi,tj表示候選關(guān)鍵詞vi在時(shí)間窗口tj的權(quán)重。wi,tj計(jì)算公式如下

        wi,tj=θ×wi,tj-1+c(vi,tj)

        (13)

        其中,c(vi,tj) 表示時(shí)間窗口tj內(nèi)候選關(guān)鍵詞vi新增的權(quán)值,α和β為系數(shù),分別取值0.4和0.6,θ為候選關(guān)鍵詞衰減指數(shù),c(vi,tj) 的計(jì)算公式如下

        c(vi,tj)=α×tficf(vi,tj)+β×s(vi,tj)

        (14)

        式中:熱度分?jǐn)?shù)s(vi,tj) 是一個(gè)0-1的數(shù),tficf(vi,tj) 經(jīng)過單位化處理也是一個(gè)0-1的數(shù)。

        通過式(14)對事件候選關(guān)鍵詞向量進(jìn)行更新后,按其權(quán)重大小進(jìn)行排序,挑選權(quán)重值排前8的候選關(guān)鍵詞作為事件新的關(guān)鍵詞,完成事件關(guān)鍵詞的一次反饋更新。

        3.3 子事件聚類

        子事件聚類階段其主要目標(biāo)是提煉新聞信息,將事件追蹤階段提取的新聞聚類成子事件,并提取相關(guān)信息來對其進(jìn)行封裝,作為構(gòu)建事件脈絡(luò)的節(jié)點(diǎn)。

        SinglePass是一種增量聚類算法,簡單高效,其主要思想是將流式數(shù)據(jù)作為輸入,計(jì)算每一條新數(shù)據(jù)與已有類的相似度,相似度大于閾值則納入類中,否則新建一個(gè)類。本文使用SinglePass算法來對子事件聚類,聚類特征選取的是新聞標(biāo)題TF權(quán)重、正文TF權(quán)重、關(guān)鍵詞TF權(quán)重,其中關(guān)鍵詞是在事件追蹤階段提取的有故事偏向性的關(guān)鍵詞。

        通過聚類得到的子事件新聞集合由于易讀性差,無法直接用于故事樹構(gòu)建,為了更直觀簡潔地在故事樹中展示事件的主要信息,接下來從這些新聞簇中提取信息來對子事件進(jìn)行封裝,詳細(xì)的過程如下:

        (1)將子事件新聞最早的發(fā)布時(shí)間作為子事件的發(fā)生時(shí)間Tse;

        (2)將子事件新聞的關(guān)鍵詞集合作為子事件的關(guān)鍵詞Kse;

        (3)將聚類得到的子事件新聞集合作為子事件News_set;

        (4)新聞?lì)愇恼碌臉?biāo)題就是對文章內(nèi)容的高度概括,而且在標(biāo)題中出現(xiàn)次數(shù)越多的詞越與子事件有關(guān),因此使用基于標(biāo)題高頻切分的新聞熱點(diǎn)短語提取方法[21]來提取子事件的概要描述Dse。 該方法對同一子事件的多篇新聞,篩選出標(biāo)題詞頻最大的前N個(gè)詞作為該子事件高頻詞集,使用高頻詞集來尋找每個(gè)標(biāo)題的高頻切分邊界,并根據(jù)切分邊界對其進(jìn)行切分,將切分結(jié)果作為候選短語集,并且最終只選擇一個(gè)最佳短語來描述子事件。

        3.4 故事樹構(gòu)建

        故事樹構(gòu)建階段的目標(biāo)是為新聞事件生成發(fā)展脈絡(luò)。新聞事件的發(fā)展是有一定規(guī)律的,一系列的關(guān)鍵節(jié)點(diǎn)推動(dòng)著事件不斷往前發(fā)展,在某個(gè)關(guān)鍵節(jié)點(diǎn)下又有著描述不同方面的子事件。當(dāng)事件到達(dá)一個(gè)新的關(guān)鍵節(jié)點(diǎn)時(shí),這代表著事件進(jìn)入了一個(gè)新的發(fā)展階段。在其未進(jìn)入下一個(gè)發(fā)展階段時(shí),會(huì)有描述該發(fā)展階段不同方面的子事件被報(bào)道出來。這些子事件涉及面較廣,內(nèi)容差別較大,例如“孟晚舟被捕”事件初始階段有“被捕”、“各方回應(yīng)”、“股價(jià)受影響”等子事件。基于相似度的方法傾向于將相似的子事件聚集到一起,無法捕捉到事件的這一發(fā)展規(guī)律,因此所構(gòu)建的發(fā)展脈絡(luò)不連貫、整體性較差。根據(jù)新聞事件的這一發(fā)展規(guī)律,本文認(rèn)為梳理新聞事件的發(fā)展脈絡(luò)時(shí)需要區(qū)分主干和分支,其中主干結(jié)構(gòu)應(yīng)該由事件的一系列關(guān)鍵發(fā)展節(jié)點(diǎn)構(gòu)成,分支由各發(fā)展階段的子事件組成。

        如何從大量的新聞數(shù)據(jù)中提取事件發(fā)展的主干結(jié)構(gòu)是個(gè)難點(diǎn)。本文通過分析事件新聞關(guān)鍵詞的演變發(fā)現(xiàn),當(dāng)事件進(jìn)入一個(gè)新的發(fā)展階段時(shí),會(huì)頻繁提及某些詞,而這些詞在之前的新聞中幾乎從未出現(xiàn),它們出現(xiàn)的頻率較之前有著異常的變化。因此,可以通過這些出現(xiàn)頻率有著異常變化的詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),生成故事樹的主干結(jié)構(gòu)。在本文中稱這樣的詞為熱詞,熱詞由熱度分?jǐn)?shù)計(jì)算得出,當(dāng)一個(gè)詞的熱度分?jǐn)?shù)大于設(shè)定的閾值0.6時(shí),它就是一個(gè)熱詞,其中熱度分?jǐn)?shù)計(jì)算在3.2.3節(jié)做了介紹。

        故事樹構(gòu)建的偽代碼如算法1所示。給定子事件集合subevent_set、 當(dāng)前故事樹S、 新聞熱詞hotwords、 當(dāng)前時(shí)間窗口的事件關(guān)鍵詞eventkeyword。 首先,判斷該事件的故事樹S是否存在,不存在則新建一顆故事樹,并為故事樹新建一個(gè)分支,將事件關(guān)鍵詞設(shè)為分支關(guān)鍵詞(行(2)-(4))。如果該故事樹存在,根據(jù)是否存在新聞熱詞來判斷是否需要?jiǎng)?chuàng)建新的故事樹分支(行(6)-(8))。然后,循環(huán)遍歷子事件集合,如果子事件相似度大于一定閾值則合并(行(10)-(12)),否則根據(jù)子事件關(guān)鍵詞是否包含故事樹分支的關(guān)鍵詞來尋找子事件所屬的分支(行(13)-(18))。最后,將分支的子事件按發(fā)生時(shí)間先后順序連接起來,將分支按時(shí)間先后順序連接起來,完成故事樹的一次構(gòu)建過程(行(21)-(25))。

        算法1: 故事樹構(gòu)建算法

        輸入: 子事件集合subevent_set={se1,se2…se|E|}

        當(dāng)前故事樹S={branch1,branch2,…,branchn}

        新聞熱詞hotwords

        當(dāng)前時(shí)間窗口的事件關(guān)鍵詞eventkeyword

        輸出: 更新后的故事樹Supdated={branch1,branch2,…,branchn}

        (1)Arrange subevents ofsubevent_setin ascending order of occurrence time

        (2)ifSis not exist then

        (3) createS/*新建一顆故事樹*/

        /*新建故事樹第一個(gè)分支并將事件關(guān)鍵詞設(shè)為分支關(guān)鍵詞*/

        (4)S.add(newbranch(eventkeyword))

        (5)else

        (6) ifhotwordsis not null then

        /*新建故事樹分支并將熱詞設(shè)為分支關(guān)鍵詞*/

        (7)S.add (newbranch(hotwords))

        (8) end if

        (9) forseiinsubevent_setdo

        /*如果子事件的標(biāo)題余弦相似度大于0.7*/

        (10) if title_consinSsim(sei,seinS)>0.7 then

        (11) merge(sei,seinS) /*合并子事件*/

        (12) end if

        (13) for j=n to j=1 do

        (14) ifse.KsecontainsS.branchj.Kbranchthen

        (15)S.branchj.E. add(se) /*將子事件添加到分支*/

        (16) break;

        (17) end if

        (18) end for

        (19) end for

        (20) end if

        (21)forbranchkinS

        (22) 將分支branchk的子事件最早發(fā)生時(shí)間設(shè)為分支時(shí)間

        (23) 將分支branchk的子事件按發(fā)生時(shí)間先后順序連接起來

        (24)end for

        (25)將分支按時(shí)間先后順序連接起來

        (26)returnSupdated

        4 實(shí)驗(yàn)及分析

        4.1 事件追蹤實(shí)驗(yàn)及分析

        在本節(jié)中主要介紹事件追蹤實(shí)驗(yàn),本文使用爬蟲工具從各新聞網(wǎng)站收集了3個(gè)事件的新聞數(shù)據(jù),將其標(biāo)注為正例,此外還收集了事件同時(shí)間段的其它新聞,將其標(biāo)注為反例,以此作為實(shí)驗(yàn)的數(shù)據(jù)集。事件名稱以及對應(yīng)的新聞數(shù)量、時(shí)間等見表1。實(shí)驗(yàn)設(shè)置相似度閾值為0.1,衰減指數(shù)θ為0.8,時(shí)間窗口設(shè)置為天。

        表1 數(shù)據(jù)集

        實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R和兩者綜合性能指標(biāo)F值這3個(gè)指標(biāo)進(jìn)行量化考察,F(xiàn)值越高,事件追蹤性能越好。設(shè)TP為在追蹤結(jié)果中被判定屬于某事件且實(shí)際也屬于該事件的文本數(shù)量,F(xiàn)P為在追蹤結(jié)果中被判定屬于某事件但實(shí)際不屬于該事件的文本數(shù)量,F(xiàn)N為在追蹤結(jié)果中被判定為其它類別但實(shí)際屬于該事件的文本數(shù)量。

        則準(zhǔn)確率P、 召回率R和F值的計(jì)算公式如下

        (15)

        (16)

        (17)

        為了驗(yàn)證本文方法在事件追蹤上的效果,選取基于SinglePass的追蹤方法以及Qi Y等[9]提出的方法作為對比實(shí)驗(yàn),實(shí)驗(yàn)設(shè)置兩篇種子新聞作為對比方法的初始類心?;赟inglePass的追蹤方法選取的文本特征表示方法是TF-IDF。Qi Y等提出的方法引入了反饋更新事件關(guān)鍵詞的機(jī)制,每次調(diào)整關(guān)鍵詞權(quán)重時(shí)增加固定的值0.5。在表2展示了在所有時(shí)間窗口的平均追蹤結(jié)果。圖4~圖6分別展示了在單個(gè)時(shí)間窗口上對事件進(jìn)行追蹤的統(tǒng)計(jì)結(jié)果。

        表2 事件追蹤方法實(shí)驗(yàn)結(jié)果

        圖4 事件1追蹤結(jié)果統(tǒng)計(jì)

        圖5 事件2追蹤結(jié)果統(tǒng)計(jì)

        圖6 事件3追蹤結(jié)果統(tǒng)計(jì)

        從表2的平均追蹤結(jié)果可以看出,本文方法在事件追蹤效果上整體優(yōu)于基于SinglePass的追蹤方法和Qi Y等提出的方法。結(jié)合圖4~圖6,可以看出在事件發(fā)展的前期,本文方法優(yōu)于基于SinglePass的方法,原因是本文在新聞文本特征上選擇了有故事偏向性的新聞關(guān)鍵詞,加大了事件關(guān)鍵詞出現(xiàn)在新聞中時(shí)被提取為新聞關(guān)鍵詞的概率,而SinglePass方法選取的是常規(guī)的TF-IDF文本特征表示方法,當(dāng)事件關(guān)鍵詞在新聞中出現(xiàn)頻率較低時(shí),這樣的新聞很難被追蹤到。

        此外,從圖4~圖6可以看出,隨著事件的不斷發(fā)展,事件追蹤效果也會(huì)隨之下降。下降得最快的是基于SinglePass的方法,其原因是隨著時(shí)間的推移,SinglePass的類心特征逐漸變得稀疏,新的事件特征所占權(quán)重較小,導(dǎo)致后期聚類效果不理想。其次下降得較快是Qi Y等提出的方法,其原因是在反饋更新事件關(guān)鍵詞時(shí),對關(guān)鍵詞新增權(quán)值的調(diào)整未考慮到詞語的重要性差別,而是統(tǒng)一增加固定的值,導(dǎo)致事件關(guān)鍵詞質(zhì)量不佳,從而影響到后期的追蹤結(jié)果。雖然本文方法追蹤結(jié)果有所下降,但整體下降趨勢比較緩慢,在事件發(fā)展的后期,其追蹤結(jié)果明顯優(yōu)于另兩種方法,F(xiàn)值在86%左右,其原因主要是本文引入了事件關(guān)鍵詞候選向量,在反饋更新策略上做了改進(jìn),增加了關(guān)鍵詞TF-ICF和熱度計(jì)算而不是只增加固定的值。

        通過以上分析可知,本文的事件追蹤方法提升了事件追蹤效果,在面對事件漂移的問題上取得了不錯(cuò)的結(jié)果,能夠有效的對事件進(jìn)行動(dòng)態(tài)追蹤。

        4.2 事件脈絡(luò)構(gòu)建實(shí)驗(yàn)及分析

        在本節(jié)中主要介紹事件脈絡(luò)構(gòu)建實(shí)驗(yàn)。實(shí)驗(yàn)選取事件追蹤的3個(gè)事件進(jìn)行脈絡(luò)構(gòu)建,選取兩個(gè)方法StoryTel-ling[16]、StoryForest[3]來進(jìn)行對比。

        (1)StoryTelling:該方法基于事件地點(diǎn)、人物、核心詞等相似度生成事件有向無環(huán)圖,然后從有向無環(huán)圖中識(shí)別弱聯(lián)通分量,并為每個(gè)弱聯(lián)通分量構(gòu)造一個(gè)最大生成樹,最后用最大生成樹表示故事樹的分支。

        (2)StoryForest:該方法計(jì)算新事件與已有事件的連接強(qiáng)度,連接強(qiáng)度計(jì)算基于內(nèi)容相似度和時(shí)間距離,將新事件連接到連接強(qiáng)度最大的節(jié)點(diǎn),如果小于設(shè)定的閾值則連接到故事樹根節(jié)點(diǎn)。

        (3)本文方法:采用有主干和分支的故事樹結(jié)構(gòu)來展現(xiàn)事件脈絡(luò),并利用新聞熱詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),生成故事的主干結(jié)構(gòu)。

        由于事件脈絡(luò)具有很強(qiáng)的主觀特性,比如可讀性、完整性等,因此本文基于用戶體驗(yàn)來評價(jià)事件脈絡(luò)構(gòu)建方法的表現(xiàn)。本文將3個(gè)不同方法生成的事件脈絡(luò)呈現(xiàn)給18位志愿者,并邀請志愿者對事件脈絡(luò)的可讀性和完整性進(jìn)行評分。其中,可讀性是指事件脈絡(luò)易閱讀、易理解、邏輯連貫、展現(xiàn)形式生動(dòng);完整性是指事件脈絡(luò)完整地描述了事件的發(fā)展歷程。評分標(biāo)準(zhǔn)為:5(優(yōu)秀)、4(良好)、3(一般)、2(差)、1(很差)。評價(jià)結(jié)果見表3、表4。

        從評分結(jié)果可以看出,本文采用有主干和分支的故事樹來展現(xiàn)的事件脈絡(luò)在可讀性和完整性上表現(xiàn)良好,在保證事件發(fā)展歷程被完整展現(xiàn)的同時(shí),也考慮到了用戶的習(xí)慣,讓用戶更容易閱讀和理解。相比于StoryTelling和StoryForest方法,用戶更傾向于選擇本文方法生成的事件脈絡(luò)。

        表3 基于用戶體驗(yàn)的事件脈絡(luò)可讀性評分

        表4 基于用戶體驗(yàn)的事件脈絡(luò)完整性評分

        圖7和圖8展示了本文方法為“茅臺(tái)袁仁國違紀(jì)”和“西安奔馳維權(quán)”事件構(gòu)建的故事樹。從圖中可以看出,有主干和分支的故事樹在結(jié)構(gòu)方面十分清晰。利用熱詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),生成故事樹的主干結(jié)構(gòu),可以讓事件的發(fā)展歷程一目了然。然而根據(jù)相似度來確定子事件之間聯(lián)系的方法,無法將同一發(fā)展階段講述不同內(nèi)容的子事件聚集到一起,比如對于圖7中分支A的子事件,它們描述的都是事件初始階段的信息,但在內(nèi)容描述上差別較大,基于相似度很難將它們聚集到一起,因此會(huì)陷入局部構(gòu)建,缺乏整體性。雖然本文在故事樹的構(gòu)建中沒有分析分支上子事件之間潛在的一些聯(lián)系,但是本文認(rèn)為這是不必要的,因?yàn)楫?dāng)用戶看到以故事樹形式展現(xiàn)的事件發(fā)展脈絡(luò)時(shí),可以很容易地人為分析出它們的聯(lián)系,不需要付出很大的努力。

        圖7 “茅臺(tái)袁仁國違紀(jì)”事件故事樹

        圖8 “西安奔馳維權(quán)”事件故事樹

        5 結(jié)束語

        本文提出了一種面向新聞事件的故事樹構(gòu)建方法,這是一套完整的解決方案,針對用戶關(guān)注的特定事件,從大量的日常新聞中對事件相關(guān)新聞進(jìn)行動(dòng)態(tài)追蹤,以在線的方式將事件相關(guān)新聞組織成有主干和分支的故事樹,并利用新聞熱詞來定位事件發(fā)展的關(guān)鍵節(jié)點(diǎn),幫助用戶輕松地了解事件發(fā)展演變整個(gè)過程。實(shí)驗(yàn)結(jié)果表明,本文方法提高了事件追蹤的效果,所構(gòu)建的事件脈絡(luò)在可讀性和完整性上表現(xiàn)良好。此外,熱點(diǎn)新聞事件的發(fā)生會(huì)引發(fā)大量的討論,這些評論信息也會(huì)對事件的發(fā)展起到一定的推動(dòng)作用,為了更全面地展示事件信息,下一步擬將評論分析融入至故事樹構(gòu)建中。

        亚洲国产精品成人无码区| 一区二区三区四区亚洲免费| 国产亚洲精品综合一区| 91精品福利一区二区三区| 亚洲中文字幕一区二区在线| 中国少妇×xxxx性裸交| 丁字裤少妇露黑毛| 男女男在线精品网站免费观看 | 久久国产女同一区二区| 日本高清一区二区不卡| 一本久久综合亚洲鲁鲁五月天| 国产无遮挡又黄又爽免费网站 | 一本一道久久综合狠狠老| 少妇极品熟妇人妻无码| 蜜臀aⅴ永久无码一区二区| 日本一区二区在线播放视频| 久久人妻无码一区二区| 久久久午夜精品福利内容| 无码日日模日日碰夜夜爽| 国产精品一区区三区六区t区| 自拍情爱视频在线观看| 人人妻人人澡人人爽人人dvd| 亚洲自偷自拍熟女另类| 日日爽日日操| 一本色道久久88综合| 性色视频加勒比在线观看| 久久天天躁狠狠躁夜夜不卡| 欧美性猛交xxxx黑人| 免费高清视频在线观看视频| 国产精品一区二区av不卡| 日本熟妇美熟bbw| 夜夜高潮夜夜爽夜夜爱爱| 粗大挺进尤物人妻一区二区| 成人短篇在线视频夫妻刺激自拍| 国产一品二品三品精品在线| 内谢少妇xxxxx8老少交| 亚洲男人天堂av在线| 深夜黄色刺激影片在线免费观看| 成人精品视频一区二区| 成人久久免费视频| 亚洲精品白浆高清久久|