基于改進(jìn)Single-pass算法的新聞話題演化跟蹤算法

2021-06-28 17:40:37李天怡應(yīng)文豪

電腦知識(shí)與技術(shù) 2021年10期

李天怡應(yīng)文豪

摘要：隨著信息技術(shù)的發(fā)展，每天都有大量的新聞文本在互聯(lián)網(wǎng)上發(fā)布、轉(zhuǎn)發(fā)，在這樣的海量信息環(huán)境下，如何快速定位自己感興趣的話題、追蹤其發(fā)展趨勢(shì)已成了近年來的研究熱點(diǎn)。面向互聯(lián)網(wǎng)上新聞文本，提出聚類閾值的估計(jì)方法對(duì)已有的Single-pass算法進(jìn)行優(yōu)化，進(jìn)而基于時(shí)間片設(shè)計(jì)一個(gè)新聞文本演化算法。在新華網(wǎng)等四個(gè)網(wǎng)站上采集新聞數(shù)據(jù)并進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)表明所提算法可有效跟蹤新聞話題的演化過程。

關(guān)鍵詞：Single-pass算法; 網(wǎng)絡(luò)爬蟲; 聚類; 演化; 跟蹤

中圖分類號(hào)：TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）10-0026-04

Abstract：With the development of information technology， a large number of news texts are published and forwarded on the Internet every day. In such a massive information environment， how to make people quickly locate and understand their topics of interest become a hot issue in recent years.For news texts on the Internet， a clustering threshold estimation method is proposed to optimize the existing Single-pass algorithm， and then a news text evolution algorithm is designed based on the time slice.News data on four websites including Xinhua net was collected and experimented. The experiments show that the proposed algorithm can effectively track the evolution of news topics.

Key words： single-pass algorithm; Web Crawler; clustering; evolution; track

1 引言

新聞報(bào)道是人們了解社會(huì)發(fā)展的趨向、生活演進(jìn)的動(dòng)態(tài)、事件變化過程的主要途徑。近年來，由于萬物互聯(lián)的互聯(lián)網(wǎng)高速發(fā)展，越來越多的媒體平臺(tái)把社交網(wǎng)絡(luò)作為新聞報(bào)道傳播的主要載體。當(dāng)重大事件發(fā)生時(shí)，各大媒體網(wǎng)站將發(fā)布大量的相關(guān)新聞報(bào)道。對(duì)于某些熱點(diǎn)話題，人們相互發(fā)表不同的觀點(diǎn)，并對(duì)該話題加工并轉(zhuǎn)發(fā)，于是話題下的消息呈爆發(fā)式的擴(kuò)散。例如2019年7月的香港《逃犯條例》風(fēng)波發(fā)生后，人們紛紛評(píng)論轉(zhuǎn)發(fā)該事件的相關(guān)報(bào)道，一時(shí)間，該話題占領(lǐng)了各大新聞網(wǎng)站的頭條。對(duì)于這樣的熱點(diǎn)話題，從新聞媒體方來說，一般會(huì)建立新聞專題服務(wù)，實(shí)現(xiàn)分眾傳播模式，但專題的建立一般是通過人工方式實(shí)現(xiàn)，人工建立新聞專題這種模式效率低下，十分不適應(yīng)新聞門戶的產(chǎn)出需求[1]。從用戶方來說，互聯(lián)網(wǎng)信息量巨大，如何找到自己需要的信息，如何快速地了解熱點(diǎn)話題的發(fā)展變化過程，如何持續(xù)跟進(jìn)自己感興趣的熱點(diǎn)話題的后續(xù)，都是需要解決的問題。通常，熱點(diǎn)話題從產(chǎn)生開始就會(huì)隨著時(shí)間的推移不斷演化，有的話題會(huì)在熱度持續(xù)期內(nèi)演化出其他相關(guān)的熱點(diǎn)事件，而有的話題會(huì)因?yàn)闊岫认陆祻亩谎蜎]在互聯(lián)網(wǎng)的海量信息中，致使用戶很難再發(fā)現(xiàn)其發(fā)展過程和追蹤其子事件。基于上述問題，本文結(jié)合網(wǎng)絡(luò)爬蟲、文本處理、聚類等領(lǐng)域的方法，對(duì)已有的Single-pass算法進(jìn)行優(yōu)化，提出聚類閾值的估計(jì)方法，進(jìn)而基于時(shí)間片設(shè)計(jì)一個(gè)新聞文本演化算法用來對(duì)新聞話題演化歷程進(jìn)行追蹤。

2 相關(guān)工作

對(duì)基于文檔的話題檢測(cè)任務(wù)[2]，首先是對(duì)文本特征建模的研究，張曉艷等人[3]基于信息的劃分越細(xì)系統(tǒng)的性能越高這個(gè)主張，提出了多向量文本表示模型，即從每個(gè)文本中抽出十類富含信息的詞組生成十個(gè)向量，再對(duì)這十個(gè)向量整合來表示一篇新聞的文本向量。但基于向量空間模型（VSM）的特征表示忽略了詞與詞之間順序關(guān)系，實(shí)際上，詞序也蘊(yùn)含了很大一部分的語義信息，屈慶濤等人[4]針對(duì)傳統(tǒng)的向量空間模型提出了基于N元語法（N-Gram語言模型）的特征建模。充分利用了語序信息對(duì)文本特征進(jìn)行表示，有效提高了話題檢測(cè)的準(zhǔn)確度。但是基于N元語法的模型過于消耗計(jì)算資源，需要MapReduce等大數(shù)據(jù)分布計(jì)算模型作為支撐，所以并不具有普適性。

對(duì)于話題建模，文本聚類是較為常用的發(fā)現(xiàn)算法。目前，適用于文本領(lǐng)域的分類算法主要有四種[5]，即基于劃分的聚類算法、基于層次的聚類算法、基于增量的聚類算法和基于圖模型的聚類算法。但基于新聞文本的多樣性、實(shí)時(shí)性等特點(diǎn)，對(duì)新話題的追蹤更多使用的是基于增量的聚類算法。陳龍等[6]針對(duì)K-means在新聞聚類里初始話題數(shù)K不確定、聚類過程不穩(wěn)定等問題提出了基于話題相似性改進(jìn)的K-means新聞聚類算法，該算法優(yōu)化了聚類初始中心的選擇來保證初始點(diǎn)的差異性足夠大，從而使得算法不會(huì)收斂于局部最優(yōu)，并且通過預(yù)測(cè)新聞話題覆蓋率來自動(dòng)生成K值，使得該算法在話題發(fā)現(xiàn)任務(wù)中發(fā)揮更穩(wěn)定。魏德志等[7]在Single-pass聚類的思想上提出了基于時(shí)間片劃分的方法，基于時(shí)間序列的話題模型更加接近現(xiàn)實(shí)話題的生命周期特性，降低主題空間隨著新詞的加入而產(chǎn)生的話題漂移現(xiàn)象。

3 基于改進(jìn)Single-pass算法的話題演化跟蹤模型

3.1文本特征建模

用新聞文本代表新聞事件進(jìn)行處理的前提是有合適的模型來表示新聞文本。本文將采用詞袋模型對(duì)新聞文本建模進(jìn)行研究。傳統(tǒng)的one-hot模型使用文檔集R所有的詞作為模型的維度，使用0-1（表示文本中詞的出現(xiàn)與否）作為每個(gè)維度的值，將文檔D向量化表示為（其中，R[={D1，D2，…，DX，…DM}]代表文檔集，[D=w1，w2，…，ws，…，wn]代表一個(gè)文檔，R*=[W1，W2，…，WS，…，WN]代表由文檔集中所有詞組成的詞集，[ws]代表D中的詞項(xiàng)，[WS]代表R*中的詞項(xiàng)）：

但此模型忽略了詞頻對(duì)文本的影響，所以本文將使用TF-IDF權(quán)值來代替0-1值。TF-IDF實(shí)際分為兩部分：TF（Term-Frequency）詞頻、IDF（Inverse- Document-Frequency）逆文檔頻率：

詞頻表示詞在文檔中出現(xiàn)的次數(shù)，一般來說，詞頻越高說明該詞越能接近該文檔所表述的主題，但如果僅以詞頻作為權(quán)值的話會(huì)使得結(jié)果更偏向于那些包含更多詞的長文本，并且篩選出的詞更具有普遍性而非區(qū)分性。所以，需要引入IDF來懲罰那些更具有普遍性的詞。詞頻在文檔中代表重要性特征，而逆文檔頻率在整個(gè)空間中代表了詞的區(qū)分度特征。最后，文檔特征向量的權(quán)值表示為：

3.2 文檔聚類

話題即是一系列圍繞著相似內(nèi)容的文檔集合，因此可通過信息聚類技術(shù)幫助獲得相似文檔集合。新聞話題追蹤系統(tǒng)的擴(kuò)展性需求和性能需求要求聚類算法需要有以下兩個(gè)特征：（1）當(dāng)有新文檔集加入后無須重復(fù)計(jì)算。（2）無法提前確定聚類的結(jié)果數(shù)量。所以，基于增量的聚類算法是最適合需求的，而其中最為常用的聚類算法為Single-Pass，其特點(diǎn)為單遍聚類，對(duì)文檔數(shù)量遞增的聚類需求極為友好。

傳統(tǒng)的Single-Pass聚類算法描述如下：

根據(jù)上述描述可得，基于核心操作[disDX，Di]，此算法的時(shí)間復(fù)雜度為[O（n2）]，且實(shí)際效果并不樂觀，以下將從新聞文本的特殊結(jié)構(gòu)、距離函數(shù)、相似閾值、時(shí)間復(fù)雜度等方面對(duì)傳統(tǒng)的Single-Pass算法進(jìn)行優(yōu)化，使其獲得更好的聚類效果。

對(duì)于類簇[Ci]，判斷文檔是否屬于[Ci]需要與[Ci]中的每個(gè)文檔相比較，非常影響聚類算法的效率，并且如果以類簇中相似度最大的文檔作為依據(jù)的話，會(huì)使聚類中心發(fā)生偏移，影響類簇的聚合程度。所以本文將類簇的聚類中心[centroidCi]作為評(píng)判標(biāo)準(zhǔn)，通過此操作可以將聚類算法的時(shí)間復(fù)雜度降至[Onm，m=Ci?n]，且聚類中心更不易發(fā)生偏移。

可以看到，Single-Pass算法的效果極度依賴于閾值[θ]的取值。所以本文基于數(shù)據(jù)來估計(jì)[θ]值的方法。首先，引入聚類效果的評(píng)價(jià)指標(biāo)——輪廓系數(shù)[8]，其計(jì)算方法如下：

對(duì)于簇中的每個(gè)向量，分別計(jì)算它們的輪廓系數(shù);

對(duì)于其中的一個(gè)點(diǎn)[i]來說：

計(jì)算[ai= averagei向量到所有它屬于的簇中其它點(diǎn)的距離]

計(jì)算

[bi=mini向量到與它相鄰最近的一簇內(nèi)的所有點(diǎn)的平均距離]

那么[i]向量輪廓系數(shù)就為：

將所有點(diǎn)的輪廓系數(shù)相加并求平均值，就得到了評(píng)估該聚類效果的總輪廓系數(shù)。輪廓系數(shù)介于[[0，1]]，其值隨著類里的聚合度的增大與類間的分離度增大而增大。即輪廓系數(shù)越接近1，聚類的效果越好。然后我們使用一個(gè)從0.1開始、1.0結(jié)束、步長為0.05的[θ]列表重復(fù)聚類，每次聚類生成本次輪廓系數(shù)，最后選擇輪廓系數(shù)最大的[θ]即可，如圖1所示。

綜上，優(yōu)化后的Single-Pass算法如下：

3.3 話題演化

話題是由種子事件演化出的一系列事件的集合，而話題演化就是具體、詳細(xì)地確定這種事件演化之間的狀態(tài)轉(zhuǎn)移關(guān)系。顯然地，根據(jù)新聞的時(shí)序特征，本文設(shè)話題內(nèi)第一個(gè)發(fā)生的事件為種子事件，話題內(nèi)所有其他事件都直接或間接地與種子事件存在此依賴關(guān)系。再根據(jù)新聞的周期性，將話題分配到話題周期的各個(gè)時(shí)間段中。

根據(jù)以上假設(shè)，基于時(shí)間片的貪心策略，設(shè)計(jì)出以下話題演化算法：

此算法假設(shè)每個(gè)事件最多可以只有一個(gè)父事件，且每個(gè)時(shí)間片內(nèi)的事件相互獨(dú)立，彼此不會(huì)發(fā)生演化（同周期內(nèi)的新聞事件發(fā)生狀態(tài)轉(zhuǎn)移概率較低）。當(dāng)且僅當(dāng)與該事件最相似的前時(shí)間片內(nèi)事件相似度超過閾值時(shí)，該事件才被分配為父事件。

4 實(shí)驗(yàn)結(jié)果

4.1數(shù)據(jù)獲取

本文爬蟲模塊采用python的scrapy框架來實(shí)現(xiàn)，爬取cctv、新京報(bào)、新華網(wǎng)、環(huán)球時(shí)報(bào)這4個(gè)新聞網(wǎng)站。由于爬蟲爬到的網(wǎng)頁數(shù)據(jù)是雜亂無章且數(shù)據(jù)冗余的，所以需要對(duì)數(shù)據(jù)進(jìn)行清洗。具體的清洗對(duì)象包括：（1）

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放