亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        話題檢測與跟蹤技術(shù)在網(wǎng)絡(luò)輿情系統(tǒng)中的應(yīng)用

        2025-04-27 00:00:00陳婕
        數(shù)字通信世界 2025年3期

        摘要:網(wǎng)絡(luò)輿情多元且傳播迅速,易催生輿論熱點。話題檢測與跟蹤技術(shù)能及時發(fā)現(xiàn)輿論熱點,動態(tài)把握輿情走向。本文詳述了話題檢測與跟蹤技術(shù)任務(wù)、關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)輿情系統(tǒng)中的應(yīng)用,旨在為相關(guān)部門提供堅實的技術(shù)支撐,科學(xué)有效地應(yīng)對網(wǎng)絡(luò)輿情變化。

        關(guān)鍵詞:話題檢測;話題跟蹤;網(wǎng)絡(luò)輿情;系統(tǒng)應(yīng)用

        doi:10.3969/J.ISSN.1672-7274.2025.03.027

        中圖分類號:G 206;TP 393.4 " " " " "文獻標志碼:B " " " " " "文章編碼:1672-7274(2025)03-00-04

        Application of Topic Detection and Tracking Technology in Online Public Opinion Systems

        CHEN Jie

        (Shanxi Police College, Taiyuan 030401, China)

        Abstract: Online public opinion is diverse and spreads rapidly, easily generating public opinion hotspots. Topic detection and tracking technology can promptly identify these hotspots and dynamically grasp the trend of public opinion. This paper elaborates on the tasks, key technologies, and application of this technology in online public opinion systems, aiming to provide solid technical support for relevant departments to scientifically and effectively respond to changes in online public opinion.

        Keywords: topic detection; topic tracking; online public opinion; system application

        0 " 引言

        近幾十年來,互聯(lián)網(wǎng)行業(yè)呈跨越式發(fā)展,網(wǎng)絡(luò)上各種信息以指數(shù)級速度增長,并通過新聞網(wǎng)頁、微博、微信等社交媒體平臺進行傳播擴散。當(dāng)用戶關(guān)注度高或討論量較大的話題出現(xiàn)時,可視為進入輿情的萌芽期和初級階段。話題檢測與跟蹤技術(shù)作為一項旨在從海量信息中挖掘民眾熱議的社會話題與事件的重要技術(shù),受到研究人員的廣泛關(guān)注。針對網(wǎng)上高影響力的熱議話題,采用話題檢測與跟蹤的方法,不僅可以及時動態(tài)監(jiān)測話題衍生傾向,實時把握網(wǎng)絡(luò)事件的動向,幫助人們了解輿論焦點的本質(zhì),為后續(xù)輿情預(yù)警、治理提供思考,而且可以提升網(wǎng)絡(luò)輿情監(jiān)測的精度和效率,為凈化網(wǎng)絡(luò)環(huán)境,避免輿情危機爆發(fā)助力[1]。

        1 " 話題檢測與跟蹤的任務(wù)

        話題檢測與跟蹤包含五項基本研究任務(wù):報道切分、首次報道檢測、關(guān)聯(lián)檢測、話題檢測與話題跟蹤。報道切分是其他四項任務(wù)的預(yù)處理工作,它針對原始數(shù)據(jù)流進行識別,根據(jù)報道的分布規(guī)律或主題內(nèi)容的差異找出所有報道邊界,并切分成一則則具有完整結(jié)構(gòu)與一致主題的報道;首次報道檢測對網(wǎng)絡(luò)中的時序動態(tài)數(shù)據(jù)進行自動識別,檢測每個話題出現(xiàn)的第一篇討論報道;關(guān)聯(lián)檢測是對網(wǎng)絡(luò)媒體數(shù)據(jù)流中的兩則報道進行判斷,并分析是否討論同一話題;對于社交媒體平臺中的數(shù)據(jù),話題檢測的任務(wù)是檢測和組織未知的話題,在不清楚話題信息的情況下構(gòu)建檢測模型;話題跟蹤任務(wù)則對已知話題的多則報道進行模型訓(xùn)練,并利用此模型判斷后續(xù)報道與話題的相關(guān)性,實現(xiàn)對已有話題的追蹤分析,幫助研究人員獲取明確、詳細的話題描述。話題檢測與跟蹤的每項子任務(wù)都并非孤立存在,需要與其他任務(wù)相互輔助,共同實現(xiàn)話題信息的有效處理[2]。

        2 " 話題檢測與跟蹤的關(guān)鍵技術(shù)

        話題檢測與跟蹤技術(shù)是一種檢測新事件并對特定熱議話題進行后續(xù)跟蹤的信息獲取技術(shù),可有效地把分散的信息組織匯集起來,從整體掌握話題全部細節(jié)并了解各事件之間的關(guān)聯(lián)性。根據(jù)任務(wù)類型劃分,主要有兩方面的研究:話題檢測研究與話題跟蹤研究,其中涉及的關(guān)鍵技術(shù)為話題/報道表示模型、相似度計算和文本聚類、分類算法。話題檢測與跟蹤的操作流程,如圖1所示。

        2.1 話題/報道表示模型

        在判斷報道歸屬于哪個話題之前,首先需要對話題和報道進行模型化,即表示成計算機便于識別與處理的形式?,F(xiàn)有的話題/報道表示模型主要有語言模型、向量空間模型、中心向量模型。

        語言模型是一種概率模型,使用條件概率鏈式法則,假定報道中的單詞相互獨立,將整篇報道的概率拆分成每個單詞在序列中出現(xiàn)的概率乘積,通過計算報道中的單詞和話題類別的聯(lián)合概率分布估計該報道的話題類別概率,完成檢測。語言模型不僅考慮到報道中單詞的詞頻,還考慮到了單詞之間的順序和關(guān)系,更有利于獲取并掌握報道中的上下文信息。

        向量空間模型從報道中提取特征子集,并采取相關(guān)算法計算特征項權(quán)重,其中權(quán)重代表特征項在報道中的重要程度,所有特征項與其相應(yīng)的權(quán)重構(gòu)成報道的向量表示模型[3]。向量空間模型將對報道內(nèi)容的處理轉(zhuǎn)換為向量運算[4],是目前最便捷有效的文本表示模型。在向量空間模型中,主要采用TF-IDF(Term Frequency-Inverse Document Frequency)加權(quán)技術(shù)為報道中的特征項計算權(quán)重。TF表示詞頻;IDF表示逆文檔頻率,用來衡量特征項的常見程度。特征項在該報道中的詞頻越高,同時在整個報道集合中的逆文檔頻率越高,則該特征項的權(quán)重值越大。使用TF-IDF算法可有效地提取報道中的關(guān)鍵信息,識別報道中的重要特征[5]。具體計算公式如下:

        (1)

        (2)

        式中,i表示報道中某個單詞;表示單詞i出現(xiàn)的次數(shù);表示報道中的單詞總數(shù);表示語料庫中所有報道的數(shù)目;表示出現(xiàn)單詞i的報道數(shù)目,分母“+1”是為了防止計算時出現(xiàn)分母為零的情況,即單詞i在任何一篇報道中都未提及。

        中心向量模型作為向量空間模型的一種變形,計算所有報道向量表示的平均值并將其作為該話題的中心向量;之后將新報道或后續(xù)報道同每個話題的中心向量做比較,判斷報道與哪個話題最相近。

        2.2 相似度計算

        文本相似度是一種衡量不同報道間相關(guān)程度的關(guān)鍵指標,也是話題檢測與跟蹤過程中不可或缺的一部分。合理的相似度計算方法可以使聚類、分類性能更優(yōu),常用的計算方式有歐式距離、曼哈頓距離、切比雪夫距離、余弦相似度、皮爾遜相關(guān)系數(shù)等[6]。

        歐氏距離(也稱歐幾里得度量),在日常生活中被人們廣泛提及,主要用來衡量兩點間的距離或者向量的自然長度。具體計算公式如下:

        (3)

        式中,n表示向量維度;表示點A在第維度的坐標;表示點B在第維度的坐標。

        向量空間模型和中心向量模型一般采用余弦相似度來衡量報道與話題的相近程度。當(dāng)兩篇報道的向量接近0度時,余弦值趨近1,兩個向量相似度越大,說明此報道越可能“歸屬”于該話題[7]。具體計算公式如下:

        (4)

        式中,S和C分別表示報道與話題;和分別表示報道與話題中特征項的權(quán)重。

        2.3 文本聚類算法

        文本聚類是一種經(jīng)典的無監(jiān)督機器學(xué)習(xí)方法,在不知道有多少話題類別的前提下對報道進行劃分,最后將高度相似的報道聚合為一個話題,將差異性大的報道歸于一個新話題。

        基于劃分的聚類方法的主要思想是:在給定媒體數(shù)據(jù)流中對其中的多篇報道進行聚類,將具有高相似性的報道劃分在一個簇中,以此方式凝聚產(chǎn)生多個簇,不同簇間的報道具有較大差異性。K-means算法、層次聚類和Kernel算法為常見的基于劃分的聚類方法。其中,K-means算法是使用率最高的一種算法,K是一個超參數(shù),用來衡量簇的個數(shù),需要人為手動輸入。

        基于增量的聚類算法的主要思想是:根據(jù)報道輸入的先后順序進行依次處理,一次處理一則報道,分別計算新出現(xiàn)的報道和已經(jīng)存在的話題之間的相似度。該算法非常直觀,便于實現(xiàn),不需要重新訓(xùn)練所有數(shù)據(jù),在處理動態(tài)增長的數(shù)據(jù)時更全面、高效,可有效提升話題聚類的性能[8]。Single-pass為目前廣泛應(yīng)用的增量聚類算法。

        2.4 文本分類算法

        文本分類是自然語言處理(Natural Language Processing,NLP)中的一項基礎(chǔ)任務(wù),它按照給定的分類規(guī)則,將報道劃分到指定的某個或某幾個類別中。目前常見的基于機器學(xué)習(xí)的分類算法有KNN、樸素貝葉斯等。

        KNN算法的基本原理是,當(dāng)預(yù)測一個新報道的類別時,根據(jù)它距離最近的K則報道的類別,投票選出比例最大的類別,作為該新報道的分類結(jié)果。

        樸素貝葉斯根據(jù)概率統(tǒng)計相關(guān)知識,依據(jù)貝葉斯定理與特征條件獨立假設(shè)進行報道類別劃分,當(dāng)報道數(shù)據(jù)出現(xiàn)時其他各類樣本出現(xiàn)的概率大小決定此報道類別,選擇概率最大的類別作為該報道的最終類別。

        3 " 網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計

        網(wǎng)絡(luò)輿情分析系統(tǒng)由輿情采集、輿情預(yù)處理、輿情分析和輿情處置四大模塊組成。網(wǎng)絡(luò)輿情分析系統(tǒng)工作流程如圖2所示。

        3.1 輿情采集

        輿情采集工作主要聚焦于新聞網(wǎng)頁、微博、微信等眾多社交媒體平臺,旨在全面獲取豐富多樣的輿情信息。采用先進的網(wǎng)絡(luò)爬蟲技術(shù),對預(yù)設(shè)監(jiān)控范圍內(nèi)的各類網(wǎng)站實施持續(xù)、高效的掃描。部署主題網(wǎng)絡(luò)爬蟲,該智能化工具能夠自動分析網(wǎng)頁的復(fù)雜結(jié)構(gòu),精準評估頁面內(nèi)容,并通過對鏈接的深度挖掘進行主題相關(guān)性判斷,可提升數(shù)據(jù)采集的針對性與準確性,為后續(xù)的輿情分析階段奠定了堅實的數(shù)據(jù)基礎(chǔ),確保了分析結(jié)果的全面性和可靠性。

        3.2 輿情預(yù)處理

        輿情預(yù)處理指將采集的輿情信息進行提前處理,主要包括中文分詞、去停用詞等一系列數(shù)據(jù)去噪過程。由于新聞網(wǎng)頁、微博、微信等社交媒體平臺言語表達較為隨意,所以借用jieba分詞工具對報道進行第一步處理,并參考哈工大的停用詞表去除報道中的停用詞,通過上述數(shù)據(jù)去噪過程,可以提升后續(xù)話題檢測與跟蹤的效果。

        3.3 輿情分析

        前期階段首先將采集的輿情文本數(shù)據(jù)存于本地數(shù)據(jù)庫中,按文本發(fā)布時間順序提取數(shù)據(jù),對其進行預(yù)處理操作;利用特征抽取算法抽取報道中的特征項,完成文本的向量化表示。輿情分析模塊是整個系統(tǒng)的核心部分,也是實現(xiàn)網(wǎng)絡(luò)輿情跟蹤處置的前提,包括網(wǎng)絡(luò)輿情話題檢測以及網(wǎng)絡(luò)輿情話題跟蹤兩個部分。輿情話題檢測利用文本聚類算法將新進入的報道設(shè)為簇中心,當(dāng)后續(xù)報道出現(xiàn)時計算該報道與簇中心的相似度,若相似度大于設(shè)定閾值,則將后續(xù)出現(xiàn)的新報道歸入該話題,同時更新簇中心;否則新建一個話題,以此完成話題檢測任務(wù)。輿情話題跟蹤是指將文本分類算法應(yīng)用于話題/報道表示模型,計算一篇報道與話題之間的相似度,若相似度大于設(shè)定閾值,則將報道納入該話題類別,以此跟蹤給定話題相關(guān)的報道。

        3.4 輿情處理

        輿情處理工作涵蓋輿情報告的精心生成與高效預(yù)警兩大核心環(huán)節(jié)?;谏钊氲木W(wǎng)絡(luò)輿情分析成果,針對特定主題全方位整合相關(guān)輿情信息。通過運用先進的可視化技術(shù),以清晰、直觀的方式展現(xiàn)數(shù)據(jù)之間的內(nèi)在聯(lián)系、隱含的深層信息,以及未來的發(fā)展趨勢,確保決策者能夠準確把握輿情的動態(tài)走向。通過構(gòu)建一套完善的輿情預(yù)警機制,可實時監(jiān)測輿情變化,及時發(fā)出預(yù)警信號,為相關(guān)部門提供寶貴的時間窗口,以便其能夠迅速響應(yīng)、有效引導(dǎo),確保輿情管理工作的科學(xué)性與前瞻性。

        4 " 結(jié)束語

        互聯(lián)網(wǎng)傳播技術(shù)不斷深化,增加了網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及后續(xù)處置相應(yīng)難度,需要相關(guān)部門及研究人員構(gòu)建合理的網(wǎng)絡(luò)輿情系統(tǒng),并持續(xù)監(jiān)測網(wǎng)絡(luò)輿情走向,以便及時采取準確有效的輿情危機預(yù)警與治理措施,縮短網(wǎng)絡(luò)輿情事件的生命周期,遏制輿情衍生。文章分析了話題檢測與跟蹤技術(shù),指出話題分析在網(wǎng)絡(luò)輿情領(lǐng)域中的重要作用,并將話題檢測與跟蹤技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情系統(tǒng),為網(wǎng)絡(luò)輿情的有效發(fā)現(xiàn)及后續(xù)快捷處置提供重要保障。

        參考文獻

        [1] 陳珂,劉莉.話題分析和情感分析視角下的高校網(wǎng)絡(luò)輿情衍化特征研究[J].全媒體探索,2022(10):64-69.

        [2] 周中雨.基于文本挖掘的網(wǎng)絡(luò)輿情話題分析方法研究[D].大慶:東北石油大學(xué),2023.

        [3] 張海川,李勝東,石俊濤,等.話題檢測與跟蹤任務(wù)中的話題跟蹤研究[J].信息與電腦(理論版),2022,34(11):151-153.

        [4] 李勝東,張海川,石俊濤,等.基于話題結(jié)構(gòu)特性的話題跟蹤系統(tǒng)設(shè)計[J].信息與電腦(理論版),2022,34(07):4-6.

        [5] 魏藝澤,郭慧,時曉旭.基于增量文本聚類算法的熱點話題檢測研究[J].華北科技學(xué)院學(xué)報,2024,21(01):76-81+124.

        [6] 郭瑩,薛濤,胡偉華.面向熱點話題檢測的增量文本聚類算法[J].計算機系統(tǒng)應(yīng)用,2022,31(09):280-286.

        [7] 劉錕.中文熱點話題檢測與跟蹤技術(shù)研究[D].北京:中國電子科技集團公司電子科學(xué)研究院,2022.

        [8] 李麗蓉.基于文本聚類算法的網(wǎng)絡(luò)輿情話題檢測研究[J].山西警察學(xué)院學(xué)報,2021,29(01):69-72.

        亚洲不卡免费观看av一区二区| 久久久伊人影院| 亚洲欧美变态另类综合| 999国产精品亚洲77777| 欧美—iGAO视频网| 人妻少妇偷人精品一区二区| 暖暖 免费 高清 日本 在线| 手机在线看永久av片免费| 国产欧美日韩不卡一区二区三区| 国产精品亚洲精品专区| 国产成人精品免费久久久久 | 亚洲国产精品久久无人区| 秘书边打电话边被躁bd视频| 亚洲爆乳无码专区| 国产一区二区三区观看视频| 日本二区在线视频观看| 日韩精品久久久久久久电影蜜臀| 91av小视频| 亚洲高清国产拍精品熟女| 国产日本精品一二三四区| 欧美精品videossex少妇| 老熟妇Av| 精品日韩在线观看视频| 久久久久亚洲av成人片| 久久久久亚洲av无码专区| 国产精品麻豆A在线播放| 中文字幕丰满人妻av| 免费看黄a级毛片| 亚洲制服无码一区二区三区| 日韩va高清免费视频| 妺妺窝人体色www婷婷| 欧美xxxx黑人又粗又长精品| 91精品国产综合久久青草| 美女被男人插得高潮的网站| 中文字幕日韩精品有码视频| 99精品国产兔费观看久久99| 亚洲熟妇av日韩熟妇av| 国产一区二区三区我不卡| 水蜜桃精品一二三| 精品不卡久久久久久无码人妻 | 亚洲国产99精品国自产拍|