亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本聚類算法的網(wǎng)絡(luò)輿情話題檢測(cè)研究

        2021-02-05 11:45:02李麗蓉
        關(guān)鍵詞:文本分析檢測(cè)

        □李麗蓉

        (山西警察學(xué)院,山西 太原 030401)

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和網(wǎng)民數(shù)量的日益增長(zhǎng),網(wǎng)絡(luò)媒體逐漸成為一種主流信息傳播形式,占據(jù)主導(dǎo)地位。網(wǎng)絡(luò)媒體具有全球性、開(kāi)放性、便捷性、互動(dòng)性、隱蔽性等特點(diǎn),在給信息傳播帶來(lái)便捷的同時(shí),也使得網(wǎng)絡(luò)輿情傳播走向放大化和無(wú)序化,容易引發(fā)輿情熱點(diǎn)和敏感話題,有時(shí)會(huì)造成巨大負(fù)面影響。因此,及時(shí)準(zhǔn)確地發(fā)現(xiàn)并監(jiān)控?zé)狳c(diǎn)和敏感話題,有針性地做出反應(yīng),對(duì)構(gòu)建和諧網(wǎng)絡(luò)輿論環(huán)境,維護(hù)社會(huì)穩(wěn)定具有積極的作用。

        一、網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)結(jié)構(gòu)

        網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)主要包括輿情采集、輿情預(yù)處理、輿情分析和輿情處理四部分。

        (一)輿情采集

        輿情采集主要是對(duì)web頁(yè)面信息采集,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具定時(shí)、自動(dòng)從被監(jiān)測(cè)網(wǎng)站上采集信息?!爱?dāng)前主要的爬蟲(chóng)技術(shù)有通用型爬蟲(chóng)、主題爬蟲(chóng)和分布式爬蟲(chóng)”,[1]只有高質(zhì)量的信息采集才能保證后續(xù)輿情分析的可靠性和及時(shí)性。

        (二)輿情預(yù)處理

        輿情預(yù)處理指初步整理采集的web頁(yè)面信息,包括文本分詞、去除停用詞、數(shù)據(jù)清洗等過(guò)程,經(jīng)過(guò)結(jié)構(gòu)化處理將原始的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成規(guī)范的結(jié)構(gòu)化數(shù)據(jù)集,存儲(chǔ)到輿情數(shù)據(jù)庫(kù)中,便于后續(xù)的輿情分析使用。

        (三)輿情分析

        輿情分析是系統(tǒng)的核心部分,指對(duì)經(jīng)過(guò)預(yù)處理后的輿情信息進(jìn)行熱點(diǎn)挖掘,產(chǎn)生出熱點(diǎn)話題,并對(duì)話題進(jìn)行敏感性分析,包括特征提取、話題聚類、熱點(diǎn)分析等過(guò)程。

        (四)輿情處理

        輿情處理包括輿情預(yù)警和輿情報(bào)告,系統(tǒng)根據(jù)分析統(tǒng)計(jì)得到的輿情信息及相關(guān)網(wǎng)絡(luò)輿情預(yù)警指標(biāo),實(shí)施輿情報(bào)警,提交輿情報(bào)告。

        二、輿情分析模塊主要算法描述

        (一)特征提取

        對(duì)經(jīng)過(guò)預(yù)處理后的文本數(shù)據(jù),采用TF-IDF算法進(jìn)行特征提取。把每篇文檔按照標(biāo)題向量化后表示為d=(t1,t2,…,ti,…,tm),其中ti為文檔d標(biāo)題經(jīng)過(guò)預(yù)處理后的詞。某詞在文檔中的重要性越大,它的TF-IDF值就越大。計(jì)算文檔中每個(gè)詞的TF-IDF值,然后按照TF-IDF值降序排列,選擇排在前面的幾個(gè)詞,一般它們就是這篇文檔的特征詞。具體算法描述如下:

        步驟1:計(jì)算詞頻

        (1)

        步驟2:計(jì)算逆文檔頻率

        (2)

        步驟3:計(jì)算TF-IDF

        TF-IDF= 詞頻(TF)×逆文檔頻率(IDF)

        (3)

        (二)話題聚類

        話題聚類可以有效地提取各類信息,從而發(fā)現(xiàn)熱點(diǎn)話題。根據(jù)網(wǎng)站的影響力和熱點(diǎn)時(shí)效性,對(duì)各個(gè)網(wǎng)站設(shè)置相應(yīng)權(quán)重,按照權(quán)重和發(fā)布時(shí)間對(duì)采集到的網(wǎng)頁(yè)數(shù)據(jù)降序排序。默認(rèn)一個(gè)熱點(diǎn)關(guān)鍵詞表征一個(gè)熱點(diǎn)話題,然后以關(guān)鍵詞為線索對(duì)熱點(diǎn)話題進(jìn)行聚類,采用夾角余弦公式計(jì)算本頁(yè)面文本與已有熱點(diǎn)話題的相似度。

        1.K-Means算法

        K-Means算法是一種常用的基于劃分的聚類算法,它的基本思想是:首先對(duì)于給定的樣本集D,根據(jù)一定策略選擇K個(gè)點(diǎn)作為每個(gè)簇的初始中心,將其余樣本劃分到距離最近的簇中。然后在生成的新簇中,重新計(jì)算K個(gè)簇的中心,再重新進(jìn)行劃分,使簇內(nèi)的點(diǎn)盡量緊密地放在一起,使簇間的距離盡量大。具體步驟如下:

        步驟1:在樣本集D中隨機(jī)選擇K個(gè)簇初始中心點(diǎn)。

        步驟2:分別計(jì)算每個(gè)樣本到K個(gè)簇中心點(diǎn)的距離,把每個(gè)樣本劃分到距離最近的簇中。

        步驟3:重新計(jì)算各個(gè)簇中的樣本到該簇中心點(diǎn)距離的平均值,作為簇的新中心點(diǎn)。

        重復(fù)步驟2和3,直到簇中心點(diǎn)不發(fā)生改變或是達(dá)到最大的迭代次數(shù)。

        K-Means算法具有簡(jiǎn)單有效,收斂速度快,簇內(nèi)相似度高等優(yōu)點(diǎn),但也有一定的局限性:需要提前設(shè)定劃分簇?cái)?shù)K。最常用方法是隨機(jī)選擇K,K的取值不同在一定程度上會(huì)導(dǎo)致聚類結(jié)果波動(dòng)性大,容易受到噪聲數(shù)據(jù)和離群數(shù)據(jù)點(diǎn)的干擾。

        2.差分進(jìn)化算法

        “差分進(jìn)化(Differential Evolution,DE)算法是用于求解優(yōu)化問(wèn)題的一種啟發(fā)式搜索算法”[2],用于求解多維空間中全局最優(yōu)解。它的基本思想是:首先利用種群個(gè)體的差異進(jìn)行重組,得到中間種群。然后根據(jù)適應(yīng)度值選擇表現(xiàn)較好的個(gè)體作為下一代種群個(gè)體,經(jīng)過(guò)反復(fù)迭代向問(wèn)題的最優(yōu)解逼近。具體算法描述如下:

        種群表示為:

        (4)

        (5)

        步驟1:種群初始

        (6)

        xj,max和xj,min是j維向量的上下限,rnd是0到1之間的隨機(jī)數(shù)。

        步驟2:變異

        (7)

        步驟3:交叉

        (8)

        式中Pcr是雜交概率,Pcr∈[0,1]。

        步驟4:選擇

        3.改進(jìn)的K-Means算法

        為了克服K-Means算法的缺陷,采用改進(jìn)的差分進(jìn)化算法對(duì)K-Means算法進(jìn)行優(yōu)化。它的基本思想是:首先,從數(shù)據(jù)集中隨機(jī)選擇K個(gè)聚類中心,構(gòu)建初始種群。然后,采用差分進(jìn)化算法的變異、交叉和選擇等操作獲得最優(yōu)個(gè)體。最后,利用最優(yōu)個(gè)體獲得最優(yōu)初始聚類中心并進(jìn)行文本聚類。具體算法描述如下:

        步驟1:種群初始化

        在數(shù)據(jù)集D中隨機(jī)選擇N個(gè)個(gè)體作為初始種群,每個(gè)個(gè)體由K個(gè)聚類中心向量組成。

        (9)

        (10)

        步驟3:變異操作

        (11)

        步驟4:交叉操作

        (12)

        式中Pcr是雜交概率,Pcr∈[0,1]。

        步驟5:選擇操作

        步驟7:從輸出的最優(yōu)個(gè)體得到最優(yōu)聚類簇中心集K,將種群中所有個(gè)體劃分到距離最近的簇中。

        (三)熱點(diǎn)分析

        根據(jù)新聞、論壇、博客等各自的特點(diǎn)設(shè)計(jì)相應(yīng)的熱點(diǎn)分析模型。

        1.新聞熱點(diǎn)分析

        不同網(wǎng)站中新聞的可靠性不同,新聞的瀏覽人數(shù)和評(píng)論條數(shù)也能反映其熱度,設(shè)計(jì)如式(13)熱點(diǎn)分析模型。

        Weight(f(pni,cni))

        (13)

        式中HotValues(t)表示話題t的熱度值,n表示話題t的新聞個(gè)數(shù),Weight(Si)表示新聞i所在網(wǎng)站的權(quán)重,Weight(f(pni,cni))表示新聞i的瀏覽次數(shù)與評(píng)論條數(shù)的權(quán)重,pni表示新聞i的瀏覽次數(shù),cni表示新聞i的評(píng)論條數(shù),f(pni,cni)=αpni+βcni,其中α∈(0,1),β∈(0,1),α+β=1。

        2.論壇與博客熱點(diǎn)分析

        論壇與博客除了采用新聞所在網(wǎng)站中的網(wǎng)站權(quán)重、瀏覽次數(shù)與評(píng)論條數(shù)的權(quán)重外,還增加了帖子i的轉(zhuǎn)載次數(shù)權(quán)重Weight(dni),如式(14)。

        Weight(f(pni,cni))×Weight(dni)

        (14)

        三、系統(tǒng)實(shí)現(xiàn)及分析

        (一)評(píng)價(jià)指標(biāo)

        系統(tǒng)采用常用的“誤檢率、漏檢率和耗費(fèi)函數(shù)作為網(wǎng)絡(luò)輿情話題檢測(cè)算法優(yōu)劣的評(píng)判標(biāo)準(zhǔn)”。[3]誤檢率指語(yǔ)料庫(kù)中檢測(cè)錯(cuò)誤的該話題不相關(guān)文本數(shù)目與該話題不相關(guān)文本總數(shù)的比值,漏檢率指語(yǔ)料庫(kù)中未檢測(cè)出的該話題相關(guān)文本數(shù)目與所有該話題相關(guān)文本總數(shù)的比值。耗費(fèi)函數(shù)C是錯(cuò)誤識(shí)別代價(jià),是建立在誤檢率和漏檢率之上的總體性能損失。假設(shè)語(yǔ)料庫(kù)中所有與該話題相關(guān)文本總數(shù)為A,不相關(guān)文本總數(shù)為B,其中從A中檢測(cè)出的文本相關(guān)數(shù)為A1,從B中檢測(cè)出的文本相關(guān)數(shù)為B1,漏檢率、誤檢率和耗費(fèi)函數(shù)表示為:

        PM=(A-A1)/A

        (15)

        PF=B1/B

        (16)

        C=CMPMP+CFPF(1-P)

        (17)

        式中PM和PF是漏檢率和誤檢率,C是耗費(fèi)函數(shù),CM和CF是漏檢率和誤檢率的代價(jià)系數(shù),P是文本屬于某話題類的先驗(yàn)概率。設(shè)定CM=1,CF=0.1,P=0.02。

        (二)實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)分析

        網(wǎng)絡(luò)輿情分析系統(tǒng)基于Hadoop開(kāi)發(fā),系統(tǒng)選擇新聞、論壇及微博作為信息源,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)2019 年內(nèi)的新聞報(bào)道和帖子爬取數(shù)據(jù),再?gòu)倪@些信息中隨機(jī)選取了翟天臨事件、大學(xué)生網(wǎng)貸、乘客進(jìn)駕駛艙、上海垃圾分類和涼山森林火災(zāi)等5個(gè)話題,為每個(gè)話題選擇100 篇相關(guān)的文本信息作為語(yǔ)料庫(kù),共 500 篇,使用Eclipse設(shè)計(jì)輿情分析算法,后臺(tái)數(shù)據(jù)庫(kù)采用 MySQL,進(jìn)行輿情分析實(shí)驗(yàn)?;贙-Means算法與改進(jìn)的K-Means算法的話題檢測(cè)統(tǒng)計(jì)結(jié)果如表1與表2所示。從實(shí)驗(yàn)結(jié)果來(lái)看,提出的網(wǎng)絡(luò)輿情分析算法快速有效,話題檢測(cè)準(zhǔn)確率較高。

        表1 K-Means算法聚類結(jié)果

        表2 改進(jìn)的K-Means算法聚類結(jié)果

        四、結(jié)論

        本文研究的是文本聚類算法在網(wǎng)絡(luò)輿情話題檢測(cè)中的實(shí)際應(yīng)用,將具有結(jié)構(gòu)簡(jiǎn)單、易于實(shí)現(xiàn)、控制參數(shù)較少、收斂速度較快等優(yōu)點(diǎn)的差分進(jìn)化算法與K-Means聚類算法相結(jié)合,實(shí)驗(yàn)結(jié)果表明,與K-Means聚類算法相比,改進(jìn)算法明顯提高了初始聚類中心的選擇優(yōu)化能力,全局搜索能力更強(qiáng),收斂速度更快,聚類結(jié)果質(zhì)量更高。

        猜你喜歡
        文本分析檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        隱蔽失效適航要求符合性驗(yàn)證分析
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        又爽又黄无遮挡高潮视频网站| 精品丝袜国产在线播放| 久久中文字幕av第二页| 国产精品三级国产精品高| 偷拍一区二区三区四区视频| 2019最新中文字幕在线观看| 欧美mv日韩mv国产网站| 国产一区二区精品久久凹凸| 手机在线观看成年人视频| 国产一品二品三品精品在线| 99久久国产综合精品女图图等你 | 日本免费精品一区二区| 后入到高潮免费观看| 亚洲爆乳少妇无码激情| 国产成人香蕉久久久久| 亚洲国产91高清在线| 无码国产精品一区二区免费式芒果| 国产精品成人国产乱| 人妻丰满熟妇AV无码片| 后入少妇免费在线观看| 日韩精品人成在线播放| 国产自偷自偷免费一区| 黑人巨大精品欧美在线观看| 久久色悠悠综合网亚洲| 日本一区二区三区爆乳| 国产一区二区三区影院| 蜜桃一区二区三区在线看| 亚洲一区二区三区福利久久蜜桃 | 久久亚洲精品成人| 亚洲人成网站久久久综合| 视频国产一区二区在线| 国产大片内射1区2区| 八戒网站免费观看视频| 久久久调教亚洲| 麻豆人妻性色av专区0000| 风流老熟女一区二区三区| 欧美在线观看一区二区| 国产无套粉嫩白浆内精| 欧美精品欧美人与动人物牲交 | 亚洲成人av一区二区| 亚洲国产欧美在线观看|