亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)Stacking 集成算法的網(wǎng)絡(luò)輿情預(yù)警研究

2022-11-16 08:45:46劉經(jīng)緯

中國(guó)管理信息化 2022年18期

關(guān)鍵詞：模型

劉經(jīng)緯，彭佳

（首都經(jīng)濟(jì)貿(mào)易大學(xué) 管理工程學(xué)院，北京 100070）

0 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展，網(wǎng)絡(luò)輿情危機(jī)逐漸增多，國(guó)內(nèi)外許多知名學(xué)者都對(duì)網(wǎng)絡(luò)輿情進(jìn)行了危機(jī)管理和風(fēng)險(xiǎn)預(yù)測(cè)等方面的研究，目前網(wǎng)絡(luò)輿情危機(jī)預(yù)警成為一個(gè)熱門(mén)的研究話題［1］。網(wǎng)絡(luò)輿情危機(jī)預(yù)警工作具有顯著的現(xiàn)實(shí)意義。例如，從經(jīng)濟(jì)的角度來(lái)看，網(wǎng)絡(luò)輿情危機(jī)預(yù)警工作可避免經(jīng)濟(jì)損失；從社會(huì)的角度來(lái)看，其有利于社會(huì)穩(wěn)定；從政府的角度來(lái)看，其有利于提升政府公信力?，F(xiàn)如今，交叉學(xué)科的發(fā)展為輿情預(yù)警指明了全新的方向?；诖耍疚膶C(jī)器學(xué)習(xí)方法與網(wǎng)絡(luò)輿情預(yù)警相結(jié)合，利用機(jī)器學(xué)習(xí)的方法構(gòu)建輿情預(yù)警模型，以達(dá)到及時(shí)對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)警的目的。

1 網(wǎng)絡(luò)輿情預(yù)警研究現(xiàn)狀

網(wǎng)絡(luò)輿情預(yù)警是指對(duì)網(wǎng)絡(luò)輿情發(fā)展具有重大影響的關(guān)鍵指標(biāo)進(jìn)行及早識(shí)別、監(jiān)測(cè)和預(yù)測(cè)，繼而對(duì)網(wǎng)絡(luò)輿情的態(tài)勢(shì)走向進(jìn)行預(yù)警的行為。目前，國(guó)內(nèi)對(duì)網(wǎng)絡(luò)輿情預(yù)警的研究主要集中在以下3 個(gè)方面。

（1）基于運(yùn)籌學(xué)理論的網(wǎng)絡(luò)輿情預(yù)警研究。該類(lèi)研究主要是通過(guò)構(gòu)建輿情事件評(píng)價(jià)指標(biāo)體系，并在評(píng)價(jià)指標(biāo)體系的基礎(chǔ)上運(yùn)用運(yùn)籌管理方法，對(duì)不同指標(biāo)賦予不同的權(quán)重，最終得到輿情事件的發(fā)展情況預(yù)警評(píng)價(jià)體系。這類(lèi)研究的方法主要有層次分析法、熵權(quán)法與模糊推理法［2］。

（2）基于數(shù)據(jù)挖掘方法的網(wǎng)絡(luò)輿情預(yù)警研究。該類(lèi)研究是利用情感分析、文本分析等技術(shù)對(duì)輿情進(jìn)行分析，從而得出預(yù)警等級(jí)［3］。

（3）基于智能機(jī)器學(xué)習(xí)模型的網(wǎng)絡(luò)輿情預(yù)警研究。該類(lèi)研究是指通過(guò)對(duì)輿情事件進(jìn)行分析和評(píng)估，給出算法參數(shù)輿情方面的現(xiàn)實(shí)意義，實(shí)現(xiàn)對(duì)輿情事件的分析評(píng)價(jià)［4］。

2 Stacking 集成算法概述

2.1 傳統(tǒng)Stacking 集成算法

Stacking 是一種分層模型集成框架，它結(jié)合Boosting 和Bagging 兩種集成方式［5］。Stacking 集成通常會(huì)設(shè)計(jì)兩層，第一層由多種基模型組成，輸入為原始訓(xùn)練集，輸出為各種基模型的預(yù)測(cè)值，而第二層只有一個(gè)元模型，對(duì)第一層的各種模型的預(yù)測(cè)值和真實(shí)值進(jìn)行訓(xùn)練，從而得到完整的集成模型。為了防止出現(xiàn)模型過(guò)擬合的情況，一般Stacking 算法在第一層訓(xùn)練基模型時(shí)會(huì)結(jié)合k 折交叉驗(yàn)證法，每個(gè)基學(xué)習(xí)器引入k 折交叉驗(yàn)證方法，再將這些不同基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行整合，作為第二層的訓(xùn)練集。第二層的元學(xué)習(xí)器根據(jù)第一層輸出的訓(xùn)練集和原先的樣本標(biāo)簽進(jìn)行訓(xùn)練，最后利用此原模型進(jìn)行預(yù)測(cè)。Stacking 集成算法流程如圖1 所示。

2.2 融合最優(yōu)特征子集的改進(jìn)Stacking 集成算法

（1）Stacking 集成過(guò)程中，只是將基學(xué)習(xí)器對(duì)訓(xùn)練集和測(cè)試集的預(yù)測(cè)結(jié)果合并，并將真實(shí)值作為元學(xué)習(xí)器的訓(xùn)練集和測(cè)試集。但這樣的方式并不能融合原始數(shù)據(jù)中各特征變量與輸出值之間的關(guān)系，丟失了原始數(shù)據(jù)的信息，這對(duì)于Stacking 算法的性能會(huì)有極大的影響。改進(jìn)后的Stacking 算法通過(guò)篩選最優(yōu)特征，并把最優(yōu)特征加入第二層模型，即第二層模型的輸入是最優(yōu)特征子集加上第一層的預(yù)測(cè)結(jié)果。

（2）在k 折交叉驗(yàn)證過(guò)程中，同一基學(xué)習(xí)器由k個(gè)訓(xùn)練子集對(duì)測(cè)試集完成預(yù)測(cè)，其中不同的訓(xùn)練子集在預(yù)測(cè)精度上會(huì)存在差異。對(duì)同一個(gè)基學(xué)習(xí)器形成的k 個(gè)測(cè)試集預(yù)測(cè)結(jié)果采取均值的方法獲取該基學(xué)習(xí)器的測(cè)試集輸出。而訓(xùn)練子集不同、參數(shù)不同，必然會(huì)存在不同的預(yù)測(cè)精度。想要克服這種缺點(diǎn)，就需要結(jié)合不同訓(xùn)練集的預(yù)測(cè)精度來(lái)組合測(cè)試集。因此，針對(duì)最后對(duì)同一個(gè)基學(xué)習(xí)器形成的k 個(gè)測(cè)試集預(yù)測(cè)結(jié)果，將平均值改進(jìn)為預(yù)測(cè)精度加權(quán)平均來(lái)獲取該基學(xué)習(xí)器的測(cè)試集輸出。

3 基于改進(jìn)Stacking 的網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系和模型構(gòu)建

3.1 指標(biāo)體系構(gòu)建

大部分輿情數(shù)據(jù)都是網(wǎng)民所發(fā)表和討論的文本數(shù)據(jù)，而對(duì)輿情進(jìn)行預(yù)警則需要通過(guò)量化的方式將文本數(shù)據(jù)轉(zhuǎn)化為可以輸入到模型的數(shù)據(jù)，因此需要利用各種指標(biāo)將輿情數(shù)據(jù)進(jìn)行量化，從而更好地實(shí)現(xiàn)網(wǎng)絡(luò)輿情危機(jī)預(yù)警。本文將評(píng)估網(wǎng)絡(luò)輿情危機(jī)預(yù)警的指標(biāo)體系分為主體影響力、輿情熱度、輿情趨勢(shì)、輿情狀態(tài)4個(gè)一級(jí)指標(biāo)，并在一級(jí)指標(biāo)的基礎(chǔ)上建立相應(yīng)的二級(jí)指標(biāo)，詳細(xì)指標(biāo)如圖2 所示。

圖2 網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系

3.2 模型構(gòu)建

輿情預(yù)警本質(zhì)是一個(gè)分類(lèi)問(wèn)題，根據(jù)每天的輿情影響指標(biāo)確定其對(duì)應(yīng)的輿情預(yù)警等級(jí)，因此可以選用機(jī)器學(xué)習(xí)分類(lèi)模型。Stacking 模型是一種融合模型，它的基學(xué)習(xí)器可以融合多種分類(lèi)器，因此具有預(yù)測(cè)準(zhǔn)確、速度快、可配置等特點(diǎn)。改進(jìn)后的Stacking 模型克服了傳統(tǒng)模型的缺陷，而基于改進(jìn)Stacking 的網(wǎng)絡(luò)輿情預(yù)警模型構(gòu)建的主要實(shí)現(xiàn)過(guò)程如下。

（1）將輿情數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。

（2）將輿情預(yù)警指標(biāo)作為模型的輸入數(shù)據(jù)特征，輿情預(yù)警等級(jí)作為輸出數(shù)據(jù)標(biāo)簽來(lái)訓(xùn)練模型。

（3）將測(cè)試集輸入模型中，獲得測(cè)試集預(yù)警級(jí)別的預(yù)測(cè)結(jié)果。

4 實(shí)證分析

4.1 案例選取

微博是網(wǎng)絡(luò)輿情發(fā)酵的大平臺(tái)，大部分輿情輿論都能通過(guò)微博平臺(tái)傳播。博主在微博平臺(tái)上發(fā)布相關(guān)輿情博文可以快速讓其他網(wǎng)民了解該輿情事件，同時(shí)其他網(wǎng)民對(duì)輿情博文進(jìn)行轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊，也會(huì)使輿情事件在短時(shí)間內(nèi)熱度上漲。因此，本文選用微博平臺(tái)進(jìn)行基于改進(jìn)Stacking 的網(wǎng)絡(luò)輿情預(yù)警模型實(shí)證分析，使用話題關(guān)鍵詞“瑞麗市長(zhǎng)”在微博中搜索2020 年10 月到2020 年11 月的相關(guān)輿情信息，并利用爬蟲(chóng)工具獲取數(shù)據(jù)，一共獲取了約2 萬(wàn)條數(shù)據(jù)。

4.2 數(shù)據(jù)預(yù)處理

在進(jìn)行數(shù)據(jù)存儲(chǔ)后，首先要對(duì)獲取的數(shù)據(jù)進(jìn)行預(yù)處理以保證數(shù)據(jù)的準(zhǔn)確性。因此，將數(shù)據(jù)存到數(shù)據(jù)庫(kù)后，應(yīng)將所獲取的數(shù)據(jù)進(jìn)行清洗，也就是數(shù)據(jù)的預(yù)處理過(guò)程，具體工作如下。

（1）數(shù)據(jù)去重。在爬取的過(guò)程中，因?yàn)閮?nèi)容進(jìn)行過(guò)更新，而且服務(wù)多次下發(fā)內(nèi)容等，同樣的文本內(nèi)容可能會(huì)被爬取到多次，所以要對(duì)數(shù)據(jù)進(jìn)行去重，刪掉多余的重復(fù)數(shù)據(jù)。

（2）文本預(yù)處理。將所有非中文和非英文字符過(guò)濾舍去，如“@”“#”及HTML 標(biāo)簽等字符。

（3）指標(biāo)計(jì)算。按照上述確定的預(yù)警指標(biāo)體系和各指標(biāo)的計(jì)算方法，將處理好的數(shù)據(jù)帶入公式計(jì)算各指標(biāo)的值，并進(jìn)行歸一化處理。

4.3 模型測(cè)試

筆者搜集了輿情事件“瑞麗市長(zhǎng)”的相關(guān)數(shù)據(jù)，該事件總共經(jīng)歷了51 天，筆者選取了其中輿論較大的10 天數(shù)據(jù)，將數(shù)據(jù)的80%劃分為訓(xùn)練數(shù)據(jù)，20%劃分為測(cè)試數(shù)據(jù)，并對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理，再輸入模型中進(jìn)行訓(xùn)練，以驗(yàn)證基于改進(jìn)Stacking 算法的網(wǎng)絡(luò)輿情預(yù)警模型對(duì)網(wǎng)絡(luò)輿情預(yù)警識(shí)別的可行性。

將訓(xùn)練數(shù)據(jù)輸入模型中進(jìn)行訓(xùn)練和調(diào)參后，得到一個(gè)準(zhǔn)確率較高的模型，再將測(cè)試數(shù)據(jù)輸入訓(xùn)練好的模型，能得出測(cè)試結(jié)果，測(cè)試結(jié)果如表1 所示。

表1 預(yù)測(cè)結(jié)果

根據(jù)微博環(huán)境下的公共危機(jī)事件的嚴(yán)重性、緊急程度以及事件的影響范圍等因素，結(jié)合實(shí)際情況將預(yù)警等級(jí)進(jìn)行劃分，本文將預(yù)警等級(jí)劃分為4 個(gè)等級(jí)，其中Ⅰ代表安全級(jí)別，Ⅱ代表輕警級(jí)別，Ⅲ代表中警級(jí)別，Ⅳ代表巨警級(jí)別。由預(yù)測(cè)結(jié)果可知，未改進(jìn)前的Stacking 模型預(yù)測(cè)準(zhǔn)確率只有64%，而改進(jìn)后的Stacking 模型的預(yù)測(cè)準(zhǔn)確率有82%，驗(yàn)證了模型的有效性和準(zhǔn)確性。

5 結(jié)語(yǔ)

本文通過(guò)對(duì)網(wǎng)絡(luò)輿情危機(jī)的影響因素進(jìn)行分析，選取了主體影響力、輿情熱度、輿情趨勢(shì)、輿情狀態(tài)4 個(gè)方面的因素作為影響網(wǎng)絡(luò)輿情危機(jī)的指標(biāo)因素，將其輸入基于改進(jìn)Stacking 集成算法的網(wǎng)絡(luò)輿情預(yù)警模型，并進(jìn)行了實(shí)證分析。實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的Stacking 有效提升了模型的準(zhǔn)確率，這為網(wǎng)絡(luò)輿情預(yù)警研究提供了一個(gè)新思路。