蔡婷婷,朱恒民,2,魏 靜
(1.南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210003;2.江蘇高校哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地—信息產(chǎn)業(yè)融合創(chuàng)新與應(yīng)急管理研究中心,江蘇 南京 210003)
互聯(lián)網(wǎng)社交媒體是用戶發(fā)布、傳播和獲取海量話題信息的重要平臺(tái)。網(wǎng)絡(luò)話題是在不斷演化的,話題的迅速發(fā)酵與擴(kuò)散會(huì)引發(fā)網(wǎng)絡(luò)輿論,甚至是輿情危機(jī)。話題的狀態(tài)可用于描述話題本身的發(fā)展趨勢(shì)和輿論爆發(fā)的風(fēng)險(xiǎn)性,對(duì)話題的狀態(tài)演化趨勢(shì)進(jìn)行預(yù)測(cè)有助于輿論監(jiān)管部門及時(shí)采取措施,避免引發(fā)輿情危機(jī),進(jìn)而實(shí)現(xiàn)社交網(wǎng)絡(luò)信息傳播的有效監(jiān)管。
話題演化是對(duì)已有話題隨著時(shí)間演化情況進(jìn)行的分析[1-2]。話題的狀態(tài)演化屬于話題演化分析的研究范疇,已有工作多是基于生命周期的視角來回溯話題狀態(tài)的演化過程。Chen等提出一種基于生命周期的老化理論,將話題發(fā)展分為萌芽、生長(zhǎng)、衰退和消亡四個(gè)周期,并將其與傳統(tǒng)的single-pass聚類算法相結(jié)合,自適應(yīng)地檢測(cè)和跟蹤在線序列話題事件[3];賈亞敏和曹樹金等結(jié)合話題生命周期理論將話題狀態(tài)分為起始、爆發(fā)、波動(dòng)和平息四個(gè)階段,探索每個(gè)階段的話題演化規(guī)律[4-5]。部分學(xué)者通過定義指標(biāo)來回溯話題所處的生命周期階段:Y.Tu等基于老化理論提出新穎指數(shù),并結(jié)合已發(fā)表量指數(shù)來探測(cè)處于生命周期新生階段的熱點(diǎn)話題[6];Collon等基于共詞分析法提出了向心度和密度兩個(gè)指標(biāo),用于評(píng)價(jià)科技文獻(xiàn)主題的重要性和成熟度[7];劉自強(qiáng)等基于這兩個(gè)指標(biāo),通過平面坐標(biāo)映射法將科技文獻(xiàn)主題劃分為新生、成長(zhǎng)、收縮、消亡四個(gè)生命周期階段,以期描述主題在整個(gè)生命周期的演化過程[8]。相對(duì)于科技文獻(xiàn)中的專業(yè)詞匯,網(wǎng)絡(luò)自由文本中包含了大量同義、近義等具有復(fù)雜語義關(guān)系的詞匯,且詞之間的共現(xiàn)頻率較低,因此共詞分析法并不適用于復(fù)雜語義關(guān)系的自由文本。
關(guān)于話題演化趨勢(shì)的預(yù)測(cè),現(xiàn)有工作多是通過時(shí)間序列預(yù)測(cè)話題熱度等指標(biāo)來分析話題的演化趨勢(shì):馬曉寧基于粒子群算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)方法對(duì)話題熱度進(jìn)行趨勢(shì)預(yù)測(cè)[9];劉晨等融合LSTM與卷積神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)話題的熱度趨勢(shì)[10]。然而關(guān)于話題在未來時(shí)刻狀態(tài)趨勢(shì)預(yù)測(cè)的已有研究相對(duì)較少。范云滿等在Y.Tu等[6]的研究基礎(chǔ)上新增被引量指標(biāo),并利用多項(xiàng)式擬合曲線的方法預(yù)測(cè)話題狀態(tài)趨勢(shì)[11];Kong等結(jié)合與話題相關(guān)的各動(dòng)態(tài)因素的貢獻(xiàn)和模式匹配的方法,從微觀和宏觀兩個(gè)層面探索話題流行度狀態(tài)在未來的發(fā)展趨勢(shì)[12]。隱馬爾可夫模型(Hidden Markov Model,HMM)作為一種成熟的概率統(tǒng)計(jì)模型,能考慮時(shí)間序列的影響,在描述對(duì)象統(tǒng)計(jì)特性的動(dòng)態(tài)隨機(jī)過程上面具有突出優(yōu)勢(shì)[13],已經(jīng)成功應(yīng)用于手勢(shì)識(shí)別、壽命預(yù)測(cè)等領(lǐng)域[14-15]。話題狀態(tài)演化可看作是由話題內(nèi)部狀態(tài)和外部觀測(cè)特征構(gòu)成的一種雙重隨機(jī)過程,它適用于HMM模型,已有少量研究工作將HMM運(yùn)用于話題狀態(tài)趨勢(shì)預(yù)測(cè)中。Zeng等基于話題內(nèi)容相似度對(duì)輿情話題進(jìn)行分類,并基于HMM構(gòu)建話題預(yù)測(cè)模型來預(yù)測(cè)話題生命周期階段[16];Liu等以博文數(shù)量和增長(zhǎng)率作為觀測(cè)指標(biāo),運(yùn)用HMM對(duì)多個(gè)話題分別構(gòu)建狀態(tài)預(yù)測(cè)模型并建立模型庫,通過人工判別待預(yù)測(cè)話題與模型庫中已有話題是否相似,從而選擇相應(yīng)模型預(yù)測(cè)話題未來的生命周期階段[17]。上述工作提出的話題狀態(tài)預(yù)測(cè)模型人工干預(yù)量和預(yù)測(cè)誤差較大。而且,話題生命周期受多方面因素和偶發(fā)情況影響,準(zhǔn)確預(yù)測(cè)話題未來的生命周期狀態(tài)具有較大的挑戰(zhàn)性。
綜上所述,目前相關(guān)工作多是從生命周期的視角來回溯話題狀態(tài)的演化過程,對(duì)演化中的話題在未來時(shí)刻的狀態(tài)趨勢(shì)預(yù)測(cè)研究較少。該文從話題預(yù)警的視角,基于向心度和密度指標(biāo)將演化中的話題劃分為不同等級(jí)的風(fēng)險(xiǎn)狀態(tài);基于word2vec模型[18]計(jì)量狀態(tài)指標(biāo),解決了共詞分析法不能有效處理網(wǎng)絡(luò)自由文本中的復(fù)雜語義這一問題;基于HMM提出話題未來時(shí)刻的風(fēng)險(xiǎn)狀態(tài)趨勢(shì)預(yù)測(cè)方法,為話題的有效預(yù)警提供科學(xué)依據(jù)。
話題狀態(tài)是對(duì)話題當(dāng)前及潛在影響力的度量,它描述了話題本身的發(fā)展趨勢(shì)和引發(fā)輿論危機(jī)的風(fēng)險(xiǎn)性。從話題預(yù)警的視角將話題狀態(tài)劃分風(fēng)險(xiǎn)等級(jí),可以直觀地刻畫話題引發(fā)輿論危機(jī)的風(fēng)險(xiǎn)程度,也是下一階段話題趨勢(shì)預(yù)測(cè)的目標(biāo)。
Collon等[7]針對(duì)科技文獻(xiàn)主題提出向心度和密度兩個(gè)指標(biāo),向心度表示主題與其他主題關(guān)聯(lián)的強(qiáng)弱,向心度越大,該主題越接近議題的“中心”,因此向心度反映了主題的重要性。密度表示構(gòu)成主題的特征詞之間的緊密程度,在主題演化的過程中,主題在內(nèi)容上從分散逐漸收斂,密度也隨著增大,因此密度反映了主題的成熟度。向心度和密度可被借鑒來度量網(wǎng)絡(luò)話題當(dāng)前及潛在的影響力,該文采用這兩個(gè)指標(biāo)來刻畫話題的風(fēng)險(xiǎn)狀態(tài),進(jìn)而對(duì)話題可能引發(fā)輿論危機(jī)的風(fēng)險(xiǎn)等級(jí)進(jìn)行劃分。考慮到網(wǎng)絡(luò)自由文本包含同義詞、近義詞等復(fù)雜語義關(guān)系,區(qū)別于文獻(xiàn)[7-8]中采用共詞分析法計(jì)算話題向心度和密度,該文基于word2vec模型計(jì)量?jī)蓚€(gè)指標(biāo)值。
在描述網(wǎng)絡(luò)話題時(shí),向心度是指一個(gè)話題與其他話題關(guān)聯(lián)的強(qiáng)弱程度。向心度越大說明話題與其他話題關(guān)聯(lián)越強(qiáng),該話題在所有話題中越接近于“中心”位置,越容易受到網(wǎng)民的關(guān)注,從而容易引發(fā)輿論危機(jī),因此向心度可以反映話題的風(fēng)險(xiǎn)狀態(tài)。
基于word2vec模型,通過計(jì)算兩話題之間特征詞的相似度來衡量話題之間的關(guān)聯(lián)程度,話題與其他話題特征詞的相似度越高,話題的向心度值越大。假設(shè)Ti是基于LDA模型提取出的話題,則其可表示成Ti=[(wi1,ti1),(wi2,ti2),…,(wim,tim)],其中tik和wik分別表示構(gòu)成話題Ti的第k個(gè)特征詞及其權(quán)重,m是特征詞的數(shù)量;令vik是由word2vec模型訓(xùn)練出的特征詞tik對(duì)應(yīng)的向量,則兩話題Ti與Tj之間的相似度Sim(Ti,Tj)可由式(1)計(jì)算可得。
Sim(vik,vjx)
(1)
其中,Sim(vik,vjx)為向量vik和vjx之間的余弦相似度,|Ti|和|Tj|分別為話題Ti和Tj的模,計(jì)算公式如下:
(2)
設(shè)Tset為所有話題的集合,即Tset={T1,T2,…,Tn},則話題Ti的向心度Ci可由話題Ti與其他話題之間相似度的均值求得,即:
(3)
由式(3)可知,話題向心度Ci的值域?yàn)閇0,1]。當(dāng)Ci=1時(shí),表明話題Ti與其他所有話題均有強(qiáng)關(guān)聯(lián),位于最“中心”;當(dāng)Ci=0時(shí),該話題與其他所有話題毫無關(guān)聯(lián),為整個(gè)話題空間的孤立點(diǎn)。
在描述網(wǎng)絡(luò)話題時(shí),密度是指話題內(nèi)特征詞之間的緊密程度。圍繞話題展開的討論越集中,話題會(huì)越聚焦,特征詞之間的緊密度越高,密度值越大,話題也會(huì)趨于成熟。因此,話題的密度反映了話題討論的集中程度,也是話題風(fēng)險(xiǎn)的表征指標(biāo)之一。
該文采用話題內(nèi)部特征詞之間的相似度來衡量其緊密程度,話題內(nèi)特征詞之間的相似度越高,話題的密度值越大。話題Ti中第k個(gè)特征詞wik與其他特征詞之間的平均相似度Aik由式(4)計(jì)算可得。
(4)
話題的密度可用各個(gè)特征詞的加權(quán)平均相似度表示,如式(5)所示。
(5)
由式(5)可知,話題密度Di的值域?yàn)閇0,1]。Di值越大,表明話題Ti中的特征詞語義越趨于集中;反之,則話題中的特征詞語義越趨于分散。
正如上文所述,向心度和密度分別從不同的角度反映了話題引發(fā)輿論危機(jī)的風(fēng)險(xiǎn)。借鑒科技文獻(xiàn)中劃分主題狀態(tài)的方法——平面坐標(biāo)映射法,將話題的向心度和密度分別作為平面坐標(biāo)系的橫軸和縱軸,并將兩個(gè)指標(biāo)的均值作為坐標(biāo)原點(diǎn),則可以把話題的狀態(tài)空間劃分為四個(gè)象限,分別對(duì)應(yīng)了話題的四種風(fēng)險(xiǎn)狀態(tài),如圖1所示。
圖1 基于向心度、密度兩個(gè)特征劃分的話題狀態(tài)類別
(1)I級(jí)風(fēng)險(xiǎn)狀態(tài):話題的向心度和密度均較低,意味著該話題與其他話題關(guān)聯(lián)弱,處于議題的邊緣位置,且話題討論分散,不聚焦,難以引發(fā)輿論危機(jī),因此該類話題定義為I級(jí)風(fēng)險(xiǎn)狀態(tài)。
(3)III級(jí)風(fēng)險(xiǎn)狀態(tài):話題的密度較低,但向心度較高,意味著雖然該話題討論不夠聚焦,尚未成熟,但與其他話題關(guān)聯(lián)強(qiáng)。隨著圍繞該話題展開的討論增多,話題內(nèi)容趨向聚焦,很容易在全網(wǎng)范圍內(nèi)引發(fā)輿論危機(jī),因此該類話題定義為III級(jí)風(fēng)險(xiǎn)狀態(tài)。
(4)IV級(jí)風(fēng)險(xiǎn)狀態(tài):話題的向心度和密度均較高,意味著該話題與其他話題關(guān)聯(lián)強(qiáng),處于議題的“中心”位置,且話題聚焦,討論集中,極易引發(fā)全網(wǎng)范圍內(nèi)的輿論危機(jī),因此該類話題定義為IV級(jí)風(fēng)險(xiǎn)狀態(tài)。全民關(guān)注的熱點(diǎn)與焦點(diǎn)話題往往屬于該類風(fēng)險(xiǎn)狀態(tài)。
相對(duì)于I級(jí)和II級(jí)風(fēng)險(xiǎn)狀態(tài),III級(jí)和IV級(jí)風(fēng)險(xiǎn)狀態(tài)話題引發(fā)輿論危機(jī)的可能性較大,政府和輿論監(jiān)管部門需要格外關(guān)注話題走向,必要時(shí)采取預(yù)警措施,干預(yù)話題進(jìn)一步擴(kuò)散,營(yíng)造良好的網(wǎng)絡(luò)輿論氛圍。
話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)方法是根據(jù)當(dāng)前時(shí)刻的話題觀測(cè)數(shù)據(jù)預(yù)測(cè)出下一時(shí)刻話題所處的風(fēng)險(xiǎn)狀態(tài)。話題狀態(tài)隨著時(shí)間推移不斷演化,雖然無法直接觀察到話題狀態(tài),但可以通過向心度、密度等觀測(cè)指標(biāo)來反映。因此,話題狀態(tài)演化過程是由外部觀測(cè)指標(biāo)反映內(nèi)部話題狀態(tài)的雙重隨機(jī)過程,可用隱馬爾可夫模型描述。
隱馬爾可夫模型是一個(gè)雙重隨機(jī)過程,一個(gè)過程是描述隱藏狀態(tài)轉(zhuǎn)移的馬爾可夫鏈,另一個(gè)過程是描述隱藏狀態(tài)與觀測(cè)狀態(tài)之間的映射關(guān)系[19]。圖2描述了一段時(shí)間內(nèi)隱藏狀態(tài)之間的轉(zhuǎn)移關(guān)系及隱藏狀態(tài)與觀測(cè)狀態(tài)之間的對(duì)應(yīng)關(guān)系。
圖2 話題風(fēng)險(xiǎn)狀態(tài)轉(zhuǎn)移序列與觀測(cè)序列關(guān)系
該文基于HMM構(gòu)建話題風(fēng)險(xiǎn)狀態(tài)模型,模型參數(shù)描述如下:隱馬爾可夫模型可用參數(shù)λ={π,A,B}來表示,話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)模型參數(shù)選取及模型訓(xùn)練的初始值設(shè)置描述如下:
(1)隱藏狀態(tài)集合S:S={s1,s2,s3,s4},s1、s2、s3、s4分別對(duì)應(yīng)話題的I級(jí)、II級(jí)、III級(jí)、IV級(jí)風(fēng)險(xiǎn)狀態(tài),狀態(tài)數(shù)量N=4。令話題在t時(shí)刻的狀態(tài)為qt,qt∈S。
總之,在小學(xué)體育課堂,運(yùn)用情景教學(xué)的最終目的就是激發(fā)學(xué)生的體育學(xué)習(xí)熱情,讓體育教育真正受益于學(xué)生,而不只是讓小學(xué)體育課變成課程表上的一個(gè)擺設(shè)。因此,作為體育教師,要積極運(yùn)用情景教學(xué)進(jìn)行教學(xué),同時(shí)還需要引導(dǎo)學(xué)生進(jìn)入情景中,感受體育課堂的豐富與樂趣,鍛煉學(xué)生的體育技能,培養(yǎng)積極健康的心態(tài)以及形成正確良好的體育觀念。
(2)觀測(cè)序列O:O={o1,o2,…,ot},表示在1~t時(shí)間段內(nèi)由話題各時(shí)刻二維觀測(cè)值組成的觀測(cè)序列,ot表示t時(shí)刻下話題T的向心度和密度值組成的二維觀測(cè)值。
(5)觀測(cè)狀態(tài)概率分布B:B={bi(ot)} ,bi(ot)=P(ot|qt=si)。其中,bi(ot)為t時(shí)刻隱藏狀態(tài)為si對(duì)應(yīng)觀測(cè)狀態(tài)為ot的概率。當(dāng)HMM的觀測(cè)值為連續(xù)值時(shí),狀態(tài)si生成觀測(cè)狀態(tài)的概率可以用高斯模型 (Gaussian Model,GM)來擬合,即隱藏狀態(tài)si對(duì)應(yīng)的觀測(cè)值服從均值為ui、協(xié)方差為Σi的二元高斯概率密度函數(shù),如式(6)所示。該文將話題在四類風(fēng)險(xiǎn)狀態(tài)下對(duì)應(yīng)的二維觀測(cè)數(shù)據(jù)的平均值和協(xié)方差作為模型初始均值和協(xié)方差。
(6)
文中話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)方法是將各個(gè)風(fēng)險(xiǎn)狀態(tài)下對(duì)應(yīng)的觀測(cè)序列數(shù)據(jù)作為該狀態(tài)的表征,分別針對(duì)不同的話題風(fēng)險(xiǎn)狀態(tài)構(gòu)建HMM模型,從而預(yù)測(cè)話題演化過程中風(fēng)險(xiǎn)狀態(tài)的變化趨勢(shì),它能夠避免原有模型[17]對(duì)不同類型話題建模導(dǎo)致模型普適性較低的問題,彌補(bǔ)話題生命周期波動(dòng)性較高帶來的模型穩(wěn)定性較低的不足。根據(jù)平面坐標(biāo)映射方法,提取出各個(gè)風(fēng)險(xiǎn)狀態(tài)下對(duì)應(yīng)的多條觀測(cè)序列,作為HMM模型的訓(xùn)練數(shù)據(jù),對(duì)四類話題風(fēng)險(xiǎn)狀態(tài)進(jìn)行模型訓(xùn)練,以期提高模型穩(wěn)定性和預(yù)測(cè)效果。
將風(fēng)險(xiǎn)狀態(tài)si下的全部觀測(cè)樣本序列表示為O(si),作為各話題風(fēng)險(xiǎn)狀態(tài)模型的訓(xùn)練數(shù)據(jù),并利用Baum-Welch算法(EM算法)訓(xùn)練模型,得到模型集合為HMMs={HMM1,HMM2,HMM3,HMM4},對(duì)應(yīng)參數(shù)集Ω={λ1,λ2,λ3,λ4},將EM算法的最大迭代次數(shù)設(shè)置為100,收斂閾值為0.001,經(jīng)過多次迭代后得到每個(gè)模型的最優(yōu)重估參數(shù)。模型訓(xùn)練過程如圖3所示。
圖3 各個(gè)話題狀態(tài)的模型訓(xùn)練過程
以“疫情、肺炎、新冠”為關(guān)鍵詞爬取微博數(shù)據(jù),時(shí)間跨度為2019年12月31日至2020年5月19日,獲得微博數(shù)據(jù)共307 932條。對(duì)數(shù)據(jù)進(jìn)行清洗、分詞等預(yù)處理,運(yùn)用LDA算法進(jìn)行話題識(shí)別,采用主題一致性指標(biāo)確定最佳話題數(shù)為6。實(shí)驗(yàn)以周為時(shí)間單位,計(jì)算每個(gè)話題在時(shí)間跨度為20周的向心度和密度指標(biāo)值,得到總共120條數(shù)據(jù)。將120條數(shù)據(jù)映射到坐標(biāo)系中,獲得屬于I級(jí)、II級(jí)、III級(jí)、IV級(jí)風(fēng)險(xiǎn)狀態(tài)的觀測(cè)序列數(shù)據(jù)分別為24條、35條、24條和37條。
觀測(cè)數(shù)據(jù)盡管不多,但基本上反映了國(guó)內(nèi)疫情大范圍爆發(fā)那段時(shí)期的微博話題討論情況。實(shí)驗(yàn)采取K折交叉驗(yàn)證法(K-fold Cross Validation)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估,K取值為4。將120條數(shù)據(jù)序列分成4等份,每次都取其中的3份(90條觀測(cè)數(shù)據(jù))作為訓(xùn)練集,取剩下的1份(30條觀測(cè)數(shù)據(jù))作為測(cè)試集。如此循環(huán)4次,在每一次交叉驗(yàn)證中,利用訓(xùn)練集數(shù)據(jù)中屬于各風(fēng)險(xiǎn)狀態(tài)的觀測(cè)數(shù)據(jù)對(duì)各個(gè)狀態(tài)訓(xùn)練HMM模型,再利用測(cè)試集數(shù)據(jù)進(jìn)行狀態(tài)預(yù)測(cè)。
表1 采用話題風(fēng)險(xiǎn)狀態(tài)方法的混淆矩陣
該文采用t+1時(shí)刻的二維觀測(cè)數(shù)據(jù)預(yù)測(cè)值與實(shí)際值的誤差來評(píng)估模型預(yù)測(cè)效果,選取平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)作為模型預(yù)測(cè)精度的評(píng)價(jià)指標(biāo)。MAPE的計(jì)算方式如式(7)所示。
(7)
其中,n為預(yù)測(cè)次數(shù),Rt+1為t+1時(shí)刻的實(shí)際值,Pt+1為t+1時(shí)刻的預(yù)測(cè)值。經(jīng)過計(jì)算得出,模型預(yù)測(cè)的向心度值MAPE為14.13%,密度值MAPE為11.99%。向心度與密度的實(shí)際值與預(yù)測(cè)值對(duì)比如圖4所示,其中兩個(gè)指標(biāo)的預(yù)測(cè)值與實(shí)際值趨勢(shì)一致,相比向心度,密度值的預(yù)測(cè)誤差更小。
圖4 話題狀態(tài)預(yù)測(cè)模型的向心度和密度 預(yù)測(cè)值與實(shí)際值對(duì)比
根據(jù)預(yù)測(cè)出的t+1時(shí)刻觀測(cè)值判別話題風(fēng)險(xiǎn)狀態(tài)后,得出話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)的混淆矩陣,如表1所示。該方法預(yù)測(cè)風(fēng)險(xiǎn)狀態(tài)的平均準(zhǔn)確率為92.11%,其中,III級(jí)和IV級(jí)風(fēng)險(xiǎn)狀態(tài)更具現(xiàn)實(shí)意義,兩種狀態(tài)預(yù)測(cè)準(zhǔn)確率均達(dá)到86%以上,說明該預(yù)測(cè)方法能夠有效捕捉話題引發(fā)輿論危機(jī)的風(fēng)險(xiǎn)性。
為驗(yàn)證該研究方法的準(zhǔn)確性和有效性,采用BP神經(jīng)網(wǎng)絡(luò)(BPNN)模型、LSTM模型、RNN模型進(jìn)行對(duì)比實(shí)驗(yàn)。選取數(shù)據(jù)預(yù)處理得到的6個(gè)話題前10周觀測(cè)值為訓(xùn)練集,將后10周觀測(cè)值作為測(cè)試集評(píng)估預(yù)測(cè)效果。實(shí)驗(yàn)采用精確率、召回率與F1值進(jìn)行模型評(píng)估,結(jié)果如表2所示。
表2 實(shí)驗(yàn)?zāi)P托Ч麑?duì)比
從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于文中的話題數(shù)據(jù)集,HMM、BPNN、LSTM和RNN模型得到的準(zhǔn)確率、召回率和F1值均高于80%。其中,HMM模型得到的話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)的F1值達(dá)到90.26%,相較于適用較大數(shù)據(jù)量的神經(jīng)網(wǎng)絡(luò)模型,HMM模型在預(yù)測(cè)話題風(fēng)險(xiǎn)狀態(tài)時(shí)更具有優(yōu)勢(shì)。
為了預(yù)測(cè)處于演化過程中的話題狀態(tài)趨勢(shì),從話題預(yù)警的視角,基于向心度和密度指標(biāo)將演化中的話題劃分為不同等級(jí)的風(fēng)險(xiǎn)狀態(tài),為話題狀態(tài)劃分提供了新思路。由于話題狀態(tài)演化過程是由外部觀測(cè)指標(biāo)反映內(nèi)部話題狀態(tài)的雙重隨機(jī)過程,該文基于HMM提出話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)方法,以新冠肺炎疫情事件為例進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法預(yù)測(cè)風(fēng)險(xiǎn)狀態(tài)的平均準(zhǔn)確率為92.11%,相對(duì)于BP神經(jīng)網(wǎng)絡(luò)、LSTM以及RNN時(shí)間序列預(yù)測(cè)模型,該方法預(yù)測(cè)話題風(fēng)險(xiǎn)狀態(tài)的誤差更小?;贖MM的話題風(fēng)險(xiǎn)狀態(tài)預(yù)測(cè)方法為輿情監(jiān)管部門及時(shí)預(yù)警話題風(fēng)險(xiǎn)性提供了科學(xué)依據(jù)。