朱光婷 潘曉琳
(重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 重慶 401331)
網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的輿論,其中包含網(wǎng)民或公眾針對(duì)現(xiàn)實(shí)生活中的一些熱點(diǎn)問題、焦點(diǎn)問題、突發(fā)事件表達(dá)的意見、態(tài)度和情緒等等,它們?cè)谝欢〞r(shí)間段內(nèi)集聚匯總,便會(huì)對(duì)與這些問題或事件相關(guān)的當(dāng)事人造成輿論壓力,即形成網(wǎng)絡(luò)輿情危機(jī)。研究網(wǎng)絡(luò)輿情危機(jī)涉及相關(guān)的評(píng)價(jià)指標(biāo)體系,而有關(guān)指標(biāo)數(shù)據(jù)的屬性有兩種類型,即連續(xù)型和離散型。數(shù)據(jù)挖掘中對(duì)連續(xù)型數(shù)據(jù)進(jìn)行預(yù)處理,有關(guān)算法都比較復(fù)雜。本次研究,主要針對(duì)網(wǎng)絡(luò)輿情危機(jī)評(píng)價(jià)指標(biāo)體系探索一種簡(jiǎn)化指標(biāo)的方法?;舅悸肥牵菏紫?,對(duì)評(píng)價(jià)指標(biāo)按選取規(guī)則進(jìn)行初步選取,去除無(wú)法搜集或難以收集數(shù)據(jù)的指標(biāo);然后,運(yùn)用布爾推理的高效實(shí)現(xiàn)算法將連續(xù)型數(shù)據(jù)離散化,為約簡(jiǎn)粗糙集提供高準(zhǔn)確率的信息表數(shù)據(jù);最后,采用啟發(fā)式約簡(jiǎn)算法計(jì)算指標(biāo)屬性重要程度,進(jìn)而刪除冗余指標(biāo)。
離散化問題主要是根據(jù)斷點(diǎn)把連續(xù)型數(shù)據(jù)的值域范圍切割成有限個(gè)區(qū)間,使每個(gè)區(qū)間的對(duì)象具有相同的類別,這是用一定閾值對(duì)數(shù)據(jù)進(jìn)行空間拆分的過程。
設(shè)決策表為T=(U,A,V)。其中,U為至少有1個(gè)元素的樣本集合;A=C∪D,為非空有限個(gè)條件屬性集與決策屬性集組成的集合;V=∪Va[1]。對(duì)于?a∈C,值域Va=[la,ra]。Pa為Va上的一個(gè)劃分:
Pa={[Ca0,Ca1),[Ca1,Ca2),…,[Cak,Cak+1)}
la=Ca0 Cai即為屬性a在值域Va上的一個(gè)斷點(diǎn);Ca={Ca1,Ca2,…,Cak},為Va的斷點(diǎn)集。每一個(gè)斷點(diǎn)集確定唯一的一個(gè)劃分。如果 |Pa|=1,表示沒有斷點(diǎn),集合為空集。集合P={Pa|a∈C∪D},稱為T的一個(gè)劃分。由P定義一個(gè)新決策表TP=(U,CP∪D,VP),稱為T的P離散化。 離散化問題可轉(zhuǎn)化為由決策表求解最優(yōu)劃分的決策問題。按典型的基于粗糙集與布爾推理的離散化算法(RSBRA),根據(jù)最大分辨能力找出的實(shí)際斷點(diǎn)組成的集合為原決策表的次優(yōu)斷點(diǎn)集。布爾推理離散化過程中是完全根據(jù)原始數(shù)據(jù)挖掘數(shù)據(jù)的信息,不會(huì)對(duì)數(shù)據(jù)造成破壞。布爾推理離散算法,直觀、簡(jiǎn)單、容易被人理解,但以此算法確定一個(gè)斷點(diǎn),空間復(fù)雜度和時(shí)間復(fù)雜度都比較高。因此,需要采用高效的實(shí)現(xiàn)算法來(lái)降低計(jì)算的復(fù)雜度。 【定義1[2]】令決策表集L={U},樣本子集X=L。將屬性a的數(shù)值排序,得到Va1 (3) 【定義2】對(duì)任意斷點(diǎn)Cai,a∈C,1≤i≤n,j=1,2,…,r;n為樣本子集的樣本數(shù)目。令 WX(Cai)=lX(Cai)·rX(Cai)- (4) 布爾推理離散化的高效實(shí)現(xiàn)算法步驟如下。 第一步:對(duì)決策表中的數(shù)據(jù)按定義1進(jìn)行處理,求出候選斷點(diǎn)數(shù),確定候選斷點(diǎn)集。 第二步:對(duì)?c∈C1,計(jì)算斷點(diǎn)Cai分辨的樣本對(duì)數(shù),并根據(jù)其最大值選出實(shí)際斷點(diǎn)(記為Cmax),加入集合P中,并從C1中剔除Cmax。 第三步:對(duì)于X∈L,如果Cmax將X分割成X1和X2,那么從L中去除X,將X1和X2添加到L中。 第四步:對(duì)?Xi∈L,若Xi中的樣本不屬于同一類,則回到第二步;若Xi中樣本屬于同一類,則選擇結(jié)束。由此可得出實(shí)際斷點(diǎn)集P,將原始數(shù)據(jù)離散化。 粗造集的主要思想是利用現(xiàn)有數(shù)據(jù)信息,將不完整、不確定的都近似得出,從而找出所有信息之間的關(guān)聯(lián)性,保證篩選的客觀性。決策表經(jīng)過處理后,最終得到的屬性約簡(jiǎn)集可能是多個(gè)的。我們希望求得個(gè)數(shù)最少的集合。有研究[3]表明,求取最優(yōu)約簡(jiǎn)的算法是不完備的,于是可退而求其次,尋找高效的近似約簡(jiǎn)算法或者快速的啟發(fā)式約簡(jiǎn)算法。我們采用啟發(fā)式約簡(jiǎn)算法,將可識(shí)別矩陣與可降低復(fù)雜度屬性的重要度相結(jié)合,進(jìn)行屬性約簡(jiǎn)。這種方法有利于處理屬性繁多且數(shù)據(jù)量大的數(shù)據(jù)集??勺R(shí)別矩陣[4]是一個(gè)主對(duì)角線元素為0的對(duì)稱矩陣: 運(yùn)算過程[5]如下。 第一步:為了減少可識(shí)別矩陣計(jì)算量,對(duì)離散化決策信息表中的決策屬性的表達(dá)進(jìn)行簡(jiǎn)化。選取其中一個(gè)樣本的決策屬性為是(其余全為否),則對(duì)應(yīng)該樣本的條件屬性全為是(其余條件屬性為否)。通過簡(jiǎn)化后的決策表,構(gòu)造出只有1行的可識(shí)別矩陣。 第二步:根據(jù)各屬性在可識(shí)別矩陣中的頻度和長(zhǎng)度,求出各條件屬性的重要度。頻度較大、長(zhǎng)度較小的條件屬性,其重要程度較大。具體方法是根據(jù)屬性在識(shí)別矩陣中的頻度和長(zhǎng)度,對(duì)條件屬性的重要性進(jìn)行加權(quán)處理[6]。 第三步:對(duì)求出的條件屬性重要度進(jìn)行排序,然后按照重要程度進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行優(yōu)化處理,得到約簡(jiǎn)過程表。 第四步:按照約簡(jiǎn)規(guī)則進(jìn)行約簡(jiǎn),得到最終的優(yōu)化指標(biāo)。約簡(jiǎn)規(guī)則為:若UInd(C-Ci)=UInd(D),Ci為可約屬性;若UInd(C-Ci)≠UInd(D),Ci為不可約屬性[7]。UInd(D)為由指標(biāo)集D導(dǎo)出的等價(jià)類。 選取在2019年9月和10月發(fā)生的無(wú)錫高架橋坍塌、中通快遞雙十一漲價(jià)、波音延長(zhǎng)停飛計(jì)劃等10個(gè)近期影響程度不同的事件,將圍繞這些事件的輿情(熱點(diǎn)話題)記為X1至X10,作為評(píng)估對(duì)象。根據(jù)專家評(píng)價(jià)、百度指數(shù)和微博等傳播渠道與途徑,獲取輿情指標(biāo)數(shù)據(jù)[8]。指標(biāo)初選,既要考慮指標(biāo)對(duì)網(wǎng)絡(luò)輿情危機(jī)反映的全面性和準(zhǔn)確性,也要考慮指標(biāo)的實(shí)際意義。為便于收集指標(biāo)數(shù)據(jù),主要選擇可量化和可操作的指標(biāo),適當(dāng)選取主觀性指標(biāo)。參考相關(guān)文獻(xiàn)[9],從網(wǎng)絡(luò)輿情的參與者、被傳播的話題及傳播途徑3個(gè)方面,初步選取指標(biāo)共計(jì)23個(gè)。 選擇常用的Z-score標(biāo)準(zhǔn)化方法,基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)進(jìn)行處理。設(shè):xij為事件i對(duì)j個(gè)指標(biāo)的值,yij為標(biāo)準(zhǔn)化后的指標(biāo)值,Xj為指標(biāo)j的數(shù)學(xué)期望,Sj為指標(biāo)j的標(biāo)準(zhǔn)差。則yij=(xij-Xj)Sj。標(biāo)準(zhǔn)化后,指標(biāo)值的區(qū)間為[-2.5,2.5]。然后,按布爾推理離散化的高效實(shí)現(xiàn)算法計(jì)算出23個(gè)指標(biāo)的離散化過程和信息表[10](見表1,未全部列出)。比如第23個(gè)指標(biāo)C23,離散規(guī)則為3個(gè)連續(xù)區(qū)間,分別是[,0.003 52),[0.003 52,0.906 17),[0.906 17,];每個(gè)區(qū)間的對(duì)象具有相同的類別,以從小到大的整數(shù)0、1、2分別代表這些區(qū)間。 表1 指標(biāo)的離散規(guī)則和信息表 對(duì)23個(gè)初選指標(biāo),按輿情主體、輿情媒體、輿情客體構(gòu)成3個(gè)決策表,利用可識(shí)別矩陣和屬性重要度進(jìn)行屬性約簡(jiǎn),刪除冗余指標(biāo)。 以輿情主體為例,用U表示事件,X1至X10代表熱點(diǎn)話題,C16至C23分別表示觀點(diǎn)極化數(shù)、是否含偏激觀點(diǎn)、點(diǎn)贊瀏覽比、轉(zhuǎn)發(fā)瀏覽比、評(píng)論瀏覽比、輿情參與人正面情感比率、輿情參與人負(fù)面情感比率、情感傾向強(qiáng)度等8個(gè)指標(biāo),d表示決策屬性。首先,對(duì)離散化決策表對(duì)決策屬性的表達(dá)進(jìn)行簡(jiǎn)化,形成指標(biāo)決策表(見表2),其中用1表示是,用0表示否。X1為條件屬性和決策屬性全為肯定的肯定性樣本,基于指標(biāo)決策表,按照可識(shí)別矩陣的定義,求出的輿情主體指標(biāo)可識(shí)別矩陣如表3所示。 表2 輿情主體指標(biāo)決策表 表3 輿情X1主體指標(biāo)可識(shí)別矩陣 在決策表中,各個(gè)條件屬性帶來(lái)的影響的大小是有差異的,也就是說其重要程度[11]是不同的。因此,需探究哪些條件屬性去掉后影響較大,哪些去掉后影響較小,確定各條件屬性的重要程度。通過以上求出的輿情主體指標(biāo)的決策表和可識(shí)別矩陣,計(jì)算出的各條件屬性的重要度如下。 把條件屬性對(duì)應(yīng)的指標(biāo)按照重要度從小到大的順序依次加入約簡(jiǎn)指標(biāo)集合中,考察各指標(biāo)是否滿足約簡(jiǎn)規(guī)則,是否可約簡(jiǎn)。若不滿足,停止屬性約簡(jiǎn),生成約簡(jiǎn)過程表(見表4)。 表4 輿情X1主體指標(biāo)的約簡(jiǎn)過程 把C17(是否含偏激觀點(diǎn))、C20(評(píng)論瀏覽比)和C21(輿情參與人正面情感比率)約簡(jiǎn)后,剩下的5個(gè)指標(biāo)即C16、C18、C19、C22和C23便構(gòu)成約簡(jiǎn)后的輿情主體指標(biāo)集合。以同樣的方式,可以得到輿情客體和輿情媒體的指標(biāo)約簡(jiǎn)集合,初選的23個(gè)指標(biāo)最后保留15個(gè)。最終建立的網(wǎng)絡(luò)輿情危機(jī)指標(biāo)體系如表5所示。 表5 約簡(jiǎn)后的網(wǎng)絡(luò)輿情危機(jī)指標(biāo)體系 使用KW檢驗(yàn),對(duì)指標(biāo)做顯著性分析,顯著水平取0.05。利用SARA軟件,將保留下來(lái)的15個(gè)指標(biāo)進(jìn)行檢驗(yàn),得檢驗(yàn)概率值為0.001 8,遠(yuǎn)小于0.05,表明保留下來(lái)的指標(biāo)相互間差異明顯。這也證明了算法的合理性,基于改進(jìn)的粗糙集算法,對(duì)網(wǎng)絡(luò)輿情危機(jī)評(píng)價(jià)指標(biāo)體系進(jìn)行約簡(jiǎn)優(yōu)化,具有可行性和有效性。 為解決網(wǎng)絡(luò)輿情危機(jī)評(píng)價(jià)指標(biāo)體系存在的冗余和不確定性問題,使用改進(jìn)的粗糙集算法對(duì)指標(biāo)進(jìn)行了約簡(jiǎn)處理。首先對(duì)連續(xù)屬性數(shù)據(jù)進(jìn)行離散化處理,采用布爾推理離散化的高效實(shí)現(xiàn)算法,降低確定一個(gè)斷點(diǎn)的空間復(fù)雜度和時(shí)間復(fù)雜度,然后依據(jù)可識(shí)別矩陣和屬性重要度進(jìn)行屬性約簡(jiǎn),刪除冗余指標(biāo)。指標(biāo)初選階段,直接從原始數(shù)據(jù)中獲得真實(shí)、客觀的潛在信息,既考慮指標(biāo)的實(shí)際意義,又保證篩選的客觀性。KW檢驗(yàn)結(jié)果表明,通過約簡(jiǎn)后的網(wǎng)絡(luò)輿情危機(jī)評(píng)價(jià)指標(biāo)相互間差異明顯,說明算法是合理的。2 實(shí)證分析
2.1 樣本及指標(biāo)初選
2.2 指標(biāo)的離散化
2.3 指標(biāo)集的約簡(jiǎn)
3 結(jié) 語(yǔ)