馬 捷,郝志遠(yuǎn)
(1.吉林大學(xué)管理學(xué)院,長(zhǎng)春 130022;2.吉林大學(xué)信息資源研究中心,長(zhǎng)春 130022)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、數(shù)字時(shí)代的到來,社交網(wǎng)絡(luò)愈發(fā)成為用戶進(jìn)行信息交互的主要載體?;谏缃痪W(wǎng)絡(luò)開放性的特點(diǎn),用戶能夠不受限于時(shí)間和地點(diǎn)的約束,快速便捷地進(jìn)行信息交流以及熱點(diǎn)話題的討論[1]。社交網(wǎng)絡(luò)的便捷性與開放性促進(jìn)了信息的傳播,與此同時(shí),也成為了影響話題輿論走向的主要因素。信息行為是情報(bào)學(xué)的核心研究領(lǐng)域之一,“交互”也已成為移動(dòng)互聯(lián)網(wǎng)時(shí)代用戶共享多元信息資源的普遍性行為。對(duì)于社交網(wǎng)絡(luò)上傳播的熱點(diǎn)話題信息,不同用戶對(duì)待話題信息的情感傾向性不同,即同一個(gè)話題可能存在多個(gè)不同的情感傾向解讀視角。根據(jù)研究表明,用戶針對(duì)話題信息所產(chǎn)生的不同解讀傾向與用戶自身的性別、性格、喜好以及教育背景等有關(guān)。話題所附屬的解讀傾向種類越多,話題熱議程度則越高,因此,輿論走向就更應(yīng)得到正確的引導(dǎo)。
本文從交互與信息行為的角度出發(fā),以網(wǎng)絡(luò)用戶產(chǎn)生的情感傾向性作為基本切入點(diǎn),采用機(jī)器學(xué)習(xí)中的密度峰值聚類算法對(duì)熱點(diǎn)話題的用戶評(píng)論數(shù)據(jù)進(jìn)行傾向性分類。同時(shí),參考已有的情感極性值計(jì)算方法,融入方差加權(quán)信息熵的策略,并將所得解讀傾向映射到計(jì)算結(jié)果中,提出衡量話題熱議程度,量化話題信息價(jià)值的信息交互度計(jì)量方法。信息交互度概念的提出為網(wǎng)絡(luò)監(jiān)管提供了合理的度量參考,交互度數(shù)值變化具象地反映了輿論的演化趨勢(shì),通過信息交互度把控謠言形成時(shí)機(jī),對(duì)促進(jìn)互聯(lián)網(wǎng)的健康文明發(fā)展具有重要的理論意義。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,信息是不同個(gè)體間進(jìn)行交流與聯(lián)系的必要連接媒介。而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及用戶信息需求所呈現(xiàn)的多元化趨勢(shì),使得“交互”越發(fā)成為網(wǎng)絡(luò)用戶群體間一種具有社會(huì)普遍性的信息行為方式。信息交互行為作為一種基于信息技術(shù)的更迭發(fā)展而衍生的具有豐富內(nèi)涵的跨領(lǐng)域概念,國(guó)內(nèi)外學(xué)者以不同的研究視角對(duì)信息交互行為進(jìn)行了歸納與闡述。國(guó)外學(xué)者Costello等[2]從信息交互的應(yīng)用層面出發(fā),研究了血液透析患者在面對(duì)健康信息時(shí)所發(fā)生的信息交互行為,分析了不同場(chǎng)景對(duì)信息交互行為的影響。Buijs等[3]基于信息檢索與人機(jī)交互的研究視角,將異步社會(huì)搜索作為一種新的、直觀的信息搜索方法在論文中進(jìn)行呈現(xiàn),并通過這種方法實(shí)現(xiàn)用戶在信息檢索中的交互過程。Bronstein等[4]研究了用戶的自身判斷能力以及自我效能對(duì)信息交互行為產(chǎn)生的影響,進(jìn)而提出了一種新的信息交互行為模型。此外,國(guó)內(nèi)學(xué)者鄧小詠等[5]針對(duì)網(wǎng)絡(luò)用戶信息交互行為的特征類型以及影響因素等方面進(jìn)行研究,多角度地探究了信息交互行為的相關(guān)理論與思想。馬捷等[6]認(rèn)為,信息存在包括新聞、語(yǔ)錄等在內(nèi)的多種表現(xiàn)形式,而信息交互則旨在實(shí)現(xiàn)多元信息的傳播過程與信息主體的情感宣泄。楊璐伊等[7]將信息交互行為解釋為不同信息體間信息流相向傳播的一種信息反饋過程,每一次信息的接收與反饋都能對(duì)信息體雙方產(chǎn)生相應(yīng)的映射效應(yīng),并影響雙方接收與反饋的信息價(jià)值,進(jìn)而滿足信息流傳播過程的延續(xù)性。孫璐等[8]基于網(wǎng)絡(luò)技術(shù)層面論述了信息交互過程中實(shí)現(xiàn)信息價(jià)值提升的相關(guān)理論,并以此實(shí)現(xiàn)信息一致和信息增值。王晰巍等[9]從計(jì)算機(jī)與信息技術(shù)的角度出發(fā),以用戶的信息需求為基本導(dǎo)向,探析了信息技術(shù)以及相關(guān)工具對(duì)信息交互行為的影響。有相關(guān)學(xué)者基于信息交互的類型[10]、基于信息交互的內(nèi)部規(guī)律[11-12]、基于交互的方法[13-14]以及基于交互的對(duì)象[15]等不同方面對(duì)信息交互行為進(jìn)行了分析與研究。上述學(xué)者對(duì)信息交互內(nèi)容的研究,主要是針對(duì)交互與信息行為這一具體過程展開的論述,忽略了隨著信息交互行為的產(chǎn)生而引發(fā)的對(duì)社交網(wǎng)絡(luò)輿情走向的影響,本文將信息交互行為作為基本落腳點(diǎn),深入剖析了信息交互對(duì)輿情演化趨勢(shì)的影響作用。
情感分析是基于自然語(yǔ)言處理以及文本挖掘等相關(guān)技術(shù),針對(duì)具有個(gè)體主觀感情傾向的文本內(nèi)容或圖片內(nèi)容進(jìn)行分類、抽取以及挖掘等操作以滿足個(gè)體信息需求的分析過程。同時(shí),也是一種綜合多領(lǐng)域研究方法的交叉內(nèi)容,相關(guān)研究始于學(xué)者Pang等[16]融合SVM(support vector machines)等有監(jiān)督機(jī)器學(xué)習(xí)算法對(duì)電影評(píng)論數(shù)據(jù)進(jìn)行的情感分類。隨著信息技術(shù)的更迭發(fā)展,越來越多的學(xué)者致力于情感分析的研究中,按照研究文本對(duì)象的粒度劃分,情感分析包括篇章級(jí)、句子級(jí)和詞語(yǔ)級(jí),如國(guó)外學(xué)者Berka[17]針對(duì)篇章級(jí)文本對(duì)象情感分類問題的準(zhǔn)確性,在情感分析過程中引入人工智能基于規(guī)則推理和基于案例推理的策略,以實(shí)現(xiàn)篇章文本情感的準(zhǔn)確分類。Sharma等[18]以Twitter用戶評(píng)論數(shù)據(jù)為研究對(duì)象,分析相關(guān)評(píng)論的情感極性。與國(guó)外學(xué)者對(duì)于情感分析多以英文為研究對(duì)象相比,由于中文句式,語(yǔ)義等對(duì)比英文更為復(fù)雜,國(guó)內(nèi)學(xué)者則更多對(duì)中文相關(guān)文本內(nèi)容進(jìn)行研究。例如,楊鵬等[19]針對(duì)細(xì)粒度情感分類問題,提出了基于注意力機(jī)制的交互式神經(jīng)網(wǎng)絡(luò)模型,通過該模型對(duì)上下文語(yǔ)義和方面詞語(yǔ)義進(jìn)行建模,提高分類的準(zhǔn)確性。林敏鴻等[20]為解決多模態(tài)情感分類任務(wù)中的信息冗余問題,在張量融合方案的基礎(chǔ)上提出了基于注意力神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析方法。徐健等[21]從情感分歧角度出發(fā),通過提出情感分歧度量化算法,為網(wǎng)絡(luò)用戶評(píng)論情感分析提供了新的研究方法和視角。
輿情是指在信息的傳播過程中,隨著用戶與信息之間交互行為的進(jìn)行,用戶群體基于自身的情感、心理等因素的影響,對(duì)該話題信息所產(chǎn)生的不同評(píng)論傾向以及解讀視角的集合。對(duì)社交網(wǎng)絡(luò)輿情走向進(jìn)行正確的引導(dǎo),能夠?yàn)檎嚓P(guān)部門提供有效的策略支持。目前,針對(duì)社交網(wǎng)絡(luò)下的輿情研究,F(xiàn)ang等[22]通過對(duì)不同用戶群體在不同熱點(diǎn)話題中的評(píng)論傾向性進(jìn)行研究,提出一種新的輿情理論。Stewart等[23]為了對(duì)輿情進(jìn)行相關(guān)測(cè)算,采用社會(huì)調(diào)查的方法對(duì)輿情進(jìn)行了度量分析。Rasmussen等[24]通過對(duì)社交媒體的相關(guān)數(shù)據(jù)進(jìn)行分析,綜合度量了公眾輿情走向與政府部門政治決策間的關(guān)系,建立了相應(yīng)的度量模型。高俊峰等[25]通過多種不同角度對(duì)網(wǎng)絡(luò)輿情的發(fā)展趨勢(shì)進(jìn)行了分析與探討,并提出一種新的輿情理論模型,為網(wǎng)絡(luò)輿情的監(jiān)管與把控提供了合理的理論支持。陳福集等[26]結(jié)合案例分析的方法,通過對(duì)具體實(shí)例進(jìn)行剖析,將網(wǎng)絡(luò)輿情的走向趨勢(shì)以及信息的傳播模式進(jìn)行了針對(duì)性的分析與研究。王晰巍等[27]通過對(duì)新浪用戶的輿情情感演化進(jìn)行研究分析,利用分類算法進(jìn)行情感分類,進(jìn)而提出一種用戶輿情情感預(yù)測(cè)模型,對(duì)加強(qiáng)相關(guān)部門的信息監(jiān)管能力具有重要的促進(jìn)意義。與此同時(shí),還有其他學(xué)者基于信息的生命周期[28]、基于輿情傳播本質(zhì)[29]以及基于網(wǎng)絡(luò)輿情意見領(lǐng)袖[30]等方面對(duì)輿情進(jìn)行了研究分析。
綜上對(duì)信息交互行為的理解,本文所提出的社交網(wǎng)絡(luò)“信息交互度”是指在社交網(wǎng)絡(luò)環(huán)境中任意兩個(gè)或多個(gè)主體對(duì)象針對(duì)某一話題或信息體(信息源),以主體對(duì)象主觀感情傾向表現(xiàn)作為交互過程的信息反饋,通過量化信息反饋結(jié)果來反映話題或信息體(信息源)熱議程度的概念。探究話題或信息體的“信息交互度”,能夠?yàn)檩浨檠莼治鲆约皬V告影評(píng)分析等相關(guān)內(nèi)容提供全新的研究評(píng)測(cè)視角。
上文所述國(guó)內(nèi)外學(xué)者的相關(guān)研究為本文的研究?jī)?nèi)容奠定了理論基礎(chǔ),然而當(dāng)前直接基于“信息交互度”這一概念的研究仍處于探索階段。劉雅婷[31]為研究空間規(guī)劃問題基于復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)分析以及粒子群算法等提出了“城區(qū)信息交互度”的概念。苗壯等[32]針對(duì)目前校園網(wǎng)絡(luò)存在的問題,以某高校的校園網(wǎng)建設(shè)為研究對(duì)象,通過整合校園網(wǎng)絡(luò)資源,提出一種基于私有云計(jì)算的信息交互模型。趙洪鋼等[33]融合社會(huì)感知計(jì)算,提出了一種應(yīng)用于無線傳感器網(wǎng)絡(luò)的信息交互模型。然而,一方面,上述“信息交互度”的有關(guān)研究?jī)?nèi)容主要針對(duì)計(jì)算機(jī)相關(guān)領(lǐng)域,著重于網(wǎng)絡(luò)技術(shù)與算法的探討分析,對(duì)于信息自身層面的研究與討論仍具有一定的局限性;另一方面,現(xiàn)階段國(guó)內(nèi)外學(xué)者針對(duì)輿情分析以及情感分析的既有研究主要集中于單一的方法技術(shù)手段層面、純粹的情感極性值計(jì)算和傾向分類層面以及輿情演化機(jī)理和引導(dǎo)策略層面等幾個(gè)研究視角進(jìn)行論證分析,所述內(nèi)容更多以信息作為實(shí)驗(yàn)研究載體,過于強(qiáng)調(diào)用戶主體性和用戶情感的功能性?,F(xiàn)有研究大多或利用相關(guān)算法進(jìn)行情感分類,通過情感傾向類別與情感極性值分布研判輿情走勢(shì);或只將信息作為實(shí)驗(yàn)樣本數(shù)據(jù)(輸入變量)突出技術(shù)方法的可行性與先進(jìn)性;或根據(jù)輿情特征分析輿情演化機(jī)理進(jìn)而提出相應(yīng)的政策方針,然而,這極大程度上忽視了信息本身在網(wǎng)絡(luò)用戶意見(情感)反饋過程中應(yīng)具備的主體屬性。社交網(wǎng)絡(luò)信息交互過程實(shí)際上是網(wǎng)絡(luò)用戶信息的接收與再發(fā)出過程,在接收-發(fā)出過程中,信息作為中介主體承載用戶的情感反饋,這就導(dǎo)致整個(gè)交互過程中信息量是浮動(dòng)變化的。與此同時(shí),輿情監(jiān)管的本質(zhì)是對(duì)社交網(wǎng)絡(luò)言論、話題等信息進(jìn)行的監(jiān)測(cè)和管理過程,監(jiān)管的直接對(duì)象是信息本身,而非用戶情感分布,文章所提信息交互度以信息本身內(nèi)涵為主導(dǎo),通過浮動(dòng)變化的信息量大小量化話題的信息價(jià)值來衡量話題的熱議程度,不但充分體現(xiàn)了信息的主體效應(yīng),而且能更貼切、更直接地服務(wù)于網(wǎng)絡(luò)監(jiān)管人員對(duì)輿論導(dǎo)向和謠言時(shí)機(jī)的精準(zhǔn)把控。因此,本文充分考慮社交網(wǎng)絡(luò)用戶與網(wǎng)絡(luò)話題信息在信息傳播過程中存在的交互關(guān)系,并將情感分析與信息交互行為相關(guān)聯(lián),從定量的角度出發(fā),對(duì)基于用戶信息行為的交互過程進(jìn)行量化計(jì)量,進(jìn)而為互聯(lián)網(wǎng)監(jiān)管部門以及網(wǎng)絡(luò)的健康文明發(fā)展提供行之有效的度量參考。
本文從定量的角度分析社交網(wǎng)絡(luò)話題信息與用戶的交互關(guān)系,通過融入用戶主體的情感傾向構(gòu)建信息交互度這一計(jì)量概念,以明確的信息交互度數(shù)值變化,厘清社交網(wǎng)絡(luò)話題的輿情演化趨勢(shì),具體研究框架如圖1所示。
圖1 社交網(wǎng)絡(luò)信息交互度計(jì)量模型研究框架
3.1.1 文本關(guān)鍵詞提取
本文所分析的實(shí)驗(yàn)數(shù)據(jù),是長(zhǎng)短不一的文本內(nèi)容,所以文章首先通過“結(jié)巴”中文分詞組件對(duì)獲取的微博話題評(píng)論內(nèi)容進(jìn)行分詞處理,同時(shí)進(jìn)行去除停用詞處理,再結(jié)合TF-IDF(term frequency-in‐verse document frequency)算法計(jì)算分詞之后的特征詞的權(quán)重,以獲取樣本數(shù)據(jù)的標(biāo)簽集合。
TF-IDF算法作為一種測(cè)算特征詞權(quán)重的算法,常被應(yīng)用于度量某個(gè)具體詞條在一個(gè)既定文本中的作用程度[34]。TF-IDF算法中TF(term frequency)叫作詞頻,IDF(inverse document frequency)叫逆文檔頻率,計(jì)算結(jié)果為
其中,Ni表示一條評(píng)論中某一個(gè)詞出現(xiàn)的次數(shù);Nn表示當(dāng)前評(píng)論中所有詞的個(gè)數(shù);Dn表示所有有效評(píng)論的總數(shù);Di表示具有該詞的評(píng)論數(shù)目。
3.1.2 改進(jìn)的文本語(yǔ)詞相似度計(jì)算
上文通過TF-IDF算法抽取每一條用戶評(píng)論數(shù)據(jù)的若干關(guān)鍵詞,形成了相應(yīng)的關(guān)鍵詞集合。若針對(duì)所得集合直接進(jìn)行評(píng)論傾向分析,由于未厘清數(shù)據(jù)樣本間的潛在關(guān)系,則難以獲取準(zhǔn)確的評(píng)論視角類別。為深入探析數(shù)據(jù)樣本的內(nèi)在聯(lián)系,本文在原始Ochiai系數(shù)的基礎(chǔ)上,提出了改進(jìn)的文本語(yǔ)詞相似度計(jì)算方法,進(jìn)而確定數(shù)據(jù)樣本的相似度矩陣,為下文的聚類分析奠定基礎(chǔ)。原始Ochiai系數(shù)計(jì)算公式為
其中,F(xiàn)ij表示特征詞i與特征詞j在文本中共同出現(xiàn)的頻數(shù);Fi表示特征詞i出現(xiàn)的頻數(shù);Fj表示特征詞j出現(xiàn)的頻數(shù)。原始Ochiai系數(shù)在計(jì)算語(yǔ)詞文本相似度時(shí)過于強(qiáng)調(diào)公共詞條的詞頻情況,然而公共詞頻數(shù)的高低并不能準(zhǔn)確反映該詞在文本中的作用程度,存在一定的局限性。因此,本文綜合各詞條在文本中的重要度,提出一種改進(jìn)Ochiai系數(shù)的語(yǔ)詞文本相似度計(jì)算方法,即
其中,F(xiàn)j′/Fi與Fi′/F分別表示j詞條對(duì)于i的重要度以及i詞條對(duì)于j的重要度。
密度峰值聚類是一種基于數(shù)據(jù)點(diǎn)密度屬性進(jìn)行數(shù)據(jù)分析的聚類算法,該算法于2014年發(fā)表于Sci‐ence雜志[35]。密度峰值聚類算法能夠高效快速發(fā)現(xiàn)數(shù)據(jù)樣本的密度分布,不局限于單一類型數(shù)據(jù)樣本的聚類分析,相較于傳統(tǒng)基于劃分,基于層次等聚類算法,具有明顯的優(yōu)勢(shì)。該算法主要遵循以下兩個(gè)重要基本原則:①任意數(shù)據(jù)樣本點(diǎn)均存在局部密度,而聚類中心則處于局部密度較低的近鄰點(diǎn)中間;②針對(duì)余下數(shù)據(jù)點(diǎn)中存在局部密度較高的樣本,聚類中心與該點(diǎn)的距離相對(duì)更大。
首先,算法計(jì)算數(shù)據(jù)點(diǎn)i與數(shù)據(jù)點(diǎn)j的歐幾里得距離,即
其次,針對(duì)任意數(shù)據(jù)點(diǎn)i的局部密度,存在
最后,在算法對(duì)數(shù)據(jù)樣本點(diǎn)進(jìn)行聚類分析時(shí),還需計(jì)算距離變量:
其中,δi表示數(shù)據(jù)點(diǎn)i與密度較高的樣本點(diǎn)之間的最小距離。
本文認(rèn)為,一個(gè)話題信息在用戶的接收和再傳播過程中,原始信息由于形成了與用戶之間的交互關(guān)系,進(jìn)而產(chǎn)生了以用戶情感為載體的附加價(jià)值。信息的附加價(jià)值實(shí)際上就是由于交互過程中,用戶基于自身的文化背景、性格以及喜好等因素所產(chǎn)生對(duì)話題信息的不同解讀視角,并以不同情感傾向作為信息反饋所得的信息價(jià)值。因此,對(duì)于本文所論述的信息交互度概念主要有如下定義。
定義1:信息具備自身的內(nèi)在價(jià)值以及面向?qū)ο蟮氖褂脙r(jià)值[36],根據(jù)馬捷等[6]所提出信息交互行為的相關(guān)概念,可以認(rèn)為用戶在信息交互過程中,針對(duì)話題信息所表達(dá)的情感宣泄展現(xiàn)了該信息的使用價(jià)值。因此,信息交互度是指社交網(wǎng)絡(luò)用戶在獲取熱點(diǎn)話題信息使用價(jià)值的過程中,針對(duì)所獲取的信息使用價(jià)值形成自身情感反饋,并以此情感反饋衡量話題熱議程度以及監(jiān)測(cè)輿情演化趨勢(shì)的量化概念。
由上文定義可知,當(dāng)社交網(wǎng)絡(luò)話題信息交互度越高時(shí),話題所具備的信息量越大,話題的熱議程度則越高;反之,則話題的熱議程度越低。綜合上述內(nèi)容,通過借鑒已有學(xué)者關(guān)于信息價(jià)值的度量研究[36],構(gòu)建出本文所研究的信息交互度計(jì)量模型,基本思路如圖2所示。
圖2 信息交互度計(jì)量模型思路圖
受徐健等[21]進(jìn)行情感分歧度算法研究的啟發(fā),本文引入方差加權(quán)信息熵的策略進(jìn)行信息交互度的量化研究。方差作為衡量隨機(jī)變量與期望值之間的離散程度,在文章中用來反映不同情感極性值與平均情感之間的波動(dòng)情況,當(dāng)方差越大時(shí),說明該話題下社交網(wǎng)絡(luò)用戶的情感反饋差別越大,因此,更容易對(duì)輿情的發(fā)展產(chǎn)生不良的導(dǎo)向影響。信息熵是用來度量話題信息所包含的信息量大小,對(duì)于社交網(wǎng)絡(luò)話題而言,該話題的信息熵越高,話題所蘊(yùn)含的信息量越大,更容易引起社交網(wǎng)絡(luò)用戶交互行為的產(chǎn)生。因此,本文將方差加權(quán)信息熵理論作為信息交互度計(jì)算的基本思想,信息熵的基本概念模型為
其中,H表示信息熵;pi表示某一個(gè)隨機(jī)事件的概率分布。對(duì)于本文所提基于方差加權(quán)信息熵的信息交互度計(jì)量模型具體表示為
其中,PComScorei表示第i條評(píng)論的情感極性值出現(xiàn)的概率;n表示不同情感極性值的個(gè)數(shù);Dtopic表示該話題所有評(píng)論的情感極性值的方差。max(ItDopic)表示所計(jì)算的方差加權(quán)信息熵的最大值;Rn(θ)表示一個(gè)影響因子余項(xiàng),余項(xiàng)的作用是將所有信息交互度計(jì)算結(jié)果歸一化到(0,1)區(qū)間。ComScorei表示第i條評(píng)論的情感極性數(shù)值;E(topic)表示該話題所有評(píng)論的情感極性值的期望值。
由上述公式可知,當(dāng)NtDopic越大時(shí),話題的信息交互度越高,則反映話題能引起的熱議程度越高;反之,則話題能引起的熱議程度越低。這恰好符合實(shí)際情況中對(duì)交互概念的理解,用戶信息的交互度越高,說明用戶所獲取話題信息的使用價(jià)值實(shí)現(xiàn)增值,即用戶更容易產(chǎn)生情感反饋進(jìn)行情感宣泄。因此,本文所提信息交互度的概念正好可以用來說明話題信息的熱議程度。
為驗(yàn)證所提信息交互度概念在量化分析熱點(diǎn)話題受熱議程度以及輿情演化趨勢(shì)方面的有效性,本文通過選取新浪微博熱搜話題的真實(shí)用戶評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),采用上文所述信息交互度計(jì)量模型計(jì)算該社交網(wǎng)絡(luò)話題的信息交互度,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。
2020年7月5日,“杭州來女士神秘失蹤”案件發(fā)生后,該案件引起了網(wǎng)絡(luò)用戶的持續(xù)關(guān)注,一時(shí)間“來女士去哪兒了”成為了微博熱搜話題。本文選取頭條新聞、央視新聞、澎湃新聞、新浪新聞等官方微博發(fā)布的相關(guān)話題內(nèi)容的用戶真實(shí)評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)源,并利用爬蟲工具從該話題用戶評(píng)論內(nèi)容中爬取7月18日—7月25日共計(jì)26932條評(píng)論數(shù)據(jù),爬取的內(nèi)容字包括用戶ID、評(píng)論內(nèi)容和點(diǎn)贊數(shù)等,實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表1所示。
通常情況下孕婦的生產(chǎn)方式有兩種:自然分娩和剖腹產(chǎn)分娩,分娩過程中會(huì)產(chǎn)生出血現(xiàn)象,一般我們認(rèn)為難治性婦產(chǎn)科大出血是指自然分娩出血超過500ml,剖腹產(chǎn)分娩出血超過1000ml的情況。其中自然分娩的產(chǎn)婦分娩后的出血癥狀比較不易被察覺,因?yàn)轫槷a(chǎn)過程中胎兒通過產(chǎn)道產(chǎn)出以后,產(chǎn)婦會(huì)產(chǎn)生子宮收縮乏力的情況,這時(shí)胎盤的血竇不能及時(shí)閉合,就會(huì)有大出血的現(xiàn)象發(fā)生。若產(chǎn)婦分娩后陰道血流量達(dá)到200ml,該產(chǎn)婦患此病的幾率將大大增加,由于在收集或?qū)崪y(cè)的過程中,會(huì)造成產(chǎn)婦流失不必要的血流,一般狀況下產(chǎn)婦的估測(cè)失血量?jī)H占實(shí)際失血量的二分之一,所以很容易發(fā)生分娩后出血的狀況,所以通常情況下沒有引起重視。
表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表
4.2.1 文本特征詞權(quán)重計(jì)算
為將微博用戶的文字評(píng)論內(nèi)容進(jìn)行聚類分析處理,本文采用了TF-IDF算法對(duì)實(shí)驗(yàn)內(nèi)容進(jìn)行了特征權(quán)重的計(jì)算。所獲取的評(píng)論字段中存在一些與該話題內(nèi)容相關(guān)性較低的文本數(shù)據(jù),比如,微博ID為7152678733發(fā)布的符號(hào)評(píng)論,微博ID為5643869270發(fā)布的廣告評(píng)論等,針對(duì)這些與需求信息不相關(guān)的內(nèi)容字段,本文將進(jìn)行篩選過濾處理。通過篩選之后的剩余數(shù)據(jù)樣本為22163條,對(duì)預(yù)處理后的文本內(nèi)容再進(jìn)行分詞處理以及去停用詞處理,得出情感詞、否定詞以及程度副詞等,再利用TF-IDF算法計(jì)算出分詞之后的TF*IDF值。將計(jì)算所得的TF*IDF值權(quán)重集合通過第3.1.2節(jié)中所提出的改進(jìn)文本語(yǔ)詞相似度計(jì)算方法以形成相似度矩陣,進(jìn)而進(jìn)行密度峰值算法的聚類分析。
4.2.2 基于密度峰值算法的聚類分析
本文利用MATLAB軟件進(jìn)行聚類分析,在計(jì)算得出相似度矩陣后,將矩陣代入到密度峰值聚類算法中作為實(shí)驗(yàn)輸入。針對(duì)實(shí)驗(yàn)樣本數(shù)據(jù),聚類中心選取的決策圖如圖3所示,根據(jù)上文所論述的密度峰值聚類算法原理,通過判斷γ值大小,選取具有局部密度值和距離均相對(duì)較大的數(shù)據(jù)樣本點(diǎn)作為聚類中心點(diǎn),γ值的計(jì)算公式為
圖3 數(shù)據(jù)樣本聚類中心決策圖
γ值越大,該點(diǎn)成為聚類中點(diǎn)的可能性就越大;同時(shí),根據(jù)圖4可知,非聚類中心點(diǎn)的γ值處于平緩趨勢(shì)。
圖4 γ數(shù)值變化趨勢(shì)圖
結(jié)合上文對(duì)解讀視角的聚類分析可知,對(duì)于評(píng)論數(shù)據(jù),社交網(wǎng)絡(luò)用戶所進(jìn)行的解讀視角或話題的主體對(duì)象主要分為3類:“丈夫”“來女士”和“警察”,所有評(píng)論內(nèi)容基本圍繞這3類對(duì)象展開,根據(jù)每一類對(duì)象的高頻詞進(jìn)行可視化分析,具體如圖5所示。
圖5 3類主體對(duì)象可視化展示圖
表2 7月18日—7月25日各主體對(duì)象信息交互度計(jì)算結(jié)果
圖6 各主體對(duì)象信息交互度可視化展示圖
本文融合情感元素提出信息交互度概念旨在實(shí)現(xiàn)輿情的量化分析,通過具象的數(shù)值變化反應(yīng)社交網(wǎng)絡(luò)輿情的演化趨勢(shì),為互聯(lián)網(wǎng)相關(guān)部門提供一種新的輿情評(píng)判視角。從圖6可以明顯看出,3類主體對(duì)象中,“警察”主體的信息交互度最低,一方面,是因?yàn)樵谑录钠鹗茧A段,社交網(wǎng)絡(luò)用戶的注意焦點(diǎn)更多的聚集于案件的當(dāng)事人,即失蹤的來女士身上,而警察作為案件的偵查人員及通報(bào)人員,用戶認(rèn)為相關(guān)調(diào)查行為均為警察自身任務(wù)所在,因此不會(huì)過多聚焦于警察主體。另一方面,由于案件進(jìn)展相對(duì)緩慢,結(jié)合圖5的詞云可視化也可以得出,用戶對(duì)警察更多持以懷疑、不理解的情感認(rèn)知,因此,與警察相關(guān)的語(yǔ)詞文本是“猶豫”“浪費(fèi)警力”“遲疑”“效率低下”等。
對(duì)于“丈夫”主體而言,結(jié)合圖5的詞云可視化,網(wǎng)絡(luò)用戶對(duì)于這一主體的情感傾向由懷疑向指責(zé)發(fā)展,與此同時(shí),由于眾多網(wǎng)絡(luò)用戶始終認(rèn)為來女士的神秘失蹤與丈夫有關(guān),因此,“丈夫”主體的信息交互度均相對(duì)較高。此外,根據(jù)圖6可知7月18日—7月21日“丈夫”主體信息交互度低于“來女士”主體信息交互度;而7月22日—7月25日“丈夫”主體信息交互度又反超“來女士”主體信息交互度,這是因?yàn)樵谄鹗茧A段,來女士的蹤跡更能聚焦用戶的關(guān)注點(diǎn),而隨著時(shí)間的推移,越來越多的證據(jù)顯示是丈夫殺害了來女士,網(wǎng)絡(luò)用戶則開始更多的聚焦于“丈夫”這一主體對(duì)象,結(jié)合圖5的詞云可視化也可以發(fā)現(xiàn)與丈夫相關(guān)的文本更多出現(xiàn)“惡魔”“魔鬼”“有問題”“虛偽”等關(guān)鍵詞。
對(duì)于“來女士”主體,從表2和圖6中可以看出,7月18日—7月21日的3類主體對(duì)象中,“來女士”信息交互度最高,因?yàn)樵诎讣跗冢W(wǎng)絡(luò)用戶對(duì)于“來女士如何突然消失”“來女士到底去哪兒了”這一類的話題充滿興趣,用戶進(jìn)行信息交互的焦點(diǎn)是“來女士”這一主體,這就使得前期的信息交互一直處于較高的程度。然而,隨著案件的深入調(diào)查,來女士的神秘失蹤終于揭開了謎底,網(wǎng)絡(luò)用戶在關(guān)注這一主體的同時(shí),附帶的情感傾向也是由開始的好奇向最終的惋惜和同情發(fā)展,結(jié)合情感分析和圖5的詞云可視化也可以得知,與“來女士”相關(guān)的關(guān)鍵詞文本多為“遺憾”“可憐”“惋惜”等關(guān)鍵詞。
就該話題整體而言,社交網(wǎng)絡(luò)用戶以自身情感反饋?zhàn)鳛樵撛掝}的交互結(jié)果,并將情感值融入信息交互度的概念中,通過信息交互度的變化分析話題的輿情演化趨勢(shì),本文為驗(yàn)證所提概念的有效性,將話題整體的信息交互度變化趨勢(shì)與該話題的百度指數(shù)搜索趨勢(shì)進(jìn)行比較分析,如圖7和圖8所示。根據(jù)圖示內(nèi)容可以知,在7月18日—7月25日該話題生命周期區(qū)間內(nèi),話題整體的信息交互度變化趨勢(shì)與百度指數(shù)的搜索趨勢(shì)總體吻合,這就意味著信息交互度在一定程度上能夠反映社交網(wǎng)絡(luò)熱點(diǎn)話題的輿情演化趨勢(shì)。結(jié)合該案件真實(shí)進(jìn)展,7月23日警方確認(rèn)來女士已經(jīng)遇害,并且嫌疑人為來女士丈夫,這一消息更是聚焦了大量網(wǎng)絡(luò)用戶的注意力,信息交互度與搜索指數(shù)在7月23日均呈現(xiàn)大幅度的上升。與此同時(shí),該話題的信息量更大,網(wǎng)絡(luò)用戶更能產(chǎn)生較強(qiáng)的交互行為,而這就為謠言的傳播或者網(wǎng)絡(luò)爭(zhēng)端事件的發(fā)生提供了可乘之機(jī)。綜合實(shí)際情況也可以得知,7月23日警方也對(duì)多數(shù)網(wǎng)絡(luò)謠言進(jìn)行了辟謠。
圖7 話題整體信息交互度可視化展示圖
圖8 話題信息百度指數(shù)趨勢(shì)圖
綜合來看,通過分析基于用戶情感視角所構(gòu)建的社交網(wǎng)絡(luò)熱點(diǎn)話題信息交互度能夠反映該話題的輿情演化趨勢(shì),同時(shí),量化的數(shù)值變化更能具象化呈現(xiàn)輿情的走勢(shì)發(fā)展,根據(jù)不同階段社交網(wǎng)絡(luò)信息交互度的具體數(shù)值,有利于網(wǎng)絡(luò)監(jiān)管人員對(duì)輿論導(dǎo)向的精準(zhǔn)把控以及謠言散布時(shí)機(jī)的有效預(yù)警,進(jìn)而為互聯(lián)網(wǎng)監(jiān)管部門以及網(wǎng)絡(luò)的健康文明發(fā)展提供行之有效的度量參考。
本文以社交網(wǎng)絡(luò)用戶的交互與信息行為作為基本研究出發(fā)點(diǎn)。在理論層面上,為對(duì)文本數(shù)據(jù)進(jìn)行特征詞提取,結(jié)合了TF-IDF特征詞權(quán)重計(jì)算算法,同時(shí),為將共現(xiàn)矩陣更好地轉(zhuǎn)化為相似性矩陣,本文針對(duì)原始Ochiai系數(shù)存在的局限性,提出了一種改進(jìn)的相關(guān)系數(shù)計(jì)算方法。為實(shí)現(xiàn)對(duì)文本數(shù)據(jù)樣本的聚類分析,一方面,本文引入密度峰值聚類算法,將計(jì)算所得的相似性矩陣輸入到密度峰值聚類算法中,得出該樣本數(shù)據(jù)的聚類決策圖和γ數(shù)值變化圖,進(jìn)而確定該數(shù)據(jù)樣本的聚類中心以及最終的聚類數(shù)目[37-38]。另一方面,為將交互與信息行為研究從量化的角度進(jìn)行分析,本文融合情感元素,定義了信息交互度的基本理念,并引入方差加權(quán)信息熵的策略思想構(gòu)建了信息交互度的概念模型[39]。在實(shí)踐層面上,本文選取“杭州女子失蹤”這一微博話題,通過對(duì)微博用戶的評(píng)論內(nèi)容進(jìn)行信息交互度模型的實(shí)例研究,結(jié)合百度指數(shù)關(guān)鍵詞搜索趨勢(shì)對(duì)信息交互度模型所得的結(jié)果走勢(shì)進(jìn)行佐證,旨在證明該模型的理論可行性和有效性。本文所進(jìn)行的研究,在輿情分析過程中突出信息自身的直接效應(yīng)和主導(dǎo)作用,規(guī)避了以單一情感類別和情感值分布作為輿情分析評(píng)判指標(biāo)容易產(chǎn)生的誤導(dǎo)性,深度契合了以信息本身為直接目標(biāo)對(duì)象的輿情監(jiān)測(cè)過程,對(duì)加強(qiáng)相關(guān)網(wǎng)絡(luò)部門的網(wǎng)絡(luò)信息監(jiān)管,通過信息的量化趨勢(shì)精準(zhǔn)把控話題信息的輿情走向,促進(jìn)互聯(lián)網(wǎng)的健康文明發(fā)展,具有重要的現(xiàn)實(shí)意義。
當(dāng)然,本文也存在一定的局限性。第一,本文采用的TF-IDF算法更注重詞條在文本中的頻數(shù),對(duì)特征詞條內(nèi)部潛在的語(yǔ)義關(guān)系無法更好的體現(xiàn)出來;第二,在將特征詞權(quán)重集合的共現(xiàn)矩陣進(jìn)行相似性矩陣轉(zhuǎn)化時(shí),本文采用的改進(jìn)相似性計(jì)算方法仍存在一定的局限性,這對(duì)后續(xù)聚類分析的結(jié)果精確性會(huì)產(chǎn)生一定的影響;第三,本文的初衷是希望通過對(duì)比百度指數(shù)話題趨勢(shì)線的整體走勢(shì),印證信息交互度在輿情分析中所具有理論可行性與實(shí)踐有效性。另外,百度指數(shù)所呈現(xiàn)的是話題關(guān)鍵字的搜索量,屬于搜索過程的頻數(shù)反饋,強(qiáng)調(diào)的是一種數(shù)量上的趨勢(shì)研究,而本文所提信息交互度量化模型是以信息量大小映射信息價(jià)值,衡量話題熱議程度,承載了人主體(用戶)的情感認(rèn)知反饋,信息量不等于關(guān)鍵字的搜索量,兩者從本質(zhì)上還是存在區(qū)別的。再者,考慮到百度指數(shù)所具有的企業(yè)特殊性和技術(shù)限制性,本文無法在有限的篇幅內(nèi)對(duì)兩者進(jìn)行深入合理的對(duì)比分析。這些將會(huì)在下一步研究中繼續(xù)進(jìn)行完善與改進(jìn)。