張琪
摘 要:針對(duì)微博評(píng)論文本的情感計(jì)算分析大多以情感詞語(yǔ)為出發(fā)點(diǎn),因此與情感詞語(yǔ)有關(guān)的分析處理已經(jīng)成為情感計(jì)算領(lǐng)域的重點(diǎn)。本文針對(duì)《我不是藥神》電影評(píng)論語(yǔ)料進(jìn)行預(yù)處理,構(gòu)建情感詞匯共現(xiàn)網(wǎng)絡(luò),并對(duì)情感詞匯共現(xiàn)網(wǎng)絡(luò)的統(tǒng)計(jì)學(xué)特征進(jìn)行分析和可視化,包括小世界效應(yīng)、無(wú)標(biāo)度特征、網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)特性、網(wǎng)絡(luò)抗毀性分析。實(shí)證研究結(jié)果表明,《我不是藥神》電影評(píng)論的情感詞匯共現(xiàn)網(wǎng)絡(luò)服從小世界效應(yīng),具有無(wú)標(biāo)度特性,能夠劃分出明顯的社區(qū)結(jié)構(gòu)。
關(guān)鍵詞:情感詞匯共現(xiàn)網(wǎng)絡(luò);小世界特性;無(wú)標(biāo)度特性;社區(qū)特性
中圖分類號(hào):J905 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-5079 (2020) 16-0-02
一、引言
隨著智能手機(jī)的普及和互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)平臺(tái)已經(jīng)成為人們發(fā)表看法、抒發(fā)情感的場(chǎng)所。無(wú)論是對(duì)于中文還是英文文本,詞語(yǔ)都通常作為人類表達(dá)情感的最小單元,所以有關(guān)情感的計(jì)算都以情感詞為基礎(chǔ),篩選情感詞和分析情感詞之間的關(guān)聯(lián)成為情感傾向計(jì)算的一個(gè)主要的方向。
近年來(lái)的研究表明,語(yǔ)言學(xué)的各個(gè)領(lǐng)域都表明具有復(fù)雜網(wǎng)絡(luò)的特性。當(dāng)前,有關(guān)學(xué)者已經(jīng)在詞匯共現(xiàn)網(wǎng)絡(luò)、詞法網(wǎng)絡(luò)以及語(yǔ)義網(wǎng)絡(luò)等方向展開研究,已經(jīng)有了一定的成果,并且大多以情感詞匯為著手點(diǎn)。何天翔[1]基于大規(guī)模語(yǔ)料庫(kù)和同義詞集合構(gòu)建詞—詞、詞—對(duì)象的情感詞網(wǎng),提出了結(jié)合情感詞網(wǎng)的短文本情感分類方法,并將情感分析應(yīng)用在網(wǎng)絡(luò)輿情演化分析中;張向陽(yáng)[2]等人以詞匯共現(xiàn)理論為基礎(chǔ),構(gòu)建評(píng)論的有向網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)的拓?fù)湫再|(zhì)及綜合衡量節(jié)點(diǎn)重要性來(lái)選擇情感分類特征的算法NTFS,效果顯著。本文結(jié)合情感詞匯共現(xiàn)網(wǎng)絡(luò)的統(tǒng)計(jì)學(xué)特征,為情感詞匯的研究提供統(tǒng)計(jì)學(xué)依據(jù)。
二、情感詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建及網(wǎng)絡(luò)特征分析
(一)情感詞篩選
一般情況下,獲取的評(píng)論源數(shù)據(jù)需將原始語(yǔ)料進(jìn)行預(yù)處理,主要包括分詞、詞性篩選、多詞性情感詞處理、詞頻閾值設(shè)置、停用詞過(guò)濾等步驟。
本文選擇利用中科院計(jì)算所的NLPIR中文分詞系統(tǒng)對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注。為改善分詞效果,在利用用戶詞典進(jìn)行分詞時(shí)加入了語(yǔ)料中新詞發(fā)現(xiàn)結(jié)果。將經(jīng)過(guò)詞性篩選、多詞性處理、停用詞過(guò)濾以及詞頻處理后的情感詞納入最終的情感詞匯集合。
(二)情感詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建
在大規(guī)模語(yǔ)料中,若兩個(gè)詞經(jīng)常共同出現(xiàn)(共現(xiàn))在截取的同一單元(如一定詞語(yǔ)間隔/一句話/一篇文檔等)中,則認(rèn)為這兩個(gè)詞在語(yǔ)義上是相互關(guān)聯(lián)的,而且,共現(xiàn)的頻率越高,其相互間的關(guān)聯(lián)越緊密[3]。對(duì)于情感詞而言,情感詞匯的共現(xiàn)可以定義為在一個(gè)文本單元中兩個(gè)情感詞共同出現(xiàn)的情況。根據(jù)情感詞匯集合和情感詞匯共現(xiàn)網(wǎng)絡(luò)的定義,將情感詞定義為網(wǎng)絡(luò)中的節(jié)點(diǎn),兩情感詞之間出現(xiàn)共現(xiàn)情況則定義為這兩個(gè)節(jié)點(diǎn)中存在一條邊,共現(xiàn)的次數(shù)為邊上的權(quán)值,這樣就構(gòu)建出一個(gè)具有N個(gè)節(jié)點(diǎn)的無(wú)向加權(quán)網(wǎng)絡(luò)。
(三)情感詞共現(xiàn)的復(fù)雜網(wǎng)絡(luò)統(tǒng)計(jì)學(xué)特征分析
復(fù)雜網(wǎng)絡(luò)的統(tǒng)計(jì)學(xué)特征主要包括小世界效應(yīng)、無(wú)標(biāo)度特性、社區(qū)結(jié)構(gòu)特性、網(wǎng)絡(luò)抗毀性以及節(jié)點(diǎn)度相關(guān)性,這些特性綜合反映了復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)。
1.小世界效應(yīng)
小世界效應(yīng)來(lái)源于“六度分離”現(xiàn)象,是指若在情感詞共現(xiàn)網(wǎng)絡(luò)中兩個(gè)情感詞匯的平均最短距離隨節(jié)點(diǎn)數(shù)呈對(duì)數(shù)增長(zhǎng)趨勢(shì),則認(rèn)為該網(wǎng)絡(luò)具有小世界特性[4][5]。平均路徑長(zhǎng)度L定義為網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)i和j之間的距離,dij是指連接這兩個(gè)節(jié)點(diǎn)的最短路徑上的邊數(shù)[5],可以表示為:
其中N表示該網(wǎng)絡(luò)的總結(jié)點(diǎn)數(shù)。
2.無(wú)標(biāo)度特性
網(wǎng)絡(luò)的無(wú)標(biāo)度特性是指網(wǎng)絡(luò)中各節(jié)點(diǎn)的度嚴(yán)重不均勻分布,度分布服從冪律分布。節(jié)點(diǎn)i的度ki定義為與該節(jié)點(diǎn)相連接的邊的數(shù)目。大量研究表明,許多實(shí)際網(wǎng)絡(luò)的度分布接近于冪律分布,即:
分布函數(shù)P(k)表示網(wǎng)絡(luò)中度數(shù)為k的節(jié)點(diǎn)的個(gè)數(shù)占節(jié)點(diǎn)總數(shù)的比例。在情感詞匯共現(xiàn)網(wǎng)絡(luò)中,如果節(jié)點(diǎn)的度服從冪律分布,那么可以判定其無(wú)標(biāo)度特性。有時(shí),也會(huì)通過(guò)判別累加度分布是否滿足冪律分布來(lái)分析網(wǎng)絡(luò)的無(wú)標(biāo)度特性,累加度分布函數(shù)P(k)是指節(jié)點(diǎn)度大于k的節(jié)點(diǎn)個(gè)數(shù)占節(jié)點(diǎn)總個(gè)數(shù)的比例[6]。
3.網(wǎng)絡(luò)抗毀性
網(wǎng)絡(luò)抗毀性是指網(wǎng)絡(luò)在受到人為破壞時(shí)表現(xiàn)出的可靠性[7]。測(cè)試網(wǎng)絡(luò)的抗毀性通常有兩種策略,一種是隨機(jī)刪除節(jié)點(diǎn)以觀測(cè)對(duì)網(wǎng)絡(luò)的影響,稱為網(wǎng)絡(luò)的魯棒性分析;另一種是按照一定標(biāo)準(zhǔn)選取網(wǎng)絡(luò)中較為重要的節(jié)點(diǎn)進(jìn)行刪除,觀察網(wǎng)絡(luò)性能指標(biāo)的變化,稱為脆弱性分析。在進(jìn)行網(wǎng)絡(luò)的脆弱性分析時(shí),可以對(duì)節(jié)點(diǎn)的度中心度、介數(shù)中心度、接近度中心度三個(gè)特征參數(shù)的值較大的節(jié)點(diǎn)進(jìn)行選擇性刪除。
網(wǎng)絡(luò)中度大的節(jié)點(diǎn)度中心度高,能夠與更多的節(jié)點(diǎn)直接相連。網(wǎng)絡(luò)的節(jié)點(diǎn)介數(shù)Bi和接近度Cci如公式3和4所示:
其中njk表示節(jié)點(diǎn)j,k的最短路徑的總個(gè)數(shù),njk(i)表示節(jié)點(diǎn)i在節(jié)點(diǎn)j,k的最短路徑上的個(gè)數(shù),dij表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的平均路徑長(zhǎng)度。
4.社區(qū)特性
復(fù)雜網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)依據(jù)其性質(zhì)特征和連接的情況可以將其分為不同的類型,滿足同一類型的節(jié)點(diǎn)以及這些節(jié)點(diǎn)之間的邊所構(gòu)成的子圖稱為網(wǎng)絡(luò)中的社區(qū)。社區(qū)分類算法按照社區(qū)發(fā)現(xiàn)的結(jié)果形式可以分為不可重疊社區(qū)發(fā)現(xiàn)算法和可重疊社區(qū)發(fā)現(xiàn)算法[8]。當(dāng)前針對(duì)不可重疊的社區(qū)的發(fā)現(xiàn)算法包括KL算法、譜平分法、GN算法、凝聚算法和分裂算法、貪心算法FN、Louvain快速社區(qū)發(fā)現(xiàn)算法等;可重疊社區(qū)發(fā)現(xiàn)算法主要包括派系過(guò)濾算法CPM、局部緊密性擴(kuò)張算法LTE以及LFM算法等。
三、實(shí)證分析
(一)數(shù)據(jù)來(lái)源
2018年7月,《我不是藥神》電影上映,該電影在反映了尖銳的社會(huì)現(xiàn)實(shí),引發(fā)了網(wǎng)友的熱議,一度登上熱搜榜。本研究在新浪微博上爬取電影評(píng)論數(shù)據(jù),原始語(yǔ)料的數(shù)據(jù)量共30188條,經(jīng)過(guò)預(yù)處理后,保留了1,078個(gè)情感詞,并構(gòu)建了相應(yīng)的情感詞匯共現(xiàn)網(wǎng)絡(luò)。
(二)情感詞匯共現(xiàn)網(wǎng)絡(luò)的小世界特征分析
由表1可知,情感詞匯共現(xiàn)網(wǎng)絡(luò)的平均路徑長(zhǎng)度與相同規(guī)模的隨機(jī)網(wǎng)絡(luò)的平均路徑長(zhǎng)度相當(dāng),其聚類系數(shù)遠(yuǎn)大于相同規(guī)模的隨機(jī)網(wǎng)絡(luò)的聚類系數(shù),符合小世界效應(yīng)。
(三)情感詞匯共現(xiàn)網(wǎng)絡(luò)的無(wú)標(biāo)度特性分析
圖1是情感詞匯共現(xiàn)網(wǎng)絡(luò)的累加度在雙對(duì)數(shù)坐標(biāo)系下的分布圖,滿足冪律分布特點(diǎn),具有無(wú)標(biāo)度特性。該網(wǎng)絡(luò)中絕大部分節(jié)點(diǎn)的度都相對(duì)較小,即只有極少部分情感詞與其他情感詞聯(lián)系較為緊密,這些能與其他情感詞構(gòu)成緊密聯(lián)系的節(jié)點(diǎn)在網(wǎng)絡(luò)中占據(jù)至關(guān)重要的地位,擁有很高的“權(quán)力”。
(三)情感詞匯共現(xiàn)網(wǎng)絡(luò)的網(wǎng)絡(luò)抗毀性分析
圖2反映表示按照蓄意攻擊和隨機(jī)攻擊的方式刪除節(jié)點(diǎn)對(duì)平均路徑長(zhǎng)度的影響。從圖中可以看出,隨機(jī)刪除節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)指標(biāo)的影響不大,說(shuō)明該網(wǎng)絡(luò)具有一定的魯棒性,其“容錯(cuò)能力”較強(qiáng)。而針對(duì)網(wǎng)絡(luò)的脆弱性分析,刪除節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)的影響呈現(xiàn)先緩慢增長(zhǎng)后急劇增長(zhǎng)的趨勢(shì)。
(四)情感詞匯共現(xiàn)網(wǎng)絡(luò)的社區(qū)特性分析
圖3是情感詞匯共現(xiàn)網(wǎng)絡(luò)的社區(qū)可視化分布圖,該社區(qū)發(fā)現(xiàn)結(jié)果是通過(guò)Louvain快速社區(qū)發(fā)現(xiàn)算法計(jì)算得到,并通過(guò)Gephi軟件將同一社區(qū)的節(jié)點(diǎn)填充相同的顏色,進(jìn)而得到顏色突出顯示的社區(qū)呈現(xiàn)結(jié)果。各社區(qū)中特征參數(shù)較高的節(jié)點(diǎn)如“死” “病魔” “曝光” “天價(jià)藥”等詞語(yǔ)帶有明顯的消極情感傾向,而“無(wú)私” “溫暖”等詞語(yǔ)帶有積極的情感傾向。消極情感詞數(shù)量稍多于情感傾向?yàn)檎那楦性~數(shù)量,可以基本判定本實(shí)驗(yàn)語(yǔ)料的情感傾向偏于負(fù)向。
四、結(jié)論與展望
本文分析了情感詞匯共現(xiàn)網(wǎng)絡(luò)的小世界特性、無(wú)標(biāo)度特性、抗毀性、社區(qū)特性,得出以下結(jié)論:該情感詞匯共現(xiàn)網(wǎng)絡(luò)符合小世界效應(yīng)的特征,具有無(wú)標(biāo)度特性;該網(wǎng)絡(luò)在面臨隨性的攻擊時(shí),表現(xiàn)出較強(qiáng)容錯(cuò)性,但網(wǎng)絡(luò)面臨蓄意攻擊時(shí),其平均路徑長(zhǎng)度明顯增加,說(shuō)明其應(yīng)對(duì)蓄意攻擊或大規(guī)模攻擊時(shí)表現(xiàn)出一定的脆弱性;該網(wǎng)絡(luò)具有明顯的社區(qū)特性,可以劃分成6個(gè)完整的社區(qū),社區(qū)中參數(shù)較高的情感詞節(jié)點(diǎn)的情感傾向反映出該語(yǔ)料整體帶有一定的消極情感。本研究的不足在于受原始評(píng)論語(yǔ)句數(shù)量和規(guī)模的限制,情感詞共現(xiàn)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量和邊數(shù)量相對(duì)較少,下一步將嘗試在更大規(guī)模的原始語(yǔ)料中開展實(shí)證研究。
參考文獻(xiàn):
[1]何天翔,張暉,李波,楊春明,趙旭劍.一種基于情感分析的網(wǎng)絡(luò)輿情演化分析方法[J].軟件導(dǎo)刊,2015,14(05):131-134.
[2]張向陽(yáng),那日薩,孫娜.基于有向網(wǎng)絡(luò)的在線評(píng)論情感傾向性分類[J].情報(bào)科學(xué),2016,34(11):66-69+90.
[3]張紅月.自然災(zāi)害事件的數(shù)據(jù)依賴性研究[D].北京.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院遙感與數(shù)字地球研究所),2018.
[4]齊彬,呂婷.共現(xiàn)分析技術(shù)在生物醫(yī)學(xué)信息文本數(shù)據(jù)挖掘中的應(yīng)用[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2009,18(03):41-43.
[5]余傳明,周丹.情感詞匯共現(xiàn)網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)特性分析[J].情報(bào)學(xué)報(bào),2010,29(5):906-914.
[6]張珂.基于復(fù)雜網(wǎng)絡(luò)理論的BBS回復(fù)網(wǎng)絡(luò)研究[D].北京.首都師范大學(xué),2011.
[7]吳敏.BBS用戶回復(fù)網(wǎng)絡(luò)演化模型及抗毀性研究[D].北京.首都師范大學(xué),2012.
[8]趙麗娜.復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D].北京.首都師范大學(xué), 2014.