周拴龍
(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450052)
基于UCINET的詞匯共現(xiàn)網(wǎng)絡(luò)可視化研究
周拴龍
(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450052)
詞匯按照一定規(guī)則相互聯(lián)系形成的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出復(fù)雜網(wǎng)絡(luò)特征。本文首先給出了詞匯共現(xiàn)網(wǎng)絡(luò)的構(gòu)造方法,分析詞匯網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)特征,然后利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類的涌現(xiàn)。
UCINET;詞匯網(wǎng)絡(luò);共現(xiàn);可視化;涌現(xiàn)
近年來,隨著復(fù)雜網(wǎng)絡(luò)研究的不斷深入,人們發(fā)現(xiàn)現(xiàn)實(shí)世界中存在著許多具有相同特征的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如萬維網(wǎng)、社會關(guān)系網(wǎng)、科學(xué)研究合作網(wǎng)絡(luò)、流行病傳播網(wǎng)絡(luò)等,這些網(wǎng)絡(luò)具有與規(guī)則網(wǎng)絡(luò)不同的統(tǒng)計(jì)特性,其中最重要的就是小世界特性和無標(biāo)度特性。研究表明作為自然語言中能夠獨(dú)立活動的最小語義單位的詞匯按照一定規(guī)則相互聯(lián)系形成的網(wǎng)絡(luò)結(jié)構(gòu)按照規(guī)則的層次可分為:共現(xiàn)網(wǎng)絡(luò)、語法網(wǎng)絡(luò)和語義網(wǎng)絡(luò),無論在哪個(gè)層次上都體現(xiàn)出了復(fù)雜網(wǎng)絡(luò)特征。
詞匯網(wǎng)絡(luò)可視化屬于復(fù)雜網(wǎng)絡(luò)可視化的范疇。由于復(fù)雜網(wǎng)絡(luò)規(guī)模很大并且結(jié)構(gòu)復(fù)雜,不但難于組織和管理網(wǎng)絡(luò)中的信息,而且包含在其中非常豐富的信息資源也將難于被發(fā)現(xiàn),可視化技術(shù)提供了有效的方法來理解復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)并從中挖掘有效信息[1]。本文利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,目的在于從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類、文本主題詞的涌現(xiàn)。
2.1 詞匯共現(xiàn)網(wǎng)絡(luò)定義。詞匯的共現(xiàn)網(wǎng)絡(luò)是最簡單的一種自然語言網(wǎng)絡(luò)。在網(wǎng)絡(luò)圖中,每一個(gè)詞匯作為一個(gè)節(jié)點(diǎn),若兩個(gè)詞匯出現(xiàn)在同一個(gè)窗口(句子、段落、篇、領(lǐng)域等)中,則認(rèn)為它們之間有一定相關(guān)關(guān)系,它們之間存在一條邊,邊具有權(quán)值表示兩個(gè)詞匯共現(xiàn)程度的大小。網(wǎng)絡(luò)圖中的邊可以是無向邊也可以是有向邊,分別表示是否忽略詞匯順序情況下的詞匯關(guān)系。根據(jù)圖論知識給出詞匯共現(xiàn)網(wǎng)絡(luò)的定義。
定義1 詞匯共現(xiàn)網(wǎng)絡(luò)
詞匯網(wǎng)絡(luò)WN=<Wd,Rl,Dt>,其中
Wd={w1,w2,…,wn}是一個(gè)非空集合,稱為詞匯集,其中元素Wi(i=1,2,…,n)稱為詞匯節(jié)點(diǎn);
Rl={(wi,wj)|wi,wj∈Wd}是無序集Wd&Wd的子集,稱Rl為WN的詞匯節(jié)點(diǎn)之間共現(xiàn)邊的集合,集合中的元素(wi,wj)稱為共現(xiàn)邊。此時(shí)Rl為忽略了詞匯之間出現(xiàn)順序的共現(xiàn)邊集合,因此,(wi,wj)=(wj,wi)。
D={di|dij∈R∧i,j=1,2,…,n}是實(shí)數(shù)集合的子集,對于任意的共現(xiàn)邊(wi,wj)=都有D中一個(gè)元素且僅有一個(gè)元素dij與之對應(yīng),元素dij稱為共現(xiàn)邊(wi,wj)的權(quán)值。
從定義中可以看出詞匯網(wǎng)絡(luò)屬于標(biāo)定的無向帶權(quán)圖。
從以上定義不難看出詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法主要有三個(gè)步驟:
2.1.1 確定W集合中的詞匯結(jié)點(diǎn)。
2.1.2 確定詞匯結(jié)點(diǎn)之間的共現(xiàn)邊。應(yīng)用窗口機(jī)制選擇一定數(shù)量的詞匯建立詞匯網(wǎng)絡(luò),該窗口可以是一篇文章、某個(gè)時(shí)間段內(nèi)的所有領(lǐng)域文獻(xiàn)、某一個(gè)專題的文獻(xiàn)等,詞匯結(jié)點(diǎn)如果處于同一個(gè)窗口就將兩個(gè)同現(xiàn)的詞匯結(jié)點(diǎn)用共現(xiàn)邊連接起來,得到詞匯網(wǎng)絡(luò)。
2.1.3 確定邊的權(quán)值。最簡單的可以選擇詞匯共現(xiàn)頻率的倒數(shù)作為邊的權(quán)值,共現(xiàn)頻率越大,權(quán)值越小,則表明兩個(gè)詞之間的距離越近。權(quán)值d的計(jì)算公式為:
其中P(wi)表示詞匯集合中詞匯wi出現(xiàn)的概率,P(wj|wi)表示詞匯wi出現(xiàn)的條件下詞匯wj出現(xiàn)的概率,P(wi,wj)表示兩個(gè)詞匯同時(shí)出現(xiàn)的概率。考慮到詞匯出現(xiàn)某一個(gè)窗口是獨(dú)立的,所以公式(1)也可以用以下公式代替:
2.2 網(wǎng)絡(luò)特性分析。詞匯共現(xiàn)網(wǎng)絡(luò)除了具有小世界特性以及無標(biāo)度特性以外,還具有其他一些復(fù)雜網(wǎng)絡(luò)的共同性質(zhì)。
2.2.1 非線性。具有非線性性質(zhì)的系統(tǒng)不服從疊加原理,即兩次獨(dú)立的輸入與兩個(gè)聯(lián)合的輸入產(chǎn)生的系統(tǒng)效果不同,用數(shù)學(xué)公式表示為:f(x1)+f(x2)≠f(x1+x2)。在詞匯網(wǎng)絡(luò)中任意兩個(gè)單獨(dú)出現(xiàn)的詞匯語義之和一定弱于這兩個(gè)詞匯同時(shí)出現(xiàn)的語義,例如在標(biāo)引文獻(xiàn)時(shí),利用兩個(gè)不同的關(guān)鍵詞所標(biāo)引的文獻(xiàn)數(shù)量之和一定多于用兩個(gè)詞共同標(biāo)引的文獻(xiàn)數(shù)量。
2.2.2 存在著社團(tuán)結(jié)構(gòu)。整個(gè)網(wǎng)絡(luò)由若干個(gè)社團(tuán)構(gòu)成,每個(gè)社團(tuán)內(nèi)部的節(jié)點(diǎn)之間的連接相對非常緊密,但是,各個(gè)社團(tuán)之間的連接相對來說卻比較稀疏。詞匯網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)體現(xiàn)在詞聚類上,通常的詞聚類結(jié)果也可以利用復(fù)雜網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)算法獲得。
2.2.3 涌現(xiàn)現(xiàn)象。由于非線性特征,復(fù)雜網(wǎng)絡(luò)中會出現(xiàn)涌現(xiàn)現(xiàn)象,即宏觀行為是在復(fù)雜系統(tǒng)中微觀組件的非線性相互作用下而自發(fā)涌現(xiàn)出來的表現(xiàn)。詞匯網(wǎng)絡(luò)中的單個(gè)詞匯只具有詞匯各自的語義,兩兩詞匯間的關(guān)系只能局限于共現(xiàn)(語法、語義)相關(guān)關(guān)系,但是,作為復(fù)雜網(wǎng)絡(luò)的詞匯網(wǎng)絡(luò)能夠涌現(xiàn)出具有檢索和標(biāo)引功能的關(guān)鍵詞,甚至是具有層次結(jié)構(gòu)的分類。
3.1 UCINET介紹。UCINET6是一款功能全面的復(fù)雜網(wǎng)絡(luò)分析工具,該軟件主要用以分析社會網(wǎng)絡(luò),它包含了相當(dāng)豐富的網(wǎng)絡(luò)分析工具,是社會網(wǎng)絡(luò)分析領(lǐng)域最著名同時(shí)也最為常用的一款網(wǎng)絡(luò)分析軟件包。它能讀取文本文檔(*.txt)和excel文檔(*.exl),能夠?qū)Ρ硎娟P(guān)系的數(shù)據(jù)做中心性分析、子群分析、角色分析和基于置換的統(tǒng)計(jì)分析等這些社會網(wǎng)絡(luò)分析法所包含的主要分析。
3.2 詞匯共現(xiàn)網(wǎng)絡(luò)的可視化過程
3.2.1 采集詞匯和確定共現(xiàn)邊
采集詞匯最直觀的方法是利用分詞算法將窗口(句子、段落、篇、領(lǐng)域等)中具有語法、語義的字串分為獨(dú)立的詞匯,這些詞匯兩兩之間具有相同窗口的共現(xiàn)關(guān)系。
本文實(shí)驗(yàn)選取的數(shù)據(jù)來自中國知網(wǎng)www.cnki.net圖書、情報(bào)與檔案領(lǐng)域的核心期刊文獻(xiàn)。實(shí)驗(yàn)未涉及分詞,為簡單起見僅選取文獻(xiàn)關(guān)鍵詞,并確定窗口為“篇”。這樣確定了同一窗口中詞匯節(jié)點(diǎn)以及節(jié)點(diǎn)間的邊。表1給出7個(gè)窗口中的詞匯節(jié)點(diǎn)。
3.2.2 確定共現(xiàn)邊的權(quán)值。利用CAJViewer中的“搜索”功能查找關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的次數(shù)并計(jì)算其在詞匯集合中出現(xiàn)的頻率。在UCINET6中輸入詞匯矩陣。
3.3 可視化結(jié)果的分析及應(yīng)用
表 1 7個(gè)窗口中的詞匯節(jié)點(diǎn)
圖 1 共現(xiàn)詞匯網(wǎng)絡(luò)可視化結(jié)果
圖 2 詞匯共現(xiàn)網(wǎng)絡(luò)的聚類結(jié)果
詞匯網(wǎng)絡(luò)的可視化結(jié)果。以上數(shù)據(jù)在UCINET6中得到可視化的共現(xiàn)詞匯網(wǎng)絡(luò)圖,如圖1所示。圖中每個(gè)詞匯以節(jié)點(diǎn)表示,出現(xiàn)在同一個(gè)窗口的節(jié)點(diǎn)之間有邊相連,邊上標(biāo)注的數(shù)字是兩點(diǎn)的共現(xiàn)頻率的倒數(shù),作為兩點(diǎn)之間的距離。UCINET允許選擇不同的網(wǎng)絡(luò)顯示方式,圖1是圓形顯示方式。
UCINET針對各種不同的社會網(wǎng)絡(luò)提供中心性分析、子群分析、角色分析和基于置換的統(tǒng)計(jì)分析等分析工具[2]。例如,圖2給出了利用層次聚類法得到的詞匯網(wǎng)絡(luò)中的詞匯聚類結(jié)果,詞匯聚類結(jié)果有助于用戶得到相關(guān)性較高的詞匯簇,在檢索應(yīng)用中,可利用相關(guān)詞匯依次查找,提高查全率。
本文提出了一種建立共現(xiàn)詞匯網(wǎng)絡(luò)的方法,分析了詞匯網(wǎng)絡(luò)所具有社會化網(wǎng)絡(luò)特征,然后利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類的涌現(xiàn)。由于本文主要工作是實(shí)驗(yàn)性的考察該方法的可行性,因此文中所選數(shù)據(jù)量較小,下一步的工作主要集中在數(shù)據(jù)的收集和整理,選擇3 000個(gè)以“篇”為單位的窗口,以此得到更精確的詞匯聚類。
[1]克勞斯.邁因策爾.復(fù)雜性中的思維[M].北京:中央編譯出版社,2000.
[2]約翰.斯科特著,劉軍譯.社會網(wǎng)絡(luò)分析法[M].重慶:重慶大學(xué)出版社,2007.
G203
A
1671-0037(2014)10-74-2
周拴龍(1964-),男,碩士,副教授,研究方向:復(fù)雜網(wǎng)絡(luò)、數(shù)字圖書館。