亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于UCINET的詞匯共現(xiàn)網(wǎng)絡(luò)可視化研究

        2014-07-27 06:20:00周拴龍
        創(chuàng)新科技 2014年20期
        關(guān)鍵詞:網(wǎng)絡(luò)圖權(quán)值可視化

        周拴龍

        (鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450052)

        基于UCINET的詞匯共現(xiàn)網(wǎng)絡(luò)可視化研究

        周拴龍

        (鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450052)

        詞匯按照一定規(guī)則相互聯(lián)系形成的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)出復(fù)雜網(wǎng)絡(luò)特征。本文首先給出了詞匯共現(xiàn)網(wǎng)絡(luò)的構(gòu)造方法,分析詞匯網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)特征,然后利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類的涌現(xiàn)。

        UCINET;詞匯網(wǎng)絡(luò);共現(xiàn);可視化;涌現(xiàn)

        1 引言

        近年來,隨著復(fù)雜網(wǎng)絡(luò)研究的不斷深入,人們發(fā)現(xiàn)現(xiàn)實(shí)世界中存在著許多具有相同特征的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如萬維網(wǎng)、社會關(guān)系網(wǎng)、科學(xué)研究合作網(wǎng)絡(luò)、流行病傳播網(wǎng)絡(luò)等,這些網(wǎng)絡(luò)具有與規(guī)則網(wǎng)絡(luò)不同的統(tǒng)計(jì)特性,其中最重要的就是小世界特性和無標(biāo)度特性。研究表明作為自然語言中能夠獨(dú)立活動的最小語義單位的詞匯按照一定規(guī)則相互聯(lián)系形成的網(wǎng)絡(luò)結(jié)構(gòu)按照規(guī)則的層次可分為:共現(xiàn)網(wǎng)絡(luò)、語法網(wǎng)絡(luò)和語義網(wǎng)絡(luò),無論在哪個(gè)層次上都體現(xiàn)出了復(fù)雜網(wǎng)絡(luò)特征。

        詞匯網(wǎng)絡(luò)可視化屬于復(fù)雜網(wǎng)絡(luò)可視化的范疇。由于復(fù)雜網(wǎng)絡(luò)規(guī)模很大并且結(jié)構(gòu)復(fù)雜,不但難于組織和管理網(wǎng)絡(luò)中的信息,而且包含在其中非常豐富的信息資源也將難于被發(fā)現(xiàn),可視化技術(shù)提供了有效的方法來理解復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)并從中挖掘有效信息[1]。本文利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,目的在于從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類、文本主題詞的涌現(xiàn)。

        2 詞匯共現(xiàn)網(wǎng)絡(luò)及其特性分析

        2.1 詞匯共現(xiàn)網(wǎng)絡(luò)定義。詞匯的共現(xiàn)網(wǎng)絡(luò)是最簡單的一種自然語言網(wǎng)絡(luò)。在網(wǎng)絡(luò)圖中,每一個(gè)詞匯作為一個(gè)節(jié)點(diǎn),若兩個(gè)詞匯出現(xiàn)在同一個(gè)窗口(句子、段落、篇、領(lǐng)域等)中,則認(rèn)為它們之間有一定相關(guān)關(guān)系,它們之間存在一條邊,邊具有權(quán)值表示兩個(gè)詞匯共現(xiàn)程度的大小。網(wǎng)絡(luò)圖中的邊可以是無向邊也可以是有向邊,分別表示是否忽略詞匯順序情況下的詞匯關(guān)系。根據(jù)圖論知識給出詞匯共現(xiàn)網(wǎng)絡(luò)的定義。

        定義1 詞匯共現(xiàn)網(wǎng)絡(luò)

        詞匯網(wǎng)絡(luò)WN=<Wd,Rl,Dt>,其中

        Wd={w1,w2,…,wn}是一個(gè)非空集合,稱為詞匯集,其中元素Wi(i=1,2,…,n)稱為詞匯節(jié)點(diǎn);

        Rl={(wi,wj)|wi,wj∈Wd}是無序集Wd&Wd的子集,稱Rl為WN的詞匯節(jié)點(diǎn)之間共現(xiàn)邊的集合,集合中的元素(wi,wj)稱為共現(xiàn)邊。此時(shí)Rl為忽略了詞匯之間出現(xiàn)順序的共現(xiàn)邊集合,因此,(wi,wj)=(wj,wi)。

        D={di|dij∈R∧i,j=1,2,…,n}是實(shí)數(shù)集合的子集,對于任意的共現(xiàn)邊(wi,wj)=都有D中一個(gè)元素且僅有一個(gè)元素dij與之對應(yīng),元素dij稱為共現(xiàn)邊(wi,wj)的權(quán)值。

        從定義中可以看出詞匯網(wǎng)絡(luò)屬于標(biāo)定的無向帶權(quán)圖。

        從以上定義不難看出詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建方法主要有三個(gè)步驟:

        2.1.1 確定W集合中的詞匯結(jié)點(diǎn)。

        2.1.2 確定詞匯結(jié)點(diǎn)之間的共現(xiàn)邊。應(yīng)用窗口機(jī)制選擇一定數(shù)量的詞匯建立詞匯網(wǎng)絡(luò),該窗口可以是一篇文章、某個(gè)時(shí)間段內(nèi)的所有領(lǐng)域文獻(xiàn)、某一個(gè)專題的文獻(xiàn)等,詞匯結(jié)點(diǎn)如果處于同一個(gè)窗口就將兩個(gè)同現(xiàn)的詞匯結(jié)點(diǎn)用共現(xiàn)邊連接起來,得到詞匯網(wǎng)絡(luò)。

        2.1.3 確定邊的權(quán)值。最簡單的可以選擇詞匯共現(xiàn)頻率的倒數(shù)作為邊的權(quán)值,共現(xiàn)頻率越大,權(quán)值越小,則表明兩個(gè)詞之間的距離越近。權(quán)值d的計(jì)算公式為:

        其中P(wi)表示詞匯集合中詞匯wi出現(xiàn)的概率,P(wj|wi)表示詞匯wi出現(xiàn)的條件下詞匯wj出現(xiàn)的概率,P(wi,wj)表示兩個(gè)詞匯同時(shí)出現(xiàn)的概率。考慮到詞匯出現(xiàn)某一個(gè)窗口是獨(dú)立的,所以公式(1)也可以用以下公式代替:

        2.2 網(wǎng)絡(luò)特性分析。詞匯共現(xiàn)網(wǎng)絡(luò)除了具有小世界特性以及無標(biāo)度特性以外,還具有其他一些復(fù)雜網(wǎng)絡(luò)的共同性質(zhì)。

        2.2.1 非線性。具有非線性性質(zhì)的系統(tǒng)不服從疊加原理,即兩次獨(dú)立的輸入與兩個(gè)聯(lián)合的輸入產(chǎn)生的系統(tǒng)效果不同,用數(shù)學(xué)公式表示為:f(x1)+f(x2)≠f(x1+x2)。在詞匯網(wǎng)絡(luò)中任意兩個(gè)單獨(dú)出現(xiàn)的詞匯語義之和一定弱于這兩個(gè)詞匯同時(shí)出現(xiàn)的語義,例如在標(biāo)引文獻(xiàn)時(shí),利用兩個(gè)不同的關(guān)鍵詞所標(biāo)引的文獻(xiàn)數(shù)量之和一定多于用兩個(gè)詞共同標(biāo)引的文獻(xiàn)數(shù)量。

        2.2.2 存在著社團(tuán)結(jié)構(gòu)。整個(gè)網(wǎng)絡(luò)由若干個(gè)社團(tuán)構(gòu)成,每個(gè)社團(tuán)內(nèi)部的節(jié)點(diǎn)之間的連接相對非常緊密,但是,各個(gè)社團(tuán)之間的連接相對來說卻比較稀疏。詞匯網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)體現(xiàn)在詞聚類上,通常的詞聚類結(jié)果也可以利用復(fù)雜網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)算法獲得。

        2.2.3 涌現(xiàn)現(xiàn)象。由于非線性特征,復(fù)雜網(wǎng)絡(luò)中會出現(xiàn)涌現(xiàn)現(xiàn)象,即宏觀行為是在復(fù)雜系統(tǒng)中微觀組件的非線性相互作用下而自發(fā)涌現(xiàn)出來的表現(xiàn)。詞匯網(wǎng)絡(luò)中的單個(gè)詞匯只具有詞匯各自的語義,兩兩詞匯間的關(guān)系只能局限于共現(xiàn)(語法、語義)相關(guān)關(guān)系,但是,作為復(fù)雜網(wǎng)絡(luò)的詞匯網(wǎng)絡(luò)能夠涌現(xiàn)出具有檢索和標(biāo)引功能的關(guān)鍵詞,甚至是具有層次結(jié)構(gòu)的分類。

        3 詞匯共現(xiàn)網(wǎng)絡(luò)的UCINET可視化

        3.1 UCINET介紹。UCINET6是一款功能全面的復(fù)雜網(wǎng)絡(luò)分析工具,該軟件主要用以分析社會網(wǎng)絡(luò),它包含了相當(dāng)豐富的網(wǎng)絡(luò)分析工具,是社會網(wǎng)絡(luò)分析領(lǐng)域最著名同時(shí)也最為常用的一款網(wǎng)絡(luò)分析軟件包。它能讀取文本文檔(*.txt)和excel文檔(*.exl),能夠?qū)Ρ硎娟P(guān)系的數(shù)據(jù)做中心性分析、子群分析、角色分析和基于置換的統(tǒng)計(jì)分析等這些社會網(wǎng)絡(luò)分析法所包含的主要分析。

        3.2 詞匯共現(xiàn)網(wǎng)絡(luò)的可視化過程

        3.2.1 采集詞匯和確定共現(xiàn)邊

        采集詞匯最直觀的方法是利用分詞算法將窗口(句子、段落、篇、領(lǐng)域等)中具有語法、語義的字串分為獨(dú)立的詞匯,這些詞匯兩兩之間具有相同窗口的共現(xiàn)關(guān)系。

        本文實(shí)驗(yàn)選取的數(shù)據(jù)來自中國知網(wǎng)www.cnki.net圖書、情報(bào)與檔案領(lǐng)域的核心期刊文獻(xiàn)。實(shí)驗(yàn)未涉及分詞,為簡單起見僅選取文獻(xiàn)關(guān)鍵詞,并確定窗口為“篇”。這樣確定了同一窗口中詞匯節(jié)點(diǎn)以及節(jié)點(diǎn)間的邊。表1給出7個(gè)窗口中的詞匯節(jié)點(diǎn)。

        3.2.2 確定共現(xiàn)邊的權(quán)值。利用CAJViewer中的“搜索”功能查找關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的次數(shù)并計(jì)算其在詞匯集合中出現(xiàn)的頻率。在UCINET6中輸入詞匯矩陣。

        3.3 可視化結(jié)果的分析及應(yīng)用

        表 1 7個(gè)窗口中的詞匯節(jié)點(diǎn)

        圖 1 共現(xiàn)詞匯網(wǎng)絡(luò)可視化結(jié)果

        圖 2 詞匯共現(xiàn)網(wǎng)絡(luò)的聚類結(jié)果

        詞匯網(wǎng)絡(luò)的可視化結(jié)果。以上數(shù)據(jù)在UCINET6中得到可視化的共現(xiàn)詞匯網(wǎng)絡(luò)圖,如圖1所示。圖中每個(gè)詞匯以節(jié)點(diǎn)表示,出現(xiàn)在同一個(gè)窗口的節(jié)點(diǎn)之間有邊相連,邊上標(biāo)注的數(shù)字是兩點(diǎn)的共現(xiàn)頻率的倒數(shù),作為兩點(diǎn)之間的距離。UCINET允許選擇不同的網(wǎng)絡(luò)顯示方式,圖1是圓形顯示方式。

        UCINET針對各種不同的社會網(wǎng)絡(luò)提供中心性分析、子群分析、角色分析和基于置換的統(tǒng)計(jì)分析等分析工具[2]。例如,圖2給出了利用層次聚類法得到的詞匯網(wǎng)絡(luò)中的詞匯聚類結(jié)果,詞匯聚類結(jié)果有助于用戶得到相關(guān)性較高的詞匯簇,在檢索應(yīng)用中,可利用相關(guān)詞匯依次查找,提高查全率。

        4 結(jié)語

        本文提出了一種建立共現(xiàn)詞匯網(wǎng)絡(luò)的方法,分析了詞匯網(wǎng)絡(luò)所具有社會化網(wǎng)絡(luò)特征,然后利用復(fù)雜網(wǎng)絡(luò)可視化工具UCINET對詞匯共現(xiàn)網(wǎng)絡(luò)進(jìn)行可視化研究,從可視化網(wǎng)絡(luò)圖中獲取詞匯聚類的涌現(xiàn)。由于本文主要工作是實(shí)驗(yàn)性的考察該方法的可行性,因此文中所選數(shù)據(jù)量較小,下一步的工作主要集中在數(shù)據(jù)的收集和整理,選擇3 000個(gè)以“篇”為單位的窗口,以此得到更精確的詞匯聚類。

        [1]克勞斯.邁因策爾.復(fù)雜性中的思維[M].北京:中央編譯出版社,2000.

        [2]約翰.斯科特著,劉軍譯.社會網(wǎng)絡(luò)分析法[M].重慶:重慶大學(xué)出版社,2007.

        G203

        A

        1671-0037(2014)10-74-2

        周拴龍(1964-),男,碩士,副教授,研究方向:復(fù)雜網(wǎng)絡(luò)、數(shù)字圖書館。

        猜你喜歡
        網(wǎng)絡(luò)圖權(quán)值可視化
        網(wǎng)絡(luò)圖中的45°角
        基于CiteSpace的足三里穴研究可視化分析
        一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        CONTENTS
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        網(wǎng)絡(luò)圖在汽修業(yè)中應(yīng)用
        活力(2019年21期)2019-04-01 12:17:00
        基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
        以知識網(wǎng)絡(luò)圖為主導(dǎo)的教學(xué)模式淺探
        国内露脸少妇精品视频| 青青草免费在线视频导航 | 风流熟女一区二区三区| 亚洲人成人无码www| 亚洲а∨精品天堂在线| www插插插无码视频网站| 国产精品国产三级国产av主| 韩国黄色三级一区二区| 白白白在线视频免费播放| 久久久久免费看成人影片| 依依成人精品视频在线观看| 无码人妻中文中字幕一区二区 | 91短视频在线观看免费| 亚洲av网站首页在线观看| 日韩美腿丝袜三区四区| 在线中文字幕乱码英文字幕正常 | 亚洲精品久久久无码av片软件| 国内精品久久久久久久亚洲 | 久久精品免费视频亚洲| 岳丰满多毛的大隂户| 欧美极品少妇无套实战 | AV无码人妻一区二区三区牛牛| 日本人妻高清免费v片| 在线观看av网站永久| 国产免费av片在线观看| 国产短视频精品区第一页 | 免费av片在线观看网站| 亚洲av粉色一区二区三区| 国产成人一区二区三区影院| 精品伊人久久大线蕉色首页| 国产乱子伦在线观看| 国产亚洲精品国看不卡| 一本色道88久久加勒比精品| 亚洲av不卡无码国产| 91久久精品一区二区| 蜜桃视频一区二区在线观看| 国产人妻精品一区二区三区| 偷拍网日本一区二区三区| 中文字幕亚洲中文第一| 国产成人精品无码片区在线观看| 色五月丁香五月综合五月4438|