亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用信息傳播特性的中文網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法

2015-03-07 02:22:18孫立遠(yuǎn)周亞?wèn)|管曉宏1

西安交通大學(xué)學(xué)報(bào) 2015年12期

孫立遠(yuǎn),周亞?wèn)|,管曉宏1,

(1.清華大學(xué)智能與網(wǎng)絡(luò)化系統(tǒng)研究中心, 100084, 北京;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心, 100029, 北京;3.西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室, 710049, 西安)

孫立遠(yuǎn)1,2,周亞?wèn)|3,管曉宏1,3

針對(duì)已有方法識(shí)別出的網(wǎng)絡(luò)中文新詞生命周期短且很快不再為人們所用的問(wèn)題,提出了一種基于信息傳播特性的中文新詞發(fā)現(xiàn)方法。該方法結(jié)合“新詞傳播范圍廣、持續(xù)時(shí)間長(zhǎng)”的特點(diǎn),從用戶覆蓋率、話題覆蓋率和新詞生命周期3個(gè)方面設(shè)計(jì)統(tǒng)計(jì)量;采用N-gram算法得到候選詞串列表;用基于詞頻和詞語(yǔ)靈活度的方法過(guò)濾垃圾詞串。實(shí)驗(yàn)中以微博文本作為語(yǔ)料來(lái)源,與已有方法相比,用戶特性使得新詞識(shí)別的準(zhǔn)確率提高了11%,話題特性使準(zhǔn)確率提高了10%,時(shí)間特性使準(zhǔn)確率提高了13%,綜合用戶、話題和時(shí)間的方法使準(zhǔn)確率提高了16%。實(shí)驗(yàn)結(jié)果表明:該方法中的每個(gè)特性都提高了中文網(wǎng)絡(luò)新詞識(shí)別的準(zhǔn)確率,而且同時(shí)考慮3種特性的準(zhǔn)確率比只考慮單一特性的高。

新詞發(fā)現(xiàn);信息傳播;用戶行為;時(shí)間特性

隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)日益成為社會(huì)信息發(fā)布和語(yǔ)言文化傳播的平臺(tái),由此不斷產(chǎn)生新的網(wǎng)絡(luò)用語(yǔ)和熱門(mén)詞匯。一些認(rèn)同度較高的網(wǎng)絡(luò)新詞逐漸被人們接受,并被擴(kuò)充到漢語(yǔ)詞匯中。由于散落在海量網(wǎng)絡(luò)文本中的網(wǎng)絡(luò)新詞很難僅依靠人工進(jìn)行查找、檢索和統(tǒng)計(jì),因此如何快速有效地自動(dòng)檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)并發(fā)現(xiàn)新詞是一項(xiàng)亟需解決的問(wèn)題。

目前,學(xué)術(shù)界對(duì)新詞的定義尚不統(tǒng)一。有研究認(rèn)為,只要是以前沒(méi)有出現(xiàn)過(guò)的詞就是新詞[1-5]。但是,在這樣的定義下識(shí)別出的新詞絕大部分從出現(xiàn)到消失總的存在時(shí)間不超過(guò)5 d,生命周期很短;只有0.80%的新詞生命周期達(dá)到26 d以上,能夠被廣泛使用[3]。因此,考慮到信息傳播的特性,本文將存在時(shí)間久、使用范圍廣泛也作為判斷新詞的標(biāo)準(zhǔn)。

中文新詞發(fā)現(xiàn)方法一般包括2個(gè)步驟:一是劃分文本生成候選詞串,這是因?yàn)橹形奈谋局性~與詞之間沒(méi)有明確的邊界;二是從候選詞串中發(fā)現(xiàn)新詞。

對(duì)于第一步劃分文本生成侯選詞串,大多數(shù)方法采用概率詞法分析系統(tǒng)(例如ICTCLAS等中文分詞軟件[2])或是基于詞典查找的方法,但是這種方法創(chuàng)建和維護(hù)詞典困難,而且因?yàn)樾略~并不在詞典中,所以由基于詞典的分詞方法產(chǎn)生的候選詞串不一定包括所有可能的新詞,造成查全率的損失。

對(duì)于第二步從候選詞串中發(fā)現(xiàn)新詞,目前主要有兩類(lèi)方法:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[1]?；谝?guī)則的方法是指結(jié)合構(gòu)詞法、語(yǔ)義、詞性等語(yǔ)言學(xué)特征創(chuàng)建匹配模板發(fā)現(xiàn)新詞[6-7]。這類(lèi)方法的優(yōu)點(diǎn)是準(zhǔn)確率高,但是規(guī)則維護(hù)困難,且適應(yīng)性和移植性較差?；诮y(tǒng)計(jì)的方法一般通過(guò)定義統(tǒng)計(jì)量將新詞發(fā)現(xiàn)看做模式識(shí)別的二分類(lèi)問(wèn)題,其中兩個(gè)類(lèi)別分別代表“是新詞”和“不是新詞”。根據(jù)有無(wú)訓(xùn)練語(yǔ)料,基于統(tǒng)計(jì)的方法可以分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法首先提取語(yǔ)料中的詞項(xiàng)特征,然后訓(xùn)練分類(lèi)器判斷是否是新詞,這類(lèi)方法依賴于訓(xùn)練語(yǔ)料和分類(lèi)器設(shè)計(jì);無(wú)監(jiān)督的方法由于沒(méi)有訓(xùn)練語(yǔ)料,因而采用設(shè)定統(tǒng)計(jì)量閾值的方法,如果一個(gè)候選詞串滿足統(tǒng)計(jì)量的閾值要求則被看作是新詞。常用的統(tǒng)計(jì)量有詞頻[8]、互信息[9]、上下文信息熵[10]等。這類(lèi)基于統(tǒng)計(jì)的方法,其優(yōu)點(diǎn)是具有很強(qiáng)的適應(yīng)性和可移植性,但是需要大量語(yǔ)料進(jìn)行統(tǒng)計(jì)而且準(zhǔn)確率相對(duì)較低。另外,已有的統(tǒng)計(jì)量并不能體現(xiàn)新詞在傳播范圍和存在時(shí)間上的特點(diǎn)。

本文利用“新詞傳播范圍廣、持續(xù)時(shí)間長(zhǎng)”的特點(diǎn),提出基于信息傳播特性的中文新詞發(fā)現(xiàn)方法。該方法采用N-gram算法得到候選詞串列表,用基于詞頻和詞語(yǔ)靈活度的方法過(guò)濾垃圾詞串,并結(jié)合信息傳播特性從用戶覆蓋率、話題覆蓋率和新詞生命周期3個(gè)方面設(shè)計(jì)統(tǒng)計(jì)量。本文以近年來(lái)非常流行的網(wǎng)絡(luò)微博應(yīng)用為示例,采用微博文本作為語(yǔ)料來(lái)源。

1 基于信息傳播特性的中文網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法

1.1N-gram劃分詞串

因?yàn)槲⒉┪谋镜臅?shū)寫(xiě)風(fēng)格靈活,形成了一些特有的微博表達(dá)方式和使用方法,例如URL、@符和表情符號(hào)等。這些微博表達(dá)方式中一般不包含新詞,所以本文首先對(duì)微博語(yǔ)料內(nèi)容進(jìn)行自動(dòng)預(yù)處理,過(guò)濾掉不包含新詞的部分,以提高后續(xù)步驟的處理效率。其中,URL短鏈接字符串和@用戶名稱采用正則表達(dá)式過(guò)濾,表情字符串采用表情符號(hào)列表過(guò)濾。

為了避免中文分詞軟件查全率不高的缺點(diǎn),本文采用N-gram算法[11]劃分預(yù)處理后的文本,順次將臨近的N個(gè)漢字聚集在一起形成一個(gè)候選詞串?？紤]到新詞至少由2個(gè)漢字組成,而大于5個(gè)漢字的詞語(yǔ)比例非常小,本文設(shè)定閾值Nmax為5。為了提高處理效率,N-gram算法劃分詞串的同時(shí)統(tǒng)計(jì)每個(gè)詞串出現(xiàn)的次數(shù),具體的實(shí)現(xiàn)過(guò)程如下。

輸入預(yù)處理后的語(yǔ)料為T(mén),詞串中的漢字個(gè)數(shù)為N,初始值Nmin,最大值為Nmax

輸出候選詞串集合

步驟1 逐條讀取語(yǔ)料T中的微博,按空格切割成I個(gè)孤島詞串。

步驟2 掃描第i個(gè)孤島詞串,以連續(xù)N個(gè)字符的字符串S為候選,查找候選詞串集合,如果S在候選集合中,則S的頻次加1;如果S不在候選集合中,則將S加入候選集合。

步驟3i=i+1,如果i大于I,轉(zhuǎn)至步驟4,否則轉(zhuǎn)至步驟2。

步驟4N=N+1,如果N>Nmax則退出,否則轉(zhuǎn)至步驟1。

N-gram算法的優(yōu)點(diǎn)是方法簡(jiǎn)單,容易實(shí)現(xiàn),查全率高,能保證所有新詞都在候選詞串中,但缺點(diǎn)是產(chǎn)生大量無(wú)意義的垃圾詞串。

1.2 基于詞頻和詞語(yǔ)靈活度的過(guò)濾方法

本文采用基于詞頻和詞語(yǔ)靈活度的方法過(guò)濾垃圾詞串,以便提高后續(xù)基于統(tǒng)計(jì)的方法的效率。

一個(gè)可以被視為詞的字符串,應(yīng)該會(huì)被廣泛使用,因此在語(yǔ)料中也會(huì)頻繁出現(xiàn)。出現(xiàn)頻率低的詞串不大可能是有意義的詞串。91.4%的候選詞串出現(xiàn)次數(shù)小于等于2,因此本文設(shè)定詞頻過(guò)濾方法的閾值為2。

另外,根據(jù)中文的構(gòu)詞規(guī)則,有些字符不經(jīng)常出現(xiàn)在詞首或詞尾,這些字符被稱為停用字,包括詞首停用字和詞尾停用字。本文利用詞語(yǔ)的靈活度(即每個(gè)字符構(gòu)成詞的概率)和設(shè)定的閾值比較,來(lái)發(fā)現(xiàn)停用字。用c表示待判斷的字符,·表示任意字符,c可能出現(xiàn)在詞首、詞尾或是詞中間,由此定義詞首停用字為

(1)

定義詞尾停用字為

(2)

式中:D(S)表示字符串S在語(yǔ)料中出現(xiàn)的次數(shù);α是字符出現(xiàn)在詞首或詞尾的概率閾值。實(shí)驗(yàn)中設(shè)定閾值為0.1,共抽取出約150個(gè)停用字,包括“是”“的”“了”“們”等。

對(duì)候選詞串過(guò)濾之后,本文采用統(tǒng)計(jì)的方法獲得最終的新詞結(jié)果。

1.3 基于信息傳播特性的統(tǒng)計(jì)方法

本文新詞發(fā)現(xiàn)的目標(biāo)是使用范圍廣、存在時(shí)間長(zhǎng)的未出現(xiàn)過(guò)的詞。結(jié)合信息傳播特性,有如下假設(shè):如果使用某個(gè)詞的用戶數(shù)目越多,則說(shuō)明該詞的使用范圍越廣;如果某個(gè)詞出現(xiàn)在越多的話題中,則說(shuō)明該詞的使用范圍越廣;如果某個(gè)詞在一段時(shí)間內(nèi)的頻度變化是遞增的,則說(shuō)明該詞更有可能長(zhǎng)時(shí)間存在。所以我們從用戶覆蓋率、話題覆蓋率和新詞生命周期3個(gè)方面分別設(shè)計(jì)了用戶特性統(tǒng)計(jì)量、話題特性統(tǒng)計(jì)量和時(shí)間特性統(tǒng)計(jì)量,最后綜合這3個(gè)方面提出了綜合統(tǒng)計(jì)量。

1.3.1 用戶特性統(tǒng)計(jì)量每條微博都有一個(gè)唯一的發(fā)布者,即微博用戶,而一個(gè)用戶可以發(fā)布不止一條微博。同一個(gè)用戶的語(yǔ)言習(xí)慣固定,發(fā)表的微博內(nèi)容在用詞上也有相似性,但是絕大多數(shù)用戶重復(fù)發(fā)帖的數(shù)目不多[12],所以由于同一個(gè)用戶語(yǔ)言使用習(xí)慣帶來(lái)的偏差并不大。可以認(rèn)為使用某個(gè)詞的用戶數(shù)目越多,該詞的使用范圍越廣。

用三元組(w,m,u)表示候選詞w出現(xiàn)在微博m中且微博m的發(fā)布者是用戶u,用二元組(m,u)表示微博m的發(fā)布者是用戶u,設(shè)計(jì)用戶特性統(tǒng)計(jì)量為

(3)

式中:分母表示所有微博語(yǔ)料中不同用戶的數(shù)目;分子表示包含詞w的微博中不同用戶的數(shù)目。

1.3.2 話題特性統(tǒng)計(jì)量如果某個(gè)詞在很多類(lèi)別的話題中出現(xiàn),說(shuō)明該詞的使用范圍很廣。由于每個(gè)類(lèi)別的話題數(shù)目不同,所以先對(duì)各類(lèi)別的話題數(shù)歸一化然后再統(tǒng)計(jì)某個(gè)候選詞的話題特性統(tǒng)計(jì)量數(shù)值。

用三元組(w,m,k)表示候選詞w出現(xiàn)在微博m中且屬于話題k。話題的類(lèi)別用K表示,設(shè)計(jì)話題特性統(tǒng)計(jì)量為

(4)

式中:|{k|k∈K,(w,m,k)}|表示出現(xiàn)詞串w的微博涉及的話題中屬于類(lèi)別K的個(gè)數(shù);D(K)表示類(lèi)別K中話題的總數(shù)。

1.3.3 時(shí)間特性統(tǒng)計(jì)量候選詞串如果存在時(shí)間越久越有可能是新詞,如果候選詞串的詞頻在增長(zhǎng)則更有可能是新詞。考察候選詞串在一段時(shí)間內(nèi)的頻度變化趨勢(shì),通過(guò)評(píng)價(jià)函數(shù)給每個(gè)候選詞串打分,并據(jù)此設(shè)計(jì)時(shí)間特性統(tǒng)計(jì)量。

候選詞w的觀測(cè)區(qū)間為語(yǔ)料中該詞第一次出現(xiàn)的時(shí)間tw,f到該詞最后一次出現(xiàn)的時(shí)間tw,e,則候選詞w的觀測(cè)天數(shù)為nw=tw,e-tw,f+1。第i天的詞頻為ai(i=1,2,…,nw)。定義評(píng)價(jià)函數(shù)為

(5)

時(shí)間特性統(tǒng)計(jì)量定義為觀測(cè)區(qū)間內(nèi)評(píng)價(jià)函數(shù)數(shù)值的和

(6)

1.3.4 綜合統(tǒng)計(jì)量以上3種統(tǒng)計(jì)量從信息傳播特性出發(fā),各有側(cè)重。為了提高新詞發(fā)現(xiàn)的整體準(zhǔn)確率,同時(shí)考慮這3種統(tǒng)計(jì)量,提出了綜合統(tǒng)計(jì)量。由于每個(gè)特性統(tǒng)計(jì)量的取值范圍不同,不能直接相加,所以先對(duì)它們做歸一化,使每個(gè)統(tǒng)計(jì)量的取值都在[0,1]之間。采用如下的歸一化方法

(7)

式中:X∈{U,T,L}分別代表用戶特性統(tǒng)計(jì)量、話題特性統(tǒng)計(jì)量和時(shí)間特性統(tǒng)計(jì)量;Xmin表示變量X的最小取值;Xmax表示變量X的最大取值。

歸一化之后,綜合統(tǒng)計(jì)量為各個(gè)統(tǒng)計(jì)量的和

(8)

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)介紹

利用新浪微博API,隨機(jī)選取新浪微博中粉絲數(shù)較多的賬號(hào)作為采集起點(diǎn),采用“滾雪球”策略,采集了2013年3月1日到2013年5月31日期間這些賬號(hào)發(fā)布的每條微博的ID號(hào)、發(fā)布時(shí)間、發(fā)布人、內(nèi)容等信息,經(jīng)過(guò)去除垃圾微博等預(yù)處理后,構(gòu)建了包括68 754名用戶、107萬(wàn)條微博的原始數(shù)據(jù)集。

通過(guò)識(shí)別每條微博中的話題標(biāo)簽生成研究中需要的話題數(shù)據(jù)集。在新浪微博中,用2個(gè)#標(biāo)識(shí)一個(gè)話題,例如“#雅安地震#”和“#李宇春戛納行#”等。本文首先識(shí)別微博中出現(xiàn)的所有話題標(biāo)簽,共218 619個(gè),其中大部分話題包含的微博數(shù)很少,對(duì)新詞識(shí)別的作用也有限,因此本文進(jìn)一步識(shí)別傳播范圍較廣的熱門(mén)話題數(shù)據(jù)?？紤]到新浪微博會(huì)公布每天的前10個(gè)話題,實(shí)驗(yàn)中選取2013年3月出現(xiàn)的微博數(shù)最多的300個(gè)話題標(biāo)簽,合并屬于同一個(gè)話題的多個(gè)標(biāo)簽,生成話題列表。然后,在全部微博(其中包括未使用#標(biāo)識(shí)但提及某個(gè)話題的微博)中逐個(gè)搜索話題列表中的話題,如果一條微博中出現(xiàn)多個(gè)話題標(biāo)簽,則標(biāo)記第一個(gè)出現(xiàn)的話題標(biāo)簽作為這條微博所屬的話題類(lèi)別。另外,為了觀測(cè)到話題的完整生命周期,實(shí)驗(yàn)中只保留了2013年3月2日以后出現(xiàn)的話題。最后,構(gòu)建了包括36 038名用戶、19.5萬(wàn)條微博、涵蓋106個(gè)最熱門(mén)話題的話題數(shù)據(jù)集。參照新浪微博的話題類(lèi)別劃分方法,將106個(gè)熱門(mén)話題分為5類(lèi),包括社會(huì)新聞?lì)悺V告公關(guān)類(lèi)、網(wǎng)絡(luò)熱點(diǎn)類(lèi)、電影電視類(lèi)和其他類(lèi),見(jiàn)表1。

2.2 實(shí)驗(yàn)設(shè)置

下面介紹實(shí)驗(yàn)所用的評(píng)價(jià)指標(biāo)和基準(zhǔn)方法。

2.2.1 評(píng)價(jià)指標(biāo) 因?yàn)槲⒉?shù)據(jù)量極大,很難標(biāo)注出所有真實(shí)的新詞,所以本文采用無(wú)監(jiān)督的方法,提出基于信息傳播特性的統(tǒng)計(jì)量,對(duì)每個(gè)候選詞打分,分值越高則越有可能是新詞,然后將每個(gè)候選詞的分值從大到小排序,獲得最終的新詞列表。

表1 話題類(lèi)別概況

本文方法和對(duì)比方法的識(shí)別正確率采用了信息檢索領(lǐng)域常用的前N個(gè)結(jié)果的準(zhǔn)確率(P@N)[3]來(lái)計(jì)算,具體來(lái)說(shuō)就是對(duì)各個(gè)方法返回的前N個(gè)新詞結(jié)果進(jìn)行人工判別,判斷‘是新詞’或者’不是新詞’,把‘是新詞’的比例作為前N個(gè)結(jié)果的準(zhǔn)確率。N一般取值100,200,300等(相應(yīng)的表示為P@100,P@200,P@300),以便減少人工標(biāo)注的工作量。

2.2.2 基準(zhǔn)方法本文的基準(zhǔn)方法包括:常見(jiàn)的經(jīng)典統(tǒng)計(jì)量互信息量、鄰接熵,以及最新的基于詞內(nèi)部結(jié)合度和邊界自由度的方法。通過(guò)和基準(zhǔn)方法的對(duì)比,說(shuō)明各方法性能的優(yōu)劣。另外,為了說(shuō)明本文方法的有效性,基準(zhǔn)方法使用的數(shù)據(jù)源和本文方法的數(shù)據(jù)源一致,并采用了相同的預(yù)處理過(guò)程。

基準(zhǔn)1 互信息量MI是衡量?jī)蓚€(gè)事件之間相關(guān)性的信息度量。對(duì)于候選新詞w=c1c2…cn,如果它的兩個(gè)最長(zhǎng)子串wleft=c1c2…cn-1和wright=c2c3…cn的相關(guān)性越高,說(shuō)明w越可能是一個(gè)詞。本文使用文獻(xiàn)[9]的計(jì)算方法,計(jì)算公式如下

(9)

式中:p(w)是詞w在所有候選詞串中出現(xiàn)的概率。

基準(zhǔn)2 鄰接熵BE利用信息熵來(lái)衡量候選新詞w的左鄰字符和右鄰字符的不確定性[10]。不確定性越高,說(shuō)明其上下文環(huán)境越豐富。用字符x和字符y分別表示w的左鄰字符和右鄰字符,則w的左鄰熵Hleft(w)和右鄰熵Hright(w)的計(jì)算方法如下

(10)

(11)

鄰接熵BBE(w)定義為左鄰熵和右鄰熵中較小的

(12)

基準(zhǔn)3 詞內(nèi)部結(jié)合度和邊界自由度ICBF由文獻(xiàn)[13]提出,該方法對(duì)預(yù)處理后的語(yǔ)料進(jìn)行中文分詞,統(tǒng)計(jì)“散串”,并計(jì)算詞內(nèi)部的結(jié)合度(即互信息量),保留詞內(nèi)部結(jié)合度大于閾值的詞語(yǔ),最后計(jì)算詞語(yǔ)的左右邊界自由度(即左鄰熵和右鄰熵),把左右邊界自由度都大于閾值的候選詞作為新詞。在本文的語(yǔ)料上,使用該方法共得到1 982個(gè)新詞。為了更好地與本文方法比較并計(jì)算P@N值,對(duì)于給定的N,從這些新詞中隨機(jī)選擇N個(gè),然后判斷新詞的準(zhǔn)確率,重復(fù)做10次取平均值作為該方法的P@N值。

2.3 結(jié)果分析

實(shí)驗(yàn)中各種方法采用同樣的新浪微博語(yǔ)料來(lái)發(fā)現(xiàn)中文新詞。表2列出了本文方法和基準(zhǔn)方法識(shí)別中文新詞的準(zhǔn)確率。對(duì)比結(jié)果顯示,本文提出的每個(gè)特性都比基準(zhǔn)方法的準(zhǔn)確率高,而且同時(shí)考慮3種特性的準(zhǔn)確率比只考慮單一特性的高。具體來(lái)說(shuō),和基準(zhǔn)方法1-MI相比,用戶特性使得前100個(gè)詞的識(shí)別準(zhǔn)確率提高了11%,話題特性使準(zhǔn)確率提高了10%,時(shí)間特性使準(zhǔn)確率提高了13%,綜合用戶、話題和時(shí)間的方法使準(zhǔn)確率提高了16%;前200個(gè)詞和前300個(gè)詞的識(shí)別準(zhǔn)確率也有類(lèi)似的提高。由于微博中的詞語(yǔ)使用較不規(guī)范,有大量曇花一現(xiàn)的詞語(yǔ),基準(zhǔn)方法中只根據(jù)上下文的文本信息不能有效地甄別詞語(yǔ)使用周期的差別,而且基準(zhǔn)方法中BE比MI的準(zhǔn)確率高,說(shuō)明考慮上下文信息能提高新詞識(shí)別的準(zhǔn)確率。

表2 新詞識(shí)別準(zhǔn)確率的對(duì)比

另外,表2中準(zhǔn)確率最高為36%,并不是很高。這是因?yàn)槲⒉┰~匯的隨機(jī)性比較大,本文在處理過(guò)程中為了保證不漏掉可能的新詞,不得不容忍了大量無(wú)意義詞語(yǔ)的出現(xiàn),因而影響了整體正確率。本文方法的用途是為發(fā)現(xiàn)新詞提供數(shù)據(jù)輸出,以減輕人工從大量文本中篩選的工作量,后期還可以通過(guò)人工的方式提高準(zhǔn)確率。

表3列舉了按統(tǒng)計(jì)量數(shù)值排名前20的結(jié)果中有意義的新詞,這些詞大多是近些年出現(xiàn)的,說(shuō)明本文的中文網(wǎng)頁(yè)新詞自動(dòng)獲取方法能有效地識(shí)別出網(wǎng)絡(luò)新詞。另外,前20個(gè)結(jié)果中兩字詞的準(zhǔn)確率最高,四字詞的準(zhǔn)確率最低。說(shuō)明詞串過(guò)濾步驟中,四字詞的過(guò)濾效果最差,需要研究更有效的詞串過(guò)濾方法。

表3 新詞發(fā)現(xiàn)結(jié)果舉例

3 結(jié) 論

本文利用“新詞傳播范圍廣、持續(xù)時(shí)間長(zhǎng)”的特點(diǎn),提出基于信息傳播特性的中文新詞發(fā)現(xiàn)方法。該方法采用N-gram算法得到候選詞串列表,用基于詞頻和詞語(yǔ)靈活度的方法過(guò)濾垃圾詞串,并結(jié)合信息傳播特性從用戶覆蓋率、話題覆蓋率和新詞生命周期3個(gè)方面設(shè)計(jì)統(tǒng)計(jì)量,實(shí)現(xiàn)針對(duì)微博文本的新詞發(fā)現(xiàn)方法,實(shí)驗(yàn)結(jié)果表明該方法提高了中文網(wǎng)絡(luò)新詞發(fā)現(xiàn)的準(zhǔn)確率。

[1] 張海軍, 史樹(shù)敏, 朱朝勇, 等. 中文新詞識(shí)別技術(shù)綜述 [J]. 計(jì)算機(jī)科學(xué), 2010, 37(3): 6-10. ZHANG Haijun, SHI Shumin, ZHU Zhaoyong, et al. Survey of Chinese new words identification [J]. Computer Science, 2010, 37(3): 6-10.

[2] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法 [J]. 模式識(shí)別與人工智能, 2014, 27(2): 141-145. HUO Shuai, ZHANG Min, LIU Yiqun, et al. New word discovery in microblog content [J]. Pattern Recognition and Artificial Intelligence, 2014, 27(2): 141-145.

[3] 蘇其龍. 微博新詞發(fā)現(xiàn)研究 [D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2013.

[4] 楊輝. 漢語(yǔ)新詞語(yǔ)發(fā)現(xiàn)及其詞性標(biāo)注方法研究 [D]. 上海: 復(fù)旦大學(xué), 2008.

[5] 鄒綱, 劉洋, 劉群, 等. 面向Internet的中文新詞語(yǔ)檢測(cè) [J]. 中文信息學(xué)報(bào), 2004, 18(6): 1-9. ZOU Gang, LIU Yang, LIU Qun, et al. Internet-oriented Chinese new words detection [J]. Journal of Chinese Information Processing, 2004, 18(6): 1-9.

[6] SUI Zhifang, CHEN Yirong. The research on the automatic term extraction in the domain of information science and technology [C]∥Proceedings of the 5th East Asia Forum of Terminology. Beijing, China: China National Institute of Standardization, 2002: 17-21.

[7] HIDEKI I. Japanese named entity recognition based on a simple rule generator and decision tree learning [C]∥Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2001: 314-321.

[8] 羅盛芬, 孫茂松. 基于字串內(nèi)部結(jié)合緊密度的漢語(yǔ)自動(dòng)抽詞實(shí)驗(yàn)研究 [J]. 中文信息學(xué)報(bào), 2003, 17(3): 9-14. LUO Shengfen, SUN Maosong. Chinese word extraction based on the internal associative strength of character strings [J]. Journal of Chinese Information Processing, 2003, 17(3): 9-14.

[9] YE Yunming, WU Qingyao, LI Yan, et al. Unknown Chinese word extraction based on variety of overlapping strings [J]. Information Processing and Management, 2013, 49(2): 497-512.

[10]HUANG J H, POWERS D. Chinese word segmentation based on contextual entropy [C]∥Proceedings of the 17th Asian Pacific Conference on Language, Information and Computation. Piscataway, NJ, USA: IEEE, 2003: 152-158.

[11]孫立遠(yuǎn), 袁睿翕, 卞小丁. 一種中文網(wǎng)頁(yè)新詞自動(dòng)獲取方法: 中國(guó), ZL 200910237979.3 [P]. 2011-06-01.

[12]周亞?wèn)|. 在線社會(huì)網(wǎng)絡(luò)熱點(diǎn)話題識(shí)別與動(dòng)態(tài)傳播建模與分析研究 [D]. 西安: 西安交通大學(xué), 2011.

[13]李文坤, 張仰森, 陳若愚. 基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn) [J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8): 51-55. LI Wenkun, ZHANG Yangsen, CHEN Ruoyu. New word detection based on inner combination degree and boundary freedom degree of word [J]. Application Research of Computers, 2015, 32(8): 51-55.

[本刊相關(guān)文獻(xiàn)鏈接]

楊攀,桂小林,安健,等.利用貝葉斯原理在隱私保護(hù)數(shù)據(jù)上進(jìn)行分類(lèi)的方法.2015,49(4):46-52.[doi:10.7652/xjtuxb 201504008]

李劉強(qiáng),桂小林,安健,等.采用模糊層次聚類(lèi)的社會(huì)網(wǎng)絡(luò)重疊社區(qū)檢測(cè)算法.2015,49(2):6-13.[doi:10.7652/xjtuxb 201502002]

李長(zhǎng)路,王勁林,郭志川,等.兩階段密度意識(shí)子空間聚類(lèi)模型.2014,48(10):108-114.[doi:10.7652/xjtuxb201410017]

李濤,肖南峰.應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法.2014,48(8):67-72.[doi:10.7652/xjtuxb201408012]

陳家旭,唐亞哲,胡成臣,等.延遲容忍網(wǎng)絡(luò)中基于地點(diǎn)偏好的社會(huì)感知多播路由協(xié)議設(shè)計(jì).2014,48(6):13-18.[doi:10.7652/xjtuxb201406003]

張賽,徐恪,李海濤.微博類(lèi)社交網(wǎng)絡(luò)中信息傳播的測(cè)量與分析.2013,47(2):124-130.[doi:10.7652/xjtuxb201302021]

莫同,褚偉杰,李偉平,等.采用超圖的微博群落感知方法.2012,46(11):120-126.[doi:10.7652/xjtuxb201211022]

豆增發(fā),高琳.利用膜粒子群優(yōu)化和信息熵的醫(yī)學(xué)文本特征選擇.2012,46(4):45-51.[doi:10.7652/xjtuxb201204008]

陳剛,蔡遠(yuǎn)利,穆靜,等.海量信息異常檢測(cè)問(wèn)題的異常概率排序算法.2011,45(4):36-40.[doi:10.7652/xjtuxb201104 007]

劉京鑫,孫劍,孟德宇.基于視覺(jué)原理的分類(lèi)算法.2010,44(10):116-119.[doi:10.7652/xjtuxb201010022]

馮少榮,張東站.高效的用戶訪問(wèn)預(yù)測(cè)新算法.2010,44(4):28-33.[doi:10.7652/xjtuxb201004007]

李小虎,杜海峰,莊健,等.基于小世界原理的模型降階優(yōu)化研究.2009,43(1):108-113.[doi:10.7652/xjtuxb200901024]

朱虎明,焦李成.基于免疫記憶克隆的特征選擇.2008,42(6):679-682.[doi:10.7652/xjtuxb200806007]

周亞?wèn)|,孫欽東,管曉宏,等.流量?jī)?nèi)容詞語(yǔ)相關(guān)度的網(wǎng)絡(luò)熱點(diǎn)話題提取.2007,41(10):1142-1145.[doi:10.7652/xjtuxb 200710004]

杜海峰,李樹(shù)茁,Marcus W.Feldman,等.基于先驗(yàn)知識(shí)與模塊性的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)探測(cè)算法.2007,41(6):750-754.[doi:10.7652/xjtuxb200706026]

(編輯武紅江)

A Method of Discovering New Chinese Words from Internet Based on Information Propagation

SUN Liyuan1,2,ZHOU Yadong3,GUAN Xiaohong1,3

(1. Center for Intelligent and Networked Systems, Tsinghua University, Beijing 100084, China;2. National Computer Network Emergency Response Technical Team/Coordination Center, Beijing 100029, China;3. MOE Key Laboratory for Intelligent Networks and Network Security, Xi’an Jiaotong University, Xi’an 710049, China)

A method of discovering new Chinese words from Internet based on information propagation is proposed to solve the problems that the recognizing results of existing methods always have short life cycles and will not be used again in soon. The method combines the characteristics of new words such as widely spreading and long lasting, and three statistics, i.e. coverage rate of users, coverage rate of topics and life cycle of a new word, are defined. TheN-gram algorithm is applied to generate candidates of new words, then the word candidates are filtered bade on word frequency and word flexibility. Experiments with the text of microblogs as corpus and comparisons with the existing methods show that the user statistic enhances the accuracy rate of recognizing new words by 11%, the topic statistic enhances the accuracy rate by 10%, and the time statistic enhances the accuracy rate by 13%. When the three statistics are combined, the accuracy rate is raised by 16%. It can be concluded that each single statistic considered by the proposed method can enhance the accuracy rate, and more accurate rate can be obtained by considering the combination of the three statistics rather than just considering one statistic.

new word discovery; information propagation; user behavior; temporal characteristics

2015-07-10。

孫立遠(yuǎn)(1986—),女,博士生;周亞?wèn)|(通信作者),男,博士,講師。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61221063,61572397,61502383);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃資助項(xiàng)目(2015JM6298)。

時(shí)間:2015-09-21

10.7652/xjtuxb201512010

TP393

0253-987X(2015)12-0059-06

網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20150921.1442.006.html