黃軒 李熔烽
摘 要:新詞發(fā)現(xiàn)一直是自然語言處理的熱點問題和難點問題之一,為了提取博客語料的新詞,首先對語料進行文中分詞,然后根據(jù)新詞的定義及新詞的“時空”性質(zhì),在詞串統(tǒng)計的基礎(chǔ)上,通過詞出現(xiàn)的頻率,詞分布的密度,上下文分析以及詞在時間域上的變化分析對詞進行過濾;最后通過詞的統(tǒng)計信息和詞性規(guī)則對候選詞進行排序以提高準(zhǔn)確率;在此基礎(chǔ)上建立新詞發(fā)現(xiàn)系統(tǒng)。
關(guān)鍵詞:新詞; 詞串統(tǒng)計; 上下文分析; 分詞; 候選詞
中圖分類號:TN911?34 文獻標(biāo)識碼:A 文章編號:1004?373X(2013)02?0144?03
0 引 言
隨著社會的飛速發(fā)展,尤其是互聯(lián)網(wǎng)的廣泛使用,新詞語不斷地在日常生活中涌現(xiàn)出來。搜集和整理這些新詞語,是中文信息處理中的一個重要研究課題,在中文詞法切分中有著重要的作用。由于對日常生活中的新詞的定義的很模糊,很難得到一個新詞的嚴格定義,在現(xiàn)有研究的基礎(chǔ)上,認為新詞應(yīng)該是滿足以下性質(zhì)的:
(1)新詞從作為一個詞本身上看,應(yīng)該是要可以獨立成詞的;
(2)從新詞的分布空間上來看,新詞應(yīng)該是被廣泛使用,即在使用的語料中應(yīng)該是使用頻率較高,在普遍的文檔中出現(xiàn),被許多作者所使用的詞語。
(3)從新詞的時間性質(zhì)上看,新詞應(yīng)該是想比于之前的某一段時間是新的。這個新具體體現(xiàn)在這個詞語在之前的某一段時間是沒有出現(xiàn)的,或者產(chǎn)生了新的詞義,即“舊詞新用”。
目前,對新詞發(fā)現(xiàn)的研究主要是基于統(tǒng)計和規(guī)則過濾的方法,主要是將新詞的發(fā)現(xiàn)作為一個通過統(tǒng)計結(jié)果和新詞規(guī)則不斷對候選集進行過濾的過程?;谝?guī)則的方法是根據(jù)語言學(xué)只是,比如說詞語的內(nèi)部結(jié)構(gòu),人工的構(gòu)建規(guī)則庫。鄭家恒等人根據(jù)漢語構(gòu)詞法規(guī)則建立新詞的規(guī)則庫,然后對加工后的文本候選串進行新詞過濾[1];基于規(guī)則的方式只是通過考慮詞內(nèi)部構(gòu)成對新詞進行分析,使用人工建立規(guī)則庫的方式僅能在特定的語料庫中得到較好結(jié)果,其泛化性差;而且人工建立規(guī)則的代價大,在規(guī)則數(shù)量多時還有規(guī)則沖突產(chǎn)生。
基于統(tǒng)計的方法鄰接分析,獨立成詞概率,位置成詞概率,互信息等方法,通過新詞的統(tǒng)計信息,過濾候選集合。賀敏等人通過上下文鄰接分析,位置成詞概率以及雙字耦合度來進行過濾[2];施水才等人通過頻率比,互信息以及概率比的方法對新詞過濾[3];林自芳等通過從語料庫中統(tǒng)計詞的內(nèi)部模式,結(jié)合互信息和位置成詞概率對新詞進行過濾[4]?;诮y(tǒng)計的方法雖然能找到大量的新詞,但是同時也產(chǎn)生了大量的垃圾詞串,即基于統(tǒng)計的方法在保證召回率的同時確也降低了準(zhǔn)確率。另外,還有一些研究者[5?9],將新詞發(fā)現(xiàn)看作是一個二類分類問題,同樣使用新詞的統(tǒng)計特征作為分類器的特征向量,使用機器學(xué)習(xí)的方法對候選詞進行分類,從而生成新詞集合。本文采用不斷對候選集過濾,最后得到新詞集合的思路,結(jié)合統(tǒng)計與規(guī)則的方法,根據(jù)新詞的性質(zhì)使用頻度分布過濾,上下文鄰接分詞以及詞串時域上的變化比作為新詞的統(tǒng)計過濾方式,然后根據(jù)統(tǒng)計信息對新詞進行第一次排序,再使用詞性規(guī)則進行第二次排序,如圖1所示。實驗表明,統(tǒng)計過濾方式能有效召回新詞,而排序的方式有助于提高新詞發(fā)現(xiàn)的準(zhǔn)確率。
圖1 博客語料的新詞發(fā)現(xiàn)方法
1 基于統(tǒng)計過濾和規(guī)則排序的新詞發(fā)現(xiàn)方法
1.1 分詞與重復(fù)串統(tǒng)計,以及空間分布過濾
新詞識別的第一步是使用現(xiàn)有的分詞系統(tǒng)進行分詞,根據(jù)分詞結(jié)果統(tǒng)計語料中的串,在實驗中,生成的串的最大長度為4,生成詞串文本。重復(fù)串統(tǒng)計是指統(tǒng)計詞串文本中重復(fù)串的頻率,并根據(jù)閾值進行過濾。在此,根據(jù)新詞的在空間中的性質(zhì),統(tǒng)計每個新詞出現(xiàn)的總次數(shù),作為新詞的出現(xiàn)頻率;統(tǒng)計新詞出現(xiàn)文檔次數(shù),作為新詞的使用頻率。最后通過設(shè)置出現(xiàn)頻率閾值以及使用頻率閾值,初步過濾候選集。在統(tǒng)計串頻率時,同時記錄串的前一個詞以及后一個詞,為接下來的分析做準(zhǔn)備。
1.2 上下文鄰接分析
上下文鄰接分析是分析詞前后的文本關(guān)系,新詞是以前未使用過的詞語,也具有詞語的一般特性,在真實文本中要有一定的流通度,能夠應(yīng)用于多種不同的上下文環(huán)境,而非某種特殊語境下的臨時性組合。為了反映串S的上下文語境靈活程度,給出定義如下概念:
(1)鄰接集合:分為左鄰接集合和右鄰接集合,分別指真實文本中,與串S左邊或者右邊相鄰的元素的集合。元素可以是字、詞等不同粒度的語言單位。
(2)鄰接類別:分為左鄰接類別和右鄰接類別,分別指左右鄰接集合中元素的數(shù)目,他們反映了串S上文和下文語境種類的多少,用符號Vl(S)和Vr(S)來表示。根據(jù)文獻在實驗總?cè)粢栽~為基本單位來計算,例如在語料中統(tǒng)計發(fā)現(xiàn),“珠三”這個串的左鄰接類別高達9,而右鄰接類別僅僅為1,實際上該串的出現(xiàn)完全依賴于另外一個串“珠三角”,因此“珠三”不構(gòu)成詞。這樣進一步對候選集進行過濾。
在此,對候選集合中的每個詞串,根據(jù)詞串的左右鄰接詞語集合,分析上下文鄰接,排除不能獨立成詞的候選串,生成新的候選詞,過濾候選集。
1.3 詞串時域上的變化比
根據(jù)對新詞性質(zhì)的分析,在時域上,新詞是與之前某一時間相比,新出現(xiàn)的詞語或者是“舊詞新用”。因此新詞在時域上存在變化,本文通過定義這個變化,并且依此對候選集進行過濾。本文中將當(dāng)前時間得到的候選集合作為前景,之前某時間的后候選集合作為背景集合,對新詞在時域上的變化定義背景與前景的差異,可以分為以下兩種:
(1)在前景集合中廣泛使用而在背景中使用較少,甚至不存在的;
(2)在前景集合與背景集合的使用頻率相當(dāng),左右鄰接集合存在差異的。
根據(jù)上述分析,在計算頻域變化比時,采用如下算法:
(1)算前景集合中候選詞的頻率比,如果背景集合,不存在該候選詞,則變化比為1;反之,依照式(1)計算頻率比:
(3)分別比較候選詞左右鄰接集合的差異,如果左右鄰接結(jié)合都不存在差異,則認為該候選詞為舊詞,排除該詞,反之則為新詞,其變化比為:左右鄰接集合差的平均值。
鄰接集合的差異定義如下:
鄰接集合差 = 前景鄰接集合與背景鄰接集合的差的個[數(shù)前]景集合的個數(shù)
其中前景鄰接集合與背景鄰接集合的差分為兩種:
(1)前景鄰接集合存在而在背景鄰接集合不存在;
(2)在兩個集合都存在,則比較該詞在對應(yīng)集合中的頻率,如果頻率比閾值則認為存在差異,反之不存在。
2 統(tǒng)計信息排序與詞性規(guī)則排序
經(jīng)過上述分析后,得到的大量的候選詞,在候選詞中找到了許多新詞,但是同樣也存在了許多的垃圾詞匯如:的人、也不、的一、是我、你的等。接下來的工作主要是通過對得到的候選集進行排序,目標(biāo)是使得真正的新詞在排序后能夠出現(xiàn)在候選集序列的前面,從而提高系統(tǒng)的準(zhǔn)確率。排序過程中主要分為兩個過程,首先根據(jù)新詞的空間分布和時間變化信息,對新詞進行排序;在此基礎(chǔ)上,根據(jù)新詞的詞性規(guī)則,對新詞候選集做第二次排序。定義用于第一次的排序的統(tǒng)計信息如下:
統(tǒng)計信息 = 0.5×變換比+0.5×(1-1/候選詞分布的文檔數(shù))
根據(jù)上述統(tǒng)計信息對候選詞進行第一次排序。
在第二次排序中排序依據(jù)定義為變量A,使用詞性規(guī)則分為兩類,定義為正規(guī)則和負規(guī)則。如果新詞符合正規(guī)則,那么變量A增加1×規(guī)則的權(quán)重;如果新詞符合負規(guī)則,那么變量A減小1×規(guī)則的權(quán)重,在實驗中負規(guī)則的權(quán)重均是為1。使用正則表達式來表示規(guī)則。其中,使用的負規(guī)則定義如下:
(1)“[a?z0?9]*d”表示所有以副詞結(jié)尾的詞性序列;
(2)“u[a?z0?9]*”表示所有以助詞開頭的詞性序列;
(3)“[a?z0?9]*u”表示所有以助詞結(jié)尾的詞性序列;
(4)“q[a?z0?9]*”表示所有以量詞起始的詞性序列。
4 結(jié) 語
本文根據(jù)新詞的性質(zhì),結(jié)合現(xiàn)有的方法,提出了一個新的新詞發(fā)現(xiàn)方法。該方法首先通過一系列統(tǒng)計信息對候選詞進行過濾,保證新詞的召回,然后再次基礎(chǔ)上通過使用統(tǒng)計信息和詞性規(guī)則信息對候選集進行排序,從而提高準(zhǔn)確率。
參考文獻
[1] 林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞發(fā)現(xiàn)[J].計算機與現(xiàn)代化,2010(11):56?58.
[2] 賀敏,龔才春,張華平,等.一種基于大規(guī)模語料的新詞識別方法[J].計算機工程與應(yīng)用,2007(21):70?73.
[3] 施水才,俞鴻魁.基于大規(guī)模語料的新詞語識別方法[J].山東大學(xué)學(xué)報:理工版,2006(3):101?103.
[4] 崔世起,劉群.基于大規(guī)模語料的新詞檢測[J].計算機研究與發(fā)展,2006(21):9?13.
[5] 韓燕,姚建民.不限領(lǐng)域的中文新詞的識別研究[J].鄭州大學(xué)學(xué)報:理學(xué)版,2008(3):90?93.
[6] 呂紅良.基于大規(guī)模語料庫的中文新詞識別[J].大連理工大學(xué)學(xué)報,2008(7):49?53.
[7] 賈自艷,史忠植.基于概率統(tǒng)計技術(shù)和規(guī)則方法的新詞發(fā)現(xiàn)[J].計算機工程,2004(20):19?21.
[8] 張海軍,史樹敏.中文新詞識別技術(shù)綜述[J].計算機科學(xué),2010(3):19?22.
[9] 鄒綱,劉洋,劉群.面向Internet的中文新詞語檢測[J].中文信息學(xué)報,2004(6):83?85.