亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SVM和特征相關(guān)性的微博新詞發(fā)現(xiàn)研究

2018-02-03 14:12:41韓修龍

電腦知識與技術(shù) 2018年2期

韓修龍

摘要：為了對微博語料中的新詞進(jìn)行有效的識別，針對微博語料獨有的文本特性，該文提出基于SVM和特征相關(guān)性的微博新詞發(fā)現(xiàn)方法。采用N元遞增模型得到候選詞集合以及每個候選詞的基礎(chǔ)特征向量，并結(jié)合已有的詞典和部分人工標(biāo)注進(jìn)行正負(fù)樣本的標(biāo)注。通過相關(guān)性分析構(gòu)造新的候選詞特征，并構(gòu)造新的特征向量。然后利用SVM模型訓(xùn)練得到最大間隔分離超平面并對測試集中的語料進(jìn)行新詞判定。通過對比實驗驗證了該方法的有效性。

關(guān)鍵詞：自然語言處理；新詞識別；支持向量機(jī)

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2018）02-0174-03

1 概述

由于微博用戶的廣泛性和多層次性的特點，許多的新詞[1]會被不斷的創(chuàng)造出來，這些新詞不存在已有的詞典中，在中文分詞等其他的自然語言處理任務(wù)中會造成一定的影響。在新詞發(fā)現(xiàn)領(lǐng)域，常用的方法分為以下三種：基于規(guī)則的方法，基于統(tǒng)計的方法以及規(guī)則和統(tǒng)計相互融合的方法[2]。

在基于規(guī)則的方法中，利用構(gòu)詞原理，結(jié)合詞的語義等信息構(gòu)造模板，通過將候選詞匹配模板來發(fā)現(xiàn)新詞。如李明等[3]利用改進(jìn)后的Apriori算法對實驗數(shù)據(jù)進(jìn)行處理并生成關(guān)聯(lián)規(guī)則，然后利用關(guān)聯(lián)規(guī)則抽取新的專業(yè)詞匯，達(dá)到了很好的效果。

基于統(tǒng)計的方法[4]則是通過不同的方法對語料進(jìn)行切分，得到候選詞，然后統(tǒng)計候選詞的多種維度的特征，然后基于相關(guān)的閥值對候選詞進(jìn)行篩選，得出新詞。陳飛等[7]人利用條件隨機(jī)場模型，解決面向開放領(lǐng)域的新詞發(fā)現(xiàn)問題?，F(xiàn)在大多數(shù)的研究者采用將二者結(jié)合的方法，發(fā)揮各自的優(yōu)點，從而提高新詞發(fā)現(xiàn)的準(zhǔn)確率。

2 相關(guān)工作

2.1 候選詞的選取

傳統(tǒng)的新詞發(fā)現(xiàn)算法往往首先利用相關(guān)的中文分詞工具對語料進(jìn)行分詞，然后對分詞后的散串進(jìn)行統(tǒng)計分析，從其中挖掘出新詞。但是由于微博構(gòu)詞的新穎性、無規(guī)則性等特點，有些新詞是之前存在的詞的對應(yīng)組合，比如“王者農(nóng)藥”，使用分詞工具進(jìn)行分詞的時候會被分成“王者”和“農(nóng)藥”兩個毫無聯(lián)系的詞語，但是這個詞實際上是在微博里流行度很廣的詞。為了避免這種問題，本文不使用現(xiàn)有的分詞工具對語料進(jìn)行分詞。

本文采用的抽取候選詞的方法是常用的N元遞增模型，崔世起通過對大量的語料進(jìn)行研究分析，發(fā)現(xiàn)新詞主要由二到四個漢字組成，所以本文取N的最大值為4，從候選的語料中抽取長度不超過N的連續(xù)字串作為候選詞串。

2.2 候選詞特征選取與計算

本文選取的新詞特征有：

1）互信息（PMI）：Pecina等[13]人的實驗結(jié)果表明PMI能夠很好的衡量字符串之間的結(jié)合程度，本文選取PMI作為候選詞的一個特征。

2）詞頻（TF）：在判斷一個詞是否是新詞時，詞頻也是需要考慮的一個量。一個詞只有在出現(xiàn)達(dá)到一定的次數(shù)后，它才有可能被稱為新詞，所以詞頻也是要考慮的一個特征。

3）鄰接信息熵（BE）：PMI衡量的是詞語內(nèi)部之間的相關(guān)性，即結(jié)合的緊密性，其中鄰接信息熵又分為左鄰接信息熵（LBE）和右鄰接熵（RBE）兩種。

4）鄰接類別（AV）：本文不僅考慮了鄰接信息熵，而且還考慮了候選詞的鄰接類別，其中鄰接類別又分為左領(lǐng)接類別（LAV）和右鄰接類別（RAV）。

除了以上的所說的特征，候選詞的長度（TL）即包含的字的個數(shù)也是一個基本特征。

2.3 語料預(yù)處理

1）實驗數(shù)據(jù)：

通過爬蟲爬取新浪微博2017年5月份的10萬條熱門微博，這些微博涉及不同的版塊，包括社會、科技、教育等，本文不做細(xì)粒度的劃分。

2）數(shù)據(jù)清洗及候選詞提取：

相比于常規(guī)的中文文本語料，微博預(yù)料的文本內(nèi)容極其的雜亂無章。除了正常的中文內(nèi)容外，還有大量的不相關(guān)的干擾項，如表情符號等。

3）正負(fù)樣本標(biāo)注：

當(dāng)獲取候選詞后，需要對這些詞進(jìn)行標(biāo)注，判定新詞與非新詞。然后對標(biāo)注的結(jié)果進(jìn)行訓(xùn)練集和測試集的劃分。

3 實驗結(jié)果

3.1 評價指標(biāo)

對于新詞發(fā)現(xiàn)，一般采用準(zhǔn)確率、召回率、F1值3個指標(biāo)來衡量最終的結(jié)果。

3.2 特征相關(guān)性分析及特征組合的選取

首先針對提取出來9個單獨特征，分析其在新詞識別中與類別的相關(guān)性，然后分析兩兩特征之間的相關(guān)性，選取的是Pearson相關(guān)系數(shù)。圖2展示的是各個單獨特征與類別的相關(guān)性，表1則展示的是各個特征之間的相關(guān)性。

從圖1中可以看出，互信息與是否是新詞的相關(guān)性最大，其次就是詞頻。

從表1中可以看到，各基礎(chǔ)特征之間的相關(guān)性大小有很大的差異。

首先基于以上的基礎(chǔ)特征，比較在不同的核函數(shù)下的分類效果，同時比效基于多種閥值過濾規(guī)則的效果。結(jié)果如圖2所示。通過調(diào)整不同特征下的閥值，得出基于規(guī)則的最好成績，準(zhǔn)確率為0.671，召回率為0.667，F(xiàn)1值為0.669。在使用SVM模型的時候，選取不同的核函數(shù)觀察在不同核函數(shù)下的變化。選用的核函數(shù)是常用的三種，徑向基函數(shù)、多項式函數(shù)、sigmoid函數(shù)，從圖2中可以看出，當(dāng)核函數(shù)為RBF的時候，分類的效果表現(xiàn)的最好。但是三種基函數(shù)在準(zhǔn)確率、召回率、F1值上面都表現(xiàn)的比基于統(tǒng)計的好。

其次基于圖1的相關(guān)性分析，逐步的增加特征數(shù)量，觀察特征數(shù)量的增加對實驗結(jié)果的影響。以RBE和LBE為基線（SVM（B））通過訓(xùn)練得到基礎(chǔ)的結(jié)果以此作為后續(xù)的比較。之后依次增加相關(guān)性強(qiáng)的同類特征，并訓(xùn)練相應(yīng)的模型得出結(jié)果。表2展示的該比較的結(jié)果。從表中可以看到隨著特征的不斷增加，實驗的各種指標(biāo)都在不斷增加，并且增加的比例與相關(guān)性是相關(guān)的，與類別的相關(guān)性越大的特征，提升的性能就越好。endprint

最后，基于表1中特征之間的相關(guān)性分析，本文接下來人工構(gòu)造組合特征。構(gòu)造的特征如下：

（1）內(nèi)部特征和外部特征的組合（IEF）

上面選擇的特征當(dāng)中，AV類和BE類的屬于外部特征，二者描述的是候選詞的上下文特征，而PMI描述的是詞候選詞的內(nèi)部特征，描述的是詞的凝結(jié)程度，因此將這兩類特征結(jié)合在一起作為一個特征，其構(gòu)造方式如公式（1）：

[IEF= AV+BEPMI] （1）

其中AV為LAV和RAV之間的最小值，BE也是LBE和RBE之間的最小值，PMI為PMI_MIN。這樣構(gòu)造的目的是為了衡量外部特征和內(nèi)部特征的相關(guān)性。

（2）候選詞的平均鄰接類別（AAV）

從表1中可以得出，候選詞的詞頻與AV的相關(guān)性最高，將這兩者結(jié)合在一起用AAV描述兩者之間的關(guān)系。其表達(dá)式為（2）：

[AAV= AVTF] （2）

其中AV為LAV和RAV之間的最小值，TF為詞頻。

將上述的兩個特征加進(jìn)候選詞的特征空間，得到的結(jié)果在表2中。通過試驗對比可以看到，SVM在新詞發(fā)現(xiàn)的問題上比傳統(tǒng)的基于規(guī)則的方法在準(zhǔn)確率上提升了5.3%，召回率上提升了11%，F(xiàn)1值上提升了8.1%，當(dāng)加入了IEF和AAV這兩個特征，相比于沒有加入的時候，準(zhǔn)確率、召回率、F1值分別提升了2.75%、2.8%、2.77%。說明基于特征相關(guān)性構(gòu)造的特征可以在一定程度上提升新詞的識別率。

4 結(jié)束語

本文基于微博數(shù)據(jù)，提出一種基于SVM和特征相關(guān)性的微博新詞識別方法。通過不同的對比實驗，基于特征相關(guān)性的方法在一定程度上可以提升新詞識別的準(zhǔn)確率、召回率和F1值，但是此種方法只驗證了候選詞在“1+1”、“2+1”、“2+2”等這些構(gòu)詞模式下的效果，沒有涉及“1+1+1”、“1+2+1”等這些模式，所以下一步的工作是研究本文提出的方法在這些構(gòu)詞模式下的效果。除此之外，在接下來的工作中還會研究本方法在大規(guī)模語料庫上的效果。

參考文獻(xiàn)：

[1] Chen K J， Bai M H. Unknown word detection forChinese by a corpus-based learning method[J]. International Journal of Computational Linguistics and Chinese Language Processing， 1998， 3（1）：27-44.

[2] 宗成慶. 統(tǒng)計自然語言處理[M]. 清華大學(xué)出版社， 2008.

[3] 李明. 針對特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D]. 南京：南京航空航天大學(xué)， 2012.

[4] Pecina P， Schlesinger P. Combining association measures for collocation extraction[C]//Proceedings of the COLING/ACL on Main conference poster sessions. Association for Computational Linguistics， 2006： 651-658.

[5] 丁溪源. 基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D]. 南京理工大學(xué)， 2011.

[6] 李文坤，張仰森，陳若愚. 基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 計算機(jī)應(yīng)用研究， 2015， 32（8）：2302-2304.

[7] 陳飛，劉奕群，魏超等. 基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 軟件學(xué)報， 2013， 24（5）：1051-1060.

[8] 荀恩東，李晟. 采用術(shù)語定義模式和多特征的新術(shù)語及定義識別方法[J]. 計算機(jī)研究與發(fā)展， 2009， 46（1）：62-69.

[9] Pecina P， Schlesinger P. Combining Association Measures for Collocation Extraction[C].// ACL 2006， International Conference on Computational Linguistics and， Meeting of the Association for Computational Linguistics， Proceedings of the Conference， Sydney， Australia， 17-21 July. DBLP， 2006：651-658.

[10] Adankon， Mathias M.， and M. Cheriet. Support Vector Machine. Springer US， 2015.endprint