亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM和特征相關(guān)性的微博新詞發(fā)現(xiàn)研究

        2018-02-03 14:12:41韓修龍
        電腦知識與技術(shù) 2018年2期
        關(guān)鍵詞:自然語言處理支持向量機(jī)

        韓修龍

        摘要:為了對微博語料中的新詞進(jìn)行有效的識別,針對微博語料獨有的文本特性,該文提出基于SVM和特征相關(guān)性的微博新詞發(fā)現(xiàn)方法。采用N元遞增模型得到候選詞集合以及每個候選詞的基礎(chǔ)特征向量,并結(jié)合已有的詞典和部分人工標(biāo)注進(jìn)行正負(fù)樣本的標(biāo)注。通過相關(guān)性分析構(gòu)造新的候選詞特征,并構(gòu)造新的特征向量。然后利用SVM模型訓(xùn)練得到最大間隔分離超平面并對測試集中的語料進(jìn)行新詞判定。通過對比實驗驗證了該方法的有效性。

        關(guān)鍵詞:自然語言處理;新詞識別;支持向量機(jī)

        中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)02-0174-03

        1 概述

        由于微博用戶的廣泛性和多層次性的特點,許多的新詞[1]會被不斷的創(chuàng)造出來,這些新詞不存在已有的詞典中,在中文分詞等其他的自然語言處理任務(wù)中會造成一定的影響。在新詞發(fā)現(xiàn)領(lǐng)域,常用的方法分為以下三種:基于規(guī)則的方法,基于統(tǒng)計的方法以及規(guī)則和統(tǒng)計相互融合的方法[2]。

        在基于規(guī)則的方法中,利用構(gòu)詞原理,結(jié)合詞的語義等信息構(gòu)造模板,通過將候選詞匹配模板來發(fā)現(xiàn)新詞。如李明等[3]利用改進(jìn)后的Apriori算法對實驗數(shù)據(jù)進(jìn)行處理并生成關(guān)聯(lián)規(guī)則,然后利用關(guān)聯(lián)規(guī)則抽取新的專業(yè)詞匯,達(dá)到了很好的效果。

        基于統(tǒng)計的方法[4]則是通過不同的方法對語料進(jìn)行切分,得到候選詞,然后統(tǒng)計候選詞的多種維度的特征,然后基于相關(guān)的閥值對候選詞進(jìn)行篩選,得出新詞。陳飛等[7]人利用條件隨機(jī)場模型,解決面向開放領(lǐng)域的新詞發(fā)現(xiàn)問題?,F(xiàn)在大多數(shù)的研究者采用將二者結(jié)合的方法,發(fā)揮各自的優(yōu)點,從而提高新詞發(fā)現(xiàn)的準(zhǔn)確率。

        2 相關(guān)工作

        2.1 候選詞的選取

        傳統(tǒng)的新詞發(fā)現(xiàn)算法往往首先利用相關(guān)的中文分詞工具對語料進(jìn)行分詞,然后對分詞后的散串進(jìn)行統(tǒng)計分析,從其中挖掘出新詞。但是由于微博構(gòu)詞的新穎性、無規(guī)則性等特點,有些新詞是之前存在的詞的對應(yīng)組合,比如“王者農(nóng)藥”,使用分詞工具進(jìn)行分詞的時候會被分成“王者”和“農(nóng)藥”兩個毫無聯(lián)系的詞語,但是這個詞實際上是在微博里流行度很廣的詞。為了避免這種問題,本文不使用現(xiàn)有的分詞工具對語料進(jìn)行分詞。

        本文采用的抽取候選詞的方法是常用的N元遞增模型,崔世起通過對大量的語料進(jìn)行研究分析,發(fā)現(xiàn)新詞主要由二到四個漢字組成,所以本文取N的最大值為4,從候選的語料中抽取長度不超過N的連續(xù)字串作為候選詞串。

        2.2 候選詞特征選取與計算

        本文選取的新詞特征有:

        1) 互信息(PMI):Pecina等[13]人的實驗結(jié)果表明PMI能夠很好的衡量字符串之間的結(jié)合程度,本文選取PMI作為候選詞的一個特征。

        2) 詞頻(TF):在判斷一個詞是否是新詞時,詞頻也是需要考慮的一個量。一個詞只有在出現(xiàn)達(dá)到一定的次數(shù)后,它才有可能被稱為新詞,所以詞頻也是要考慮的一個特征。

        3) 鄰接信息熵(BE):PMI衡量的是詞語內(nèi)部之間的相關(guān)性,即結(jié)合的緊密性,其中鄰接信息熵又分為左鄰接信息熵(LBE)和右鄰接熵(RBE)兩種。

        4) 鄰接類別(AV):本文不僅考慮了鄰接信息熵,而且還考慮了候選詞的鄰接類別,其中鄰接類別又分為左領(lǐng)接類別(LAV)和右鄰接類別(RAV)。

        除了以上的所說的特征,候選詞的長度(TL)即包含的字的個數(shù)也是一個基本特征。

        2.3 語料預(yù)處理

        1) 實驗數(shù)據(jù):

        通過爬蟲爬取新浪微博2017年5月份的10萬條熱門微博,這些微博涉及不同的版塊,包括社會、科技、教育等,本文不做細(xì)粒度的劃分。

        2) 數(shù)據(jù)清洗及候選詞提取:

        相比于常規(guī)的中文文本語料,微博預(yù)料的文本內(nèi)容極其的雜亂無章。除了正常的中文內(nèi)容外,還有大量的不相關(guān)的干擾項,如表情符號等。

        3) 正負(fù)樣本標(biāo)注:

        當(dāng)獲取候選詞后,需要對這些詞進(jìn)行標(biāo)注,判定新詞與非新詞。然后對標(biāo)注的結(jié)果進(jìn)行訓(xùn)練集和測試集的劃分。

        3 實驗結(jié)果

        3.1 評價指標(biāo)

        對于新詞發(fā)現(xiàn),一般采用準(zhǔn)確率、召回率、F1值3個指標(biāo)來衡量最終的結(jié)果。

        3.2 特征相關(guān)性分析及特征組合的選取

        首先針對提取出來9個單獨特征,分析其在新詞識別中與類別的相關(guān)性,然后分析兩兩特征之間的相關(guān)性,選取的是Pearson相關(guān)系數(shù)。圖2展示的是各個單獨特征與類別的相關(guān)性,表1則展示的是各個特征之間的相關(guān)性。

        從圖1中可以看出,互信息與是否是新詞的相關(guān)性最大,其次就是詞頻。

        從表1中可以看到,各基礎(chǔ)特征之間的相關(guān)性大小有很大的差異。

        首先基于以上的基礎(chǔ)特征,比較在不同的核函數(shù)下的分類效果,同時比效基于多種閥值過濾規(guī)則的效果。結(jié)果如圖2所示。通過調(diào)整不同特征下的閥值,得出基于規(guī)則的最好成績,準(zhǔn)確率為0.671,召回率為0.667,F(xiàn)1值為0.669。在使用SVM模型的時候,選取不同的核函數(shù)觀察在不同核函數(shù)下的變化。選用的核函數(shù)是常用的三種,徑向基函數(shù)、多項式函數(shù)、sigmoid函數(shù),從圖2中可以看出,當(dāng)核函數(shù)為RBF的時候,分類的效果表現(xiàn)的最好。但是三種基函數(shù)在準(zhǔn)確率、召回率、F1值上面都表現(xiàn)的比基于統(tǒng)計的好。

        其次基于圖1的相關(guān)性分析,逐步的增加特征數(shù)量,觀察特征數(shù)量的增加對實驗結(jié)果的影響。以RBE和LBE為基線(SVM(B))通過訓(xùn)練得到基礎(chǔ)的結(jié)果以此作為后續(xù)的比較。之后依次增加相關(guān)性強(qiáng)的同類特征,并訓(xùn)練相應(yīng)的模型得出結(jié)果。表2展示的該比較的結(jié)果。從表中可以看到隨著特征的不斷增加,實驗的各種指標(biāo)都在不斷增加,并且增加的比例與相關(guān)性是相關(guān)的,與類別的相關(guān)性越大的特征,提升的性能就越好。endprint

        最后,基于表1中特征之間的相關(guān)性分析,本文接下來人工構(gòu)造組合特征。構(gòu)造的特征如下:

        (1) 內(nèi)部特征和外部特征的組合(IEF)

        上面選擇的特征當(dāng)中,AV類和BE類的屬于外部特征,二者描述的是候選詞的上下文特征,而PMI描述的是詞候選詞的內(nèi)部特征,描述的是詞的凝結(jié)程度,因此將這兩類特征結(jié)合在一起作為一個特征,其構(gòu)造方式如公式(1):

        [IEF= AV+BEPMI] (1)

        其中AV為LAV和RAV之間的最小值,BE也是LBE和RBE之間的最小值,PMI為PMI_MIN。這樣構(gòu)造的目的是為了衡量外部特征和內(nèi)部特征的相關(guān)性。

        (2) 候選詞的平均鄰接類別(AAV)

        從表1中可以得出,候選詞的詞頻與AV的相關(guān)性最高,將這兩者結(jié)合在一起用AAV描述兩者之間的關(guān)系。其表達(dá)式為(2):

        [AAV= AVTF] (2)

        其中AV為LAV和RAV之間的最小值,TF為詞頻。

        將上述的兩個特征加進(jìn)候選詞的特征空間,得到的結(jié)果在表2中。通過試驗對比可以看到,SVM在新詞發(fā)現(xiàn)的問題上比傳統(tǒng)的基于規(guī)則的方法在準(zhǔn)確率上提升了5.3%,召回率上提升了11%,F(xiàn)1值上提升了8.1%,當(dāng)加入了IEF和AAV這兩個特征,相比于沒有加入的時候,準(zhǔn)確率、召回率、F1值分別提升了2.75%、2.8%、2.77%。說明基于特征相關(guān)性構(gòu)造的特征可以在一定程度上提升新詞的識別率。

        4 結(jié)束語

        本文基于微博數(shù)據(jù),提出一種基于SVM和特征相關(guān)性的微博新詞識別方法。通過不同的對比實驗,基于特征相關(guān)性的方法在一定程度上可以提升新詞識別的準(zhǔn)確率、召回率和F1值,但是此種方法只驗證了候選詞在“1+1”、“2+1”、“2+2”等這些構(gòu)詞模式下的效果,沒有涉及“1+1+1”、“1+2+1”等這些模式,所以下一步的工作是研究本文提出的方法在這些構(gòu)詞模式下的效果。除此之外,在接下來的工作中還會研究本方法在大規(guī)模語料庫上的效果。

        參考文獻(xiàn):

        [1] Chen K J, Bai M H. Unknown word detection forChinese by a corpus-based learning method[J]. International Journal of Computational Linguistics and Chinese Language Processing, 1998, 3(1):27-44.

        [2] 宗成慶. 統(tǒng)計自然語言處理[M]. 清華大學(xué)出版社, 2008.

        [3] 李明. 針對特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D]. 南京: 南京航空航天大學(xué), 2012.

        [4] Pecina P, Schlesinger P. Combining association measures for collocation extraction[C]//Proceedings of the COLING/ACL on Main conference poster sessions. Association for Computational Linguistics, 2006: 651-658.

        [5] 丁溪源. 基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D]. 南京理工大學(xué), 2011.

        [6] 李文坤, 張仰森, 陳若愚. 基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 計算機(jī)應(yīng)用研究, 2015, 32(8):2302-2304.

        [7] 陳飛, 劉奕群, 魏超等. 基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 軟件學(xué)報, 2013, 24(5):1051-1060.

        [8] 荀恩東, 李晟. 采用術(shù)語定義模式和多特征的新術(shù)語及定義識別方法[J]. 計算機(jī)研究與發(fā)展, 2009, 46(1):62-69.

        [9] Pecina P, Schlesinger P. Combining Association Measures for Collocation Extraction[C].// ACL 2006, International Conference on Computational Linguistics and, Meeting of the Association for Computational Linguistics, Proceedings of the Conference, Sydney, Australia, 17-21 July. DBLP, 2006:651-658.

        [10] Adankon, Mathias M., and M. Cheriet. Support Vector Machine. Springer US, 2015.endprint

        猜你喜歡
        自然語言處理支持向量機(jī)
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
        中國水運(2016年11期)2017-01-04 12:26:47
        基于SVM的煙草銷售量預(yù)測
        動態(tài)場景中的視覺目標(biāo)識別方法分析
        論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        国产99久久亚洲综合精品 | 性色av免费网站| 久久久久亚洲av无码专区| 精品久久杨幂国产杨幂| 在线观看av不卡 一区二区三区| 午夜久久久久久禁播电影| a级毛片成人网站免费看| 亚洲免费av电影一区二区三区| 一道本中文字幕在线播放| 日本av在线一区二区| 亚洲爆乳精品无码一区二区| 精品一精品国产一级毛片| 色综合久久五十路人妻| 国产av无码专区亚洲av男同 | 被驯服人妻中文字幕日本| 久久av不卡人妻出轨一区二区 | 欧美性狂猛xxxxx深喉| 91精品国产综合久久青草| 美女和男人一起插插插| 成人内射国产免费观看| ā片在线观看| 人妻丰满熟妇av一区二区| 日本亚洲视频一区二区三区| 少妇无码av无码一区| 狠狠躁夜夜躁AV网站中文字幕| 蜜桃一区二区三区在线视频| 久久99精品久久久久久琪琪| 欧美激情a∨在线视频播放 | av网站免费线看| 激情五月天俺也去综合网| 国偷自拍av一区二区三区| 国产av人人夜夜澡人人爽麻豆| 国产av综合一区二区三区最新| 日本淫片一区二区三区| 国产精品久久久久精品一区二区| 国产尤物精品自在拍视频首页| 亚洲国产欲色有一二欲色| 日韩人妻无码精品一专区二区三区 | 国产一区二区三区视频了| 音影先锋中文字幕在线| 97精品国产手机|