亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文社交媒體語料的無監(jiān)督新詞識別研究

        2018-05-04 06:46:18黃鍇宇黃德根
        中文信息學報 2018年3期
        關鍵詞:成詞詞串新詞

        張 婧,黃鍇宇,梁 晨,黃德根

        (大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024)

        0 引言

        社交媒體數(shù)據(jù)承載著大量輿情信息及商業(yè)信息。近年來,面向微博等社交媒體語料的自然語言處理任務受到廣泛關注,例如,微博情感分析[1]、命名實體識別[2-4]、熱點事件抽取[5]等。此外,還有很多面向微博語料的評測任務,例如,COAE2014評測任務中新增加了面向微博的情感新詞發(fā)現(xiàn)任務,NLPCC2015也開展了面向微博的中文分詞及詞性標注任務[6]。目前,很多優(yōu)秀的中文分詞系統(tǒng)應用在傳統(tǒng)語料(例如新聞、專利)上,已經(jīng)達到了令人滿意的效果[7-10]。然而,由于用戶在社交媒體中發(fā)表言論時通常使用極其隨意的表達方式,因此,社交媒體語料中包含很多縮略詞、轉(zhuǎn)義詞、諧音詞等新詞,使得現(xiàn)有的很多自然語言處理技術(shù)和工具無法正常用于社交媒體語料的詞法分析任務[11]。研究顯示,在中文分詞評測中,系統(tǒng)間性能差別最大的是未登錄詞的召回情況[12]。為了提高面向社交媒體語料的中文分詞效果,本文利用大規(guī)模未標注的微博語料進行新詞識別研究。

        1 相關工作

        新詞識別方法一般分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法需要利用大規(guī)模熟語料作為訓練語料,但面向社交媒體的熟語料極其匱乏,故無監(jiān)督方法更適用于面向微博語料的新詞識別任務。文獻[13]提出采用信息熵(Information Entropy,IE)與詞法規(guī)則相結(jié)合的無監(jiān)督方法,識別微博語料中的新詞,該文獻首先采用詞關聯(lián)性信息的迭代上下文熵算法獲取候選新詞,再使用詞法信息進行過濾,取得較好的效果。文獻[14]提出Overlap Variety(OV)方法來解決微博語料中低頻新詞的召回問題,OV方法在衡量候選新詞可信度的時候不單純考慮候選新詞的頻率,而是比較該候選新詞的前后鄰接詞(Accessor Variety,AV)和該候選新詞的覆蓋串的AV值。該篇文獻的實驗表明,OV方法是目前新詞識別效果最先進的方法之一。

        現(xiàn)有的無監(jiān)督新詞識別方法大都采用傳統(tǒng)統(tǒng)計量IE、AV、PMI(Point-wise Mutual Information)等提取大規(guī)模未標注語料中的詞碎片的分布信息。為了更加有效地使用已有的統(tǒng)計量,本文利用發(fā)展語料,分析了傳統(tǒng)統(tǒng)計量對有意義的二元詞串和無意義的二元詞串的區(qū)分效果,并選擇最具有區(qū)分力度的統(tǒng)計量對語料中的詞碎片進行考量,獲得候選新詞。

        除了以上傳統(tǒng)統(tǒng)計量之外,詞向量的提出為無監(jiān)督新詞識別方法提供了有利的參考信息。文獻[15]首先提出了分布式詞表示方法,又稱詞向量(word embedding)。通過大規(guī)模語料訓練得到的詞向量既包含詞語的語義信息,又包含詞語的句法信息。文獻[16]提出了兩種訓練詞向量的神經(jīng)網(wǎng)絡模型CBOW和Skip-gram,該方法采用低維空間表示法,不但解決了維數(shù)災難問題,而且挖掘了詞語之間的關聯(lián)屬性,從而提高了詞語表示在語義上的準確度。CBOW模型是在已知上下文的基礎上預測當前詞,而Skip-gram模型恰好相反,是在已知當前詞的基礎上預測其上下文。

        目前,關于詞向量的研究備受關注。文獻[17]提出了一種新的神經(jīng)網(wǎng)絡結(jié)構(gòu)來訓練詞向量,該文獻的實驗證明,在訓練詞向量的過程中,該方法能結(jié)合局部信息和全局信息更好地獲取詞的語義信息。文獻[18]提出了基于字向量和詞向量相結(jié)合的方式獲得詞向量,該文獻表明,字詞結(jié)合的詞向量比傳統(tǒng)詞向量涵蓋了更有效的語義及句法信息。

        本文結(jié)合上述的詞向量技術(shù)和傳統(tǒng)統(tǒng)計量,提出了一種新的無監(jiān)督新詞識別方法。首先,使用PMI方法獲取候選新詞;其次,采用多種策略在大規(guī)模未標注的微博語料上訓練得到字向量和詞向量;再根據(jù)訓練得到的字向量和詞向量構(gòu)建成詞概率較低的弱成詞詞串集合,利用該集合對候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個方面進行過濾,以提高新詞識別效果。此外,本文還重現(xiàn)了目前新詞識別效果較好的Overlap Variety方法作為本文的對比實驗。

        2 新詞定義及其分析

        2.1 新詞定義

        新詞,又稱未登錄詞,目前沒有統(tǒng)一的界定。文獻[19]將新詞定義為沒有在詞典中出現(xiàn)的詞;文獻[20]則認為,新詞是指隨時代發(fā)展新出現(xiàn)的詞或舊詞新用的詞。本文所識別的新詞與傳統(tǒng)定義的新詞不同,不是單純指分詞系統(tǒng)詞典中不存在的詞,而是指分詞語料標準集中存在的,但分詞系統(tǒng)標注結(jié)果中不存在的詞。具體定義如下:

        GSS(gold standard set): 表示人工標注的標準分詞集合。

        SRS(segmented results set): 表示使用分詞工具進行分詞后得到的分詞集合。

        本文對新詞的定義: New word={w,w∈GSS 且 w?SRS}。

        這樣定義的原因有兩點: 第一,該定義所指的新詞一部分屬于分詞系統(tǒng)所使用的詞典中不包含的詞,記為NWset1;另一部分屬于系統(tǒng)詞典中包括,但分詞系統(tǒng)未正確切分的詞,記為NWset2。這兩類新詞對于提高分詞系統(tǒng)的性能都具有重要的作用,NWset1可以豐富現(xiàn)有詞典的詞匯,而NWset2可以完善詞典中已有的詞語的成詞代價。第二,這樣定義新詞不局限于特定的某個詞典,因而即使對于詞典差異很大的分詞系統(tǒng),我們的定義也同樣適用。

        2.2 新詞分析

        我們根據(jù)《北京大學現(xiàn)代漢語語料庫基本加工規(guī)范》[21]人工標注了一萬條微博語料作為發(fā)展語料,實驗數(shù)據(jù)部分對發(fā)展語料的標注過程進行了詳細介紹。經(jīng)過統(tǒng)計,發(fā)展語料標準集中的總詞條數(shù)(不同詞個數(shù))為46 112,其中新詞個數(shù)為22 957,新詞比例為49.79%,可見微博語料中包含大量新詞。此外,我們對發(fā)展語料中新詞的詞長分布進行了分析,分析結(jié)果如圖1所示。

        圖1表明,發(fā)展語料中的新詞主要由二元新詞和三元新詞構(gòu)成,二者之和占新詞總數(shù)的92%,遠遠超過其他新詞的比例。因此,本文重點識別微博語料中詞長不大于3的新詞。

        圖1 發(fā)展語料中新詞的詞長分布

        3 理論基礎

        3.1 詞向量

        詞向量的提出使得在無監(jiān)督的條件下獲得語料中詞語的語義信息成為可能。由于詞向量模型中基于softmax方法的Skip-gram模型更適用于低頻詞,而微博語料中新詞的頻率普遍偏低(經(jīng)統(tǒng)計,規(guī)模為一萬條微博的發(fā)展語料中,頻率為1的新詞占總詞條的69%)。因此本文使用基于softmax方法的Skip-gram模型訓練得到詞向量,訓練參數(shù)為: 維度=200,窗口=9,最低詞頻=1。實驗中我們收集了35萬條未標注的微博語料用來訓練詞向量。通過采用不同的策略,訓練得到以下三種不同的詞向量,用于構(gòu)建候選新詞過濾集合。三種詞向量分別為: 詞向量WE,字向量CE和含位置信息的字向量LCE,為了敘述方便,后文統(tǒng)稱為詞向量。

        詞向量: 使用Nihao分詞工具[8]對未標注的微博語料進行預分詞,將預分詞語料中的詞及詞碎片作為神經(jīng)網(wǎng)絡模型的訓練單位,訓練得到詞向量,記為WE(word embedding)。

        字向量: 將未標注的微博語料按字切分,將字作為神經(jīng)網(wǎng)絡模型的訓練單位,訓練得到字向量,記為CE(character embedding)。

        含位置信息的字向量: 由于中文中字的歧義現(xiàn)象比較嚴重,為了獲得更加有效的字向量,我們使用分詞工具對大規(guī)模未標注的微博語料進行預分詞后,根據(jù)字在詞語中的位置對字進行細分類。本文根據(jù)字在詞中的位置,將字分為四個類別: B表示該字出現(xiàn)在所在詞語的開始位置;E表示該字出現(xiàn)在所在詞語的結(jié)束位置;M表示該字出現(xiàn)在所在詞語的中間位置,即非開始位置和結(jié)束位置;S表示該字獨立成詞或表示該字為詞碎片。將含有分類信息的字作為神經(jīng)網(wǎng)絡模型的訓練單位,訓練得到包含位置信息的字向量,記為LCE(location information based character embedding)。

        3.2 傳統(tǒng)統(tǒng)計量

        在很多自然語言處理任務中,都會使用前后鄰接詞、信息熵、點互信息等統(tǒng)計量提取重要參考信息,本節(jié)將對這三種統(tǒng)計量在新詞識別任務中的使用方法進行詳細介紹。

        3.2.1 前后鄰接詞(Accessor Variety,AV)

        文獻[22]首次提出Accessor Variety的概念,其核心思想是若某個詞串w是有意義的,那么它可以適用于多種不同的語言環(huán)境,即,如果一個詞串出現(xiàn)在不同的語言環(huán)境下,那它可能是有意義的。在新詞識別任務中,令Lav(w)表示與詞串w直接相鄰的不同的前一個字的個數(shù),Rav(w)表示與詞串w直接相鄰的不同的后一個字的個數(shù)。Lav(w)和Rav(w)這兩個值可以用來衡量詞串w對不同語境的適應能力。詞串w的AV值定義如式(1)所示。

        gav(w)=logAV(w)

        (1)

        其中,AV(w)=min{Lav(w),Rav(w)}。

        3.2.2 信息熵(Information Entropy,IE)

        信息熵是信息論的基本概念,又稱熵,可以衡量一個隨機變量的不確定性。一個隨機變量的信息熵越大,它的不確定性就越大,那么,正確估計其值的可能性就越小。在新詞識別任務中,我們利用信息熵衡量語料中某一詞串的所有前鄰接詞(或后鄰接詞)分布的不確定性。信息熵越小說明詞串的前鄰接詞(或后鄰接詞)分布越集中,這樣的詞串越有可能與其前鄰接詞(或后鄰接詞)合并形成候選新詞;反之,說明詞串的前鄰接詞(或后鄰接詞)分布的越分散,該詞串獨立成詞的可能性越大。我們用左信息熵LIE計算詞串與其前鄰接詞的信息熵,用右信息熵RIE計算詞串與其后鄰接詞的信息熵,計算如式(2)所示。

        (2)

        (3)

        其中,w為當前考察的詞串,m為w的前鄰接詞的總數(shù),n為w的后鄰接詞的總數(shù),lwi為w的第i個前鄰接詞,rwi為w的第i個后鄰接詞。

        3.2.3 點互信息(Point-wiseMutualInformation,PMI)

        點互信息源于信息論中的互信息,是一種用來度量關聯(lián)性的統(tǒng)計量。在新詞識別任務中,通常使用PMI來衡量詞碎片之間的共現(xiàn)程度,其具體的計算如式(4)所示。

        (4)

        其中,x、y表示語料中的詞或詞碎片,P(x,y)表示x和y作為相鄰詞串同時出現(xiàn)的頻率,P(x)、P(y)分別表示x和y在整個語料中出現(xiàn)的頻率。

        4 新詞識別算法

        在新詞識別過程中,由于二元新詞的構(gòu)成形式(單字+單字)相對于三元新詞的構(gòu)成形式(單字+二字、二字+單字、單字+單字+單字)較為簡單,因此,我們優(yōu)先識別二元新詞,根據(jù)過濾后的二元新詞對語料進行自動修正,然后進行二次迭代,識別三元新詞。每次迭代過程中,將新詞識別任務分為候選新詞識別和候選新詞過濾兩個子任務,下面分別詳細介紹這兩個子任務的處理方法。

        4.1 候選新詞識別

        本文首先利用發(fā)展語料分析現(xiàn)有統(tǒng)計量(AV,IE,PMI)對預分詞結(jié)果中的單字詞碎片的區(qū)分效果,根據(jù)分析結(jié)果選擇區(qū)分效果最為明顯的統(tǒng)計量進行候選新詞識別。由于二元新詞的識別結(jié)果將直接影響到三元新詞的識別,所以,在此分析過程中,我們主要針對連續(xù)的兩個單字組成的二元詞串進行分析。分析方法及結(jié)果如下:

        圖2 傳統(tǒng)統(tǒng)計量對二元詞串的區(qū)分效果

        分析方法: 根據(jù)發(fā)展語料的預分詞結(jié)果(SRS集合)和標準集(GSS集合)獲取有意義的二元詞串和無意義的二元詞串,分別計算每個二元詞串的PMI值和二元詞串中第一個字的RIE值、RAV值,以及第二個字的LIE值、LAV值。每個統(tǒng)計量取不同值時所包含的二元詞串的比例如圖2所示。

        詞串的獲取: 抽取發(fā)展語料的SRS集合中所有連續(xù)的兩個長度為1的詞串組成的二元詞串,記作SetAll。

        有意義的詞串: 對于SetAll中的詞串bigramToken,如果發(fā)展語料的GSS集合中存在該詞串bigramToken,則bigramToken為有意義的詞串。

        無意義的詞串: 對于SetAll中的詞串bigramToken,如果不在發(fā)展語料的GSS集合中,則bigramToken為無意義的詞串。

        圖2的數(shù)據(jù)表明,IE(包括LIE和RIE)和AV(包括LAV和RAV)對有意義和無意義的二字詞串的區(qū)分度不大。即,無論IE和AV的閾值定為多少,識別結(jié)果中的有意義的詞串和無意義的詞串的比例都差不多;而PMI對有意義和無意義的詞串具有明顯的區(qū)分效果,PMI值大于-4的二字詞串中,有意義的詞串的比重明顯大于無意義的詞串。因此,本文選擇PMI對候選新詞進行識別。在第一次迭代進行二元候選新詞識別過程中,PMI閾值設為-4,即選擇PMI值大于-4的二元詞串作為候選新詞。

        4.2 候選新詞過濾

        現(xiàn)有的候選新詞的過濾方法一般是基于規(guī)則或詞典的方法,例如,詞性規(guī)則和停用詞詞典。這些方法的過濾效果較為明顯,但通用性較差。本文先利用詞向量構(gòu)建弱成詞詞串集合,然后再利用該集合對候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個方面進行過濾。由于詞向量可以根據(jù)不同的目標語料訓練得到,因此,該方法不局限于特定的語料,通用性較好。

        本文所選的弱成詞詞串的功能與停用詞的功能類似(即與其他詞串合并成為詞語的能力較差),但弱成詞詞串不同于停用詞,二者主要有兩點不同: 第一,停用詞中包含詞長大于1的詞語,而我們構(gòu)建的弱成詞詞串只包含長度為1的字符;第二,停用詞不包含位置信息,而弱成詞詞串包含位置信息。

        構(gòu)建弱成詞詞串集合時,我們選擇成詞能力較差的高頻單字詞及標點作為種子集合。該種子集合共包含11個字符: {“我”,“是”,“的”,“了”,“在”,“?!?,“,”,“、”,“;”,“!”,“?”}。然后利用詞向量計算當前詞與種子集合中詞的相似度,以此為依據(jù)擴展種子集合,經(jīng)過T次迭代進而得到弱成詞詞串集合,本文實驗中,T=3。詞與集合的相似度計算公式如式(5)所示。利用詞向量和種子集合構(gòu)建弱成詞詞串集合的算法如算法1所示。

        (5)

        算法1:弱成詞詞串集合的構(gòu)建算法輸入:詞向量字典WEDictionary、種子集合SeedSet、預分詞語料segCorpus輸出:弱成詞詞串集合L1.foriterator=1toTdoL2. tokenSim=[] //用于存放詞和集合的相似度L3. fortokeninsegCorpusdoL4. iftoken的長度等于1thenL5. 獲取包含該token的詞向量L6. forwordinSeedSetdoL7. 獲取word的詞向量L8. endforL9. 根據(jù)式(5)計算token和SeedSet的相似度,將結(jié)果保存到tokenSim中L10 endifL11. endforL12. 將tokenSim中的token按照其相似度值從大到小排序,取TopM的token加入SeedSet中L13.endfor

        構(gòu)建好弱成詞詞串集合后,從候選新詞的內(nèi)部構(gòu)成和外部環(huán)境兩個方面對候選新詞進行過濾。從候選新詞的內(nèi)部構(gòu)成上對其進行過濾時,利用弱成詞詞串集合判斷構(gòu)成候選新詞的詞碎片的成詞能力,如果構(gòu)成候選新詞的任一詞碎片的成詞能力較弱,則該候選新詞會被過濾掉;從候選新詞的外部環(huán)境上對其進行過濾時,如果該候選新詞的前鄰接詞或后鄰接詞中包含成詞能力較弱的詞串,說明該候選新詞的外部環(huán)境較為穩(wěn)定,則該候選新詞不會被過濾掉,反之,該候選新詞會被過濾掉。具體如算法2所示。

        算法2:候選新詞過濾算法輸入:詞向量詞典WEDictionary、弱成詞詞串集合AntiWordSet、候選新詞NWCandidateSet、預分詞語料segCorpus輸出:過濾后的候選新詞FilteredNW//從候選新詞的內(nèi)部構(gòu)成上對其進行過濾:L1. forcandidate=wiwi+1inNWCandidateSetdoL2. 計算AS1=AvgSim(wi,AntiWordSetM)和AS2=AvgSim(wi+1,AntiWordSetM)L3. ifAS1大于閾值SIMorAS2大于閾值SIMthen將candidate過濾掉L4. endfor//從候選新詞的外部環(huán)境上對其進行過濾:L5. forcandidate=wiwi+1inNWCandidateSetdoL6. 獲取candidate在segCorpus中的上下文contextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cL7. 將所有contextStr加入到candidate的上下文集合contextStrSet中L8. environmentFlag=0L9. forcontextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cincontextStrSetdoL10. 計算prefixContext=AvgSim(wj,AntiWordSetM),i-c≤j≤i-1L11. 計算suffixContext=AvgSim(wj,AntiWordSetM),i+2≤j≤i+1+cL12. ifprefixContext大于閾值SIMorsuffixContext大于閾值SIMthenenvironmentFlag=1L13. endforL14. ifenvironmentFlag==0then過濾該候選新詞candidateL15.endfor

        表1 弱成詞詞串示例

        在構(gòu)建弱成詞詞串集合的過程中,本文經(jīng)過T=3次迭代,經(jīng)過多次實驗,當弱成詞詞串集合包含170個詞串時,實驗結(jié)果達到最優(yōu)。最終,獲得的弱成詞詞串集合包括120個標點和50個字符。表1是弱成詞詞串集合中包含的部分標點和字符。表中的標點和字符后面的B、M、E、S表示該字符的位置。

        5 實驗及實驗結(jié)果

        5.1 實驗語料

        未標注語料: 為了獲得盡可能豐富的詞串信息,我們收集了2011~2015年近35萬條未標注的微博語料,預分詞后,用于訓練詞向量以及計算詞串的IE、AV、PMI等信息。

        測試語料: 使用NLPCC2015年的面向微博語料的中文分詞評測任務的訓練語料作為本實驗的測試語料,語料規(guī)模為一萬條微博[6]。

        發(fā)展語料: 為了在完全不參考測試語料的情況下對本文的方法進行調(diào)參,我們根據(jù)《北京大學現(xiàn)代漢語語料庫基本加工規(guī)范》[21]人工標注了一萬條微博作為發(fā)展語料。為了確保人工標注的一致性,我們隨機選取500條微博讓兩名標注人員(標注人員A和標注人員B)對其進行標注,然后對比兩人的標注結(jié)果,針對不一致的標注結(jié)果進行討論和修改,直到標注的一致性達到一定的Kappa值[23]。因Kappa值考量了標注人員隨機標注的可能性,故它比一般的百分比計算方法更具有說服性,其計算如式(6)所示。

        標注人員的標注任務是在預分詞的基礎上進行的,假設預分詞結(jié)果為:W1W2...Wi...Wn,標注人員是在原有詞串的間隔處進行操作。如果選擇將Wi與Wi+1合并,標注者在Wi與Wi+1之間的標記為yes(記為下標y),反之,如果不合并,則此處的標記為no(記為下標n)。根據(jù)兩名標注人員的標記結(jié)果,最后計算得到的kappa值為93.55%,這說明標注結(jié)果已經(jīng)達到了較高的一致性,因此,標注人員標注的發(fā)展語料是可靠的。

        其中,P(A)表示兩名標注人員實際標注一致的概率;P(e)表示兩名標注人員隨機標注一致的概率;C(AyBy)表示兩名標注人員在對應相同的地方都選擇合并的操作數(shù);C(AnBn)表示兩名標注人員在對應相同的地方都選擇不合并的操作數(shù),因預分詞結(jié)果中很多地方都不需要合并,且我們更關注兩名標注人員同時選擇合并的情況。因此,在計算Kappa時,兩名標注人員都未修改的地方不予考慮,即C(AnBn)=0;Count表示被任意一名標注人員修改過的地方的總數(shù);P(Ay)表示標注人員A標注成yes的概率,即標注人員A標成yes的操作數(shù)除以標注人員A總的操作數(shù),式(8)中的其他P(*)表示的意思類似于P(Ay)。

        5.2 實驗設計及結(jié)果分析

        5.2.1 新詞識別結(jié)果

        實驗過程中,我們首先識別由兩個單字詞碎片組成的詞串,然后進行二次迭代,獲得三元新詞。為了檢驗本文的方法,我們進行了如下對比實驗,二元新詞的識別結(jié)果如表2所示。

        表2 二元新詞識別結(jié)果

        Baseline: 利用PMI識別預分詞語料中的二元新詞,其中PMI的閾值設定為-4;

        Baseline+WE: 采用Baseline的方法獲得候選新詞,使用基于詞向量WE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進行過濾;

        Baseline+CE: 采用Baseline的方法獲得候選新詞,使用基于字向量CE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進行過濾;

        Baseline+LCE: 采用Baseline的方法獲得候選新詞,使用基于含有位置信息的字向量LCE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進行過濾;

        ExperimentX+External: 表示在實驗ExperimentX的基礎上,從外部環(huán)境方面對候選新詞進一步進行過濾,其中上下文窗口c的取值為1的實驗效果最佳;

        OverlapVariety: 為了將本文提出的方法和現(xiàn)有優(yōu)秀的方法進行對比,我們重現(xiàn)了文獻[14]提出的OverlapVariety方法。

        數(shù)據(jù)顯示,單純從內(nèi)部構(gòu)成方面對候選新詞過濾的實驗中,LCE的過濾效果最為明顯,比基線系統(tǒng)的F值提高了3.28%,比Overlap Variety方法提高了1.43%;從外部環(huán)境對候選新詞過濾后,F(xiàn)值得到進一步提高,最佳結(jié)果比基線系統(tǒng)提高了6.75%。實驗表明,本文利用含有位置信息的字向量構(gòu)建的弱成詞詞串集合能有效過濾二元候選新詞中的噪音詞串。

        根據(jù)二元新詞的識別結(jié)果,將預分詞語料中的二元新詞進行合并,然后進行二次迭代,進一步識別語料中的三元新詞。二次迭代過程中,獲取三元候選新詞時,同樣采用PMI方法。利用發(fā)展語料調(diào)整PMI閾值時,PMI閾值對新詞識別結(jié)果的影響如圖3所示。

        由圖3可見,二次迭代的PMI閾值為2時,發(fā)展語料中新詞識別結(jié)果的F值達到峰值。因此,本文二次迭代時設定PMI閾值為2。最終發(fā)展語料中二元新詞和三元新詞的識別結(jié)果如表3的第一行數(shù)據(jù)所示;測試語料的識別結(jié)果如表3的第二行數(shù)據(jù)所示。

        實驗結(jié)果表明,測試語料和發(fā)展語料的識別結(jié)果比較接近,說明本文提出的方法能夠有效識別二元和三元新詞,并對候選新詞中的噪音進行有效過濾;同時,該結(jié)果也進一步證明了我們標注的發(fā)展語料的可信度。

        表3 二元新詞和三元新詞的識別結(jié)果

        此外,我們通過改變未標注語料的大小,比較了語料規(guī)模對新詞識別結(jié)果的影響,實驗結(jié)果如圖4所示。實驗表明語料規(guī)模從1萬條微博(只包含發(fā)展語料)到35萬條微博逐漸擴大時,召回率逐漸降低,精確率和F值不斷提高。當語料規(guī)模達到15萬條微博后,實驗結(jié)果趨于平穩(wěn)。

        5.2.2 新詞識別結(jié)果分析

        我們最終識別到的新詞包括醫(yī)學、科技、金融、生物、影視娛樂等多種領域的術(shù)語;還有人名、地名、品牌名等命名實體;此外,還有包括字母、數(shù)字與漢字組合成的新詞,以及包含錯字的新詞。表4是我們識別到的新詞的舉例。

        圖4 語料規(guī)模對新詞識別結(jié)果的影響

        表4 新詞示例

        雖然本文提出的方法能夠識別很多領域的新詞,但該方法仍存在缺點。該方法對四字詞的識別效果不佳,例如我們識別出的新詞中還包括“心如止”(正確為: 心如止水)、“語道破”(正確為: 一語道破);此外,新詞識別結(jié)果中除了上述識別不完整的四字詞外,還有類似于“負全責”、“請接力”、“取決于”、“隱藏著”等包含多余成分的錯誤詞語。因此,要獲得更加高質(zhì)量的新詞,還需要很多工作和努力。

        6 總結(jié)和展望

        本文是面向中文社交媒體語料的新詞識別研究。這一研究任務的難點在于,社交媒體語料中沒有成熟的訓練語料,無法通過有監(jiān)督的方法訓練得到可靠的新詞識別模型。因此,本文采用基于PMI和多種策略的詞向量的無監(jiān)督方法進行新詞識別和過濾。實驗結(jié)果表明,本文利用詞向量構(gòu)建的弱成詞詞串集合對候選新詞進行了有效過濾,新詞識別效果明顯優(yōu)于基線系統(tǒng)和現(xiàn)有的最佳的無監(jiān)督新詞識別方法之一Overlap Variety方法。此外,為了分析傳統(tǒng)統(tǒng)計量PMI、AV、IE等方法的識別效果,本文根據(jù)《北大分詞語料標注規(guī)則》標注了面向社交媒體語料的分詞語料,作為實驗的發(fā)展語料,發(fā)展語料的實驗結(jié)果與最終測試語料的實驗結(jié)果較為接近,證明本文標注的發(fā)展語料具有較高的可靠性。

        盡管本文所提出方法的識別結(jié)果得到了明顯提高,但最終的F值還沒有達到60%,因此還存在很大的提升空間。下一步,我們將在此基礎上,進一步提高新詞識別的精確度,利用自學習方法逐漸擴大面向社交媒體的成熟語料,為有監(jiān)督方法提供可靠的訓練語料。

        [1] Nguyen T H, Shirai K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 1354-1364.

        [2] Liu X, Zhou M, Wei F, et al. Joint inference of named entity recognition and normalization for tweets[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. 2012: 526-535.

        [3] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Proceedings of the 2015 Conference on EMNLP of the Association for Computational Linguistics. Lisbon, Portugal, 2015: 548-554.

        [4] Li C, Liu Y. Improving Named Entity Recognition in Tweets via Detecting Non-Standard Words[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 929-938.

        [5] Dong G, Li R, Yang W, et al. Microblog burst keywords detection based on social trust and dynamics model[J]. Chinese Journal of Electronics, 2014, 23(4): 695-700.

        [6] Qiu X, Qian P, Yin L, et al. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts[M].Natural Language Processing and Chinese Computing. Springer International Publishing, 2015: 541-549.

        [7] Liu Y, Zhang Y, Che W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of EMNLP. 2014: 864-874.

        [8] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3): 49-57.

        [9] Li Z, Sun M. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009, 35(4): 505-512.

        [10] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the 4th SIGHAN workshop on Chinese language Processing. 2005: 168-171.

        [11] Eisenstein J. What to do about bad language on the internet[C]//Proceedings of HLT-NAACL. 2013: 359-369.

        [12] Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN workshop on Chinese language processing. Association for Computational Linguistics, 2003: 133-143.

        [13] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J]. 模式識別與人工智能, 2014, 27(2): 141-145.

        [14] Ye Y, Wu Q, Li Y, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.

        [15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.

        [16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th NIPS. 2013: 3111-3119.

        [17] Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Association for Computational Linguistics, 2012: 873-882.

        [18] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of IJCAI. 2015: 1236-1242.

        [19] Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C]//Proceedings of the 19th international conference on Computational linguistics. Association for Computational Linguistics, 2002: 1-7.

        [20] 鄒綱, 劉洋, 劉群, 等. 面向 Internet 的中文新詞語檢測[J]. 中文信息學報, 2004, 18(6): 2-10.

        [21] 俞士汶, 段慧明, 朱學鋒, 等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學報, 2002, 16(5): 51-66.

        [22] Feng H, Chen K, Deng X, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.

        [23] Carletta J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254.

        猜你喜歡
        成詞詞串新詞
        靈動的詞串,寫話的紐帶
        《微群新詞》選刊之十四
        報紙新聞標題中的“熱詞群”和“熱詞串”
        新聞傳播(2018年15期)2018-09-18 03:19:58
        “湊合”成詞及詞義演變考.
        小說月刊(2017年11期)2018-01-03 07:50:55
        先秦形容詞性反義并列詞語成詞規(guī)律考
        再論“睡覺”成詞的時代
        東方教育(2017年14期)2017-09-25 16:53:37
        “企業(yè)”的成詞及詞義內(nèi)涵考釋
        美語口語詞串You Know What探析
        小議網(wǎng)絡新詞“周邊”
        語文知識(2014年12期)2014-02-28 22:01:18
        外教新詞堂
        美女扒开屁股让男人桶| 国内揄拍国内精品人妻浪潮av| 日韩a∨精品日韩在线观看| 亚洲无码图| 一本色道加勒比精品一区二区| 国产三级精品和三级男人| 亚洲最好看的中文字幕| 国产成人av一区二区三区| 中国亚洲女人69内射少妇| 欧美人与动牲交片免费| av免费一区在线播放| 二区免费在线视频观看| 少妇被又大又粗又爽毛片久久黑人 | 亚洲成人精品久久久国产精品| 亚洲日韩激情无码一区| 久久精品亚洲乱码伦伦中文| 亚洲熟妇av日韩熟妇av| 日韩精品久久午夜夜伦鲁鲁| 亚洲女同一区二区| 久久亚洲sm情趣捆绑调教| 91色婷婷成人精品亚洲| 国产亚洲91精品色在线| 内地老熟女老少配视频| 国产精品23p| 一级黄片草逼免费视频| 日韩免费精品在线观看| 国产在线精品一区二区中文| 亚洲精品国产成人AV| 亚洲成av在线免费不卡| 手机在线观看日韩不卡av| 麻豆精品久久久久久久99蜜桃| 2021国内精品久久久久精免费| 国产日韩一区二区精品| 熟女肥臀白浆一区二区| 国产午夜精品一区二区三区嫩草 | 老熟妇仑乱视频一区二区| 亚洲一区sm无码| 一道本加勒比在线观看| 一本丁香综合久久久久不卡网站| 久久精品国产亚洲av高清色欲| 精品视频在线观看一区二区有 |