張海軍 ,李 勇 ,閆琪琪
1.新疆師范大學(xué) 初等教育學(xué)院,烏魯木齊 830054
2.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,烏魯木齊 830054
隨著時(shí)代進(jìn)步和網(wǎng)絡(luò)技術(shù)的發(fā)展,作為人類信息傳播的載體——語言在不斷地發(fā)展和進(jìn)化。表現(xiàn)形式為,網(wǎng)絡(luò)新詞語的大量產(chǎn)生,如:“下?!薄ⅰ俺垂伞?、“海歸”、“非典”、“超女”、“山寨”、“動(dòng)車組”、“屌絲”等,據(jù)統(tǒng)計(jì),每年網(wǎng)絡(luò)新詞產(chǎn)生的數(shù)量大約800個(gè)[1]。新詞語的大量產(chǎn)生,豐富了語言,方便了交流,但也給語言自動(dòng)處理帶來了諸多障礙,包括信息檢索、語言分析、機(jī)器翻譯、網(wǎng)絡(luò)熱點(diǎn)追蹤等。為使相關(guān)處理順利進(jìn)行,需要將新詞檢測(cè)和識(shí)別出來,因而就產(chǎn)生了新詞識(shí)別技術(shù)。
漢語沒有缺少形態(tài)變化,且詞語沒有邊界,這導(dǎo)致新詞識(shí)別需要更多的智力因素。針對(duì)新詞識(shí)別問題,國內(nèi)外的很多研究人員都開展了大量的研究。在研究中將新詞識(shí)別分成了三個(gè)階段[2],即候選新詞提取,新詞檢測(cè)和新詞屬性識(shí)別,并分別在上述三個(gè)方面開展了大量研究。
對(duì)于候選新詞提取,目前研究中主要有兩類方法,基于單字散串和基于高頻重復(fù)模式方法[3]?;趩巫稚⒋椒ǖ某霭l(fā)點(diǎn)是,新詞在分詞過程中不能被有效識(shí)別,會(huì)被切分成單字串,因此分詞后的單子串或由單字和相鄰串組合成的散串就極有可能是新詞?;谥貜?fù)模式方法的出發(fā)點(diǎn)是,新詞具有相對(duì)較高的使用頻率,因此將語料中出現(xiàn)的重復(fù)模式作為候選新詞。因召回率高,高頻重復(fù)模式方法在候選新詞提取研究中受到了廣泛重視。劉挺等[4]使用局部頻率作為候選詞提取的標(biāo)準(zhǔn)。鄭家恒[5]、鄒剛[6]、崔世起[7]以及羅智勇[8]、賀敏[9]和黃玉蘭[10]等在對(duì)語料進(jìn)行重復(fù)模式統(tǒng)計(jì)的基礎(chǔ)上,將滿足閾值約束條件的重復(fù)模式作為候選新詞,然后使用規(guī)則或統(tǒng)計(jì)方法進(jìn)行過濾。在此類方法中,關(guān)鍵是研究能快速有效地從大規(guī)模語料中提取重復(fù)模式的方法,但目前的重復(fù)模式提取算法在處理漢語這樣的大字符集的大規(guī)模語料時(shí)還存在一定局限?;诟哳l重復(fù)模式方法一般不需大規(guī)模訓(xùn)練語料的支持,且能有效地提取新造詞,但對(duì)于低頻詞的提取會(huì)受到一定限制,對(duì)新詞過濾機(jī)制要求較高,因沒有訓(xùn)練語料作為指導(dǎo),在候選新詞提取時(shí)會(huì)產(chǎn)生大量非詞垃圾串,嚴(yán)重影響新詞檢測(cè)的效率和效果。
在已經(jīng)獲得候選新詞的前提下,新詞識(shí)別的任務(wù)就轉(zhuǎn)換為新詞檢測(cè)和過濾,但該階段需要大量的智力因素。該任務(wù)的目的是檢測(cè)新詞,并為新詞屬性識(shí)別提供處理對(duì)象。目前主要的過濾技術(shù)是應(yīng)用規(guī)則以及統(tǒng)計(jì)方法過濾新詞[5-8,11-12]。這些研究方法,雖都涉及了候選字串的統(tǒng)計(jì)和語言知識(shí)特征,但一般采用相對(duì)簡(jiǎn)單的處理方法,沒有將統(tǒng)計(jì)特征和語言知識(shí)加以有效融合來充分發(fā)揮組合特征的作用,導(dǎo)致在新詞檢測(cè)時(shí)對(duì)訓(xùn)練語料的依賴性較強(qiáng),方法的適應(yīng)性和領(lǐng)域泛化能力較差。
對(duì)于網(wǎng)絡(luò)新詞屬性識(shí)別,目前研究集中在新詞詞性猜測(cè)方面,研究方法以統(tǒng)計(jì)方法為主[13-16]。根據(jù)所用特征不同,主要有應(yīng)用內(nèi)部特征方法、外部特征方法和組合方法。其中外部特征包括:上下文信息(相鄰的詞,相鄰的字以及相鄰標(biāo)記);整篇文檔信息等。內(nèi)部特征包括:字串長度;前綴(后綴);字串中字符的具體特征(位置,詞性)等[17]。上述研究方法,雖然取得了很好詞性猜測(cè)效果,但在模型中應(yīng)用了不現(xiàn)實(shí)的上下文詞性特征,使實(shí)際應(yīng)用受到了極大影響。
對(duì)于將上述三個(gè)模塊有效整合,并形成有效的網(wǎng)絡(luò)新詞識(shí)別框架,鄒剛[6]和賀敏[9]在這方面做了大量工作,并構(gòu)建了基于網(wǎng)絡(luò)的新詞識(shí)別框架。
但目前研究中存在三方面問題,第一是研究中處理語料規(guī)模有限,一般都遠(yuǎn)小于內(nèi)存規(guī)模,還不能稱為大規(guī)模語料;第二是在候選新詞過濾過程中沒有很好地整合統(tǒng)計(jì)特征和語言知識(shí)特征,導(dǎo)致識(shí)別效果有待提高;第三是對(duì)于新詞屬性識(shí)別的效果還有待改進(jìn),新特征挖掘不充分。
針對(duì)上述三個(gè)方面的問題開展了針對(duì)性的研究,形成了一個(gè)有效的基于海量網(wǎng)絡(luò)語料的新詞識(shí)別框架。本文的主要?jiǎng)?chuàng)新之處包括:提出了基于逐層剪枝的大規(guī)模語料重復(fù)模式提取算法、基于統(tǒng)計(jì)學(xué)習(xí)模型的新詞檢測(cè)方法以及基于組合特征的新詞屬性識(shí)別方法。
根據(jù)前期的大量調(diào)研,做了相應(yīng)研究和規(guī)劃,將新詞識(shí)別的幾部分內(nèi)容進(jìn)行了整理,形成了一個(gè)整合的新詞識(shí)別框架,具體結(jié)構(gòu)參見圖1。
圖1 基于海量語料的網(wǎng)絡(luò)熱點(diǎn)新詞識(shí)別框架圖
該新詞識(shí)別框架中包含了4個(gè)主要的模塊,它們?cè)诰W(wǎng)絡(luò)新詞的識(shí)別過程中,依次開展工作,在層次上是一種遞進(jìn)關(guān)系,即第一步取得大規(guī)模漢語語料資源,第二步獲取文本中重復(fù)串,形成候選新詞集合,然后對(duì)候選新詞進(jìn)行檢測(cè),最后針對(duì)所提取的新詞進(jìn)行屬性識(shí)別。
模塊1是網(wǎng)絡(luò)新詞識(shí)別的起點(diǎn),用于從網(wǎng)絡(luò)等環(huán)境提取大規(guī)模文本語料,其中還包含將網(wǎng)頁格式的文件轉(zhuǎn)化為普通文本格式操作,其主要任務(wù)是為后續(xù)的重復(fù)模式提取做好準(zhǔn)備。
為了提高候選新詞的召回率,本文提出了基于逐層剪枝的大規(guī)模語料重復(fù)模式提取算法作為候選新詞的提取方法(模塊2);為了提升新詞檢測(cè)和新詞詞性猜測(cè)效果,采用在統(tǒng)計(jì)學(xué)習(xí)框架下,組合使用統(tǒng)計(jì)特征和語言知識(shí)特征來提高新詞檢測(cè)(模塊3)和新詞詞性猜測(cè)(模塊4)的效果。整個(gè)框架中,后3個(gè)模塊是關(guān)鍵,本文主要針對(duì)這3個(gè)模塊開展了大量研究,以下就重點(diǎn)介紹對(duì)這3個(gè)模塊所做的工作。
大規(guī)模語料的重復(fù)模式快速提取是基于重復(fù)模式新詞識(shí)別技術(shù)的基礎(chǔ)和關(guān)鍵步驟,用于構(gòu)造網(wǎng)絡(luò)熱點(diǎn)新詞的候選對(duì)象集合,本文采用頻率高于閾值的重復(fù)模式構(gòu)造候選新詞集合。重復(fù)模式提取的最大問題是會(huì)在中間產(chǎn)生大量的低頻垃圾字串,嚴(yán)重降低處理效率。
通過對(duì)中文字串重復(fù)模式性質(zhì)的研究,設(shè)計(jì)了逐層剪枝方法來過濾垃圾字符串,提高處理速度。操作步驟是,在遞增N-Gram模型的基礎(chǔ)上,逐層地進(jìn)行低頻垃圾字串剪枝和過濾,以充分減少垃圾字串的數(shù)量。具體地,先提取2字長的重復(fù)串集合,然后使用2字串集合過濾3字串,使用3字串集合過濾4字串,……,直到最大串長的重復(fù)串提取完成。當(dāng)語料規(guī)模大于內(nèi)存容量時(shí),還需要先進(jìn)行分割,分塊提取候選重復(fù)模式,最后再進(jìn)行全部候選模式的歸并。
對(duì)低頻垃圾字串的逐層剪枝算法,是基于對(duì)重復(fù)模式性質(zhì)的觀察和研究:
(1)對(duì)于候選模式R中的任意字符cx,如果有cx∈Σ0(Σ0為出現(xiàn)頻率低于閾值λ的字符集),必然會(huì)存在f(R)<λ(即該字串R的頻率小于閾值λ),因此可將模式R濾掉,從而在字符層面上實(shí)現(xiàn)低頻模式剪枝。
(2)對(duì)于模式X=ciR1或X=R2cj,其中X,R1,R2為字串,ci或cj為字符,當(dāng)R1∈φ且R2∈φ時(shí)(集合φ中字串頻率大于等于λ),X可作為候選重復(fù)串,否則,將X過濾掉,這是逐層剪枝的判斷規(guī)則。
這兩個(gè)重復(fù)模式剪枝規(guī)則形式簡(jiǎn)單,應(yīng)用方便,數(shù)據(jù)實(shí)驗(yàn)表明,該剪枝算法可將80%以上的出現(xiàn)頻率低于閾值的垃圾字串濾出。
為處理容量遠(yuǎn)大于內(nèi)存的海量語料,需要提前對(duì)語料分塊,便于在內(nèi)存范圍內(nèi)高效處理。為獲取整個(gè)語料滿足閾值約束的重復(fù)模式全體,需對(duì)從所有分塊中所提取的候選重復(fù)模式進(jìn)行外部排序。外部排序包含內(nèi)部排序和外部歸并兩步操作,已經(jīng)研制了一種中文字符串的快速排序方法[18],時(shí)間復(fù)雜度為O(dn),有效提高了重復(fù)模式歸并效率。
在已經(jīng)取得候選新詞集合的前提下,新詞檢測(cè)的任務(wù)就是以重復(fù)字串的各種有效特征作為標(biāo)注條件,對(duì)候選字串進(jìn)行標(biāo)注過程。經(jīng)觀察和分析,候選字串標(biāo)記的概率估計(jì)可表示為:
其中候選新詞的標(biāo)記集為:{新詞,非新詞},式(1)可轉(zhuǎn)化為:
因候選字串本身和標(biāo)記之間先驗(yàn)知識(shí)未知,考慮用關(guān)鍵特征來代表候選字串,前提是關(guān)鍵特征要能充分代表候選字串。這樣候選字串與標(biāo)記t之間的聯(lián)系就轉(zhuǎn)化為關(guān)鍵特征集合與標(biāo)記t之間的關(guān)系,即在特征與標(biāo)記t之間建立起了有效聯(lián)系[19],據(jù)此式(2)可轉(zhuǎn)化為:
其中FS表示候選字串的關(guān)鍵特征集。若根據(jù)式(3)對(duì)訓(xùn)練關(guān)鍵特征和標(biāo)記集合,即可取得候選字串與標(biāo)記集合間的概率。鑒于條件隨機(jī)場(chǎng)模型不要求所用特征之間具有獨(dú)立性,可用之有效地整合能代表候選字串的各種關(guān)鍵特征。
對(duì)條件隨機(jī)場(chǎng)模型所用特征進(jìn)行列舉和編號(hào)(括號(hào)內(nèi)為特征編號(hào),便于后續(xù)分析):前綴(1)、雙字前綴(2)、后綴(3)、雙字后綴(4)、命名實(shí)體后綴(5)、串長(6)、串頻(7)、互信息(8)、色子矩陣(9)、左熵(10)、右熵(11)。其中,前后綴、字串長度、命名實(shí)體后綴是候選字串的基本信息;字符串頻率是重要的統(tǒng)計(jì)信息,用于統(tǒng)計(jì)字串是否頻繁出現(xiàn),來自于重復(fù)模式提取階段,某一字符串是否出現(xiàn)在候選字符串集合中在于其頻率是否高于頻率閾值。左右熵等用于檢驗(yàn)字串作為整體的前后文搭配的靈活程度?;バ畔⒑蜕酉禂?shù)用于計(jì)算字串整體結(jié)合的牢固程度。
新詞詞性猜測(cè)是新詞識(shí)別的關(guān)鍵階段,是網(wǎng)絡(luò)熱點(diǎn)新詞識(shí)別的重要環(huán)節(jié)。針對(duì)目前研究方法中存在的問題,采用的方法是:對(duì)新詞詞性猜測(cè)過程中使用的上下文標(biāo)記,由于新詞的詞性尚未確定,其上下文的詞性標(biāo)記也未確定,考慮采用多遍的掃描方式,通過第一遍掃描來獲得新詞的上下文詞性,第二遍掃描應(yīng)用新詞的內(nèi)部特征和外部特征組合來猜測(cè)新詞屬性;通過挖掘新詞的內(nèi)部特征,來提高新詞詞性猜測(cè)的準(zhǔn)確率,初步思路是在前期研究的基礎(chǔ)上,考慮將漢字的偏旁作為新的內(nèi)部特征,來提高詞性猜測(cè)準(zhǔn)確率。
中文詞法分析的特有難點(diǎn)在于,詞語沒有形態(tài)標(biāo)記;但作為表意文字,如果能充分挖掘漢字的表意特征,即可增加漢字分析的有用信息,提高處理效果。從字理分析,偏旁能在代表部分字義。如:如提、拉、打、拽都是“扌”旁,與動(dòng)作相關(guān);思、想、念、志都是“心”旁,與心理活動(dòng)相關(guān);江、河、湖、海都與水相關(guān)等。隨著漢字演化,雖然許多偏旁都產(chǎn)生了變形,但并不影響其表意功能,比如,“水”和“氵”、“心”和“忄”、“火”和“灬”等都具有相似功能。從統(tǒng)計(jì)分析來看,具有偏旁表義的漢字在常用漢字中占據(jù)了絕對(duì)多數(shù)。文獻(xiàn)[20]對(duì)3 500個(gè)常用漢字做統(tǒng)計(jì),有3 204個(gè)偏旁表意的漢字,占總數(shù)的91.4%。由于詞性與詞義密切相關(guān),偏旁與詞性必然具有內(nèi)在聯(lián)系。
在上述思路基礎(chǔ)上,本文考慮使用CRF模型作為統(tǒng)計(jì)框架,通過兩遍掃描,在上下文特征的基礎(chǔ)上,增加偏旁作為詞性猜測(cè)特征,提高新詞屬性識(shí)別的效果。
進(jìn)行了大量實(shí)驗(yàn)用于驗(yàn)證新詞識(shí)別框架的各項(xiàng)性能。因涉及3個(gè)算法性能驗(yàn)證,實(shí)驗(yàn)中使用了多種語料和工具。驗(yàn)證基于逐層剪枝的大規(guī)模語料重復(fù)模式提取算法所用的語料為搜狗實(shí)驗(yàn)室提供的大規(guī)模中文網(wǎng)絡(luò)語料(SogouT);驗(yàn)證新詞檢測(cè)以及新詞詞性猜測(cè)方法所用語料是北京大學(xué)1998年1月公開版的標(biāo)注語料(下稱199801)及蘭卡斯特大學(xué)的平衡標(biāo)注語料(下稱LCMC);實(shí)驗(yàn)中的CRF訓(xùn)練及解碼工具為“CRF++0.52”開源工具;實(shí)驗(yàn)軟硬件環(huán)境是windows XP(SP3),2 GB內(nèi)存。
為了驗(yàn)證算法的正確性,使用了10 kB的純文本語料,采用手工方法標(biāo)注所有頻率閾值為2字串長度從2到10的重復(fù)模式,實(shí)驗(yàn)結(jié)果該方法的準(zhǔn)確率和召回率皆為100%;使用10組1 MB的純文本語料,采用遞增的N-gram重復(fù)模式提取方法作為基準(zhǔn),針對(duì)頻率閾值為2字串長度從2到10的重復(fù)模式進(jìn)行實(shí)驗(yàn),結(jié)果該方法所有重復(fù)模式提取的準(zhǔn)確率和召回率皆為100%。從實(shí)驗(yàn)的角度來講,該方法能準(zhǔn)確可靠地從語料中提取重復(fù)模式。
針對(duì)不同規(guī)模的語料,處理頻率閾值為10模式長度從2到10,該算法的處理速度參見表1。
表1 算法處理速度表
從表1中可見,隨著語料規(guī)模的增長,重復(fù)模式提取速度有所降低,但基本保持在0.59 MB/s左右;該方法特別適用于大規(guī)模語料的高頻重復(fù)模式提取,當(dāng)頻率閾值進(jìn)一步增大時(shí),處理速度會(huì)得以更為顯著的提升。
為分析逐層剪枝算法(HP)對(duì)I/O讀寫次數(shù)的影響,對(duì)比不用HP方法,進(jìn)行了多組相同語料的平行實(shí)驗(yàn),結(jié)果詳見表2??梢妼?duì)相同容量的語料,使用HP過濾較不用過濾相比,讀寫數(shù)據(jù)量都有大幅度減少。為便于分析,定義過濾比來標(biāo)識(shí)HP過濾效果,定義如下:
表2 平行對(duì)比實(shí)驗(yàn)結(jié)果
根據(jù)表2中的數(shù)據(jù),使用HP進(jìn)行低頻字串過濾,能將85%以上的垃圾字串濾去;可見HP具有非常明顯的過濾效果,能有效降低I/O的讀寫次數(shù),提高重復(fù)模式查找效率。但隨著語料規(guī)模的增長,過濾比會(huì)逐漸降低,這是因?yàn)殡S著語料規(guī)模的增長,字符之間的組合變得更加復(fù)雜,造成越來越多垃圾字串通過HP過濾,進(jìn)入到候選重復(fù)模式集合中,導(dǎo)致過濾效果有所降低。
在處理語料規(guī)模大于內(nèi)存容量的重復(fù)模式提取方法中,文獻(xiàn)[19]所提出的是比較有代表性的方法,但因?qū)嶒?yàn)條件和實(shí)驗(yàn)語料不具有可比性,本文沒有進(jìn)行量化比較分析。因I/O讀寫速度要遠(yuǎn)遠(yuǎn)地低于內(nèi)存處理速度,當(dāng)語料規(guī)模超過內(nèi)存容量后,對(duì)于I/O的操作次數(shù)就成為衡量算法性能的關(guān)鍵指標(biāo)。如在處理中文語料時(shí),文獻(xiàn)[21]中方法在語料規(guī)模增大到內(nèi)存容量時(shí)其I/O操作次數(shù)約為漢字字符集規(guī)模,不超過7 000,當(dāng)語料規(guī)模進(jìn)一步增大時(shí),需要進(jìn)行二次劃分,導(dǎo)致I/O操作次數(shù)成指數(shù)級(jí)增長,會(huì)嚴(yán)重影響處理效率;而本文方法的I/O操作次數(shù)同語料規(guī)模是一種準(zhǔn)線性關(guān)系,因此對(duì)語料規(guī)模不敏感。前述實(shí)驗(yàn)中當(dāng)處理規(guī)模為32 GB的中文語料時(shí),其I/O操作次數(shù)約為16.3+6.3=22.6次。當(dāng)然,文獻(xiàn)[21]中方法適用于并行計(jì)算,若在并行環(huán)境中其處理效率會(huì)非常高,而本文算法因需要逐層剪枝和全局垃圾字串過濾,難以用于并行環(huán)境中。
在重復(fù)模式集合的基礎(chǔ)上開展候選新詞檢測(cè)實(shí)驗(yàn)。訓(xùn)練語料和測(cè)試語料分別為前面提到的北大的199801和蘭卡斯特大學(xué)的LCMC語料,在開放條件下,實(shí)驗(yàn)數(shù)據(jù)參見表3。
表3 遞增特征實(shí)驗(yàn)數(shù)據(jù)表
從表3可見,隨著有效特征的加入,新詞檢測(cè)的效果在穩(wěn)步提高。多特征組合可以發(fā)揮特征之間的綜合作用,比特征的簡(jiǎn)單組合具有更好的新詞檢測(cè)效果,實(shí)驗(yàn)4(11個(gè)特征組合)已很好地說明了這一點(diǎn)[19]。
賀敏[11]取得了較好的新詞檢測(cè)效果,在相同的封閉實(shí)驗(yàn)條件下,對(duì)比檢測(cè)實(shí)驗(yàn)數(shù)據(jù)參見表4。
表4 對(duì)比數(shù)據(jù)表 %
從表4對(duì)比分析,文獻(xiàn)[11]中召回率較高,本文在準(zhǔn)確率和綜合性能方面效果稍好。分析原因,可能是文獻(xiàn)[11]采用的實(shí)驗(yàn)語料規(guī)模很小,其性能沒有完全發(fā)揮。但從總體上看,本文所用的統(tǒng)計(jì)模型方法能有效整合不同類型的多個(gè)特征,凸顯特征間的合力作用。
為比較特征在詞性猜測(cè)中所起的作用,使用組合特征進(jìn)行對(duì)比實(shí)驗(yàn)。所用特征包括:外部特征(下稱EF)、未登錄詞本身(下稱W)、詞綴、詞長和詞綴偏旁,實(shí)驗(yàn)結(jié)果參見表5。
表5 對(duì)比實(shí)驗(yàn)數(shù)據(jù)
在外部特征和詞語本身的組合作用下,隨著詞綴、詞長及偏旁特征的依次加入,詞性猜測(cè)的準(zhǔn)確率由90.21%最終提高到94.67%,可見多種特征的共同作用是提高詞性猜測(cè)準(zhǔn)確率的可靠方法[17]。
根據(jù)表5對(duì)比可見,“偏旁”特征的表義作用是明顯的,能有效提高詞性猜測(cè)的效果。根據(jù)對(duì)比,使用“偏旁”數(shù)據(jù),3個(gè)對(duì)比實(shí)驗(yàn)的準(zhǔn)確率依次提高了1.2,0.4和0.13個(gè)百分點(diǎn)??梢姖h字偏旁特征的加入,增加了詞性猜測(cè)的有用信息,改善了詞性猜測(cè)效果。在表6中列出了具體的準(zhǔn)確率分布數(shù)據(jù)。
表6 詞性猜測(cè)效果詳細(xì)數(shù)據(jù)
隨著“偏旁”數(shù)據(jù)的加入,在實(shí)驗(yàn)1中,2字、3字及4字長詞詞性猜測(cè)準(zhǔn)確率的提升依次是:+4.11、-1.59和+0.24;在實(shí)驗(yàn)2中依次為:+1.41、-0.43和-0.25;在實(shí)驗(yàn)3中為:+0.22、+0.15和0.0。說明“偏旁”特征,能顯著提高2字詞的詞性猜測(cè)準(zhǔn)確率,但對(duì)詞長大于2詞的作用卻不明顯。分析其原因有二:(1)在短詞中字義與詞性關(guān)聯(lián)較大,而長詞因多字組合會(huì)沖淡詞性與字義間的關(guān)聯(lián);(2)因特征模板限制,對(duì)2字詞偏旁能完全覆蓋整個(gè)詞,而對(duì)于長度大于2的詞偏旁特征數(shù)據(jù)只能涵蓋首尾,這也是造成其對(duì)“長詞”作用不顯著的原因。
目前的研究成果中,Lu[22]和Qiu[16]所采用的方法具有代表性,效果也較好。Qiu等綜合應(yīng)用了內(nèi)外特征,使詞性猜測(cè)準(zhǔn)確率達(dá)到了94.2%,是目前的最好水平。對(duì)比數(shù)據(jù)參見表7。
表7 相關(guān)方法數(shù)據(jù)比較表 %
從2,3字詞的詞性猜測(cè)準(zhǔn)確率來看,Qiu的模型效果較好;而本文模型4字詞效果稍好,總體性能比之提高了0.47%。從操作層面,Qiu的模型需要預(yù)先分詞、計(jì)算詞性猜測(cè)的置信度及使用搜索引擎分析新詞的全局特征;而本文模型使用兩次掃描提取外部特征,通過字串處理和查表取得內(nèi)部特征,進(jìn)而實(shí)現(xiàn)詞性快速猜測(cè),因此該方法相對(duì)簡(jiǎn)單方便。
在大量調(diào)研和研究的基礎(chǔ)上,本文構(gòu)造了一個(gè)基于網(wǎng)絡(luò)語料的熱點(diǎn)新詞識(shí)別框架。該框架由4個(gè)主要模塊組成,本文重點(diǎn)研究和闡述了所提出的基于逐層剪枝算法的大規(guī)模語料重復(fù)模式提取、候選新詞的檢測(cè)以及新詞的詞性猜測(cè)方法,通過大量實(shí)驗(yàn)驗(yàn)證了所述方法的有效性。實(shí)驗(yàn)表明,逐層剪枝算法能將85%以上的垃圾模式預(yù)先過濾出去,并能從容量遠(yuǎn)大于內(nèi)存的語料中提取重復(fù)模式;通過統(tǒng)計(jì)模型來有效整合統(tǒng)計(jì)特征和語言特征,并深入挖掘新特征,可以有效提高新詞檢測(cè)及新詞詞性猜測(cè)的效果;根據(jù)實(shí)驗(yàn)數(shù)據(jù),該框架的新詞檢測(cè)和詞性猜測(cè)效果分別為69.83%和94.67%,是目前的較好水平。
對(duì)于新詞檢測(cè),“長詞”需要進(jìn)一步開展深入研究,而對(duì)于詞性猜測(cè),“短詞”的效果需要進(jìn)一步加強(qiáng),這兩個(gè)方面是研究需要深入開展之處。下一步工作是在現(xiàn)有研究基礎(chǔ)上,將基于重復(fù)模式的方法擴(kuò)展到大規(guī)模語料的領(lǐng)域術(shù)語識(shí)別的研究中,通過提取重復(fù)模式的方式提取候選領(lǐng)域術(shù)語。
[1]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3):8-19.
[2]張海軍,史樹敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-10.
[3]Zhang H J,Huang H Y,Zhu C Y,et al.A pragmatic model for new Chinese word extraction[C]//Proceedings ofthe 6th InternationalConference on NaturalLanguage Processing and Knowledge Engineering,Beijing,China,2010:91-98.
[4]劉挺,吳巖,王開鑄.串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語自動(dòng)分詞系統(tǒng)[J].中文信息學(xué)報(bào),1998,12(1):17-25.
[5]鄭家恒,李文花.基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動(dòng)識(shí)別初探[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2002,25(2):115-119.
[6]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測(cè)[J].中文信息學(xué)報(bào),2004,18(6):1-9.
[7]崔世起,劉群,孟遙,等.基于大規(guī)模語料庫的新詞檢測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2006,43(5):927-932.
[8]羅智勇,宋柔.基于多特征的自適應(yīng)新詞識(shí)別[J].北京工業(yè)大學(xué)學(xué)報(bào),2007,33(7):718-725.
[9]賀敏.面向互聯(lián)網(wǎng)的中文有意義串挖掘[D].北京:中國科學(xué)院研究生院,2007.
[10]黃玉蘭.有意義串挖掘及其應(yīng)用[D].北京:中國科學(xué)院研究生院,2009.
[11]賀敏,龔才春,張華平,等.一種基于大規(guī)模語料的新詞識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(21):157-159.
[12]Luo S,Sun M.Two-character Chinese word extraction based on hybrid of internal and contextual measures[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language,Sapporo,Japan,2003:24-30.
[13]Wu A,Jiang Z.Statistically-enhanced new word identification in a rule-based Chinese system[C]//Proceedings of the 2nd Chinese Language Processing Workshop,Hong Kong,China,2000:46-51.
[14]Peng F,F(xiàn)eng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedingsofthe20th InternationalConferenceon Computational Linguistics,Switzerland,2004:562-568.
[15]Nakagawa T,Matsumoto Y.Guessing parts-of-speech of unknown words using global information[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics,Sydney,Australia,2006:705-712.
[16]Qiu L,Hu C,Zhao K.A method for automatic POS guessing ofChinese unknown words[C]//Proceedings of the 22nd International Conference on Computational Linguistics,Manchester,2008:705-712.
[17]張海軍,馮沖,史樹敏,等.一種基于組合特征的新詞詞性猜測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(7):1402-1406.
[18]張海軍,潘偉民,木妮娜,等.一種自定義順序的字符串排序算法[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(9):1968-1971.
[19]張海軍,欒靜,李勇,等.基于統(tǒng)計(jì)學(xué)習(xí)框架的中文新詞檢測(cè)方法[J].計(jì)算機(jī)科學(xué),2012,39(2):232-235.
[20]馮沖.統(tǒng)計(jì)方法信息抽取中的若干關(guān)鍵技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2005.
[21]龔才春,賀敏,陳海強(qiáng),等.大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法[J].通信學(xué)報(bào),2007,28(12):161-166.
[22]Lu X.Hybrid methods for POS guessing of Chinese unknown words[C]//Proceedings of the ACL Student Research Workshop,Michigan,USA,2005:1-6.