孫 曉, 李承程, 葉嘉麒, 任福繼
(1.合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009;2.情感計算與先進智能機器安徽省重點實驗室,安徽 合肥 230009)
基于重復字串的微博新詞非監(jiān)督自動抽取
孫 曉1,2, 李承程2, 葉嘉麒2, 任福繼1,2
(1.合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009;2.情感計算與先進智能機器安徽省重點實驗室,安徽 合肥 230009)
文章基于重復字串的統(tǒng)計特征,同時分析微博中存在的口語化語言特點制定相應的語言規(guī)則,采用統(tǒng)計和規(guī)則相結合的方法,首先對微博的語料進行分詞,然后從分詞碎片中提取重復出現(xiàn)2次及2次以上的新詞,通過多層過濾,得到最終的候選新詞。實驗結果證明,該方法有效地保證了較高的準確率和召回率,同時保證了新詞的抽取速度。
自然語言處理;中文分詞;重復字串;分詞碎片
中文文本的自動切分[1-2]是自然語言處理領域一項重要的基礎工作。新詞的識別和處理是制約中文分詞系統(tǒng)精度進一步提高的困難之一。目前,新詞抽取研究主要集中在實體名詞的抽取,特別是人名、地名、機構名的抽?。?]。其他新詞在構成上基本沒有普遍的規(guī)律,相關的研究較少,識別率也很低。新詞抽取所使用的方法主要有基于統(tǒng)計和基于規(guī)則的方法[4]?;诮y(tǒng)計的方法容易實現(xiàn),但受統(tǒng)計語料的影響非常明顯;基于規(guī)則的方法準確率高,但對規(guī)則庫完備性有很大的依賴性。目前的研究趨勢是將這2種方法結合使用。本文采用統(tǒng)計和規(guī)則相結合的方法,在已完成分詞標注的語料中,將重復出現(xiàn)的新詞,包括實體名詞和其他新詞,從分詞碎片中提取出來。
本文的新詞發(fā)現(xiàn)思路是先對微博中的文檔進行文本切分[5],然后從分詞碎片中提取待識別的字串。根據(jù)統(tǒng)計信息,計算字串的全排列子串特征值,提取候選新詞。對候選新詞規(guī)則過濾,得到新詞抽取結果。
新詞抽取的工作流程主要分為統(tǒng)計信息學習、統(tǒng)計特征選取及應用、規(guī)則過濾等部分,如圖1所示。
圖1 新詞抽取的工作流程
漢字在構詞時有一定的特征,新詞的“新形勢、新意義、新用法”不是憑空而來,而是有一定的規(guī)律可循的,而這些規(guī)律可以通過對語料庫的學習得到。本文所采用的新詞特征,按照特征所依賴的信息來源,分為基于局部重復字串的特征和基于全局用詞信息的特征。
1.1.1 基于局部重復字串的特征
“局部”指的是當前要處理的文檔,根據(jù)當前文檔中能夠獲得的統(tǒng)計信息,計算特征值。
(1)字串共現(xiàn)次數(shù)RT(Repeated Time)。字串共現(xiàn)次數(shù)即字串在文檔中重復出現(xiàn)的次數(shù)。因為研究對象是“重復字串”,所以如果某一候選新詞在文中只出現(xiàn)過1次,則不在處理范圍之內。
(2)基于字串共現(xiàn)次數(shù)的互信息?;バ畔⑹切畔⒄撝械囊粋€概念,可以用來衡量2個事件的相關程度。本文中互信息表示的含義是字串ab中a與b聯(lián)系的緊密程度。
令P(x)為x在語料中出現(xiàn)的概率,P(ab)為字串共現(xiàn)概率,則傳統(tǒng)的互信息公式為:
這種傳統(tǒng)的互信息公式只給出了二字字串的計算公式,也就是說將抽取對象限制在二字新詞,這并不是本文的研究初衷。但是對于多字字串,不妨設為C1C2…Cn,如果分母仍然定義為P(C1)P(C2)…P(Cn),則字串越長,互信息值越大。為了避免該情況,本文對多字字串互信息公式定義如下:
為檢驗(2)式,將新詞語料中多字詞的特征值與二字詞的特征值比較,如圖2所示。從圖2中可以看出,兩者的取值范圍、數(shù)據(jù)分布都很相似,這也表示I(C1C2…Cn)可以很好地描述多字字串的互信息特征。
圖2 多字字串與二字詞的互信息特征值比較
對傳統(tǒng)的互信息公式,考慮極端的情況[1]:2個字的出現(xiàn)是完全依賴的,即總是一起出現(xiàn)的。則有:
即在完全依賴的二元組中,當二元組出現(xiàn)的次數(shù)增加時,其互信息值減小。這是不希望看到的。因為直觀上來講,詞的出現(xiàn)次數(shù)越高,是新詞的可能性也就越大。對于這個問題,本文所設計的解決方法是將字串重復出現(xiàn)次數(shù)引入互信息公式,稱之為基于字串共現(xiàn)次數(shù)的互信息。嘗試多種具體的引入方法,其中比較好的引入方法有以下2種:
CI、LCI的多字字串公式依(2)式作了相應擴展。
1.1.2 基于全局用詞信息的特征
“全局”是相對于上一節(jié)的“局部”而言的,指的是漢字用詞信息,根據(jù)漢字用詞信息,計算這一部分特征的值。
(1)成詞率IWP。通過對語料庫的統(tǒng)計發(fā)現(xiàn),有些漢字的獨立性很差,一般情況下均與其他漢字成詞出現(xiàn),如們、彷、凰、鴛等,而有些漢字則恰恰相反,一般都是作為單字出現(xiàn),如洗、又、您等。為了表示這種漢字成詞的特點,引入漢字的成詞率IWP(in-word probability)特征。二字字串的IWP值是組成字串的漢字的IWP乘積,定義如下:
其中,C(x,w)為漢字x作為詞在統(tǒng)計語料中出現(xiàn)的次數(shù);C(x)為x出現(xiàn)的總次數(shù)。很多參考文獻只將該特征作用于二字字串[2-3],本文希望該特征可以作用的新詞長度不受限制,所以引入多字字串的IWP定義。當然,對多字字串IWP的定義,如果仍然是組成該字串漢字的IWP乘積,則字串越長,IWP值越小。與(4)式的解決辦法一樣,多字字串IWP定義為:
為檢驗IWP(C1C2…Cn),將多字詞的IWP特征值與二字詞IWP值比較,如圖3所示。
圖3 多字詞和二字詞的IWP特征比較
從圖3中可以看出,多字詞與二字詞在數(shù)值分布上完全具有可比性,這也說明IWP的多字字串計算公式可以很好地描述多字新詞的特征。
(2)位置相關成詞率POS-IWP。漢語中有一部分漢字,如詞的前/后綴,傾向于出現(xiàn)在詞的某一位置。例如“率”通常出現(xiàn)在詞的結尾,如召回率、精確率。由此特點,得到擴展的IWP特征——位置相關成詞率特征POS-IWP,表示漢字出現(xiàn)在詞的某一位置時的概率。
根據(jù)漢字在詞中的位置,分為詞首成詞概率Fir-POS-IWP、詞中成詞概率 Mid-POS-IWP和詞尾成詞概率 Last-POS-IWP。計算公式如下:
其中,C(x)為漢字x在語料中出現(xiàn)的次數(shù);C(x-Fir)、C(x-Mid)、C(x-Last)分別為x在詞首、詞中、詞尾出現(xiàn)的次數(shù)。直觀經驗,詞的前綴、后綴多出現(xiàn)在多字詞中,所以,對分詞詞典中的10 000個二字詞和10 000個多字詞,計算比較它們的該特征值,如圖4所示。根據(jù)圖4中顯示,多字詞的POS-IWP特征整體上大于二字詞,而且在分布上也更集中。所以,在特征使用時,該特征只作用于多字詞。
圖4 二字詞和多字詞的POS-IWP值比較
(3)構詞相似度。統(tǒng)計詞語在構成上的特點,可發(fā)現(xiàn)總有一些字對在構成上具有相似性,如字對“上/下”,就有 “上/下班”、“上/下臺”等。而很多新詞在形成時,就是以詞典中現(xiàn)有的詞作為模版。如已知字對“上/下”在構詞上具有很大的相似性,且 “下載”為詞典中已有的詞,則可判定字串 “上載”為新詞。同時,這種相似性又具有位置相關的特點,如可以用“下載”來判定“上載”是新詞,但不可以判定“載下”是新詞。文獻[2]就該特征作過詳細的分析。本文采用的公式就是其中關于該特征的方法,并針對微博語料做了相應的改進。
為了計算候選新詞的某些特征值,需要統(tǒng)計漢字的成詞信息,如作為詞出現(xiàn)的概率、作為單字出現(xiàn)的概率等。這就是統(tǒng)計信息學習的工作。本實驗采用北大已切分標注好的《人民日報》2000年上半年的語料構建初始的分詞工具[6-7],同時構建相應的系統(tǒng)詞庫,并約定不在該詞庫內的詞均視為新詞,因此可以利用《人民日報》下半年的語料作為測試語料,或者利用其他語料,例如微博語料作為測試語料,該語料曾由合肥工業(yè)大學情感計算與先進智能機器安徽省重點實驗室進行過修正。利用該語料,統(tǒng)計每個漢字的用詞信息。利用上述特征,確定一種判斷重復字串是否為新詞的綜合作用形式。因為上述特征表達的都是一種閾值的概念,即僅當字串的某個特征值大于該特征的閾值時,則該字串符合該特征,需要首先確定各個特征的概率閾值。通過實驗,最終選取的特征閾值和相應實驗結果的Fnew見表1所列。
表1 單個特征作用時的結果
因為本文研究對象是“重復字串”,所以重復字串共現(xiàn)次數(shù)的閾值設定為2,即只研究在文中出現(xiàn)了2次或2次以上的字串。根據(jù)Fnew值的大小,互信息特征公式選擇CI。根據(jù)特征單獨作用時的結果,確定綜合作用函數(shù),共試驗了3種作用形式。
(1)層次沙漏過濾形式。該作用方式模擬層次沙漏過濾的形式,所有重復字串的全排列子串相當于要過濾的沙粒,經過沙漏的層層過濾,最后得到“新詞”。具體作用形式如圖5所示。
對新詞語料實驗,實驗結果為:P=93.75%,召回率R=20.24%,F(xiàn)new=42.40%。
實驗結果的召回率低說明:并不是每個新詞都符合所有的新詞特征,而只是符合其中的幾個。于是,考慮使用特征加和的作用形式。
圖5 沙漏過濾模型
(2)閾值的特征加和。閾值特征加和形式的函數(shù)計算公式如下:
其中,IWP、CI、FANA 作用于二字字串;IWP、CI、POS-IWP作用于多字字串。這樣,每個字串的Thresbool最大為3。本文規(guī)定當Thresbool>=2時,即當字串至少滿足2個特征時,認為該字串為新詞。
對新詞語料處理,實驗結果為:P=85.28%,R=92.92%,F(xiàn)new=87.68%。
召回率尚且令人滿意,但是精確率很低。分析原因,可能是因為將特征同等對待,沒有考慮各個特征的個性。于是,改進綜合作用公式,產生下面一種特征加和的形式。
(3)值的特征加和。為了區(qū)別各個特征的作用大小,直接使用各個特征值構建綜合作用函數(shù)。正比調整特征的實驗數(shù)據(jù)結果,使它們的取值范圍在同一個數(shù)量級。在實驗中,嘗試了很多種該思想下的綜合作用公式,這里不再一一介紹,僅介紹最終采用的效果較好的方法。公式如下:
當Thresvalue>=0時,認為該字串為新詞。
(12)式充分考慮到了每個特征的作用特點,如由于CI有利于實體名詞的抽取,所以實際上提高了CI特征的作用權重;由于FANA的限制性太強,降低了該特征的作用權重[8]。對新詞語料進行實驗,實驗結果為:P=89.13%,R=91.54%,F(xiàn)new=89.92%。相對前2種作用形式,效果較好。
從實驗結果分析來看,單純的統(tǒng)計方法對于語料庫的選擇和統(tǒng)計公式的制訂有很大的依賴性,在閾值選擇時也不可能窮盡所有的可能閾值,這難免會影響取得最佳實驗結果。必須引入語言學知識,通過規(guī)則方法來提高準確度。
通過大量的語料統(tǒng)計分析發(fā)現(xiàn),某些單字由于自身意義或者詞性的原因,很少用來組成新詞。本文將它們收集起來,歸結為停用詞表,見表2所列。在實驗中,一旦所處理字串中含有停用詞表中的詞,則認為該字串不可能成詞。
表2 停用詞表舉例
基于前期統(tǒng)計實驗結果,發(fā)現(xiàn)有很多中文姓名只提取到名而沒有提取到姓,例如:“李宇春”只提取到“宇春”,“廖風德”只提取到“風德”等。分析原因是因為詞典中并不收錄姓名,姓氏成詞率大多數(shù)都很低,一般在50%以下,例如“王”的成詞率為19.62%,“趙”的成詞率為3.71%;存在一部分成詞率高的姓氏用詞,例如“焦”成詞率為83.33%,這主要是因為“焦”不僅是姓氏用詞,其他意思的應用也很廣泛,像“焦急”、“焦黑”。所以,制定姓氏用詞的調整規(guī)則,統(tǒng)計分詞語料中的姓氏用詞,如“李”、“張”、“蘇”、“潘”等,當它們作為字串的首字出現(xiàn)時,人工提高其成詞率至95%。
分析新詞抽取錯誤的字串,發(fā)現(xiàn)有很多字串都是“量詞+名詞”的形式,例如“首歌”、“包藥”等。以“首歌”為例,分析原因,是因為文檔中多次出現(xiàn)“兩首歌”、“這首歌”之類的碎片,可能每個碎片都只出現(xiàn)了1~2次,但它們重復的部分——“首歌”就出現(xiàn)了很多次,于是被當成“新詞”抽取出來。從詞語構成來看,量詞一般不出現(xiàn)在詞的第1個字。所以,制定量詞詞首停用的規(guī)則。統(tǒng)計語料中出現(xiàn)的量詞,如“盒、包、輪”等,匯集成詞首量詞表。如果字串中第1個字是量詞,則認為該字串不會組成新詞。因為這些規(guī)則的制定都是針對閉式測試的結果而定的,而且閉式測試的語料規(guī)模也不是足夠大,會使得規(guī)則適用的廣泛性不是很強,在開始測試時出現(xiàn)一定的問題。
閉式測試語料共105篇《人民日報》2000年下半年的語料,包括新聞、體育、農業(yè)、醫(yī)學、車市、宗教等話題領域。在只有統(tǒng)計特征和停用詞表規(guī)則的作用時,實驗結果為:準確率P=89.13%,召回率R=91.54%,F(xiàn)new=89.92%。其中,68%的未召回新詞為實體名詞,24%的未召回新詞是只召回名而沒有召回姓的中文姓名,32%錯誤召回的新詞是量詞作為詞首的情況。
在引入姓氏成詞率的規(guī)則提高、量詞詞首停用的規(guī)則后,實驗結果為:準確率P=92.00%,召回率R=92.48%,F(xiàn)new=92.16%。
本文所采用的分詞程序并不針對專有領域,因為專有領域的語料切分需要專有領域的切分詞典,所以本文實驗也并不針對專有領域。將專業(yè)領域的分詞結果與一般領域分別統(tǒng)計,一般領域的試驗結果為:
準 確 率 =94.15%; 召 回 率R=93.20%;Fnew=93.83%。
開式測試的語料是從新浪微博、騰訊網隨機下載的200條不限定話題微博。因為新聞對專業(yè)領域涉及得較少,實驗結果比較具有普遍意義。實驗 結 果 為:準 確 率P=90.12%,召 回率R=86.90%,F(xiàn)new=89.02%。
切分后的語料舉例如下:
原語料:面對一波高過一波的“倒詠 ”聲,李詠 只能在自己的博客 中喊冤。
文本切分后:面對/一/波/高/過/一/波/的/“/倒/詠/”/聲/,李/詠/只/能/在/自 己/的/博/客/中/喊冤/。
分詞碎 片:“一/波/高/過/一/波/的/“/倒/詠/”/聲”、“李/詠/只/能/在”、“的/博/客/中”。
抽取出的新詞:“倒詠”、“李詠”、“博客”。
停用詞表的影響:停用詞表是針對新詞而言的,即新詞中不可能出現(xiàn)的詞,但是如果有一些詞典中的詞在分詞階段沒有被識別出來,而該詞語又含有停用詞表中的字/詞,則該詞也不會被當作新詞識別出來。例如“一通三防”,分詞程序沒有將該成語識別出來,但由于其中含有停用字“一”,新詞抽取只抽取“三防”。高頻詞的影響:雖然前面已經用規(guī)則過濾掉一些高頻詞,但是規(guī)則庫還很不完善,抽取錯誤結果中還有很多是由于高頻單字的影響,如“張貴林稱”、“車貸不”、“控球后”等。實驗作用對象“重復字串”的限制:既然是“重復字串”,則只研究至少在文中出現(xiàn)過2次的新詞,如果某一新詞只在文中出現(xiàn)過1次,則本文不能夠將其識別出來。
本文利用統(tǒng)計和規(guī)則相結合的方法,對新浪微博文檔中重復出現(xiàn)的新詞自動抽取進行了研究,并構建了非監(jiān)督的微博新詞抽取系統(tǒng)。分析了傳統(tǒng)的特征公式,針對新詞識別的特點,對傳統(tǒng)互信息公式進行了修正,提出基于共現(xiàn)次數(shù)的互信息特征。擴展定義了IWP、互信息特征對多字字串的計算公式,使特征的新詞抽取范圍由二字新詞擴展至任意長度的新詞。對統(tǒng)計方法的識別結果分析之后,制定相應的規(guī)則方法。但本次實驗的新詞規(guī)模不夠大,可能使統(tǒng)計結果分析存在一定的偏差,規(guī)則庫的制定也有待完善。后繼研究將就以下問題進行:加入時間相關的因素,畢竟在人們通俗的理解中,“新詞”不只是相對辭典而言,還具有一種“某一時間之后出現(xiàn)的”概念。鑒于實體名詞有其自身特有的構詞特點,在以后的研究中,將對中文實體名詞的識別與其他新詞的識別分開處理。
[1]許高建,胡學鋼,路 遙,等.一種改進的中文分詞歧義消除算法研究[J].合肥工業(yè)大學學報:自然科學版,2008,31(10):1622-1625.
[2]王 敏,葉寬余,薛 峰.一種面向網店商品搜索的中文分詞系統(tǒng)設計[J].合肥工業(yè)大學學報:自然科學版,2012,35(6):772-775,813.
[3]Li Hongqiao,Huang Changning,Gao Jianfeng,et al.The use of SVM for chinese new word identification[C]//IJCNLP2004,2004.
[4]秦 文,苑春法.基于決策樹的漢語未登錄詞識別[J].中文信息學報,2004(1):14-19.
[5]Sun Xiao.Discriminative latent model based chinese multiword expression extraction[J].China Communications,2012,9(3):124-133.
[6]Sun Xiao,Huang Degen,Song Haiyu,et al.Chinese new words identification:A latent discriminative model with global features[J].Journal of Computer Science and Technology,2011,26(1):14-24.
[7]孫 曉,黃德根.基于最長次長匹配分詞的一體化中文分詞與 詞 性 標 注 [J].大 連 理 工 大 學 學 報,2010,50(6):1028-1034.
[8]Zhou Guodong.A chunking strategy towards unknown word detection in Chinese word segmentation[C]//Proc IJCNLP 2005,Jeju Island,Korea,2005:530-541.
Unsupervised model for Microblog new words detection based on repeated string
SUN Xiao1,2, LI Cheng-cheng2, YE Jia-qi2, REN Fu-ji1,2
(1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China;2.Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine,Hefei 230009,China)
The characteristics of oral Microblogging text is studied to develop appropriate language rules,and the statistics and rules based methods are combined based on the statistical characteristics of the repeated string.First,the Microblogging corpus is segmented with the existing system dictionary.Then the new words that appear twice or more than twice are extracted from the sub-word fragments.Through the multilayer filtering,the candidate new words are recognized.The experimental results show that the method is effective in ensuring higher levels of precision and recall rate as well as the extraction speed of the new words.
natural language processing;Chinese word segmentation;repeated string;sub-word fragment
TP391
A
1003-5060(2014)06-0674-06
10.3969/j.issn.1003-5060.2014.06.008
2013-07-10
國家自然科學基金資助項目(61203315);國家高技術研究發(fā)展計劃(863計劃)資助項目(2012AA011103)和安徽省科技攻關計劃資助項目(1206c0805039)
孫 曉(1980-),男,山東龍口人,博士,合肥工業(yè)大學副教授,碩士生導師.
(責任編輯 張 镅)