亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

詞位標注漢語分詞中特征模板定量研究

2012-07-25 11:05:42于江德王希杰樊孝忠

計算機工程與設計 2012年3期

于江德，王希杰，樊孝忠

（1.安陽師范學院計算機與信息工程學院，河南安陽455002；2.北京理工大學計算機科學技術學院，北京100081）

0 引言

在中文信息處理領域，漢語分詞是一項基礎性研究課題。它不僅是詞性標注、命名實體識別等其他詞法分析的基礎，也是進一步句法和語義分析、文本理解等深層中文信息處理任務的基礎，更是信息檢索、數據挖掘、機器翻譯和智能信息系統(tǒng)等應用的關鍵環(huán)節(jié)［1－5］。近年來，漢語自動分詞技術取得了長足的發(fā)展［6－9］。其中，基于字的詞位標注漢語分詞技術得到了廣泛關注。在國際計算語言學會下屬的漢語處理特別興趣研究小組（special interest group on Chinese language processing，SIGHAN）舉行的一系列評測中性能領先的分詞系統(tǒng)幾乎都采用了類似的思想［10－13］。綜合分析這些文獻，都是將漢語分詞的本質看作是對一個字串的序列標注問題，借助于統(tǒng)計語言模型實現。統(tǒng)計語言建模中設定特征模板至關重要，特征模板集將直接影響模型訓練的時間、訓練后模型的大小、訓練得到的模型性能等。為了在詞位標注漢語分詞中更加準確地設定特征模板，本文采用B、M、E、S四詞位標注集，使用條件隨機場（conditional random fields，CRFs）模型從多個角度定量分析了詞位標注漢語分詞中的特征模板。文中首先簡要闡述了詞位標注漢語分詞的基本思想，然后對詞位標注建模過程中的特征模板作用進行了詳細解析，最后，使用CRF＋＋0.53工具包實現了字串序列的詞位標注，并在國際漢語分詞評測Bakeoff2005的PKU和MSRA兩種語料上進行了多組實驗，通過對實驗數據的分析，從 “量”上揭示出詞位標注漢語分詞中設定特征模板需要遵循的多組規(guī)律，為特征模板對漢語分詞及其他詞法分析任務的支持作用提供了一個 “量”上的依據。

1 詞位標注漢語分詞的基本思想

詞位標注漢語分詞方法實際上是由字構詞的方法。漢語中的每個詞語是由一個字或多個字構成的，一個詞語中的每個漢字又都有一個固定的構詞位置，即該字在詞中的位置，簡稱詞位。本文中我們規(guī)定字只有4種詞位：B表示詞首位置、M表示詞中位置、E表示詞尾位置和S表示單字成詞。而且同一個漢字在不同的詞語中可以有不同的構詞位置，例如，在 “天”、“天空”、“異想天開”、“今天”這4個詞語中都有漢字 “天”，其詞位依次是：單字成詞S、詞首B、詞中M、詞尾E。詞位標注漢語分詞技術就是把分詞過程轉化為一個字串序列的詞位標注問題。要對一個字串進行詞語切分，只要對該字串中每個字標注出詞位就可以了。

2 詞位標注漢語分詞中的特征模板

2.1 條件隨機場對詞位標注建模

2.1.1 條件隨機場簡介

條件隨機場是一種判定性模型（discriminative model），是一種基于無向圖的條件概率模型，由Lafferty等在2001年提出［14］。CRFs能夠融合復雜的、重疊的特征進行訓練和推理，通過定義給定觀察序列條件下標記序列出現的條件概率P（S｜C）來預測標注序列。用于對序列數據標注建模的條件隨機場是一個簡單的鏈狀圖（如圖1所示），稱為線鏈CRFs。

設C＝｛C1，C2，……，CT｝表示可被觀察的有待標注詞位的字序列。S＝｛s1，s2，……，sT｝表示被預測的詞位序列（例如，詞首B、詞中M等）。在給定一個可被觀察的字串序列情況下，權重參數為Λ＝｛λ1，λ2，…，λK｝的CRFs，其詞位序列的條件概率為

圖1 線鏈CRFs的圖形結構

式中：ZC——歸一化因子，公式如下

式中：fk（st－1，st，C，t）—— 一個任意的特征函數，通常是一個二值表征函數，用于表達上下文可能的語言特征。λk—— 一個需要從訓練數據中學習的參數，是相應的特征函數fk（st－1，st，C，t）的權重。特征函數fk（st－1，st，C，t）能夠整合上下文的任何特征，包括給定的字序列C在時刻當前字位置的所有特征，以及詞位轉移st－1→st特征等。

給定一個條件隨機場模型，在給定輸入數據字序列C的情況下，待預測的該字串序列最可能的詞位標注序列可以由下式通過類似于隱馬爾科夫模型中的韋特比算法動態(tài)規(guī)劃求出

2.1.2 CRFs對詞位標注問題建模

建立CRFs模型的一個關鍵問題是如何針對具體的任務選擇有效的特征集，用篩選出的特征集來表示復雜的語言現象，其實質是模型對上下文特征的刻畫，這些特征是通過特征模板從特征空間中擴展而來的。

通常情況下，上下文的選取是基于當前位置前后一定范圍進行的，這個固定的范圍稱為 “窗口”。由于語言特征要從該上下文 “窗口”中獲取，所以將該 “窗口”稱為特征空間。圖2示意了詞位標注漢語分詞中可能的特征空間。對基于字的詞位標注漢語分詞這一具體任務而言，上下文中可供選擇的特征很少，主要需要考慮的是當前字本身及其上下文中的字所構成的字特征［6］。黃昌寧等提出了構造字特征時 “使用前后各兩個字是比較理想的”的結論［6］。此時的特征空間就是一個 “5字窗口”，該窗口下字特征是指當前字本身、以及當前字前后各兩個字所組成的特征。如果選取的字特征是指當前字本身、以及當前字前后各一個字所組成的特征，此時的特征空間就是一個 “3字窗口”， “3字窗口”是文獻［6，11］中配合6詞位標注集（B、B2、B3、M、E、S）選取的特征空間。

2.2 特征模板及其作用

習慣上，特征模板可以看作是對一組上下文特征按照共同的屬性進行的抽象。在CRFs的訓練學習中，上下文的每個特征會對應了一組特征函數，這些特征函數對條件隨機場模型的訓練和學習至關重要。而每個特征又都是通過特征模板擴展而來，所以，特征模板集的設定就顯得尤為重要。

圖2 可能的特征空間

2.3 詞位標注漢語分詞中常用特征模板

本文使用條件隨機場工具包進行詞位標注的時候，設定的特征模板有兩大類：①Unigram （一元）特征模板；②Bigram （二元）特征模板。這里劃分 “一元”、 “二元”特征所依據的是特征函數中包含的詞位標記個數，而不是依據特征中的字個數來劃分，這種劃分的方法和CRF＋＋工具包中是一致的。在圖2給出的可能特征空間下，根據特征模板中出現的字與當前字的距離屬性可以將常見的字特征設定為13類，即將字特征設定為13個特征模板，這些模板屬于一元特征模板。表1詳細列出了這些特征模板的類型、特征模板的標識及其表征的意義等。從表中可以看到，僅僅有一個特征模板：T－1T0屬于二元特征模板，該模板用于表征上下文中相鄰兩個字所對應的詞位之間的轉移特征st－1→st。在模型的訓練中該模板擴展出的特征數是有限的，從實驗數據中容易知道：四詞位標注漢語分詞中此類特征模板可以擴展出16個（詞位轉移）特征。

表1 特征模板

為了對詞位標注漢語分詞中的特征模板有個 “量”的認識，我們從多個角度進行定量分析并設計了相關實驗。表2列出了實驗中用到的幾組特征模板集。其中，TMPT－10是在相關工作中最常用的一組特征模板，TMPT－10’是本文作者在前期研究中用到的一組特征模板［15］，TMPT－6是文獻［6，9，11］中使用的特征模板，它是配合6詞位標注集使用的。后綴 “Single”和 “Double”分別表示相應特征模板集中的單字或雙字特征模板。例如，T10－Single是指TMPT－10中單字特征模板。另外所有的特征模板集都可以包括詞位轉移特征模板T－1T0，由于在特征模板的表示文件中對應的特征模板是B，所以，相應的特征模板集名稱用 “＋B”表示。

表2 特征模板集

3 特征模板定量分析實驗

3.1 實驗環(huán)境、實驗數據集及性能評估

本文所有實驗是在實驗室DELL Optiplex 760臺式機上進行，軟硬件環(huán)境主要參數為：CPU：Intel（R）Core（TM）2Quad CPU Q8200 2.33GHZ；內存：4GB；操作系統(tǒng)：Microsoft Windows XP Professional 2002Service Pack 3。

本文實驗所使用的訓練語料和測試語料是由國際計算語言學會舉辦的第二屆國際中文分詞評測Bakeoff2005所提供的簡體中文語料，這些語料分別是由北京大學（PKU）和微軟亞洲研究院（MSRA）提供的。

在對漢語分詞性能進行評估時，采用了同類評測中常用的5個評測指標：準確率（P）、召回率（R）、綜合指標F值（F）、未登錄詞召回率（OOVRR）、詞表詞召回率（IVRR）。

3.2 實驗及其結果分析

3.2.1 實驗設計

我們設計了3組實驗，分別從不同的角度對詞位標注漢語分詞中特征模板進行定量研究。①模型訓練過程反映出的 “量”屬性。本組實驗關注的是不同特征模板對模型訓練的影響，主要從不同模板擴展出的特征數、模型訓練時間、迭代次數、訓練出的模型大小等幾個 “量”化指標進行考察。②不同特征模板對分詞性能的貢獻情況。本組實驗關注的是使用不同特征模板集訓練出的模型的分詞性能情況。③詞位轉移特征模板：T－1T0的影響。

3.2.2 特征模板對模型訓練的影響

我們首先分別使用表2中的9組特征模板集（都不包含詞位轉移特征模板），在PKU和MSRA兩個語料集上進行了漢語分詞的訓練，表3給出了訓練過程記錄數據，其中f參數值是訓練過程中特征出現次數所取的閾值，因為本文所用工具包在訓練語料較大、特征數較多時不能完成訓練致使部分數據為空。

綜合分析表3中的數據可以得出如下結論：①同等條件下，訓練出的模型大小與擴展出的特征數成正比。②模型訓練的時間長短和擴展出的特征數并沒有必然聯(lián)系。例如，在MSRA訓練語料上，6號特征模板集擴展出61 884個特征，訓練時長為2337.98s。而7號特征模板集擴展出的特征數為6 231 012個，訓練時長僅為1778.14s。③不同的單字特征模板在同一語料中擴展出的特征數基本相同。例如，第4、6、9號特征模板集分別由5個（C－2，C－1，C0，C1，C2）、3個（C－1，C0，C1）和1個（C0）單字特征模板構成，不論在MSRA訓練語料還是PKU訓練語料上，由4號、6號特征模板集擴展出的特征數是由9號特征模板集擴展出的特征數的5倍、3倍。這個結論也在其他實驗中得到了進一步驗證。④雙字特征模板擴展出的特征數要比單字特征模板擴展出的特征數多得多。

3.2.3 特征模板對分詞性能的影響

第二組實驗采用第一組實驗訓練出的模型對測試語料進行分詞，該組實驗關注的是使用不同特征模板集訓練出的模型的分詞性能情況，采用漢語分詞性能評估的5個評測指標進行考察。并從更深的層次分析了不同特征模板對分詞性能的貢獻情況。表4給出了這9組特征模板集訓練出的模型在PKU和MSRA測試語料上的分詞性能。

綜合分析表4中的數據可以得出如下結論：①TMPT－10、 TMPT－10 ’、 TMPT－6、 T10－Double、 T6－Double、TMPT－5這些特征模板集分詞性能差別較小，綜合指標F值的差別在2個百分點以內。這些特征模板集都包含雙字以上特征模板。②單字特征模板對分詞性能的貢獻要比雙字特征模板小很多。例如，在PKU語料上，從6號特征模板集到4號特征模板集，增加了兩個單字特征模板：C－2，C2，綜合指標F值從78.1%增加到了82.0%。而從6號特征模板集到8號特征模板集，增加了兩個雙字特征模板：C－1C0，C0C1，F值從78.1%增加到了90.9%。在 MSRA語料上，也有同樣的規(guī)律。③特征空間從 “3字窗口”擴大到 “5字窗口”對分詞性能的提高也很有限，綜合指標F值的變化在1個百分點左右。

表3 PKU和MSRA語料上的訓練過程記錄數據

表4 不同特征模板集的分詞結果

3.2.4 詞位轉移特征模板的影響

從2.3節(jié)對特征模板的分析可知，所有用于訓練的特征模板集都可以包括詞位轉移特征模板T－1T0，該模板是唯一的二元特征模板。該組實驗選取了1～7號特征模板集進行了包含和不包含詞位轉移特征模板對模型訓練、分詞性能等方面影響的對比實驗。表5給出了這些特征模板集訓練過程的對比數據，對比實驗過程中除特征模板集包含或不包含B模板的區(qū)別外，其他參數都相同。

對比表5中的數據可以得出如下結論：①增加B特征模板之后，訓練中擴展出的特征數都增加了16，這也進一步驗證了在四詞位標注漢語分詞中該模板可以擴展出16個（詞位轉移）特征。②訓練時間和迭代次數都大大增加，是相應的2倍以上。例如，增加B模板后，訓練時間是相應特征模板集訓練時間的2.14～5.59倍。③增加B特征模板基本不改變訓練出的模型大小。

表6給出了1～7號特征模板集包含和不包含B模板的分詞結果對比數據。對比表6中的數據可以得出如下結論：增加B特征模板之后，兩種語料上反映分詞性能的5個指標除了一組數據（見斜體加粗部分）之外，其他所有的數據都是清一色的增加，雖然增加的幅度不是太大。所以，加入詞位轉移特征對分詞性能是有提高的。

4 結束語

漢語分詞作為中文信息處理領域一項基礎研究課題，從首屆國際漢語分詞評測活動以來得到了廣泛的關注，其中基于字的詞位標注漢語分詞技術成為主流。為了在詞位標注漢語分詞中更加準確地設定特征模板，本文采用B、M、E、S四詞位標注集，使用條件隨機場模型從多個角度定量分析了詞位標注漢語分詞中的特征模板。通過對實驗數據的分析，從 “量”上揭示出詞位標注漢語分詞中設定特征模板需要遵循的多組規(guī)律：①同等條件下，訓練出的模型大小與擴展出的特征數成正比。②不同的單字特征模板在同一語料中擴展出的特征數基本相同，單字特征模板對分詞性能的貢獻要比雙字特征模板小很多。③增加B特征模板之后，訓練時間大大增加，模型大小基本不變，對分詞性能都是正增長。這些規(guī)律為特征模板對漢語分詞及其他詞法分析任務的支持作用提供了一個 “量”上的依據。

表5 包含和不包含詞位轉移特征模板的訓練過程對比數據

表6 不同特征模板集的分詞結果

［1］JIANG Wei，WANG Xiaolong，GUAN Yi，et al.Research on Chinese lexical analysis system by fusing multiple knowledge sources［J］.Chinese Journal of Computers，2007，30 （1）：137－145 （in Chinese）.［姜維，王曉龍，關毅，等.基于多知識源的中文詞法分析系統(tǒng) ［J］.計算機學報，2007，30 （1）：137－145.］

［2］LUO Yanyan，HUANG Degen.Chinese word segmentation based on the marginal probabilities generated by CRFs ［J］.Journal of Chinese Information Processing，2009，23 （5）：3－8（in Chinese）.［羅彥彥，黃德根.基于CRFs邊緣概率的中文分詞［J］.中文信息學報，2009，23 （5）：3－8.］

［3］ZHAO Hai，Chunyu Kit.Unsupervised segmentation helps supervised learning of Character tagging for word segmentation and named entity recognition ［C］.Proceedings of the Six SIGHAN Workshop on Chinese Language Processing.Hyderabad，India：ACL Press，2008：106－111.

［4］YANG Erhong，FANG Ying，LIU Dongming，et al.The evaluation of Chinese word segmentation and POS tagging ［J］.Journal of Chinese Information Processing，2006，20 （1）：44－49 （in Chinese）.［楊爾弘，方瑩，劉冬明，等.漢語自動分詞和詞性標注評測［J］.中文信息學報，2006，20 （1）：44－49.］

［5］JIANG Wenbin，HUANG Liang，LIU Qun，et al.A cascaded linear model for joint Chinese word segmentation and part－of－speech tagging ［C］.Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics，2008：897－904.

［6］HUANG Changning，ZHAO Hai.Chinese word segmentation：A decade review ［J］.Journal of Chinese Information Processing，2007，21 （3）：8－19 （in Chinese）. ［黃昌寧，趙海.中文分詞十年回顧［J］.中文信息學報，2007，21 （3）：8－19.］

［7］SONG Yan，CAI Dongfeng，ZHANG Guiping，et al.Approach to Chinese word segmentation based on character－word joint decoding ［J］.Journal of Software，2009，20 （9）：2366－2375（in Chinese）.［宋彥，蔡東風，張桂平，等.一種基于字詞聯(lián)合解碼的中文分詞方法［J］.軟件學報，2009，20（9）：2366－2375.］

［8］ZHAO Hai，HUANG Changning.Effective tag set selection in Chinese word segmentation via conditional random field modeling［C］.Wuhan，China：Proceedings of PACLIC－20，2006：87－94.

［9］HUANG Changning，ZHAO Hai.Which is essential for Chinese word segmentation：Character versus word ［C］.Wuhan，China：Proceedings of PACLIC－20，2006：1－12.

［10］ZHAO Hai，JIE Chunyu.Effective subsequence－based tagging for Chinese word segmentation ［J］.Journal of Chinese Information Processing，2007，21 （5）：8－13 （in Chinese）.［趙海，揭春雨.基于有效子串標注的中文分詞［J］.中文信息學報，2007，21 （5）：8－13.］

［11］HUANG Changning，ZHAO Hai.Character－based tagging：A new method for Chinese word segmentation ［C］.Proceedings of Chinese Information Processing Society 25Annual Conference.Beijing，China：Tsinghua University Press，2006：53－63 （in Chinese）. ［黃昌寧，趙海.由字構詞——中文分詞新方法［C］.中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集，北京：清華大學出版社，2006：53－63.］

［12］HUANG Degen，JIAO Shidou，ZHOU Huiwei.Dual－layer CRFs based on subword for Chinese word segmentation ［J］.Journal of Computer Research and Development，2010，47（5）：962－968 （in Chinese）.［黃德根，焦世斗，周惠巍.基于子詞的雙層CRFs中文分詞［J］.計算機研究與發(fā)展，2010，47 （5）：962－968.］

［13］Levow G.The third international Chinese language processing bakeoff：word segmentation and named entity recognition［C］.Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney：ACL Press，2006：108－117.

［14］Pereira L J，Mccallum F A.Conditional random fields：Probabilistic models for segmenting and labeling sequence data［C］Proceedings of 18th Int Conf on Machine Learning.San Francisco，USA：AAAI Press，2001：282－289.

［15］YU Jiangde，SUI Dan，FAN Xiaozhong. Word－positionbased tagging for Chinese word segmentation ［J］.Journal of Shandong University （Engineering Science），2010，40 （5）：117－122（in Chinese）. ［于江德，睢丹，樊孝忠.基于字的詞位標注漢語分詞［J］.山東大學學報（工學版），2010，40（5）：117－122.］