艾山·吾買爾,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,早克熱·卡德爾,買合木提·買買提,亞森·艾則孜
(新疆大學 信息科學與工程學院,新疆 烏魯木齊,830046)
基于條件隨機場的維吾爾文組塊分析
艾山·吾買爾,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,早克熱·卡德爾,買合木提·買買提,亞森·艾則孜
(新疆大學 信息科學與工程學院,新疆 烏魯木齊,830046)
該文對維吾爾語樹庫標注體系進行分析,根據(jù)組塊劃分原則,在短語標記集的基礎上制定了維吾爾語組塊標記集,從已完成標注的3 000句語料庫構建組塊庫。根據(jù)維文語言的特點,在英漢組塊識別特征基礎上,增加了詞干、詞綴、同義詞標記等特征。該文中的性能評價指標采用了國際通用的準確率,召回率和F值,3 000個標注句子作為訓練和測試語料庫用,實驗采用了交叉驗證法,訓練和測試語料庫的比例分別為9∶1,8∶2,2∶1,召回率分別為80.34%,76.87%,66.76%。實驗表明,語料庫規(guī)模對模型性能影響較大。
條件隨機場;維吾爾;組塊分析
組塊是一種位于詞語和句子中間的句法結構,也稱作淺層句法分析(shallow parsing)或部分句法分析(partial parsing),致力于識別句子中的某些結構相對簡單、功能和意義相對重要的成分,而不以完整的句法分析樹作為目標,從而簡化分析的復雜度,提升分析的性能。Abney在1991年率先提出了組塊分析的思想[1]。國外的學者們采用基于轉換的錯誤驅動學習方法、基于規(guī)則的分析方法等對組塊分析進行了研究。2000年,國際自然語言學習會議(Computational Language Learning,CoNLL)在Abney描述的組塊定義框架的基礎上,重新分解和細化了組塊的定義,并提出了英文的組塊分析共享任務[2]。在這個定義下,很多學者嘗試了使用基于支持向量機、基于手寫規(guī)則、基于半指導學習等方法解決組塊分析問題[3-4]。
近幾年來,中文組塊分析研究逐步得到人們的重視。周強在1996年對中文的語塊和基本短語進行了研究[5]。1999年,趙軍和黃昌寧對漢語基本名詞短語的定義和自動識別進行了研究[6]。中國科學院計算技術研究所的李素建提出了12種漢語組塊類型,根據(jù)這些組塊類型和賓州大學中文樹庫短語類型的對應關系進行轉化得到組塊庫[7]。周強進行了大規(guī)模中文語料庫的組塊標注研究[5],建立了一個完整的組塊劃分體系,構建了200萬漢字的組塊平衡語料庫[8],張玉潔等也對中文組塊分析進行了研究[9]。文獻[10]提出了一體化的分析模型,文獻[11]提出了一種基于分治策略的組塊分析方法。
因(維語)自然語言處理技術的研究起步較晚,詞法分析技術沒達到可用水平等原因,維語句法分析技術的研究基本處于初級階段。本文中對維語組塊分析進行研究,采用條件隨機場建立了組塊分析算法。
2.1 組塊定義和劃分原則
根據(jù)Abney的定義,本文中為維語組塊確定如下定義。
定義1 組塊是一種較詞復雜而較句子簡單,處于詞和短語之間,具有一定句法功能的非遞歸、不重疊、不嵌套的短語。
對上面的定義進行詳細的解讀: 組塊由詞序列組成,其被標記了句法功能標記,并且是非遞歸、非嵌套的。組塊內(nèi)部一般包含一個中心成分以及中心成分的前置修飾成分,而不包含后置附屬結構。組塊處于詞和短語之間,最簡單的組塊就是一個詞,而最長的組塊就是非嵌套的短語。組塊嚴格按照句法形式定義,而不體現(xiàn)語義性或者功能性。組塊分析的目的是識別句子中某些結構相對簡單、但有重要意義的成分,在詞法分析和完全句法分析中間架起一座橋梁,從而簡化句法分析并且提高句法分析的性能。
2.2 維吾爾語組塊標記集的制定
研究和制定樹庫標注標記集和規(guī)范之前,對英語樹庫和TCT樹庫的構建過程進行深入的研究,并與維語句法結構進行了對比研究。根據(jù)研究與分析后,按照以下步驟展開了標注標記集的制定工作。
步驟1 根據(jù)語法書初步制定一套現(xiàn)代維語短語標記集;
步驟2 從語料庫選擇句子結構差異較大的100個句子;
步驟3 對100個句子進行人工標注,登記使用現(xiàn)有標記集不能準確地標記的現(xiàn)象;
步驟4 若有現(xiàn)有標記集不能準確地標記的現(xiàn)象,則對標記集進行分析與修正;
步驟5 若標記集沒有任何問題,則檢查人工標注的句子是否達到了500句,若沒有,則轉到步驟2,若達到了,則轉到步驟6;
步驟6 結束標注階段。
按照以上步驟,反復地進行標記集的制定、修正,并最終確定了37個維語短語結構標記集和八個功能語塊標記集。本文中,根據(jù)組塊分析的特點從37個短語標記集定義了18個組塊標記類型(表1)。
表1 維吾爾語組塊類型和標記
2.3 維吾爾語組塊語料庫的構建
目前,被標注完成的維語樹庫有3 000句,本文中從該樹庫語料庫抽取構建維語組塊庫。從維語標注樹庫中提取產(chǎn)生式右邊同時包含非終結符和終結符的產(chǎn)生式集合以及產(chǎn)生式右邊只包含終結符的產(chǎn)生式集合。對同時包含非終結符和終結符的產(chǎn)生式集合進行人工校對,然后與產(chǎn)生式右邊只包含終結符的產(chǎn)生式集合合并,根據(jù)該集合把原始句子轉換成組塊標注的句子(表2)。目前構建的維語組塊庫有31 184個組塊。例如,從標注句子提取組塊的過程如下:
拉丁文: [FS[SS[NP[NP Uning ?yidiki][NP Aq k?ngüllük]] [VP [UP q?rindashliqni [UP[CP b?sip chüshken] Idi]]]].]
表2 從以上例組抽取過程
表3所示的組塊是維語樹庫中的高頻組塊,占所有組塊的90.40%。
表3 主要的十種組塊統(tǒng)計
3.1 組塊分析的問題描述
組塊分析可以看作一個機器學習過程。它的任務是: 在給定組塊定義和類別下,對輸入句子自動進行塊劃分和對劃分的塊類型進行標記。其可以被形式化地描述如下:
給定樣本集合W=w1,w2,…,wn和類別集合C=c1,c2,…,cn,尋找一個從樣本集W到類別集C的關系模型(映射規(guī)則)f: W×C →Boolean,然后利用這種學習得到的關系模型對新的輸入樣本進行類別判斷。具體而言,給定由詞序列W=w1,w2,…,wk組成的句子,句子可以被劃分成若干個組塊,每個詞wi被標記了組塊標記ti,T=t1,t2,…,tn代表組塊標記序列。組塊分析的結果如式(1)和式(2)所示。
W=…[wi,wi+1,…,wi+m]wi+m+1,…,wi+m+n…
(1)
T=…[ti,ti+1,…,ti+m]ti+m+1,…,ti+m+n…
(2)
組塊分析的映射規(guī)則是系統(tǒng)根據(jù)機器學習的每類樣本特征信息,自動學習出的分類規(guī)律和判別準則。在分析中,這種映射是一對一的單標號分類映射。
3.2 組塊分析方法研究與分析
組塊分析問題可以被轉化為序列化標注的問題。而序列標注可用的方法或模型有基于轉換錯誤的方法、隱馬爾科夫模型、最大熵模型、支持向量機、條件隨機場模型等。在以上的方法或模型中,性能最優(yōu)的是條件隨機場模型,因此,本文采用條件隨機場建立維語組塊分析模型。
3.3 特征空間的構建
判別式統(tǒng)計模型的關鍵是找出對消除歧義有貢獻的各類特征,并使用這些特征組合出不同的特征模板,通過實驗驗證特征模板的有效性,并選擇出最佳特征模板。本文中參考英文、中文等語種基于條件隨機場的組塊分析算法所用的特征,在此基礎上構建維語組塊分析的特征空間。
對于詞類序列W=w1,w2,…,wk,英文、中文的組塊分析中選取寬度為5的窗口,抽取當前詞wi和前后各兩個詞的特征,提取的特征有詞形、詞性、詞綴、組塊標記等,在中文的組塊分析模型中加入了前綴和后綴的特征。本文中,保留以上的特征基礎上,根據(jù)維語詞的特點,還加入詞干、詞綴、詞性一級標記、詞性二級標記、同義詞標記等構建特征空間(表4)。
表4 特征空間
3.4 同義詞標記庫的構建
以上特征空間中的SY(synonym)代表同義詞標記,以下詳細解釋該標記相關內(nèi)容。因為,目前構建的維語樹庫規(guī)模較少,使用統(tǒng)計模型容易發(fā)生數(shù)據(jù)稀疏問題造成的參數(shù)估計不準確。如果能夠把詞義完全相同的單詞使用某種標記或編號表達出來,那么在一定的程度上可以緩解語料庫規(guī)模所帶來的分析性能的下降。因此,從現(xiàn)有的維語同義詞詞典構建了一個維語同義詞標記詞典。該詞典原有9 902個詞條,其中1 778個詞是復合詞,為了保證同義詞標記的準確率,本文中從其余的8 104個同義詞選出詞義嚴格相同的4 623個同義詞,并構建了具有詞性標注的同義詞庫,對所有的同義詞進行根據(jù)詞義和詞性的分類,并給每一個分類分配了一個標記,最終構建了有971個同義詞標記的詞典,該同義詞標記詞典結構如表5所示。
表5 同義詞標記詞表
3.5 組塊分析系統(tǒng)結構
條件隨機場模型是有指導的機器學習模型,先需要使用一定規(guī)模的標注語料庫進行模型參數(shù)的估計,然后可以使用訓練好的模型進行解碼,即對未標注語料進行標注。模型的訓練使用L-BFGS算法,采用BeamSearch 算法進行搜索,搜索寬度為5,CRF模型使用CRFComLib訓練和測試。
本文中把3 000個被標注的句子作為訓練和測試語料庫,由于語料庫的規(guī)模較少,采用交叉驗證法進行實驗(圖1)。本文的組塊分析算法的性能評價指標采用了國際通用的準確率(P,Precision),召回率(R,Recall)和F值。
圖1基于條件隨機場的維吾爾文組塊分析系統(tǒng)結構
4.1 特征選擇
特征模板的選取和特征選擇是判別學習模型訓練和應用中的關鍵一步。特征是從訓練樣本中抽取而來的,直接反映了組塊文本中的各種知識和實例。選取的特征規(guī)模和特征描述能力直接影響著分析系統(tǒng)的性能。對于不同的語言處理任務,選取的特征也會不相同。一般的特征選取辦法分為兩種:
1) 根據(jù)語言學家的語言學知識和文本的統(tǒng)計信息總結出來的經(jīng)驗,基于文本中的文字和標記,定義形式化的特征模板,并利用特征模板從文本中抽取特征,或者稱為特征模板的實例化。
2) 根據(jù)語言學家對于語言學知識的總結,例如語言規(guī)則,語法規(guī)則,詞典和資源庫等外部信息,給予文本額外的信息和標記。
由于特征的任務相關性,有針對性的、任務驅動的特征模板和特征定義往往可以給予分析系統(tǒng)很大的幫助,而無效的特征反而會降低系統(tǒng)的性能。
本節(jié)中,根據(jù)文獻[10]中的實驗結果,分別采用詞形、詞干、詞綴、詞性、同義詞標記等構建原子特征空間,在此基礎上組合不同的特征模板進行實驗,如表6所示。
表6 特征模板
續(xù)表
為了測試詞形、詞性、詞綴、詞干等特征信息的貢獻,在文獻[10]進行的總結的基礎上,構建表6所示的特征模板。模板A是詞形模板,模板B是增加詞干信息,可以觀察詞性對模型性能的影響。模板C在模板B的基礎上只增加了詞綴特征。模板D中引入了一級詞性標記,模板E中同時使用了一級和二級詞性標記,模板F中引入了同義詞標記。為了觀察一級標記和二級標記對模型性能的影響,模板G中只使用了二級標記。為了選取最佳模板,利用所有的數(shù)據(jù)對表6包含的模板進行實驗,如表7所示。
表7 封閉測試結果
4.1 交叉驗證測試
由于語料庫規(guī)模較少,實驗中采用交叉驗證法。為了觀察模型使用不同規(guī)模的語料庫訓練時表現(xiàn)出的性能,進行三次實驗,實驗結果如表8所示。
實驗A 把語料庫分成十個沒有交叉數(shù)據(jù)的子集,每一個子集的規(guī)模為300句,進行十次實驗,最終求十次實驗的平均值。
實驗B 把語料庫分成五個沒有交叉數(shù)據(jù)的子集,每一個子集的規(guī)模為600句,進行五次實驗,最終求五次實驗的平均值。
實驗C 把語料庫分成三個沒有交叉數(shù)據(jù)的子集,每一個子集的規(guī)模為1000句,進行三次實驗,最終求三次實驗的平均值。
表8 開放測試結果
從實驗結果可知,語料庫的規(guī)模對模型的影響力較大,主要的原因是使用模型訓練的語料庫規(guī)模還不能足以讓模型達到飽和狀態(tài),即語料庫規(guī)模的擴大不能提高模型性能的狀態(tài)。因此,語料庫的規(guī)模導致模型參數(shù)的估計出現(xiàn)更多的局部性或片面性。
[1] Abney S P. Parsing by Chunks[J]. Computation and psycholinguistics,1991: 257-278.
[2] T K Sang,S Buchholz.Introduction to the Conll-2000 Shared Task: Chunking[C]//Proceeding of CoNLL-2000,Lisbon,Portugal,2000: 127-132.
[3] A Kinyon. A Language-Independent Shallow-Parser Compiler[C]//Proceedings of 39th ACL Conference,Tourouse,France,2001: 322-329.
[4] J Hammerton,M Osborne,S Armstrong. Introduction to Special Issue on Machine Learning Approaches to Shallow Parsing[J]. Journal of Machine Learning Research.2002,2: 551-558.
[5] 周強.漢語語料庫的短語自動劃分和標注研究[D].北京大學博士學位論文.1996.
[6] 趙軍,黃昌寧.漢語基本名詞短語結構分析模型[J].計算機學報,1999,22(2): 141-146.
[7] 李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計算機學報. 2003,25(12): 1722-1727.
[8] 張昱琪,周強.漢語基本短語自動識別[J].中文信息學報.2002,16(6): 1-8.
[9] W Chen,Y Zhang,H Isahara. An Empirical Study of Chinese Chunking[C]//Proceedings of the 44th Annual Meeting of ACL,Sydney,Australia,2006: 97-104.
[10] 孫廣路.基于統(tǒng)計學習的中文組塊分析技術研究[D]哈爾濱工業(yè)大學博士學位論文.2008.
[11] 周俏麗,劉新,郎文靜,等.基于分治策略的組塊分析[J].中文信息學報.2012,26(5): 120-128.
Conditional Random Fields Based Uyghur ChunkingAishan Wumaier,Tuergen Yibulayin,Kahaerjiang Abiderexiti,
Zaokere Kadeer,Maihemuti Maimaiti,Yashen Aizezi
(College of Information Science & Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)
This paper proposes a Uyghur Chunk parsing scheme,and extracts chunks from 3000 annotated sentences. According to the characteristics of Uyghur language,additional features on the stem,affixes,synonyms etc are augmented. 3000 marked sentences are constructed,and the cross-validation experiments at the training/testing ration of 9∶1,8∶2,2∶1 result in the recall rates of 80.34%,76.87% and 66.76%,respectively.
conditional random fields;uyghur;chunk parsing
艾山·吾買爾(1981—),副教授,博士,碩士生導師,主要研究領域為自然語言處理。E?mail:turgun@xju.edu.cn吐爾根·伊布拉音(1958—),教授,博士生導師,主要研究領域為自然語言處理,軟件工程。E?mail:turgun@xju.edu.cn卡哈爾江·阿比的熱西提(1984—),碩士,講師,主要研究領域為自然語言處理,信息抽取。E?mail:kaharjan@xju.deu.cn
2014-01-08 定稿日期: 2014-05-10
新疆大學博士啟動基金,國家自然科學基金(61063043,61262060,60963018,61063026);國家社科基金重點項目(10AYY006);新疆大學校院聯(lián)合項目(XY110023);新疆多語種信息技術重點實驗室開放課題(049807);國家社會科學基金科研項目(13CFX055)
1003-0077(2016)03-0090-06
TP391
A