謝俊 嚴(yán)馨 王若蘭 周楓 李思遠(yuǎn)
摘 要:隨著我國(guó)與柬埔寨的交流合作日益頻繁,柬埔寨語(yǔ)的自然語(yǔ)言處理工作變得更為重要,針對(duì)柬埔寨語(yǔ)語(yǔ)料庫(kù)資源有限、柬埔寨語(yǔ)組織機(jī)構(gòu)名標(biāo)注語(yǔ)料稀缺的問(wèn)題,提出了一種基于半監(jiān)督Tri-training的柬埔寨語(yǔ)組織機(jī)構(gòu)名識(shí)別方法。該方法利用改進(jìn)的Tri-training算法,結(jié)合柬埔寨語(yǔ)的語(yǔ)言特點(diǎn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,準(zhǔn)確率和召回率分別達(dá)到了65.68%、67.83%,表明該方法能有效利用大量未標(biāo)注語(yǔ)料得到準(zhǔn)確率較高的標(biāo)注語(yǔ)料。
關(guān)鍵詞:半監(jiān)督學(xué)習(xí);三體訓(xùn)練法;標(biāo)注語(yǔ)料;特征選擇
DOI:10.11907/rjdk.172833
中圖分類(lèi)號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)005-0127-05
Abstract:With the increasingly frequent exchanges and cooperation between China and Cambodia, natural language processing of Cambodian becomes more and more important. Due to the scarcity of corpus resources of Cambodian, the tagging corpus of the names of Cambodian organizations are also rare.A new method based on semi supervised Tri-training and combined with the Cambodian characteristics was suggested; it was confirmed that the accuracy and recall rate reached 65.68% and 67.83% respectively, which indicated that the method could effectively use a large number of untagged data to get a higher accuracy.
Key Words:semi-supervised learning; Tri-training; tagged corpus; feature selection
0 引言
作為現(xiàn)今自然語(yǔ)言處理工作的重要組成部分,命名實(shí)體識(shí)別技術(shù)是對(duì)文本語(yǔ)料理解、處理的基礎(chǔ),而其中對(duì)組織機(jī)構(gòu)名的識(shí)別是較為困難的部分。組織機(jī)構(gòu)名分為簡(jiǎn)單組織機(jī)構(gòu)名和復(fù)雜組織機(jī)構(gòu)名。簡(jiǎn)單組織機(jī)構(gòu)名是由一個(gè)詞組成的;一個(gè)復(fù)雜組織的名稱由組織的一個(gè)或多個(gè)前言加上組織的名字組成。
針對(duì)組織機(jī)構(gòu)名的研究,周波等[2]提出一種基于條件隨機(jī)場(chǎng)的字詞模型相結(jié)合的組織機(jī)構(gòu)名識(shí)別方法,針對(duì)組織機(jī)構(gòu)名的特點(diǎn)利用知網(wǎng)進(jìn)行字、詞兩方面的特征選擇,結(jié)果表明字詞模型之間存在互補(bǔ)差異性,相結(jié)合后取得了比單一模型更好的效果;馮麗萍等[3]提出基于最大熵模型的中文組織機(jī)構(gòu)名識(shí)別方法,在大規(guī)模數(shù)據(jù)集上對(duì)比了不同特征選擇方法對(duì)模型的影響,結(jié)果表明改變其特征選擇方法以及采用不同的參數(shù)估計(jì)方法雖然會(huì)在一定程度上影響模型的大小和訓(xùn)練速度,但對(duì)模型預(yù)測(cè)效果影響不大;胡萬(wàn)亭等[4]提出一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識(shí)別方法,主要是在百度詞條名的基礎(chǔ)上對(duì)組織機(jī)構(gòu)名進(jìn)行詞頻統(tǒng)計(jì),識(shí)別結(jié)果與實(shí)際情況無(wú)大差距,可以滿足一定的科學(xué)研究和實(shí)際應(yīng)用;Ling、Yang等[5]提出基于多特征的中文組織機(jī)構(gòu)名識(shí)別,使用核心特征詞庫(kù)和左邊界規(guī)則集提取候選中文組織機(jī)構(gòu)名,然后根據(jù)中文組織機(jī)構(gòu)名的行為特征和調(diào)試結(jié)構(gòu)模式對(duì)候選中文組織機(jī)構(gòu)名進(jìn)行評(píng)估和完善,結(jié)果表明很好地完成了對(duì)中文組織機(jī)構(gòu)名的識(shí)別,特別是對(duì)嵌套組織機(jī)構(gòu)名的識(shí)別。這些研究者提出的方法都是基于大規(guī)模的標(biāo)注語(yǔ)料,在一定程度上對(duì)組織機(jī)構(gòu)名的識(shí)別達(dá)到了較好的效果。
對(duì)于柬埔寨語(yǔ)組織機(jī)構(gòu)名識(shí)別的研究較少,潘華山等[6]提出了融合實(shí)體特性的柬埔寨語(yǔ)命名實(shí)體識(shí)別方法,利用條件隨機(jī)場(chǎng)學(xué)習(xí)算法,采用詞形、詞性及其組合等特征以及融入柬語(yǔ)實(shí)體的特性進(jìn)行命名實(shí)體的識(shí)別;黃淑慧[7]提出了一種融入柬埔寨語(yǔ)實(shí)體特征的約束條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別方法,利用整數(shù)線性規(guī)劃的方法結(jié)合柬埔寨語(yǔ)實(shí)體詞上下文邏輯關(guān)系約束,計(jì)算得到最短路徑的標(biāo)注序列,從而實(shí)現(xiàn)命名實(shí)體的識(shí)別。上述研究方法對(duì)于組織機(jī)構(gòu)名的識(shí)別效果都不是很好,因此本文針對(duì)柬埔寨語(yǔ)組織機(jī)構(gòu)名進(jìn)行研究。
由于柬埔寨語(yǔ)組織機(jī)構(gòu)名的標(biāo)注語(yǔ)料匱乏,雖然可以輕易獲取大量未標(biāo)注語(yǔ)料,但對(duì)這些語(yǔ)料進(jìn)行標(biāo)注需要耗費(fèi)大量人力和物力,如何有效利用大量未標(biāo)注語(yǔ)料改善學(xué)習(xí)性能成為目前研究中最為關(guān)注的問(wèn)題。半監(jiān)督學(xué)習(xí)[8-10]試圖讓學(xué)習(xí)器自動(dòng)地對(duì)大量未標(biāo)記數(shù)據(jù)進(jìn)行利用以輔助少量的有標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí)。Blum和Mitchell[11]提出的協(xié)同訓(xùn)練法(Co-training)在使用時(shí),存在著要使數(shù)據(jù)集上有兩個(gè)充分冗余視圖的前提,而充分的含義是所給出的每個(gè)屬性集都可以說(shuō)明這個(gè)問(wèn)題,且如若給出的訓(xùn)練例子很大,那么對(duì)于每一個(gè)屬性集是一個(gè)強(qiáng)學(xué)習(xí)器;冗余的含義在于對(duì)所轉(zhuǎn)儲(chǔ)的標(biāo)記文件,每?jī)蓚€(gè)屬性集之間都是相互獨(dú)立的,然而在現(xiàn)實(shí)問(wèn)題中充分冗余視圖的要求很難滿足?;谏鲜龇椒ǖ牟蛔?,Zhou Z H和Li M[12]提出了三體訓(xùn)練法(Tri-training),不同于前文算法中的要求該算法適用3個(gè)分類(lèi)器,實(shí)現(xiàn)了簡(jiǎn)便處理標(biāo)記置信度估計(jì),還解決了對(duì)未標(biāo)記例子的預(yù)測(cè)問(wèn)題,同時(shí)將此算法與集成學(xué)習(xí)結(jié)合在一起能夠?qū)崿F(xiàn)泛化能力的提高。李心磊等[13]提出關(guān)于Tri-training算法中分類(lèi)器組合的改進(jìn)方法,由原先單一的分類(lèi)器換成兩個(gè)不同分類(lèi)器的組合作為T(mén)ri-training算法中的3個(gè)分類(lèi)器構(gòu)成分類(lèi)器模型,結(jié)果表明使用分類(lèi)效果較為接近,且分類(lèi)算法不同的分類(lèi)器,以獲得較高的分類(lèi)準(zhǔn)確率;Cai Y H、Cheng X Y[14]提出了基于Tri-training的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法;Chou C L和Chang C H[15]提出一種通過(guò)自動(dòng)標(biāo)注、利用未標(biāo)注數(shù)據(jù)和含有已知命名實(shí)體結(jié)構(gòu)化資源的半監(jiān)督Tri-training學(xué)習(xí)算法的命名實(shí)體識(shí)別方法;陳霄[16]等提出了利用支持向量機(jī)結(jié)合主動(dòng)學(xué)習(xí)策略的中文組織機(jī)構(gòu)名識(shí)別方法;鐘志農(nóng)[17]等提出了基于條件隨機(jī)將主動(dòng)學(xué)習(xí)與自學(xué)習(xí)相結(jié)合的中文命名實(shí)體識(shí)別方法。上述研究表明,利用Tri-training算法不僅能有效利用大量未標(biāo)注語(yǔ)料和少量標(biāo)注語(yǔ)料提高算法的泛化能力,還可以利用不同分類(lèi)器各自的優(yōu)點(diǎn),達(dá)到更好的識(shí)別效果。
針對(duì)柬埔寨語(yǔ)組織機(jī)構(gòu)名研究中存在的問(wèn)題,本文提出一種基于半監(jiān)督學(xué)習(xí)的Tri-training算法的柬埔寨語(yǔ)組織機(jī)構(gòu)名識(shí)別方法。利用Tri-training學(xué)習(xí)算法使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)、支持向量機(jī)(Support Vector Machines,SVMs)和最大熵模型(Maximum Entropy Model,ME)3個(gè)分類(lèi)器組合成一個(gè)分類(lèi)體系,并依據(jù)最優(yōu)化樣本選擇策略對(duì)新加入的樣本進(jìn)行選擇,結(jié)合柬埔寨語(yǔ)的語(yǔ)言特點(diǎn),利用少量標(biāo)注語(yǔ)料和大量未標(biāo)注語(yǔ)料進(jìn)行研究。
1 基于Tri-training的算法
Tri-training算法是在Co-training算法基礎(chǔ)上改進(jìn)的半監(jiān)督學(xué)習(xí)算法。通過(guò)使用3個(gè)分類(lèi)器解決柬埔寨組織名稱的識(shí)別,還有未標(biāo)注的學(xué)習(xí)和其它問(wèn)題的例子。該算法通過(guò)對(duì)標(biāo)記樣本集的可重復(fù)采樣(bootstrap sampling)啟動(dòng),以獲得3個(gè)已進(jìn)行標(biāo)記的訓(xùn)練集,并訓(xùn)練來(lái)自每個(gè)訓(xùn)練集的分類(lèi)器。在協(xié)同訓(xùn)練過(guò)程中,每個(gè)分類(lèi)器獲得的新標(biāo)簽樣本由兩個(gè)其它分類(lèi)器提供,若這兩個(gè)分類(lèi)器對(duì)于同一未標(biāo)記的樣本是相同的預(yù)測(cè),則這個(gè)樣本就會(huì)被標(biāo)記為較高的置信水平,且在被標(biāo)記之后會(huì)將其加到第三個(gè)分類(lèi)器上的已被標(biāo)記的訓(xùn)練文本當(dāng)中。另外在處理未被標(biāo)記的文本時(shí),此算法采用的是少數(shù)服從多數(shù)的方法,將3個(gè)分類(lèi)器組成一個(gè)組進(jìn)行算法應(yīng)用。
1.1 三個(gè)基分類(lèi)器簡(jiǎn)單介紹
條件隨機(jī)場(chǎng)是由Lafferty J等[18]于2001年提出,是一個(gè)概率化的結(jié)構(gòu)模型,主要作用是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù),同時(shí),也可以將條件隨機(jī)場(chǎng)看作為一個(gè)無(wú)向圖模型或者馬爾科夫隨機(jī)場(chǎng)。由于條件隨機(jī)場(chǎng)的條件隨機(jī)性,只需考慮當(dāng)前已經(jīng)出現(xiàn)的觀測(cè)狀態(tài),所以能夠非常有效地避免其它模型中所存在的標(biāo)記偏差的問(wèn)題,因此近幾年在自然語(yǔ)言處理領(lǐng)域得到了很好的應(yīng)用并取得到了較為滿意的結(jié)果。
支持向量機(jī)由Cortes和Vapnik[19]在1995年提出,作為一種機(jī)器學(xué)習(xí)的方法,它是在統(tǒng)計(jì)學(xué)的理論基礎(chǔ)之上產(chǎn)生的。作為一種二類(lèi)分類(lèi)模型,支持向量機(jī)最初應(yīng)用于處理二值分類(lèi)等問(wèn)題。對(duì)于柬埔寨文本中組織機(jī)構(gòu)名的識(shí)別問(wèn)題,需采用多值分類(lèi)的思想,有必要對(duì)支持向量機(jī)進(jìn)行改進(jìn),建議采用Hideki提出的將多值問(wèn)題轉(zhuǎn)化為二值問(wèn)題的思想。為了解決支持向量機(jī)二值分類(lèi)器僅接受數(shù)字化的值的限制,將詞及詞性特征等非數(shù)字化特征轉(zhuǎn)化為數(shù)字特征。這種方法在自然語(yǔ)言處理、圖像識(shí)別等很多領(lǐng)域得到了成功應(yīng)用。
最大熵原理由Jaynes[20]于1957年最早提出,1996年被應(yīng)用于自然語(yǔ)言處理[21]。最大熵模型基本原理是:對(duì)于未知信息,在只學(xué)習(xí)了其中一部分的前提下,跟已知知識(shí)相符的概率分布可能不止一個(gè),此時(shí)有一個(gè)概率分布的熵值最大,那么這個(gè)概率分布最接近原有事件所反映的真實(shí)分布情況。由于熵在只掌握關(guān)于未知分布的部分信息的情況下,符合已知知識(shí)的概率分布可能有多個(gè),但使熵最大的概率分布最真實(shí)地反映了事件的分布情況,因?yàn)殪囟x了隨機(jī)變量的不確定性。當(dāng)熵最大時(shí),隨機(jī)變量最不確定,最難準(zhǔn)確地預(yù)測(cè)其行為,即在已知部分信息的前提下,關(guān)于未知分布最合理的推斷應(yīng)該是符合已知信息最不確定或最大隨機(jī)的推斷。最大熵模型的一個(gè)最為顯著的特點(diǎn)是不要求選用的特征相互獨(dú)立,因此可以選用對(duì)分類(lèi)效果好的任意特征而忽略各個(gè)特征之間是否相互影響。
1.2 改進(jìn)的Tri-training算法流程
因?yàn)樽铋_(kāi)始的Tri-training算法是運(yùn)用可重復(fù)采樣的方法給予最開(kāi)始處于相同狀態(tài)的3個(gè)分類(lèi)器不同的初始樣本進(jìn)行處理,從而使得3個(gè)分類(lèi)器不同,但這種算法的弊端在于它無(wú)法實(shí)現(xiàn)分類(lèi)器的多樣性,使得分類(lèi)器在進(jìn)行協(xié)同訓(xùn)練時(shí)有可能會(huì)被減化為單分類(lèi)器的自訓(xùn)練(self-training),因此本文采用3個(gè)不同的分類(lèi)器實(shí)現(xiàn)Tri-training算法分類(lèi)器的差異性。
1.3 標(biāo)注方法
本文標(biāo)注方法采用BISO標(biāo)注法,組織機(jī)構(gòu)名的開(kāi)始用大寫(xiě)字母B表示;組織機(jī)構(gòu)名的中間用大寫(xiě)字母I表示;組織機(jī)構(gòu)名的結(jié)束用大寫(xiě)字母S表示;用O表示詞語(yǔ)不屬于組織機(jī)構(gòu)名。此時(shí)組織機(jī)構(gòu)名的識(shí)別問(wèn)題便能轉(zhuǎn)成序列化的標(biāo)注問(wèn)題。標(biāo)注類(lèi)型分為{B_ORG,I_ORG,S_ORG,ORG,PER,LOC,O},其中ORG代表該詞為單個(gè)組織機(jī)構(gòu)名,PER代表該詞為人名,LOC代表該詞為地名。
1.4 特征選擇
根據(jù)條件隨機(jī)場(chǎng)和最大熵模型依據(jù)對(duì)特征模板的構(gòu)建進(jìn)行實(shí)驗(yàn),根據(jù)柬埔寨語(yǔ)的以下特點(diǎn):在柬埔寨語(yǔ)中組織機(jī)構(gòu)名書(shū)寫(xiě)的順序跟漢語(yǔ)是相反的,如“昆明理工大學(xué)”對(duì)應(yīng)的柬語(yǔ)為“大學(xué)理工昆明”;柬埔寨語(yǔ)的組織機(jī)構(gòu)名一般是定中結(jié)構(gòu),且定語(yǔ)為后置,前綴表明組織機(jī)構(gòu)所屬類(lèi)型,絕大多數(shù)的機(jī)構(gòu)名指示詞均以前綴的形式出現(xiàn)在機(jī)構(gòu)名中;根據(jù)柬埔寨語(yǔ)組織機(jī)構(gòu)名的特點(diǎn),左邊界為機(jī)構(gòu)名指示詞,人工收集實(shí)體指示詞并構(gòu)建實(shí)體指示詞庫(kù)如:(公司)、(黨)、(組織)、(隊(duì))、(教堂)、(寺廟)、(醫(yī)院)、(大學(xué))、(部)等,因此識(shí)別的重點(diǎn)放在右邊界,能否正確識(shí)別出右邊界對(duì)構(gòu)造實(shí)體特征模塊具有重要意義。其中基本特征模板描述了當(dāng)前詞及其上下文中若干個(gè)詞的詞性如表1所示。
復(fù)合特征模板就是將基本特征模板中的特征進(jìn)行組合,利用依存關(guān)系和豐富的上下文信息,本文采用由兩個(gè)基本特征模板構(gòu)成的復(fù)合特征模板,在表2中列出的是本文符合特征模板的一部分。
根據(jù)柬埔寨語(yǔ)言的特點(diǎn),結(jié)合實(shí)體指示詞庫(kù),提取出的實(shí)體特征模板如表3所示。
1.5 最優(yōu)化樣本選擇策略
2 實(shí)驗(yàn)描述與分析
2.1 實(shí)驗(yàn)語(yǔ)料
本文實(shí)驗(yàn)語(yǔ)料從柬埔寨新聞網(wǎng)站上爬取。首先將爬取的新聞篇章語(yǔ)料切分為句子,由于柬埔寨語(yǔ)和中文一樣是連續(xù)書(shū)寫(xiě)的,一般詞與詞之間沒(méi)有明顯的分隔符,因此應(yīng)先對(duì)柬埔寨語(yǔ)進(jìn)行分詞。在本文中,為實(shí)現(xiàn)柬埔寨語(yǔ)的分詞以及詞性標(biāo)注,采用了潘華山[23]提出的基于層疊條件隨機(jī)的柬埔寨語(yǔ)分詞及詞性標(biāo)注方法,該方法最終以詞語(yǔ)為粒度,結(jié)合上下文信息與柬埔寨語(yǔ)的構(gòu)詞特點(diǎn)、柬埔寨語(yǔ)中命名實(shí)體的構(gòu)成特點(diǎn)以及柬埔寨語(yǔ)豐富的詞綴信息構(gòu)建特征模板,實(shí)現(xiàn)對(duì)柬埔寨語(yǔ)中句子的分詞和詞性標(biāo)注;然后通過(guò)人工校對(duì)提高句子分詞和詞性標(biāo)注的準(zhǔn)確率,得到的語(yǔ)料規(guī)模為5 000句,含有2 863個(gè)組織機(jī)構(gòu)名,其中通過(guò)人工標(biāo)注獲得2 000句的標(biāo)注語(yǔ)料,1 000句用于訓(xùn)練語(yǔ)料,另外1 000句用于測(cè)試語(yǔ)料,其余3 000句為未標(biāo)注語(yǔ)料用于Tri-training訓(xùn)練。
2.2 評(píng)測(cè)方法
衡量命名實(shí)體識(shí)別系統(tǒng)性能的主要性能指標(biāo)包括準(zhǔn)確率P、召回率R以及綜合反映兩者的綜合指標(biāo)F值。具體定義為:
2.3 實(shí)驗(yàn)結(jié)果及分析
在運(yùn)用Tri-training算法時(shí),首先需要建立3個(gè)初始分類(lèi)器,為了使初始的分類(lèi)器具有一定的差異性,本實(shí)驗(yàn)在Tri-training中采用的分類(lèi)器分別是CRF++(v0.58)、MaxEnt及SVM-light。本文采用兩組對(duì)比實(shí)驗(yàn),第一組實(shí)驗(yàn)進(jìn)行3個(gè)基分類(lèi)器的識(shí)別結(jié)果與Co-training算法和Tri-training算法通過(guò)10輪迭代后的識(shí)別結(jié)果的比較,第二組實(shí)驗(yàn)對(duì)比經(jīng)過(guò)Tri-training算法10輪迭代的識(shí)別結(jié)果,實(shí)驗(yàn)結(jié)果如表4、5所示。
從表4可以發(fā)現(xiàn)利用Tri-training算法的識(shí)別結(jié)果相比3個(gè)基分類(lèi)器的效果有明顯提升,相比Co-training算法識(shí)別效果也要一定的提升,但由于Co-training算法要求數(shù)據(jù)具有兩個(gè)充分冗余且滿足條件獨(dú)立性的視圖,此要求在現(xiàn)實(shí)情況下很難達(dá)到,所以實(shí)驗(yàn)效果不是很好,因此證明采用該方法進(jìn)行柬埔寨語(yǔ)組織機(jī)構(gòu)名的識(shí)別達(dá)到了更好的效果。其中3個(gè)基分類(lèi)器的識(shí)別效果中,條件隨機(jī)的準(zhǔn)確率和召回率最高,因此F值最高的是條件隨機(jī)模型。由于3個(gè)基分類(lèi)器的識(shí)別效果不同,表明不同特征對(duì)3個(gè)基分類(lèi)器的影響各不同。
表5顯示了Tri-training算法在每輪迭代后的結(jié)果,在第一輪訓(xùn)練結(jié)束后,準(zhǔn)確率最高,與基分類(lèi)器的準(zhǔn)確率較高有關(guān),召回率相對(duì)較低,通過(guò)多輪的訓(xùn)練,準(zhǔn)確率有所下降,召回率逐漸提升,F(xiàn)值一直在增加,但隨著迭代次數(shù)的增加,F(xiàn)值增加的幅度逐漸減小,趨于一致。實(shí)驗(yàn)表明能有效地識(shí)別出組織機(jī)構(gòu)名的左邊界,對(duì)于復(fù)雜組織機(jī)構(gòu)名的右邊界的識(shí)別效果有待進(jìn)一步提高。
3 結(jié)束語(yǔ)
本文提出了一種基于半監(jiān)督Tri-training的柬埔寨語(yǔ)組織機(jī)構(gòu)名識(shí)別方法,選取3個(gè)基分類(lèi)器,即CRFs、ME及SVMs,通過(guò)N輪迭代對(duì)未標(biāo)注語(yǔ)料進(jìn)行標(biāo)注以擴(kuò)充語(yǔ)料庫(kù),減輕了人工標(biāo)注大量語(yǔ)料的工作,對(duì)于命名實(shí)體識(shí)別研究具有重要影響,但整體識(shí)別效果不太理想,對(duì)于基分類(lèi)器的識(shí)別效果也可以進(jìn)一步提高。希望在下一步工作中,繼續(xù)擴(kuò)大組織機(jī)構(gòu)名語(yǔ)料庫(kù),通過(guò)本實(shí)驗(yàn)擴(kuò)展到對(duì)柬埔寨語(yǔ)命名實(shí)體識(shí)別的研究,擴(kuò)充實(shí)體指示詞庫(kù),結(jié)合柬埔寨語(yǔ)言的特點(diǎn),更有效地識(shí)別實(shí)體的左右邊界,以達(dá)到更高的準(zhǔn)確率和召回率;也可以利用中柬雙語(yǔ)對(duì)齊的句子,通過(guò)中文組織機(jī)構(gòu)名來(lái)識(shí)別柬埔寨組織機(jī)構(gòu)名。
參考文獻(xiàn):
[1] 黃德根,李澤中,萬(wàn)如.基于SVM和CRF的雙層模型中文機(jī)構(gòu)名識(shí)別[J].大連理工大學(xué)學(xué)報(bào),2010,50(5):782-787.
[2] 周波,蔡?hào)|風(fēng).基于條件隨機(jī)場(chǎng)的中文組織機(jī)構(gòu)名識(shí)別研究[J].沈陽(yáng)航空航天大學(xué)學(xué)報(bào),2009,26(1):49-52.
[3] 馮麗萍,焦莉娟.基于最大熵的中文組織機(jī)構(gòu)名識(shí)別模型[J].計(jì)算機(jī)與數(shù)字工程,2010,38(12).
[4] 胡萬(wàn)亭,楊燕,尹紅風(fēng),等.一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):2014-2016.
[5] LING Y J, YANG J, HE L. Chinese organization name recognition based on multiple features[M]. Intelligence and Security Informatics. Springer Berlin Heidelberg,2012:136-144.
[6] 潘華山,嚴(yán)馨,余正濤,等.融合實(shí)體特性的柬埔寨語(yǔ)命名實(shí)體識(shí)別方法[C].第26屆中國(guó)控制與決策會(huì)議論文集.2014.
[7] 黃淑慧.基于約束條件隨機(jī)場(chǎng)的柬埔寨語(yǔ)命名實(shí)體識(shí)別研究[D].昆明:昆明理工大學(xué),2015.
[8] CHAPELLE O, SCHOLKOPF B, ZIEN A. Semi-supervised learning[M].Cambridge, MA: MIT Press,2006.
[9] ZHOU Z H, LI M.Semi-supervised learning by disagreement.[J]. Knowledge & Information Systems,2010,24(3):415-439.
[10] 周志華.基于分歧的半監(jiān)督學(xué)習(xí)[J].自動(dòng)化學(xué)報(bào),2013,39(11):1871-1878.
[11] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]. Proceedings of the eleventh annual conference on Computational learning theory. ACM,2000:92-100.
[12] ZHOU Z H, LI M. Tri-training: exploiting unlabeled data using three classifiers[J]. Knowledge & Data Engineering IEEE Transactions on,2005,17(11):1529-1541.
[13] 李心磊,楊思春,彭月娥.Tri-training算法中分類(lèi)器組合的改進(jìn)[J].蘇州科技學(xué)院學(xué)報(bào):自然科學(xué)版,2014(2):52-56.
[14] CAI Y H, CHENG X Y. Biomedical named entity recognition with tri-training learning[C]. Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on IEEE,2009:1-5.
[15] CHOU C L, CHANG C H. Named entity extraction via automatic labeling and tri-training: comparison of selection methods[M]. Information Retrieval Technology. Springer International Publishing,2014:244-255.
[16] 陳霄,劉慧,陳玉泉.基于支持向量機(jī)方法的中文組織機(jī)構(gòu)名的識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):362-364.
[17] 鐘志農(nóng),劉方馳,吳燁,等.主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識(shí)別[J].國(guó)防科技大學(xué)學(xué)報(bào),2014(4):82-88.
[18] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].Proceedings of the eighteenth international conference on machine learning, ICML.2001(1):282-289.
[19] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning,1995,20(3):273-297.
[20] JAYNES E T. Information theory and statistical mechanics[J]. Physical Review,1957,106(4):620.
[21] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics,1996,22(1):39-71.
[22] STEEDMAN M, HWA R, CLARK S, et al. Example selection for bootstrapping statistical parsers[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Association for Computational Linguistics,2004.
[23] 潘華山.基于條件隨機(jī)場(chǎng)的柬埔寨語(yǔ)詞法分析方法研究[D].昆明:昆明理工大學(xué),2014.
(責(zé)任編輯:江 艷)