亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于感知機(jī)模型藏文命名實(shí)體識(shí)別

        2014-04-03 07:33:50華卻才讓姜文斌趙海興
        關(guān)鍵詞:藏文分詞音節(jié)

        華卻才讓 ,姜文斌 ,趙海興 ,劉 群

        HUA Quecairang1,2,JIANG Wenbin3,ZHAO Haixing1,LIU Qun3

        1.陜西師范大學(xué) 計(jì)算機(jī)學(xué)院,西安 710062

        2.青海師范大學(xué) 藏文信息研究中心,西寧 810008

        3.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190

        1.Computer Science School of Shaanxi Normal University,Xi’an 710062,China

        2.Tibetan Information Research Center,Qinghai Normal University,Xining 810008,China

        3.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China

        藏文命名實(shí)體識(shí)別(Named Entity Recognition,NER)是確定藏文文本中人名、地名、機(jī)構(gòu)名和數(shù)詞等名詞短語(yǔ)的過(guò)程。它是藏文分詞、機(jī)器翻譯、跨語(yǔ)言檢索和文檔摘要等自然語(yǔ)言處理中應(yīng)用的關(guān)鍵技術(shù),也是目前藏文自然語(yǔ)言處理中亟待解決的問(wèn)題。藏文作為典型的邏輯格語(yǔ)法體系的復(fù)雜拼音文字之一[1],首先句子中最基本的單元為音節(jié)(字),一個(gè)或多個(gè)音節(jié)構(gòu)成詞語(yǔ),詞與詞之間沒(méi)有明顯標(biāo)記;其次,具有嚴(yán)格的格詞接續(xù)規(guī)則,部分格詞與前一個(gè)詞存在粘著和形態(tài)變化等關(guān)系[2],導(dǎo)致與音節(jié)的后置字符及又后置字符間存在歧義;第三動(dòng)詞在時(shí)態(tài)上具有屈折變化。這些復(fù)雜性使得藏文分詞已成為藏文信息處理中的一個(gè)難題[3],而藏文命名實(shí)體的識(shí)別更為困難,也是必須要解決的問(wèn)題。

        藏文中命名實(shí)體類似中文命名實(shí)體沒(méi)有區(qū)分標(biāo)記,其基本單元一個(gè)音節(jié)類似中文的一個(gè)字,沒(méi)有英文中的大小寫(xiě)特征,它們和非命名實(shí)體沒(méi)有形態(tài)上的區(qū)別。大部分藏族都有姓,包括古代莊園名、家族名、部落名和地名等,也有寺院和封號(hào)名。常見(jiàn)的藏族人名按音節(jié)長(zhǎng)度有2個(gè)(1個(gè)詞)、3個(gè)(1個(gè)或2個(gè)詞)和4個(gè)音節(jié)(2個(gè)詞),個(gè)別有1個(gè)和6個(gè)音節(jié),加上姓和封號(hào)后甚至有26個(gè)音節(jié)長(zhǎng)度的姓名。而藏文地名、機(jī)構(gòu)名同漢語(yǔ)類似,都有一些開(kāi)頭和結(jié)尾特征,但用詞特點(diǎn)不同[4]。此外藏文中漢族以及外國(guó)人名、地名和機(jī)構(gòu)名均類似漢語(yǔ)中的命名實(shí)體。

        藏文命名實(shí)體識(shí)別模塊是藏文分詞和藏漢翻譯系統(tǒng)中不可或缺的組成部分,然而國(guó)內(nèi)外對(duì)其研究很少,文獻(xiàn)[5]中首次提出了基于規(guī)則和HMM模型藏語(yǔ)命名實(shí)體識(shí)別方案。文獻(xiàn)[6]中研究了藏族人名漢譯后的識(shí)別方法,提取藏族人名用字(串)特征和命名規(guī)則,結(jié)合詞典(3千條)采用串頻統(tǒng)計(jì)和頻率對(duì)比策略,以及人名前后一個(gè)詞為單位共現(xiàn)概率作為可信度的藏族人名識(shí)別模型,需給出預(yù)先定義的閾值。在新華網(wǎng)藏族頻道文本和《人民日?qǐng)?bào)》(2000-01)上實(shí)驗(yàn)的召回率分別為85.54%和81.73%。

        本文只討論藏文人名、地名和機(jī)構(gòu)名的識(shí)別方法,提出的基于音節(jié)的藏文命名實(shí)體識(shí)別方案,采用基于音節(jié)特征訓(xùn)練模型,準(zhǔn)確識(shí)別藏文人名、地名和機(jī)構(gòu)名,識(shí)別綜合性能達(dá)到86.03%。

        1 總體框架

        由于藏文句子中詞與詞之間沒(méi)有明顯的分隔符,使得自動(dòng)分詞中難免存在分詞錯(cuò)誤,使命名實(shí)體開(kāi)頭、結(jié)尾音節(jié)或詞與上下文詞語(yǔ)的切分歧義,影響分詞基礎(chǔ)上識(shí)別命名實(shí)體的正確率。況且組成詞語(yǔ)的音節(jié)具有自身的特征,特別是其字母組合上有很多拼寫(xiě)規(guī)則和規(guī)律,3/4的藏文音節(jié)是依據(jù)藏文文法規(guī)則來(lái)拼寫(xiě)的[7]。而音節(jié)間關(guān)系不僅反映了詞的內(nèi)部結(jié)構(gòu)特征,還反映了詞語(yǔ)的接續(xù)特征。采用基于音節(jié)的藏文命名實(shí)體識(shí)別方案,即音節(jié)識(shí)別、再用感知機(jī)模型和詞典解碼獲得n-best結(jié)果,最后利用知識(shí)庫(kù)獲得最佳(權(quán)重最大)識(shí)別結(jié)果。整體數(shù)據(jù)流程及框架見(jiàn)圖1。

        圖1 藏文命名實(shí)體識(shí)別流程圖

        2 藏文音節(jié)及識(shí)別

        藏語(yǔ)文本中絕大部分音節(jié)可由音節(jié)分隔符“·”劃分,但由于藏語(yǔ)文法中存在的六種緊縮格(),導(dǎo)致這六種格與其前的音節(jié)間存在黏著關(guān)系,甚至存在緊縮關(guān)系。文獻(xiàn)[8]提出了藏文緊縮詞及還原法,利用藏文緊縮詞的添接規(guī)則還原分詞后的藏文原文。利用組成音節(jié)的字根、前置字、后置字等字母構(gòu)件集和字母拼寫(xiě)規(guī)則,識(shí)別實(shí)際拼寫(xiě)音節(jié),校對(duì)音節(jié)[8]。本文考慮到有效獲取音節(jié)間實(shí)際上下文特征,只要將黏著緊縮音節(jié)劃分為兩個(gè)音節(jié),能準(zhǔn)確判斷出黏著緊縮關(guān)系即可。圖2中實(shí)際拼寫(xiě)切分為本文采用的方法。

        圖2 緊縮詞還原切分和實(shí)際拼寫(xiě)切分比較

        本文首先按藏語(yǔ)音節(jié)分隔符“·”分隔為準(zhǔn)音節(jié),準(zhǔn)音節(jié)分為緊縮準(zhǔn)音節(jié)和非緊縮準(zhǔn)音節(jié),而緊縮準(zhǔn)音節(jié)包括三種,分別為直接分隔緊縮準(zhǔn)音節(jié)、可還原緊縮準(zhǔn)音節(jié)和歧義緊縮準(zhǔn)音節(jié);其中非緊縮準(zhǔn)音節(jié)(譬如:)可直接劃分為一個(gè)音節(jié);緊縮準(zhǔn)音節(jié)可劃分為兩個(gè)音節(jié),其中直接分隔緊縮準(zhǔn)音節(jié)(譬如:)可直接分隔為一個(gè)音節(jié)()和可分黏著格();可還原緊縮準(zhǔn)音節(jié)(譬如)可直接還原為一個(gè)還原音節(jié)()和一個(gè)(還原)黏著格();歧義緊縮準(zhǔn)音節(jié)()可能為一個(gè)音節(jié)()和一個(gè)黏著格(),或者可能為一個(gè)單音節(jié)名詞(),同時(shí)可能存在還原()問(wèn)題。為獲得藏文實(shí)際拼寫(xiě)時(shí)的上下文音節(jié)特征,本文沒(méi)有按照嚴(yán)格分詞方法處理。當(dāng)用非緊縮音節(jié)表1和緊縮詞,判斷一個(gè)音節(jié)為緊縮準(zhǔn)音節(jié)后根據(jù)格助詞直接分隔即可,譬如:()確定為緊縮關(guān)系,則劃分為形式,中間加個(gè)空格來(lái)劃分。歧義緊縮準(zhǔn)音節(jié)根據(jù)建立的排歧詞表1來(lái)劃分,當(dāng)前歧義緊縮準(zhǔn)音節(jié)與第一個(gè)左部或右部出現(xiàn)的音節(jié)同時(shí)出現(xiàn)在歧義詞表時(shí)將其直接劃分為一個(gè)音節(jié),否則劃分為兩個(gè)音節(jié)。經(jīng)測(cè)試,在25 MB藏文語(yǔ)料中緊縮詞的識(shí)別準(zhǔn)確率達(dá)99.91%。此外,當(dāng)抽取命名實(shí)體詞典時(shí)對(duì)特殊緊縮邊界作還原,譬如,“”抽取并還原為“

        表1 非緊縮音節(jié)和排歧詞表

        3 命名實(shí)體的序列標(biāo)注規(guī)范

        在應(yīng)用機(jī)器學(xué)習(xí)算法之前,首先將語(yǔ)料中標(biāo)注好的命名實(shí)體的單詞序列轉(zhuǎn)換成音節(jié)標(biāo)注序列。根據(jù)音節(jié)與命名實(shí)體的關(guān)系,將音節(jié)標(biāo)注為13個(gè)標(biāo)注規(guī)范中的一個(gè)。標(biāo)注詳細(xì)信息見(jiàn)表2。比如,可以將詞級(jí)別人工標(biāo)注好的命名實(shí)體句子(1)轉(zhuǎn)換為命名實(shí)體音節(jié)序列標(biāo)注句子(2)。

        如果在識(shí)別過(guò)程中發(fā)生歧義,則句子中的某些音節(jié)會(huì)有多個(gè)可能的標(biāo)注。比如,對(duì)于上述句子(1)中的組成人名的每個(gè)音節(jié)可能存在多個(gè)標(biāo)注(3),下面只給出了前三個(gè)詞的標(biāo)注結(jié)果:

        這和詞性標(biāo)記相似,一個(gè)音節(jié)的標(biāo)注會(huì)受前面音節(jié)的標(biāo)注影響。比如,當(dāng) 標(biāo)注為L(zhǎng)R時(shí),則其后面的音節(jié)只能被標(biāo)注為MR或RR;而當(dāng) 被標(biāo)注為OW時(shí),其后的音節(jié)只能被標(biāo)注為 OW、LR、LS、LT、NR、NS和NT。同樣,同樣一個(gè)音節(jié)的標(biāo)注也會(huì)受該音節(jié)周圍音節(jié)的影響。這與詞性標(biāo)注任務(wù)相似,記載特定的上下文中,從多個(gè)可能的標(biāo)注中選擇正確的標(biāo)注。接下來(lái)是從1.3萬(wàn)句標(biāo)注好的訓(xùn)練語(yǔ)料中訓(xùn)練得到感知機(jī)在線平均權(quán)重訓(xùn)練模型,以對(duì)新出現(xiàn)的句子進(jìn)行自動(dòng)標(biāo)注。

        表2 標(biāo)注規(guī)范信息

        4 模型及特征訓(xùn)練

        4.1 模型

        感知機(jī)方法是利用錯(cuò)誤分類對(duì)決策權(quán)向量進(jìn)行修正至收斂的方法。基于感知機(jī)文本序列標(biāo)注方法在句法分析[9]中取得了比較好的效果,具有容易定義特征、訓(xùn)練速度快和分類效果好等特性。此方法同樣在Unicode編碼藏文文本自動(dòng)分詞和詞性標(biāo)注中得到了驗(yàn)證[1]。設(shè)輸入句子xi∈X,輸出標(biāo)注序列 yi∈Y,X表示訓(xùn)練語(yǔ)料中的所有句子,Y表示對(duì)應(yīng)標(biāo)注命名實(shí)體標(biāo)記的音節(jié)序列。本文采用項(xiàng)目組制訂的命名實(shí)體音節(jié)標(biāo)注規(guī)范見(jiàn)表2,其中藏文音節(jié)標(biāo)注代碼包括13個(gè)。那么最佳命名實(shí)體音節(jié)標(biāo)注序列為:

        其中 f(xi,yi)表示輸入句子和產(chǎn)生標(biāo)注序列的特征向量,w表示訓(xùn)練后得到的特征權(quán)重。

        4.2 特征

        表3 藏文音節(jié)特征模板表1)

        使用的特征包含了四類上下文信息:(1)音節(jié)化上下文。對(duì)于句子中的每個(gè)音節(jié),只考慮當(dāng)前音節(jié),前面兩個(gè)音節(jié)和后面兩個(gè)音節(jié)。譬如,人名“中的第一個(gè)音節(jié)“”的標(biāo)注可能為OW、LR或RS,但由于它前面兩個(gè)音節(jié)為“和,受這兩個(gè)音節(jié)的影響它被標(biāo)注為RR。如果其前面為“ ”則被標(biāo)注為OW。(2)前面出現(xiàn)的標(biāo)注。這類信息對(duì)于預(yù)測(cè)當(dāng)前音節(jié)的標(biāo)注是非常有用的。譬如,如果前面的音節(jié)被標(biāo)注為L(zhǎng)R,則表示前一個(gè)單詞是某人名的起始音節(jié),則當(dāng)前音節(jié)是該人名的中間或結(jié)束音節(jié),應(yīng)該被標(biāo)注為MR或RR。(3)格詞接續(xù)規(guī)則。主格、屬格、于格和從格等主要格詞類具有固定的接續(xù)特征,且與形態(tài)動(dòng)詞相關(guān)[7]。接續(xù)規(guī)則與前一個(gè)詞的最后一個(gè)音節(jié)的后置字相關(guān),譬如,主格的接續(xù)要參照詞“的后置字“若符合則當(dāng)前音節(jié)被標(biāo)注為OW,而表示前一個(gè)音節(jié)的標(biāo)記可能為RR、RS或RT。(4)命名實(shí)體詞典特征。命名實(shí)體在相應(yīng)詞典中出現(xiàn)的特征信息類似上下文和標(biāo)注信息,這類訓(xùn)練權(quán)重同樣可用來(lái)正確標(biāo)注命名實(shí)體的當(dāng)前音。

        4.3 在線訓(xùn)練

        本文采用感知機(jī)在線的學(xué)習(xí)權(quán)重,并獲取平均向量權(quán)重的方法[11],該算法具有魯棒特性,在短語(yǔ)結(jié)構(gòu)句法分析中,該算法擬合訓(xùn)練結(jié)果獲得了最佳近似擬合效果[12]。在線訓(xùn)練算法中當(dāng)完成一個(gè)單獨(dú)訓(xùn)練實(shí)例的擬合過(guò)程后,權(quán)重向量w就會(huì)更新一次。算法1中Y=為訓(xùn)練集,訓(xùn)練集中每條句對(duì)(xi,yi)由句子xi和其正確的序列標(biāo)注yi的句對(duì)構(gòu)成。

        算法1在線平均感知機(jī)權(quán)重訓(xùn)練算法

        利用在線學(xué)習(xí)算法對(duì)感知機(jī)模型訓(xùn)練結(jié)束后,每個(gè)特征及對(duì)應(yīng)的權(quán)重將被用來(lái)自動(dòng)標(biāo)注新出現(xiàn)的句子中的命名實(shí)體。

        5 解碼

        感知機(jī)模型解碼算法是尋找權(quán)重最大的音節(jié)標(biāo)注序列,從式(1)可以推導(dǎo)出最大權(quán)重音節(jié)序列標(biāo)注生成模型,可以定義為:

        其中si為序列標(biāo)注句子 y中的第i個(gè)音節(jié),fk(si)為根據(jù)特征模板獲得的第k個(gè)特征,wk為該特征在訓(xùn)練樣本上第m次迭代后得到的平均權(quán)重,表示每個(gè)特征對(duì)命名實(shí)體音節(jié)類別的貢獻(xiàn),決定命名實(shí)體的邊界。使用柱搜索算法,按從左到右的順序標(biāo)注句子中的每個(gè)藏文音節(jié),見(jiàn)算法2。然后可以通過(guò)回溯得到最優(yōu)標(biāo)注結(jié)果以及n-best命名實(shí)體音節(jié)序列標(biāo)注結(jié)果。

        算法2命名實(shí)體標(biāo)注解碼算法

        算法中chart表示音節(jié)標(biāo)注搜索圖,每個(gè)頂點(diǎn)Node(POS,POS_1,score,prior)包含四個(gè)屬性,分別為當(dāng)前音節(jié)屬性標(biāo)記;前驅(qū)音節(jié)屬性標(biāo)記;從起始頂點(diǎn)至當(dāng)前頂點(diǎn)的累加分值,以及其前驅(qū)頂點(diǎn)序號(hào)。s[i]表示當(dāng)前音節(jié),psbPOSs包含當(dāng)前藏文音節(jié)在訓(xùn)練語(yǔ)料中出現(xiàn)過(guò)的標(biāo)注規(guī)范集,preTags包含所有可能的前驅(qū)頂點(diǎn)。SORTINSERT(curNode,chart[i])函數(shù)完成當(dāng)前頂點(diǎn)的篩選和前驅(qū)的路徑的剪枝功能,在實(shí)驗(yàn)中直方圖剪枝,堆??臻g大小設(shè)為20,按遞減排序當(dāng)前堆棧,只保留前20個(gè)標(biāo)注假設(shè),其余標(biāo)注分值較差的部分將被剪枝;柱搜索剪枝[13]所定義的搜索寬度為2,兼類音節(jié)引起存在多條路徑到當(dāng)前節(jié)點(diǎn),而且路徑中當(dāng)前節(jié)點(diǎn)的第一個(gè)前驅(qū)節(jié)點(diǎn)和當(dāng)前節(jié)點(diǎn)的標(biāo)注一致時(shí),則剪枝分值低的路徑。通過(guò)剪枝降低解碼的復(fù)雜度后,算法復(fù)雜度公式可以簡(jiǎn)化為:

        tag options為標(biāo)注規(guī)范的數(shù)量,sentence length為句子中的音節(jié)數(shù)。當(dāng)搜索圖中形成終點(diǎn),獲取所有可能序列標(biāo)注路徑或標(biāo)注結(jié)果后,可以通過(guò)回溯算法生成權(quán)重分值最高的音節(jié)格式命名實(shí)體標(biāo)注句子。

        6 實(shí)驗(yàn)和分析

        6.1 語(yǔ)料

        采用的訓(xùn)練和測(cè)試語(yǔ)料來(lái)自藏文網(wǎng)站上相關(guān)命名實(shí)體的各個(gè)領(lǐng)域,包括新聞、小說(shuō)、法律、人物介紹等。語(yǔ)料加工分兩步,(1)進(jìn)行自動(dòng)分詞、詞性標(biāo)注后,經(jīng)人工修改其中切分和標(biāo)注錯(cuò)誤的命名實(shí)體。(2)將完整的詞性標(biāo)注好語(yǔ)料轉(zhuǎn)換為基于藏文音節(jié)標(biāo)注模式語(yǔ)料,見(jiàn)圖1。訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料的基本情況見(jiàn)表4。為獲取訓(xùn)練語(yǔ)料中的詞典特征,項(xiàng)目組整理了2.6萬(wàn)條人名、1.8萬(wàn)條地名和2千條機(jī)構(gòu)名。

        表4 該語(yǔ)料概況

        6.2 實(shí)驗(yàn)

        在本實(shí)驗(yàn)中,為比較切分粒度對(duì)藏文命名實(shí)體的影響,使用基于分詞基礎(chǔ)上識(shí)別藏文命名實(shí)體的方法為基線系統(tǒng),在表4給出的訓(xùn)練和測(cè)試集語(yǔ)料上,采用了相同的序列標(biāo)注規(guī)范、特征向量抽取模板、在線感知模型學(xué)習(xí)和解碼算法。藏文命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure)三個(gè)指標(biāo)[14]。各項(xiàng)指標(biāo)越高說(shuō)明命名實(shí)體的找出能力和判別能力越強(qiáng)。分別基于分詞[15]和音節(jié)特征感知機(jī)藏文命名實(shí)體識(shí)別性能見(jiàn)表5。

        表5 藏文命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果 (%)

        從實(shí)驗(yàn)結(jié)果可以看出基于音節(jié)特征識(shí)別NE的F值相對(duì)于分詞方法高出10.52個(gè)百分點(diǎn),這是因?yàn)闇y(cè)試語(yǔ)料中的命名實(shí)體對(duì)分詞系統(tǒng)來(lái)說(shuō),很多都是未登錄詞,切分時(shí)容易出現(xiàn)未登錄詞與上下文切分錯(cuò)誤,引起命名實(shí)體識(shí)別錯(cuò)誤,比如“意思為“他在成都經(jīng)營(yíng)格桑多杰唐卡工藝館?!?,分詞結(jié)果為本文切分分隔符為空格的音節(jié)切分結(jié)果為基于音節(jié)特征方法中被正確識(shí)別的命名實(shí)體為而分詞方法中只有識(shí)別這是錯(cuò)誤的,分詞時(shí)把分為了一個(gè)詞,導(dǎo)致命名實(shí)體識(shí)別錯(cuò)誤。由于訓(xùn)練語(yǔ)料規(guī)模,本文提出的藏文命名實(shí)體識(shí)別效果比英文(F=93.87%)[4]和中文(F=91.18%)[16]偏低,但是對(duì)于一般藏文文本中出現(xiàn)的命名實(shí)體的識(shí)別依然達(dá)到了可以接受的標(biāo)準(zhǔn)。

        7 結(jié)語(yǔ)

        藏文人名、地名和機(jī)關(guān)名等命名實(shí)體的專門識(shí)別是一項(xiàng)比較基礎(chǔ),但很重要的工作,可是國(guó)內(nèi)外的相關(guān)研究較少。本文根據(jù)藏文命名實(shí)體的構(gòu)詞規(guī)律,以及其基本組成單位音節(jié)特征出發(fā),提出了基于藏文音節(jié)特征的藏文命名實(shí)體識(shí)別方法。采用感知機(jī)方法訓(xùn)練命名實(shí)體標(biāo)注語(yǔ)料,結(jié)合詞典和訓(xùn)練模型用動(dòng)態(tài)規(guī)劃算法獲得命名實(shí)體標(biāo)注權(quán)重最大的n-best,最終輸出最佳命名實(shí)體識(shí)別結(jié)果。藏文命名實(shí)體識(shí)別綜合性能達(dá)到86.03%。在現(xiàn)有的研究基礎(chǔ)上,將進(jìn)一步研究擴(kuò)充知識(shí)庫(kù),對(duì)未能正確識(shí)別的命名實(shí)體采用知識(shí)庫(kù)指導(dǎo)或統(tǒng)計(jì)和規(guī)則混合模型識(shí)別的方法。

        [1]孫萌,劉群.基于判別式分類和重排序技術(shù)的藏文分詞[C]//第十二屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2011.

        [2]格桑居冕.實(shí)用藏文文法[M].成都:四川民族出版社,1987.

        [3]孫萌,華卻才讓,劉凱,等.藏文數(shù)詞識(shí)別與翻譯[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(1):75-80.

        [4]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(6):42-47.

        [5]金明,楊歡歡,單廣榮.藏語(yǔ)命名實(shí)體識(shí)別研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2010(3):49-52.

        [6]羅智勇,宋柔,朱小杰.藏族人名漢譯名識(shí)別研究[J].情報(bào)學(xué)報(bào),2009(3):475-480.

        [7]珠杰,李天瑞,喬少杰.藏文音節(jié)規(guī)則模型及應(yīng)用[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(1):69-74.

        [8]才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009(1):35-37.

        [9]Collins M.Discriminative training methods for hidden markov models:theory and experiments with perceptron algorithms[C]//Proceedings of the Empirical Methods in Natural Language Processing Conference,Philadelphia,America,2002:1-8.

        [10]華卻才讓,姜文斌,趙海興,等.基于詞對(duì)依存分類的藏語(yǔ)樹(shù)庫(kù)半自動(dòng)構(gòu)建研究[J].中文信息學(xué)報(bào),2013,27(5).

        [11]McDonald R,Pereira F.Online learning of approximate dependency parsing algorithms[C]//Proceedings of EACL,2006:81-88.

        [12]Collins M,Roark B.Incremental parsing with the perceptron algorithm[C]//Proc ACL,2004.

        [13]Koehn P.統(tǒng)計(jì)機(jī)器翻譯[M].宗成慶,張霄軍,譯.北京:電子工業(yè)出版社,2012.

        [14]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.

        [15]孫萌,華卻才讓,姜文斌,等.藏文分詞及其在藏漢機(jī)器翻譯中的應(yīng)用[J].信息技術(shù)快報(bào),2013,11(4).

        [16]馮元勇,孫樂(lè),李文波,等.基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[J].中文信息學(xué)報(bào),2008(1):104-109.

        猜你喜歡
        藏文分詞音節(jié)
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        拼拼 讀讀 寫(xiě)寫(xiě)
        結(jié)巴分詞在詞云中的應(yīng)用
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        值得重視的分詞的特殊用法
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語(yǔ)境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        快樂(lè)拼音
        木管樂(lè)器“音節(jié)練習(xí)法”初探
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        蜜桃在线高清视频免费观看网址| 国产无码夜夜一区二区| 亚洲 无码 制服 丝袜 自拍| av免费观看在线网站| 娇小女人被黑人插免费视频| 麻豆精品在线视频观看| 中文字幕av人妻少妇一区二区| 欧美午夜理伦三级在线观看| 香港三日本三级少妇三级视频| 图片区小说区激情区偷拍区| 亚洲深深色噜噜狠狠爱网站| 亚洲综合偷自成人网第页色| 日韩精品一区二区亚洲av性色| 蜜桃视频羞羞在线观看| 国产香蕉视频在线播放| a级国产乱理伦片在线播放| 久久国产精品视频影院| 五十路一区二区中文字幕| 日韩av无码一区二区三区| 免费无码毛片一区二区三区a片| 婷婷一区二区三区在线| 日本国产一区二区在线| 国产精品一区二区久久国产| 人妻少妇无码精品视频区 | 国产成人福利av一区二区三区| 人妻露脸国语对白字幕| 性色av一二三天美传媒| 性一交一乱一伦a片| 国产在视频线精品视频二代| 蜜桃网站免费在线观看视频| 美丽人妻在夫前被黑人| 久久青草伊人精品| 超级少妇一区二区三区| 色婷婷亚洲一区二区三区在线| 亚洲av午夜福利精品一区| 国产精成人品| 精品国产乱码一区二区三区在线| 日本午夜艺术一区二区| 亚洲a∨无码一区二区三区| 欧美日韩精品福利在线观看| 久久久精品人妻一区二区三区日本|