亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文復(fù)合句的依存句法分析

        2016-06-01 11:29:46華卻才讓趙海興
        中文信息學(xué)報(bào) 2016年6期
        關(guān)鍵詞:末尾藏文長(zhǎng)句

        華卻才讓,趙海興

        (青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        藏文復(fù)合句的依存句法分析

        華卻才讓,趙海興

        (青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        為解決藏文復(fù)合句引起的依存句法分析性能下降的主要問(wèn)題,該文提出了一種基于判別式的藏文復(fù)合句切分標(biāo)注方法,先根據(jù)藏文固有的虛詞語(yǔ)法結(jié)構(gòu)和連詞特征,將復(fù)合句子切分標(biāo)注為句法分析的基本單元,然后將句法分析之后的各個(gè)部分依據(jù)主分句關(guān)系進(jìn)行合并,生成復(fù)合句的完整分析結(jié)果。實(shí)驗(yàn)結(jié)果表明該方法在一定程度上降低了藏文復(fù)合句依存句法分析的復(fù)雜度,最終句法分析的準(zhǔn)確率達(dá)到88.72%。

        句法分析;依存句法;藏文分句;藏文復(fù)合句

        1 引言

        依存句法分析作為自然語(yǔ)言處理的核心問(wèn)題,主要對(duì)句子中的詞語(yǔ)語(yǔ)法功能進(jìn)行有效分析,以備各種上層的應(yīng)用,但由于文本中句子的長(zhǎng)度和結(jié)構(gòu)變化很大,隨著句子長(zhǎng)度的增加,句法分析的時(shí)空復(fù)雜度將會(huì)急劇上升,導(dǎo)致產(chǎn)生更多的句法歧義,這會(huì)嚴(yán)重影響句法分析的質(zhì)量,為此,句法分析中采用分治策略來(lái)處理復(fù)雜句型[1],先根據(jù)句子中的標(biāo)點(diǎn)符號(hào)和連接詞的功能將句子分為不同的部分,然后分別對(duì)每個(gè)部分進(jìn)行句法分析,獲得局部最優(yōu)結(jié)果后,將合并每個(gè)部分的分析結(jié)果形成最終的分析結(jié)果。對(duì)于藏文語(yǔ)料而言,尤其是新聞?wù)Z料中句子長(zhǎng)度大于20個(gè)詞的比例高達(dá)70%以上,句子中只用楔形符號(hào)表示陳述句、疑問(wèn)句、感嘆句、祈使句、反問(wèn)句、停頓和分句等的末尾標(biāo)點(diǎn)符號(hào)。另外,藏文句子中連詞除了常用的關(guān)聯(lián)詞之外,很多自由和不自由虛詞也具有連詞的語(yǔ)法功能,甚至長(zhǎng)達(dá)五六十個(gè)詞語(yǔ)的句子中分句之間通過(guò)虛詞連接,句子內(nèi)部不會(huì)出現(xiàn)任何標(biāo)點(diǎn)符號(hào)。這使得藏文復(fù)雜句型的分析變得最難處理的問(wèn)題之一,也是目前和未來(lái)一段時(shí)間,在藏文信息處理領(lǐng)域急需解決的難題之一。

        為解決句法分析中的長(zhǎng)句問(wèn)題,CoNLL-01專門組織完成了英語(yǔ)從句識(shí)別的評(píng)測(cè)任務(wù), 當(dāng)時(shí)最好識(shí)別結(jié)果的準(zhǔn)確率達(dá)78.63%[2]。Kim等人使用分治策略來(lái)簡(jiǎn)化英語(yǔ)句法分析的復(fù)雜度,應(yīng)用最大熵的方法對(duì)句子進(jìn)行切分[1]。對(duì)漢語(yǔ)長(zhǎng)句的分割,Jin等人提出以逗號(hào)分為分句之內(nèi)和分句之間兩種情況[3],對(duì)逗號(hào)進(jìn)行標(biāo)注之后,將句子從分句之間的標(biāo)點(diǎn)處斷開(kāi)。馬金山等人提出了一種句子片段切分的思想,根據(jù)句子的語(yǔ)法結(jié)構(gòu)[4], 對(duì)所有的片段末尾標(biāo)點(diǎn)進(jìn)行標(biāo)注,包括逗號(hào)、冒號(hào)、分號(hào)、句號(hào)、問(wèn)號(hào)和嘆號(hào)等,同時(shí)探討了分句之間的依存關(guān)系識(shí)別問(wèn)題,取得了不錯(cuò)的成績(jī)。藏文方面,文獻(xiàn)[5]實(shí)現(xiàn)了基于最大生成樹(shù)的依存句法分析方法,文獻(xiàn)[6]開(kāi)發(fā)了基于詞對(duì)依存分類模型的半自動(dòng)句法標(biāo)注工具軟件,構(gòu)建了1.1萬(wàn)句藏文依存句法樹(shù)庫(kù),目前還未見(jiàn)到藏文復(fù)雜長(zhǎng)句研究句法分析結(jié)果。

        本文結(jié)合藏文長(zhǎng)句中復(fù)合句的結(jié)構(gòu)特征,提出基于分句的藏文復(fù)合句分析方法,先根據(jù)句子的文法結(jié)構(gòu),對(duì)標(biāo)點(diǎn)進(jìn)行腳色標(biāo)注,劃分分句類型;然后若句子是復(fù)合句則對(duì)每個(gè)分句獨(dú)立進(jìn)行依存句法分析,最后將每個(gè)分句的依存樹(shù)進(jìn)行合并,完成整個(gè)句子的依存分析。經(jīng)實(shí)驗(yàn),本文的分析器對(duì)分析藏文復(fù)合句的依存句法樹(shù)表現(xiàn)出了更好的性能。

        2 藏文復(fù)合句型

        由兩個(gè)或兩個(gè)以上結(jié)構(gòu)獨(dú)立的單句形式構(gòu)成復(fù)合句,復(fù)句中每個(gè)語(yǔ)法結(jié)構(gòu)獨(dú)立的成分為單句,藏文復(fù)句中每個(gè)分句之間通過(guò)連詞進(jìn)行連接,表示分句間不同類型的語(yǔ)義關(guān)系,與其他語(yǔ)種不同,藏文連詞包括虛詞和關(guān)聯(lián)詞兩種類型[7],分句間的虛詞一般出現(xiàn)在前一個(gè)分句的最后一個(gè)音節(jié)處,而關(guān)聯(lián)詞卻根據(jù)復(fù)合句的類型,可分別在前后分句的末尾或開(kāi)頭部位出現(xiàn)。依據(jù)藏文復(fù)合句中分句之間出現(xiàn)連詞的不同而呈現(xiàn)語(yǔ)義關(guān)系,藏文復(fù)合句可分為以下幾類(表1)。

        表1 藏文復(fù)合句類型及相關(guān)連詞

        3 藏文復(fù)合句的自動(dòng)標(biāo)注

        3.1 分句劃分方案

        (1) 完整分句結(jié)構(gòu): 分句是語(yǔ)法結(jié)構(gòu)完整的片段,分句之間只有語(yǔ)義上的聯(lián)系,在句法結(jié)構(gòu)上沒(méi)有聯(lián)系,標(biāo)識(shí)的方法是將片段末尾標(biāo)點(diǎn)的詞性標(biāo)注為wp1,例如:

        (2) 無(wú)主語(yǔ)結(jié)構(gòu)。分句中主語(yǔ)被省略或者位于前面的分句中。將該結(jié)構(gòu)末尾的標(biāo)點(diǎn)標(biāo)識(shí)為wp2,例如:

        (3) 無(wú)賓語(yǔ)結(jié)構(gòu)。片段的謂語(yǔ)是及物動(dòng)詞,但是謂語(yǔ)和賓語(yǔ)之間被標(biāo)點(diǎn)間隔,將該結(jié)構(gòu)末尾的標(biāo)點(diǎn)標(biāo)識(shí)為/wp3,例如:

        圖1 完整分句結(jié)構(gòu)實(shí)例的依存句法樹(shù)

        3.2 判別式模型

        現(xiàn)有許多機(jī)器學(xué)習(xí)方法都可以用于分句類型的識(shí)別,如支持向量機(jī)(SVM),條件隨機(jī)場(chǎng)(CRF),神經(jīng)網(wǎng)絡(luò)等。由于最大熵模型非常成熟,可以采用開(kāi)源的最大熵訓(xùn)練工具包來(lái)訓(xùn)練,因此本文選擇最大熵模型來(lái)解決藏文分句的自動(dòng)識(shí)別問(wèn)題。

        如果將一個(gè)復(fù)合句看作分句的序列,則將分句識(shí)別問(wèn)題視為將復(fù)合句劃分為子句的隨機(jī)過(guò)程。建立隨機(jī)過(guò)程的聯(lián)合概率模型p,p∈P,輸出值集合Y={wp1,wp2,wp3,wp4}, y∈Y,其中y是片段的類別劃分結(jié)果,在這個(gè)隨機(jī)過(guò)程中,Y受到句子中上下文信息x的影響,上下文集合x(chóng)∈X,其中x表示此序列中所有可能的上下文特征組合。同時(shí),從訓(xùn)練語(yǔ)料中獲得N個(gè)樣本的集合,S={(x1,y1), (x2,y2), (x3,y3),…,(xn,yn)},其中(x1,y1)是觀察到的一個(gè)事件,那么可以根據(jù)訓(xùn)練樣本定義一個(gè)事件空間X×Y,對(duì)于句子中分句的識(shí)別問(wèn)題,事件信息特征是一個(gè)二值函數(shù)f: X×Y→(0,1)。對(duì)于一個(gè)特征f(x0,y0),定義其特征函數(shù)如式(1)所示。

        對(duì)每一個(gè)特征f(x,y),其聯(lián)合概率分布模型p的熵函數(shù)如式(2)所示。

        (2)

        最大熵模型如式(3)所示。

        其中C為滿足約束條件的模型集合,P*的具體統(tǒng)計(jì)推斷形式,即條件熵為[9]式(4)。

        (4)

        3.3 特征模板

        考慮到分句的準(zhǔn)確識(shí)別問(wèn)題,本文僅對(duì)句子中存在楔形符的復(fù)合句做了標(biāo)注。按照上節(jié)給定的四種分類標(biāo)準(zhǔn),標(biāo)注分句末尾楔形符號(hào)的角色,識(shí)別其類型后,進(jìn)行分句依存句法分析,這樣識(shí)別分句結(jié)構(gòu)類型,就成了文本分類問(wèn)題。為此根據(jù)藏語(yǔ)分句的獨(dú)特單詞結(jié)構(gòu)和影響分句類型的各種因素,定義了藏語(yǔ)分句識(shí)別的特征模板,包括單詞詞形、詞性、長(zhǎng)度和楔形符號(hào)等特征空間,如表2所示。

        表2 分句類型識(shí)別的上下文特征

        當(dāng)特征函數(shù)f(x,y)取分句中抽取的特定值時(shí),則改模板被實(shí)例化,得到具體特征。當(dāng)模板的取值確定后就可以產(chǎn)生一個(gè)特征,這個(gè)特征可以表示為二值函數(shù),如式(5)所示。

        用最大熵原理對(duì)特征進(jìn)行參數(shù)估計(jì)后,可求得基于最大熵的模型,即完成了每個(gè)特征的參數(shù)估值任務(wù),本文使用了張樂(lè)的最大熵工具包。

        4 復(fù)合句依存分析

        對(duì)完整復(fù)合句的識(shí)別結(jié)果中,分句楔形分隔符號(hào)的類型標(biāo)識(shí)只有wp1、wp2和wp3,而不是完整復(fù)合句的標(biāo)識(shí)中會(huì)出現(xiàn)wp4,前者中分句為依存句法分析的基本單元,后者將以整句為句法分析單元,在此不予考慮。分句在語(yǔ)法上是獨(dú)立的,即只有一個(gè)核心詞同其它分句產(chǎn)生聯(lián)系,故對(duì)于分句本文使用已有的感知機(jī)依存句法分析器進(jìn)行分析[5],之后為得到整句的依存分析結(jié)果,還需要將分句的分析結(jié)果進(jìn)行合并。表3給出了分句間的依存關(guān)系。

        表3 分句間的依存關(guān)系類型

        雖然分句的分析結(jié)果中只有一個(gè)中心詞,分句間的依存關(guān)系像是中心詞之間的關(guān)系,是詞對(duì)間關(guān)系的分類問(wèn)題,可以采用已有的詞對(duì)依存分類模型[6]解決這一問(wèn)題,但實(shí)際上,分句間的依存關(guān)系需要確定兩棵依存樹(shù)之間的支配關(guān)系,為此本文引入了自底向上的CYK算法,只用方陣主對(duì)角線以下元素記錄搜索跨度范圍內(nèi)的數(shù)據(jù),尋找分句為單位的最佳依存樹(shù)[10-11],分句整合方法見(jiàn)算法1所示。

        算法1 藏文分句合并算法1:輸入:分句獨(dú)立分析后的復(fù)合句y2:for(i,j)í(1,|Y|)按照分句拓?fù)漤樞騞o //分句個(gè)數(shù)須大于13: bufφ4: formi..j按照當(dāng)前分句跨度的拓?fù)漤樞騞o5: forl∈V[i,m]&&r∈V[m+1,j]do //二分推導(dǎo)6: DERIV(l,r)左推導(dǎo)寫(xiě)入buf7: DERIV(r,l)右推導(dǎo)寫(xiě)入buf8: V[i,j]buf中取前K個(gè)推導(dǎo)9:輸出:最佳推導(dǎo)結(jié)果V[1,|Y|]10: functionDERIV(p,c)11: dp∪c∪{(p.root,c.root)}//生成新的推導(dǎo)12: d.evlEVAL(d) //權(quán)重計(jì)算函數(shù)13:returnd

        算法1中,V[i,j]包含分句跨度(i,j)的句法分析結(jié)果,跨度的取值為在1和|Y|(分句個(gè)數(shù))之間,這時(shí)將對(duì)整個(gè)跨度依順序二分為左右子跨度的組合,并抽取左右子跨度組合推導(dǎo)生成的依存分支,依據(jù)推導(dǎo)分支的權(quán)重,生成跨度范圍內(nèi)的K個(gè)最佳分值推導(dǎo)樹(shù)。函數(shù)EVAL(d) 計(jì)算分句間以中心詞為首的所有特征向量的權(quán)重之和,其相關(guān)的特征模板等在此不再贅述[5]。

        5 實(shí)驗(yàn)

        該實(shí)驗(yàn)使用的數(shù)據(jù)是青海師范大學(xué)藏文信息研究中心構(gòu)建的藏文依存樹(shù)庫(kù)TDTreebank V1.1[6],樹(shù)庫(kù)數(shù)據(jù)側(cè)重于日常用語(yǔ)和政府文獻(xiàn),共有1.1萬(wàn)個(gè)藏文句法樹(shù),每條句子的平均長(zhǎng)度為17個(gè)藏文詞。實(shí)驗(yàn)中,以TDTreebank V1.1中藏文句法樹(shù)對(duì)應(yīng)的詞性標(biāo)注語(yǔ)句1.1萬(wàn)個(gè)句子作為訓(xùn)練數(shù)據(jù),另構(gòu)建了300個(gè)藏文復(fù)合句作為測(cè)試集。

        5.1 分句類型標(biāo)注

        本文第一個(gè)實(shí)驗(yàn)是識(shí)別每一個(gè)候選分句末尾符號(hào)的類別,即標(biāo)注片段末尾的標(biāo)點(diǎn)符號(hào)類型。識(shí)別時(shí),根據(jù)最大熵訓(xùn)練工具包訓(xùn)練得到的模型和表2所列每個(gè)特征模板,得出每一個(gè)分句標(biāo)注類型的概率,取概率最大為分句的類型標(biāo)記。四類標(biāo)點(diǎn)的標(biāo)注結(jié)果如表4所示。

        表4 分句類型的識(shí)別結(jié)果

        從表4的結(jié)果中,分句識(shí)別和標(biāo)注的F值還算比較理想,其主要原因是本文只標(biāo)注復(fù)合句中用藏文楔形符號(hào)分隔的分句。

        5.2 整句依存分析

        復(fù)合句中分句間的依存關(guān)系確定后,得到了整句的依存句法分析結(jié)果,藏文依存句法分析使用核心詞正確率、依存關(guān)系正確率和整句完全匹配正確率三個(gè)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià),本文得到的結(jié)果如表5所示。

        表5 整句的依存分析結(jié)果

        表中第二行是未對(duì)句子進(jìn)行分句劃分,對(duì)整句直接進(jìn)行依存分析的結(jié)果;第三行是按照本文所描述基于分句的依存句法分析所得到的結(jié)果。通過(guò)降低依存句法分析的復(fù)雜度,300條復(fù)合句中依存關(guān)系的正確率得到了明顯的提高,達(dá)5.07個(gè)百分點(diǎn)。

        6 結(jié)語(yǔ)

        本文借用復(fù)雜長(zhǎng)句的分治策略方法,初步嘗試了藏文復(fù)合句的依存句法分析研究,首先對(duì)結(jié)構(gòu)特征明顯的藏文復(fù)合句進(jìn)行了分句劃分和角色標(biāo)注處理,然后對(duì)簡(jiǎn)化后的獨(dú)立分句進(jìn)行分析,最后合并獨(dú)立分句的分析結(jié)果,從而簡(jiǎn)化,并降低了分析藏文長(zhǎng)句的復(fù)雜度,解決了帶楔形符號(hào)的藏文復(fù)合句的依存分析問(wèn)題。這對(duì)進(jìn)一步處理藏文從句的自動(dòng)識(shí)別,以及基于從句的整句依存分析等研究具有重要意義。

        [1] Kim SD, Zhang BT, Kim YT. Reducing parsing complexity by intra- sentence segmentation based on maximum entropy[C]//Proceedings of EMNLP/VLC-2000, Hong Kong, 2000: 64-171.

        [2] Sang Eftk, Jean H. Introduction to the CoNLL-2001 shared task: clause identification [C]//Proceedings of the CoNLL-200, 2001: 53-57.

        [3] Jin M, Mi-Youngk, Kim D, et al. Segmentation of Chinese long sentences using commas[C]//Proceedings of the 3rd ACL S IGHAN Workshop, Spain: Association for Computational Linguistics, 2004: 1-8.

        [4] 馬金山,李生. 基于統(tǒng)計(jì)方法的漢語(yǔ)依存句法分析研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2007.

        [5] 華卻才讓,趙海興.基于判別式藏語(yǔ)依存句法分析[J].計(jì)算機(jī)工程.2013,39(4):300-304.

        [6] 華卻才讓,姜文斌,趙海興,劉群. 基于詞對(duì)依存分類的藏語(yǔ)樹(shù)庫(kù)半自動(dòng)構(gòu)建研究[J].中文信息學(xué)報(bào). 2013.9.27(5): 162-172.

        [7] 吉太加. 藏語(yǔ)句法研究[M].中國(guó)藏學(xué)出版社.2013.

        [8] 格桑居冕. 實(shí)用藏文語(yǔ)法[M]. 成都: 四川民族出版社,1987.

        [9] 李素建,劉群,張志勇,程學(xué)旗.語(yǔ)言信息處理技術(shù)中的最大熵模型方法[J].計(jì)算機(jī)科學(xué).2002,29(7):108-110.

        [10] W. Jiang, Qun Liu. Dependency parsing and projection based on word pair classification[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Uppsala, Sweden 2010: 12-20.

        [11] R. McDonald. Discriminative learning and spanning tree algorithms for dependency parsing[D]. Ph.D. thesis, University of Pennsylvania, 2006.

        Dependency Parsing of Tibetan Compound Sentence

        Huaquecairang,ZHAO Haixing

        (Key Laboratory of Tibetan Information Processing, Ministry of Education, Qinghai Normal University, Xining, Qinghai 810008, China)

        This paper proposes a discriminative method of identifying the clause to solve the performance decrease caused by Tibetan compound sentence. In this method, the complex sentence is first divided into different syntactic analysis units according to the inherent features of conjunctions. Then each clause is parsed independently. Finally the whole dependency tree is generated by merging the parse of each clause. Experimental results show that the method could decrease the complexity of parsing, and boost the parsing accuracy up to 88.72%.

        syntactic analysis; dependency parsing; Tibetan sub-clause; Tibetan compound sentence

        華卻才讓(1976—),副教授,博士,主要研究領(lǐng)域?yàn)椴卣Z(yǔ)詞法分析、句法分析和機(jī)器翻譯。E-mail:cairanghuaque@aliyun.com趙海興(1969—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)閳D理論、復(fù)雜網(wǎng)絡(luò)、理論計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理。E-mail:363422953@qq.com

        1003-0077(2016)06-0224-06

        2016-09-27 定稿日期: 2016-10-20

        國(guó)家自然科學(xué)基金(61363055);教育部“春暉計(jì)劃”合作科研項(xiàng)目(Z2012102)

        TP391

        A

        猜你喜歡
        末尾藏文長(zhǎng)句
        小數(shù)點(diǎn)后添0與去0,你會(huì)嗎
        究竟錯(cuò)在哪兒
        “0”的讀法和要領(lǐng)
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        這樣分析含同位語(yǔ)的長(zhǎng)句
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語(yǔ)境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        吼唱在關(guān)中大地上的“秦腔”——論小說(shuō)《白鹿原》中長(zhǎng)句和排比句的秦腔韻味
        英語(yǔ)長(zhǎng)句譯法新探
        ——意群—?jiǎng)討B(tài)對(duì)等法
        日本不卡视频一区二区| 欧美午夜精品久久久久久浪潮 | 国产人妖视频一区二区| 国产美女被遭强高潮露开双腿| 国产成人综合久久大片| 欲求不満の人妻松下纱荣子| 欧洲极品少妇| 欧美色资源| 亚洲av高清一区二区| 欧美老妇交乱视频在线观看| 欧美最猛黑人xxxx黑人表情| 国产精品美女黄色av| 人妻熟女中文字幕av| 69国产成人精品午夜福中文| 亚洲男同志网站| 日本一道高清在线一区二区| 欧美国产小视频| 国产成人精品午夜福利免费APP| 午夜日韩视频在线观看| 中文字幕亚洲五月综合婷久狠狠 | 国产av天堂一区二区二区| 亚洲国产精品久久艾草| 女人扒开下面无遮挡| 国产精品久久久一本精品| 视频在线亚洲视频在线| 偷拍夫妻视频一区二区| 亚洲av无码专区首页| 久久精品国产热| 亚洲大片一区二区三区四区| 国产精品黄色片在线看| 国产成人av性色在线影院色戒| 亚洲国产精品午夜电影| 看国产亚洲美女黄色一级片| 国产黄大片在线观看画质优化 | 久久国产精彩视频| 女同视频网站一区二区| 午夜久久久久久禁播电影| 国产激情精品一区二区三区| 娇柔白嫩呻吟人妻尤物| 国产天堂av在线播放资源| 免费视频成人片在线观看|