亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語言知識的統(tǒng)計句法分析

        2012-11-29 10:33:00袁里馳
        關(guān)鍵詞:語義模型

        袁里馳

        (1.江西財經(jīng)大學(xué) 信息學(xué)院 數(shù)據(jù)與知識工程江西省重點實驗室,江西 南昌,330013;2.中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙,410083)

        對自然語言的句法結(jié)構(gòu)進(jìn)行語法、語義、語用等多方面、多角度分析[1?3],近年來已成為漢語語言學(xué)界的共識,3個平面的研究已成為現(xiàn)代漢語研究中的熱點,但大多數(shù)者從不同的角度進(jìn)行研究,而沒有將不同的語言特性綜合考慮,系統(tǒng)地將其應(yīng)用到句法分析中,建立規(guī)則與統(tǒng)計方法相結(jié)合的句法分析模型。基于樹庫的統(tǒng)計句法分析[4?10]是現(xiàn)代句法分析的主流技術(shù)。構(gòu)建統(tǒng)計句法分析模型的目的是以概率的形式評價若干個可能的句法分析結(jié)果(通常表示為語法樹形式)并在這若干個可能的分析結(jié)果中直接選擇 1個最可能的結(jié)果?;诮y(tǒng)計的句法分析模型其實質(zhì)是1個評價句法分析結(jié)果的概率評價函數(shù),即對于任意1個輸入句子s和它的句法分析結(jié)果t,給出1個條件概率P(t|s),并由此找出該句法分析模型認(rèn)為概率最大的句法分析結(jié)果即句法分析問題的樣本空間為S′T。其中:S為所有句子的集合;T為所有句法分析結(jié)果的集合。Collins[11]提出的中心詞驅(qū)動的句法分析模型是當(dāng)前句法分析的主流模型,其基本思想就是在上下文無關(guān)文法規(guī)則中引入詞匯化信息和短語的中心詞信息。這2種信息的引入增強(qiáng)了句法分析模型的消歧能力,然而,不可避免地帶來了嚴(yán)重的數(shù)據(jù)稀疏問題。統(tǒng)計句法分析[12?17]面臨的一個主要問題是如何發(fā)現(xiàn)和利用具有強(qiáng)消歧能力的語言特征知識,同時保證語言知識的應(yīng)用不會使模型的參數(shù)急劇膨脹而導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏問題。為此,本文作者建立了1種新穎的句法分析模型。該句法分析模型基于規(guī)則與統(tǒng)計方法相結(jié)合,將語法、語義、語用等語言學(xué)知識融入句法分析中:首先根據(jù)語法、語用知識對句法結(jié)構(gòu)進(jìn)行層次分析;其次運用語法功能等語法特性分析同一層次結(jié)構(gòu)之間的組合關(guān)系和語法關(guān)系,并根據(jù)語用知識分析它們的排列順序。最后考慮短語或句法成分中的詞之間的語義依存關(guān)系[18?20]。

        1 模型的特點和分析步驟

        1.1 模型的特點

        (1)利用其他句法分析方法作為初始句法分析器。先用其他的句法分析方法(如上下文無關(guān)語法)進(jìn)行句法分析,得到所有可能的句法樹,在句法分析樹的基礎(chǔ)上,利用語法、語義、語用等語言學(xué)知識逐層對句子、結(jié)構(gòu)(短語)、詞進(jìn)行句子成分、語法關(guān)系、語法功能、詞性和排列順序分析,使用規(guī)則和統(tǒng)計相結(jié)合的方法對句法分析樹進(jìn)行選擇。

        (2)模型建立在聚類的基礎(chǔ)上。在統(tǒng)計語言模型中,詞的聚類[21?22]是解決數(shù)據(jù)稀疏問題的主要方法之一。聚類既有依據(jù)語法特性的,又有依據(jù)語義特性的。詞性的劃分實際上就是依據(jù)語法特性對詞進(jìn)行分類,但詞的數(shù)目巨大,通常詞性的劃分并不能完全反映詞的不同語法特性,所以,有必要利用聚類的方法,依據(jù)不同的語法特性對詞進(jìn)行進(jìn)一步分類;另一方面,具有相同語法特性的詞的語義特性不一定相同,也有必要依據(jù)語義特性進(jìn)行聚類。

        (3)該句法分析模型是一個模型框架,具有規(guī)則和統(tǒng)計方法相結(jié)合、多個統(tǒng)計模型相結(jié)合的特點。

        利用層次分析的思想,在層次分析的不同階段,根據(jù)不同的語法、語義、語用特性采用不同的方法和不同的統(tǒng)計模型來解決問題。

        1.2 模型的分析步驟

        1.2.1 利用初始句法分析器對句子進(jìn)行分析

        利用初始句法分析器對句子進(jìn)行分析,得到可能的句法分析樹。例如利用上下文無關(guān)語法初始句法分析器對句子“Astronomers saw stars with telescopes”進(jìn)行分析可得到圖1所示的2棵句法樹。

        圖1 句子Astronomers saw stars with telescopes的2棵分析樹Fig.1 Two parse trees of sentence “Astronomers saw stars with telescopes”

        1.2.2 對句子進(jìn)行句法成分分析

        (1)確定句子成分層次的短語。在分析樹的基礎(chǔ)上,確定句子的謂語(中心語)和與謂語(中心語)有直接語法關(guān)系的其他短語,這些短語與謂語(中心語)在句子中居于同一層次。句子中,絕大多數(shù)句子的謂語(中心語)是由動詞(短語)擔(dān)當(dāng)?shù)摹?/p>

        例如圖1所示 2棵分析樹的謂語(中心語)都是V(saw),產(chǎn)生式V→ saw的概率是

        2棵分析樹與謂語(中心語)V(saw)居于同一層次的結(jié)構(gòu)(短語)依次排列分別為:

        (2)對句子成分層次的短語進(jìn)行語法功能分析。1)利用語法、語用知識建立規(guī)則,對短語進(jìn)行成分標(biāo)注。不同的短語在句子中可擔(dān)當(dāng)不同的句子成分,同時句子成分在組成和排列順序都受語法的限制;但另一方面,句子成分的排列順序有較大的靈活性,語用對句子成分的排列順序也有很大的影響。若用統(tǒng)計的方法對句子成分排列順序的概率進(jìn)行計算,則由于句子成分?jǐn)?shù)目較多(句子成分主要有主語、謂語、賓語和狀語,狀語又分為時間、地點、條件、目的、原因、結(jié)果、程度、方式等狀語),參數(shù)規(guī)模過大導(dǎo)致的數(shù)據(jù)稀疏問題將會非常嚴(yán)重,因此,對結(jié)構(gòu)(短語)進(jìn)行成分標(biāo)注應(yīng)該利用語法、語用知識,使用規(guī)則的方法。在進(jìn)行成分標(biāo)注的同時,可排除一些錯誤的分析樹。

        例如,對上述2棵分析樹的成分標(biāo)注為:

        其中:后綴-s,-p,-o和-wadv分別表示結(jié)構(gòu)(短語)的句法成分標(biāo)注為主語、謂語、賓語、方式狀語。

        2)利用句法成分與句子中心成分謂語(動詞短語)的語法功能關(guān)系,將句法成分構(gòu)成概率空間分成以謂語為條件的相互獨立的概率子空間:

        其中條件概率式(2a),(2b)和(2c)分別表示句子中心成分(謂語)為動詞(V)saw時,主語、賓語、方式狀語為短語NP,NP和 PP的概率。對句子的基本組成成分(句子的必選格、施事、受事和對象等)和附加成分(句子的可選格,時間、處所、工具、條件、原因、目的和方式等),條件概率參數(shù)的訓(xùn)練有所不同:基本組成成分應(yīng)考慮短語為空的產(chǎn)生式條件概率;而附加成分不考慮短語為空的產(chǎn)生式條件概率。2棵分析樹的成分標(biāo)注構(gòu)成概率的計算分別由下2式給出:

        為了減少數(shù)據(jù)稀疏產(chǎn)生的問題,上述條件概率的計算式中動詞saw可用saw的語法類來代替。

        1.2.3 確定句子成分的中心詞(頭詞)

        確定了謂語的中心詞后,第1棵分析樹的其他句子成分為NP-s,NP-o和主語(NP-s)結(jié)構(gòu)的中心詞顯然為 Astronomers,賓語 NP-o(stars with telescopes)由NP(stars)和 PP(with telescopes)組成,其中 NP(stars)為NP-o的中心子結(jié)構(gòu)(短語),它的中心詞顯然為stars,故賓語NP-o的中心詞為stars。這些中心詞(頭詞)句子成分的出現(xiàn)主要與 2個因素有關(guān):結(jié)構(gòu)(短語)對中心詞的詞性要求,如賓語NP-o的中心詞stars的詞性必為名詞(N);句子成分的中心詞與句子中心成分和其他句子成分的中心詞有語義依存關(guān)系,如賓語 NP-o的中心詞stars與謂語V-p中心詞saw有語義依存關(guān)系。設(shè)詞stars與詞saw有語義依存關(guān)系relo-v,用三元組表示詞對和它們之間的依存關(guān)系,則詞stars的出現(xiàn)概率由下式計算:

        由貝葉斯公式和獨立條件,有:

        由貝葉斯公式,有:

        將式(7)代入式(6),得:

        式(8)的概率意義十分明確,P( stars|N)表示在詞性為名詞的條件下,詞stars的出現(xiàn)概率。而

        式(9)表示在與謂語V-p中心詞saw有語義依存關(guān)系relo-v的條件下,詞stars出現(xiàn)的概率。

        為了減少數(shù)據(jù)稀疏產(chǎn)生的問題,式(9)左邊的條件概率的計算式中,動詞saw和名詞stars可用它們的語義類來代替,即設(shè)saw和stars的語義類分別為Csaw和Cstars,則

        1.2.4 短語分析

        (1)對短語進(jìn)行層次分析,確定同一層次的短語。短語的組成雖然可以有很多層次,但同一層次組成比較簡單,一般由2個短語依照一定的語法關(guān)系組合成1個短語,且這2個短語的排列順序比較固定,因而可以采取相對比較簡單的分析方法。

        2棵分析樹在句法下一層次的組成分別為:

        由于組成比較簡單,因此,可以直接用下面的條件概率來計算層次組成出現(xiàn)的概率:

        (2)確定短語各個組成部分的中心詞(頭詞)。實際上,組成短語的中心子短語的中心詞(頭詞)在上一層次的分析中已經(jīng)確定,因而,只需確定其他組成部分的中心詞(頭詞):

        計算這些中心詞(頭詞)出現(xiàn)概率的方法與句子成分的中心詞(頭詞)的計算方法基本相同,也是計算在詞性一定且與中心子短語的中心詞(頭詞)等其他詞有一定的語義依存關(guān)系的條件下詞出現(xiàn)的概率。但語義依存關(guān)系可能不只 1種。在第 2棵分析樹中,詞telescopes在語義搭配上既與其直接的核心詞with有關(guān),也與整個句子的謂語核心詞saw有關(guān)。

        設(shè)telescopes與詞with和saw分別具有語義依存關(guān)系rel1和rel2,則經(jīng)過與(5)式類似的計算可得:

        為了減少參數(shù)較多引起的數(shù)據(jù)稀疏問題,式(13)右邊的第2個條件概率可使用插值方法計算:

        其中:

        參數(shù)1l和2l通過語料訓(xùn)練得到。

        1.2.4 短語內(nèi)部的詞的分析

        對于直接由詞組成的短語,其語法(詞性)和語義依存關(guān)系的分析可參照上述的分析方法(實際上,上面對with telescopes的分析就是這種情況)。但是,語序?qū)浞ǚ治龅慕Y(jié)果有一定的影響,在句法成分分析時,因句法成分的數(shù)目可能較多,排列順序既與語法有關(guān),也與語用有關(guān),采用規(guī)則的方法解決語序問題;對于短語內(nèi)部的詞的排列順序,將引入詞性標(biāo)注n元模型來解決。例如,對短語a(ART)good(ADJ)student(N)的分析,在上述語法(詞性)和語義依存關(guān)系分析以外,通過如下條件概率來計算排列順序的可能性:

        與通常的詞性標(biāo)注n元模型不同是:式(15)的計算只在直接由詞組成的短語內(nèi)部進(jìn)行,而不是在所有相鄰詞之間都進(jìn)行計算。

        2 實驗結(jié)果

        本文實驗在賓州中文樹庫 Chinese Treebank(CTB)5.0上進(jìn)行。CTB是由語言數(shù)據(jù)聯(lián)盟(LDC)公開發(fā)布的一個語料庫,為漢語句法分析研究提供了一個公共的訓(xùn)練、測試平臺。該樹庫包含了507 222個詞,824 983個漢字,18 782個句子,有890個數(shù)據(jù)文件。將文件301~325(含353個句子和6 776個詞)作為調(diào)試集,將文件271~300(含348個句子和 7 980個詞)作為測試集,其余文件作為訓(xùn)練集。本文的所有實驗中,模型的參數(shù)都是從訓(xùn)練集中采用極大似然法估計出來的。

        測試結(jié)果采取了常用的3個評測指標(biāo),即準(zhǔn)確率P、召回率R和綜合指標(biāo)F。精確率P用來衡量句法分析系統(tǒng)所分析的所有成分中正確的成分的比例,召回率R用來衡量句法分析系統(tǒng)分析出的所有正確成分在實際成分中的比例,綜合指標(biāo)。

        實驗中采用的句法分析 Baseline系統(tǒng)是 Daniel M.Bikel基于Collins模型實現(xiàn)的DBParser。表1所示為baseline系統(tǒng)和改進(jìn)模型的句法分析實驗結(jié)果。

        表1 句法分析實驗結(jié)果Table 1 Experimental results of language parsing

        從表1可以看出:由于利用層次分析的思想,在層次分析的不同階段,根據(jù)不同的語法、語義、語用特性采用不同的方法和不同的統(tǒng)計模型,改進(jìn)模型的準(zhǔn)確率P、召回率R、綜合指標(biāo)F比Collins的頭驅(qū)動句法分析模型所得結(jié)果均有明顯提高。

        3 結(jié)論

        (1)語言特征知識的應(yīng)用對統(tǒng)計句法分析有很大影響,這從一個側(cè)面指出了漢語統(tǒng)計句法分析研究的一個方向:從語言學(xué)角度尋找更多的特征知識。從統(tǒng)計句法分析的角度來看,必須有一個好的計算模型并附有豐富的語言特征知識。

        (2)依存語法分析句子的方式是通過分析句子成分間的語法、語義依存關(guān)系,建立以句子成分為節(jié)點的依存語法樹,以此表達(dá)句子的結(jié)構(gòu),所以,首先要解決的問題是:確定依存語法中句子成分的種類和成分之間的依存關(guān)系類型。在統(tǒng)計句法分析中,融入語義知識的模型是研究最多的。

        (3)利用語義、語法等語言知識,建立了一種基于依存關(guān)系的分層句法分析統(tǒng)計模型,概率上下文無關(guān)語法中由概率的上下文無關(guān)性假設(shè)和祖先結(jié)點無關(guān)性假設(shè)引起的問題在該模型中得到解決。與頭驅(qū)動句法分析模型相比,由于在詞的聚類、規(guī)則的分解及概率計算中,多層次地利用了語法、語義依存關(guān)系等語言知識,改進(jìn)模型的性能明顯提高。

        [1]Manning C D,Schutze H.Foundations of statistical natural language processing[M].London: the MIT Press,1999:184?197.

        [2]鐘義信.關(guān)于“信息?知識?智能轉(zhuǎn)換規(guī)律”的研究[J].電子學(xué)報,2004,32(4): 601?605.ZHONG YI-xin.A study on information-knowledge-intelligence transformation[J].Chinese Journal of Electronics,2004,32(4):601?605.

        [3]Joshua G.A bit of progress in language modeling[J].Computer Speech and Language,2001,15(4): 403?434.

        [4]XUE Nian-wen,XIA Fei,Chiou F D,et al.The Penn Chinese treebank: Phrase structure annotation of a large corpus[J].Natural Language Engineering,2005,11(2): 207?238.

        [5]Fung P,Ngai G,Yang Y S,et al.A maximum-entropy Chinese parser augmented by transformation-based learning[J].ACM Trans on Asian language Processing,2004,3(2): 159?168.

        [6]Ciprian C,Frederick J.Structured language modeling[J].Computer Speech and Language,2000,14(4): 283?332.

        [7]趙軍,黃昌寧.漢語基本名詞短語結(jié)構(gòu)分析模型[J].計算機(jī)學(xué)報,1999,22(2): 141?146.ZHAO Jun,HUANG Chang-ning.The model for Chinese basenp structure analysis[J].Chinese Journal of Computers,1999,22(2): 141?146.

        [8]劉水,李生,趙鐵軍,等.頭驅(qū)動句法分析中的直接插值平滑算法[J].軟件學(xué)報,2009,20(11): 2915?2924.LIU Shui,LI Sheng,ZHAO Tie-jun,et al.Directly smooth interpolation algorithm in head-driven parsing[J].Journal of Software,2009,20(11): 2915?2924.

        [9]Aviran S,Siegel P H,Wolf J K.Optimal parsing trees for run-length coding of biased data[J].IEEE Transaction on information Theory,2008,54(2): 841?849.

        [10]ZHOU De-yu,HE Yu-lan.Discriminative Training of the hidden vectors state model for semantic parsing[J].IEEE Transaction on Knowledge and Data Engineering,2009,21(1): 66?77.

        [11]Collins M.Head-driven statistical models for natural language parsing[D].Pennsylvania: The University of Pennsylvania,1999:65?78.

        [12]袁里馳.基于相似度的詞聚類算法和可變長語言模型[J].小型微型計算機(jī)系統(tǒng),2009,30(5): 912?915.YUAN Li-chi.Word clustering based on similarity and vari-gram language model[J].Journal of Chinese Computer Systems,2009,30(5): 912?915.

        [13]鑒萍,宗成慶.基于序列標(biāo)注模型的分層式依存句法分析方法[J].中文信息學(xué)報,2010,24(6): 14?22.JIAN Pink,ZONG Cheng-qing.Layer based dependency parsing by sequence labeling models[J].Journal of Chinese Information Processing,2010,24(6): 14?22.

        [14]張育,王紅玲,周國棟.基于兩種句法分析的語義角色標(biāo)注比較研究[J].計算機(jī)應(yīng)用與軟件,2010,27(8): 13?16.ZHANG Yu,WANG Hong-ling,ZHOU Guo-dong.On comparison of semantic role labeling based on two types of syntactic parsing[J].Computer Applications and Software,2010,27(8): 13?16.

        [15]王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語義角色標(biāo)注[J].中文信息學(xué)報,2010,24(1): 25?30.WANG Bu-kang,WANG Hong-ling,YUAN Xiao-hong,et al.Chinese dependency parse based on semantic role labeling[J].Journal of Chinese Information Processing,2010,24(1): 25?30.

        [16]耿向好,李軍輝,周國棟,等.一種基于歷史信息的多層次中文句法分析方法[J].計算機(jī)應(yīng)用與軟件,2009,26(6): 45?51.GENG Xiang-hao,LI Jun-hui,ZHOU Guo-dong,et al.A history-based hierarchical Chinese parsing[J].Computer Applications and Software,2009,26(6): 45?51.

        [17]辛霄,范士喜,王軒,等.基于最大熵的依存句法分析[J].中文信息學(xué)報,2009,23(2): 18?22.XIN Xiao,FAN Shi-xi,WANG Xuan,et al.Dependency parsing based on maximum entropy model[J].Journal of Chinese Information Processing,2009,23(2): 18?22.

        [18]Seo K J,Nam K C,Choi K S.A probabilistic model of the dependency parse of the variable-word-order languages by using ascending dependency[J].Computer Processing of Oriental Languages,2000,12(3): 309?322.

        [19]李正華,車萬翔,劉挺.基于柱搜索的高階依存句法分析[J].中文信息學(xué)報,2010,24(1): 37?41.LI Zheng-hua,CHE Wan-xiang,LIU Ting.Beam-search based high –order dependency parser[J].Journal of Chinese Information Processing,2010,24(1): 37?41.

        [20]袁里馳.基于依存關(guān)系的句法分析統(tǒng)計模型[J].中南大學(xué)學(xué)報: 自然科學(xué)版,2009,40(6): 1630?1635.YUAN Li-chi.Statistical language paring model based on dependency[J].Journal of Central South University: Science and Technology,2009,40(6): 1630?1635.

        [21]GAO Jian-feng,Goodman J,MIAO Jiang-bo.The use of clustering techniques for language model-application to Asian language[J].Computational Linguistics and Chinese Language Processing,2001,6(1): 27?60.

        [22]Lee L.Similarity-based approaches to natural language processing[D].Cambridge: Harvard University,1997: 35?56.

        猜你喜歡
        語義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        語言與語義
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        認(rèn)知范疇模糊與語義模糊
        “深+N季”組配的認(rèn)知語義分析
        語義分析與漢俄副名組合
        国产一级一片内射视频播放| 亚洲日韩中文字幕在线播放| 亚洲av熟女天堂系列| 亚洲国产人成综合网站| 国产亚洲精品a片久久久| 少妇厨房愉情理伦片免费 | 欧美一级三级在线观看| 国产三级在线观看性色av| 亚洲免费女女在线视频网站| 国产免费拔擦拔擦8x高清在线人| 狠狠久久亚洲欧美专区| 精品国产福利片在线观看| 久久综合加勒比东京热| 亚洲免费女女在线视频网站| 天堂中文最新版在线中文| 天天av天天爽无码中文| 久久人妻少妇中文字幕| 精品女同一区二区三区| 天天天天躁天天爱天天碰2018| 久久天天躁狠狠躁夜夜爽| 亚洲AV无码成人精品区H| 一区二区视频在线国产| 亚洲小说图区综合在线| 伊人久久网国产伊人| 丰满熟妇人妻av无码区 | 午夜av内射一区二区三区红桃视| 人妻一区二区三区在线看| 五十六十日本老熟妇乱| 亚州少妇无套内射激情视频| 99热这里只有精品久久6| 少妇被爽到高潮喷水免费福利| 厨房人妻hd中文字幕| 亚洲精品久久久久久动漫| 亚洲AV永久无码精品表情包| 色噜噜色哟哟一区二区三区| 夜夜躁日日躁狠狠久久av| 欧美一区二区三区红桃小说 | 91短视频在线观看免费| 魔鬼身材极品女神在线| 国产精品亚洲av无人区一区香蕉| 国产白嫩护士被弄高潮|