亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        句法分析與消解PCFG改進(jìn)

        2012-07-13 03:06:40金新生
        電子設(shè)計(jì)工程 2012年4期
        關(guān)鍵詞:規(guī)則結(jié)構(gòu)分析

        金新生

        (河南省財(cái)經(jīng)學(xué)校 河南 鄭州 450012)

        句法分析是自然語(yǔ)言處理的一個(gè)基本問題。許多自然語(yǔ)言處理任務(wù),比如機(jī)器翻譯、信息獲取、自動(dòng)文摘等都要依賴句法分析的精確結(jié)果才能最終獲得滿意的解決。隨著信息社會(huì)的到來,人們對(duì)自然語(yǔ)言處理的需求日益迫切,因而對(duì)句法分析的研究具有重要的意義。

        所謂句法分析是根據(jù)給定的語(yǔ)法,自動(dòng)地推導(dǎo)出句子的語(yǔ)法結(jié)構(gòu),即句子所包含的句法單位和這些句法單位之間的關(guān)系。句法分析的目的主要有兩個(gè),一個(gè)是確定句子所包含的譜系結(jié)構(gòu),另一個(gè)是確定句子的各成分之間的關(guān)系。目前為止,句法分析的研究大體分為兩種途徑:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。而這兩種途徑目前分析的精確度仍然不高,離實(shí)際應(yīng)用還有不少差距。

        1 概率上下文無關(guān)文法

        概率型上下文無關(guān)文法[1](Probabilistic Context Free Grammar or Stochastic Context Free Grammar)是最早也是最常用的句法分析分析模型,它是上下文無關(guān)文法的展,將CFG的每一條規(guī)則與概率組合,就構(gòu)成PCFG。

        PCFG的分析過程與非概率型上下文無關(guān)文法相同,也是從非終結(jié)符S開始擴(kuò)展。通過概率型上下文無關(guān)文法賦予每棵分析樹一個(gè)概率,當(dāng)句子具有結(jié)構(gòu)岐義時(shí),可以利用該概率來選擇句子的分析結(jié)果t*,即

        分析樹t的概率就是生成t所用到的所有產(chǎn)生式的條件概率的乘積:

        其中,r是產(chǎn)生式,D(t)表示用于生成分析樹t的有序產(chǎn)生式集合。

        1.1 規(guī)則的概率

        概率上下文無關(guān)語(yǔ)法跟非概率的上下文無關(guān)語(yǔ)法基本,區(qū)別只是在于給每條句法規(guī)則附加一個(gè)概率值。所給的概率值可以是來自語(yǔ)感,或者來自語(yǔ)料統(tǒng)計(jì)。不管來源如何,都必須滿足:左部分符號(hào)相同的若干條規(guī)則,其概率之和等于1。

        1.2 語(yǔ)句的概率

        一棵分析樹的概率,等于推導(dǎo)出這棵分析樹時(shí)所使用的各條規(guī)則的概率的乘積。如,“咬/vt死/adj了/utl獵人/noun的/de狗/noun”得到的兩棵分析樹的概率計(jì)算如下所示[3]:

        結(jié)果表明,前一種分析的概率小于后一種分析,這主要是因?yàn)樵谖覀兊恼Z(yǔ)法中,由名詞類短語(yǔ)構(gòu)成句子的概率(0.1)小于由動(dòng)詞性短語(yǔ)構(gòu)成句子的概率(0.2),由動(dòng)詞結(jié)構(gòu)加“的”構(gòu)成“的”字結(jié)構(gòu)的概率(0.4)小于由名詞性結(jié)構(gòu)加“的”構(gòu)成的“的”字結(jié)構(gòu)的概率(0.6)。

        同時(shí)也表明,這個(gè)詞串分析為合法的句子(S)的概率是:

        這個(gè)概率也就是語(yǔ)句“咬/vt死/adj了/utl獵人/noun的/de狗/noun”的概率。如果一個(gè)詞串不合語(yǔ)法,其概率為0。

        對(duì)于給定一個(gè)語(yǔ)句W=w1w2…wn和一部概率上下文無關(guān)語(yǔ)法G,有以下3個(gè)基本問題需要研究:

        1)如何快速計(jì)算由語(yǔ)法G產(chǎn)生語(yǔ)句W的概率P(W|G)?

        2)如果語(yǔ)句W有岐義的,如何快速選擇概率最高的分析?

        3)如何調(diào)整語(yǔ)法G的參數(shù)(即每條規(guī)則的概率),使得P(W|G)最大?

        解決這些問題,需要引入兩個(gè)概念:內(nèi)部概率(Inside Probability)和外部概率(Outside Probability)。

        1.3 內(nèi)部概率

        設(shè)A是語(yǔ)句推導(dǎo)過程中用到的一個(gè)非終結(jié)符,它的起點(diǎn)為i,終點(diǎn)為j;A的內(nèi)部概率就是用語(yǔ)法G從A推導(dǎo)出詞串wi…wj的概率。

        我們先假定G中所有規(guī)則都遵從喬姆斯基范式,即,假定從A開始推導(dǎo)時(shí)所用的規(guī)則或者形如 “A→a”,或者形如“A→B C”(A,B,C)是非終結(jié)符,a是終結(jié)符)。 當(dāng)規(guī)則右部是一個(gè)終結(jié)符時(shí),有i=j,A的內(nèi)部概率就是規(guī)則“A→n”的概率:

        內(nèi)部概率的計(jì)算是遞歸的,求一個(gè)非終結(jié)符的內(nèi)部概率,需要先求出它的所在局部分析的各構(gòu)成成分的內(nèi)部概率。有了內(nèi)部概率的概念,就可以順利地解決上面提到的第1個(gè)問題。所謂“由語(yǔ)法產(chǎn)生語(yǔ)句W的概率”,就是α1,n(S)的內(nèi)部概率。

        有了內(nèi)部概率的概念,上面提到的第2個(gè)問題也很容易解決。如果非終結(jié)符A是多個(gè)起點(diǎn)、終點(diǎn)都相同的局部分析的根,我們總是選擇內(nèi)部概率最大的那個(gè)局部分析,作為以后在若干個(gè)內(nèi)含式岐義分析中排除那些概率較低的分析。如果起始符S是起點(diǎn)為1,終點(diǎn)為n的局部分(整個(gè)句子的分析可看成是一個(gè)特殊的局部分析)的根,并且這樣的局部分析有若干個(gè),我們最后就選擇內(nèi)部概率最大的那個(gè)局部分析作為輸出結(jié)果。

        1.4 外部概率

        解決第3個(gè)問題(規(guī)則概率的調(diào)整)需要用到外部概率的概念。非終結(jié)符A的外部概率,是指給定概率上下文無關(guān)語(yǔ)法G和語(yǔ)句W時(shí),推導(dǎo)出A的上下文的概率。

        先考慮A是整個(gè)語(yǔ)句捆綁后的符號(hào)(或者從生成的觀點(diǎn)看,是由A推導(dǎo)出整個(gè)語(yǔ)句)這一特殊情形,這時(shí)A(在句子范圍內(nèi))沒有上下文,如果A=S,A的外部概率為1.0,否則為0。

        等式右邊是一個(gè)克羅奈克函數(shù),兩參數(shù)數(shù)值相等時(shí)函數(shù)值為1,否則為0。

        接下來,再進(jìn)行一般化處理。A的外部概率涉及3個(gè)方面:

        1)A做了哪個(gè)局部分析的成分,因?yàn)檫@個(gè)局部分析的上下文(姑且稱之為“大語(yǔ)境”)必然也是A的上下文,它的外部概率必須影響A的外部概率;

        2)這個(gè)局部分析所使用的規(guī)則的概率;

        3)這個(gè)局部分析的構(gòu)成成分中,A以外的其他構(gòu)成成分的內(nèi)部概率的乘積,因?yàn)槠渌麡?gòu)成成分也是A的上下文。

        把這3種概率相乘,就得到A處于這個(gè)局部分析中的外部概率。如果只有一個(gè)這樣的局部分析,那么它就是A的外部概率;如果存在多個(gè)這樣的局部分析,可以用類似的方法得到A在每一個(gè)這樣的局部分析中外部概率,經(jīng)求和就得到A的外部概率。這樣,當(dāng)使用的規(guī)則不限于喬姆斯基范式時(shí),外部概率的計(jì)算公式可重新表達(dá)為:

        其中,是所有以A(A的起點(diǎn)和終點(diǎn)分別是i和j)為構(gòu)成成分之一的局部分析的集合,C是這種分析的根,first(e)和last(e)是這種局部分析的起點(diǎn)和終點(diǎn),rule(e)是這種局部分析用的規(guī)則,rhs(e)是這條規(guī)則的右部符號(hào),即該局部分析的構(gòu)成成分;B是該局部分析的外部概率;由此層層上推,必須先求出整個(gè)詞串的概率。

        1.5 規(guī)則使用的期望次數(shù)

        現(xiàn)在我們來討論如何調(diào)整語(yǔ)法G的參數(shù)。一個(gè)樸素的想法是,從訓(xùn)練語(yǔ)料(由已經(jīng)標(biāo)注句法結(jié)構(gòu)的句子組成)中計(jì)算每條規(guī)則的使用次數(shù);某規(guī)則的使用次數(shù)除以跟它左部相同的全部規(guī)則的使用次數(shù)之和,就是該規(guī)則的概率[1-2]。即:

        其中,A是一個(gè)非終結(jié)符;ξ和μ都是由終結(jié)符和/或非終結(jié)符組在成的符號(hào)串,后者包括前者。

        當(dāng)規(guī)則不限于喬姆斯基范式時(shí),計(jì)算期望次數(shù)的公式是:

        其中,P(w1,…,w2)是整個(gè)語(yǔ)句的概率,即 α1,n(S)。 顯然,如果這個(gè)概率為0(語(yǔ)句不合語(yǔ)法),就不應(yīng)計(jì)算該語(yǔ)句分析過程中任何規(guī)則的使用次數(shù)。如果語(yǔ)句的概率大于0,我們則對(duì)于該規(guī)則的每一次使用,都計(jì)算該符號(hào)的外部概率、該規(guī)則的概率以及每個(gè)構(gòu)成成分的內(nèi)部概率,并且將這些概率相乘,然后求和,除以該語(yǔ)句的概率,便得到使用該規(guī)則的期望次數(shù)。

        1.6 語(yǔ)法參數(shù)的調(diào)整

        概率上下文無關(guān)語(yǔ)法的第3個(gè)基本問題是,如何調(diào)整語(yǔ)法G的參數(shù),使得P(W|G)最大。為此,開始時(shí)可以隨機(jī)地給每條規(guī)則賦予一個(gè)概率(但左部相同的規(guī)則的概率之和必須為1),得到語(yǔ)法G0;接著從訓(xùn)練語(yǔ)料用公式計(jì)算每一條規(guī)則的期望次數(shù),并重新估計(jì)每一條規(guī)則的概率,得到語(yǔ)法G1。重復(fù)這些步驟,得到語(yǔ)法G2,G3,……,直到規(guī)則的概率收斂于最大似然估計(jì)值。每得到一部新的語(yǔ)法,都有可能使得訓(xùn)練語(yǔ)料中的平均概率有增加,因?yàn)檎Z(yǔ)法中規(guī)則的概率更趨向于合理。不過,這種優(yōu)化仍是局部的,并且是跟語(yǔ)料的性質(zhì)有關(guān)的。如果語(yǔ)料的代表性不夠,就很難說規(guī)則的概率估值是否合理。舉一個(gè)極端的例子,假定訓(xùn)練語(yǔ)料訓(xùn)練語(yǔ)料僅僅包含語(yǔ)句“孩子/noun喜歡/vt狗/noun”,使用的是本章所列的句法規(guī)則,最后的結(jié)果“S→NP”、“S→VP”等規(guī)則的概率為 0,也就是說,把這些規(guī)則都“優(yōu)化”掉了。所以語(yǔ)料的規(guī)模要有一定的代表性。

        1.7 算法基本步驟

        1)隨機(jī)地給每條規(guī)則賦予一個(gè)概率,得到語(yǔ)法G0;

        2)建立局部分析;

        3)計(jì)算合法句子的概率;

        4)獲取外部概率;

        5)獲取規(guī)則使用的期望次數(shù);

        6)重新估計(jì)規(guī)則概率,得到語(yǔ)法Gi;

        7)若得到的概率已收斂,則終止,否則轉(zhuǎn)到步驟2)。

        2 改進(jìn)過的PCFG算法

        2.1 用句子內(nèi)部短語(yǔ)結(jié)構(gòu)搭配+短語(yǔ)內(nèi)部語(yǔ)義相關(guān)度進(jìn)行句法消岐[2-4]

        研究這兩個(gè)句子:

        例1:維修/vt圖書館/noun的/de空調(diào)/noun

        從圖 1A中結(jié)構(gòu)抽取可得:“維修空調(diào)”(VP→VC NP,動(dòng)賓結(jié)構(gòu)),“XX 的空調(diào)”(定中結(jié)構(gòu)),明顯地“的”字結(jié)構(gòu)在這樣并沒有起決定性作用。查 《知網(wǎng)》、《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》數(shù)據(jù)庫(kù)、《現(xiàn)代漢語(yǔ)搭配詞典》、《現(xiàn)代漢語(yǔ)實(shí)詞搭配詞典》,有“維修電機(jī)(動(dòng)賓結(jié)構(gòu))”,而“空調(diào)”與“電機(jī)”的相似度為0.390 947,比較高,因此維修空調(diào)相關(guān)度為0.470 947,同樣比較符合動(dòng)賓結(jié)構(gòu)搭配。從圖1B中結(jié)構(gòu)抽取可得:“維修圖書館”(VP→VC NP,動(dòng)賓結(jié)構(gòu)),“XX 的空調(diào)”(定中結(jié)構(gòu)),查上述知識(shí)庫(kù):裝修房子(動(dòng)賓結(jié)構(gòu))?!胺孔印迸c“圖書館”相似度為0.111628,而“裝修”與“維修”相似度為0.186047,所以“維修”和“圖書館”的相關(guān)度只有:0.106047。通過計(jì)算,我們很容易選擇圖1 A的分析。

        例2:裝修/vt圖書館/noun的/de工人/noun

        圖1 “維修圖書館的空調(diào)”結(jié)構(gòu)分析Fig.1 Structure analysis of“repair of the library’s air conditioning”

        圖2 “裝修圖書館的工人”結(jié)構(gòu)分析Fig.2 Structure analysis of workers of the library’s renovation

        同樣方法,我們可以輕松選擇圖2B的分析。

        由此可知,句子結(jié)構(gòu)內(nèi)部的短語(yǔ)結(jié)構(gòu)搭配(結(jié)構(gòu)相關(guān))和由詞組的短語(yǔ)語(yǔ)義內(nèi)部的相關(guān)度對(duì)消解這種句型岐義起決定作用。

        2.2 利用邏輯相關(guān)解決岐義

        再看看下面的句子:

        例3:

        1)孩子/noun喜歡/vt穿/vt好/adj衣服/noun

        2)天/noun 很/adv 冷/adj,/jw穿/vt好/adj衣服/noun

        從結(jié)構(gòu)分析來看,利用詞語(yǔ)搭配和語(yǔ)義相關(guān)度很難排岐。 但“天冷”→“穿好”,“喜歡”→“好衣服”,存在邏輯相關(guān)。

        2.3 利用句子間成分前后相關(guān)進(jìn)行消岐

        考察下句:

        例句4 I saw a girl with a telescope

        圖3 “喜歡穿好衣服”的結(jié)構(gòu)分析Fig.3 Structure analysis of people being fond of fashion dress

        根據(jù)上面實(shí)驗(yàn)結(jié)果,有3種意思:(為了能正確表達(dá),本文為它加了上下文)

        1)我用望遠(yuǎn)鏡看到一個(gè)女孩(I took the telescope when I went out this morning,今早我出門時(shí)帶上了望遠(yuǎn)鏡,分析這個(gè)句子結(jié)構(gòu)說明“我”與“望遠(yuǎn)鏡”實(shí)際相關(guān)。)

        2)我看到一個(gè)女孩和一個(gè)望遠(yuǎn)鏡 (That telescope placed on goods,那個(gè)望遠(yuǎn)鏡放在貨架上,說明望遠(yuǎn)鏡與女孩實(shí)際意義距離較大,實(shí)際相關(guān)度小。同時(shí)沒有找到與“我”的特殊相關(guān)關(guān)系。)

        3)我看到一個(gè)女孩帶有望遠(yuǎn)鏡。(Looked carefully,the telescope was in girl’s hand仔細(xì)一看,望遠(yuǎn)鏡在女孩手中。說明望遠(yuǎn)鏡與女孩實(shí)際存在相關(guān)。)

        綜上所述,我們可以定義句子成分結(jié)構(gòu)語(yǔ)義關(guān)聯(lián)度來進(jìn)行句型消岐[2-3]:

        其中:RPhraseStruct是句子總相關(guān)度;RPhraseStruct是短語(yǔ)搭配相關(guān)度,符合的取 1,不符合者取 0;R(Wi,Wj)phrase短語(yǔ)內(nèi)部?jī)蓚€(gè)詞匯意義相關(guān)度,可利用公式計(jì)算參考;LogicR是邏輯相關(guān),符合取1,不符合取0,由于邏輯相關(guān)目前比較難計(jì)算,故此項(xiàng)可暫時(shí)省略;RContextInfor句間成分實(shí)際相關(guān)度,存在則取1,不存在則取0。

        利用(9)對(duì)PCFG結(jié)果進(jìn)行計(jì)算,Rsentence取最大值作為最后輸出,則可有效地解決一些如上述類型的句子岐義。

        3 結(jié)束語(yǔ)

        由于漢語(yǔ)語(yǔ)法層次模糊的特點(diǎn),所以以往很多學(xué)者分別研究的是未登錄詞、分詞、詞類、詞義、句法各階段最優(yōu),但是事實(shí)表明,未登錄詞、分詞詞類標(biāo)注等都要不同程度地用到了句子結(jié)構(gòu)信息和上下文語(yǔ)境信息,在不充分考慮到這些因素情況下的“各層最優(yōu)”隱含著不少錯(cuò)誤,并且這些錯(cuò)誤會(huì)逐放大,可以想象:若未登錄詞認(rèn)別錯(cuò)誤,會(huì)對(duì)分詞有影響,分詞消歧錯(cuò)誤,那么后面的所謂“詞類標(biāo)注、詞義標(biāo)注、句法分析”全部變成無稽之談。故筆者在研究大量資料后,這種符合人的大腦思維方式的全局回溯式尋優(yōu)應(yīng)該是最好的解決辦法,這也是筆者現(xiàn)在正在努力的方向。

        [1]劉群,李素建.基于《知網(wǎng)》的詞匯相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),臺(tái)北:中文計(jì)算語(yǔ)言學(xué),2002.

        [2]許云,樊孝忠,張鋒.基于《知網(wǎng)》的語(yǔ)義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.

        XU Yun,F(xiàn)AN Xiao-zhong,ZHANG Feng.Semantic relevancy computation based on HowNet[J].Journal of Beijing Institute of Technology,2005,25(5):411-414.

        [3]陳小荷.現(xiàn)代漢語(yǔ)自動(dòng)分析——Visual C++實(shí)現(xiàn)[M].北京:北京語(yǔ)言文化大學(xué)出版社,2000.

        [4]詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)則研究[M].北京:清華大學(xué)出版社,2002.

        [5]周強(qiáng).基于語(yǔ)料庫(kù)和面向統(tǒng)計(jì)學(xué)的自然語(yǔ)言處理技術(shù)介紹[J].計(jì)算科學(xué),1995,22(4):36-40.

        ZHOU Qiang.Natural language processing technology based on corpus and for statistics[J].Computing Science,1995,22(4):36-40.

        [6]周強(qiáng),黃昌寧.漢語(yǔ)概率型上下文無關(guān)語(yǔ)法的自動(dòng)推導(dǎo)[J].計(jì)算機(jī)學(xué)報(bào),1998,21(5):387-392.

        ZHOU Qiang,HUANG Chang-ning.Chinese probabilistic contextfree grammar automatic derivation[J].Chinese Journal of computers,1998,21(5):387-392.

        [7]劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算科學(xué),2001(4):211-214.

        LIU Qun,ZHANG Hua-ping,YU Hong-kui,et al.Chinese lexical analysis base on Hierarchical hidden Markov model[J].Institute of Computing Technology of Chinese Academy of Sciences,2001(4): 211-214.

        [8]郭池,陳駿,王啟祥.一種基于語(yǔ)料庫(kù)的詞義消岐策略[J].計(jì)算機(jī)學(xué)報(bào),2005(6):99-102.

        GUO Chi,CHEN Jun,WANG Qi-xiang.Word sense disambiguation strategy base on corpus[J].Journorl of Computer,2005(6):99-102.

        猜你喜歡
        規(guī)則結(jié)構(gòu)分析
        撐竿跳規(guī)則的制定
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        數(shù)獨(dú)的規(guī)則和演變
        隱蔽失效適航要求符合性驗(yàn)證分析
        論結(jié)構(gòu)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        論《日出》的結(jié)構(gòu)
        国产精品亚洲午夜不卡| 熟女少妇精品一区二区| 青青草97国产精品免费观看| 亚洲AV无码精品色欲av| 久久久精品波多野结衣| 天天综合久久| 97中文字幕一区二区| 中文字日产幕码三区的做法步| 亚洲精品久久久久久久久久吃药| 国产欧美日产久久| 一区二区韩国福利网站| 中文字幕丰满人妻被公强| 色欲一区二区三区精品a片| 久久久天堂国产精品女人| 亚洲福利天堂网福利在线观看| 国产福利一区二区三区在线观看| 日韩一区av二区三区| 日本最大色倩网站www| 午夜婷婷国产麻豆精品| 日韩肥熟妇无码一区二区三区| 国产成人亚洲精品一区二区三区| 国产精品久久久久久妇女| 9lporm自拍视频区| 国产欧美亚洲另类第一页| 国产精品亚洲一区二区三区在线| 色偷偷色噜噜狠狠网站30根| 午夜福利啪啪片| 国产av国片精品| 男人的天堂av网站一区二区| 精品不卡视频在线网址| 国模冰莲自慰肥美胞极品人体图 | 天天做天天躁天天躁| 亚洲AV专区一专区二专区三| 国产成人国产三级国产精品| 新婚少妇无套内谢国语播放| 久久久精品456亚洲影院| AV有码在线免费看| 国产精品欧美亚洲韩国日本| 久久伊人精品中文字幕有| 精品区2区3区4区产品乱码9| 亚洲 欧美 激情 小说 另类|