亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文法規(guī)則的化簡及其語義計(jì)算效果對(duì)比

        2015-12-23 00:58:16劉運(yùn)通梁燕軍
        關(guān)鍵詞:子句文法正確率

        劉運(yùn)通,梁燕軍

        (安陽師范學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 安陽455000)

        0 引 言

        為了更好地進(jìn)行自然語言處理,語義的作用越來越被研究者們所重視。Wordnet、Framenet、Hownet、中文概念詞典CCD、Chinese FrameNet(CFN)、同義詞詞林等詞匯語義知識(shí)庫先后被構(gòu)建出來,作為語義分析的基礎(chǔ)性資源,維基也被用作語義計(jì)算的網(wǎng)絡(luò)數(shù)據(jù)資源。許多學(xué)者對(duì)語義關(guān)系計(jì)算也做了研究:文獻(xiàn) [1]研究了5 種基于Wordnet的詞匯語義相關(guān)度計(jì)算方法;文獻(xiàn) [2]研究了基于維基百科的文章網(wǎng)絡(luò)和分類樹,進(jìn)行詞匯語義關(guān)聯(lián)的計(jì)算方法;文獻(xiàn) [3]研究了基于維基鏈接的詞匯最近語義關(guān)聯(lián)度的計(jì)算方法;文獻(xiàn) [4]研究了在Hownet表達(dá)漢語知識(shí)的基礎(chǔ)上,改進(jìn)語義相關(guān)度的計(jì)算模型;文獻(xiàn) [5]研究了基于Wordnet的詞匯相關(guān)度計(jì)算方法;文獻(xiàn) [6]研究了不同語義相關(guān)計(jì)算方法的計(jì)算效果評(píng)價(jià)方法。還有許多學(xué)者利用語義信息來解決自然語言理解中的部分難題:文獻(xiàn)[7]研究了利用語義詞典Web挖掘語言模型的無指導(dǎo)譯文消歧;文獻(xiàn) [8]研究了基于北京大學(xué)中文網(wǎng)庫的語義角色分類;文獻(xiàn) [9]研究了基于淺層句法分析的中文語義角色標(biāo)注。

        由于自然語言擁有隱含、多變、數(shù)量龐大的語法規(guī)則,使得研究人員很難將語義分析與語法分析有機(jī)地結(jié)合起來,而當(dāng)前的大多數(shù)研究,主要是利用語義信息來解決自然語言處理中的部分難題,還沒有一個(gè)比較成熟、且有廣泛影響的基于語義分析的自然語言處理模型。

        為了解決這個(gè)問題,本文在文獻(xiàn) [10-12]中提出了一個(gè)自然語言語義計(jì)算模型,并對(duì)該模型做了探索性的研究,通過構(gòu)造一個(gè)文法,來描述普通的中文語句,并研究了模型的求解方法和語義消歧方法。這個(gè)模型及其求解方法將語法分析、語義分析、語義消歧有機(jī)地結(jié)合起來,初步形成了一個(gè)較為系統(tǒng)的自然語言處理語義分析研究的新思路。然而,該文法中的語法規(guī)則較多,形式較為復(fù)雜,導(dǎo)致計(jì)算復(fù)雜度較高。為了降低模型求解時(shí)的計(jì)算復(fù)雜度,對(duì)該文法進(jìn)行了化簡,構(gòu)造了一個(gè)更為簡潔的文法規(guī)則,并通過實(shí)驗(yàn),進(jìn)行模型求解,比較簡化前后的兩個(gè)文法的計(jì)算效果。探索了文法化簡的方法和思路,為更高效的模型求解方法研究做了必要的技術(shù)儲(chǔ)備。

        1 語義計(jì)算模型

        假設(shè)一個(gè)語句 (CS)中的任意實(shí)詞Wi(除去謂語中心詞)均語義修飾于另外一個(gè)實(shí)詞WGi,并用函數(shù)Rel(Wi,WGi)來表示其語義相關(guān)度。假設(shè)V 是謂語中心詞,S是V的施動(dòng)者,O 是V 的承受者,則語句的語義相關(guān)度fAi可以下面的表達(dá)式來計(jì)算

        根據(jù)語義修飾目標(biāo)的不同,每個(gè)語句可能有多個(gè)語法分析方案;遵循少量的語法規(guī)則,可以 “窮舉”出所有可能的語法分析方案。

        一個(gè)語句的多個(gè)語法分析方案如圖1所示。

        圖1 一個(gè)語句的多個(gè)語法分析方案

        模型求解基本規(guī)則:fAi值最大的語法分析方案Ai是符合語義邏輯的語法分析方案。

        2 文法規(guī)則的化簡

        2.1 文法規(guī)則在模型求解中的作用

        模型求解過程主要有兩個(gè)階段:語法分析階段、語義分析階段。

        在語法分析階段:由于自然語言具有隱含、多變、數(shù)量龐大的語法規(guī)則,任何人也不可能窮舉出所有的語法規(guī)則。

        假如我們換一個(gè)思路,假設(shè)自然語言無需遵守任何語法規(guī)則。則一個(gè)包含n個(gè)詞匯的語句,根據(jù)每個(gè)詞匯語義修飾目標(biāo)的不同,由于詞匯不能修飾自身,則理論上共有(n-1)n種不同的語法分析方案,則可以按照式 (1)計(jì)算出每個(gè)語法分析方案的語義相關(guān)度,選擇出最佳結(jié)果,就可實(shí)現(xiàn)模型求解。但其計(jì)算復(fù)雜度屬于指數(shù)級(jí)別,實(shí)踐中根本不可行。

        另外,對(duì)于某種語法分析方案來說,即使計(jì)算出的語義相關(guān)度值最大,但由于該語法分析方案可能會(huì)違背 “自然語言必須遵守的某些語法規(guī)則,是明顯違背語義邏輯的”,必須加以排除。

        因此,我們?cè)谡Z法分析階段,引入極少量、最常見、最普適的語法規(guī)則,構(gòu)建一個(gè)文法,依據(jù)這個(gè)文法,進(jìn)行語法分析,排除明顯不可能的語法分析方案;同時(shí)也可以極大程度地降低模型求解的計(jì)算復(fù)雜度,將其降低到實(shí)踐可行的地步,具體方法見文獻(xiàn) [10]。

        在語義分析階段:忽略其它繁瑣、多變、不重要的語法規(guī)則,用 “窮舉法”生成所有 “符合普適語法規(guī)則”的語法分析方案,并通過語義相關(guān)度計(jì)算,來選擇最佳結(jié)果,從而進(jìn)行模型求解。

        這種方法,就可以將語法分析、語義分析、語義消歧有機(jī)地結(jié)合起來,而所構(gòu)造的文法,在整個(gè)模型求解過程中起著至關(guān)重要的作用。

        2.2 已有的文法規(guī)則

        我們課題組在文獻(xiàn) [10]中已經(jīng)設(shè)計(jì)出了一個(gè)文法,用來描述自然語言。根據(jù)語義結(jié)構(gòu)的復(fù)雜程度,將語句劃分為兩個(gè)層次:

        (1)簡單子句:沒有從句的語句CS,其文法規(guī)則見表1 (不包含規(guī)則L→CS)。

        (2)復(fù)雜句:包含從句的語句CS,其文法規(guī)則見表1;規(guī)則L→CS意味著一個(gè)簡單子句可以作為一個(gè)復(fù)雜句中任意成分,實(shí)現(xiàn)了對(duì)簡單句遞歸,因此可以描述復(fù)雜句。

        2.3 簡化后的文法規(guī)則

        模型求解時(shí),可以采用自底向上的簡單子句歸結(jié)法,具體細(xì)節(jié)參見文獻(xiàn) [10];在進(jìn)行簡單子句的歸結(jié)時(shí),必須進(jìn)行CYK 算法[13]的運(yùn)算,以識(shí)別符合文法G1(不包含規(guī)則L→CS)的簡單子句;而這些規(guī)則卻不能直接進(jìn)行CYK算法運(yùn)算,必須將文法G1的所有規(guī)則轉(zhuǎn)化為滿足喬姆斯基范式的規(guī)則集合,經(jīng)過我們轉(zhuǎn)換后,新文法規(guī)則數(shù)量有236條之多,規(guī)則數(shù)量比較多,增加了計(jì)算復(fù)雜度。更加復(fù)雜的是,在歸結(jié)后,還需要驗(yàn)證新語句是否滿足文法G1,還要進(jìn)行一次CYK 算法的運(yùn)算。

        為了簡化語法分析過程,我們對(duì)文法G1進(jìn)行了簡化。其思路如下所示。

        表1 文法G1 的內(nèi)容

        (1)忽略S、O 的區(qū)別,僅用一個(gè)文法符號(hào)R (后文稱為主題詞)表示這兩種情況;S 與O 在語義計(jì)算時(shí)加以區(qū)分;

        (2)忽略L中AA、PD、AB的區(qū)別,僅用一個(gè)文法符號(hào)L;在語義計(jì)算時(shí),再對(duì)L進(jìn)行AA、PD、AB的劃分;

        (3)將n、w、vad歸為一類,僅用一個(gè)文法符號(hào)w 表示這3種情況,在語義計(jì)算時(shí),再對(duì)其進(jìn)行區(qū)分;

        (4)將wb、wm、we歸為一類,僅用一個(gè)文法符號(hào)wb表示這3種情況,并且僅使用1條文法規(guī)則 (L→wbw)來描述。

        簡化后的文法規(guī)則G2見表2。

        表2 文法G2 的內(nèi)容

        在CYK 算法計(jì)算前,需要把文法G2的所有規(guī)則轉(zhuǎn)化為滿足喬姆斯基范式的規(guī)則集合,經(jīng)過我們轉(zhuǎn)換后,新文法規(guī)則數(shù)量有55 條,下降約80%。因此可以有效地降低“語法分析”的計(jì)算復(fù)雜度。

        3 依據(jù)新文法的語義計(jì)算過程

        依據(jù)文法G1進(jìn)行語義計(jì)算,從而進(jìn)行模型求解的方法有以下幾個(gè)步驟:

        (1)簡單子句歸結(jié)過程:找出語義相關(guān)度最佳的簡單子句,反復(fù)歸結(jié),求出最佳歸結(jié)順序。在計(jì)算簡單子句的最佳語義相關(guān)度的過程中,確定每個(gè)詞匯的最佳語義修飾目標(biāo)。具體內(nèi)容在文獻(xiàn) [10]中有詳細(xì)的論述。

        (2)簡單子句最佳內(nèi)部結(jié)構(gòu)的分析:先將簡單子句轉(zhuǎn)化為簡單語義單元,在用簡單語義單元語義修飾關(guān)系圖模型進(jìn)行語法分析和語義消歧。具體內(nèi)容在文獻(xiàn) [12]中有詳細(xì)的論述。

        依據(jù)文法G2進(jìn)行的語義計(jì)算時(shí),主要的步驟與上述的過程一致。這里不再引用。差別在于:文法G2將AA、PD、AB的劃分等內(nèi)容,放在 “語義分析”的過程中,用語義計(jì)算來代替語法分析。

        3.1 L的劃分方法

        對(duì)L進(jìn)行語義計(jì)算時(shí),需要根據(jù)語義邏輯,將L 劃分為AA、PD、AB等幾部分,劃分方法見表3 (句型中R、V的位置已選定)。

        表3 L的劃分方法

        例如,在語義計(jì)算時(shí),已經(jīng)確定簡單子句的句型是CS→LRLRLVL,則根據(jù)語義邏輯,句型中第2個(gè)L就應(yīng)當(dāng)被劃分為如下的AA、PD、AB這3部分,并與其修飾的R 或V 組成一個(gè)整體,該整體被稱為 “簡單語義單元”。簡單語義單元的語法分析和語義消歧方法,在文獻(xiàn) [12]中有詳細(xì)的論述。

        L的劃分方法如圖2所示。

        圖2 L的劃分方法

        3.2 AA\PD\AB 的劃分位置

        對(duì)L (假定L包含p個(gè)詞)進(jìn)行AA\PD\AB的劃分時(shí),根據(jù)表3,其劃分位置有3種情況:

        (1)無需劃分:當(dāng)L僅包含PD時(shí);

        (2)一個(gè)劃分位置:L包含AA|PD或PD|AB時(shí),共有p+1個(gè)位置可供選擇,p+1種劃分方法;

        (3)兩個(gè)劃分位置:L包含AA|PD|AB時(shí),共有p+1個(gè)位置可供選擇,有 (p+1)*p種劃分方法。

        針對(duì)這多種劃分方法,用式 (1)算出幾部分的語義相關(guān)度的值,并求總和,選擇總和最佳的劃分方法即可。

        4 實(shí)驗(yàn)結(jié)果及分析

        本文的實(shí)驗(yàn)中,以Hownet作為詞匯語義計(jì)算時(shí)所依據(jù)的資源。選取200 個(gè)語句,依據(jù)文法G1和文法G2,分別進(jìn)行模型求解的對(duì)比實(shí)驗(yàn),具體情況如下 (實(shí)驗(yàn)環(huán)境為windows xp;CPU:Xeon E5-2403,2GHz;Mem:8G)。

        4.1 時(shí)間對(duì)比實(shí)驗(yàn)

        根據(jù)語句的長度 (按照詞匯個(gè)數(shù)計(jì)算)進(jìn)行分組,共分為8組,表4列出了依據(jù)文法G1和文法G2進(jìn)行模型求解所需的時(shí)間。

        表4 兩個(gè)文法的求解時(shí)間對(duì)比

        G2的平均用時(shí)/G1的平均用時(shí)如圖3所示。

        圖3 G2 的平均用時(shí)/G1 的平均用時(shí)

        顯然,語句的長度越長,包含的簡單子句也越多,求解時(shí)所需的時(shí)間也越長,文法G2的時(shí)間效率也越高。

        4.2 正確率對(duì)比實(shí)驗(yàn)

        在正確率對(duì)比實(shí)驗(yàn)中,有以下幾類情況,如表5所示:

        (1)SVO 選擇的正確率 (包括簡單子句內(nèi)的SVO 選擇),其對(duì)比如圖4所示;

        (2)簡單子句所轄范圍的正確率,其對(duì)比如圖5所示;

        (3)簡單子句歸結(jié)順序的正確率,其對(duì)比如圖6所示;

        (4)L中AA|PD|AB劃分的正確率,其對(duì)比如圖7所示;

        (5)所求出的語義修飾目標(biāo)的正確率,其對(duì)比如圖8所示。

        表5 正確率對(duì)比情況/%

        圖4 SVO 的正確率對(duì)比

        圖5 簡單子句范圍的正確率對(duì)比

        圖6 簡單子句歸結(jié)順序的正確率對(duì)比

        圖7 L劃分的正確率對(duì)比

        圖8 語義修飾目標(biāo)的正確率對(duì)比

        從實(shí)驗(yàn)情況可以看出,文法G2的求解過程相對(duì)于文法G1,有以下幾個(gè)特點(diǎn):

        (1)時(shí)間效率得到了較大程度的提升;

        (2)各項(xiàng)正確率均有所下降,但下降程度并不大;其主要原因在于文法G2的規(guī)則被大幅精簡,語法描述的準(zhǔn)確性下降,導(dǎo)致語法分析階段的準(zhǔn)確度下降,后期的語義計(jì)算,并不能完全彌補(bǔ) “語法分析精度下降”的損失;

        (3)綜合來看,依據(jù)文法G2進(jìn)行模型求解,是一種“準(zhǔn)確度損失”不大、更為快捷、效率更高的語義計(jì)算方法。

        5 結(jié)束語

        本文構(gòu)造了一個(gè)更為簡潔的文法規(guī)則,依據(jù)該文法規(guī)則,可以進(jìn)行語義計(jì)算和語義模型求解;通過實(shí)驗(yàn),比較簡化前后兩個(gè)文法的計(jì)算效果;探索文法化簡的方法和思路,研究在文法化簡過程中,文法化簡與 “降低時(shí)間復(fù)雜度”和 “準(zhǔn)確度下降”等問題之間的關(guān)系,為構(gòu)造出更簡單的文法和更快捷的模型求解方法做了探索。但在論文的研究中,實(shí)驗(yàn)數(shù)據(jù)量較小,語義計(jì)算時(shí)所依據(jù)的詞匯語義庫的語義信息還不夠細(xì)致,不能夠完全滿足語義計(jì)算的需要,下一步研究中,需要增加實(shí)驗(yàn)數(shù)據(jù),構(gòu)建語義信息更準(zhǔn)確、語義粒度更小的詞匯語義庫作為語義計(jì)算的依據(jù)。

        [1]Alexander B,Graeme H.Evaluating wordnet based measures of lexical semantic relatedness[J].Computations Linguistics,2009,32 (1):13-47.

        [2]SUN Chenchen,SHEN Derong,SHAN Jing,et al.WSR:A semantic relatedness measure based on wikipedia structure[J].Chinese Journal of Computers,2012,35 (1):2361-2370 (in Chinese).[孫琛琛,申德榮,單菁,等.WSR:一種基于維基百科結(jié)構(gòu)信息的語義關(guān)聯(lián)度計(jì)算算法 [J].計(jì)算機(jī)學(xué)報(bào),2012,35 (1):2361-2370.]

        [3]Milne D,WittenI H.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links [C]//Proceedings of the 23th Association for the Advancement of Artificial Intelligence,2008:25-30.

        [4]ZHONG Maosheng,LIU Hui,LIU Lei,et al.Method of semantic relevance relation measurement between words[J].Journal of Chinese Information Processing,2009,23 (2):115-122 (in Chinese).[鐘茂生,劉慧,劉磊,等.詞匯間語義相關(guān)關(guān)系量化計(jì)算方法[J].中文信息學(xué)報(bào),2009,23 (2):115-122.]

        [5]Mohamed AHT,Mohamed BA,Abdelmajid BH.A new semantic relatedness measurement using WordNet features [J].Knowledge and Information Systems,2013 (8):1-31.

        [6]Felice Ferrara,Carlo Tasso.Evaluating the results of methods for computing semantic relatedness [C]//14th International Conference on Intelligent Text Processing and Computational Linguistics,2013:447-458.

        [7]LIU Pengyuan,ZHAO Tiejun.Unsupervised translation disambiguation by using semantic dictionary and mining language model from Web [J].Journal of Software,2009,20 (5):1292-1300 (in Chinese). [劉鵬遠(yuǎn),趙鐵軍.利用語義詞典Web挖掘語言模型的無指導(dǎo)譯文消歧 [J].軟件學(xué)報(bào),2009,20 (5):1292-1300.]

        [8]YANG Min,CHANG Baobao.Semantic role classification based on Peking university Chinese NetBank [J].Journal of Chinese Information Processing,2011,25 (6):3-8 (in Chinese).[楊敏,常寶寶.基于北京大學(xué)中文網(wǎng)庫的語義角色分類 [J].中文信息學(xué)報(bào),2011,25 (6):3-8.]

        [9]WANG Xin,SUN Weiwei,SUI Zhifang.Research on Chinese semantic role labeling based on shallow parsing [J].Journal of Chinese Information Processing,2011,25 (1):116-121 (in Chinese).[王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語義角色標(biāo)注研究 [J].中文信息學(xué)報(bào),2011,25 (1):116-121.]

        [10]LIU Yuntong,LIANG Yanjun.K-pruning algorithm for semantic relevancy calculating model of natural language [J].Computer Engineering and Design,2013,34 (8):2939-2943(in Chinese).[劉運(yùn)通,梁燕軍.自然語言語義相關(guān)度計(jì)算模型的k 枝剪求解法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(8):2939-2943.]

        [11]LIU Yuntong,XIONG Jing.An algorithm for parsing the simple semantic units based on the semantic relevancies [J].International Journal of Applied Mathematics and Statistics,2013,47 (17):372-379.

        [12]LIU Yuntong,SUN Hua.Word sense disambiguation for the simple semantic units based on dynamic programming [J].Computer Engineering and Design,2014,35 (4):1480-1485(in Chinese).[劉運(yùn)通,孫華.基于動(dòng)態(tài)規(guī)劃的簡單語義單元詞義消歧 [J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35 (4):1480-1485.]

        [13]LI Yongliang,HUANG Shuguang,LI Yongcheng,et al.Improved CYK algorithm based on shallow parsing [J].Journal of Computer Applications,2011,31 (5):1335-1338 (in Chinese).[李永亮,黃曙光,李永成,等.基于淺層剖析的CYK 改進(jìn)算法 [J]. 計(jì)算機(jī)應(yīng)用,2011,31 (5):1335-1338.]

        猜你喜歡
        子句文法正確率
        命題邏輯中一類擴(kuò)展子句消去方法
        關(guān)于1940 年尼瑪抄寫的《托忒文文法》手抄本
        門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
        西夏語的副詞子句
        西夏學(xué)(2018年2期)2018-05-15 11:24:42
        Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
        生意
        A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        婷婷四房播播| 亚洲av无码国产精品久久| 乱子伦在线观看| 亚洲欧美日韩精品高清| yw193.can尤物国产在线网页| 久久国产亚洲精品超碰热| 少妇特殊按摩高潮不断| 日本韩国一区二区高清| 亚洲综合另类小说色区| 曰批免费视频播放免费直播| 四虎精品视频| 午夜视频福利一区二区三区| 亚洲第一大av在线综合| а天堂中文在线官网在线| 精产国品一二三产区m553麻豆| 久久国产影视免费精品| 国产精品成人久久一区二区| 毛片成人18毛片免费看| 观看在线人视频| 天堂aⅴ无码一区二区三区| 日韩中文字幕不卡网站| 无码三级国产三级在线电影| 国产精品亚洲一区二区三区16| 手机在线看片| 大香伊蕉国产av| 人妻无码Aⅴ中文系列| 国产一区二区三区视频免费在线 | 欧美亚州乳在线观看| 日韩人妻系列在线视频| 免费亚洲老熟熟女熟女熟女 | 日韩肥熟妇无码一区二区三区 | 成人艳情一二三区| 亚洲国产成人精品无码区99| 国产精品乱一区二区三区| 日韩精品有码中文字幕| 亚洲国产综合在线亚洲区亚洲av| 人妻丰满熟av无码区hd| 99久久久无码国产精品免费砚床 | 少妇激情一区二区三区久久大香香| 国产精品国产三级第一集| 影音先锋男人av鲁色资源网|