亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征結(jié)構(gòu)的漢語主謂謂語句語義標(biāo)注研究

        2012-07-09 03:17:58姬東鴻
        中文信息學(xué)報 2012年3期
        關(guān)鍵詞:謂語主語短語

        陳 波,姬東鴻,呂 晨

        (1. 湖北文理學(xué)院 文學(xué)院, 湖北 襄陽 441053; 2. 武漢大學(xué) 計算機(jī)學(xué)院,湖北 武漢 430072)

        1 前言

        語義分析是現(xiàn)代語言學(xué)和計算語言學(xué)領(lǐng)域最具挑戰(zhàn)性的課題之一,也是當(dāng)前制約語言信息技術(shù)大規(guī)模應(yīng)用的主要瓶頸。 在眾多語義分析的問題中,短語和句子級的語義分析是一項最基本的任務(wù)。漢語由于具有語序靈活、重視虛詞等獨特的特點,與英語法語相比,它的語義分析更具挑戰(zhàn)性。在自然語言處理(Natural Language Processing,NLP)中,對漢語語句的語義標(biāo)注,一直是一個難點。其中,對于漢語特殊句型的語義標(biāo)注,更是難中之難,例如,“連動句”、“兼語句”、“主謂謂語句”、“把字句”、“被動句”等。這些句型,在語言學(xué)界它們本身的界定都存在很多爭議,在NLP學(xué)界,處理的時候通常運用的是傳統(tǒng)的分析方法。

        在語言學(xué)界,主謂謂語句是漢語中一種具有獨特特點的句型。作為漢語主謂句的下位句型,它的特點是由主謂短語做句子的謂語。語言學(xué)領(lǐng)域關(guān)于主謂謂語句的研究有80余年,至今什么是主謂謂語句、主謂謂語句有哪些類型尚未定論,這些爭端包括:句中的成分誰是大主語誰是小主語的問題?倒裝句是不是主謂謂語句的問題?

        如何尋找一種較為有效的方法,可以對這些漢語特殊句型進(jìn)行更好的語義標(biāo)注,對于語言學(xué)界和NLP學(xué)界,都具有重要意義。本文提出了一種新穎的“特征結(jié)構(gòu)”(Feature Structure)理論的方法,進(jìn)行了大規(guī)模的語義標(biāo)注,建立了一個具有近兩萬句的漢語語義標(biāo)注資源庫。在此基礎(chǔ)上,選取漢語主謂謂語句進(jìn)行進(jìn)一步語義分析,得到了比較好的結(jié)果。

        2 漢語主謂謂語句在語言學(xué)和NLP中研究現(xiàn)狀

        2.1 語言學(xué)界漢語主謂謂語句研究現(xiàn)狀概述

        主謂謂語句的語言學(xué)本體研究成果相當(dāng)豐富,但是各位專家學(xué)者的觀點卻不盡相同。最早對主謂詞組做謂語的論述可追溯到1921年的陳承澤,“主謂謂語句” 概念的正式提出源于1984年《中學(xué)教學(xué)語法系統(tǒng)提要》。幾十年來,各家學(xué)者的探討主要集中在對其范圍的確定、結(jié)構(gòu)的分析、性質(zhì)及生成的探討上。

        在語言學(xué)界,主謂謂語句語形表示為:“Nx+N+V/A”。Nx指句子的主語,也稱作“大主語”,N指充當(dāng)句子謂語的主謂短語中的主語,也稱作“小主語”,V/A指充當(dāng)句子謂語的主謂短語中的謂語。充當(dāng)大主語Nx的成分一般是名詞、代詞、動賓短語、小句等;充當(dāng)小主語N的成分一般是名詞、代詞、動賓短語等;充當(dāng)V/A的成分一般是不及物動詞、及物動詞、動賓短語、形容詞等。

        主謂謂語句中,大主語、小主語和小謂語之間存在著復(fù)雜的語義關(guān)系,具體有多少類型難以判定。本文并不試圖對這些語義關(guān)系進(jìn)行純語言學(xué)理論的分類,而是研究其面向NLP的語義表示方法。語言學(xué)領(lǐng)域里主要討論過十三種語義關(guān)系[1-6],大致上包括:

        1. Nx與N具有領(lǐng)屬關(guān)系;Nx不和V/A直接發(fā)生關(guān)系,只和(N+V/A)整體產(chǎn)生關(guān)系。(N+V/A)整體是對Nx的一個陳述。這里的小謂語可以是單詞也可以使形容詞。例如,

        [1]他性格堅強(qiáng)。

        2. Nx前可以加上介詞,與Nx構(gòu)成介賓短語。例如,

        [2]這個問題我有不同意見。

        3. Nx與N具有施受關(guān)系,例如,

        [3]那個人我認(rèn)識。

        4. Nx或N的施事具有周遍性,例如,

        [4]他一句話也不說。

        5. 句中包含復(fù)指成分,例如,

        [5]這樣的好同志,我們喜歡他。

        6. Nx與NV具有總分關(guān)系,例如,

        [6]他寫的字,有的大,有的小。

        7. Nx后的兩個N是對舉的,例如,

        [7]咱倆誰也別忘了誰。

        8. Nx表處所,例如,

        [8]北京城里樹木很多。

        9. Nx表時間,例如,

        [9]工作時間你嚴(yán)肅一點好嗎?

        10. Nx后是組熟語,例如,

        [10]他這個人,事事領(lǐng)先人人夸好。

        11. Nx是N的工具,例如,

        [11]這間屋子我們堆東西。

        12. N是數(shù)量結(jié)構(gòu),例如,

        [12]這種布,一尺五毛錢。

        13. N(動詞短語)與Nx可以構(gòu)成主謂關(guān)系,例如,

        [13]你做事認(rèn)真。

        2.2 NLP中漢語主謂謂語句語義標(biāo)注現(xiàn)狀及問題分析

        對于語言分析,有兩種傳統(tǒng)方法:短語結(jié)構(gòu)分析和依存語法分析。目前的漢語標(biāo)注方法主要運用的就是這兩種方法。但是運用這兩種方法來標(biāo)注漢語的特殊句型的語句都會遇到一些問題,如圖1所示。

        例[7]的特點是,大主語與充當(dāng)謂語的主謂句中的主語和賓語之間是任指的關(guān)系,“咱倆”任指“誰1”、“誰2”。這是一個很重要的語義信息。而且如果已知“誰1”、“誰2”與“忘”之間的語義關(guān)系,再加上“咱倆”與“誰1”、“誰2”任指關(guān)系,可以通過語義傳遞,推知“咱倆”與“忘”之間的語義關(guān)系。因此,如果在語義分析中丟失了這三個詞之間的語義信息,將會為語言處理帶來困難。例[12]的特點是,該句由三個名詞短語組合而成,沒有謂語動詞。傳統(tǒng)的依存語法的標(biāo)注方法,在標(biāo)注例[7]、例[12]的時候?qū)τ谝恍┰~語之間語義關(guān)系,無法處理,丟失了很多詞語與詞語之間的語義信息。

        圖1 主謂謂語句句法分析圖

        可見,目前現(xiàn)有的分析方法在分析主謂謂語句時,主要遇到的問題有以下幾個。

        1. 句子表層句法結(jié)構(gòu)易于描述,但是深層的句子中各個成分之間的語義關(guān)聯(lián)難于描述出來;

        2. 即使描述了一部分的語義關(guān)系,如依存分析,得到的語義信息卻不完整。即丟失了一部分的語義信息。丟失的這些語義信息有時可能正是語句中的關(guān)鍵信息,將為語言處理帶了困難;

        3. 現(xiàn)有的方法過份依賴于句法結(jié)構(gòu),由于主謂謂語句句式的特殊性,長距離的詞語之間的語義關(guān)系存在無法標(biāo)注或錯誤標(biāo)注的情況。

        3 特征結(jié)構(gòu)理論

        特征結(jié)構(gòu) (Feature Structure)在現(xiàn)代語言學(xué)和計算語言學(xué)領(lǐng)域并不是一個新術(shù)語。語音學(xué)很早就采用類似特征結(jié)構(gòu)的機(jī)制描述音節(jié),后來形式句法理論如GPSG和LFG又采用復(fù)雜特征集描述句法結(jié)構(gòu),復(fù)雜特征集也類似于特征結(jié)構(gòu)。這兩種情況都是定義一組特征用以區(qū)分音節(jié)和句法結(jié)構(gòu),分別在生成語音學(xué)和生成語法領(lǐng)域產(chǎn)生了很大影響??墒侵两駷橹梗€未見到利用特征結(jié)構(gòu)進(jìn)行大規(guī)模的語義描述及語義分析的嘗試。

        針對語義分析的兩種傳統(tǒng)方法分析漢語時遇到的難題,我們提出了“特征結(jié)構(gòu)”方法來解決。

        通常,一個短語或句子可以用一個特征三元組集合來表示:[實體,特征,特征值],我們稱之為這個短語結(jié)構(gòu)或句子結(jié)構(gòu)的“特征結(jié)構(gòu)”集合。正如語言中有很多詞語描述實體概念一樣,語言中也有很多詞語描述實體的特征。這些詞通常稱為特征詞。英語WordNet和漢語的同義詞詞林都有一部分專門列出這些特征詞。這里說的“特征”并不僅限于嚴(yán)格意義上的特征詞,也包括那些抽象名詞和虛詞等,只要它們用來反映概念關(guān)聯(lián),在特征結(jié)構(gòu)中就作為特征[7-9]。

        [14]紅顏色汽車

        [15]紅汽車

        在例[14]中,“汽車”是實體(entity),“顏色”是“汽車”的特征(feature),“紅”是特征“顏色”的值(value)?!邦伾币贿吢?lián)系“汽車”,一邊聯(lián)系“紅”,因此它可作為“汽車”和“紅”概念關(guān)聯(lián)種類的標(biāo)記。這樣,例[14]表示成一個三元組如[14]′:

        [14]′ [汽車,顏色,紅]

        在例[15]中,“汽車”是實體,“紅”是特征“顏色”的值,值得注意的是,這里“汽車”的特征詞“顏色”并沒有出現(xiàn)。這種情況下,我們約定其特征結(jié)構(gòu)中的特征為空。這個約定的好處在于不必去設(shè)計一個一般性的特征詞表,而是根據(jù)具體應(yīng)用的需求而制定相應(yīng)的特征詞表。特征詞表牽涉到泛語言的范疇(包括語義格等),如果脫離具體應(yīng)用而試圖設(shè)計一個一般性的特征詞表,就如設(shè)計格系統(tǒng)一樣會有很多爭議。另一方面,在具體應(yīng)用中只需標(biāo)注少許例子,這些空的特征就可以從這些標(biāo)注例子中被激活出來。根據(jù)此約定例[15]表示成 [15]′:

        [15]′ [汽車, ,紅]

        [16]他說他是大學(xué)教師。

        該句的特征三元組表示為:

        [說, ,他]; [說, ,他是大學(xué)教師]; [是, ,教師]; [教師, ,大學(xué)]; [是, , 他]

        從例[16]我們可以發(fā)現(xiàn),特征和特征值都可以作為實體出現(xiàn)在特征結(jié)構(gòu)中。這從它們都可帶一定修飾語判斷出來?!八?是“說”的特征值。“他是大學(xué)教師”是“說”的另一個特征值。 這里 “他是大學(xué)教師”是作為一個整體,和“說”產(chǎn)生語義關(guān)聯(lián)。并且,特征值“他是大學(xué)教師”本身也是一個特征結(jié)構(gòu)。其中,“是”是實體,“大學(xué)教師”是特征值,“他”是“是”的另一個特征值。另外,特征值的節(jié)點“大學(xué)教師”本身也是一個特征結(jié)構(gòu),“教師”是實體,“大學(xué)”是它的特征值。

        形式上,一個三元組可看作兩個“點”(node)和連接它們的“邊”(edge),其中的“節(jié)點”表示實體或特征值,“邊”表示特征。特征一定是某個節(jié)點的特征,這個節(jié)點就作為特征擁有者,另一個節(jié)點就作為特征值。于是一個特征結(jié)構(gòu)可看作一個圖,而且是無向圖(undirected graph)??紤]到特征值也可是另外一個特征結(jié)構(gòu),因此特征結(jié)構(gòu)可看作一個遞歸圖,意即節(jié)點本身又可是一個圖。

        簡言之,同句法結(jié)構(gòu)相比,特征結(jié)構(gòu)和依存結(jié)構(gòu)類似,都主要描述詞匯之間的關(guān)系,因此不用定義句法范疇。即便在遞歸性的特征結(jié)構(gòu)中,也不用定義特征結(jié)構(gòu)的類別。和依存結(jié)構(gòu)相比,特征結(jié)構(gòu)一方面允許嵌套,另一方面允許多重關(guān)聯(lián);另外特征結(jié)構(gòu)既注重描述概念是否關(guān)聯(lián),也同時注重關(guān)聯(lián)的種類。

        4 基于特征結(jié)構(gòu)理論的漢語主謂謂語句標(biāo)注

        4.1 主謂謂語句的特征結(jié)構(gòu)標(biāo)注

        以例[1]、例[2]為例,本節(jié)把語言學(xué)界討論過的十三種語例分別運用特征結(jié)構(gòu)模型進(jìn)行了語義分析,詳細(xì)地標(biāo)注了每一種語例中詞語和詞語之間的語義關(guān)系,并畫出了特征結(jié)構(gòu)圖。然后將這些特征結(jié)構(gòu)圖進(jìn)行對比分析,整理歸納出主謂謂語句的語義關(guān)系類型及其表示方法。

        例[1] 他性格堅強(qiáng)。

        大謂語“性格堅強(qiáng)”是對大主語“他”的陳述和說明。小主語“性格”是大主語“他”的一個內(nèi)在屬性,“性格堅強(qiáng)”可以成立,“他堅強(qiáng)”也可以成立。小謂語“堅強(qiáng)”既是“性格”的值,也可以說是“他”的值。因此,在這里,小主語“性格”是大主語的一個特征,小謂語“堅強(qiáng)”是特征“性格”的值。

        它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖(圖2)如下:

        [他,性格, 堅強(qiáng)]

        圖2 例[1]的特征結(jié)構(gòu)圖

        例[2] 這個問題我有不同意見。

        該例中,大謂語是一個完整的句子,內(nèi)含主謂賓。大主語問題前可以加上介詞“關(guān)于”、“對”等。從語義關(guān)聯(lián)上說,大主語和小賓語之間有語義關(guān)聯(lián)。它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖(圖3)如下:

        圖3 例[2]的特征結(jié)構(gòu)圖

        4.2 主謂謂語句的特征結(jié)構(gòu)類型

        基于特征結(jié)構(gòu)理論,我們運用標(biāo)注軟件對這13類主謂謂語句的語料進(jìn)行了語義關(guān)系的標(biāo)注,共概括出了六類標(biāo)注圖,如表1所示。

        表1 主謂謂語句的特征結(jié)構(gòu)類型表

        續(xù)表

        4.3 不同理論的主謂謂語句標(biāo)注分析比較

        我們以例[2]和例[7]為例,進(jìn)行特征結(jié)構(gòu)分析與傳統(tǒng)依存分析,將分析結(jié)果進(jìn)行對比,來評測對主謂謂語句的語義分析效果。

        例[2] 這個問題我有不同意見。

        表2 例[2]的兩種分析圖

        表3 例[2]的兩種分析結(jié)果對比表

        如表2、表3所示,傳統(tǒng)依存分析結(jié)果沒有把“意見”和“問題”的語義關(guān)系表示出來。把沒有語義關(guān)系的“有”和“問題”卻表示了出來。因此它漏掉了一個語義關(guān)系對,還標(biāo)注了一個沒有語義關(guān)系的語義關(guān)系對。

        例[7] 咱倆誰1也別忘了誰2。*對于句中重復(fù)出現(xiàn)的詞語,我們依照出現(xiàn)順序分別下標(biāo)為1,2,3,依次類推。

        如表4、表5所示,傳統(tǒng)依存分析結(jié)果沒有把“咱倆”和“誰1”、“咱倆”和“誰2”的語義關(guān)系表示出來,把沒有語義關(guān)系的“咱倆”和“忘”卻表示了出來。

        表4 例[7]的兩種分析圖

        表5 例[7]的兩種分析結(jié)果對比表

        因此它漏掉了兩個個語義關(guān)系對,還標(biāo)注了一個沒有語義關(guān)系的語義關(guān)系對。

        特征結(jié)構(gòu)模型能夠描述更多的語義關(guān)系對,因此包含更加豐富的語義信息。

        1) 傳統(tǒng)依存語法無法表示主謂謂語句中大主語與小主語或小賓語之間的語義關(guān)系,如復(fù)指、分指等。特征結(jié)構(gòu)模型可以完整地表示主謂謂語句中大主語與小主語或小賓語之間的語義關(guān)系。如例句:這個問題我有不同意見。咱倆誰也別忘了誰。勤奮的小王,我們喜歡他。

        2) 主謂謂語句中大主語和小謂語之間,有時存

        在語義關(guān)系,有時不存在語義關(guān)系。傳統(tǒng)依存語法無法辨析這兩種情況,而是無論實際的語義關(guān)系是否存在,但是傳統(tǒng)依存語法總是處理為兩者存在語義關(guān)系。特征結(jié)構(gòu)模型可以按照語言實際情況,如實地反映大主語和小謂語之間的語義關(guān)系。如例句:小王技術(shù)很好?!靶⊥酢焙汀昂谩敝g沒有語義關(guān)系,但是傳統(tǒng)依存分析卻標(biāo)注為有語義關(guān)系。

        5 結(jié)論及展望

        我們可以看到,運用特征結(jié)構(gòu)對句子進(jìn)行標(biāo)注可反映出哪些成分充當(dāng)實體,哪些充當(dāng)特征,哪些充當(dāng)特征值,這些詞語之間的語義關(guān)系也很清晰地反映出來。今后運用特征結(jié)構(gòu)標(biāo)注的資源,通過訓(xùn)練,就有可能抽取出句子中隱含的語義關(guān)系。

        特征結(jié)構(gòu)分析有如下優(yōu)點。

        1) 標(biāo)注的是語義關(guān)聯(lián),而非句法關(guān)聯(lián)。我們標(biāo)注的是句中詞語與詞語之間的語義關(guān)聯(lián),跟句子表層的句法結(jié)構(gòu)無關(guān),因此跳過了句法層面的分析;

        2) 標(biāo)注的是“關(guān)聯(lián)”而非“依存”。我們表示的是語義上的關(guān)聯(lián),而不是傳統(tǒng)的依存關(guān)系。因此我們的標(biāo)注圖用“無向圖”表示,也弱化了中心詞的概念;

        3) 標(biāo)注效率更高。特征結(jié)構(gòu)的方法不牽涉詞性爭議、結(jié)構(gòu)歧義等問題,也無需判斷中心詞,因此標(biāo)注效率比句法標(biāo)注和依存標(biāo)注要高;

        4) 標(biāo)注的結(jié)果一致性高。我們的判斷標(biāo)準(zhǔn)是基于關(guān)聯(lián),經(jīng)過人工標(biāo)注,最后得到的標(biāo)注結(jié)果分歧較少;

        特征結(jié)構(gòu)的理論是我們的一個新嘗試,現(xiàn)在我們已經(jīng)建立了特征結(jié)構(gòu)的基本概念和描述框架,建構(gòu)了一個大規(guī)模的漢語語義資源,并且應(yīng)用到了食譜分析、國家安全信息收集和分析、汽車市場情報分析等領(lǐng)域,取得了比較好的效果。

        但是在標(biāo)注過程中,仍然存在一些不可避免的難題,例如,不斷發(fā)展變化的語言永遠(yuǎn)無法窮盡列舉,真實語料中會出現(xiàn)很多語言的臨時用法和特例,針對這類極少部分的語例,我們該如何制定規(guī)則確定特征結(jié)構(gòu)?這是我們下一步工作要解決的問題。

        [1] 陸儉明.新中國語言學(xué)50年[J].當(dāng)代語言學(xué),1999, (4): 1-13.

        [2] 朱德熙.語法講義[M].北京:商務(wù)印書館,1982: 95-110.

        [3] 李臨定.現(xiàn)代漢語句型[M].北京:商務(wù)印書館,1986:302-307.

        [4] 呂叔湘.主謂謂語句舉例[J].中國語文,1986,(5):334.

        [5] 胡裕樹.現(xiàn)代漢語[M].上海:上海教育出版社,1981:353.

        [6] 洪維.主謂謂語句研究綜述[J].呼蘭師專學(xué)報,1998, (2): 70-76.

        [7] B. Chen,D. Ji. Chinese Semantic Parsing Based on Dependency Graph, Feature[C]//Proceedings of the First International Conference on Electronic & Mechanical Engineering and Information Technology(EMEIT 2011), Haerbin, China. 2011:1730-1734.

        [8] B. Chen, D. Ji, C. Lv. Semantic Labeling of Chinese Subject-Predicate Predicate Sentence Based on Feature Structure [C]//Proceedings of the 11th Chinese National Conference on Computational Linguistics(CNCCL2011), Luoyang, China.2011: 161-166.

        [9] 陳波.特征結(jié)構(gòu)及其漢語語義資源建設(shè)[D].武漢:武漢大學(xué),2011.

        猜你喜歡
        謂語主語短語
        談?wù)勔龑?dǎo)主語從句的連接詞的用法
        非謂語動詞
        非謂語動詞
        非謂語動詞題不難答 石娟
        非謂語動詞
        盤點高考中的特殊句式(二)
        青蘋果(2014年2期)2014-04-29 20:31:27
        英語中的虛主語“it”和漢語中的虛主語“他”異同之比較
        亚洲中国美女精品久久久| 国产精品成年片在线观看| 国产精品无码精品久久久| 国产精品白浆免费观看| 日本不卡视频一区二区三区| 亚洲av中文无码乱人伦在线咪咕 | 97久久成人国产精品免费| 蜜桃传媒免费观看视频| 手机在线看片| 国产精品va无码一区二区| 久久久久亚洲AV成人网毛片 | 夜夜躁狠狠躁2021| 中文字幕一区二区三区乱码不卡| 亚洲无码中文字幕日韩无码| 日本免费看一区二区三区| 久久久久久自慰出白浆| 一本一道波多野结衣一区| 囯产精品无码一区二区三区AV | 最新国产成人在线网站| 日本97色视频日本熟妇视频| 亚洲成av人综合在线观看| 国产亚洲av无码专区a∨麻豆| 欧美激情在线不卡视频网站| 一片内射视频在线观看| 亚洲一区二区日韩专区| 亚洲日本一区二区一本一道| 樱花AV在线无码| 青青草视频在线免费视频| 18禁免费无码无遮挡不卡网站 | 国产女人好紧好爽| 久久中文字幕无码专区| 无码av一区在线观看| 久久久人妻一区二区三区蜜桃d| 一个人看的www片免费高清视频| 人妻少妇精品中文字幕av| 澳门精品无码一区二区三区| 一区二区三区在线日本| 久久黄色视频| 中文字幕亚洲乱码熟女一区二区| 巨乳av夹蜜桃站台蜜桃机成人| 最新亚洲视频一区二区|