亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大規(guī)模語料庫的現(xiàn)代漢語動賓搭配知識庫構(gòu)建

        2021-03-18 07:17:48王貴榮饒高琦1荀恩東
        中文信息學報 2021年1期
        關(guān)鍵詞:動賓知識庫賓語

        王貴榮,饒高琦1,,荀恩東

        (1. 北京語言大學 漢語國際教育研究院,北京 100083;2. 北京語言大學 信息科學學院,北京 100083)

        0 引言

        在任何語言里,詞語搭配都是一個重要問題,在漢語中,尤為突出。從語言本體來看,漢語重“意合”,詞語缺乏形態(tài)變化,詞與詞的搭配有時會超出語法形式的約束,只要滿足意義、邏輯的要求就可以搭配。因此,無論是語言本體還是語言教學研究,詞語搭配都是言語組裝的重要環(huán)節(jié)。從自然語言理解來看,要實現(xiàn)計算機對自然語言的“理解”,語言知識是必不可少的。而漢語缺乏形態(tài)變化,不能提供充分的形式化知識,因此,詞語搭配知識也就成為自然語言理解各子任務的一個重要知識源。由于詞語搭配描述的是詞與詞之間的組合情況,既包含結(jié)構(gòu)知識也包含語義知識,更能準確地刻畫出句子中詞與詞之間的聯(lián)系,在句法分析中受到人們廣泛的重視。依存句法認為,動詞是句子的中心,依存分析中各個節(jié)點都是詞,不存在詞和短語或短語之間的關(guān)系判定問題,主要是通過獲取句子的核心動詞及其所支配的詞語搭配,進而分析句子內(nèi)詞語之間的依存關(guān)系,以建立依存句法樹。

        一般而言,動賓結(jié)構(gòu)在SVO型語言里是很常見的,是句內(nèi)的核心成分,處于優(yōu)勢地位,可以形象地稱之為“骨架”,它實際上映射了整個句子的輪廓。1942年呂叔湘先生在《中國文法要略》中就指出“句子的中心是一個動詞”[1]。1959年法國語言學家特思尼耶爾(L Tesniere)在“依存語法”的代表作《結(jié)構(gòu)句法基礎》中明確指出“動詞是句子的中心,它支配著別的成分,而它本身卻不受其他任何成分的支配。動詞在句子中起的作用是關(guān)聯(lián),就是說動詞把句子中其他的詞連成了一個整體?!盵2]只要能準確識別出動賓結(jié)構(gòu),就能在此基礎上進行一些后續(xù)分析,從動詞出發(fā),可以向左識別各種狀語,逼近句子的主語成分,從賓語出發(fā),可以向左識別賓語的各種修飾成分,逼近動詞,從而為實現(xiàn)深層句法分析奠定一定的研究基礎。本文以大數(shù)據(jù)為支撐,構(gòu)建動賓搭配知識庫,以期為句法分析提供結(jié)構(gòu)化引導知識,提高句法分析的準確率,同時該知識庫也可為語言本體、語言教學研究等提供大量實例。

        1 研究現(xiàn)狀

        1.1 語言學界的研究

        一直以來,現(xiàn)代語言學界關(guān)于動賓搭配的研究就層出不窮,研究思路主要有四種。

        一是在格語法的理論視角下,用賓語的語義角色的來對賓語進行分類,主要的研究有李臨定[3]、馬慶株[4]等;也有學者展開了賓語不同語義角色的細致研究,如宋玉柱[5]介紹了原因賓語的類型及不同類型中充當原因賓語的成分;陳昌來[6]否認了工具成分可以表現(xiàn)為主語、賓語,并介紹了工具成分可以出現(xiàn)的句法結(jié)構(gòu);趙旭[7]研究了處所賓語的判別標準、內(nèi)部小類以及非典型處所賓語的生成動因。

        二是以配價語法為理論支撐,從動詞價位的角度來考察動詞所帶的賓語,如羅夢鹿[8]指出雙賓語句式動詞包括大部分三價動詞和一部分二價動詞;王慧[9]分析了二價動詞不帶賓語、帶單賓語和帶雙賓語的情況;袁毓林[10]提出了一種基于配價層級和配位方式的漢語配價語法的描寫模型,用以全面地反映動詞在不同的句式中對名詞性成分的支配能力及其句法組配方式。

        三是從韻律的角度分析了動賓搭配的規(guī)律,如呂叔湘[11]指出漢語雙音化傾向明顯,并分析了單雙音節(jié)對漢語劃分詞語邊界的影響;馮勝利[12]系統(tǒng)闡釋了韻律構(gòu)詞學和韻律句法學這兩個全新的理論系統(tǒng);駱健飛[13]指出單音節(jié)動詞一般是強時空動詞,傾向于搭配工具、方式類賓語,雙音節(jié)動詞一般是泛時空動詞,傾向于搭配原因、目的類賓語。

        四是從賓語的體謂性來考察動詞特征,如宋玉柱[14]提出將動詞按賓語的語法性質(zhì)劃分為體賓動詞、謂賓動詞和體謂賓動詞三類;亢世勇[15]對常用謂賓動詞帶動賓、形賓、小句賓進行了分類統(tǒng)計;陳永莉[16]指出形式動詞只能帶雙音節(jié)動詞賓語,并介紹了形式動詞受事成分的語法位置和賓語擴展形式;崔少娟[17]、孫萍[18]從動詞分類、賓語語義特征等方面對《現(xiàn)代漢語動詞用法詞典》中的謂賓動詞進行了全面研究;梁永紅[19]研究了及物動詞帶名賓情況的發(fā)展變化的具體表現(xiàn)、特征以及影響因素。

        從筆者的調(diào)研情況來看,目前已有的對動賓搭配的研究,基本都是選取動賓搭配的某一側(cè)面進行定性研究,且文中也都是通過舉例的方式來驗證結(jié)論,尚未有人基于大數(shù)據(jù)對動賓搭配進行抽取和研究。

        1.2 中文信息處理領域的研究

        相對語言本體領域豐富多彩的研究,中文信息處理領域關(guān)于動賓搭配的研究則比較單一,主要是從動賓搭配的自動識別角度展開研究的,如孫宏林[20]從語料庫中歸納了判斷“V+N”序列是合法短語的14條語法規(guī)則;高建忠[21]提出“匹配+語義限制”和“匹配+詞語相似度”計算模型,用于動賓搭配的自動識別;李晉霞[22]從內(nèi)部構(gòu)成出發(fā)以定中“V_雙+N_雙”結(jié)構(gòu)類型的識別為突破口提出“V_雙+N_雙”結(jié)構(gòu)類型自動識別的規(guī)則;程月等人[23]提出機器學習中的條件隨機場方法,用于漢語動賓搭配的自動識別。也有學者開始從語義的角度進行研究,如周衛(wèi)華[24]從動賓之間的語義角色關(guān)系、動詞對賓語的語義選擇限制這兩個方面詳盡地考察了500個單音節(jié)動詞和賓語之間的語義搭配情況;李斌[25]對動賓之間語義選擇限制的多樣性和強度差異做了系統(tǒng)標注和統(tǒng)計分析。

        目前學者對動賓搭配所做的研究,無論是基于結(jié)構(gòu)進行的對動賓搭配的自動識別和獲取,還是跳過結(jié)構(gòu)直接對動賓搭配進行語義分析和計算的,都是在探究動賓搭配的一種形式化規(guī)律,以方便計算機的處理,但是這種方法也只能覆蓋語言中的一些高頻現(xiàn)象。

        此外,圍繞中文信息處理構(gòu)建的知識庫也有很多。如由山西大學建設的漢語框架語義知識庫(CFN)[26]是以加州大學伯克利分校的FrameNet為參照、以漢語真實語料為依據(jù)的供計算機使用的漢語詞匯語義知識庫,主要包括框架庫、句子庫和詞元庫三部分。其中,詞元庫記錄了詞元的語義搭配模式和框架元素的句法實現(xiàn)方式。由北京大學開發(fā)的《現(xiàn)代漢語語法信息詞典》[27]是為計算機實現(xiàn)漢語分析和漢語生成而研制的一部電子詞典,全面地描述了所收錄詞語的語法信息。知網(wǎng)(HowNet)[28]是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。北京大學袁毓林主持建設的《北京大學現(xiàn)代漢語實詞句法語義功能信息詞典》[29],其中,《動詞句法語義功能信息詞典》主要包括動詞的語法功能、語義角色及動詞和語義角色組配的句法格式。句法組配格式提供句法上可搭配的位置,動賓搭配提供語義上可搭配的詞語,二者配合使用,漢語句法語義分析將獲得重大進步。也有學者編纂過搭配詞典,如張壽康和林杏光主編的《現(xiàn)代漢語實詞搭配詞典》、趙培癢編著的《常用詞語搭配詞典》等。但它們只收錄了高頻使用的搭配,規(guī)模相對較小,不能全面反映動賓的搭配情況。目前已有的知識庫主要提供語義、語法、常識知識,對動詞各方面的知識有詳盡描寫,具有一定的形式化能力,一定程度上促進了中文信息處理技術(shù)的發(fā)展。但這些知識庫仍以對語言學知識的抽象表征為主,計算機使用起來不夠便捷。

        本文擬基于BCC語料庫構(gòu)建動賓搭配知識庫。BCC語料庫語料來源領域較多,有文學、科技、報刊、博客等,能覆蓋更多的語言現(xiàn)象,且BCC語料庫處于動態(tài)更新狀態(tài),能及時捕獲新的語言現(xiàn)象?;谠撜Z料庫構(gòu)建的動賓搭配知識庫更具全面性、時效性,對語言研究和語言教學而言,具有更高價值。動賓搭配知識抽取也是信息抽取的一項子任務,能夠用于詞義消歧、信息檢索、機器翻譯、句法分析、自然語言生成等多個方面。如詞義消歧方面,人能夠正確無誤地理解某個詞語,就是利用了詞語的上下文信息,而詞語搭配正是確定詞語義項的上下文,動賓搭配知識為動詞歧義消解提供了知識源。機器翻譯方面,由于不同語言的搭配規(guī)律不同,造成不同語言詞語之間的對等翻譯極為困難,詞語搭配的翻譯將有助于提高翻譯質(zhì)量。句法分析方面,動賓搭配作為句法、語義雙重關(guān)系的載體,能夠幫助確定句子的核心成分關(guān)系,提高分析精度。

        本文的研究將從以下幾個方面具體開展: 首先,從語言本體的角度出發(fā),總結(jié)動賓搭配知識體系;其次,根據(jù)動賓搭配知識體系制定BCC語料庫的檢索式,獲得動賓搭配知識對;最后,根據(jù)檢索結(jié)果優(yōu)化檢索式,并對獲得的動賓搭配知識進行消歧。

        2 動賓搭配知識體系

        前人從語言學角度對動賓搭配所做的研究相對較多,但前人研究多是從語義角度展開的,不利于形式化抽取。本文主要從賓語由哪些詞類或結(jié)構(gòu)充當?shù)慕嵌日韯淤e搭配知識體系,首先從宏觀的角度將動賓搭配分為三大類型,根據(jù)賓語的體謂性將動賓搭配分為“動+體賓”和“動+謂賓”兩大類,又因為雙賓語的情況比較特殊,故沒有將“動+雙賓”歸為上述兩類中,單獨歸為一類;其次,對每一大類下的賓語構(gòu)成做細致區(qū)分,并列舉相應例句,該過程以朱德熙、李臨定、劉月華先生的賓語語義分類為主,結(jié)合高校使用的現(xiàn)代漢語教材中對賓語構(gòu)成成分的說明(表1),最終形成一個動賓語義全面且便于形式化檢索的知識體系。本文在抽取動賓搭配知識時,考慮到語言層層遞歸的復雜性以及抽取方式的局限,只對一般名賓、代詞賓語、數(shù)量名賓語、簡單定中作賓語、動詞賓語、形容詞賓語進行了抽取。

        表1 前人的賓語分類體系

        前人對體詞性賓語的語義類研究較多,謂詞性賓語一般分為動賓和小句賓。為便于書寫形式化的檢索式,本文從充當賓語的詞類出發(fā),對賓語進行重新分類,盡可能覆蓋所有的賓語語義角色。賓語的常用語義角色基本是一般名詞(n)作賓語,本文把能用詞性區(qū)分出來的處所賓語(ns)單獨劃分為一類,其余都歸入一般名賓;數(shù)量結(jié)構(gòu)作賓語,本文認為動量短語是對動作的補充說明,是補語而不是賓語,將名量短語和時量結(jié)構(gòu)作賓語劃分為數(shù)量賓語;代詞和聯(lián)合短語作賓語,根據(jù)體謂性將其分別歸入體賓和謂賓中;存現(xiàn)句是一種特殊句法現(xiàn)象,且存現(xiàn)動詞是一個封閉的類,故將存現(xiàn)賓語單獨劃分為一類。只有朱德熙先生的分類中有程度賓語,本文認為其是程度補語,不納入賓語范圍。體詞性賓語中其他小類劃分情況較為一致,這里沿用前人分類。謂詞性賓語中,過去都只是粗略分為動賓、形賓、小句賓,本文將可以充當賓語的謂詞性結(jié)構(gòu)均單獨分類,更加細致,便于從形式上區(qū)分。另只有黃廖本的《現(xiàn)代漢語》中提到復句作賓語的情況,鑒于復句也是謂詞性的,將其劃分為謂賓下的一類。雙賓動詞也是一個封閉詞表,根據(jù)雙賓中兩個賓語的類型劃分為“真賓+準賓”“真賓+真賓”兩類。綜上,本文定義的動賓搭配知識體系如表2所示。

        表2 動賓搭配知識體系表

        續(xù)表

        3 動賓搭配獲取

        3.1 檢索系統(tǒng)

        本文獲取動賓搭配知識的語料庫是對外開放的北京語言大學語料庫BCC(http://bcc.blcu.edu.cn)的延伸版,其包括報刊、文學、科技、微博等各領域的語料,數(shù)據(jù)規(guī)模較公開版更大,約1.1萬億字。該語料庫能夠支持集字符、屬性和結(jié)構(gòu)信息為一體的復雜查詢,且檢索速度較快。基于該語料庫抽取動賓搭配知識,需要制定相應的BCC檢索式,接下來將詳細介紹檢索式的構(gòu)成。

        3.1.1 簡單檢索

        簡單檢索的檢索式只有Query部分,可以包含字符串、詞性符號、離合符號“*”、單個詞語標識符“~”、空格等內(nèi)容,對上下文的限制較少,只能表達簡單的結(jié)構(gòu)和語義信息。BCC簡單檢索式構(gòu)成具體介紹如表3所示。

        表3 BCC簡單檢索式構(gòu)成說明

        續(xù)表

        3.1.2 復雜檢索

        復雜檢索的檢索式包括Query和Condition兩部分,形如“Query{condition1;condition2;...;print($i)}”。從功能上看,復雜檢索式可以對上下文進行條件約束,對抽取部分進行韻律結(jié)構(gòu)限制、詞屬性類限制,同時可以實現(xiàn)同一個檢索式中詞表的實例化檢索,提高檢索效率。從形式上看,復雜檢索式的Query部分可以出現(xiàn)“()”,表示被限定的部分,condition部分表示條件限制,print表示輸出語句。如“不(v) (n) W{len($1)=2;len($2)=2;print($1$2)}”,表示“不+雙音節(jié)v+雙音節(jié)n+標點”共現(xiàn)的情況,用“()”括起來的部分表示需要予以限定的部分,“$1”表示第一個被括起來的部分,可以用詞表對其進行類的限制,“[S_T_體謂準_體]”為自定義詞表,表示體賓動詞,也可對音節(jié)進行限制,“l(fā)en($1)=2”表示第一個元素即“v”是雙音節(jié)的;“W”表示標點符號,這里是指以標點結(jié)尾的動名搭配;“print($1$2)”這里表示輸出query部分被括起來的內(nèi)容,即只輸出“v n”搭配,沒有print語句時,默認輸出整個檢索式的檢索結(jié)果。同時,復雜檢索式可以使用“$V”表示實例化檢索式詞表中的詞,如“$V=[S_V_趨_趨向動詞]”,表示將趨向動詞表中的詞語逐個放入檢索式中“$V”的位置進行檢索。

        3.1.3 簡單檢索與復雜檢索抽取結(jié)果對比

        簡單檢索式抽取結(jié)果和復雜檢索式抽取結(jié)果對比如表4所示。

        表4 簡單檢索與復雜檢索抽取結(jié)果對比

        簡單檢索式“v n”抽取的搭配中“采訪時、參與方式”并不是動賓搭配,“采訪時”的韻律構(gòu)成是2+1,馮勝利[12]指出“2+1”式動賓組合容易導致“抑揚”結(jié)構(gòu),普通重音無法實現(xiàn),不易構(gòu)成動賓搭配,因此,可以分別采用不同的韻律構(gòu)成單獨檢索?!皡⑴c方式”是動詞作定語構(gòu)成的定中結(jié)構(gòu),而動詞作定語時,一般是不能被否定副詞修飾的,可以在檢索式中加入否定副詞“不”進行限制,如復雜檢索式“不(v)(n) W{len($1)=2;len($2)=2;print($1$2)}”,則可以避免上述情況的出現(xiàn),提高檢索的準確性。簡單檢索式“打 * n”只能抽取關(guān)于動詞“打”的離合型名詞賓語,而不同屬性類的動詞帶賓的上下文情況不同,需要根據(jù)動詞小類及賓語上下文情況細化檢索式。復雜檢索式“$V過(n) W{$V=[S_V_趨向動詞_趨];len($1)=2}”中,“$V”表示動詞某一屬性類的詞表,該檢索式可以對詞表內(nèi)的詞語進行實例化檢索,大大提高檢索效率。經(jīng)過對比可知,復雜檢索式效果要好于簡單檢索式,故本文在抽取時大多采用復雜檢索式。

        3.2 動賓搭配規(guī)則

        上一節(jié)詳細介紹了動賓搭配的分類情況,本節(jié)將詳細說明為抽取動賓搭配知識制定的檢索式情況?,F(xiàn)代漢語語法具有遞歸性,不同結(jié)構(gòu)類型層層嵌套形成的動賓結(jié)構(gòu)比較復雜,故本文目前只抽取了簡單類型的賓語,即體詞性賓語中的一般名賓、代詞賓語、數(shù)量名賓語的連續(xù)類型和離合類型,謂詞性賓語中的動詞賓語和形容詞賓語的連續(xù)類型和離合類型。根據(jù)這幾種情況,再分別從屬性類、上下文、韻律結(jié)構(gòu)和自然標注信息等方面添加限制條件,共制定檢索式223個。

        3.2.1 連續(xù)型動賓搭配規(guī)則

        連續(xù)型動賓主要抽取了動詞后緊鄰賓語的情況,在檢索時重點關(guān)注動詞的上下文,從動詞的修飾語、屬性類、動賓的韻律構(gòu)成和標點信息等方面來添加限制條件,盡可能使抽取的搭配能夠構(gòu)成動賓關(guān)系。連續(xù)型動賓檢索情況如表5所示。

        表5 連續(xù)型動賓檢索情況

        續(xù)表

        3.2.2 離合型動賓搭配規(guī)則

        離合型動賓主要抽取了動詞和賓語之間有其他詞語出現(xiàn)的情況,抽取時重點關(guān)注能出現(xiàn)在動賓之間的不同離合成分,抽取了離合成分為“著了過”、“了個”、數(shù)量、賓語的定語成分等的動賓搭配。離合型動賓檢索情況如表6所示。

        表6 離合型動賓檢索情況

        3.3 動賓搭配消歧

        在第一輪抽取工作結(jié)束后,筆者詳細觀察了抽取到的動賓搭配知識,發(fā)現(xiàn)抽取的知識長尾效應明顯,且由于語料的分詞錯誤、詞性標注錯誤和檢索式的局限性,抽取到的動賓搭配數(shù)據(jù)中也存在著一些非動賓搭配的類型。動賓搭配知識作為句法分析中最基礎的資源,其準確性直接影響整個句法分析器的效果,因此,為了獲得更為準確的動賓搭配知識,本文從檢索式書寫、動詞、賓語等方面進行了初步的消歧。

        3.3.1 檢索式優(yōu)化

        為提高檢索結(jié)果的準確率,筆者對初步制定的223個檢索式人工進行了有效性評估,分別用1到5來表示檢索式有效性從低到高,對于有效性低于3的檢索式從限制動詞和賓語兩個方面進行改進,若改進后檢索效果有所提升,則保留改進后的檢索式,若改進后檢索效果仍不理想,則舍棄該檢索式。如簡單檢索式“(v)(n) W{len($1)=2;len($2)=2}”的有效性只有2,雖然該檢索式能夠召回大量的“VN”對,但非動賓搭配的負例情況也較多,比如“聯(lián)系電話”“購買地址”這種最典型的動詞作定語修飾名詞的例子也會被當作動賓搭配抽取出來,故在動詞前用典型否定副詞“不、沒”加以約束,并對“V”和“N”進行屬性類的約束,構(gòu)造出更有效的檢索式“不(v)(n)W{$1=[S_V_體謂準_體];$1!=[S_V_趨向動詞_趨];len($1)=2;$2=[P_N_賓語_可];len($2)=2;print($1$2)}、沒(v)(n)W{begin($1)!=[有];$1=[S_V_體謂準_體];len($1)=2;$2=[P_N_賓語_可];len($2)=2;print($1$2)}”,一定程度上減少了非動賓搭配對。經(jīng)評估改進后,共得到140個檢索效果相對較好的檢索式。

        3.3.2 動詞部分消歧

        動詞部分引起歧義主要是由兩方面的原因?qū)е拢皇莿釉~方面,即動詞不能帶賓語或抽取出來的是動詞作定語的情況;二是語料庫方面,即BCC語料庫的分詞錯誤、詞性標注錯誤及分詞粒度等原因。

        針對動詞方面的原因,筆者在抽取語料時根據(jù)前人研究整理了及物動詞表、體賓動詞表、謂賓動詞表、可作定語的動詞表、《現(xiàn)代漢語詞典(第7版)》中的動詞表、心理動詞表、趨向動詞表等一系列動詞子類表。一方面,在書寫檢索式時可以使用這些詞表作為限制條件,提高檢索效果;另一方面,可以對抽取結(jié)果進行篩選。如“不起精神”雖然符合檢索式“不(v)(n)W{$1=[S_V_體謂準_體];len($1)=1;$2=[P_N_賓語_可];len($2)=2;print($1$2)}”,“起”也可以帶體賓,例如,“起作用”“起血泡”等,但觀察語料發(fā)現(xiàn),“不起精神”并不是動賓搭配,而是“打不起精神”的一部分,而且“起”作補語的情況要更為普遍,所以筆者利用趨向動詞表將趨向動詞的搭配從檢索結(jié)果中抽取出來,人工校驗。

        針對語料庫方面的原因,筆者以《現(xiàn)代漢語詞典(第7版)》的動詞為標準,將與詞典詞性不一致的視為詞性標注錯誤,但也有一些特殊情況除外。如詞典中沒有“看到”一詞,這主要是因為“看到”可以理解為動詞“看”與趨向動詞“到”組合形成的述補結(jié)構(gòu),但由于二者結(jié)合比較緊密,高頻使用,故語料庫往往將其切分為一個詞。針對這種不一致,仍保留該詞為動詞。而“達”在詞典中為一個語素,但是在語言中經(jīng)常會有“人口達13億”“產(chǎn)值達290億元”“竹制品已達200多個”等“達”作動詞,后常跟數(shù)量短語的用法,因此也將其視為一個詞?!鞍寻选睉撌恰鞍寻殃P(guān)”,是“把關(guān)”一詞的變形,雖然語料庫中將“把把”切分為一個動詞,但抽取動賓搭配時不宜將其視為一個詞。

        3.3.3 賓語部分消歧

        賓語部分引起歧義也分為賓語自身和語料庫兩方面的原因。前者主要是賓語部分不能與動詞構(gòu)成動賓搭配,如“時候”“臺風”“產(chǎn)品”不能與動詞“打”構(gòu)成動賓搭配,但這類現(xiàn)象幾乎在每個動詞的搭配表中都會出現(xiàn),分布較為離散,本文目前只將低頻部分舍去,尚未對高頻部分進行過濾。后者主要也是分詞錯誤和詞性標注錯誤。經(jīng)觀察語料發(fā)現(xiàn)詞性標注錯誤主要表現(xiàn)為英文字母、標點符號、數(shù)字、其他詞性的詞等都有被標為名詞的現(xiàn)象,比如語氣詞“嗎”、代詞“那”等。分詞錯誤主要表現(xiàn)為把標點和詞語切分在一個詞語內(nèi),如“W酸奶”“眼病W”等。對于詞性錯誤和標點切分錯誤,統(tǒng)一采用正則表達式對抽取結(jié)果進行剔除。

        3.3.4 人工校對

        正如齊夫律(Zipf’s Law)揭示的那樣,針對于一種語言的詞匯分布來說,極少數(shù)高頻詞(型)的出現(xiàn)次數(shù)已經(jīng)覆蓋一個語料庫總詞數(shù)的絕大部分,而詞(型)總數(shù)中大約一半的詞(型)在這個語料庫中卻只出現(xiàn)一次。詞語搭配的分布同樣也遵循齊夫律,因此,本文在上述消歧結(jié)束后選取了動賓搭配中高頻80%的部分,進行了人工消歧,最終獲得動賓搭配300萬對。動賓搭配知識庫各子類分布情況如表7所示。

        表7 動賓搭配知識庫各子類分布情況

        從表7可知,能夠帶體詞性賓語的動詞數(shù)量要比能夠帶謂詞性賓語的動詞多,動賓搭配知識庫中“動+體賓”的搭配對數(shù)占總搭配數(shù)的89.74%,要遠遠高于“動+謂賓”的10.26%,這說明了體詞比謂詞更容易被支配,人們在語言生活中表達較多的是動作行為與客觀事物、對象的關(guān)系,以及人們對客觀事物、對象的觀點、看法等;表達較少的是動作行為與動作行為的支配關(guān)系。其中,體詞性賓語中連續(xù)型名賓的數(shù)量最多,占了體賓總數(shù)的94%;其次是離合型名賓,占體賓總數(shù)的3%,如圖1所示。謂詞性賓語中連續(xù)型動詞賓語的數(shù)量最多,占了謂賓總數(shù)的87.6%,其次是連續(xù)型形容詞賓語,占謂賓總數(shù)的10.6%,如圖2所示。體賓與謂賓相比,離合型賓語更多,即“動+體賓”中更容易添加“著、了、過”等詞語,以表示動作發(fā)生的時態(tài),而“動+謂賓”中,動詞大多數(shù)是心理動詞,時態(tài)性較弱,更傾向于緊鄰搭配。

        圖1 體賓各子類分布情況

        圖2 謂賓各子類分布情況

        3.4 動賓搭配知識庫

        本文將抽取到的300萬對動賓搭配按層級入庫,即先按“動+體賓”“動+謂賓”分類,再將每一類下每個動詞的所有賓語按頻次高低排序, 具體如圖3所示?!癡N”表示“動+體賓”,“VP”表示“動+謂賓”。且本文抽取的動賓搭配已建立檢索服務,可以查詢某一個動詞的全部賓語,也可以查詢兩個詞語是否是動賓搭配。

        圖3 動賓搭配庫存儲形式

        4 結(jié)語

        本文主要從動賓搭配知識體系的構(gòu)建、檢索式構(gòu)成及書寫、動賓搭配抽取及消歧等方面展開工作,共制定檢索式140個,抽取到動賓搭配300萬對,構(gòu)建了一個規(guī)模較大、質(zhì)量較高的動賓搭配知識庫。該知識庫的構(gòu)建不僅為中文信息處理的子任務提供了大規(guī)模、高質(zhì)量的基礎知識,提高了計算機分析語言的能力,同時也為語言研究和語言教學提供了大量真實可靠的實例。此外,在構(gòu)建動賓搭配知識庫的過程中發(fā)現(xiàn),盡管動賓搭配的知識體系較為完善,但漢語缺乏形態(tài)變化,很多語言學知識人們能夠理解并很好地運用,但卻無法將其形式化,轉(zhuǎn)化為計算機可利用的知識。因此,本文的工作仍有一定的不足之處。首先,本文利用更多的是詞性信息、動賓搭配的韻律條件及少量的動詞子類信息,只完成了簡單動賓搭配的抽取,對層層嵌套遞歸性的動賓抽取尚無能為力。其次,檢索式自身的表達能力也相對有限,在抽取動賓搭配知識時,只能體現(xiàn)有限的上下文,且語料庫自身存在著分詞和詞性標注的錯誤,造成后期消歧壓力較大。最后,由于人力物力的限制,本文只對抽取結(jié)果進行了初步消歧,檢索結(jié)果仍有進一步消歧的需要。

        目前,本文初步完成了動賓搭配知識庫的構(gòu)建,今后還可以從以下幾個方面進一步完善和改進。第一,采用計算的方法對抽取結(jié)果再次進行消歧,提高動賓搭配知識庫的質(zhì)量;第二,利用已有知識庫建立深度學習模型,自動抽取本文目前尚未覆蓋的其他動賓搭配類型,不斷完善動賓搭配知識庫;第三,探索將動賓搭配方面更多語言知識形式化的方法,降低知識抽取的難度。

        本文資源將逐步以合宜方式在學術(shù)界和工業(yè)界共享。

        猜你喜歡
        動賓知識庫賓語
        連詞that引導的賓語從句
        賓語從句及練習
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設計中的應用
        試論對外漢語教學中動賓式離合詞的教學
        新一代(2018年20期)2018-03-13 12:24:20
        中考試題中的賓語從句
        高速公路信息系統(tǒng)維護知識庫的建立和應用
        基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        “救火”帶標記動賓對象式結(jié)構(gòu)語用認知分析
        動賓離合詞及其構(gòu)成的語式
        動賓結(jié)構(gòu)中動詞虛化的認知闡釋
        色婷婷亚洲十月十月色天| 麻豆国产成人精品午夜视频| 亚洲一区二区观看播放| 色窝窝亚洲av网在线观看| 337p粉嫩日本欧洲亚洲大胆| 97日日碰曰曰摸日日澡| 国产精品亚洲欧美大片在线看 | 日本免费精品一区二区三区视频| 国产午夜免费啪视频观看| 亚洲成人av一二三四区| 国产综合精品一区二区三区| 国产av麻豆mag剧集| 热re99久久精品国产99热| 国产最新网站| 亚洲va精品va国产va| 亚洲一区久久蜜臀av| 精品亚洲国产成人蜜臀av| 在熟睡夫面前侵犯我在线播放| xxxx国产视频| 免费啪啪av人妻一区二区| 亚洲熟少妇一区二区三区| 国产农村妇女精品一区| 亚洲日韩在线中文字幕综合| 欧美与黑人午夜性猛交久久久| 国产精品偷伦视频免费手机播放| 国内精品福利在线视频| 国内专区一区二区三区| 新久久国产色av免费看| 曰韩无码av一区二区免费| 无遮无挡爽爽免费视频| 91视频免费国产成人| 精品国产91久久久久久久a| 中文字幕 在线一区二区| 亚洲精品岛国av一区二区| 日本欧美大码a在线观看| 人人添人人澡人人澡人人人人| 精品无码久久久九九九AV| 亚洲综合色婷婷七月丁香| 一卡二卡国产av熟女| 国产一级内射视频在线观看| 国产午夜福利在线观看红一片|