劉雯旻,張曉如
(江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003)
一種基于規(guī)則和統(tǒng)計(jì)的連動(dòng)句識(shí)別方法
劉雯旻,張曉如
(江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003)
連動(dòng)句是具備連動(dòng)結(jié)構(gòu)的句子,現(xiàn)代漢語(yǔ)中十分常見且使用頻繁。連動(dòng)句語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)系都很復(fù)雜,對(duì)此文中針對(duì)連動(dòng)句的識(shí)別問(wèn)題進(jìn)行了研究,提出一種集規(guī)則方法與統(tǒng)計(jì)方法于一體的漢語(yǔ)連動(dòng)句識(shí)別方法,文中提出的方法首先設(shè)計(jì)構(gòu)建基于連動(dòng)句形式特征和語(yǔ)義角色的基礎(chǔ)規(guī)則庫(kù)和被動(dòng)名詞庫(kù),然后使用互信息計(jì)算謂語(yǔ)動(dòng)詞與主語(yǔ)候選項(xiàng)的搭配強(qiáng)度,最后達(dá)到識(shí)別連動(dòng)句的目的。實(shí)驗(yàn)結(jié)果準(zhǔn)確率達(dá)到79.42%,表明本文方法可以較為有效地識(shí)別中文文本中的連動(dòng)句。
連動(dòng)句;自動(dòng)識(shí)別;互信息;中文信息處理
人工智能始于20世紀(jì)50年代,人工智能研究的一個(gè)重要組成就是自然語(yǔ)言理解。由于自然語(yǔ)言理解具備約定、多值、縮略、隱含、隱喻等特點(diǎn),要使計(jì)算機(jī)能夠自主理解人類的自然語(yǔ)言以實(shí)現(xiàn)人機(jī)的無(wú)障礙溝通是十分困難的[1]。事件本體[2]是將人類理解自然語(yǔ)言的能力以計(jì)算機(jī)可以處理和使用的方式表達(dá)知識(shí)的方法,事件本體以事件作為知識(shí)表示單元,更加符合人類認(rèn)識(shí)世界的規(guī)律。Rachel Nordlinger將事件定義為:“謂詞、謂詞發(fā)生的時(shí)間段、謂詞發(fā)生的情況或者條件”[3]。連動(dòng)句包含多個(gè)謂詞,蘊(yùn)含了十分豐富的知識(shí),(因此)獲取連動(dòng)句的方法將在自然語(yǔ)言理解、常識(shí)知識(shí)獲取、智能網(wǎng)頁(yè)等人工智能應(yīng)用領(lǐng)域中發(fā)揮重要的作用[4]。因此有效的連動(dòng)句識(shí)別方法具有重要的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值。
許有勝基于連動(dòng)句的形式特征和詞語(yǔ)的語(yǔ)義角色兩個(gè)方面設(shè)計(jì)構(gòu)建了一些規(guī)則,實(shí)現(xiàn)了自動(dòng)識(shí)別和分析連動(dòng)句的研究目標(biāo)[5]。然而基于規(guī)則的連動(dòng)結(jié)構(gòu)識(shí)別存在以下問(wèn)題:①歧義問(wèn)題,規(guī)則方法無(wú)法對(duì)多個(gè)歧義結(jié)構(gòu)進(jìn)行辨別,尤其是兼語(yǔ)結(jié)構(gòu)和連動(dòng)結(jié)構(gòu);②魯棒性,規(guī)則無(wú)法有效識(shí)別規(guī)則沒(méi)有覆蓋到的句子,實(shí)踐規(guī)則方法很難;③規(guī)則沖突檢測(cè),當(dāng)規(guī)則數(shù)量較多時(shí),規(guī)則間存在相互沖突,從而影響識(shí)別效果。
本文提出一種基于規(guī)則和統(tǒng)計(jì)的連動(dòng)句識(shí)別方法以提高連動(dòng)句識(shí)別效率,具體步驟如下:①對(duì)大規(guī)模語(yǔ)料中的所有句子進(jìn)行預(yù)處理,將滿足預(yù)處理?xiàng)l件的句子放入連動(dòng)句池內(nèi)等待進(jìn)一步篩選。②整理語(yǔ)言學(xué)界連動(dòng)句的相關(guān)研究成果,歸納提取連動(dòng)句形式上的特點(diǎn)總結(jié)出提取規(guī)則構(gòu)成基礎(chǔ)規(guī)則庫(kù)。基礎(chǔ)規(guī)則庫(kù)包括提取規(guī)則和排除規(guī)則,提取規(guī)則就是根據(jù)連動(dòng)句的特征總結(jié)歸納的規(guī)則,排除規(guī)則就是根據(jù)容易與連動(dòng)句混淆的句子的特征總結(jié)歸納的規(guī)則。③利用基礎(chǔ)識(shí)別規(guī)則和被動(dòng)名詞詞典進(jìn)行連動(dòng)句的初步識(shí)別。④利用互信息[6]進(jìn)一步判定句子是否是連動(dòng)句,最后完成連動(dòng)句的自動(dòng)識(shí)別。
連動(dòng)句在現(xiàn)代漢語(yǔ)中大量存在,是一種常見的漢語(yǔ)句子,連動(dòng)句的識(shí)別一直是中文信息處理研究的熱點(diǎn)之一。自1952年李榮先生第一次提出“連動(dòng)式”[7]的概念,連動(dòng)句的存廢、名稱和定義一直都存在爭(zhēng)議。楊寄洲先生在《漢語(yǔ)教程》中對(duì)連動(dòng)句的定義是:謂語(yǔ)有兩個(gè)或兩個(gè)以上的動(dòng)詞或動(dòng)詞詞組組成的句子叫連動(dòng)句[4],連動(dòng)句側(cè)重表達(dá)連動(dòng)結(jié)構(gòu)的目的或方式。朱德熙先生在《語(yǔ)法講義》中對(duì)“連謂結(jié)構(gòu)”做出如下描述:連謂結(jié)構(gòu)是謂詞或謂語(yǔ)結(jié)構(gòu)連用的格式,謂語(yǔ)結(jié)構(gòu)的前一個(gè)直接成分可以是單個(gè)的動(dòng)詞也可以是動(dòng)詞結(jié)構(gòu),后一個(gè)直接成分可以是動(dòng)詞或動(dòng)詞結(jié)構(gòu)也可以是形容詞[8]。綜合各家之言孫曉華將連動(dòng)句的定義總結(jié)歸納為:連動(dòng)句中間沒(méi)有關(guān)聯(lián)詞、沒(méi)有語(yǔ)音停頓、沒(méi)有表示停頓的標(biāo)點(diǎn)符號(hào),有兩個(gè)或兩個(gè)以上動(dòng)詞作同一個(gè)主語(yǔ)的謂語(yǔ)且這兩個(gè)或兩個(gè)以上動(dòng)詞具備一定的關(guān)系以表示兩個(gè)動(dòng)作連續(xù)進(jìn)行或相伴進(jìn)行[9]。
基于以上認(rèn)識(shí)我們發(fā)現(xiàn)所謂連動(dòng)句是指句子中出現(xiàn)連續(xù)兩個(gè)或兩個(gè)以上動(dòng)詞,且這些動(dòng)詞具有同一主語(yǔ),但每個(gè)動(dòng)詞的賓語(yǔ)均不是主語(yǔ)表示的對(duì)象。我們將連動(dòng)句中的多個(gè)動(dòng)詞稱為連動(dòng)詞,連動(dòng)句中出現(xiàn)的動(dòng)詞的數(shù)目稱為連動(dòng)詞的數(shù)目,一般地如果連動(dòng)句S中出現(xiàn)k個(gè)動(dòng)詞則稱S是k-元(目)連動(dòng)句。例如:我開門進(jìn)房間拿蒼蠅拍打蒼蠅。該句包含了 4 個(gè)動(dòng)詞:“開”、“進(jìn)”、“拿”、“打”,4 個(gè)動(dòng)詞的主語(yǔ)都是“我”,而它們的賓語(yǔ)各不相同,分別為“門”、“房間”、“蒼蠅拍”、“蒼蠅”。不僅如此,例句中的四個(gè)動(dòng)作連續(xù)進(jìn)行,故該句為4-元(目)連動(dòng)句。連動(dòng)句的主要特征之一是動(dòng)詞的主語(yǔ)是一致的,因而通常情況下,一個(gè)多元連動(dòng)句可以分解成若干個(gè)二元連動(dòng)句進(jìn)行表達(dá),例如上述例句可以表達(dá)為3個(gè)2-元連動(dòng)句:“我開門進(jìn)房間”、“我進(jìn)房間拿蒼蠅拍”、“我拿蒼蠅拍打蒼蠅”。因此,不失一般性,本文僅考慮針對(duì)2-元連動(dòng)句,提出識(shí)別2-元連動(dòng)句的方法。
將規(guī)則和統(tǒng)計(jì)方法結(jié)合的分析方法是自然語(yǔ)言處理領(lǐng)域常用的信息處理方法[11],本文將連動(dòng)句的規(guī)則特征和統(tǒng)計(jì)特征結(jié)合起來(lái),有利于提高識(shí)別連動(dòng)句的準(zhǔn)確度。加入識(shí)別規(guī)則可以降低方法對(duì)大規(guī)模語(yǔ)料庫(kù)的以來(lái),通過(guò)統(tǒng)計(jì)概率的計(jì)算可以大幅度降低規(guī)則方法處理的復(fù)雜度,彌補(bǔ)規(guī)則不完備的缺點(diǎn)提高識(shí)別準(zhǔn)確率。
首先,由于分詞會(huì)過(guò)度切分和錯(cuò)誤標(biāo)注的問(wèn)題很難解決,這里我們用啟發(fā)式規(guī)則,解決較為突出的問(wèn)題。基礎(chǔ)規(guī)則庫(kù)包括提取規(guī)則和排除規(guī)則,提取規(guī)則就是根據(jù)連動(dòng)句的特征總結(jié)歸納的規(guī)則,有短語(yǔ)處理規(guī)則和句法結(jié)構(gòu)和語(yǔ)義分析規(guī)則,排除規(guī)則就是根據(jù)容易與連動(dòng)句混淆的句子的特征總結(jié)歸納的規(guī)則,易與連動(dòng)句混淆的句子有兼語(yǔ)句、復(fù)句、緊縮句[12-14]等。具體規(guī)則如下。
本文需要通過(guò)一系列規(guī)則保證句子保持理想的句法結(jié)構(gòu),因此部分被切分的詞語(yǔ)要進(jìn)行整合。
規(guī)則1連續(xù)出現(xiàn)的多個(gè)名詞概念合并成一個(gè)名詞概念。
連續(xù)出現(xiàn)的多個(gè)名詞往往是一個(gè)整體,應(yīng)當(dāng)合并為一個(gè)名詞。如“李明/n代替/v外聯(lián)部/n部長(zhǎng)/n發(fā)言/v”中將“外聯(lián)部”作為一個(gè)概念。
規(guī)則2連續(xù)出現(xiàn)的多個(gè)單字形容詞合并為一個(gè)形容詞。
連續(xù)出現(xiàn)的多個(gè)單字形容詞往往是一個(gè)整體,應(yīng)當(dāng)合并成一個(gè)形容詞。例如,可將“鮮艷/a靚麗/a的/u裙子/n”合并為“鮮艷靚麗的/a裙子/n”。
規(guī)則3連續(xù)出現(xiàn)的動(dòng)詞和助詞的合并為一個(gè)形容詞。
連續(xù)出現(xiàn)的動(dòng)詞和助詞的合并為一個(gè)形容詞。如:“奔跑/v的/u”合并為“奔跑的/a”。
規(guī)則4連續(xù)多個(gè)用并列關(guān)系連詞或選擇關(guān)系連詞連接的名詞或形容詞及連詞合并為一個(gè)名詞或形容詞。
連續(xù)多個(gè)用并列關(guān)系連詞或選擇關(guān)系連詞連接的名詞或形容詞及連詞合并為一個(gè)名詞或形容詞。如“色彩/n 和/cc 情調(diào)/n”合并為“色彩和情調(diào)/n”;“開心的/a和/cc開朗的/a”合并為“開心的和開朗的/a”
規(guī)則5名詞短語(yǔ)識(shí)別規(guī)則集合
規(guī)則5-1連續(xù)出現(xiàn)的形容詞和名詞合并為一個(gè)名詞。如:“好看的/a裙子/n”合并為“好看的裙子/n”。
規(guī)則5-2連續(xù)出現(xiàn)數(shù)詞、量詞、名詞合并為一個(gè)名詞。如:“五/m條/q魚/n”合并為“五條魚/n”。
規(guī)則5-3句首連續(xù)出現(xiàn)的動(dòng)詞和名詞合并為一個(gè)名詞。如:“促銷/v活動(dòng)/n”合并為“促銷活動(dòng)/n”。
規(guī)則5-4句首連續(xù)出現(xiàn)的動(dòng)詞、助詞和名詞合并為一個(gè)名詞。如:“奔跑/v的/u獅子/n”合并為“奔跑的獅子/n”。
規(guī)則6包含兩個(gè)及以上動(dòng)詞的句子可能是連動(dòng)句。
連動(dòng)句可表示為:<主語(yǔ)n1><謂語(yǔ)v1(動(dòng)詞1)>[<賓語(yǔ) n2>]<謂語(yǔ) v2(動(dòng)詞 2)>[<賓語(yǔ) n3>],具備兩個(gè)動(dòng)詞是一個(gè)基本條件。如:“我/rr去/vf上海/ns”只有一個(gè)動(dòng)詞不滿足規(guī)則該句一定不是連動(dòng)句,而“我/rr騎車/vi去/vf上海/ns”滿足規(guī)則包含兩個(gè)動(dòng)詞則該句可能是連動(dòng)句。
現(xiàn)代漢語(yǔ)中有許多句式易與連動(dòng)句混淆,例如:兼語(yǔ)句、復(fù)句、緊縮句等。本文提出基于易混淆句式的排除規(guī)則來(lái)確保連動(dòng)句識(shí)別的準(zhǔn)確率。
規(guī)則7不包含關(guān)聯(lián)詞的句子可能是連動(dòng)句
連動(dòng)句中不可包含表示邏輯關(guān)系的關(guān)聯(lián)詞語(yǔ),包含關(guān)聯(lián)詞的句子一般情況下是緊縮句。如:“他/rr一/d坐/v下來(lái)/vf就/d看/v書/n”包含兩個(gè)動(dòng)詞但同時(shí)包含關(guān)聯(lián)詞“一…就…”因此該句不是連動(dòng)句。
規(guī)則8第一個(gè)謂語(yǔ)動(dòng)詞的賓語(yǔ)是被動(dòng)名詞的句子可能是連動(dòng)句
我們將不能主動(dòng)發(fā)出動(dòng)作的名詞定義為被動(dòng)名詞,一般被動(dòng)名詞不能做主謂結(jié)構(gòu)中的主語(yǔ)。如:我用石頭砸核桃。該句中石頭不能主動(dòng)發(fā)出“砸”的動(dòng)作,因此“砸”的主語(yǔ)是我而不是石頭,該句是連動(dòng)句。呂叔湘把名詞分為4種:1)人物;2)物件;3)物質(zhì);4)無(wú)形[15],其中只有“人物”可以主動(dòng)發(fā)出動(dòng)作,本文以“物件”、“物質(zhì)”和“無(wú)形”為基礎(chǔ)類擴(kuò)充被動(dòng)名詞庫(kù)。這里我們結(jié)合潘正高識(shí)別中文命名實(shí)體的方法[16]手工整理了包含一萬(wàn)個(gè)被動(dòng)名詞的詞庫(kù)。
規(guī)則9兩個(gè)動(dòng)詞之間沒(méi)有否定副詞的句子可能是連動(dòng)句。
連動(dòng)句不把“不”、“或”和“沒(méi)有”等否定副詞放在第二個(gè)謂語(yǔ)動(dòng)詞前面,如果否定形式的句子中把否定副詞放在第二個(gè)動(dòng)詞前面即可判定為非連動(dòng)句。如:我不騎車去上學(xué)。否則副詞“不”在第一個(gè)動(dòng)詞前面,且不再兩個(gè)動(dòng)詞之間因此該句可能是連動(dòng)句。
連動(dòng)句自動(dòng)識(shí)別中的識(shí)別的重要條件之一是第一個(gè)動(dòng)詞和第二個(gè)動(dòng)詞的主語(yǔ)是一致的。因此,兩個(gè)動(dòng)詞與前面的主語(yǔ)候選項(xiàng)的搭配強(qiáng)度的計(jì)算是本文方法的重點(diǎn)之一。主謂搭配是詞語(yǔ)搭配之一,有兩個(gè)成分組成,前一個(gè)是主語(yǔ)后一個(gè)是謂語(yǔ)。
本體語(yǔ)言學(xué)主要是從兩個(gè)謂語(yǔ)動(dòng)詞的主語(yǔ)異同及與謂語(yǔ)動(dòng)詞之間的關(guān)系差異這兩種方法來(lái)進(jìn)行區(qū)別。前一種方法對(duì)于我們來(lái)說(shuō)非常有借鑒意義,我們可以通過(guò)分別計(jì)算、主要是與前面主語(yǔ)候選項(xiàng)的搭配強(qiáng)度來(lái)判定和的主語(yǔ)是否相同。本文采互信息[17-18]作為評(píng)價(jià)v1、v2與前面主語(yǔ)候選項(xiàng)的搭配強(qiáng)度,互信息公式如下:
其中v是v1或v2,n是v1或v2前面的主語(yǔ)候選項(xiàng),p(n,v)是v1、v2與前面主語(yǔ)候選項(xiàng)出現(xiàn)概率,p(n)和p(v)是其各自出現(xiàn)的概率。當(dāng)P(n;v)=0時(shí),n和v獨(dú)立即n和v不能構(gòu)成搭配,當(dāng)P(n;v)>0時(shí),n和v可以構(gòu)成搭配,且P(n;v)值越大,n和v的搭配強(qiáng)度越大,本文認(rèn)為當(dāng)P(n;v)>∝時(shí)n和v可以構(gòu)成搭配。
根據(jù)以上分析,本文連動(dòng)句的識(shí)別方法的完整步驟詳細(xì)描述如表1所示。
根據(jù)以上具體識(shí)別步驟,給出1個(gè)例子的分析過(guò)程。例句:“媽媽套住母鹿,男孩擠了一杯鹿奶大口地喝了下去。”,分析結(jié)果如下:
Step1:將例句切分為2個(gè)獨(dú)立小句:“媽媽套住母鹿”“男孩擠了一杯鹿奶大口地喝了下去”。
Step2:對(duì)句子進(jìn)行分詞和詞性標(biāo)注,結(jié)果如下:“媽媽/n套住/vi母/ng鹿/n”、“男孩/n擠/v了/ule一/m杯/q鹿/n奶/n大/a口/n地/ude2喝/vg了/ule下去/vf”。
表1 連動(dòng)句識(shí)別步驟
Step3:2個(gè)句子滿足短語(yǔ)處理規(guī)則,而第一個(gè)句子包含一個(gè)動(dòng)詞不滿足句法規(guī)則,第二個(gè)句子包含2個(gè)動(dòng)詞即滿足句法規(guī)則。
Step4:第二個(gè)句子中沒(méi)有關(guān)聯(lián)詞和否定副詞且“鹿奶”是被動(dòng)名詞因此該句滿足排除規(guī)則。
Step5:“男孩/n擠/v了/ule一/m杯/q鹿/n奶/n大/a口/n地/ude2喝/vg了/ule下去/vf”中,P(男孩;擠) >∝ 、P(男孩;喝) >∝且P(鹿奶;喝) <0所以該句的兩個(gè)謂語(yǔ)動(dòng)詞“擠”和“喝”主語(yǔ)一致。得出結(jié)論,句子“媽媽套住母鹿”不是連動(dòng)句,“男孩擠了一杯鹿奶大口地喝了下去”是連動(dòng)句。
指標(biāo)采用準(zhǔn)確率、召回率和平均值,具體定義如下:
實(shí)驗(yàn)中首先使用ICTCLAS分詞系統(tǒng)對(duì)測(cè)試文本進(jìn)行分詞和詞性標(biāo)注,預(yù)處理后得到2萬(wàn)個(gè)描述性語(yǔ)句,經(jīng)人工標(biāo)注連動(dòng)句有4 051條。經(jīng)連動(dòng)句自動(dòng)識(shí)別步驟,本文通過(guò)提取規(guī)則庫(kù)和識(shí)別規(guī)則庫(kù)的篩選抽取出5 244條句子,經(jīng)人工驗(yàn)證其中有3 200條句子是連動(dòng)句,通過(guò)判斷這些句子中兩個(gè)謂語(yǔ)動(dòng)詞的主語(yǔ)一致判定5 244條句子中有3 581條連動(dòng)句,經(jīng)人工驗(yàn)證其中有2 703條句子是連動(dòng)句。實(shí)驗(yàn)各指數(shù)如表2所示。
表2 本實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
通過(guò)分析實(shí)驗(yàn)中誤判、漏判的句子,我們發(fā)現(xiàn)本文所提的方法存在以下幾個(gè)缺陷:
1)分詞錯(cuò)誤:分詞程序在錯(cuò)綜復(fù)雜的文本中還是會(huì)造成很多類型的錯(cuò)誤,間接造成抽取結(jié)果錯(cuò)誤。雖然我們用規(guī)則進(jìn)行部分規(guī)避,但是還是不能完全覆蓋。例如“李明/r打算/v要/n競(jìng)選/v班長(zhǎng)/n”。這里就將“要”標(biāo)記成了一個(gè)名詞。
2)名詞短語(yǔ)的識(shí)別錯(cuò)誤:本文方法中雖然構(gòu)造了名詞短語(yǔ)的識(shí)別規(guī)則,但是規(guī)則仍不夠充分導(dǎo)致結(jié)果不盡如人意。例如“鐵路/n部門/n降低/v高鐵/n運(yùn)行/v速度/n”。例句中能識(shí)別“鐵路部門”這個(gè)名詞短語(yǔ),但是不能識(shí)別“運(yùn)行速度”這個(gè)名詞短語(yǔ),進(jìn)而會(huì)給實(shí)驗(yàn)結(jié)果帶來(lái)錯(cuò)誤。后續(xù)工作需要引入更好的名詞短語(yǔ)識(shí)別方法。
3)規(guī)則稀少。本文的方法提出多個(gè)規(guī)則但仍不全面,出現(xiàn)漏判情況。
本文介紹了一種基于規(guī)則和統(tǒng)計(jì)的連動(dòng)句識(shí)別方法,先對(duì)大規(guī)模語(yǔ)料中的所有句子進(jìn)行分句、分詞和詞性標(biāo)注的預(yù)處理,將滿足預(yù)處理?xiàng)l件的句子放入連動(dòng)句池內(nèi)等待進(jìn)一步篩選。然后歸納提取連動(dòng)句形式上的特點(diǎn)總結(jié)出提取規(guī)則構(gòu)成基礎(chǔ)規(guī)則庫(kù)?;A(chǔ)規(guī)則庫(kù)包括提取規(guī)則和排除規(guī)則,利用基礎(chǔ)識(shí)別規(guī)則和被動(dòng)名詞詞典進(jìn)行連動(dòng)句的初步識(shí)別。最后利用互信息進(jìn)一步判定句子是否是連動(dòng)句,完成連動(dòng)句的自動(dòng)識(shí)別。本文下一步的工作是進(jìn)一步提高連動(dòng)句的識(shí)別準(zhǔn)確率,將從以下幾個(gè)方面開展工作:
1)努力完善連動(dòng)句識(shí)別的規(guī)則系統(tǒng)。
2)擴(kuò)大可識(shí)別的連動(dòng)句的范圍,提出可以識(shí)別包含兩個(gè)以上謂語(yǔ)動(dòng)詞的連動(dòng)句的方法。
3)提高判定v1和v2的主語(yǔ)是否是同一個(gè)主語(yǔ)的準(zhǔn)確率,主語(yǔ)是否一致的判定方法是本文后續(xù)研究的最主要的任務(wù)之一。
[1]吳畏,趙川.基于語(yǔ)義的自然語(yǔ)言理解研究[J].數(shù)字通信,2014(4):32-34.
[2]仲兆滿,劉宗田,李存華.事件本體模型及事件類排序[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(2):234-240.
[3]張凱隆,莊艷,陳繼明,等.一種基于謂詞覆蓋技術(shù)的啟發(fā)式事件匹配算法[J].計(jì)算機(jī)應(yīng)用與軟件,2010(6):1-4,13.
[4]陳波,姬東鴻,呂晨.基于特征結(jié)構(gòu)的漢語(yǔ)連動(dòng)句語(yǔ)義標(biāo)注研究[J].中文信息學(xué)報(bào),2013(5):60-66,74.
[5]許有勝.連動(dòng)結(jié)構(gòu)的自動(dòng)識(shí)別和分析[J].巢湖學(xué)院學(xué)報(bào),2013(4):108-115,142.
[6]劉海峰,陳琦,張以皓.一種基于互信息的改進(jìn)文本特征選擇[J].計(jì)算機(jī)工程與應(yīng)用,2012(25):1-4,97.
[7]彭國(guó)珍,楊曉東,趙逸亞.國(guó)內(nèi)外連動(dòng)結(jié)構(gòu)研究綜述[J].當(dāng)代語(yǔ)言學(xué),2013(3):324-335,378.
[8]姚蘭.“事件”視野下現(xiàn)代漢語(yǔ)連動(dòng)句[J].青春歲月,2013(12):104-105.
[9]孫曉華.現(xiàn)代漢語(yǔ)連動(dòng)句及其習(xí)得研究[D].南京:南京師范大學(xué),2008.
[10]吳宏洲.分詞技術(shù)的研究與應(yīng)用——一種快速分詞的實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2015(6):1-5.
[11]昝紅英,張騰飛,張坤麗.規(guī)則與統(tǒng)計(jì)相結(jié)合的介詞用法自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(6):2152-2157.
[12]張恒.動(dòng)結(jié)式、V得句和兼語(yǔ)句的比較[J].漢語(yǔ)學(xué)習(xí),2013(4):56-64.
[13]吳鋒文.基于關(guān)系標(biāo)記的漢語(yǔ)復(fù)句分類研究[J].漢語(yǔ)學(xué)報(bào),2011(3):63-73,96.
[14]皇甫素飛.緊縮構(gòu)式的界定及其句法結(jié)構(gòu)分析[J].浙江工商大學(xué)學(xué)報(bào),2014(5):18-25.
[15]王華.現(xiàn)代漢語(yǔ)名詞語(yǔ)義分類體系研究[J].時(shí)代文學(xué)(上半月),2012(4):197-198.
[16]潘正高.基于規(guī)則和統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別研究[J].情報(bào)科學(xué),2012(5):708-712,786.
[17]徐峻嶺,周毓明,陳林等.基于互信息的無(wú)監(jiān)督特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2012(2):372-382.
[18]趙海峰,陸明,卜令斌等.基于特征點(diǎn)Rényi互信息的醫(yī)學(xué)圖像配準(zhǔn)[J].計(jì)算機(jī)學(xué)報(bào),2015(6):1212-1221.
A method based on rules and statistic for serial?verb sentence recognition
LIU Wen?ming,ZHANG Xiao?ru
(Jiangsu University of Science and Technology,School of Computer Science and Engineering,Zhenjiang212003,China)
Serial?verbsentence is a common sentence patterns in Chinese,whichis a special sentence with a serial verb construction.Serial?verbsentence is so complex,in view of the above problem thispaper studies the recognition of Serial?verbsentences in large corpora,proposes a method which combines rule methods and statistical methods to recognize serial?verbsentence.The proposed method constructs rules based on formal features and semantic roles of serial?verbsentence,and passive nouns library,calculates collocation between predicate verbs and candidate subject with mutual information.Experimental results show that the proposed method can more effectively recognize serial?verbsentence.
serial?verbsentence;automaticrecognition;mutualinformation;Chineseinformationprocessing
TN02
A
1674-6236(2017)22-0018-05
2016-10-08稿件編號(hào):201610016
江蘇科技大學(xué)海洋裝備研究院自培育項(xiàng)目(HZ2016004)
劉雯旻(1983—),女,江蘇阜寧人,碩士研究生。研究方向:智能信息處理。