袁 里 馳
(江西財經(jīng)大學(xué) 麥廬園校區(qū)信息管理學(xué)院,南昌 330013)E-mail:yuanlichi@sohu.com
句子語法結(jié)構(gòu)分析屬于自然語言處理根本技術(shù)問題之一.句子語法結(jié)構(gòu)分析依據(jù)一定的語法規(guī)則,自動推測句子的語法組成結(jié)構(gòu),即句子所具有的句法成分和句法成分相互聯(lián)系.句子語法結(jié)構(gòu)分析方法主要有兩種:統(tǒng)計方法[1-6]及規(guī)則方法.句子語法結(jié)構(gòu)分析統(tǒng)計方法由給定的語法規(guī)則體系決定語法結(jié)構(gòu)分析樹的表達形式.依存語法及短語結(jié)構(gòu)語法是當前廣泛應(yīng)用的句子語法結(jié)構(gòu)分析方法.
短語結(jié)構(gòu)句法分析通?;谏舷挛臒o關(guān)概率語法.在以上下文無關(guān)語法為基礎(chǔ)的短語結(jié)構(gòu)分析方法先前研究中,語法規(guī)則由專家標記的語料庫中抽取,其概率由相對頻率決定.此種模型實現(xiàn)簡便,然而此類模型并不能獲得好的實驗效果,獨立性假定在自然語言中不總是成立.
依存語法[7-10]具有形式簡潔、便于應(yīng)用、易于標記等優(yōu)點,漸漸引起注意.中文依存句法分析當前研究雖然獲得了可喜的進步,然而其效率及準確性依然難以達到應(yīng)用要求.Collins[11]等在語法中引入詞語依存關(guān)系,在上下文無關(guān)語法的基礎(chǔ)提出了一種詞匯化的句法分析方法,推進了句子語法結(jié)構(gòu)分析理論的快速發(fā)展.其重要思路即是將短語中心詞及詞匯信息融合上下文無關(guān)語法,語義信息的融合改進了句法分析的消歧效果,但卻無法規(guī)避地產(chǎn)生了嚴峻的數(shù)據(jù)稀疏缺陷.
句法分析結(jié)合語義內(nèi)容分析和句法形式分析.越深刻、越完整對句子語法結(jié)構(gòu)的語義內(nèi)容進行分析,就越能夠合理科學(xué)地解釋句法形式上的種種情況.詞匯化句子語法結(jié)構(gòu)分析的現(xiàn)有方法如頭驅(qū)動句法分析方法[11]、依存語法只利用了詞語語義依存聯(lián)系,而語義匹配、語義類這些語義知識對語義計算和句子語法結(jié)構(gòu)分析是非常有用的.
語義角色標記[12-15]作為淺層語義分析,是自然語言處理的研究熱點,其任務(wù)是在句子層面實現(xiàn)淺顯的語義關(guān)系分析,即標記給定句子中的謂詞及其所有的語義成分,并標記對應(yīng)的語義類別,如受事、施事、附加語及工具等.
句法分析當前理論不能準確描繪中文的主要特點,使得中文語義分析和語法分析的性能相比英文有一定的差距.中文配價語法[16,17]能準確描繪句子的語義構(gòu)成及語法結(jié)構(gòu).針對當前句法分析方法具有的缺陷,本文進而提出了一種融合語義信息的句子語法結(jié)構(gòu)分析統(tǒng)計模型,從3個方面提高模型的系統(tǒng)性能:首先融合配價信息進行語義角色標記及句子語法結(jié)構(gòu)分析,并將條件獨立性假定替換了頭驅(qū)動句子語法結(jié)構(gòu)分析方法中的獨立性假定.條件獨立性假定比獨立性假定更相符語言實際,因而本文的句子語法結(jié)構(gòu)分析方法更相符語言現(xiàn)象.其次提出一種語義角色標記與句子語法結(jié)構(gòu)分析的聯(lián)合學(xué)習(xí)方法,同時提高兩者性能.最后給出了基于語義類的句子語法結(jié)構(gòu)分析統(tǒng)計模型,解決引入詞匯信息所產(chǎn)生的稀疏數(shù)據(jù)問題.
論文后續(xù)內(nèi)容的安排如下:第二部分介紹融合配價信息的語義角色標記;第三節(jié)提出了一種語義角色標記與語法結(jié)構(gòu)分析并行學(xué)習(xí)方法;第四部分給出模型的試驗結(jié)果及分析;第五部分是總結(jié).
語義角色標記(SRL)[12-15]作為淺層語義分析,是自然語言處理的研究熱點,其任務(wù)是在句子層面實現(xiàn)淺顯的語義關(guān)系分析,即標記給定句子中的謂詞及其所有的語義成分,并標記對應(yīng)的語義類別,包含附屬語義角色(如時間、原因、地點、方式等)及核心語義角色(如受事者、施事者等).依據(jù)不一樣的謂詞種類,SRL包含名詞性謂詞SRL及動詞性謂詞SRL.語義角色標記在自動問答、自動文摘、信息抽取、機器翻譯、信息檢索等方面已普遍應(yīng)用.語義角色標記主要基于統(tǒng)計方法,包含基于樹核函數(shù)的方法、基于特征向量的方法.
伴隨格語法、配價語法的提出,語言學(xué)專家開始重視語義角色問題,并運用配價語法等理論研究語義角色,提出了一些語義角色標記新方法.當前,語義角色標記大多利用NomBank、PropBank語料庫及相應(yīng)的標記體系進行研究.
圖1 動詞性謂詞“觀察”及其語義角色Fig.1 Verbal predicate“觀察”and its semantic arguments
本文基于PropBank標記體系,利用配價理論補充了ArgM-Mat、ArgM-Tool兩種附加角色,相應(yīng)代表材料、工具,且將介詞附屬名詞標記為ArgM-NMat角色、ArgM-Tool角色.如句子“天文學(xué)家用望遠鏡觀察天空”[15]、“工廠用大米生產(chǎn)白酒”[15]在改進后的PropBank體系下的語義標記相應(yīng)為圖1、圖2.
圖2 動詞性謂詞“生產(chǎn)”及其語義角色Fig.2 Verbal predicate“生產(chǎn)”and its semantic arguments
依據(jù)PropBank語義角色標記體系,句子“王冕七歲上死了父親”的一種可能的語義角色標記結(jié)果見圖3.
圖3 句子“王冕七歲上死了父親”的一種語義角色標記[15]Fig.3 A semantic role labeling of sentence“王冕七歲上死了父親” [15]
在配價語法中,領(lǐng)主屬賓句指“王冕七歲上死了父親”這種句子[15].在 “王冕七歲上死了父親”[15]句子中,一價詞有“父親”、“死了”,零價詞有“王冕”,而時間副詞“七歲上”說明“誰七歲”并且修飾動詞“死了”.有了這些詞語的配價信息,就可以比較準確地對語義角色標記結(jié)果進行改進.改進后的語義角色標記結(jié)果見圖4.
根據(jù)語義角色標記圖可以進一步知道詞語“王冕”、 “死了”、“父親”之間的配價關(guān)系如下:“死了” 支配“父親”,“父親” 支配“王冕”.
我們的基本思想是:在句子短語結(jié)構(gòu)分析樹和句子語義角色標注的基礎(chǔ)上,利用基于配價理論開發(fā)的語義詞典(在我們的模型中,主要利用的信息是詞典中有關(guān)“動詞、形容詞、名詞的配價數(shù)”方面的語義知識.)將動名詞性謂詞本身的配價數(shù)作為基準特征,對句子語義角色標記實施必要的修正,名詞只考慮與其內(nèi)部語義角色之間的配價關(guān)系.我們在研究中發(fā)現(xiàn),可利用統(tǒng)計方法從語義角色標記語料庫中計算動名詞的配價數(shù).由于中文配價理論的分歧和不完善,不但在引入詞語配價數(shù)等外部資源時有不一致性問題:在外部資源之間,如不同的配價詞典定義同一個詞的配價不同;并且使用統(tǒng)計方法從語義角色標記語料庫中計算的詞配價也可能不一致.(我們在研究中還發(fā)現(xiàn),動詞不但與其核心語義角色之間可能有配價關(guān)系,而且與其附加語義角色之間也可能有配價關(guān)系;名詞不但與其內(nèi)部語義角色之間可能有配價關(guān)系,而且與其外部語義角色之間也可能有配價關(guān)系.)使用統(tǒng)計方法從語義角色標記語料庫中計算詞配價將是我們下一步的研究課題.
圖4 修正后的句子“王冕七歲上死了父親”的語義角色標記Fig.4 Correction semantic role labeling of sentence“王冕七歲上死了父親”
普通的語言處理工作(詞性標記、句子語法結(jié)構(gòu)分析、語義角色標記、信息抽取等)一般依照順序?qū)嵤?即后一個處理工作在前一個處理工作之后實施,比方語義角色標記一般在句子語法結(jié)構(gòu)分析之后實施.按順序進行處理并非唯一可取方案,并且通常來說有一些不足:前面處理的錯誤可能在后來處理中累積,乃至擴大,嚴重制約后續(xù)處理的性能;前面處理不能使用后續(xù)處理的有用信息,而一般來說前后處理密切相關(guān),后續(xù)處理信息有利于前面處理.因而,假如兩個或多個處理工作能夠聯(lián)合實施[18,19],處理工作可以互相使用信息,因而能夠互相受益.語義角色記、句子語法結(jié)構(gòu)分析的聯(lián)合進行就是一個成功的聯(lián)合學(xué)習(xí).本文的基本思路是:在句子語法結(jié)構(gòu)分析的進程中,當新的產(chǎn)生式p→c1,c2,…,cn形成時,實施配價結(jié)構(gòu)等語義信息分析和標記.并在產(chǎn)生式的概率計算中融入相關(guān)語義信息.
設(shè)P(h)表示句法結(jié)構(gòu)分析樹中當前中心詞h所依存的上層中心詞、當前中心詞的兄弟結(jié)點,其它符號的意義參照文獻[11].在本文的句子語法結(jié)構(gòu)分析模型中,語法規(guī)則形式如下:
P(ht,hw|P(h))-Lm(ltm,lwm)…L1(lt1,lw1) ·H(ht,hw|P(h))R1(rt1,rw1)…Rn(rtn,rwn)
(1)
形如公式(1)的文法規(guī)則的概率可近似為:
(2)
其中Lm+1和Rn+1分別為左右兩邊的停止符號;SLi(tLi,wLi)表示成份Li-2,…L1,Rm,…,R1,P(h)中與當前成份Li中心詞lwi存在語義聯(lián)系的成份組合;Δl(i-1),Δr(i-1)為距離函數(shù),補償結(jié)構(gòu)信息的缺失.公式(2)中的概率:
Pi(Li(lti,lwi)|Li-1(lti-1,lwi-1),
SLi(tLi,wLi),H(ht,hw),Δl(i-1))
可近似分解為下面三個概率:
Pi(Li|Li-1,H(ht,hw),Δl(i-1))
(3)
Pi(lwi|H(ht,hw),SLi(wLi))
(4)
Pi(lti|lwi)
(5)
的乘積.再假定H(ht,hw),SLi(wLi)關(guān)于lwi條件獨立有:
Pi(lwi|H(ht,hw),SLi(wLi))=
(6)
即為lwi,SLi(wLi)間的互信息,因而整個公式(6)概率意義十分明確,符合語言現(xiàn)象.可用同樣的方法分解概率Pi(Li|Li-1,H(ht,hw),Δl(i-1))為:
Pi(Li|Li-1,H(ht,hw),Δl(i-1))=
(7)
可以看到,上下文無關(guān)概率語法當前做出了與中英文語言實際不相符合的獨立性假定.在本文的句子語法結(jié)構(gòu)分析方法中,頭驅(qū)動句法分析方法中的獨立性假定被條件獨立性假定代替.利用修改和分解Collins方法的語法規(guī)則,在句子語法結(jié)構(gòu)分析統(tǒng)計模型融入語義信息,改進句子語法結(jié)構(gòu)分析的結(jié)果.
詞類語言模型替換詞語言模型,能夠克服數(shù)據(jù)稀疏缺陷.令C(w)代表w所在的語義類[24],則公式(6)可近似為:
Pi(lwi|H(ht,hw),SLi(wLi))≈
·Pi(lwi|C(lw)i)
(8)
其中0<λw<1為平滑參數(shù).
句法分析實驗語料來自漢語PropBank2.0、NomBank1.0.依據(jù)Xue[14]的試驗語料劃分,平衡訓(xùn)練語料、測試語料及開發(fā)語料中各種來源 分別取漢語NomBank1.0、PropBank2.0中的各648個文件共1296個文件用作訓(xùn)練語料,各40個文件共80個文件用作開發(fā)語料,各72個文件共144個文件用作測試語料.在句法結(jié)構(gòu)分析試驗中,語言模型的重要參數(shù)均可以利用極大似然法、平滑方法從訓(xùn)練語料中計算.
句法分析測試選擇綜合指標、召回率、準確率及交叉括號等4個常用評價指標.相關(guān)定義如下:
精確率(Precision)用來衡量句子語法結(jié)構(gòu)分析系統(tǒng)所有分析成份中正確的成份的比例.
召回率(Recall)用來衡量句法分析系統(tǒng)分析出的所有正確成份在實際成份中的比例.
綜合指標:F=(P×R×2)/(P+R).
交叉括號CB:給出了在一棵樹中與其他樹的成分邊界交叉的成分數(shù)目的平均數(shù).
試驗選取Daniel M.Bikel根據(jù)Collins方法完成的DBParser用作句法分析參照方法.Petrov[20]將自動發(fā)現(xiàn)隱藏的組塊子類算法運用于漢語樹庫,在分詞正確情況下,利用CTB5.0得到了該時期已知的漢語句法分析單方法的最好結(jié)果.Petrov方法、參照方法及改進方法的試驗數(shù)據(jù)如表1所示.
表1 句子語法結(jié)構(gòu)分析試驗數(shù)據(jù)Table 1 Experimental data of syntactic parsing
模型1(Model1)為融合配價信息的語義角色標記及句子語法結(jié)構(gòu)分析聯(lián)合學(xué)習(xí)模型.該模型由公式(1)-公式(7)計算,通過將條件獨立性假定替換頭驅(qū)動句子語法結(jié)構(gòu)分析方法中的獨立性假定,并分解和修改Collins方法的語法規(guī)則,將標記的配價結(jié)構(gòu)等語義信息集成到句子語法結(jié)構(gòu)分析統(tǒng)計模型的概率計算中.從表1可以發(fā)現(xiàn):本文的句子語法結(jié)構(gòu)分析方法對語法規(guī)則實施分解,將相鄰短語標記(或詞性標記)等信息融入概率計算,而相鄰短語標記(或詞性標記)等信息的引入對提高句法分析的系統(tǒng)性能是非常有用的;同時通過語法規(guī)則的分解,在概率計算中既使用了語義依存信息,也使用了配價結(jié)構(gòu)等語義匹配知識[15].方法1的召回率R、交叉括號、準確率P、綜合指標相比頭驅(qū)動句子語法結(jié)構(gòu)分析方法、Petrov方法有了顯著的改進.試驗數(shù)據(jù)證明語義信息的運用能明顯提高統(tǒng)計句子語法結(jié)構(gòu)分析的性能.稀疏數(shù)據(jù)問題是嚴重制約句子語法結(jié)構(gòu)分析性能的另一個主要因素,在模型1的基礎(chǔ)上,根據(jù)公式(8),應(yīng)用基于語義類的平滑技術(shù)建立模型2((Model2),比較成功解決了稀疏數(shù)據(jù)問題,系統(tǒng)性能有了明顯的進一步提高.哈工大的曹海龍[1]等提出了一種漢語句法分析兩級方法,選取哈工大樹庫作為試驗語料,獲得了準確率87.5%,召回率88.0%的良好試驗結(jié)果.本文方法2的結(jié)果與曹海龍等人[1,21]的句子語法結(jié)構(gòu)分析方法相比也有一定的改進.
本文還在改進方法2、頭驅(qū)動句法分析方法基礎(chǔ)上研究了組合方法,令句法分析結(jié)果依據(jù)改進方法2、頭驅(qū)動句法分析方法計算的概率分別為P1,P2,則組合方法的概率P為:
P=λP1+(1-λ)P2
(9)
其中λ取值為0≤λ≤1,調(diào)整λ的值,能夠改變方法2和頭驅(qū)動句法分析方法相應(yīng)的作用.開發(fā)語料的實驗結(jié)果綜合指標依圖5所示.當λ取值0.6時,組合方法的綜合指標最佳,準確率P、召回率R、綜合指標F值、交叉括號分別為89.14%、88.42%、88.78%、1.81.
1)句法分析結(jié)合語義內(nèi)容分析和句法形式分析.越深刻、越完整對句子語法結(jié)構(gòu)的語義內(nèi)容進行分析,就越能夠合理科學(xué)地解釋句法形式上的種種情況.語義角色標記一般在句子語法結(jié)構(gòu)分析的基礎(chǔ)上進行,我們提出了一種語義角色標記與句子語法結(jié)構(gòu)分析并行學(xué)習(xí)方法:在語法分析的進程中,實施語義分析及標記;并把語義融入語法規(guī)則的概率計算,聯(lián)合學(xué)習(xí)方法能同時提高句法分析和語義角色標記[15]性能.
圖5 組合方法的綜合指標F值Fig.5 Comprehensive index F of combination method
2)中文配價結(jié)構(gòu)能準確描繪句子的語義構(gòu)成及語法結(jié)構(gòu),因而本文深入地考察了配價結(jié)構(gòu)理論,探索了融合配價信息的語義角色標記,并以此為基礎(chǔ)構(gòu)建語義角色標記與句子語法結(jié)構(gòu)分析聯(lián)合學(xué)習(xí)模型.利用語法規(guī)則的分解融入語義依存信息和配價結(jié)構(gòu)等語義匹配知識,明顯地改進了句子語法結(jié)構(gòu)分析結(jié)果.
3)將語義信息[22,23]融入句子語法結(jié)構(gòu)分析,而語義依存聯(lián)系、語義匹配、語義類等都是語義信息.詞匯化句子語法結(jié)構(gòu)分析的現(xiàn)有方法如頭驅(qū)動句法分析方法、依存語法只利用了詞語語義依存聯(lián)系,而語義匹配、語義類[24]這些語義知識對語義計算和句子語法結(jié)構(gòu)分析是非常有用的.