楊陳菊, 孫 俊, 皮乾東, 邵玉斌, 龍 華
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 昆明 650504)
句法分析是信息抽取、 機(jī)器翻譯、 問(wèn)答系統(tǒng)等應(yīng)用不可缺少的部分, 是語(yǔ)義理解的基礎(chǔ),如張建明等[1]提出結(jié)合語(yǔ)義概念進(jìn)行復(fù)雜事件抽取. 句法分析分為短語(yǔ)結(jié)構(gòu)分析和依存句法分析. 其中短語(yǔ)結(jié)構(gòu)句法信息豐富, 并且可根據(jù)轉(zhuǎn)化規(guī)則將結(jié)構(gòu)句法分析的結(jié)果轉(zhuǎn)換為依存結(jié)果, 反之則不行[2], 表明短語(yǔ)結(jié)構(gòu)句法樹(shù)比依存句法樹(shù)有著更廣泛的范疇.
早期句法分析性能依賴于人工總結(jié)的規(guī)則, 近年來(lái)機(jī)器學(xué)習(xí)方法已廣泛應(yīng)用于組塊識(shí)別, 并進(jìn)行句法分析. 其中使用條件隨機(jī)場(chǎng)(conditional random field, CRF)的效果最好[3], 但這些研究只是對(duì)原始語(yǔ)句進(jìn)行了組塊識(shí)別. 隨著深度學(xué)習(xí)的發(fā)展, 神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用于圖像[4-5]、 文本等方面, 對(duì)句法的研究也不再停留于淺層分析: 皮乾東等[6]基于漢語(yǔ)語(yǔ)序算式化融合設(shè)計(jì)了句法分析器; 賈繼康等[7]通過(guò)規(guī)則合成的方法進(jìn)行了層次化語(yǔ)句識(shí)別; 谷波等[8]提出了一種基于RNN(recurrent neural network)的中文二分結(jié)構(gòu)句法分析, 但忽略了中文部分語(yǔ)句不滿足二分結(jié)構(gòu)而滿足三元結(jié)構(gòu)的語(yǔ)句狀況, 這也是其句法分析正確率偏低的一個(gè)原因. 在英文句法分析中, Nguyen等[9]提出了一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行詞性識(shí)別和依存句法分析, 在實(shí)驗(yàn)語(yǔ)料中效果較好; Kitaev等[10]提出了自注意力(Self-Attentive)機(jī)制的編碼方式以及分離位置信息和內(nèi)容信息等進(jìn)行結(jié)構(gòu)句法分析, 提高了句法分析的準(zhǔn)確率. 但使用深度學(xué)習(xí)進(jìn)行句法分析, 會(huì)對(duì)漢語(yǔ)研究逐漸黑盒化.
在目前對(duì)句法分析的研究成果中, 基于規(guī)則方法中詞語(yǔ)搭配的規(guī)則太多, 并且規(guī)則搭配的優(yōu)先級(jí)反復(fù)變動(dòng); 基于深度學(xué)習(xí)方法的可解釋性較差, 數(shù)據(jù)資源和計(jì)算力成本高, 且仍不能得到較好的句法分析結(jié)果. 現(xiàn)有句法分析的組塊識(shí)別環(huán)節(jié)通常只能識(shí)別出一種結(jié)果, 或者根據(jù)所需值識(shí)別出細(xì)粒度的組塊, 或者只識(shí)別粗粒度的組塊, 而在層次句法分析中, 在低層次需要識(shí)別細(xì)粒度的組塊, 而在高層次需要識(shí)別出粗粒度的組塊, 從而需要訓(xùn)練很多模型去識(shí)別不同粒度的組塊. 為解決該問(wèn)題, 本文提出一個(gè)結(jié)合CRF和多元規(guī)則的層次化句法分析模型. 在使用具有特定參數(shù)模板CRF算法訓(xùn)練好的模型下, 首先對(duì)具有詞性標(biāo)注的細(xì)粒度語(yǔ)句進(jìn)行組塊識(shí)別, 將這些新識(shí)別出的組塊分配新的詞性, 識(shí)別出的組塊及未識(shí)別的詞語(yǔ)塊構(gòu)成一個(gè)具有詞性標(biāo)注的粗粒度語(yǔ)句, 然后使用具有不同優(yōu)先級(jí)的二元、 三元規(guī)則對(duì)粗粒度語(yǔ)句做進(jìn)一步的組塊分析.
圖1 結(jié)構(gòu)句法樹(shù)Fig.1 Structure syntax tree
句法分析是分析各詞語(yǔ)之間的組合和搭配關(guān)系, 最終形成一棵句法樹(shù), 如圖1所示, 關(guān)聯(lián)大的詞語(yǔ)更易形成一個(gè)詞組. 圖1中: IP表示一個(gè)簡(jiǎn)單句子; NP,VP,ADJP分別表示名詞短語(yǔ)、 動(dòng)詞短語(yǔ)和形容詞短語(yǔ), 這里均視為名詞組塊、 動(dòng)詞組塊和形容詞組塊; NN,VV,NR,JJ分別表示普通名詞、 動(dòng)詞、 專(zhuān)有名詞和修飾語(yǔ). 由圖1可見(jiàn), 在細(xì)粒度語(yǔ)句中, 組塊識(shí)別能識(shí)別出具有相同性質(zhì)或?qū)傩韵嗨频脑~語(yǔ),并組成一個(gè)組塊. 本文結(jié)合CRF組塊識(shí)別和多元規(guī)則的層次句法分析模型給出如下定義, 其中涉及到的組塊標(biāo)準(zhǔn)參考文獻(xiàn)[11].
定義1(中文組塊) 中文組塊是非遞歸、 非嵌套、 不重疊的相鄰詞序列.
本文在組塊識(shí)別中使用CTB8.0(Chinese TreeBank8.0)的標(biāo)記方式對(duì)語(yǔ)句詞語(yǔ)進(jìn)行詞性標(biāo)注, 并對(duì)選取的語(yǔ)料進(jìn)行統(tǒng)計(jì), 根據(jù)語(yǔ)料統(tǒng)計(jì)得到組塊總數(shù)為121 412, 去除標(biāo)點(diǎn)符號(hào)使用的組塊標(biāo)記“IP”16 850個(gè). 表1列出了出現(xiàn)次數(shù)最多的10個(gè)組塊標(biāo)記(不包括IP組塊, 該組塊包含標(biāo)點(diǎn)符號(hào)、 語(yǔ)句等)類(lèi)型分布.
根據(jù)不同關(guān)系, 相鄰詞語(yǔ)之間組合構(gòu)成新的具有一定詞性的詞語(yǔ), 循環(huán)迭代, 最終合成一棵句法樹(shù), 其中涉及多次迭代.
定義2一個(gè)或多個(gè)詞語(yǔ)按組合規(guī)則合成一個(gè)新的詞語(yǔ)稱(chēng)為一次層次迭代.
對(duì)語(yǔ)句
(1)
圖2 一次層次迭代示意圖Fig.2 Schematic diagram of a hierarchical iterative
進(jìn)行層次迭代轉(zhuǎn)換,如圖2所示. 其中:i表示第i個(gè)詞語(yǔ)的詞性單元(word part of speech unit, WPN);j表示融合層數(shù);n表示W(wǎng)PN的個(gè)數(shù).
由于CRF是基于語(yǔ)料統(tǒng)計(jì)的模型, 為降低模型對(duì)語(yǔ)料的依賴, 提高分析準(zhǔn)確性, 本文只進(jìn)行一次層次迭代. 由表1可見(jiàn), 組塊識(shí)別還能兼容一些多元規(guī)則, 如“李富榮/NR 和/CC 吳永文/NR”涉及到的三元規(guī)則是NP→N(P)+C+N(P), 即“名詞詞性+連詞詞性+名詞詞性”構(gòu)成一個(gè)新的具有名詞詞性的組塊.
關(guān)于組塊的標(biāo)記, 本文采用{B,I,E,O}標(biāo)記集, 其中:B表示一個(gè)組塊左邊界的開(kāi)始;I表示組塊中的詞語(yǔ);E表示組塊的結(jié)束詞語(yǔ);O表示組塊外的其他詞語(yǔ). 本文以語(yǔ)句“上海浦東開(kāi)發(fā)與法制建設(shè)同步”為例, 標(biāo)記列于表2.
表1 組塊類(lèi)型分布
表2 組塊標(biāo)記實(shí)例
低層次組塊識(shí)別要求識(shí)別細(xì)粒度的組塊, 細(xì)粒度的組塊如果使用規(guī)則分析, 則要求大量的和完備的組合規(guī)則. 現(xiàn)有技術(shù)中使用深度學(xué)習(xí)方法缺少可解釋性,因此采用CRF解決該問(wèn)題.
組塊的識(shí)別就是將語(yǔ)句標(biāo)注成不交叉、 非嵌套、 非遞歸的具有一定詞性屬性的序列塊, 其本質(zhì)是一個(gè)序列標(biāo)注問(wèn)題. 對(duì)于給定的中文觀測(cè)序列Sentence={wp1,wp2,…,wpn}, 即無(wú)向圖模型中n個(gè)輸入節(jié)點(diǎn)的值, 對(duì)應(yīng)的組塊邊界標(biāo)注結(jié)果序列為C={C1,C2,…,Cn}, 其為長(zhǎng)度與Sentence長(zhǎng)度相同的狀態(tài)序列, 表示無(wú)向圖模型中n個(gè)輸出節(jié)點(diǎn)的值. 對(duì)于一個(gè)帶有參數(shù)的特征函數(shù)Λ={λ1,λ2,…,λn}的線性鏈, CRF將根據(jù)給定的中文輸入序列Sentence得到狀態(tài)序列條件概率, 定義為
(2)
其中:Z(Sentence)為歸一化因子, 定義為
(3)
其作用是使給定中文輸入序列上所有可能狀態(tài)序列的概率之和為1;fk(ci-1,ci,Sentence,i)為整個(gè)觀測(cè)序列和相應(yīng)標(biāo)記序列中位置為i和i-1標(biāo)記的特征函數(shù);λk為在語(yǔ)料訓(xùn)練中得到的并與特征fk相關(guān)權(quán)重中的值. 在給定訓(xùn)練集訓(xùn)練出CRF模型后, 對(duì)任意給定的具有詞性標(biāo)注語(yǔ)句序列Sentence, 經(jīng)過(guò)CRF訓(xùn)練出的模型即輸出得到相應(yīng)的分?jǐn)?shù)C:
(4)
其中標(biāo)記后序列中最優(yōu)標(biāo)記序列即為使得條件概率取最大值的標(biāo)注結(jié)果. 關(guān)于使用CRF進(jìn)行組塊識(shí)別的分析可參照文獻(xiàn)[3]. CRF與其他學(xué)習(xí)算法相同, 訓(xùn)練數(shù)據(jù)特征的選取直接影響后期模型預(yù)測(cè)結(jié)果的準(zhǔn)確率.
本文采用條件隨機(jī)場(chǎng)工具包CRF++0.58進(jìn)行實(shí)驗(yàn), 對(duì)選取的CTB8.0語(yǔ)料進(jìn)行組塊長(zhǎng)度統(tǒng)計(jì), 統(tǒng)計(jì)結(jié)果列于表3. 該統(tǒng)計(jì)只取一次層次迭代結(jié)果的組塊, 當(dāng)詞語(yǔ)序列中組塊長(zhǎng)度(包含詞語(yǔ)個(gè)數(shù))低于6個(gè)時(shí), 組塊數(shù)目占實(shí)驗(yàn)所有組塊的88.317%, 基本上涵蓋了所有組塊, 為減少無(wú)效的模型訓(xùn)練時(shí)間, 對(duì)本文CRF模型構(gòu)造的特征函數(shù)設(shè)置識(shí)別窗體詞語(yǔ)長(zhǎng)度為5, 并只進(jìn)行一次層次迭代組塊識(shí)別.
表3 組塊長(zhǎng)度統(tǒng)計(jì)
在高層次粗粒度組塊識(shí)別中, 對(duì)詞性的組合要求極大降低, 為解決訓(xùn)練大量不同層次的識(shí)別模型, 本文利用多元規(guī)則方法解決該問(wèn)題.
(5)
其中Rsize表示規(guī)則集中規(guī)則的總數(shù).
在進(jìn)行句法分析過(guò)程中, 傳統(tǒng)算法多數(shù)使用二元規(guī)則, 其中Chomsky范式是二元規(guī)則的間接反映. 在漢語(yǔ)處理中, 文獻(xiàn)[8]用漢語(yǔ)語(yǔ)法特性進(jìn)行句法分析, 但有時(shí)仍會(huì)涉及到滿足三元規(guī)則的詞語(yǔ)序列, 對(duì)于四元規(guī)則及多于四元的規(guī)則, 則很少出現(xiàn), 因?yàn)榭梢酝ㄟ^(guò)二元規(guī)則、 三元規(guī)則不斷將能進(jìn)行組合的詞語(yǔ)序列進(jìn)行層次迭代. 表4和表5分別列出了部分二元規(guī)則和三元規(guī)則, 其中詞性表示參照文獻(xiàn)[12]. 隨著漢語(yǔ)的發(fā)展, 中文逐漸出現(xiàn)滿足三元規(guī)則的語(yǔ)句, 例如“在/p桌子/n 上/f”, 其詞性序列對(duì)應(yīng)為D→P+N+F, 表示“介詞+名詞+方位詞”詞語(yǔ)序列構(gòu)成具有副詞屬性的組塊, 整體表現(xiàn)為副詞詞性.
表4 二元規(guī)則
表5 三元規(guī)則
圖3為句法分析流程示意圖, 圖4為模型執(zhí)行框圖. 首先在語(yǔ)料庫(kù)中提取出滿足本模型的數(shù)據(jù)集, 設(shè)定CRF特征模板, 通過(guò)CRF工具進(jìn)行語(yǔ)料訓(xùn)練得到CRF組塊識(shí)別模型; 然后將需要分析的細(xì)粒度語(yǔ)句序列用CRF模型進(jìn)行組塊識(shí)別, 獲取具有{B,I,E,O}標(biāo)記集標(biāo)記的漢語(yǔ)語(yǔ)句序列, 并將該序列提取出詞語(yǔ)詞性數(shù)據(jù), 進(jìn)行基于多元規(guī)則的句法分析; 最后通過(guò)使用多元句法規(guī)則不斷迭代分析, 得到分析結(jié)果.
圖3 模型層次分析流程示意圖Fig.3 Schematic diagram of flow chart of model hierarchical analysis
圖4 模型系統(tǒng)框圖Fig.4 Block diagram of model system
在漢語(yǔ)中, 詞語(yǔ)之間的修飾有先后順序, 即多元規(guī)則具有優(yōu)先級(jí), 并且針對(duì)漢語(yǔ)的修飾關(guān)系很容易得到“前修飾后”、 “中心詞在后”的規(guī)律, 因此本文模型在使用不同優(yōu)先級(jí)的多元規(guī)則進(jìn)行句法分析時(shí), 均采用逆向掃描方式查找滿足規(guī)則的詞性序列, 例如, 下列使用不同優(yōu)先級(jí)的二元、 三元規(guī)則語(yǔ)句“盛/n 云龍/n 從/p 這/r 件/q 事/n 中/f 受到/v 啟發(fā)/n”, 將其代入式(1), 可得
對(duì)其進(jìn)行句法分析可得:
(7)
句法分析如圖5所示. 根據(jù)北京大學(xué)標(biāo)記人民日?qǐng)?bào)語(yǔ)料的統(tǒng)計(jì)分析、 相關(guān)語(yǔ)法以及相關(guān)經(jīng)驗(yàn)可知, 有不同優(yōu)先級(jí)的多元規(guī)則部分結(jié)果列于表6. 優(yōu)先級(jí)值越小, 對(duì)應(yīng)規(guī)則值優(yōu)先級(jí)越高, 根據(jù)不同等級(jí)的規(guī)則融合成新的WPN序列, 可能出現(xiàn)新產(chǎn)生的WPN序列塊滿足高等級(jí)規(guī)則, 從而使得在每次層次迭代中都需要逆向掃描和高等級(jí)重新搜索、 匹配多元規(guī)則.
表6 部分不同等級(jí)的多元規(guī)則
圖5 層次分析流程示意圖Fig.5 Schematic diagram of flow chart of hierarchical analysis
圖6 一級(jí)組塊Fig.6 Primary chunk
在進(jìn)行實(shí)驗(yàn)前需提取出語(yǔ)料中“一級(jí)塊”的信息, 如圖6所示, 將語(yǔ)料轉(zhuǎn)換為只有一級(jí)塊的標(biāo)記語(yǔ)料, 并滿足CRF訓(xùn)練所需標(biāo)準(zhǔn)格式, 且只選擇最初的一次層次迭代組塊數(shù)據(jù), 如語(yǔ)料“((IP-HLN (NP-SBJ(NP-PN(NR上海)(NR浦東))(NP(NN開(kāi)發(fā))(CC與)(NN法制)(NN建設(shè))))(VP(VV同步))))”. 該句語(yǔ)料只提取出“上海浦東/NP”、 “開(kāi)發(fā)與發(fā)展建設(shè)/NP”和“同步/VP”3個(gè)組塊, 而前兩個(gè)NP組塊可構(gòu)成一個(gè)名詞組塊, 然后再與動(dòng)詞組塊構(gòu)成IP組塊, 由于已經(jīng)是第二、 三次層次迭代組合, 所以無(wú)需提取, 將在后續(xù)句法分析中使用多元規(guī)則處理. 為方便實(shí)驗(yàn)與比較, 本文需剔除一些非組塊標(biāo)記的語(yǔ)料, 由于新聞?lì)愋臀恼碌奶厥庑? 因此應(yīng)去除一些對(duì)實(shí)驗(yàn)意義較小的句子, 該類(lèi)語(yǔ)句組塊名稱(chēng)為FRAG. 根據(jù)上述要求, 在本文實(shí)驗(yàn)中共選取10 000條實(shí)驗(yàn)語(yǔ)料.
本文實(shí)驗(yàn)選取的語(yǔ)料只有10 000條語(yǔ)句, 數(shù)據(jù)相對(duì)較少, 因此采用K-折交叉驗(yàn)證(K-fold cross validation,K-CV)方法對(duì)模型進(jìn)行驗(yàn)證. 選取5-折交叉驗(yàn)證法, 將10 000條語(yǔ)句語(yǔ)料信息均勻分成5份, 其中選4份作為訓(xùn)練語(yǔ)料, 1份作為模型驗(yàn)證語(yǔ)料, 每組訓(xùn)練語(yǔ)料均會(huì)訓(xùn)練出一個(gè)模型, 分別記為Modelk,k∈[1,5], 而測(cè)試語(yǔ)料記為T(mén)estk,k∈[1,5], 并與不使用CRF組塊識(shí)別的基于二元、 多元規(guī)則的句法分析方法, 以及結(jié)合CRF組塊識(shí)別與二元句法分析方法進(jìn)行比較, 共進(jìn)行5組實(shí)驗(yàn), 下面以其中一組實(shí)驗(yàn)為例進(jìn)行實(shí)驗(yàn)設(shè)計(jì).
使用模型Model1和測(cè)試語(yǔ)料Test1進(jìn)行基于二元規(guī)則的句法分析(E1)、 基于多元規(guī)則的句法分析(E2)、 結(jié)合CRF組塊識(shí)別與二元規(guī)則的句法分析(E3)以及結(jié)合CRF組塊識(shí)別與多元規(guī)則的句法分析(E4). 根據(jù)語(yǔ)料數(shù)據(jù)數(shù)量, 將每個(gè)實(shí)驗(yàn)分別進(jìn)行8次, 分8段累加統(tǒng)計(jì)分析準(zhǔn)確率, 以確定其穩(wěn)定性, 測(cè)試語(yǔ)料數(shù)目分別為250,500,750,1 000,1 250,1 500,1 750,2 000. 其中基于二元規(guī)則的句法分析方法使用本文總結(jié)的二元規(guī)則進(jìn)行句法分析; 基于多元規(guī)則的句法分析方法是本文在二元規(guī)則基礎(chǔ)上增加三元規(guī)則的句法分析; 結(jié)合CRF組塊識(shí)別的句法分析方法是本文在組塊識(shí)別基礎(chǔ)上結(jié)合二元、 三元規(guī)則的句法分析. 在進(jìn)行句法分析時(shí), 這幾種句法分析方法均采取逆向掃描方式, 并用具有不同優(yōu)先級(jí)的規(guī)則, 此外, 在組塊識(shí)別過(guò)程中, 未識(shí)別成組塊的詞語(yǔ), 其詞性使用輸入數(shù)據(jù)的詞性, 不使用預(yù)測(cè)后的詞性. 通過(guò)比較這4種句法分析方式的5組實(shí)驗(yàn), 驗(yàn)證本文提出的結(jié)合CRF組塊識(shí)別和多元句法分析方法的有效性和穩(wěn)定性.
由于漢語(yǔ)語(yǔ)言的特殊性, 語(yǔ)句可以是單獨(dú)結(jié)構(gòu), 所以本文將進(jìn)行句法分析的語(yǔ)句最后能合成一個(gè)根節(jié)點(diǎn)作為判定準(zhǔn)確的標(biāo)準(zhǔn), 因此評(píng)價(jià)指標(biāo)為準(zhǔn)確率:
(8)
下面利用5組實(shí)驗(yàn)結(jié)果驗(yàn)證本文文句法分析模型的分析效果. 根據(jù)句法分析使用的二元、 三元規(guī)則及是否基于CRF模型進(jìn)行組塊識(shí)別的句法分析, 設(shè)計(jì)5組實(shí)驗(yàn), 每組有4個(gè)大實(shí)驗(yàn), 32個(gè)小實(shí)驗(yàn), 其結(jié)果列于表7. 實(shí)驗(yàn)結(jié)果正確率曲線如圖7所示. 5組實(shí)驗(yàn)中4種對(duì)比實(shí)驗(yàn)的平均正確率列于表8.
表7 句法分析準(zhǔn)確率(%)
表8 句法分析平均正確率
由表8可見(jiàn), 使用傳統(tǒng)基于二元規(guī)則的句法分析方法, 在測(cè)試集中平均準(zhǔn)確率達(dá)74.591%; 當(dāng)使用結(jié)合基于組塊識(shí)別和二元規(guī)則進(jìn)行句法分析后, 模型在測(cè)試集中平均準(zhǔn)確率約提升10%; 使用改進(jìn)傳統(tǒng)的二元規(guī)則并增加三元規(guī)則的句法分析方法, 在測(cè)試集中的平均準(zhǔn)確率達(dá)81.742%, 相比于僅使用二元規(guī)則的句法分析方法, 在測(cè)試集中平均準(zhǔn)確率約提升8%; 使用結(jié)合CRF組塊識(shí)別和多元規(guī)則的層次句法分析方法進(jìn)行句法分析, 在測(cè)試集中平均準(zhǔn)確率最高, 相比于其他句法分析方法, 其正確率分別約提高12%,3%,5%, 且其正確率最平穩(wěn), 表明本文模型是有效、 穩(wěn)定的.
E1和E2的實(shí)驗(yàn)結(jié)果表明, 漢語(yǔ)語(yǔ)句多元規(guī)則占比較大, E2和E4的實(shí)驗(yàn)結(jié)果準(zhǔn)確率相差較小, 表明基于CRF模型進(jìn)行組塊識(shí)別的方法, 在本質(zhì)上識(shí)別出的是多元規(guī)則需識(shí)別出的內(nèi)容, 同時(shí)也驗(yàn)證了低層次中細(xì)粒度組塊識(shí)別的多樣性很大程度上高于高層次的粗粒度組塊識(shí)別, 在低層次的細(xì)粒度組塊中, 組合方式無(wú)論是詞語(yǔ)自身還是詞性的組合均更復(fù)雜多樣, 僅利用規(guī)則不能滿足要求, 利用CRF細(xì)粒度組塊識(shí)別, 高效地解決了該問(wèn)題; 而高層次的粗粒度組塊已進(jìn)行了細(xì)粒度組塊的結(jié)合, 綜合了詞性的組合值, 極大減少了詞性的豐富性. 本文利用多元規(guī)則進(jìn)行粗粒度的組塊分析, 減少了模型的訓(xùn)練負(fù)擔(dān), 可更準(zhǔn)確地分析出完整句子, 同時(shí)增強(qiáng)了句法分析的可解釋性, 比黑盒更易接受. 基于統(tǒng)計(jì)的方法能為人們提取語(yǔ)言中的句法規(guī)則, 并能將其運(yùn)用到句法分析中以達(dá)到機(jī)器學(xué)習(xí)的目的.
圖7 實(shí)驗(yàn)結(jié)果對(duì)比Fig.7 Comparison of experimental results
實(shí)驗(yàn)結(jié)果表明, 本文模型在句法分析中分析失敗的原因主要是漢語(yǔ)中詞塊分配的詞性存在歧義, 如“國(guó)家/n 應(yīng)/v 加大/v 對(duì)/p 國(guó)企/n 的/ud 保護(hù)扶持力度/n ./w”, 其中“保護(hù)扶持力度/n”已被CRF組塊識(shí)別, 并進(jìn)行新的詞性標(biāo)注. “對(duì)/p 國(guó)企/n 的/ud 保護(hù)扶持力度/n”根據(jù)本文定義的規(guī)則, 其分析結(jié)果應(yīng)為一個(gè)副詞, 而在原語(yǔ)料中, 該部分最后被標(biāo)記為一個(gè)NP, 如果按主謂賓語(yǔ)句結(jié)構(gòu)分析, 則這部分應(yīng)該是一個(gè)名詞塊, 說(shuō)明這部分存在本文未找到的規(guī)則, 使得“對(duì)/p 國(guó)企/n 的/ud 保護(hù)扶持力度/n”為一個(gè)名詞塊.
為驗(yàn)證本文模型的有效性, 選擇與幾個(gè)最新的句法分析模型進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果列于表9. 由表9可見(jiàn): 文獻(xiàn)[8]將中文句子全部二分化, 正確率稍低; 文獻(xiàn)[6-7]加入了與本文相同的規(guī)則成分, 正確率有所提升; 文獻(xiàn)[13]采用傳統(tǒng)基于最大熵的移進(jìn)規(guī)約方法進(jìn)行句法樹(shù)邊界的識(shí)別, 識(shí)別率最高. 本文方法采用CRF與規(guī)則方法相結(jié)合, 既解決了多模型訓(xùn)練的困難, 又保留了句法分析的可解釋特性, 實(shí)驗(yàn)結(jié)果也表明, 本文方法的結(jié)果優(yōu)于大部分模型, 在數(shù)據(jù)集上均取得了較理想的結(jié)果.
表9 句法分析成果對(duì)比
綜上所述, 本文結(jié)合CRF和多元規(guī)則的層次化句法分析模型, 不僅能自動(dòng)識(shí)別出句子中最細(xì)粒度的組塊, 而且能識(shí)別相對(duì)高層次的粗粒度組塊, 降低了語(yǔ)句中一些標(biāo)點(diǎn)符號(hào)對(duì)句法分析的影響, 突破了傳統(tǒng)方法需要訓(xùn)練多個(gè)模型的問(wèn)題. 本文模型將CRF組塊識(shí)別方法應(yīng)用到細(xì)粒度語(yǔ)句的組塊識(shí)別中, 利用基于統(tǒng)計(jì)的方法和多元規(guī)則相結(jié)合的方法識(shí)別出不同詞性的組塊; 為有效解決句法分析中詞語(yǔ)搭配規(guī)則多及有效減少搭配優(yōu)先級(jí)變動(dòng)的影響, 本文模型在識(shí)別出的組塊中引入不同優(yōu)先級(jí)的二元、 三元規(guī)則; CRF組塊識(shí)別和多元規(guī)則的結(jié)合實(shí)現(xiàn)了同時(shí)進(jìn)行細(xì)粒度和粗粒度組塊的識(shí)別, 能更好服務(wù)于句法分析. 在測(cè)試集中的平均正確率及正確率趨勢(shì)均驗(yàn)證了本文模型的有效性和穩(wěn)定性.