邱立坤,史林林,王厚峰
(1.魯東大學(xué) 文學(xué)院,山東 煙臺 264025;2. 北京大學(xué) 計算語言學(xué)研究所,北京 100871)
?
多領(lǐng)域中文依存樹庫構(gòu)建與影響統(tǒng)計句法分析因素之分析
邱立坤1,史林林1,王厚峰2
(1.魯東大學(xué) 文學(xué)院,山東 煙臺 264025;2. 北京大學(xué) 計算語言學(xué)研究所,北京 100871)
為提升依存分析并分析影響其精度的相關(guān)因素,該文構(gòu)建了大規(guī)模中文通用依存樹庫和中等規(guī)模領(lǐng)域依存樹庫?;谶@一系列樹庫,通過句法分析實驗考察質(zhì)量、規(guī)模、領(lǐng)域差異等因素對中文依存分析的影響,實驗結(jié)果表明: (1)樹庫規(guī)模和質(zhì)量均與句法分析精度成正相關(guān)關(guān)系,質(zhì)量應(yīng)先于規(guī)模因素被優(yōu)先考慮;(2)通用樹庫和領(lǐng)域樹庫之間的差異程度與前者對后者的替代性成相關(guān)關(guān)系;(3)兩種樹庫混合使用的效果同樣與領(lǐng)域差異有關(guān)。
依存樹庫;領(lǐng)域遷移;依存句法分析
依存句法分析的目標(biāo)是為給定句子中的每個詞找出一個合適的父節(jié)點,并標(biāo)記子節(jié)點與父節(jié)點之間的句法關(guān)系,它是目前最常用的句法分析理論之一。作為主流依存分析方法的統(tǒng)計句法分析,通常用包含大量依存句法樹的樹庫作為訓(xùn)練數(shù)據(jù),采用基于圖的方法[1]或基于轉(zhuǎn)移的方法[2]訓(xùn)練,可得到面向新聞文本的高質(zhì)量自動句法分析器。依存句法分析已在機(jī)器翻譯、自動問答、情感分析等領(lǐng)域得到廣泛應(yīng)用,可在一定程度上提升相關(guān)系統(tǒng)的性能。但是,統(tǒng)計句法分析性能依賴于樹庫的規(guī)模、質(zhì)量,并且表現(xiàn)出領(lǐng)域相關(guān)性,在遷移到新領(lǐng)域時精度急劇下降[3]。
目前已經(jīng)有一些文獻(xiàn)研究樹庫轉(zhuǎn)換和融合[4-5]、自學(xué)習(xí)方法[3]等提高句法分析精度并改善領(lǐng)域遷移效果,但是受語料類型和規(guī)模的限制,中文方面很多問題沒有得到深入分析。首先是樹庫規(guī)模問題。目前已有一些研究考察樹庫規(guī)模對句法的影響[6],但使用的樹庫量級僅在1萬句左右,本文將考察樹庫規(guī)模增加到5萬甚至10萬句時的句法分析效果;其次是樹庫質(zhì)量問題,目前尚未見到這方面的研究;最后是通用樹庫與特定領(lǐng)域樹庫融合的問題。在中文分詞和詞性標(biāo)注上有少量類似研究[7],句法分析層面暫無。
為考察上述問題,我們基于統(tǒng)一的依存句法標(biāo)注體系,構(gòu)建了大規(guī)模(12.8萬句)的中文通用新聞樹庫和中等規(guī)模(從1.7萬到4萬句不等)的特定領(lǐng)域樹庫。對于這些樹庫,本文設(shè)計了系列實驗,以分析樹庫規(guī)模、質(zhì)量和領(lǐng)域差異對句法分析尤其是特定領(lǐng)域句法分析精度的影響。
本文組織如下: 第2節(jié)介紹依存樹庫的標(biāo)注體系、構(gòu)建流程、所構(gòu)建樹庫的基本信息,并簡單分析各樹庫之間的差異;第3節(jié)通過系列實驗分析質(zhì)量、規(guī)模和領(lǐng)域差異等因素對句法分析精度的影響;第4節(jié)介紹相關(guān)工作;最后一節(jié)是結(jié)論。
2.1 依存句法標(biāo)注體系
表1 PMT依存體系
依存樹庫的構(gòu)建必須遵循一定的標(biāo)注體系,標(biāo)注體系的差異首先表現(xiàn)在依存關(guān)系標(biāo)簽的設(shè)置上。各種依存標(biāo)注體系采用的依存關(guān)系標(biāo)簽數(shù)量差別較大,標(biāo)簽的內(nèi)涵更是大不相同。就中文而言,目前有四種體系: (1)由賓州短語結(jié)構(gòu)中文樹庫轉(zhuǎn)換而來的依存樹庫(簡稱CTB),標(biāo)簽數(shù)量為12個*http://w3.msi.vxu.se/~nivre/research/Penn2Malt.html;(2)哈工大依存體系(簡稱HTB),初始版本為24個標(biāo)簽,目前版本為14個標(biāo)簽[8];(3)北京大學(xué)多視圖樹庫依存體系(簡稱PMT)[9],含30個句法標(biāo)簽,該體系參考了CTB和HTB,其中一些標(biāo)簽專門為由依存樹轉(zhuǎn)換為短語結(jié)構(gòu)樹而設(shè)置;(4)斯坦福依存體系,該體系標(biāo)簽數(shù)量最為龐大[10]。第(1)和(4)體系均依據(jù)手工制定的規(guī)則生成,不存在直接依據(jù)該體系構(gòu)建的原生樹庫。
標(biāo)注體系的差異還表現(xiàn)在對同一句法現(xiàn)象的不同處理策略上。例如,CTB將兼語句等同于小句賓語句,HTB和PMT則將之以類似于雙賓句的方式處理,并設(shè)置了專門標(biāo)簽將之與雙賓句區(qū)別開來。又如,CTB區(qū)分了主語和話題,PMT也繼承了這一做法,用以處理漢語的主謂謂語句;HTB則允許一個動詞帶多個主語,不對主語和話題進(jìn)行區(qū)分。再如,CTB沒有顯式標(biāo)注并列結(jié)構(gòu),因此其依存體系并沒有表示并列的標(biāo)簽;HTB設(shè)置了并列標(biāo)簽,且以左節(jié)點為核心節(jié)點;PMT設(shè)置了并列標(biāo)簽,且以右節(jié)點為核心節(jié)點。其中,并列結(jié)構(gòu)的處理方式對依存弧方向影響最大,因而也是導(dǎo)致各家樹庫依存弧差異的主要原因。
本文工作所使用的樹庫均基于PMT體系構(gòu)建,該體系所使用的依存關(guān)系標(biāo)簽如表 1所示。PMT體系的特點在于,以依存語法體系為基礎(chǔ),預(yù)先考慮了從依存語法到短語結(jié)構(gòu)語法轉(zhuǎn)換過程中的歧義消解問題,因此標(biāo)注一套依存語法樹庫(標(biāo)注依存弧和依存關(guān)系標(biāo)簽)可同時得到一套短語結(jié)構(gòu)樹庫(推導(dǎo)出層次和短語范疇)[9]。
2.2 語料選擇與構(gòu)建流程
本文構(gòu)建的樹庫包括新聞、醫(yī)藥、口語、專利、微博五個領(lǐng)域,各領(lǐng)域句子數(shù)和平均句長如表 2所示。
表2 多領(lǐng)域樹庫基本信息一覽
續(xù)表
新聞?wù)Z料含有政治、科技、社會、教育、體育等多個子領(lǐng)域和敘述文、散文、報告文學(xué)、說明文等多種文體,可稱之為通用樹庫;相應(yīng)地,可稱其他樹庫為領(lǐng)域樹庫。
新聞樹庫的文本來自1998年1月份1到10日共10天語料、2000年1月全部語料、2000年2月全部語料、2000年3月前20 000句語料,總計128 738句。其中,1998年1月(14 463句)和2000年1月(50 275句)經(jīng)過兩遍校對,剩余語料僅經(jīng)過一遍校對。為表述方便,我們將1998年1月樹庫稱為V1(12 000句,不含用于開發(fā)和測試的2 463句),V1加上2000年1月樹庫后稱為V2(62 275句),V2加上2000年2月和2000年3月前20 000句樹庫后稱為V3(126 275句)。
醫(yī)藥領(lǐng)域語料來自皮膚病領(lǐng)域教材和論文摘要,口語領(lǐng)域語料來自對外漢語口語教材,專利領(lǐng)域語料來自中文專利文獻(xiàn),微博領(lǐng)域語料為隨機(jī)抽選的微博,這四個領(lǐng)域樹庫僅經(jīng)過一遍校對。
進(jìn)行一遍校對時,參與人員通常在10到20人之間。進(jìn)行二遍校對時,參與人員比一校人員經(jīng)驗更為豐富,人數(shù)通常在4到6人之間。所有樹庫均按照PMT體系的標(biāo)注規(guī)范、采用相同的流程、使用相同的輔助工具構(gòu)建。
2.3 多領(lǐng)域樹庫差異分析
不同領(lǐng)域的樹庫在詞匯和語法等層面存在明顯差異,我們可以用平均句長、未登錄詞比例、平均依存距離等指標(biāo)來度量領(lǐng)域差異。句長指的是每個句子所含詞語的數(shù)量。依存距離指的是依存樹中子節(jié)點與父節(jié)點之間所間隔的詞的數(shù)量,其最小值即子節(jié)點與父節(jié)點相鄰時的值為1[11]。未登錄詞指的是出現(xiàn)在測試文本中但未出現(xiàn)在參照文本中的詞語,未登錄詞比例指的是測試文本中未登錄詞數(shù)量占其總詞數(shù)的比例;顯然,當(dāng)參照文本不同時,未登錄詞比例也會有所不同。
表 2中列出了通用樹庫和四個領(lǐng)域樹庫的規(guī)模等信息,計算平均句長和平均依存距離時以整個樹庫為計算范圍;計算未登錄詞比例時分別選擇2 463句、1 000句、1 000句、1 000句、1 000句、1 000句為各領(lǐng)域的測試文本(分別來自1998年1月人民日報樹庫的最后位置和四個領(lǐng)域樹庫的最后位置),分別選擇V1、V2、V3三個版本的通用樹庫作為參照文本,從而計算出三種未登錄詞比例。
如表 2所示,平均句長與平均依存距離具有明顯的相關(guān)性,句長值越大,依存距離也越大。CTB上的實驗[12]表明同一領(lǐng)域的句子,句長值越大,則句法分析的精度越低。但是句法分析受到多種因素的影響,不同領(lǐng)域之間的句長與句法分析精度之間并沒有必然聯(lián)系。
從V1、V2到V3,隨著參照文本規(guī)模的增大,各樹庫未登錄詞比例相應(yīng)減少。比較之下,口語和微博兩個領(lǐng)域未登錄詞比例要遠(yuǎn)遠(yuǎn)低于醫(yī)藥和專利兩個領(lǐng)域。如果以未登錄詞比例為衡量領(lǐng)域差異的標(biāo)準(zhǔn),則可以認(rèn)為口語和微博兩個領(lǐng)域與通用新聞領(lǐng)域差異較小,醫(yī)藥和專利兩個領(lǐng)域與通用新聞領(lǐng)域差異較大。
基于所構(gòu)建的大規(guī)模通用樹庫和中等規(guī)模的領(lǐng)域樹庫,可以分析質(zhì)量、規(guī)模和領(lǐng)域差異等因素對句法分析精度的影響。
3.1 實驗設(shè)置
數(shù)據(jù) 對于通用樹庫,參照Qiu等[9]選擇1998年1月份樹庫的12 001—13 000句作為開發(fā)集合,13 001-14 463句作為測試集合(由于二校版本質(zhì)量更高,因此在所有相關(guān)實驗中,通用新聞樹庫均選擇二校版本作為測試數(shù)據(jù))。對于四個領(lǐng)域樹庫,各選擇最后的1 000句作為測試集合。
依存句法分析器 本文在訓(xùn)練和測試時使用MATE-tools依存句法分析器3.61版*https://code.google.com/p/mate-tools/[13]。該句法分析器支持多線程訓(xùn)練,在多核計算機(jī)上可以獲得較高的訓(xùn)練速度;在精度上與ZPar[14]等句法分析器相當(dāng)[9],處于領(lǐng)先水平,明顯優(yōu)于MaltParser和MSTParser[15]。
評測標(biāo)準(zhǔn) 在評價依存句法分析精度時,我們使用UAS(Unlabeled Accuracy Score)和LAS(Labeled Accuracy Score)兩個指標(biāo)。UAS指不考慮依存關(guān)系標(biāo)簽時依存弧標(biāo)注正確的結(jié)點數(shù)占總結(jié)點數(shù)的比例,LAS指同時考慮依存關(guān)系標(biāo)簽和依存弧時標(biāo)注正確的結(jié)點數(shù)占總結(jié)點數(shù)的比例。后續(xù)實驗中在沒有特別說明的情況下均使用UAS值進(jìn)行比較,LAS值僅作參考。
3.2 樹庫質(zhì)量
在人工校對樹庫時,二校人員由一校人員中選拔而來,其熟練程度、對規(guī)范的把握程度均明顯優(yōu)于一校人員;二校在一?;A(chǔ)上進(jìn)行,其主要工作為修改一校人員校對結(jié)果中的錯誤。因此一般情況下二校結(jié)果在質(zhì)量上優(yōu)于一校結(jié)果。表 3列出了V1、V2和V3三個樹庫的一校、二校版本用做訓(xùn)練數(shù)據(jù)時的句法分析精度。
表3 基于一校、二校樹庫的句法分析精度比較
在同等規(guī)模的情況下,二校樹庫均明顯優(yōu)于一校樹庫。在使用V1、V2和V3時,二校比一校分別提升0.87%、1.36%和1.02%。值得特別說明的是,二校V2規(guī)模僅為一校V3的一半,精度卻高出0.47%。這一結(jié)果充分說明樹庫質(zhì)量對句法分析精度有較大影響,對一批樹庫進(jìn)行兩遍校對所得到的句法分析器精度上可能優(yōu)于對兩倍規(guī)模的樹庫進(jìn)行單遍校對所得到的句法分析器。較小的樹庫規(guī)模意味著占用內(nèi)存較小和運行速度更快,因此在規(guī)模和質(zhì)量間平衡時,應(yīng)優(yōu)先考慮質(zhì)量。
3.3 樹庫規(guī)模
句法分析精度與用做訓(xùn)練數(shù)據(jù)的樹庫規(guī)模關(guān)系也非常密切。表 3反映了三種不同規(guī)模的新聞樹庫句法分析精度的差異,V2規(guī)模是V1的五倍,V3規(guī)模是V2的兩倍。從表 3可以看出,無論一校樹庫還是二校樹庫,在樹庫規(guī)模增大時,句法分析精度均有明顯上升,從V1到V2,兩種版本的UAS分別提升了2.3%和2.8%,此時樹庫規(guī)模擴(kuò)大了四倍;從V2到V3,UAS分別提升了0.89%和0.55%,此時樹庫規(guī)模擴(kuò)大了一倍。二校版本中從V2到V3的提升低于一校版本,主要原因是二校版本中V3相比于V2增加的樹庫并沒有經(jīng)過二校。下文在沒有特別說明時,V1、V2、V3均指其二校版本。
表 4 基于不同規(guī)模特定領(lǐng)域樹庫的句法分析精度比較
表 4反映了不同規(guī)模的特定領(lǐng)域樹庫句法分析精度上的差異,規(guī)模從1 000、2 000、5 000、10 000到全部樹庫。從該表可以看出,在所有領(lǐng)域中,當(dāng)樹庫規(guī)模增加時,句法分析精度逐漸提高。比較之下,醫(yī)藥、口語和微博三個領(lǐng)域規(guī)模與精度增加的趨勢較為一致;專利領(lǐng)域樹庫從5 000增加到10 000時,句法分析精度提升幅度明顯比其他三個領(lǐng)域大,規(guī)模進(jìn)一步增加時句法分析精度基本上沒有新的提升。導(dǎo)致這一差異的主要原因是專利文獻(xiàn)包含化工、電子、機(jī)械、醫(yī)藥等多個子領(lǐng)域,子領(lǐng)域之間差異較大,從5 000增加到10 000時所增加的語料與測試語料比較接近,因此帶來較大幅度的提升。具體而言,在5 000句時,醫(yī)藥、口語、專利、微博四個領(lǐng)域測試數(shù)據(jù)的未登錄詞比例分別為8.1%、12.1%、9.9%和8.4%;增大到10 000句時,未登錄詞比例分別降為6.7%、8.5%、3.7%、6.3%。其中專利領(lǐng)域未登錄詞比例降幅最大,這應(yīng)該是導(dǎo)致專利領(lǐng)域精度顯著上升的主要原因。這一結(jié)果說明,對于專利這樣的復(fù)雜領(lǐng)域,應(yīng)考慮對子領(lǐng)域進(jìn)行細(xì)分,對各子領(lǐng)域分別建立語料庫。
3.4 領(lǐng)域差異
為考察領(lǐng)域差異對句法分析的影響,我們進(jìn)行了兩種實驗: 其一是測試基于通用樹庫訓(xùn)練的句法分析器在特定領(lǐng)域樹庫上的句法分析精度;其二是測試基于通用樹庫加一定數(shù)量領(lǐng)域樹庫訓(xùn)練的句法分析器在領(lǐng)域樹庫上的句法分析精度。前一種實驗的結(jié)果如表 5所示,用作訓(xùn)練數(shù)據(jù)的通用樹庫包括V1、V2和V3三個版本,相應(yīng)地在每個領(lǐng)域樹庫上可以得到三個句法分析結(jié)果。從該表可以看出,從V1到V2各領(lǐng)域的句法分析精度均有穩(wěn)定提升,幅度從1.4%到3.6%;從V2到V3時,醫(yī)藥領(lǐng)域有1%左右的提升,但口語、專利、微博三個領(lǐng)域僅有微小提升甚至有所下降。
表 5 基于通用樹庫的句法分析器 在四個領(lǐng)域上的句法分析結(jié)果
基于通用樹庫的最優(yōu)句法分析效果在醫(yī)藥(81.27%)和專利(74.61%)這兩個領(lǐng)域中基本與使用1 000句領(lǐng)域樹庫訓(xùn)練的結(jié)果(分別為81.17%和75.31)相當(dāng)(參見表 4);在口語和微博這兩個領(lǐng)域中則可與使用10 000句領(lǐng)域樹庫訓(xùn)練的結(jié)果相當(dāng)。如表 2所示,醫(yī)藥和專利這兩個領(lǐng)域與通用新聞的差異較大,未登錄詞比例在17%以上;口語和微博這兩個領(lǐng)域則與通用新聞差異較小,未登錄詞比例在8%以下。由此說明,在與通用新聞差異較小的領(lǐng)域中,通用樹庫對領(lǐng)域樹庫的替代性*如果使用前者訓(xùn)練的句法分析器精度上好于基于后者訓(xùn)練的句法分析器,或者與后者相當(dāng),則我們認(rèn)為前者對后者的替代性較好,否則可認(rèn)為替代性較差。較好,當(dāng)領(lǐng)域樹庫規(guī)模較小時, 其性能通常會弱于通用句法分析器,因此沒有必要構(gòu)建小規(guī)模的此類樹庫;在與通用新聞差異較大的領(lǐng)域中,通用樹庫對領(lǐng)域樹庫的替代性較差,有必要為特定領(lǐng)域構(gòu)建新的樹庫。
如2.3節(jié)所述,領(lǐng)域差異體現(xiàn)在多個角度(平均句長、平均依存距離、未登錄詞比例等),上述實驗表明以未登錄詞比例為標(biāo)準(zhǔn)的領(lǐng)域差異與領(lǐng)域遷移時句法分析精度變化的趨勢呈現(xiàn)明顯的相關(guān)性,因此在后續(xù)的分析中主要使用未登錄詞比例作為度量領(lǐng)域差異的標(biāo)準(zhǔn),未登錄詞比例越高,則領(lǐng)域差異越大。
后一種實驗的結(jié)果如表 6和表 7所示。表 6中通用樹庫為V1(12 000句),領(lǐng)域樹庫的規(guī)模包括(參見表 4)的結(jié)果,說明此時通用樹庫和領(lǐng)域樹庫的互補性較強;當(dāng)領(lǐng)域樹庫規(guī)模為5 000、10 000和全部時,這一趨勢基本未變,但醫(yī)藥和專利兩個領(lǐng)域中效果有所減弱, 通用樹庫加領(lǐng)域樹庫的效果基本與單獨使用領(lǐng)域樹庫相當(dāng)甚至比之稍差。這一結(jié)果說明,當(dāng)領(lǐng)域樹庫達(dá)到一定規(guī)模(例如,5 000句以上)且與通用領(lǐng)域樹庫差異較大時,可單獨使用領(lǐng)域樹庫訓(xùn)練句法分析器,其精度與領(lǐng)域樹庫加上通用樹庫相當(dāng);當(dāng)與通用領(lǐng)域樹庫差異較小時,混合使用通用和領(lǐng)域樹庫訓(xùn)練的句法分析器通常能比單獨使用領(lǐng)域樹庫有一定程度的提升。
表 6 基于通用樹庫V1加領(lǐng)域樹庫的句法分析器在四個領(lǐng)域上的句法分析結(jié)果
表 7 基于通用樹庫V2加領(lǐng)域樹庫的句法分析器在四個領(lǐng)域上的句法分析結(jié)果
1 000、2 000、5 000、10 000和全部五種。當(dāng)領(lǐng)域樹庫規(guī)模為1 000時,通用樹庫加領(lǐng)域樹庫的效果明顯好于單獨使用通用樹庫(參見表 5)或者領(lǐng)域樹庫
表 7中通用樹庫為V2(62 275句),領(lǐng)域樹庫的規(guī)模包括1 000、2 000、5 000、10 000和全部五種。當(dāng)領(lǐng)域樹庫規(guī)模為1 000時,通用樹庫加領(lǐng)域樹庫的效果明顯好于單獨使用通用樹庫(參見表 5)或者領(lǐng)域樹庫(參見表 4)的結(jié)果,并且好于表 6中的相應(yīng)精度;規(guī)模為2 000時,口語和微博兩個領(lǐng)域比規(guī)模為1 000時有所下降,醫(yī)藥和專利兩個領(lǐng)域則繼續(xù)上升;規(guī)模為5 000、10 000和全部時,精度均繼續(xù)上升,但是醫(yī)藥和專利兩個領(lǐng)域均比表 6中的相應(yīng)精度要低。該結(jié)果表明,當(dāng)領(lǐng)域樹庫規(guī)模較小(2 000以下)時,通用樹庫規(guī)模越大,與領(lǐng)域樹庫混合使用時所取得的提升也越明顯;當(dāng)領(lǐng)域樹庫規(guī)模較大(5 000以上)時,通用樹庫規(guī)模的持續(xù)增大,并不一定能帶來精度提升,當(dāng)通用樹庫和領(lǐng)域樹庫領(lǐng)域差異較大時甚至?xí)砩倭肯陆怠?/p>
中文樹庫方面,目前達(dá)到一定規(guī)模的中文樹庫有賓州短語結(jié)構(gòu)樹庫(CTB)[16]、Sinica依存樹庫[17]、清華短語結(jié)構(gòu)樹庫[18]、國家語委短語結(jié)構(gòu)樹庫[19]、北大短語結(jié)構(gòu)樹樹庫[20]和哈工大中文依存樹庫(HTB)[8],其規(guī)模分別為160萬詞(2013版[21])、36萬詞、100萬詞、100萬字、130萬詞、111萬詞。就文本類型來說,CTB包括新華社新聞、新聞雜志、博客、廣播訪談、廣播新聞等多種類型,HTB主要來自1992年到1996年人民日報,清華樹庫分新聞、文學(xué)、說明文、科技四種語體。
樹庫轉(zhuǎn)換和融合方面,李正華等[4]將CTB轉(zhuǎn)換成HTB,并混合起來進(jìn)行句法分析實驗,在加入小規(guī)模CTB時,句法分析精度有所提升,進(jìn)一步增加時則有所下降。Li等[5]提出新的轉(zhuǎn)換方法,將HTB轉(zhuǎn)換為CTB,并混合起來進(jìn)行實驗,在CTB5和CTB6上分別提升了1.37%和1.10%。兩個研究的結(jié)論有所不同,可能的原因是后者采用了新的轉(zhuǎn)換方法提升了轉(zhuǎn)換質(zhì)量。從CTB5到CTB6提升的幅度有所下降,主要是因為CTB6的規(guī)模(78萬詞)大于CTB5(51萬詞),從而使得新加入樹庫(HTB)的影響變小。
此外,Sagae等[6]分析了樹庫規(guī)模對句法分析的影響,實驗中使用的樹庫(英文樹庫GENIA,內(nèi)容為生物學(xué)科技文獻(xiàn)摘要)規(guī)模從100、200一直到1 000(以100為間隔),之后從2 000、3 000一直到8 000(以1 000為間隔),實驗結(jié)果表明在1 000句之間,每增加100句都會有顯著提升,1 000之后每增加1 000句也只會有緩慢提升。這一結(jié)果與本文規(guī)模因素部分(3.3節(jié))的實驗基本一致。與之相比,本文這一方面的實驗涉及領(lǐng)域更多、樹庫規(guī)模更大,同時觀察到少量異常情況,并用領(lǐng)域差異對之進(jìn)行了解釋。
本文基于所構(gòu)建的大規(guī)模通用依存樹庫和中等規(guī)模的領(lǐng)域依存樹庫,通過一系列實驗分析了樹庫質(zhì)量、規(guī)模和領(lǐng)域差異等因素對中文句法分析精度的影響。實驗結(jié)果表明: (1)樹庫質(zhì)量對句法分析精度有較大影響,對一定規(guī)模樹庫進(jìn)行兩遍校對所得句法分析器性能優(yōu)于對兩倍規(guī)模樹庫進(jìn)行單遍校對,因此在質(zhì)量和規(guī)模間進(jìn)行平衡時應(yīng)優(yōu)先考慮質(zhì)量;(2)無論是通用樹庫還是領(lǐng)域樹庫,在規(guī)模增加(從1 000句到12萬句)時均能帶來精度的提升,但提升幅度逐漸減少;(3)在已有大規(guī)模通用樹庫的情況下,如果一個特定領(lǐng)域與通用領(lǐng)域差異較小,則沒有必要為之構(gòu)建中等規(guī)模(5000以下)的樹庫;當(dāng)特定領(lǐng)域與通用領(lǐng)域差異較大時,即使構(gòu)建1 000句規(guī)模的樹庫,性能也可能超過單獨使用通用樹庫;(4)特定領(lǐng)域樹庫規(guī)模較小(2 000句以下)時,混合使用通用樹庫和領(lǐng)域樹庫通常能帶來明顯的提升,此時通用樹庫規(guī)模的增大也能帶來進(jìn)一步的提升;(5)特定領(lǐng)域樹庫規(guī)模較大(5 000句以上)時,如通用樹庫和領(lǐng)域樹庫差異較小,則混合使用二者能帶來精度提升;如差異較大,則單獨使用特定領(lǐng)域樹庫即可獲得與混合使用相當(dāng)乃至更好的效果。
[1] Ryan McDonald, Fernando Pereira, Kiril Ribarov, et al. Non-projective dependency parsing using spanning tree algorithms[C]//Proceedings of HLT-EMNLP, 2005: 523-530.
[2] Joakim Nivre. Inductive dependency parsing[M]. Springer.2006.
[3] Slav Petrov, Ryan McDonald. Overview of the 2012 Shared Task on Parsing the Web[C]//Notes of the First Workshop on Syntactic Analysis of Non-Canonical Language, 2012.
[4] 李正華,車萬翔,劉挺.短語結(jié)構(gòu)樹庫向依存樹庫轉(zhuǎn)化研究[J].中文信息學(xué)報, 2008,22(6): 14-19.
[5] Zhenhua Li, Ting Liu, Wanxiang Che. Exploiting multiple treebanks for parsing with quasisynchronous grammars[C]//Proceedings of ACL, 2012: 675-684.
[6] Kenji Sagae, Yusuke Miyao, Rune Stre, et al. Evaluating the Effects of Treebank Size in a Practical Application for Parsing[C]//Proceedings of ACL 2008 Workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, 2008: 14-20.
[7] Meishan Zhang, Yue Zhang, Wanxiang Che, et al. Type-Supervised Domain Adaptation for Joint Segmentation and POS-Tagging[C]//Proceedings of EACL, 2014: 588-597.
[8] Wanxiang Che, Zhenghua Li, Ting Liu. Chinese Dependency Treebank 1.0 LDC2012T05[DB]. Web Download. Philadelphia: Linguistic Data Consortium, 2012.
[9] Likun Qiu, Yue Zhang, Peng Jin, et al. Multi-view Chinese treebanking[C]//Proceedings of COLING, 2014: 257-268.
[10] Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, et al. Discriminative reordering with Chinese grammatical relations features[C]//Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation, 2009: 51-59.
[11] 劉海濤. 基于依存樹庫的漢語句法計量研究[J]. 長江學(xué)術(shù), 2008, 3:120-128.
[12] Wenliang Chen, Jun'ichi Kazama, Kiyotaka Uchimoto, et al. Improving Dependency Parsing with Subtrees from Auto-Parsed Data[C]//Proceedings of EMNLP, 2009, 2: 570-579.
[13] Bernd Bohnet. Top accuracy and fast dependency parsing is not a contradiction[C]//Proceedings of Coling, 2010: 89-97.
[14] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search[J]. Computational Linguistics, 2011, 37(1): 105-151.
[15] Wanxiang Che, Valentin Spitkovsky, Ting Liu. A comparison of Chinese parsers for Stanford dependencies[C]//Proceedings of EACL, 2012: 11-16.
[16] Nianwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank: Phrase Structure Annotation of a Large Corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[17] 陳鳳儀,蔡碧芳,陳克健,等. 中文句結(jié)構(gòu)樹資料庫 (Sinica Treebank)的構(gòu)建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[18] 周強.2004.漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報, 2004, 18(4): 1-8.
[19] 靳光瑾,肖航,富麗,等.現(xiàn)代漢語語料庫建設(shè)及深加工[J].語言文字應(yīng)用, 2005, 2: 111-120.
[20] 詹衛(wèi)東.樹庫在漢語語法輔助教學(xué)中的應(yīng)用初探[J]. Journal of Technology and Chinese Language Teaching, 2012, 3(2): 16-29.
[21] Nianwen Xue, Xiuhong Zhang, Zixin Jiang, et al. Chinese Treebank 8.0 LDC2013T21[DB]. Web Download. Philadelphia: Linguistic Data Consortium. 2013.
Construction of Multi-Domain Chinese Dependency Treebanks and A Study on Factors Influencing the Statistical Parsing
QIU Likun1, SHI Linlin1, WANG Houfeng2
(1. School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China;2. Institute of Computational Linguistics, Peking University, Beijing 100871, China)
To boost Chinese dependency parsing and analyze factors influencing Chinese dependency parsing, we constructe a large-scale general treebank and several middle-scale treebanks for specific domains. Then, we performe experiments to evaluate the parsing accuracy influenced by the quality, the scale and the domain difference of the dependency treenbank. The results show that both the treebank quality and its scale are positively related to parsing accuracy, and the quality is more influential. The experiments also demonstrate that general treebanks and domain treebanks are complementary, and, whether a general treebank and domain treebank should be used together is dependent on the difference between them.
dependency treebank; domain adaptation; dependency parsing
邱立坤(1979—),博士、副教授,主要研究領(lǐng)域為計算語言學(xué)。E-mail:qiulikun@gmail.com史林林(1990—),碩士研究生,主要研究領(lǐng)域為語料庫語言學(xué)。E-mail:shilinalive@163.com王厚峰(1965—),博士、教授,主要研究領(lǐng)域為語篇分析、語言知識庫與領(lǐng)域知識庫、情感分析等。E-mail:wanghf@pku.edu.cn
1003-0077(2015)05-0069-07
2015-07-10 定稿日期: 2015-09-10
國家社科基金重大項目(12&ZD227);國家自然科學(xué)基金(61572245,61370117,61103089);教育部新世紀(jì)優(yōu)秀人才支持計劃(NECT-11-0839);山東省優(yōu)秀中青年科學(xué)家科研獎勵基金(BS2013DX020);魯東大學(xué)人文社會科學(xué)研究項目(WY2013003)
TP391
A