亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語組塊分析研究綜述

        2013-04-23 10:15:19李業(yè)剛黃河燕
        中文信息學(xué)報 2013年3期
        關(guān)鍵詞:組塊語料庫短語

        李業(yè)剛,黃河燕

        (1. 北京理工大學(xué) 計算機(jī)學(xué)院,北京 100081;2. 山東理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

        1 引言

        句法分析是自然語言處理中的重點和難點,雖然經(jīng)過幾十年的研究和發(fā)展,仍是自然語言處理的一個瓶頸問題。采用“分而治之”的方法,進(jìn)行淺層的句法分析可以降低完全句法分析的難度。組塊分析作為淺層句法分析的代表致力于識別句子中的某些結(jié)構(gòu)相對簡單、功能和意義相對重要的成分,只限于把句子解析成較小的單元,而不揭示這些單元之間的句法關(guān)系。

        繼Abney[1]率先提出了組塊分析的思想后,國際會議CoNLL-2000把組塊分析作為共享任務(wù)[2]提出,組塊分析逐步受到重視。人們對于基本名詞短語、介詞短語,繼而擴(kuò)大到所有類型短語的識別等問題做了大量的研究。目前的組塊分析技術(shù)由于受到相關(guān)語言處理研究及信息處理技術(shù)應(yīng)用兩個方面的驅(qū)動,已成為自然語言領(lǐng)域中一個重要研究內(nèi)容而受到廣泛關(guān)注。

        2 組塊分析的任務(wù)

        Abney[1]將句法分析問題分為三個階段:

        (1) 塊識別: 利用基于有限狀態(tài)分析機(jī)制的塊識別器識別出句子中所有的塊。

        (2) 塊內(nèi)結(jié)構(gòu)分析: 對每個塊內(nèi)部的成分賦予合適的句法結(jié)構(gòu)。

        (3) 塊間關(guān)系分析: 利用塊連接器將各個不同的塊組合成完整的句法結(jié)構(gòu)樹。

        淺層句法分析的結(jié)果并不是一棵完整的句法樹,各個組塊是完整句法樹的一個子圖,只要加上組塊之間的依附關(guān)系,就可以構(gòu)成完整的句法樹,對語塊的識別是組塊分析的主要任務(wù)[3]。

        3 組塊的定義和類型

        Abney[1]最早提出了一個完整的組塊描述體系,他把組塊定義為句子中一組相鄰的屬于同一個s-投射的詞語的集合,建立了組塊與管轄約束理論的X-bar系統(tǒng)的內(nèi)在聯(lián)系,從而奠定了語塊描述體系的比較堅實的理論基礎(chǔ)。在自然語言學(xué)國際會議(CoNLL-2000)的共享任務(wù)組塊分析中,在Abney描述的組塊定義框架的基礎(chǔ)上,重新分解和細(xì)化了組塊的定義,對英文組塊的定義達(dá)成了共識:句子是由一些短語構(gòu)成,而每一個短語內(nèi)是由句法相關(guān)的詞構(gòu)成,這些短語彼此不重疊、無交集,不含嵌套關(guān)系。

        3.1 中文組塊的定義

        受限于中文句法分析的定義問題,最初中文組塊并不是覆蓋整個句子的,而是側(cè)重對基本名詞短語、介詞短語以及短語自動界定的研究。文獻(xiàn)[4-5]首次提出了中文的基本名詞短語的形式化定義,提出了用詞語潛在依存關(guān)系分析baseNP結(jié)構(gòu)的模型,將依存語法知識融入概率模型中,使得baseNP結(jié)構(gòu)分析在依存語法知識的指導(dǎo)下進(jìn)行,開放測試精確率82%,召回率91.5%。文獻(xiàn)[6]設(shè)計了一種基于轉(zhuǎn)換的基本名詞短語識別模型,該模型可同時結(jié)合表示基本名詞短語句法組成的基本結(jié)構(gòu)模板(靜態(tài)知識)與表示基本名詞短語出現(xiàn)的上下文環(huán)境特征的轉(zhuǎn)換規(guī)則(動態(tài)知識)識別基本名詞短語,開放測試精確率89.3%,召回率92.8%。文獻(xiàn)[7]使用了基于最大熵的方法識別中文基本名詞短語。在開放語料Chinese TreeBank上,只使用詞性標(biāo)注,達(dá)到了88.09%的準(zhǔn)確率。文獻(xiàn)[8]對漢語中最常用的介詞“在”進(jìn)行了實驗,開放測試的準(zhǔn)確率93%。

        但是除名詞組塊和介詞組塊外,中文句子中還有很多其他結(jié)構(gòu)的組塊,如動詞組塊,形容詞組塊等。漢語的句法體系至今還沒有一個像英文那樣統(tǒng)一的完全公開的訓(xùn)練語料庫[9]為各種漢語組塊分析方法提供統(tǒng)一的評測平臺。從公開的研究成果可以看出,研究者們根據(jù)自己的研究目的提出了各自不同的塊描述體系。

        文獻(xiàn)[10]在Abney定義的基礎(chǔ)上,對漢語組塊定義為:組塊是一種語法結(jié)構(gòu),是符合一定語法功能的非遞歸短語,每個組塊都有一個中心詞,并圍繞該中心詞展開,以中心詞作為組塊的開始或結(jié)束。任何一種類型的組塊內(nèi)部不包含其他類型的組塊。并提出了非遞歸、不重疊、覆蓋三個組塊劃分原則。文獻(xiàn)[11]與CoNLL-2000類似,將基本短語定義為句子中相鄰的、不嵌套的(允許在黏合式定中結(jié)構(gòu)中出現(xiàn)一級嵌套)、內(nèi)部不包含其他基本短語、主要由實詞(名詞、動詞、形容詞、數(shù)詞、量詞、副詞等)組成的詞語序列。文獻(xiàn)[12]提出了基于拓?fù)浣Y(jié)構(gòu)的基本塊描述體系,通過引入詞匯關(guān)聯(lián)信息確定基本拓?fù)浣Y(jié)構(gòu),形成了基本塊內(nèi)聚性判定準(zhǔn)則,確定不同基本塊的內(nèi)部關(guān)系標(biāo)記,將緊密結(jié)合的述賓結(jié)構(gòu)關(guān)系納入基本塊描述體系中。文獻(xiàn)[13]通過引入詞匯關(guān)聯(lián)信息確定基本拓?fù)浣Y(jié)構(gòu),形成了很好的基本塊內(nèi)聚性判定準(zhǔn)則,建立了句法形式與語義內(nèi)容的有機(jī)聯(lián)系橋梁。這套描述體系大大簡化了從現(xiàn)有的句法樹庫TCT中自動提取基本塊標(biāo)注語料庫和相關(guān)詞匯關(guān)聯(lián)知識庫的處理過程,為進(jìn)一步進(jìn)行漢語基本塊自動分析和詞匯關(guān)聯(lián)知識獲取研究打下了很好的基礎(chǔ)。文獻(xiàn)[14]定義組塊是一種具有一定句法功能的非遞歸、不重疊、不嵌套的短語。包含一個中心成分以及中心成分的前置修飾成分,而不包含后置附屬結(jié)構(gòu)。它對組塊的基本劃分原則為:每個組塊都有一個核心詞,并圍繞核心詞展開,以核心詞作為組塊的開始或結(jié)束;組塊是嚴(yán)格按照句法定義的,不能破壞句子的句法結(jié)構(gòu),也不體現(xiàn)句子的語義和功能;組塊的劃分只依據(jù)局部的表層信息,例如詞信息、詞性信息等,而不能考慮遠(yuǎn)距離約束以及句子的整體句法結(jié)構(gòu)。

        Abney定義的組塊強調(diào)對局部的句法進(jìn)行相關(guān)描述,側(cè)重于從底向上把句子分割成不同的組塊,文獻(xiàn)[10,14]與Abney的定義類似;清華大學(xué)的組塊體系[11-13]強調(diào)對句子整體功能的描述,側(cè)重于自頂向下地描述句子的基本骨架。CoNLL的組塊一般比較簡單,平均每個塊只包含1~2個詞語,而清華大學(xué)的組塊比較復(fù)雜,有的組塊甚至包含10~20個詞語。組塊粒度越大,確定性就越強,進(jìn)一步的分析也就越容易,而組塊本身的正確識別卻比較困難。

        3.2 中文組塊的類型

        文獻(xiàn)[11]根據(jù)賓州大學(xué)中文句法分析樹庫的語料和句法標(biāo)記類型,并結(jié)合漢語特點從中抽取出了12種漢語組塊類型,并根據(jù)這些組塊類型和賓州大學(xué)中文樹庫短語類型的對應(yīng)關(guān)系進(jìn)行了轉(zhuǎn)化得到組塊庫。其定義的組塊長度較短,平均每個組塊只含有1.57個漢字。文獻(xiàn)[15]針對機(jī)器翻譯提出了擴(kuò)展組塊(E-Chunk)的概念及其體系。更多研究者根據(jù)自己的研究目的提出了各自不同的組塊類型[16-23]。從組塊包含詞的個數(shù)來看,組塊粒度越大,組塊概念的確定性就越強,進(jìn)一步的分析也就越容易,而組塊本身的正確識別卻比較困難。組塊粒度過大,組塊分析任務(wù)就成了完全句法分析問題;而粒度過小,則成了詞性標(biāo)注的問題。因此組塊粒度的選取是一個重要問題,要同時保證組塊簡單性和概念確定性。另外,中國香港理工大學(xué)計算機(jī)系的陸勤教授[24]和中國臺灣“中央研究院”的許聞廉教授[25]在中文簡體和繁體組塊分析語料庫的建設(shè)方面做出了卓有成效的工作。

        4 組塊分析結(jié)果的評測

        通常用正確率(P),召回率(R)和F值作為組塊分析結(jié)果的評測指標(biāo)。對于某種類型的組塊,其正確率、召回率和F值分別為:

        對于所有類型的組塊,識別的正確率和召回率分別為:

        F值的計算方法跟單一類型相同。

        對于所有類型的組塊,在計算正確標(biāo)注組塊的個數(shù)時,不僅要考慮組塊的前后界劃分要正確,而且組塊的類型標(biāo)注也要正確。如果被識別出來的組塊,其類型標(biāo)記錯誤,那么這個組塊也不是被正確標(biāo)注的組塊。比如把數(shù)量詞組塊標(biāo)注成名詞組塊,即使是組塊的邊界劃分正確,也不是被正確標(biāo)注的組塊。

        繼CoNLL-2000設(shè)計了英文組塊分析共享分析任務(wù),文獻(xiàn)[26]針對漢語的描述特點,提出了三項漢語組塊分析評測任務(wù): 基本組塊分析、功能組塊分析和事件描述小句識別。

        5 組塊的標(biāo)注形式

        組塊的標(biāo)注形式主要包括兩類:第一類是Inside/Outside表示方法;第二類是Start/End表示方法。Inside/Outside的表示方法首先由Ramshaw和Marcus[27]提出,采用了組塊標(biāo)記集合{I,O,B},在識別多種類型的組塊時,組塊標(biāo)記的含義為:B-X表示X類型組塊的開始并且其前面的詞屬于另一個組塊;I-X表示X類型組塊的內(nèi)部,可以是組塊的開始;O表示不屬于任何組塊。文獻(xiàn)[28-29]把上述表示方法稱為IOB1,并在此基礎(chǔ)上提出了IOB2,IOE1和IOE2表示方法。在IOB2中,B-X表示X類型組塊的開始;I-X表示X類型組塊的內(nèi)部,但不是組塊的開始;O表示不屬于任何組塊。在IOE1中,E-X表示X類型組塊的結(jié)尾,并且其后面的詞屬于另一個組塊;I-X表示X類型組塊的內(nèi)部,可以是組塊的結(jié)尾;O表示不屬于任何組塊.在IOE2中,E-X表示X類型組塊的結(jié)尾;I-X表示X類型組塊的內(nèi)部,但不是組塊的結(jié)尾;O表示不屬于任何組塊。

        Start/End表示方法是曾用于日語實體名詞識別的IOBES方法[30]。B-X表示X類型組塊的開始,該組塊至少包含兩個詞;E-X表示X類型組塊的結(jié)尾,該組塊至少包含兩個詞;I-X表示X類型組塊的內(nèi)部,該組塊至少包含三個詞;O表示不屬于任何組塊;S-X表示該X類型的組塊由一個詞組成。

        6 組塊識別

        利用機(jī)器學(xué)習(xí)方法來解決組塊識別問題主要有兩種基本思路:基于統(tǒng)計的方法和基于規(guī)則的方法,當(dāng)然也可以采用規(guī)則和統(tǒng)計相結(jié)合的方法。

        英文的組塊分析已經(jīng)建立了統(tǒng)一的標(biāo)準(zhǔn)和數(shù)據(jù)集,很多學(xué)者嘗試了大量的機(jī)器學(xué)習(xí)算法[31-40]來解決組塊分析問題。Church[31]將英語的基本名詞短語定義為簡單非嵌套名詞短語,并將文本中的基本名詞短語識別問題看作是給每個詞加標(biāo)記的過程,利用基于詞性標(biāo)記的N元同現(xiàn)的概率統(tǒng)計方法和Viterbi方法來解決。文獻(xiàn)[32]在Church的研究基礎(chǔ)上,采用了基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)方法來解決基本名詞短語識別問題,并得到了召回率88%的實驗結(jié)果,這也是機(jī)器學(xué)習(xí)方法首次被應(yīng)用到短語識別問題中。文獻(xiàn)[33]提出了基于word-only思想的組塊分析模型。模型只利用了詞特征和詞綴特征,對CoNLL-2000英文組塊分析訓(xùn)練語料庫的規(guī)模進(jìn)行擴(kuò)充,在訓(xùn)練語料庫達(dá)到50 000萬句的情況下,性能曲線超過了利用詞和詞形特征的模型的性能曲線。文獻(xiàn)[34]應(yīng)用了Winnow的方法,并引入了訓(xùn)練語料之外的英文槽語法來解決組塊分析問題,取得了94.17%的分析性能。文獻(xiàn)[35]應(yīng)用了基于存儲的機(jī)器學(xué)習(xí)方法,結(jié)合手寫規(guī)則的方式解決組塊分析問題,在韓語組塊分析語料庫上取得了94.21%的性能。文獻(xiàn)[36]應(yīng)用了半指導(dǎo)學(xué)習(xí)的方法解決組塊分析問題,一方面使用了人工標(biāo)注好的CoNLL-2000數(shù)據(jù),另一方面使用了大量的未標(biāo)注數(shù)據(jù)來訓(xùn)練分析模型,取得了94.39%的分析性能。文獻(xiàn)[40]采用了多個支持向量機(jī)模型融合,結(jié)合動態(tài)規(guī)劃技術(shù)的機(jī)制進(jìn)行組塊分析,取得了2000年的CoNLL-2000會議評測中最佳的分析性能93.48%。漢語組塊識別借鑒英語組塊識別的方法也有大量的嘗試。由于中文和英文在書寫方法上存在著根本的不同,中文詞與詞之間沒有顯式的分隔標(biāo)記,詞的定義也比較模糊。在組塊分析之前的語言處理任務(wù)除了跟英文相同的詞性標(biāo)注和未登錄詞識別外還有分詞。這也就意味著中文組塊識別的難度比英文要更大一些。

        6.1 基于規(guī)則的方法

        規(guī)則方法就是根據(jù)人工書寫的或(半)自動獲取的語法規(guī)則標(biāo)注出短語的邊界和短語的類型。在基于規(guī)則的方法中,主要的困難在于語法規(guī)則的獲取以及語法規(guī)則之間的優(yōu)先順序排列?,F(xiàn)在一般都采用機(jī)器學(xué)習(xí)的方法來自動獲取規(guī)則。

        Abney提出組塊的概念后,針對英語,在文獻(xiàn)[41]中提出把句法分析的過程分成很多個層次,每個層次都只輸出一個結(jié)果,而在每個層次內(nèi)部只使用簡單的有限狀態(tài)自動機(jī)進(jìn)行分析。漢語方面,文獻(xiàn)[42]在詞匯知識庫支持下,從標(biāo)注語料庫中自動獲取所有基于詞類的基本塊規(guī)則,通過設(shè)置規(guī)則置信度自動排除大量低可靠和無效規(guī)則。針對其中的高頻低可靠規(guī)則,不斷引入更多的內(nèi)部詞匯約束和外部語境限制知識,使之逐步進(jìn)化為描述能力更強的結(jié)構(gòu)化規(guī)則。數(shù)量組塊、時間組塊和形容組詞塊的F值達(dá)到了93%左右,多詞語動詞組塊、名詞組塊和空間組塊的F值分別為87%、84%和83%。

        6.2 基于統(tǒng)計的方法

        機(jī)器學(xué)習(xí)方法可以分為有指導(dǎo)學(xué)習(xí)方法、無指導(dǎo)學(xué)習(xí)方法和半指導(dǎo)學(xué)習(xí)方法。有指導(dǎo)方法難點在于構(gòu)造一個大規(guī)模的標(biāo)注語料庫是要花費大量的人力物力的,而無指導(dǎo)的缺點則在于一般的迭代算法的復(fù)雜度都很高,運算效率較差,并且不能很好地保證最終訓(xùn)練結(jié)果的語法可靠性。

        6.2.1 有指導(dǎo)學(xué)習(xí)方法

        有指導(dǎo)學(xué)習(xí)方法是通過學(xué)習(xí)已知數(shù)據(jù)的特征以及對應(yīng)的結(jié)果度量,建立起預(yù)測模型來預(yù)測并度量未知數(shù)據(jù)的特征和結(jié)果。雖然無指導(dǎo)和半指導(dǎo)的學(xué)習(xí)方法取得了一定的成果,但是大規(guī)模語料庫支撐下的有指導(dǎo)學(xué)習(xí)仍舊是中文語言處理的主流方法。

        文獻(xiàn)[43]采用了一種基于增益的隱馬爾可夫模型的方法來進(jìn)行漢語組塊的研究。在哈爾濱工業(yè)大學(xué)樹庫語料測試的F值為82.38%。文獻(xiàn)[44]將中文組塊識別問題看成分類問題,并利用SVM加以解決,在哈爾濱工業(yè)大學(xué)樹庫語料測試的F值是88.67%。文獻(xiàn)[45]在SVMs模型的基礎(chǔ)上,提出基于大間隔方法的漢語組塊分析方法,給出判別式的序列化標(biāo)注函數(shù)的優(yōu)化目標(biāo),并應(yīng)用割平面算法實現(xiàn)對特征參數(shù)的近似優(yōu)化訓(xùn)練。通過在賓州中文樹庫CTB4數(shù)據(jù)集上的實驗數(shù)據(jù)顯示,各種類型組塊識別的總的F值為91.61%。文獻(xiàn)[46-47]將條件隨機(jī)域模型應(yīng)用到中文組塊分析中,其中文獻(xiàn)[46]利用語義詞典抽取語義類特征,將其加入分析模型,得到92.77%的F值。文獻(xiàn)[22]將有向圖語言模型應(yīng)用于漢語組塊分析,將候選組塊標(biāo)記映射為有向圖節(jié)點,根據(jù)候選組塊標(biāo)記之間的接續(xù)關(guān)系確定節(jié)點之間是否存在有向邊。利用詞、詞性和組塊標(biāo)記的統(tǒng)計信息為有向邊賦值。組塊分析的F值為84.99%。文獻(xiàn)[50]提出了一種基于CRFs的分布式策略及錯誤驅(qū)動的方法識別漢語組塊,首先將11種類型的漢語組塊進(jìn)行分組,結(jié)合CRFs構(gòu)建不同的組塊識別模型來識別組塊;之后利用基于CRFs的錯誤驅(qū)動技術(shù)自動對分組組塊進(jìn)行二次識別;最后依據(jù)各分組F值大小順序處理類型沖突。系統(tǒng)開放式測試的F值達(dá)到92.91%。

        文獻(xiàn)[21]提出基于Stacking算法的多分類器組合方法,通過構(gòu)造一個兩層的疊加式框架結(jié)構(gòu),將4種分類器(fnTBL、SNoW、SVM、MBL)進(jìn)行了組合,并融合各種可能的上下文信息作為各層分類器的輸入特征向量,組合后的分類器在哈爾濱工業(yè)大學(xué)樹庫語料的測試中F值達(dá)到93.64。文獻(xiàn)[51]給出了雙規(guī)則(DR-AdaBoost)分類算法。算法在每次迭代中將雙規(guī)則(最優(yōu)弱分類規(guī)則和次優(yōu)弱分類規(guī)則)的線性組合作為迭代的評價標(biāo)準(zhǔn),應(yīng)用在漢語組塊分析中F值為89.92%。

        6.2.2 半指導(dǎo)和無指導(dǎo)學(xué)習(xí)方法

        半指導(dǎo)學(xué)習(xí)是使用大量的未標(biāo)注數(shù)據(jù)和一部分標(biāo)注的數(shù)據(jù)來構(gòu)建分類器或者模型,對未標(biāo)注的數(shù)據(jù)進(jìn)行標(biāo)注和判斷。無指導(dǎo)學(xué)習(xí)是利用從總體給出的樣本信息來做出推斷和描述數(shù)據(jù)的組織和聚類。

        文獻(xiàn)[52-53]提出了一種基于信息熵的層次詞聚類算法,并將該算法產(chǎn)生的詞簇作為特征應(yīng)用到中文組塊分析模型中。利用中文組塊語料庫中的詞及其組塊標(biāo)記作為基本信息,采用二元層次聚類的方法形成具有一定句法功能的詞簇。用詞簇特征代替?zhèn)鹘y(tǒng)的詞性特征應(yīng)用到組塊分析模型中,并引入命名實體和仿詞識別模塊,F(xiàn)值為82.69%。文獻(xiàn)[54]采用co-training實現(xiàn)中文組塊識別。選取增益的隱馬爾可夫模型和基于轉(zhuǎn)換規(guī)則的分類器(fnTBL)組合成一個分類體系,對co-training算法中兩種不同的策略進(jìn)行了比較,一種是選擇緩存器中的所有實例的方法,一種是保證兩個分類器在未帶標(biāo)數(shù)據(jù)的一致性方法,在小規(guī)模標(biāo)注的漢語樹庫語料和大規(guī)模未標(biāo)注漢語語料上進(jìn)行中文組塊識別,F(xiàn)值分別達(dá)到了85.34%和83.41%。

        6.2.3 混合學(xué)習(xí)方法

        使用有指導(dǎo)的統(tǒng)計方法和無指導(dǎo)的聚類方法結(jié)合,可以提高無指導(dǎo)聚類的準(zhǔn)確率,避免有指導(dǎo)方法因漢語組塊語料庫規(guī)模較小而導(dǎo)致的數(shù)據(jù)稀疏現(xiàn)象。文獻(xiàn)[55]提出了改進(jìn)K-均值聚類方法。分為3個過程:首先根據(jù)從語料庫中統(tǒng)計的數(shù)據(jù),采用基于中心詞擴(kuò)展的策略把句子中的單詞先分到不同的類中;然后運用聚類算法調(diào)整中心,進(jìn)行聚類;最后根據(jù)單詞在句子中的位置確定短語的邊界。應(yīng)用改進(jìn)K-均值聚類方法對7種漢語組塊進(jìn)行識別,F(xiàn)值達(dá)到了92.94%。優(yōu)于基于中心詞擴(kuò)展的方法89.90%,也優(yōu)于K-均值聚類算法87.12%。

        6.3 統(tǒng)計和規(guī)則結(jié)合的識別方法

        規(guī)則和統(tǒng)計相結(jié)合的方法出發(fā)點是充分發(fā)揮基于統(tǒng)計方法和基于規(guī)則方法各自的優(yōu)勢,為組塊分析尋找一種較好的處理方法。

        文獻(xiàn)[10]由語言學(xué)知識得到初步的組塊劃分語料,通過校正和學(xué)習(xí)不斷對規(guī)則進(jìn)行調(diào)整,完善規(guī)則模型,并在不斷增大的標(biāo)注語料基礎(chǔ)上對統(tǒng)計模型進(jìn)行訓(xùn)練,得到組塊劃分的統(tǒng)計模型。從封閉測試和開放測試的試驗結(jié)果來看,兩種方法結(jié)合進(jìn)行標(biāo)注的正確率分別達(dá)到了96.2%和94.6%。文獻(xiàn)[48]采用基于實例的學(xué)習(xí)方法,對漢語基本短語的邊界及類別進(jìn)行識別,并利用短語內(nèi)部構(gòu)成結(jié)構(gòu)和詞匯信息對預(yù)測中出現(xiàn)的邊界歧義和短語類型歧義進(jìn)行了排歧處理。實驗結(jié)果中對基本組塊的識別正確率達(dá)到95.2%,召回率達(dá)到93.7%。文獻(xiàn)[49]給出了一種錯誤驅(qū)動學(xué)習(xí)機(jī)制與SVM相結(jié)合的漢語組塊識別方法。該方法在SVM組塊識別的基礎(chǔ)上,對SVM識別結(jié)果中的錯誤詞語序列的詞性、組塊標(biāo)注信息等進(jìn)行分析,獲得候選校正規(guī)則集;之后按照閾值條件對候選集進(jìn)行篩選,得到最終的校正規(guī)則集;最后應(yīng)用該規(guī)則集對SVM的組塊識別結(jié)果進(jìn)行校正。實驗結(jié)果表明,與單獨采用SVM模型的組塊識別相比,加入錯誤驅(qū)動學(xué)習(xí)方法后,精確率、召回率、F值都有了不同程度的提高。文獻(xiàn)[56]實現(xiàn)了一種針對并行語料庫進(jìn)行雙語組塊自動識別的方法。首先根據(jù)規(guī)則庫,分別對源語言句子和目標(biāo)語言句子中所有符合規(guī)則的子塊進(jìn)行標(biāo)記,然后利用統(tǒng)計模型,對所有可能的源語子塊在可能的目標(biāo)語子塊集合中搜索其最佳的對應(yīng),最終形成雙語句對的可能的雙語組塊劃分。在一個6萬句的旅館預(yù)定領(lǐng)域口語語料庫中的實驗中,正確率可達(dá)到80%左右。

        7 組塊內(nèi)部結(jié)構(gòu)分析

        相比于組塊識別,對于中文的組塊內(nèi)部結(jié)構(gòu)研究還比較少。文獻(xiàn)[13]的漢語基本塊標(biāo)注體系中,提出了基本塊的關(guān)系標(biāo)記描述集,包括了右角中心結(jié)構(gòu)、鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)、并列關(guān)系CHC、述賓關(guān)系LCC、述補關(guān)系LCC、附加關(guān)系LCC和單詞語基本塊?;诨緣K標(biāo)注體系,文獻(xiàn)[57]設(shè)計了一套關(guān)系標(biāo)記集。其設(shè)計思路是針對4種關(guān)系: 修飾關(guān)系(ZX,LN)、述賓關(guān)系(PO)、述補關(guān)系(SB)和并列關(guān)系(LH),對句子中的每個詞所處的功能位置進(jìn)行描述,如表1所示。利用條件隨機(jī)場模型對句子中的每個詞進(jìn)行序列關(guān)系標(biāo)注, 然后通過有限自動機(jī)規(guī)則自動獲取句子的基本塊標(biāo)注結(jié)果。其句法標(biāo)記識別性能與使用經(jīng)典的邊界標(biāo)記(IOB)相比略有下降。文獻(xiàn)[57]進(jìn)一步提煉出了三種典型的拓?fù)浣Y(jié)構(gòu): 左角中心結(jié)構(gòu)(LCC)、右角中心結(jié)構(gòu)(RCC)和鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)(CHC),它們覆蓋了基本塊內(nèi)部修飾關(guān)系、并列關(guān)系、述賓、述補和附加關(guān)系。

        表1 關(guān)系標(biāo)記集

        8 結(jié)論和展望

        英語方面已有在組塊分析基礎(chǔ)上進(jìn)行完全句法分析的研究。其中文獻(xiàn)[58]把句法分析分解為一系列的組塊識別任務(wù),并用CRFs模型實現(xiàn)。雖然正確率略低,但是時間和空間復(fù)雜度卻低了很多,在對實時性要求較高的系統(tǒng)中有很好的應(yīng)用前景。相比之下中文組塊分析技術(shù),由于缺乏一個明確、公開的定義方法和訓(xùn)練語料庫,在語料庫建設(shè)角度上還有很多工作沒有進(jìn)行。清華大學(xué)在整理和加工中文組塊庫方面做了大量工作,同時建立了一個完整的組塊劃分體系:基本組塊、功能組塊、事件描述小句識別。從其已經(jīng)公開發(fā)布的成果來看,除了基本組塊外,對功能組塊也有一些較為成熟的研究[59-60],但是第三層次事件描述小句識別的研究則很少見,距離完全句法分析尚有一定的距離。文獻(xiàn)[61]實現(xiàn)了基于組塊的日英統(tǒng)計機(jī)器翻譯模型,這也對中文組塊的應(yīng)用提出了一種可嘗試的研究方向,不以完全句法分析為目標(biāo),用組塊代替詞或者短語實現(xiàn)具體的應(yīng)用,當(dāng)然因此帶來的數(shù)據(jù)稀疏問題也是必須要面對的。為了更好地研究和解決組塊分析及其應(yīng)用,筆者認(rèn)為還應(yīng)該在以下幾個方面進(jìn)行進(jìn)一步的研究和探索。

        (1) 由于目前的中文組塊分析定義還沒有一個統(tǒng)一的標(biāo)準(zhǔn),一方面,對組塊定義的統(tǒng)一和規(guī)范的制定,是研究者們共同的發(fā)展方向;另一方面,對于利用剪枝從句法樹庫中抽取組塊的定義方式,如何根據(jù)應(yīng)用領(lǐng)域的不同,實現(xiàn)可定制的剪枝和抽取策略,自動地構(gòu)建符合需求的組塊語料庫,也是一項有意義的研究。

        (2) 對于組塊識別,一方面要進(jìn)一步提升模型的性能,在模型中加入其他類型的上下文信息,如搭配信息、語義信息和共現(xiàn)信息等,并輔之以規(guī)則的方法以進(jìn)一步提高組塊識別的性能;另一方面在已有組塊研究成果的基礎(chǔ)上,適當(dāng)?shù)卦龃蠼M塊粒度,以便能更好地實現(xiàn)完全句法分析或者應(yīng)用到其他語言處理任務(wù)中。

        (3) 在組塊識別的基礎(chǔ)上,塊內(nèi)結(jié)構(gòu)分析和塊間關(guān)系分析也值得做更多的進(jìn)一步的研究。

        (4) 在很多實際的信息處理技術(shù)應(yīng)用中,組塊分析也起到了很重要的作用。伴隨著中文組塊分析的發(fā)展,組塊在機(jī)器翻譯、問答系統(tǒng)、信息抽取、信息檢索、文本分類等領(lǐng)域的進(jìn)一步應(yīng)用也是值得期待的研究。

        [1] Abney S. Parsing by Chunks[C]//Berwiek R,Abney S, Carol T, eds. Principle-Based Parsing. Dordrecht: Kluwer Academic Publishers,1991: 257-278.

        [2] Erik F, Tjong Kim Sang, Buchholz S. Introduction to the CoNLL-2000 Shared Task: Chunking[C]//Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000: 127-132.

        [3] 孫宏林,俞士汶.淺層句法分析方法概述[J].當(dāng)代語言學(xué),2000,2(2): 74-83.

        [4] 趙軍,黃昌寧.結(jié)合句法組成模板識別漢語基本名詞短語的概率模型[J].計算機(jī)研究與發(fā)展,1999,36(11): 1384-1390.

        [5] 趙軍,黃昌寧.基于轉(zhuǎn)換的漢語基本名詞短語識別模型[J].中文信息學(xué)報,1999,13(2): 1-7,39.

        [6] 趙軍,黃昌寧.漢語基本名詞短語結(jié)構(gòu)分析模型[J].計算機(jī)學(xué)報,1999,22(2): 141-146.

        [7] 周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語識別[J].計算機(jī)研究與發(fā)展,2003,40(3): 440-446.

        [8] 王立霞,孫宏林.現(xiàn)代漢語介詞短語邊界識別研究[J].中文信息學(xué)報,2005,19(3): 80-86.

        [9] Y Tan, T Yao, Q Chen, et al. Applying Conditional Random Fields to Chinese Shallow Parsing[C]//David: Computational Linguistics and Intelligent Text Processing 6th International Conference, Mexico City,Mexico,2005: 527-536.

        [10] 李素建,劉群,白碩.統(tǒng)計和規(guī)則相結(jié)合的漢語組塊分析[J].計算機(jī)研究與發(fā)展,2002,39(4): 385-391.

        [11] 張昱琪,周強.漢語基本短語的自動識別[J].中文信息學(xué)報,2002,16(6): 1-8.

        [12] 周強,孫茂松,黃昌寧.漢語句子的組塊分析體系[J].計算機(jī)學(xué)報,1999,22(11): 1158-1165.

        [13] 周強.漢語基本塊描述體系[J]. 中文信息學(xué)報,2007,21(3): 21-27.

        [14] 孫廣路.基于統(tǒng)計學(xué)習(xí)的中文組塊分析技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.

        [15] 李沐,呂學(xué)強,姚天順.一種基于E-Chunk的機(jī)器翻譯模型[J].軟件學(xué)報,2002,13(4): 669-676.

        [16] Zhou M.A block-based robust dependency parser for unrestricted Chinese text[C]//Cardie C,Daelemans Nedelle C, Tjong Kim Sang E F: Proceedings of the 2nd Chinese Language Processing Workshop Attached to ACL. HongKong: Association for Computational Linguistics,2000: 78-84.

        [17] Chen WL, Zhang YJ, Hitoshi I. An empirical study of Chinese chunking[C]//Morristown, Proc. of the COLING/ACL 2006 Main Conf. Poster Sessions. Sydney, Australia: Association for Computational Linguistics, 2006: 97-104.

        [18] 譚詠梅,王小捷,周延泉,等.使用SVMs進(jìn)行漢語淺層分析[J].北京郵電大學(xué)學(xué)報,2008,31(1).

        [19] 劉芳,趙鐵軍,于浩,等.基于統(tǒng)計的漢語組塊分析[J].中文信息學(xué)報,2000,14(6): 28-33.

        [20] Z Tiejun, Y Muyun, L Fang, et al. Statistics Based Hybrid Approach to Chinese Base Phrase Identification[C]//Cardie C, Daelemans Nedelle C, Tjong Kim Sang E F: Proceeding CLPW ’00 Proceedings of the 2 Workshop on Chinese Language Processing. Hong Kong: Association for Computational Linguistics, 2000: 73-77.

        [21] 李葕,朱靖波,姚天順.基于Stacking算法的組合分類器及其應(yīng)用于中文組塊分析[J].計算機(jī)研究與發(fā)展,2005,42(5): 844-848.

        [22] H Gao, DG Huang,YS Yang. Chinese Chunking Using ESVM-KNN[C]//YM Cheng,YP Wang,HL Liu: Proceedings of the 2006 International Conference on Computational Intelligence and Security,Guangzhou: IEEE,2006: 721-734.

        [23] Li H, C N Huang, J Gao, et al. Chinese Chunking with Another Type of Spec[C]//Oliver Streiter, Qin Lu: Proceedings of the 3rd ACL SIGHAN Workshop.Barcelona,Spain: Association for Computational Linguistics,2004: 41-48.

        [24] B Li, Q Lu, Y Li. Building a Chinese Shallow Parsed Treebank for Collocation Extraction[C]//Proceedings of 4th International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City,Mexico, 2003: 402-405.

        [25] S H Wu, C W Shih, C W Wu, et al. Applying Maximum Entropy to Robust Chinese Shallow Parsing[C]//Proceedings of ROCLING-2005, Taiwan,China,2005: 23-30.

        [26] 周強,李玉梅.漢語塊分析評測任務(wù)設(shè)計[J].中文信息學(xué)報,2010,24(1): 123-128.

        [27] Ramshaw L A,M M P. Text chunking using transformation-based learning[C]//Yarowsky D, Church K,eds. Proceedings of the 3rd ACL Workshop on Very Large Corpora. Massachusetts: Association for Computational Linguistics,1995: 82-94.

        [28] Tjong Kim Sang E F,Veenstra J. Representing text chunks[C]//Osborne M,Tjong Kim Sang E F,eds, Proceedings of EACL’99.Bergen: Assoeiation for Computational Linguistics,1995: 173-179.

        [29] Erik F, Tjong Kim Sang, Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking[C]//Proceedings of CoNLL-2000.Lisbon,Portugal,2000: 127-132.

        [30] K Uehimoto,Q Ma, M Murata,et al. Named entity extraction based on a maximum entropy model and transformation rules[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,2000: 326-335.

        [31] K Church. A Stochastic Parts Program and Noun Phrases Parser for Unrestricted Text[C]//Proceedings of the 2nd Conference on Applied Natural Language Processing, New Jersey, USA, 1988: 136-143.

        [32] Ramshaw L, Marcus M. Text Chunking Using Transformation-Based Learning[C]//Proceedings of 3rd Workshop on Very Large Corpora. Massachusetts: Association for Computational Linguistics,1995:82-94.

        [33] A V D. Bosch, S Buchholz. Shallow Parsing on the Basis of Words Only: A Case Study[C]//Eisner: Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, USA: Association for Computational Linguistics, 2002: 433-440.

        [34] T Zhang, F Damerau, D Johnson. Text Chunking Based on a Generalization of Winnow. Journal of Machine Learning Research[J]. 2002,(2): 615-637.

        [35] S B Park, B T Zhang. Text Chunking by Combining Hand-Crafted Rules and Memory-Based Learning[C]//Erhard W, Dan Roth: Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, Sapporo, Japan: Association for Computational Linguistics, 2003: 497-504.

        [36] R K Ando, T Zhang. A High-Performance Semi-Supervised Learning Method for Text Chunking[C]//Kevin Knight, Hwee Tou Ng, Kemal Oflazer: Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, Ann Arbor, Michigan: Association for Computational Linguistics, 2005: 1-9.

        [37] Erik F. Tjong Kim Sang. Memory-Based Shallow Parsing[J]. The Journal of Machine Learning Research. 2002: 559-594.

        [38] F Pla, A Molina, N Prieto. Improving chunking by means of lexical-contextual information in statistical language models[C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000. 148-150.

        [39] Koeling Rob. Chunking with maximum entropy models[C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000: 139-141.

        [40] Kudoh Taku, Matsumoto Yuji. Use of support vector learning for chunk identification [C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000: 142-144.

        [41] Abney S. Part of speech tagging and partial parsing[C]//Church K, Young S, Bloothooft G, eds, Proc. of the Corpus-Based Methods in Language and Speech, An ELSNET Volume. Dordrecht: Kluwer Academic Publishers,1996: 119-136.

        [42] 周強.漢語基本塊規(guī)則的自動學(xué)習(xí)和擴(kuò)展進(jìn)化[J].清華大學(xué)學(xué)報(自然科學(xué)版), 2008,4(1): 88-91.

        [43] 李珩,譚詠梅,朱靖波,等.漢語組塊識別[J].東北大學(xué)學(xué)報(自然科學(xué)版),2004,25(2): 114-117.

        [44] 李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報,2004,18(2): 1-7.

        [45] 周俊生,戴新宇,陳家駿,等.基于大間隔方法的漢語組塊分析[J].軟件學(xué)報,2009,20(4): 870-877.

        [46] 孫廣路,郎非,薛一波.基于條件隨機(jī)域和語義類的中文組塊分析方法[J].哈爾濱工業(yè)大學(xué)學(xué)報,2011,43(7): 135-139.

        [47] Tan YM, Yao TS, Chen Q, et al. Applying conditional random fields to Chinese shallow parsing[C]//David: Computational Linguistics and Intelligent Text Processing 6th International Conference. Mexico City, Mexico: COCLing 2005. 2005: 167-176.

        [48] 張昱琪,周強. 漢語基本短語的自動識別[J].中文信息學(xué)報,2002,16(6): 1-8.

        [49] 黃德根,王瑩瑩.基于SVM的組塊識別及其錯誤驅(qū)動學(xué)習(xí)方法[J].中文信息學(xué)報,2006,20(6): 17-24.

        [50] 黃德根,于靜.分布式策略與CRFs相結(jié)合識別漢語組塊[J].中文信息學(xué)報,2009,23(1): 16-22.

        [51] Gao Hong,Huang Degen,Liu Wei, et al. Double Rule Learning in Boosting[J]. International Journal of Innovative Computing, Information & Control.2008,4(6): 1411-1420.

        [52] G Sun, C Huang, X Wang, et al. Chinese Chunking Based on Maximum Entropy Markov Models[J]. International Journal of Computational Linguistics and Chinese Language Processing. 2006, 11(2): 115-136.

        [53] G Sun, Y Guan, X Wang. A Maximum Entropy Chunking Model with N-Fold Template Correction[J]. Journal of Electronics. 2007,24(5): 690-695.

        [54] 劉世岳,李珩,張俐,等.Co-training機(jī)器學(xué)習(xí)方法在中文組塊識別中的應(yīng)用[J].中文信息學(xué)報,2005,19(3): 73-79.

        [55] 梁穎紅,趙鐵軍,于浩,等.基于改進(jìn)K-均值聚類的漢語語塊識別[J].哈爾濱工業(yè)大學(xué)學(xué)報, 2007,39(7): 1106-1109.

        [56] 程葳,趙軍,劉非凡,等.面向口語翻譯的雙語語塊自動識別[J].計算機(jī)學(xué)報,2004,27(8): 1016-1020.

        [57] 宇航,周強.漢語基本塊的內(nèi)部關(guān)系分析[J].清華大學(xué)學(xué)報(自然科學(xué)版),2009,49(10): 136-140.

        [58] Yoshimasa Tsuruoka, Jun’ichi Tsujii, Sophia Ananiadou. Fast Full Parsing by Linear-Chain Conditional Random Fields[C]//Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009), Association for Computational Linguistics, Athens, Greece,2009: 790-798.

        [59] 周強,趙穎澤.漢語功能塊自動分析[J].中文信息學(xué)報,2007,21(5): 18-24.

        [60] 陳億,周強,宇航.分層次的漢語功能塊描述庫構(gòu)建分析[J].中文信息學(xué)報,2008,22(3): 24-31,43.

        [61] Taro Watanabe, Eiichiro Sumita,Hiroshi G Okuno.Chunk-based Statistical Translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Sapporo, Japan,2003: 303-310.

        猜你喜歡
        組塊語料庫短語
        橫浪作用下大型上部組塊雙船浮托安裝動力響應(yīng)特性試驗研究
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        陸豐7-2油田導(dǎo)管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
        詞匯組塊層次網(wǎng)絡(luò)
        語料庫語言學(xué)未來發(fā)展趨勢
        麻豆最新国产av原创| 综合网自拍| 2022国内精品免费福利视频| 久久国产精品一区二区| 少妇又紧又爽丰满在线视频| 粉嫩av国产一区二区三区| 国产伦精品一区二区三区| 日日摸夜夜欧美一区二区| 国产一区二区三区白浆在线观看 | 亚洲一区二区三区码精品色| 男女真人后进式猛烈视频网站| 一本无码av中文出轨人妻| 国产成人国产在线观看入口| 国产亚洲一区二区三区夜夜骚| 日本午夜剧场日本东京热| 香蕉免费一区二区三区| 无码专区天天躁天天躁在线| 国产成人精品无码一区二区老年人| 中文字幕人妻av四季| 免费不卡无码av在线观看| 99re热视频这里只精品| 亚洲国产成人精品91久久久| 亚洲一区二区三区精彩视频| 久久黄色视频| 久久精品人人爽人人爽| 久久久午夜毛片免费| av免费在线播放观看| 国产卡一卡二卡3卡4乱码| 女同久久精品国产99国产精品| 精品丝袜国产在线播放| 美女脱了内裤洗澡视频| 狼人青草久久网伊人| 亚洲色图视频在线| 用力草我小逼视频在线播放| 亚洲精品人成中文毛片| 怡红院免费的全部视频| 亚洲ⅤA中文字幕无码| 久久av一区二区三区黑人| 中文字幕亚洲精品无码| 自拍偷自拍亚洲精品播放| 国产激情视频免费观看|