亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        功能小句自動句法分析結(jié)果的錯誤分析

        2014-07-16 08:52:38馬建軍
        關(guān)鍵詞:成份補語介詞

        馬建軍,宗 敏

        (大連理工大學(xué) 外國語學(xué)院英語系,遼寧 大連 116024)

        句法分析是自然語言處理的基本問題,是指通過計算機算法得到自然語言句子的句法結(jié)構(gòu)。[1]自上個世紀(jì)50年代以來,句法分析問題一直是自然語言處理領(lǐng)域的重點和難點。[2]提高句法分析的質(zhì)量不僅要更正算法,選擇更合適的語法模板,更要從每次實驗的錯誤中進(jìn)行總結(jié)分析,在具體方面加以改正。實驗表明豐富的語言知識對句法分析精度的提高有積極的作用,[3]但是在自然處理領(lǐng)域研究者多從算法和模板上進(jìn)行錯誤分析或多個實驗進(jìn)行比較,從語言學(xué)角度分析的文章甚至段落少之又少。徐潤華將句法錯誤分為兩大類:語法功能不合理和語法缺失,僅舉了4個例子。[4]馬建軍提出由于搭配庫知識不全,小句中的小品詞和介詞很難區(qū)分,并明確指出做狀語的名詞短語容易出現(xiàn)識別錯誤。[5]盛文鳳在其畢業(yè)論文中指出兩大類介詞短語識別錯誤:邊界錯誤和功能錯誤,也僅有4個例子。[5]

        鑒于此,本文應(yīng)用韓禮德系統(tǒng)功能語言學(xué)中小句的理論,對基于CRF的功能句法自動分析結(jié)果進(jìn)行數(shù)據(jù)統(tǒng)計,從句法錯誤的表現(xiàn)形式和句法錯誤原因兩方面進(jìn)行歸納總結(jié),并結(jié)合實例做出形式化描述,對于設(shè)立標(biāo)注規(guī)則,降低人工成本、提高句法分析準(zhǔn)確度,甚至譯后編輯都具有一定的實際價值和理論意義。

        一 錯誤分類統(tǒng)計及討論

        圖1 三類一級錯誤百分比

        經(jīng)統(tǒng)計,5021個句子中,共出現(xiàn)193種錯誤。本文將其總共分為3類一級錯誤、7類二級錯誤和38類三級錯誤。其中,一級錯誤包括:機器自動識別的邊界錯誤(99種)、機器欠缺語言知識造成的語法成份識別錯誤(85種)以及少量的句法分析前期的人工標(biāo)注語注錯誤(9種)。三類一級錯誤所占百分比如圖1所示。一級的邊界錯誤可分為兩類二級錯誤:漏編錯誤(26種)和語法成分邊界錯誤(73種)。兩類二級錯誤里可繼續(xù)分出11種三級錯誤。邊界錯誤細(xì)致構(gòu)成如表1所示。

        表1 邊界錯誤構(gòu)成

        按照IOB2標(biāo)注語方法,I表示該標(biāo)注項目在短語內(nèi),B表示短語開始位置。因此,我們把語法成份識別錯誤分為兩類二級錯誤:短語內(nèi)成份錯誤(45種)和短語起始成份錯誤(40種)。具體例子如表2所示。

        表2 短語內(nèi)成份錯誤和短語起始成份錯誤示例

        本文中,按照功能語法小句理論,小句成份功能塊被分為7大類:主語、謂語、補語、補語1/2/3/4、狀語、謂語剩余部分和補語剩余部分,共10部分。但是,所選擇的句法分析結(jié)果的語料中,沒有涉及到有補語4的小句,所以具體的語法成份錯誤包括9種。語法成分識別錯誤構(gòu)成如表3所示。

        表3 語法成分識別錯誤構(gòu)成

        第三類一級錯誤——人工標(biāo)注錯誤僅占錯誤總數(shù)的5%,具體的標(biāo)注錯誤(三級錯誤)僅有9種。將這9種錯誤歸為三類二級錯誤:不小心打錯詞的手誤、原文有縮寫導(dǎo)致標(biāo)注識別錯誤和成份嵌套錯誤,每種錯誤僅錯1-4詞,大多數(shù)只錯一詞。具體如表4所示。

        表4 人工標(biāo)注錯誤構(gòu)成

        注: 1)I-和B-指該成分被用“[]”擴起來了,但是沒有注明功能

        2)I-[P和I-[B指該成分在標(biāo)注時多標(biāo)了一個“[”,如:“[[P”。

        3)B-PM指該成分在標(biāo)注時,不小心P后多了一個M。

        4)B-Denough/RB指功能D與詞enough/RB之間缺少了空格。

        5)I-to/TO和B-to/TO指用“][”把不該分開的成分分開了。

        從圖1,表1,表3,表4可以看出:

        1.三類一級錯誤中,人工標(biāo)注錯誤比例是最低的,僅占5%。但是,人工標(biāo)注錯誤中,除了“原文有縮寫”這一項,手誤和句子成分識別不清的問題是應(yīng)該避免的。

        2.在二級的漏編錯誤中,機器漏編而人有標(biāo)注的情況(53.85%)比人沒有標(biāo)注而機器標(biāo)注的情況(46.15%)略多一些。這說明我們需要增加或者細(xì)化標(biāo)注規(guī)則,以免機器思維混亂,導(dǎo)致錯誤。

        3.不論是在語法成份的邊界錯誤還是在語法成份的識別錯誤中:狀語、補語2和主語的識別錯誤最多;補語3和補語補充部分因為語料中出現(xiàn)的次數(shù)少,所以錯誤少;謂語部分和謂語錯誤在不同的情況中時多時少。這意味著,狀語和補語2是自動句法分析的難點。要細(xì)化狀語邊界的描述,并將狀語常出現(xiàn)的位置考慮到系統(tǒng)設(shè)置中,增強系統(tǒng)的排序功能,才能提高對狀語和補語2的識別效果。

        二 錯誤原因

        需要說明的是,三個級別的錯誤會同時存在于小句當(dāng)中,他們不是非此即彼,而是互相關(guān)聯(lián)且共存的。因此,我們要從整個小句入手,究其不能被機器學(xué)習(xí),或者影響機器學(xué)習(xí)的因素。通過對錯誤小句的樣本分析,本文確定了如表5所示的小句句法分析錯誤原因。

        表5 小句句法分析錯誤原因

        自然語言是復(fù)雜的,機器僅靠運算,對句型的識別能力有限度。如表5所示,小句句法分析錯誤共4大類原因:特殊句型、漏編、人工錯誤和標(biāo)點分隔。每一類下面有具體的出錯項目,現(xiàn)舉例說明。

        1.句型問題。

        (1)there be句型,如例1,

        錯誤標(biāo)注:[P There/EX are/VBP] [C so/RB many/JJ rich/JJ people/NNS in/INP your/PRP$ area/NN] ,/, and/CC...

        在我們的標(biāo)注規(guī)則中,there be被劃分到一起,識別為小句謂語P,這一點機器學(xué)到了。但是,there be 句型中,be后面的成份才是句子的真正主語S,而不是動詞be的補語C。在there be句型的一般現(xiàn)在時、現(xiàn)在完成時、過去完成時的句子中,這種錯誤均有出現(xiàn)。

        (2)倒裝結(jié)構(gòu),如例2,

        錯誤標(biāo)注:[D Here/RB] [P are/VBP] [C our/PRP$ latest/JJS price/NN sheets/NNS] and/CC…

        Here為地點副詞,放在句首,小句需要倒裝,be后的成份應(yīng)該是句子的主語S,但是機器判斷不出這是倒裝句,因此將be后的成份識別為補語C。類似的倒裝結(jié)構(gòu)還出現(xiàn)在enclosed is…,attached are…,listed are…等小句中。

        (3)It形式主語句型,如例3,

        錯誤標(biāo)注:Although/INC it/IT [P is/VBZ] [D already/RB] [D very/RB] [P late/JJ for/FOR] [C your/PRP$ L∨C/NNP] to/TO [P arrive/VB] ,/,…

        我們知道,在It is … for sb. to do sth.句型中,句子的真正主語是sb. to do sth.,而機器所掌握的只是介詞for后面應(yīng)該接補語C,因此出現(xiàn)主語S識別錯誤。

        (4)特殊疑問句,如例4,

        錯誤標(biāo)注:Why/WRB [P do/VBP] [C thousands/NNS of/INP people/NNS] who/WP [D normally/RB] [P suffer/VBP from/RP] [C the/DT miseries/NNS of/INP cold/JJ ,/, damp/JJ ,/, changeable/JJ weather/NN] [P wear/VB] [C Thermotex/NNP] ?/.

        在上面的疑問句中,do是一個疑問助詞,而不是實意動詞,因此do后面的成份應(yīng)該是主語S,而不是補語C。此類問題還出現(xiàn)在how long does...,what will be…等小句中。

        (5)小句復(fù)合體。

        功能語法中的小句復(fù)合體實際就是傳統(tǒng)語法中的復(fù)合句或者并列句。標(biāo)注錯誤的語料中,小句復(fù)合體錯誤之一是主從詳述關(guān)系小句,即定語從句。如例5,

        錯誤標(biāo)注:… if/INC [S you/PRP] [P would/MD accept/VB] [C our/PRP$ order/NN for/INP coffee/NN] [C whose/WP$ number/NN] [P is/VBZ] [C No./NN 3003/CD] ./.

        例5中,whose number 是定語從句的主語S,不能被識別為C。小句復(fù)合體中,投射關(guān)系小句,即賓語從句,也是常出現(xiàn)錯誤的小句復(fù)合體。如下例6,

        錯誤標(biāo)注:… ,/, [P have/VBP shown/VBN] that/INC [S of/INP all/DT conventional/JJ underwear/NN fabrics/NNS Thermotex/NNP] [P has/VBZ] [C the/DT highest/JJS warmth/NN insulating/VBG properties/NNS] ./.

        介詞短語修飾名詞,應(yīng)位于名詞后,而不是名詞前。因此,例6中,介詞短語of all conventional underwear fabrics應(yīng)該被標(biāo)注為賓語從句的狀語D,Thermotex為后面小句的主語S。

        2.漏編。

        機器沒有學(xué)到規(guī)則而漏編,可能是因為規(guī)則設(shè)置模糊,更有可能是前期人工標(biāo)注時,人為主觀漏掉了對一些詞的標(biāo)注,以致不同小句中,對同一個詞標(biāo)注出現(xiàn)沖突,導(dǎo)致錯誤。語料中體現(xiàn)最多的漏編項目有:并列連詞、比較連詞和關(guān)系代詞。

        (1)并列連詞問題,如例7,

        錯誤標(biāo)注:[P There/EX is/VBZ] [D also/RB] [S a/DT saving/NN in/INP freight/NN charges/NNS] when/WRB [S separate/JJ consignments/NNS] [P intended/VBN for/RP] [C the/DT same/JJ port/NN of/INP destination/NN] [P are/VBP carried/VBN] [D in/INP one/CD container/NN] and/CC [C an/DT additional/JJ saving/NN on/INP insurance/NN] [D because/INP of/INP the/DT lower/JJR premiums/NNS] [P charged/VBN for/RP] [C containershipped/VBN goods/NNS] ./.

        例7的句子主干可以提煉為:There is a saving in freight charges and an additional saving on insurance,這使得an additional saving on insurance成為there be句型中的第二個主語。但是由于and 沒有被標(biāo)注成份,所以機器不能識別出and并列的是兩個短語還是兩個小句,以至于成份識別出錯。類似錯誤還出現(xiàn)在連詞or和either…or…結(jié)構(gòu)中。

        (2)比較連詞than沒有納入標(biāo)注范圍,見例8,

        錯誤標(biāo)注:[D Due/JJ to/INP our/PRP$ internal/JJ remittance/NN procedures/NNS] ,/, which/WDT [P took/VBD] [D longer/RBR than/INP anticipated/VBN] ,/, …

        例8中,由于than沒有標(biāo)注功能,系統(tǒng)就近選擇,將其標(biāo)入狀語D,完全忽視了比較的意義,同時還造成了謂語anticipated的識別錯誤。

        (3)定語從句關(guān)系代詞沒有納入標(biāo)注范圍。

        并不是每一個沒有入編的定語從句關(guān)聯(lián)詞都有識別錯誤,但機器對個別關(guān)系代詞的自動識別會出現(xiàn)錯誤,尤其是介詞+關(guān)系代詞的情況。常出現(xiàn)錯誤的有:who,with those who,of which,which。見例9,

        錯誤標(biāo)注:Since/INC [S the/DT defects/NNS of/INP the/DT goods/NNS] [P are/VBP inherent/JJ][D in/INP the/DT quality/NN of/INP the/DT material/NN of/INP which/WDT] [S the/DT goods/NNS] [P are/VBP made/VBN] ,...

        例9中有三個錯誤:首先,“be +形容詞+介詞”的結(jié)構(gòu)中,介詞應(yīng)該被標(biāo)注在謂語中,算作謂語P的一部分,機器沒有學(xué)習(xí)到,反而將in與后面的名詞短語放在一起當(dāng)做狀語D。進(jìn)而,the quality of the material本該是in的補語C,就被括在了狀語內(nèi)。最后,of which由于沒有被標(biāo)注功能,系統(tǒng)自動將其識別為了狀語D,造成錯誤。

        3.人工錯誤。

        人工錯誤中的手誤錯誤在錯誤分類表格下的注釋中已經(jīng)有詳細(xì)說明,此處不再舉例贅述。關(guān)于小句功能成分混淆問題,可能由于標(biāo)注者疲勞或句子過長或其他原因,功能成分劃分有誤,而機器自動識別正確,見例10,

        錯誤標(biāo)注:[S In/INP support/NN of/INP our/PRP$ claim/NN] [S we/PRP] [P are/VBP sending/VBG] [C1 you/PRP] [C2 a/DT survey/NN report/NN] [P issued/VBN] by/BY [C CCIB/NNP] ./.

        但是例10中, in support of介詞短語表示“為了支持……”,應(yīng)該被識別為狀語D,但是人工標(biāo)記成了主語S,反而機器標(biāo)記正確。

        4.標(biāo)點分隔。

        標(biāo)點分隔問題指:本該共同作為同一功能的幾個短語,由于其間有標(biāo)點,機器就近選擇標(biāo)點所代表的功能,以至于標(biāo)注混亂。常出現(xiàn)錯誤的標(biāo)點有:引號、冒號、逗號。以引號錯誤為例,見表6。

        表6 引號分隔錯誤示例

        三 結(jié)語

        本研究表明功能句法分析的錯誤中,邊界錯誤最多,其次是功能成分識別錯誤,人工錯誤最少。但究其根本,在初期進(jìn)行語料標(biāo)注時,功能成分邊界的劃分、標(biāo)注項目的確定和少量人為標(biāo)記錯誤,對機器識別結(jié)果都有一定的影響?;诠δ苄【涞木浞ǚ治鱿到y(tǒng)還有很大的改進(jìn)余地,本研究正是邁向改進(jìn)的第一步。此后,對小句的研究會進(jìn)一步深入,為提高句法分析精度貢獻(xiàn)綿薄之力。

        [1]俞士汾.計算語言學(xué)概論[M].北京:商務(wù)印書館,2004.

        [2]李業(yè)剛,黃河燕.漢語組塊分析研究綜述[J].中文信息學(xué)報,2013,27(3):1-8.

        [3]袁里馳.融合語言知識的統(tǒng)計句法分析[J].中南大學(xué)學(xué)報(自然科學(xué)版),2012,43(3):986-991.

        [4]徐潤華.基于詞語搭配知識和語法功能匹配的句法分析器[D].南京師范大學(xué),2013.

        [5]馬建軍.面向機器翻譯的英語功能名詞短語識別研究[D].大連理工大學(xué),2012.

        [6]盛文鳳.英語介詞短語功能識別及其在翻譯中的應(yīng)用[D].大連理工大學(xué),2013.

        [7]閆旭.淺談SQL Server數(shù)據(jù)庫的特點和基本功能[J].價值工程,2012:229-231.

        猜你喜歡
        成份補語介詞
        介詞和介詞短語
        績優(yōu)指數(shù)成份變更與一周表現(xiàn)
        兩市主要成份指數(shù)中期成份股調(diào)整
        介詞不能這樣用
        Variational Mode Decomposition for Rotating Machinery Condition Monitoring Using Vibration Signals
        漢語補語應(yīng)用淺析
        牡丹(2017年18期)2017-07-22 21:46:35
        初級對外漢語教材復(fù)合趨向補語引申用法考察
        淺談現(xiàn)代漢語補語的辨析
        歐盟禁止在化妝品成份中使用3-亞芐基樟腦
        “NP V累了NP”動結(jié)式的補語趨向解讀
        加勒比东京热一区二区| 欧洲亚洲视频免费| 亚洲人成网站在线播放小说| 日本免费一区二区久久久| 无码喷潮a片无码高潮| 香蕉视频在线精品视频| 麻豆变态另类视频在线观看| 最新国产一区二区三区| 久久久精品人妻一区二区三区四区| 亚洲国产成人片在线观看无码| 国产午夜福利不卡在线观看视频| 麻美由真中文字幕人妻| 97中文字幕精品一区二区三区| 免费无码a片一区二三区| 9191在线亚洲精品| 精品日本一区二区视频| 日韩一区av二区三区| 中文www新版资源在线| YW亚洲AV无码乱码在线观看| 久久精品国产亚洲av一| 国产亚洲欧美精品永久| 国产成人无码一区二区三区在线| 依依成人影视国产精品| 国产精品国产三级国产an不卡| 国产精品极品美女自在线观看免费| 亚洲欧美日韩中文无线码| 国产成人精品男人的天堂网站| 区一区二区三区四视频在线观看| 少妇人妻精品一区二区三区| 亚洲欲色欲香天天综合网| 日韩精品中文字幕免费人妻| 日本在线精品一区二区三区| 国产真实夫妇视频| 人妻被猛烈进入中文字幕| 国产91极品身材白皙| 日韩精品久久无码中文字幕| 欧美成人免费高清视频| 91精品国产综合久久久蜜臀九色| 亚洲国产精品18久久久久久 | 久久不见久久见中文字幕免费 | 亚洲乱色伦图片区小说|