亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        概念類別及其在漢英機器翻譯中的應用

        2015-10-17 06:42:53劉智穎晉耀紅
        現(xiàn)代語文 2015年21期
        關鍵詞:漢英類別語義

        □朱 筠 劉智穎 晉耀紅

        概念類別及其在漢英機器翻譯中的應用

        □朱筠劉智穎晉耀紅

        詞性作為劃分詞類的依據(jù)一直是信息處理中一項重要的知識屬性。但是,詞類更多地偏重于詞語在句子中的語法功能,而忽略了詞語意義對句子分析的作用,語言信息處理需要更有效、更細致的詞語分類。為此,本文引入概念類別的信息,并且展示其在漢英機器翻譯中的應用。通過具體描述給出概念類別及其與詞性的對應關系,指出概念類別可劃分為抽象概念和具體概念兩大類型,抽象概念中又包括動態(tài)概念、靜態(tài)概念、屬性概念和邏輯概念,并對概念的所指及應用做出了描述。隨后,本文對概念類別與詞性的關系和差別做出了解釋,并給出了概念類別與詞性的對應關系。最后,本文描述了概念類別信息在漢英機器翻譯中的具體應用,指出概念類別在漢英機器翻譯的分析模塊和轉換模塊(如小句轉換、Eg識別、格式轉換和輔塊識別等)中均發(fā)揮著重要的作用。

        詞性概念類別機器翻譯

        一、引言

        詞性作為劃分詞類的依據(jù)一直是信息處理中一項重要的知識屬性。在詞語處理乃至句類結構分析中占有重要的地位。不過,詞類更多地偏重于詞語在句子中的語法功能,而忽略了詞語意義對句子分析的作用,并且詞類劃分的標準過于粗略,未能從細節(jié)上對詞語進行描述和區(qū)分。在語言信息處理中,對語言現(xiàn)象的分析和研究需要更有效更細致的區(qū)分,為此,HNC引入了詞語的概念類別的信息。在概念類別中,不僅包含了詞類的信息,同時還融入了語義的分類信息,并且構建了漢語詞語知識庫,對概念類別信息進行了標注。

        在漢英及其翻譯中,我們對概念類別與詞類進行了對照,在源語言(漢語)分析階段采用詞類信息,并將詞類信息中的關鍵類型LV概念作為句子分析的激活點,輔以相應的分析規(guī)則,完成目標語的分析。在目標語(英語)生成階段,由于英語的形態(tài)特征比較明顯,我們使用詞性作為生成的依據(jù),輔以相應的轉換生成規(guī)則,完成目標語的轉換與生成。

        本文的工作已經(jīng)應用于漢英專利文獻機器語義翻譯引擎中,作為語義翻譯引擎的重要基礎,發(fā)揮著支撐作用。經(jīng)過測試,語義翻譯引擎在小句轉換、Eg識別、格式轉換、輔塊識別、并列結構識別中都有很好的應用效果,使得這些部分分析處理的正確率能夠達到80%以上。

        二、相關工作

        概念層次網(wǎng)絡理論[1]是一種服務于語言信息處理的關于語言的語義處理理論,自該理論產(chǎn)生之初,就已經(jīng)提出了概念類別的劃分方法,用以豐富單純以詞性作為劃分詞語的標準。

        《HNC理論(導論)》[2]中,列出了概念類別劃分的具體類型,并配以實例說明。但是概念類別的表述過于繁瑣,且未對概念類別進行廣義和狹義的區(qū)分。

        長期以來,基于HNC理論的研究一直將概念類別作為重要的知識屬性加以利用,在句類分析系統(tǒng)中,LV概念已經(jīng)作為句類分析的激活點服務于句子結構的判斷和語義塊邊界的辨識[3]。例:但這些信息未能直接在應用系統(tǒng)中進行檢驗。

        概念關聯(lián)知識是指概念節(jié)點、概念集群、概念類別之間關聯(lián)性的各級類別表現(xiàn)。這是一張非常煩瑣而脈絡分明的關系網(wǎng),其內(nèi)容構成了概念關聯(lián)知識庫。

        這些研究和應用都是在一種語言范圍之內(nèi),尚未涉及到兩種語言之間的對應問題。

        張克亮[4]基于HNC理論開展了面向機器翻譯的漢英句類及句式轉換研究,探討漢英句類及句式轉換的一般性規(guī)律。李穎[5]研究了HNC機器翻譯中語義塊構成變換問題。

        這些研究也僅停留在理論研究和構想階段,對概念類別的描述僅是理論層面的,而且是片面的。對概念類別和詞性之間的關系并未做具體的考察和對應,也未能對概念類別和詞性兩種信息在實際應用中的表現(xiàn)做出清晰的比較和判斷。

        本文集中于語義知識庫中概念類別知識屬性的研究,目前語義知識庫已經(jīng)包含了5萬常用詞語的知識,覆蓋了500篇專利文獻。另有30萬專利領域詞庫,共計35萬條詞語。知識庫服務的對象主要是漢英專利機器翻譯系統(tǒng)。文本為說明概念類別而舉的例子也都來自專利文獻。

        三、廣義概念類別與狹義概念類別

        本文的研究是建立在漢英機器翻譯應用的基礎上,所得的研究成果直接應用于漢英專利機器翻譯的實際中。概念類別作為知識庫中一項重要的知識屬性,對其的標注直接得到翻譯系統(tǒng)的檢驗,根據(jù)調(diào)試過程中反饋的結果對知識庫進行修改和調(diào)整,做到知識庫和翻譯系統(tǒng)同步更新,極大地提高了翻譯系統(tǒng)的性能。

        概念類別是表述概念的語義類別特征的符號。概念類別是關于詞語的概念意義和語用特征的最簡明知識,是語句理解處理過程中首先要用到的知識,是進一步調(diào)用其他知識的激活信息。

        我們根據(jù)詞語在漢英機器翻譯具體應用中的表現(xiàn),對概念類別進行了重新的調(diào)整和分類。首先,我們把概念類別劃分為廣義和狹義兩大類,以服務于不同層面的語義分類需要。

        (一)廣義概念類別

        廣義概念類別是對詞語語義信息的廣義概括,可以看作是對詞語語義的一級分類。分為人(P)、物(W)、靜態(tài)概念(G)、動態(tài)概念、屬性概念和邏輯概念六大類型。

        概念是思維的基本形式之一,是人類在認識過程中把所感覺到的事物的共同特點抽取出來,加以概括而形成的。HNC首先把概念分為抽象概念和具體概念。抽象概念和具體概念是概念的兩大分野,這一劃分對知識表示具有非常重要的意義。具體概念可以分為人和物兩大類(對應于名詞),抽象概念可以分為動態(tài)概念(對應于動詞)、靜態(tài)概念(對應于名詞)、屬性概念(對應于形容詞和副詞)和邏輯概念(對應于虛詞)四類。這些概念類型共同構成了廣義概念類別的整體。見表1。

        表1:

        在知識庫中,語義知識屬性表示為Feature[Value]的形式,F(xiàn)eature表示知識屬性名稱,Value表示屬性的取值。廣義概念類別用GCC表示,如人員的廣義概念類別是人,則表示為GCC[P];提供的廣義概念類別是動態(tài)概念,則表示為GCC[V]。

        (二)狹義概念類別

        狹義概念類別是對詞語語義信息的具體分類,概念類別的基元經(jīng)過組合,可以構成復合型概念類別。這樣,廣義概念類別就可以細化為很多具體的概念小類,用以解釋概念之間的細微差別。在漢英機器翻譯應用中,我們共定義了41種狹義概念類別,相比漢代漢語13種詞性的分類[6],更加細化。

        1.具體概念

        在廣義概念類別中,具體概念包括人和物兩大類。在狹義概念類別(以下簡稱概念類別)中,我們把物又分為兩小類:自然物ww和人造物pw。用以區(qū)分該物的形成是否有人類活動參與,這一信息對于句子中謂語動詞的語義角色選定具有重要的限制作用。

        2.抽象概念

        抽象概念在廣義概念類別中劃分為動態(tài)概念、靜態(tài)概念、屬性概念和邏輯概念四類,每一類又可分為若干小類,這就是狹義概念類別(CC)。下面分別描述。

        (1)動態(tài)概念

        動態(tài)概念是抽象概念五元組特性之一。抽象概念需要從動態(tài)、靜態(tài)、屬性、值和效應五個側面加以表述,這就是抽象概念的五元組特性。在狹義概念類別中,動態(tài)概念分為“v”和“vv”兩小類。

        “v”是一般意義上的動詞,如“提供”“公開”等。

        “vv”是動詞中的特殊小類,用以描述后面須接動詞的“v”,如“試圖”“進行”“予以”等。這些詞語本身具有動態(tài)含義,但在句子中不能單獨作為謂語,必須在其后補充一個動詞共同構成謂語部分,后面的動詞才是謂語的中心。vv類詞語作為謂語的一部分出現(xiàn)在句子中。

        (2)靜態(tài)概念

        靜態(tài)概念是相對于動態(tài)概念而言,我們可以把它看作抽象概念中的名詞類。包括:靜態(tài)概念g、值概念z、效應概念r、時間概念j1、空間概念j2、數(shù)j3、名量概念zz、動量概念zzv、綜合概念s。

        可以這樣認為,g是一般的名詞,而z和r是從名詞中分離出來的。z表達的是概念的“值”,對值的表達是與數(shù)量密切關聯(lián)的,因此把這個特性獨立出來表達顯然有利于聯(lián)想脈絡的建立。例如:

        (1)厚度為0.3毫米的白色人造纖維布料(0.3millimeterwhiteartificialsilkcloth)

        在這個短語中,漢語中“厚度為0.3毫米”是一個小句形式,作后面中心語的修飾成分,翻譯為英語則是一個定中短語的形式。這種漢英結構上的轉換只靠詞性來區(qū)分是不夠的,必須做進一步限定,漢語小句的結構是“z+為/是+j3+zz”,也就是說,在這個是字句中,主語由值的概念充當,賓語由數(shù)量概念充當。如果這樣的小句結構做定語,那么轉換為英語時,直接變?yōu)椤癹3+zz+z”的結構,也就是數(shù)量短語直接修飾值概念,放在值的前面。

        g和r都是靜態(tài)表達的名詞,但分別代表因果兩極。把兩者區(qū)別開來,有利于概念的局部聯(lián)想。

        時間概念j1、空間概念j2和數(shù)j3都源自于基本概念語義網(wǎng)絡,這些概念類別主要服務于時間短語、空間短語和數(shù)量短語的辨識。

        綜合概念s高度抽象的一類概念,主要服務于輔語義塊后邊界的辨識和包裝句蛻的包裝品(小句的外圍部分)。如:

        (2)含水涂料組合物可以通過浸涂或輥涂的方式來施加。(Theaqueouscoatingcompositioncanbeappliedby dipcoatingorrollcoating.)(輔塊)方法

        (3)因玻璃滲漏或結構缺陷而失效的時間將推后。(Thetimetofailureduetoglassleaksorstructural weaknesswilloccurlater.)

        例句(2)中,“通過浸涂或輥涂的方式”在句子中做輔語義塊,“方式”一詞位于輔語義塊的末尾,作為輔塊和其后面的特征語義塊(謂語部分)劃分的邊界。靜態(tài)概念的分類及與詞性的大體對應關系可如下表:

        表2:

        (3)屬性概念

        屬性概念是修飾限定成分。大體上對應于詞性中的形容詞和副詞。屬性概念與被修飾限定成分之間的對應關系更為具體明晰。依據(jù)被修飾限定成分的不同,可以進一步分為若干小類,將形容詞類屬性二分為修飾具體概念的屬性x、修飾抽象概念的屬性ug和可獨立做謂語的u屬性;將副詞類屬性二分為修飾動態(tài)概念的屬性uv和修飾屬性概念的uu屬性。具體如下:

        x:是具體物的物性,修飾限定名詞性具體概念人(P)和物(W),對應于形容詞。如:“白色”的概念類別是x,所修飾限定的成分一定是具體物??山M合成白色光(whitelight),白色顆粒(whiteparticles)等。

        ug:靜態(tài)概念的修飾性成分,修飾限定靜態(tài)概念g、值z、效應r、綜合概念s及時空概念等,對應于形容詞。

        u:獨立的屬性,用于描述可以獨立作謂語的屬性,也就是說,具有該屬性的形容詞類概念可以構成形容詞謂語句。在英語語言中,也就是該類屬性可以充當系表結構中的表語。這對漢英句式轉換具有重要的指示作用。

        uv:動態(tài)概念的修飾性成分,修飾限定動態(tài)概念v,對應于副詞。

        uu:描述屬性的屬性,修飾限定屬性成分ug、u、uu、x等,也可以修飾限定動態(tài)概念。

        屬性概念的分類及與詞性的大體對應關系可如下表:

        表3:

        (4)邏輯概念

        邏輯概念是HNC語義網(wǎng)絡中的一類重要概念。用于語言單位的組織與連接,大體相當于虛詞。按語義及功用可分為語言邏輯、語法邏輯和基本邏輯。

        1)語言邏輯

        語言邏輯服務于語義塊的整體辨識、語義塊內(nèi)部構成的分析及句間信息的提示和表達。具體如下表:

        表4:

        語言邏輯概念根據(jù)其在句子中所充當?shù)淖饔眉八幍奈恢茫譃?2小類。其中l(wèi)0-l3服務于語義塊的整體辨識,用來識別句子中主輔語塊的前后邊界。例如:

        (4)使用者將某操作系統(tǒng)308安裝到計算機310中。(Auserloadsanoperatingsystem308intoacomputer 310.)

        這里“將”的概念類別是l0,由它把兩個主要語塊“使用者”和“某操作系統(tǒng)308”分開。

        L4-l5作為語義塊內(nèi)部邏輯組合符號,服務于語義塊內(nèi)部構成的分析,用來連接詞或短語片段,組成一個語塊。例如:

        (5)依照本發(fā)明的文檔處理系統(tǒng)主要包括應用軟件、接口層、文檔庫系統(tǒng)和存儲設備。(Thedocumentprocessing systeminaccordancewiththepresentinventionincludesanapplication,aninterfacelayer,adocbase managementsystemandastoragedevice.)

        這個句子中,“包括”的各對象之間通過頓號和組合符號14“和”連接,共同構成賓語。

        同樣道理,L6-l7服務于特征語義塊的內(nèi)部構成,l8服務于輔語義塊的內(nèi)部構成,l9指代邏輯服務于廣義對象語義塊的構成,la和lb分別服務于句內(nèi)和句間信息的提示和表達。

        這一組概念類別的設立就是為語義塊感知和后續(xù)的語義塊組分處理提供激活信息。

        2)語法邏輯

        “語法”概念用于描述語言使用的習慣。服務于語言表達方式的辨認(包括修辭)和特指語詞的辨認。語言中(以漢語為例)一些句式的表達涉及到語言習慣問題,構成這些句式的特征詞就用語法邏輯概念描述。例如:正反問句的表達需要特征詞“是否”“是不是”,這些都歸為語法邏輯類型。

        盡管這些特征詞在很大程度上相當于副詞的語法功能,但這些詞更可能是作為連句成篇的構成單位,而且不同語種使用的手段也會不同,所以,把它從副詞中單列出來。

        3)基本邏輯

        基本邏輯概念涉及基本判斷,用于判斷命題的基本內(nèi)容:是否和有無。此處的基本邏輯概念類別主要描述的是充當屬性概念的基本邏輯,這類概念一般位于特征語義塊的前面作為特征語義塊的邏輯修飾語。服務于特征語義塊的情態(tài)辨認。如“能夠”“應該”“必須”等,大體對應于詞類中的情態(tài)動詞。

        概念類別是關于詞語的概念意義和語用特征的最簡明知識,是語句理解處理過程中首先要用到的知識。對語言現(xiàn)象的描述有粗細之分,相應的概念類別也分為廣義概念類別和狹義概念類別,用以匹配不同層級的知識特征。狹義概念類別是對廣義概念類別的細化描述。在漢英機器翻譯應用中,狹義概念類別的應用對語塊的內(nèi)部構成,語塊邊界的確定乃至整個句子的分析都具有重要的支撐作用。是知識庫中一項重要的詞語屬性特征。

        四、概念類別在漢英機器翻譯中的應用

        基于HNC理論搭建了面向專利文獻的漢英機器翻譯系統(tǒng)大體上包括預處理模塊、源語言分析模塊、過渡轉換模塊和目標語生成模塊幾個主要部分[7]。概念類別的知識在各個模塊中都發(fā)揮著自己的作用。下面我們主要介紹概念類別在分析模塊和轉換模塊中的應用。

        (一)在分析模塊中的應用

        源語言分析模塊主要依據(jù)知識庫提供的各項知識與分析規(guī)則庫對文本進行分析,得到句類分析樹。

        例如,在輔塊識別中,對于輔塊邊界的辨識我們可以依據(jù)語言邏輯概念類別。對于輔塊標志符我們可以用l1表示,在分析規(guī)則(0)LC_CC[l15]+(f){(1)LC_CC[l1h]}=>LC_TREE(L1,0,0)+LC_TREE[BK,0,1]+LC_TREE(L1H,1,1)$時,就主要利用了概念類別信息?!埃?)”表示規(guī)則調(diào)用的起始位置,“LC_CC”表示在語塊中詞語所具有的概念類別信息,“LC_TREE”表示生成樹節(jié)點。這條規(guī)則的含義是,如果在句子中找到一個詞語的狹義概念類別為l15(輔塊前邊界標志符),且其后面還能找到一個狹義概念類別l1h(輔塊后邊界標志符),則將兩個詞語各自在句子中生成節(jié)點,且將其與中間的部分生成一個語塊BK。這樣,一個完整的輔塊就可識別出來。

        (二)在轉換模塊中的應用

        過渡轉換模塊主要依據(jù)句類分析樹以及轉換規(guī)則庫,通過各種調(diào)度操作,將漢語句類分析樹轉換為符合英文表達習慣的目標語句類樹。

        例如,在并列結構中,有標記名詞性并列結構各并列成分的中心語在語義類上顯現(xiàn)出一定的相似性,在我們的研究中更細化為詞語的概念類別。我們可根據(jù)緊鄰并列連接詞前面的詞的概念類別向后尋找相同概念類別的詞作為后邊界,根據(jù)緊鄰并列連接詞后面的詞的概念類別向前尋找相同概念類別的詞作為前邊界[8],可描述為如下規(guī)則:

        (-1)LCR+(0)CHN[、]+(f?){(1)CR}=>LC_TREE(AND_TH,1,1)+LC_TREE(ANDMK,0,0)$

        (b?){(-1)CR}+(0)CHN[、]+(1)RCR=>LC_TREE(AND_TQ,-1,-1)+LC_TREE(ANDMK,0,0)$

        其中“C”表示詞語的概念類別(Category),“LCR、RCR”分別表示緊鄰并列連接詞前、后的詞的概念類別,“CR”表示分別向前或向后找到的與LCR或RCR相同的概念類別。

        五、結語

        本文全面闡述了概念類別的具體內(nèi)容并給出了概念類別與詞性的對應關系,指出概念類別可劃分為抽象概念和具體概念兩大類型,抽象概念中又包括動態(tài)概念、靜態(tài)概念、屬性概念和邏輯概念,并對概念的所指及應用做出了描述。隨后,本文對概念類別與詞性的關系和差別做出了解釋,并給出了概念類別與詞性的對應關系。最后,本文描述了概念類別信息在漢英機器翻譯中的具體應用,指出,概念類別在漢英機器翻譯的分析模塊和轉換模塊(如小句轉換、Eg識別、格式轉換和輔塊識別等)中均發(fā)揮著重要的作用。

        下一步的工作是,繼續(xù)擴大詞語知識庫的規(guī)模,在對目標語(英語)的語言特征進行全面細致把握的基礎上,標注英語詞語的概念類別信息,并結合英語詞語豐富的形態(tài)變化特征,配合漢英機器翻譯引擎的研發(fā),完成英語生成模塊的知識庫資源構建,以提高翻譯系統(tǒng)的生成效果。

        (本文受到國家高技術研究發(fā)展計劃[863課題,項目號:2012AA011104]、中國博士后科學基金資助項目以及中央高校基本科研業(yè)務費專項資金的資助。)

        [1]黃曾陽.HNC(概念層次網(wǎng)絡)理論[M].北京:清華大學出版社,1998.

        [2]苗傳江.HNC(概念層次網(wǎng)絡)理論導論[M].北京:清華大學出版社,2005.

        [3]晉耀紅.HNC(概念層次網(wǎng)絡)語言理解技術及其應用[M].北京:科學出版社,2006.

        [4]張克亮.面向機器翻譯的漢英句類及句式轉換.開封:河南大學出版社,2007.

        [5]李穎,王侃,池毓煥.面向漢英機器翻譯的語義塊構成變換[M].北京:科學出版社,2009.

        [6]胡裕樹.現(xiàn)代漢語[M].上海:上海教育出版社,1995.

        [7]朱筠.基本句群處理及其在漢英專利機器翻譯中的應用[D].北

        京:北京師范大學博士學位論文,2013.

        (朱筠劉智穎晉耀紅北京師范大學中文信息處理研究所100875)

        猜你喜歡
        漢英類別語義
        語言與語義
        話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
        從目的論看環(huán)保公示語的漢英翻譯
        “上”與“下”語義的不對稱性及其認知闡釋
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        認知范疇模糊與語義模糊
        漢英文字的幽默修辭功能淺探
        語言與翻譯(2014年1期)2014-07-10 13:06:14
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈式反應快速鑒別5種常見肉類別
        食品科學(2013年8期)2013-03-11 18:21:31
        一本无码人妻在中文字幕| 白嫩丰满少妇av一区二区| 成人影院yy111111在线| 亚洲av中文无码字幕色三| 亚洲欧洲一区二区三区波多野| 熟女高潮av一区二区| 国产精品视频永久免费播放| 亚洲aⅴ天堂av天堂无码麻豆| 亚洲欧美在线观看一区二区| 亚洲日本国产一区二区三区| 精品国产av一区二区三区四区| 亚洲中文字幕在线观看| 亚洲婷婷丁香激情| 国产视频一区二区三区在线看| 国产精品黑丝美女啪啪啪| 精品日产卡一卡二卡国色天香| 亚洲国产精品国自产电影| 亚洲一区二区三区一区| 精品一区二区三区在线视频| 人妻少妇精品中文字幕av蜜桃| 91福利国产在线观一区二区| 亚洲av无吗国产精品| 亚洲成av人在线观看网址| 亚洲精品国产v片在线观看| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 9久久婷婷国产综合精品性色 | 3d动漫精品啪啪一区二区下载 | 一区二区在线观看视频亚洲| 欧美肥妇毛多水多bbxx水蜜桃| 少妇寂寞难耐被黑人中出| 国产成人精品无码一区二区老年人| 亚洲女同系列在线观看| 毛片无码国产| 亚洲色大成网站www在线观看| 国产一区二区三区蜜桃| 欧美丰满熟妇xxxx性ppx人交| 无码久久精品国产亚洲av影片| 18禁黄无遮挡免费网站| 夜夜骚久久激情亚洲精品| 55夜色66夜色国产精品视频| 91孕妇精品一区二区三区|