亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中日雙語平行語料庫之日語科技語標(biāo)注技術(shù)

        2015-03-13 16:58:12李毅鵬
        企業(yè)導(dǎo)報(bào) 2015年2期

        李毅鵬

        摘 要:中日雙語平行語料庫由中文和日文兩種語言組成,在研發(fā)階段,我們主要從語言學(xué)角度對這兩種語言進(jìn)行對比和分析。無論是從語言形態(tài)還是整篇文章的結(jié)構(gòu)來看,中日文都有著共同的特性。在計(jì)算機(jī)數(shù)據(jù)處理時(shí),只有對兩種語言同時(shí)進(jìn)行標(biāo)注,才能達(dá)到互譯的效果。目前,大多數(shù)語料庫采用數(shù)據(jù)庫處理和文本處理相結(jié)合的組織模式,采用XML(Extend Marking Language)標(biāo)記語言?,F(xiàn)如今雙語平行語料庫最流行的項(xiàng)目是應(yīng)用于XML的語義標(biāo)注技術(shù),該標(biāo)記語言的優(yōu)點(diǎn)在于語料處理比較直觀,基本和實(shí)際的文章相似,彌補(bǔ)了同類標(biāo)注技術(shù)的不足。

        關(guān)鍵詞:科技日語;標(biāo)注技術(shù);XML;中日雙語

        一、科技語的定義及表現(xiàn)形式

        科技實(shí)際內(nèi)容的另一種表現(xiàn)形式是科技語文章??萍嘉墨I(xiàn)存在的前提是科技語言的掌握。語言學(xué)給出這樣的結(jié)論,科技日語是以日語為根基,傳遞的是科技方面的思想內(nèi)容,是日語中必不可少的一部分。科技日語語體描述的主體是現(xiàn)實(shí)生活中客觀存在的事實(shí),這就是自身最大的特點(diǎn),由于這個(gè)原因使其在表現(xiàn)手段、邏輯思維等方面有鮮明的特色。換句話說,科技日語語體在遣詞造句等方面有其自身的特點(diǎn)。只有充分地掌握這些特點(diǎn),才能正確理解科技日語文章。

        語言是思維的外在表現(xiàn)形式,思維有賴于語言,尤其有賴于文章的準(zhǔn)確性體現(xiàn)思維的明晰性,文章的層次性體現(xiàn)思維的條理性,文章的周密性體現(xiàn)思維的邏輯性閱讀過程中的判斷推理、分析綜合、類比想象、欣賞評價(jià),都離不開思維。換言之,文章閱讀的過程,就是整理思維的過程而閱讀科技語體的文章,不僅是一個(gè)語義辨認(rèn)、語法分析的過程,同時(shí)也是讀者運(yùn)用相關(guān)學(xué)科的知識(shí)和經(jīng)驗(yàn)對寫作者所傳遞的新理論,新信息,新資料進(jìn)行判斷、推理、分析、綜合的復(fù)雜邏輯思維過程。因此,在閱讀整理科技日語語體的文獻(xiàn)時(shí),除了掌握科技日語的基本語言特點(diǎn),具有較高水平的語言分析能力外,還必須了解有關(guān)學(xué)科的基本知識(shí)和較強(qiáng)的邏輯思維能力,才能把握原文的精神實(shí)質(zhì),用恰當(dāng)?shù)母拍钊ヅ袛嘣摹?/p>

        二、中日雙語科技語標(biāo)注技術(shù)

        (一)中日雙語日語科技語標(biāo)注技術(shù)采用的主要方法。目前,大多數(shù)語料庫采用數(shù)據(jù)庫處理和文本處理相結(jié)合的組織模式,采用XML(Extend Marking Language)標(biāo)記語言。該標(biāo)記語言的優(yōu)點(diǎn)在于語料處理比較直觀,基本和實(shí)際的文章相似。此種標(biāo)記語言需要高配置、高性能的硬件設(shè)施,但是對于數(shù)據(jù)的處理能力較低,所以很難完成多用戶的共同處理任務(wù)。相對于其他的標(biāo)記語言,該技術(shù)的功能較繁瑣,數(shù)據(jù)庫的管理和安全性的維護(hù)都很難能實(shí)現(xiàn)。由此得出該種標(biāo)注技術(shù)只適用于數(shù)據(jù)量較小,雙語語料庫。但是,到目前為止還沒有研究出比XML標(biāo)記語言更便利的標(biāo)記語言,因此,市場依舊采用XML語言,在此基礎(chǔ)上研發(fā)出了多用戶并發(fā)操作模式,即群組分布式操作模式,以達(dá)到揚(yáng)長避短的目的。

        群組分布式操作模式,通過市場熱門的數(shù)據(jù)庫應(yīng)用軟件,分解文本數(shù)據(jù),并將其存儲(chǔ)在一個(gè)公共數(shù)據(jù)庫中,主機(jī)之外的計(jì)算機(jī)只能為客戶機(jī)的身份操作數(shù)據(jù)庫。分布式計(jì)算機(jī)系統(tǒng)是由廣域網(wǎng)或局域網(wǎng)相互連接,可以在數(shù)臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行程序的不同部分。通過B/S(Browser/Server,瀏覽器/服務(wù)器)或C/S(Client/Server,客戶端/服務(wù)器)結(jié)構(gòu),不僅能將語料數(shù)據(jù)有效的存儲(chǔ)和完成復(fù)雜的檢索,而且能實(shí)現(xiàn)了多用戶的群組操作,達(dá)到了事半功倍的效果。

        中日雙語語料庫的建設(shè)系統(tǒng)和使用系統(tǒng)是由數(shù)臺(tái)相互聯(lián)網(wǎng)的計(jì)算機(jī)組成,將一臺(tái)計(jì)算機(jī)放在中心的位置,充當(dāng)服務(wù)器,剩下的計(jì)算機(jī)只有通過局域網(wǎng)訪問服務(wù)器才能獲得需要加工的數(shù)據(jù)。以此讓語言翻譯有關(guān)的研究人員都能操作數(shù)據(jù)庫。群組分布式操作模式像網(wǎng)一樣將用戶、創(chuàng)建人員、研究人員等與服務(wù)器相連,從而操作翻譯語料庫。

        (二)中日雙語科技語標(biāo)注技術(shù)遇到的主要問題。(1)語言學(xué)理論上的問題。首先,中日雙語科技語標(biāo)注技術(shù)缺乏統(tǒng)一的文法理論基礎(chǔ)。從自然語言處理實(shí)踐來看,還沒有哪一種語言學(xué)流派成為一種理想的理論基礎(chǔ),因此建立中日雙語科技語標(biāo)注技術(shù)就面臨著缺乏語言學(xué)理論基礎(chǔ)。這樣,一方面是缺乏一個(gè)統(tǒng)一的語言理論來指導(dǎo)建立中日雙語科技語標(biāo)注技術(shù),從而造成中日標(biāo)注分別建立在兩個(gè)不同的語法體系的現(xiàn)象;另一方面,一旦選定某種文法理論來設(shè)定標(biāo)注技術(shù),那么要引入另一個(gè)文法進(jìn)行某些研究時(shí),就會(huì)造成標(biāo)注技術(shù)的沖突和冗余,其結(jié)果就是雙語標(biāo)注技術(shù)的標(biāo)準(zhǔn)性無從談起。其次,中日雙語科技語標(biāo)注技術(shù)面臨著描述雙語現(xiàn)象的難題,這一點(diǎn)在語言學(xué)中也是一個(gè)有待深入研究的問題。雙向機(jī)器翻譯系統(tǒng)的下一步工作是:利用等值翻譯理論,建立等值翻譯表達(dá)式,從而實(shí)現(xiàn)雙向機(jī)器翻譯系統(tǒng)的知識(shí)級(jí)的共享。但是這一方案在實(shí)踐上還有很多問題有待克服,其中之一就是如何進(jìn)行雙語的描述問題:不僅需要分別充分描述漢語和日語各自的特點(diǎn),而且還要能夠刻畫出二者相互轉(zhuǎn)換時(shí)的特征,也就是說需要刻畫出雙語的異同點(diǎn)。而恰恰在這里,語言學(xué)和比較語言學(xué)研究乃至翻譯研究,都沒有能夠提供一個(gè)充分可行的理論。也就是說,中日雙語標(biāo)注集需要首先確定所需要表示的知識(shí)范圍:漢語和日語之間究竟在什么范圍、什么程度上存在那些異同,標(biāo)注技術(shù)究竟在什么層次上刻畫雙語現(xiàn)象。此外,在雙語標(biāo)注技術(shù)的出發(fā)點(diǎn)上,還存在著理性主義和經(jīng)驗(yàn)主義兩種不同的意見。理性主義意見認(rèn)為雙語標(biāo)注技術(shù)應(yīng)該根據(jù)雙語研究的成果,對于雙語間相同的語言現(xiàn)象使用相同的符號(hào),而對于那些不同的現(xiàn)象再引入相互區(qū)別的標(biāo)志。當(dāng)然這種狀態(tài)比較理想,但是目前這方面的語言學(xué)研究還不太成熟。另一種經(jīng)驗(yàn)主義認(rèn)為,雙語標(biāo)注技術(shù)應(yīng)該針對每種語言的特點(diǎn)設(shè)置各自符號(hào),而后在此基礎(chǔ)上進(jìn)行雙語的比較和對照研究,才能夠充分揭示兩種語言的異同。這種意見從實(shí)踐的角度來看是可取的,其缺點(diǎn)是可能造成一定的符號(hào)冗余。(2)雙語標(biāo)注技術(shù)設(shè)計(jì)的幾個(gè)難點(diǎn)。首先,公認(rèn)性是雙語標(biāo)注技術(shù)存在的基礎(chǔ)。公認(rèn)常常意味著人們對某個(gè)事物達(dá)成了共識(shí),但對于語言標(biāo)注乃至整個(gè)自然語言處理來說,這種共識(shí)幾乎不存在。其次,開放性是中日雙語標(biāo)注技術(shù)的設(shè)計(jì)核心。標(biāo)注技術(shù)的開放性在機(jī)器翻譯研究中不僅僅是技術(shù)上的問題,而且具有十分重要的實(shí)踐意義。機(jī)器翻譯研究包括句法分析、詞義消歧識(shí)獲取、口語機(jī)器翻譯等不同專業(yè)眾多的研究方向。最后,兼容性是中日雙語標(biāo)注技術(shù)實(shí)用化的體現(xiàn)。目前,語料庫研究和其他自然語言處理研究的果是機(jī)器翻譯研究的一個(gè)豐富的資源,如果能夠使標(biāo)注技術(shù)兼容這些研究所使用的符號(hào)集,也是說在彼此之間能夠建立比較好的對應(yīng)關(guān)系,那么不僅可以利用這些豐富的研究成果和已的研究工具,而且可以使我們的研究和相關(guān)的研究之間具備了真正的可比性。

        (三)中日雙語科技語標(biāo)注技術(shù)問題的初步解決方案。(1)中日科技語標(biāo)注技術(shù)從整體上不依賴于某個(gè)特定的文法,而是根據(jù)目前漢語和日語的研究經(jīng)驗(yàn),分別對兩種語言中比較普遍的、公認(rèn)需要研究的語言現(xiàn)象設(shè)置符號(hào);對于其他可能需要的知識(shí)表示,留待后期完善。(2)標(biāo)注技術(shù)包括詞法標(biāo)注和句法標(biāo)注兩大類,兩者的語法層次、符號(hào)大不相同,在詞法標(biāo)注技術(shù)和句法標(biāo)注技術(shù)中,分別將各自的符號(hào)劃分成三個(gè)部分:基本符號(hào),常用符號(hào)和專用符號(hào)。(3)基本符號(hào)描述自然語言共有的一些特征或者中日雙語的基本概念,這些概念在各種語料庫中幾乎都有類似或相同的符號(hào)代表,例如詞法標(biāo)注中的名詞、動(dòng)詞等概念和句法標(biāo)注中的名詞詞組、動(dòng)詞詞組、介詞詞組等等。(4)中日文常用符號(hào)集主要包括一些比較公認(rèn)或應(yīng)用比較廣泛的語法概念,例如人稱、數(shù)、性別、時(shí)態(tài)、語態(tài);甚至可能包括所需要的某個(gè)文法中的一些基本概念,如格語法中各種格的符號(hào)等等。中日文專用符號(hào)集可以看作是對以上兩種符號(hào)的補(bǔ)充,它往往是根據(jù)各種分支研究的需要所填補(bǔ)的各種表示符號(hào)。例如口語機(jī)器翻譯所需要的額外符號(hào),漢語分詞研究所添加的特征標(biāo)記等等?;痉?hào)和常用符號(hào)一般來說是比較固定的,但是常用符號(hào)可能隨著研究的深入,經(jīng)課題組和有關(guān)專家討論后,進(jìn)行有系統(tǒng)的改動(dòng)或添加。(5)專用符號(hào)體現(xiàn)整體的開放性,可以根據(jù)需要隨時(shí)添加。不過,應(yīng)該首先盡可能沿用已有的符號(hào),只有在十分必要時(shí)再進(jìn)行增補(bǔ)。對于每個(gè)新增的符號(hào),都要有嚴(yán)格的說明和定義;而新增一批專門用于某個(gè)分支研究的符號(hào)時(shí),應(yīng)該專門書寫說明,記載該項(xiàng)研究繼承了哪些已有的符號(hào),新增了哪些符號(hào)等等。一般來說,這些專用的符號(hào)都不允許脫離已有的標(biāo)注集而另成體系。

        (三)中日雙語科技語標(biāo)注技術(shù)的研究意義。其意義主要有以下幾個(gè)方面:(1)穩(wěn)定的研究基礎(chǔ)標(biāo)準(zhǔn)的中日雙語科技語標(biāo)注技術(shù)是機(jī)器翻譯、雙語語料庫以及其他有關(guān)研究的知識(shí)表示基礎(chǔ)。以一個(gè)統(tǒng)一的基礎(chǔ)開展研究可以確保研究的延續(xù)性和一致性。(2)研究成果的積累有利于機(jī)器翻譯系統(tǒng)的開發(fā)和有關(guān)的雙語語料加工。如果能夠以一個(gè)標(biāo)準(zhǔn)的中日雙語標(biāo)注技術(shù)為基礎(chǔ),那么每個(gè)為此目的開發(fā)的輔助工具和系統(tǒng)都可以直接繼承并加以利用,從而節(jié)省科研勞動(dòng),依靠成果積累加快研究的深入。(3)統(tǒng)一的對比平臺(tái)和轉(zhuǎn)換標(biāo)準(zhǔn)英漢雙語的語料加工在國內(nèi)外已經(jīng)有比較豐富的成果,而且所使用的符號(hào)體系各有特點(diǎn)。如果沒有一個(gè)標(biāo)準(zhǔn)的雙語標(biāo)注集,就無法對這些工作進(jìn)行比較,而且對于這些語料的進(jìn)一步加工利用就會(huì)需要額外的轉(zhuǎn)換工作。因此,標(biāo)準(zhǔn)的中日雙語標(biāo)注技術(shù)會(huì)促進(jìn)對已有資源的利用??梢姡粋€(gè)標(biāo)準(zhǔn)的中日雙語標(biāo)注技術(shù)對于涉及中日雙語的研究來說具有戰(zhàn)略意義(如果能夠在全國范圍內(nèi)建立這樣一個(gè)標(biāo)準(zhǔn),其意義將更加巨大)。在這一過程中,我們發(fā)現(xiàn)建立中日雙語標(biāo)注技術(shù)不只是對原有單向標(biāo)注集的簡單歸納整理。雙語標(biāo)注技術(shù)不僅涉及到一些比較復(fù)雜的實(shí)現(xiàn)策略問題,還涉及到比較語言學(xué)和翻譯理論中懸而未決的一些問題。

        結(jié)語:中日雙語科技語標(biāo)注技術(shù)是中日雙語處理研究的知識(shí)表達(dá)基礎(chǔ)。由于目前國內(nèi)文獻(xiàn)對此類問題關(guān)注較少,本文比較詳細(xì)地論述了設(shè)計(jì)雙語標(biāo)注技術(shù)的必要性、設(shè)計(jì)中的難點(diǎn)并提出了一個(gè)可行的解決方案。該方案不僅能夠適應(yīng)相當(dāng)長的時(shí)間內(nèi)中日雙向機(jī)器翻譯和漢語語料庫研究,而且對于其他跨語言的比較研究和機(jī)器翻譯研究,都有一定的借鑒意義。

        應(yīng)該說,該標(biāo)準(zhǔn)仍然沒有能夠達(dá)到理想的狀態(tài),還不能勝任刻畫全部的中日雙語現(xiàn)象。不過,鑒于目前研究水平所限,我們認(rèn)為中日雙語標(biāo)注技術(shù)的進(jìn)一步完善只有在更加細(xì)致的雙向機(jī)器翻譯研究,或者是更加完備的中日雙語比較研究的基礎(chǔ)上才能夠進(jìn)行。而這些不是在短時(shí)間內(nèi)能夠做到的,也不是一個(gè)研究單位能夠勝任的,還有待于廣大計(jì)算語言學(xué)研究人員和語言學(xué)研究人員的共同努力。

        參考文獻(xiàn):

        [1] 陸建江等、編著語義網(wǎng)原理技術(shù)[MI科學(xué)出版社2007.3.l第一版

        [2] 《文休學(xué)概論》秦秀白編著湖南教育出版社19 88

        [3] 《科技日語語體的基本特點(diǎn)》廣州華南理工大學(xué)外語系 錢紅日

        91福利国产在线观看一区二区| 国产成人无码a在线观看不卡| 亚洲人成77777在线播放网站| 亚洲暴爽av天天爽日日碰| 亚洲国产成人久久综合下载| 乱码一二区在线亚洲| 男人的天堂av一二三区| 三级日韩视频在线观看| 亚洲成在人线视av| 国产精品久久久久影院| 99ri国产在线观看| 精品亚洲乱码一区二区三区| 亚洲桃色视频在线观看一区| 中文字幕人妻被公上司喝醉| 亚洲视频1区| 加勒比特在线视频播放| 日韩国产精品一区二区三区| 97se亚洲国产综合自在线观看| 无码国产激情在线观看| 国产美女亚洲精品一区| 久久伊人亚洲精品视频| 无码精品人妻一区二区三区av| 日韩视频第二页| 国产一区二区三区视频了| 丝袜美腿亚洲第一免费| 国产台湾无码av片在线观看| 国产精品成人午夜久久| 我的极品小姨在线观看| 日韩精品无码一区二区三区四区| 特黄a级毛片免费视频| 大屁股少妇一区二区无码| 最新国产激情视频在线观看| 国模无码一区二区三区| 国产高清无码在线| 日本中文字幕人妻精品| 日本欧美大码a在线观看| 国产成人精品成人a在线观看| 精选麻豆国产AV| 国产黄片一区二区三区| 无码国产精品久久一区免费| 国产精品 视频一区 二区三区|