黃雅雯,董俊虹
(西北工業(yè)大學(xué) 人文與經(jīng)法學(xué)院,陜西 西安 710129)
語言是人們身邊的科學(xué),它作為信息的重要載體,不僅是人類相互交流的工具,也是計算機(jī)與人之間的溝通橋梁。機(jī)器翻譯,最早是由科學(xué)家G.B阿爾楚在20世紀(jì)30年代提出的,就是通過計算機(jī)把一種自然語言翻譯成另一種不同的語言。機(jī)器翻譯的過程分為三步:解析、轉(zhuǎn)移、生成。這個方法被人們認(rèn)為是計算機(jī)模擬人工翻譯的最佳機(jī)制,其在某種程度上模仿了人類的思維方式。當(dāng)今設(shè)計的翻譯軟件系統(tǒng)包括理性主義、經(jīng)驗主義和多引擎三種類型。機(jī)器翻譯的問世,給語言學(xué)科帶來了機(jī)遇和挑戰(zhàn)。由于自然語言是極端復(fù)雜的,機(jī)器翻譯就更為復(fù)雜和困難,它是當(dāng)代科學(xué)技術(shù)的十大難題之一[1]。
機(jī)器翻譯是網(wǎng)絡(luò)信息時代的前沿領(lǐng)域,是一門涉及語言學(xué)、數(shù)學(xué)、心理學(xué)、計算機(jī)科學(xué)的交叉學(xué)科。機(jī)器翻譯的發(fā)展必須建立在語言學(xué)研究的基礎(chǔ)上,是應(yīng)用語言學(xué)研究的重點。目前大部分機(jī)器翻譯系統(tǒng)仍然依照傳統(tǒng)的語言學(xué)理論,通過對語言表層句法的分析和句法樹的構(gòu)建,對翻譯內(nèi)容進(jìn)行淺層的語義分析。近年來,國內(nèi)計算機(jī)科學(xué)家和語言學(xué)家一直致力于尋找提高機(jī)器翻譯質(zhì)量的突破口,但是所取得的成績大多都局限于自然語言的分類和處理上,并沒有將人類語言理解的心理學(xué)理論應(yīng)用于機(jī)器翻譯之中。心理語言學(xué)正是以語言的心理過程作為研究對象的一門新興學(xué)科,它研究人的高級心理過程,包括語言理解、語言產(chǎn)生和語言習(xí)得。
從語言學(xué)科的分類來看,心理語言學(xué)與機(jī)器翻譯同屬于認(rèn)知科學(xué)的研究領(lǐng)域,心理語言學(xué)是在心理學(xué)和語言學(xué)的邊緣上產(chǎn)生的;機(jī)器翻譯則是計算語言學(xué)和人工智能的交叉學(xué)科,二者之間存在著千絲萬縷的聯(lián)系。
人們在理解語言時,首先要接受由外部輸入語音的或文字的刺激,并按照這些刺激的物理屬性而產(chǎn)生最初的外部代碼,接著對這些代碼進(jìn)行初步加工得到語詞后在心理詞典中進(jìn)行搜索,從而獲得單詞的句法與語義的代碼。然后再進(jìn)行句法分析和語義分析,并獲得理解句子和話語的意義所需的命題代碼[2]。
Halvorson強(qiáng)調(diào),自然語言理解是對人類語言處理能力和心理過程的功能的模擬[3]。自然語言是相對于人工語言而言的,它是人類用來表達(dá)思維和交際的工具。自然語言理解(簡稱NLU),源自機(jī)器翻譯,從微觀上講,是指從自然語言到機(jī)器(計算機(jī)系統(tǒng))內(nèi)部之間的一種映射。從宏觀上講,是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能[4]。自然語言理解的任務(wù)是要建立一種計算機(jī)模型,模擬出人腦理解語言的結(jié)果,而這種模擬離不開對人類語言理解的心理表征的了解,也就是認(rèn)識人類理解和運(yùn)用語言的心理過程。
語義網(wǎng)絡(luò):1968年,美國人J.R.Quillian提出的一種知識表示工具。在語義網(wǎng)絡(luò)中,代替概念的單位是節(jié)點,而表示概念之間關(guān)系的是節(jié)點間的連接弧,這種網(wǎng)絡(luò)又稱為狀想網(wǎng)絡(luò)。
擴(kuò)展轉(zhuǎn)換網(wǎng)絡(luò)(ANT):1970年,美國人W.Woods依據(jù)喬姆斯基的轉(zhuǎn)換生成語法而設(shè)計的。在這個網(wǎng)絡(luò)中,文法被表示為一組圖或是網(wǎng),這些網(wǎng)表示了句子成分的可能順序及在處理過程中分析器可能進(jìn)行的各種選擇。
概念從屬理論:1973年,美國人Schank R提出的新理論。他認(rèn)為句法分析對語言理解幫助不大,自然語言理解要根據(jù)輸入詞語找所需的概念結(jié)構(gòu)。
概念層次網(wǎng)絡(luò)理論(HNC):由中科院的黃曾陽先生提出,以語義表達(dá)為基礎(chǔ),強(qiáng)調(diào)用概念化、層次化和網(wǎng)絡(luò)化的形式來實現(xiàn)對知識的表達(dá)。
知網(wǎng):董振東先生提出的一種漢語知識的表示方法。知網(wǎng)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。
機(jī)器翻譯的實現(xiàn)是根據(jù)人類對人腦的思維過程和自然語言的理解,讓計算機(jī)模擬人工翻譯的過程。人腦和計算機(jī)是進(jìn)行自然語言理解的兩種認(rèn)知系統(tǒng)。人和計算機(jī)有相似的信息加工系統(tǒng),都是對信息進(jìn)行加工:輸入信息、進(jìn)行編碼、存儲記憶、做出決策、輸出結(jié)果[2]。機(jī)器翻譯專家陳火光就認(rèn)為,如若計算機(jī)對人腦的翻譯過程模擬得越逼真,譯文的質(zhì)量就越高[5],然而,人腦對于語言理解的心理過程并沒有很好的應(yīng)用到機(jī)器翻譯之中。
人們期望機(jī)器翻譯終能代替人工翻譯,但它始終是機(jī)器翻譯無法克服的難題,計算機(jī)對自然語言的“理解”只是對內(nèi)存的雙語或多語數(shù)據(jù)庫進(jìn)行匹配運(yùn)算的結(jié)果。在機(jī)器翻譯研究的早期,人們沒有認(rèn)識到這一課題的艱巨性和復(fù)雜性。然而,當(dāng)人們對所謂“全自動高質(zhì)量機(jī)譯系統(tǒng)”的期望破滅后,開始意識到機(jī)器翻譯的突破點應(yīng)該是讓電腦能夠理解和表達(dá)人類的語言[6]。由此可以推斷,計算機(jī)科學(xué)家仍無法將人類理解語言的心理過程完美地體現(xiàn)在機(jī)器翻譯的流程中。近年來,人類力圖使計算機(jī)模擬人腦的方式進(jìn)行“思考”,越來越多的研究小組致力于“神經(jīng)元網(wǎng)絡(luò)”的研究,人們期待有一天,這種基于神經(jīng)元網(wǎng)絡(luò)的計算機(jī)系統(tǒng)可以提高計算機(jī)自然語言理解和處理的能力。當(dāng)然,人們的主要目的不是仿造出人腦的構(gòu)造,而是從中獲得啟示,優(yōu)化機(jī)器翻譯的質(zhì)量。本文的目的,就是通過心理語言學(xué)中語言理解的相關(guān)理論獲得對機(jī)器翻譯難點的新啟示。
自然語言本身變化多樣,給機(jī)器的理解帶來很多困難,詞匯歧義就是其中最難解的問題之一。但是對于人類來說,要判定詞匯歧義并不困難,可以通過語言環(huán)境或上下文從歧義詞的幾個不同的意義中選擇一個合適的意義。研究人類詞義消歧的心理過程有助于機(jī)器翻譯早日突破消歧困境。
每一個詞都有其對應(yīng)的意義,有的詞語只有一個意義,而有的詞具有多重意義。把這些歧義詞從上下文中獨立出來考慮,就會產(chǎn)生語義歧義。
詞的多義現(xiàn)象可分為三種類型[4]。(1) 意義相關(guān)的多義,是指一個詞的多個意義彼此有一定的聯(lián)系。例如“open”有兩個意義“開著的”與“公開的”。(2) 意義無關(guān)的多義,是指一個詞的多個意義彼此沒有相關(guān)性。例如“bank”有兩個意義“銀行”、“河堤”。(3) 詞性不同的多義,是指一個詞在不同詞性下有不同的意義。如“打”的意義是“hit”和“dozen”,前者為動詞,后者為量詞。
例如:Hecompletedhis novel.
他寫完了他的小說。
他讀完了他的小說。
Complete 的一般意義是“完成”,在此句中可以被理解為“寫完”或是“讀完”,它在句中的具體意義要取決于主語是作者還是讀者。
又如:Peter is apoormechanic.
彼得是個貧窮的機(jī)械師。
彼得是個不稱職的機(jī)械師。
這句話有兩種理解,是因為poor 在這里既可被認(rèn)為是“貧窮的”(having little or no money),又可以理解為“拙劣的”(lacking something needed) 。
詞匯的一詞多義是引起詞匯歧義的內(nèi)因,語境不定則是外因,在不同的語境下,同樣的詞語可以表達(dá)多種含義。人類創(chuàng)造出了靈活多變的語言,這也正說明人心理詞匯的復(fù)雜性和神秘性。
心理過程指的是心理詞匯的組織、檢索和提取模式。詞匯歧義的形成和消解都與語境有關(guān),當(dāng)信息進(jìn)入到人們的大腦時,第一個階段是句法語境,運(yùn)用語法知識在短語或句子中選擇和初步定位多義詞的意義,之后,在現(xiàn)場語境和背景語境中得到鞏固和修正。詞匯消歧的心理過程大致為:語義輸入→檢索→語義激活→選擇→語義抑制→定位→語義輸出,整個過程都是在認(rèn)知語境的引導(dǎo)下進(jìn)行的,如圖1所示。
2.2.1 他人的偏見:Byrne等[15]認(rèn)為當(dāng)患者感覺他人的對待有差異時就會產(chǎn)生病恥感,這種感覺很難量化,會產(chǎn)生在公眾里“格格不入”或者是“異常醒目或突出”的錯覺。在經(jīng)歷疾病過程中,患者常強(qiáng)迫用他人存在偏見的想法來看待自己,產(chǎn)生自我歧視,加重內(nèi)在病恥感。
圖1 詞匯歧義消解的心理過程
1.心理詞匯的組織模型
心理語言學(xué)家把詞在人的長時記憶中的表征稱為心理詞匯[8]。大量的心理語言學(xué)實驗證實,心理詞匯是一個龐大的結(jié)構(gòu)及組織良好的系統(tǒng),并非零亂和無序的儲存在人的長時記憶之中。于是,心理語言學(xué)家提出了語義網(wǎng)絡(luò)的概念,其中最具代表性的兩個模型是層級網(wǎng)絡(luò)模型和擴(kuò)散激活模型。
層級網(wǎng)絡(luò)模型是由Collins和Quillian根據(jù)語言理解的計算機(jī)模擬而提出的,其原理是將單詞之間的種屬關(guān)系聯(lián)系起來,組成一個詞義層次網(wǎng)絡(luò)。這個模式的基本單元是概念,表示為節(jié)點。例如fish的概念將被儲存在既高于shark的而又低于animal的節(jié)點上。層級網(wǎng)絡(luò)模型突出了詞匯之間上下義的語義關(guān)系,但它無法解釋同級詞匯的差異。
擴(kuò)散激活模型是Collins和Loftus提出的第二種心理詞匯的組織模型,它延續(xù)了網(wǎng)絡(luò)的思想,將節(jié)點的連接方式改變?yōu)榫W(wǎng)狀,取代了嚴(yán)格的層級組織,如圖2所示。
圖2 擴(kuò)散激活模型片段
擴(kuò)散激活模型是通過概念之間的語義聯(lián)系和語義相似性建立起來的模型。當(dāng)一個概念受到刺激后,該概念被激活,從一個節(jié)點向四邊擴(kuò)散,先到達(dá)直接相連的節(jié)點,再逐漸擴(kuò)散到其他節(jié)點。這些概念之間不僅有邏輯層次關(guān)系,更有橫向聯(lián)系。如“紅”被激活,就會將刺激傳給“蘋果”、“黃”、“綠”等聯(lián)系緊密的詞,而這些詞又繼續(xù)激活其他相關(guān)的詞。歧義詞激活的過程較為復(fù)雜,它的激活和抑制是共同作用的,如果沒有抑制,歧義詞的多種含義就無法區(qū)分,而抑制不當(dāng),將本該激活的意義抑制了,一樣會造成詞匯歧義現(xiàn)象,要選取正確的詞義就取決于心理詞匯的檢索和提取模型。
2.詞匯項模型
Morton提出了詞匯項模型,強(qiáng)調(diào)詞的提取并不是取決于它在心理詞匯中的位置,而是靠它激活到一定閾限的程度。在詞匯項模型中,每個詞都有它自己的詞匯項,精確規(guī)定了詞的各種屬性。詞匯激活的方式包括感覺輸入和語境信息,第一種方式允許各種方式的感覺輸入加在一起發(fā)生作用,以決定提取出正確的詞。第二種方式是通過句子的語義或句法結(jié)構(gòu)去影響某一個詞匯項的激活。
例如:Her closest relative was appointed as herlegalguardian.[8]
她最親的親戚被指定為她的法定監(jiān)護(hù)人。
句子中的“closest”、 “relative”等詞的激活影響了legalguardian的詞匯項,暫時降低了它的閾限。因此,與單獨呈現(xiàn)相比,這個句子情境中的“監(jiān)護(hù)人”比較容易識別。
詞匯項模型的提取原則為:(1)詞匯項直接提?。?2)幾個候補(bǔ)詞同時被激活;(3)多種類型的信息都可以用來提取正確含義。
人類通常在翻譯過程中能夠短暫地激活歧義詞的所有含義,同時,我們還能做到相當(dāng)迅速地在兩個或多個含義之間做出選擇。但是歧義詞的多個意思往往不是同樣重要的,使用頻率較高的含義更有優(yōu)勢。當(dāng)歧義詞明顯具有優(yōu)勢含義和次要含義,并且存在于具體語境中時,只有優(yōu)勢含義的歧義詞會被激活。因此,當(dāng)優(yōu)勢含義和有偏向的語境都傾向于激活同一個含義時,譯者會選擇這個趨向含義。簡而言之,含義的使用頻率和語境偏向共同影響詞義的激活。
詞匯歧義雖然對人們之間的語言交流沒有造成很大影響,但是對現(xiàn)今的機(jī)器翻譯系統(tǒng)來說翻譯它是非常困難的。因為在很多情況下,排除歧義的前提是要準(zhǔn)確理解語境信息,而現(xiàn)階段的機(jī)器翻譯系統(tǒng)并沒有足夠的語言理解能力去解決此問題。
很多專家學(xué)者認(rèn)為自然語言具有極其復(fù)雜和抽象的特征,而現(xiàn)今人們對大腦認(rèn)識語言機(jī)制的了解還處于初級階段,還不能滿足計算機(jī)的工作原理和設(shè)計中精確、嚴(yán)密的形式化指令的要求。也有悲觀論者認(rèn)為:語言感知過程密切依附于大腦中千億神經(jīng)元的神經(jīng)網(wǎng)絡(luò)和浩瀚的世界知識海洋,在對大腦這個“黑箱”的奧秘還未做充分揭示之前,模擬語言感知過程是不現(xiàn)實的。近年來,黃曾陽先生提出的概念層次網(wǎng)絡(luò)理論(HNC)充分證明了突破的契機(jī)是存在的,他認(rèn)為自然語言理解的本質(zhì)是概念聯(lián)想脈絡(luò)激活、擴(kuò)展、濃縮,語句的理解必須定位于概念聯(lián)想脈絡(luò)運(yùn)作全過程的激活。這種設(shè)想也同樣適用于機(jī)器翻譯的發(fā)展探索。
1.前人研究和機(jī)器翻譯發(fā)展現(xiàn)狀
語義網(wǎng)絡(luò)的設(shè)想已經(jīng)為很多研究團(tuán)體所信奉,但是還處于基礎(chǔ)的實現(xiàn)階段。今后的發(fā)展方向可以拓展到建立起豐富和完善的新型詞匯知識庫,連接以詞所代表的概念之間的網(wǎng)狀關(guān)系,使擴(kuò)散激活網(wǎng)絡(luò)的構(gòu)建更好的應(yīng)用到機(jī)器翻譯系統(tǒng)當(dāng)中。
2.詞匯知識庫中的概念相互聯(lián)系
根據(jù)這些概念中本義和語境中的關(guān)聯(lián)性,可以將其范疇化。例如:“勝”、“敗”、“僵持”屬于本義關(guān)聯(lián)詞;“課堂”、“教師”、“教育”屬于語境關(guān)聯(lián)詞。概念之間的本義關(guān)聯(lián)性是其本身固有的,包括同義詞、反義詞、近義詞等。概念之間的語境關(guān)聯(lián)性是指它們的意義密切相關(guān)。范疇化的設(shè)想可以縮小激活歧義詞的范圍,幫助機(jī)器翻譯更快捷、有效而準(zhǔn)確地提取歧義詞的正確含義。
計算機(jī)自然語言理解沒有獲得根本性的突破是造成機(jī)器翻譯質(zhì)量不高的主要原因,是制約機(jī)器翻譯、語言信息處理發(fā)展的瓶頸。目前的機(jī)器翻譯系統(tǒng)在處理詞匯歧義問題時,仍然無法理解自然語言的多樣性。本文在這個問題上沒有提出完備的發(fā)展框架,但所討論的問題反映出機(jī)器翻譯在今后的詞匯消歧研究中應(yīng)該多從語言理解的心理機(jī)制中尋求突破??傊瑢C(jī)器翻譯與人類語言的認(rèn)知系統(tǒng)聯(lián)系起來,可以更好地幫助解決機(jī)器翻譯的難點。
參考文獻(xiàn):
[1] 馮志偉.機(jī)器翻譯研究 [M].北京:中國對外翻譯出版社,2004.
[2] 李伯約,賽 丹.自然語言理解的心理學(xué)原理[M].上海:學(xué)林出版社,2007.
[3] 孫玉強(qiáng),王海燕,陳繼光.人-機(jī)語言理解的歧義性比較研究[D].新鄉(xiāng):河南師范大學(xué),2008.
[4] 蔡自興,徐光佑.人工智能及其應(yīng)用[M].北京:清華大學(xué)出版社,2004.
[5] 陳火光.電子翻譯 [M].天津:天津大學(xué)出版社,2000.
[6] 白錫嘉.機(jī)器翻譯與自然語言的理解 [J].中國科技翻譯,1996(2):31-34.
[7] 周明強(qiáng).詞匯歧義消解的認(rèn)知模式 [J].浙江外國語學(xué)院學(xué)報,2011(3):1-7.
[8] Carroll D W.Psychology of language [M].Beijing:Foreign language teaching and research press,2000.