仲佳琳 楊宇 李奕琛
摘 要:在解決處理中文文本的分詞的問(wèn)題中,分詞是基礎(chǔ)的一項(xiàng)。本文針對(duì)分詞問(wèn)題提出統(tǒng)計(jì)與規(guī)則混合運(yùn)用的解決方法,先運(yùn)用PMI,又用語(yǔ)言規(guī)則來(lái)彌補(bǔ)統(tǒng)計(jì)方面解決不了的問(wèn)題,即混合翻譯系統(tǒng)設(shè)計(jì)。
關(guān)鍵詞:計(jì)算語(yǔ)言學(xué) 機(jī)器翻譯 統(tǒng)計(jì) 規(guī)則
詞的分割是中英文差異中最基本的一項(xiàng)。英文的單詞是天然分開(kāi)的,詞就是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位。但中文句子中沒(méi)有直觀的詞的界限,詞也不是最小的語(yǔ)言單位。因此分詞在計(jì)算語(yǔ)言學(xué)中是最為基礎(chǔ)的一項(xiàng),與此同時(shí)會(huì)碰到歧義現(xiàn)象。比如:a. 她憑自己的才能得到了這份工作。b. 你這樣的人才能夠留下來(lái),是我們的幸運(yùn)。a句中的“才能”明顯是一個(gè)詞,而b句中的“人才”和“能夠”卻應(yīng)該分開(kāi)。在這個(gè)過(guò)程中,針對(duì)固定詞表進(jìn)行“一刀切”顯然不可取。
由此本文提出了針對(duì)分詞問(wèn)題的混合機(jī)器翻譯系統(tǒng)的設(shè)計(jì):基于統(tǒng)計(jì)的機(jī)器翻譯SBMT----- 基于規(guī)則的機(jī)器翻譯系統(tǒng) RBMT。
首先是統(tǒng)計(jì)方法中基于深度學(xué)習(xí)的點(diǎn)互信息PMI,即如何運(yùn)用PMI進(jìn)行中文分詞。從點(diǎn)互信息的定義來(lái)看,它表示某兩個(gè)字符(漢字)的組合出現(xiàn)在語(yǔ)料庫(kù)中的概率,與各自出現(xiàn)概率乘積的比的對(duì)數(shù)。點(diǎn)互信息定義如下:
其主要基于語(yǔ)料庫(kù),并計(jì)算詞語(yǔ)間的語(yǔ)義相似度。若概率越大,兩字相關(guān)性就越緊密,關(guān)聯(lián)度越高。所以直觀上可以理解為兩個(gè)字符在語(yǔ)料庫(kù)中組成詞語(yǔ)的可能性。若兩個(gè)事件不相關(guān)也不互斥,那么同時(shí)發(fā)生的概率p(a,b)=p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)=1,PMI(a,b)=0;如果兩個(gè)事件相關(guān),那么同時(shí)發(fā)生的概率p(a,b)>p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)>1,PMI(a,b)>0;如果兩個(gè)事件互斥,同理可得PMI(a,b)<0。比如通過(guò)計(jì)算,“中國(guó)”這個(gè)詞的PMI值是1.8448,即可取;而“我病”的PMI值是-0.9099,即不成詞。
因?yàn)闈h語(yǔ)的特殊性,在分詞的過(guò)程中也存在歧義,而不是簡(jiǎn)單詞性有可能的不同而導(dǎo)致的歧義,這與英文不同。比如以下兩個(gè)句子:
a. 她憑自己的才能得到了這份工作。
b. 你這樣的人才能留下來(lái),是我們的幸運(yùn)。
通過(guò)計(jì)算,“才能”一詞在兩個(gè)句子中都有可能被標(biāo)記出來(lái),即在任何句子中都會(huì)被計(jì)算為同一個(gè)詞。但正確的分詞應(yīng)是如下: b. 你/這樣的/人才/能夠/留下來(lái),是/我們的/幸運(yùn)。如果分詞出現(xiàn)錯(cuò)誤,整個(gè)句子的翻譯會(huì)變得非常奇怪, 如:*b. 你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。
在自然語(yǔ)言處理的過(guò)程中,句法分析既可以彌補(bǔ)基于統(tǒng)計(jì)方法分詞的漏洞問(wèn)題,又可以解決分詞后的詞語(yǔ)歧義問(wèn)題。從整個(gè)句子為單位的角度,基于語(yǔ)言規(guī)則,有效限制基于統(tǒng)計(jì)的分詞任務(wù)。若是依靠統(tǒng)計(jì)方法,就會(huì)出現(xiàn)這種機(jī)械性的計(jì)算的句子:你這樣/的/人/才能/留下來(lái),是/我們/的/幸運(yùn)。
通常來(lái)講,句子是由一個(gè)名詞詞組加上一個(gè)動(dòng)詞詞組構(gòu)成的。那么這句話逗號(hào)前的半句話就會(huì)單獨(dú)成句,整體被歸為一個(gè)名詞短語(yǔ)和動(dòng)詞短語(yǔ)齊全的簡(jiǎn)單從句,因?yàn)椤澳氵@樣的人才能夠留下來(lái)”的確能獨(dú)立成句,但逗號(hào)后面的“是我們的幸運(yùn)”無(wú)法與其銜接。雖然前半句可以獨(dú)立成句,在語(yǔ)法上也沒(méi)有問(wèn)題,但它卻不是整句話的含義。因此,沒(méi)有了語(yǔ)言規(guī)則的界定,就無(wú)法把整個(gè)句子考慮其中。
在人機(jī)交互的過(guò)程中,計(jì)算機(jī)沒(méi)有思維能力,而所有的指令只能是絕對(duì)精準(zhǔn)的信息 。只有通過(guò)形式語(yǔ)言的角度,才能把中英文文本處理的法則變成計(jì)算機(jī)能“理解”的信息。for循環(huán)結(jié)構(gòu)的設(shè)計(jì)就是把兩種不同的方法套用在形式語(yǔ)言for循環(huán)的思想里。在實(shí)際的機(jī)器翻譯過(guò)程中,情況會(huì)更加復(fù)雜多變,但可以確定的是,自然語(yǔ)言中的一個(gè)句子不應(yīng)存在歧義,一個(gè)句子只有一個(gè)理解。當(dāng)混合兩種解決方法設(shè)計(jì)時(shí),就涉及到對(duì)整個(gè)系統(tǒng)的反復(fù)執(zhí)行。
最后,雖然基于規(guī)則的機(jī)器翻譯系統(tǒng)存在一定的缺陷,但要解決翻譯方面的問(wèn)題,最根本地還是要回歸到語(yǔ)言層面,而不是完全寄托于高端技術(shù)或程序設(shè)計(jì)。要取得機(jī)器翻譯的進(jìn)步也不能單單依靠語(yǔ)言學(xué)理論,更要靈活運(yùn)用統(tǒng)計(jì)模型和理論。
參考文獻(xiàn)
[1] John Hale. Finding Syntax in Human Encephalography with Beam Search.arXiv:1806.04127v1 [cs.CL] 11 Jun 2018.
[2] 王金銓?zhuān)?王克非. 計(jì)算語(yǔ)言學(xué)視角下的翻譯研究.外國(guó)語(yǔ). 2008, (5).
[3] 楊憲澤. 基于實(shí)例的機(jī)器翻譯處理方法. 計(jì)算機(jī)工程. 2003, (12).
[4] Roger T. Bell.Translation and Translating- Theory and Practice Raymond W. Yeung. Information Theory and Network Coding[M]. Springer; 2008.
[5] Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(3):379-423.
[6] Bo Zheng, Wanxiang Che, Jiang Guo, Ting Liu. Enhancing LSTM-based Word Segmentation Using Unlabeled Data.Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, 2017.
[7] Chomsky, Noam. Aspects of the theory of syntax. Cambridge, Massachusetts: MIT Press,1965.
作者簡(jiǎn)介:仲佳琳(1998-),女,籍貫:吉林省長(zhǎng)春市,民族:漢 職稱(chēng)(無(wú))學(xué)歷:在讀本科生。研究方向(翻譯,計(jì)算語(yǔ)言學(xué))
第二作者姓名:楊宇 單位(南開(kāi)大學(xué)數(shù)學(xué)科學(xué)學(xué)院數(shù)學(xué)系)
第三作者姓名:李奕琛 單位(南開(kāi)大學(xué)計(jì)算機(jī)控制與工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系)