亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于單語語料的面向日語假名的日漢人名翻譯對抽取方法

2015-04-21 10:52:28王東明徐金安陳鈺楓張玉潔

中文信息學報 2015年5期

關鍵詞：音譯等價命名

王東明，徐金安，陳鈺楓，張玉潔

(北京交通大學計算機與信息技術學院，北京 100044)

基于單語語料的面向日語假名的日漢人名翻譯對抽取方法

王東明，徐金安，陳鈺楓，張玉潔

(北京交通大學計算機與信息技術學院，北京 100044)

命名實體的翻譯等價對在跨語言信息處理中非常重要。傳統(tǒng)抽取方法通常使用平行語料庫或可比語料庫，此類方法受到語料庫資源的質量和規(guī)模的限制。在日漢翻譯領域，一方面，雙語資源相對匱乏；另一方面，對于漢字命名實體，通常使用漢字對照表；對于日語純假名的命名實體，通常采用統(tǒng)計翻譯模型，此類方法受到平行語料庫的質量和規(guī)模的限制，且精度低下。針對此問題，該文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。該方法首先使用條件隨機場模型，分別從日語和漢語語料庫中抽取日語和漢語人名；然后，采用基于實例的歸納學習法自動獲取人名實體的日漢音譯規(guī)則庫，并通過反饋學習來迭代重構音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度，給定閾值判定人名實體翻譯等價對。實驗結果表明，提出的方法簡單高效，在實現(xiàn)系統(tǒng)高精度的同時，克服了傳統(tǒng)方法對雙語資源的依賴性。

機器翻譯；命名實體；日語假名；歸納學習法；音譯

1 引言

命名實體是標識某一特定實體的詞或詞組，其主要包括人名、地名和組織機構名等[1]，是自然語言的重要信息載體，在機器翻譯、信息檢索、問答系統(tǒng)以及跨語言信息處理等研究領域至關重要。

雙語命名實體翻譯等價對是指來自兩種不同語言的具有互譯關系的命名實體對。在日語中，假名是表音文字。“假”即“借”，“名”即“字”。意即只借用漢字的音和形，而不用它的意義。在日漢機器翻譯研究領域，由于日語純假名人名所占比例約為27%[2]，且日語純假名多為歐美等國的外來語，此類實體對漢語而言，同屬于外來語。例如，“伊莎貝拉”和“イサベラ”，來源于西班牙語的外來詞“Isabel”。因此，面向日語純假名的命名實體的日漢翻譯對的自動獲取，蘊含了外來語到日語和漢語的音譯規(guī)則，而由于日語和漢語在構詞規(guī)則和發(fā)音上的差異，增加了日語假名的日漢雙語實體對自動抽取的技術難度。

雙語命名實體翻譯等價對的自動獲取方法很多[3]，其中，最直接的方法是用機器翻譯系統(tǒng)直接進行翻譯，即利用已知的源語言命名實體，通過翻譯直接得到目標語言對應的命名實體。鄒波等[4]對英漢人名的音譯方法進行了研究，詳細比較了兩種機器學習方法和兩種統(tǒng)計機器翻譯模型在英漢人名音譯上的應用效果，實驗結果表明雖然這些方法取得了一定的效果，但仍然有較大的改善空間。體現(xiàn)在基于純統(tǒng)計的方法對英漢人名進行音譯是遠遠不夠的，需要其他技術手段來獲取更好的音譯結果。李婷婷等[2]對日本人名的識別和翻譯做了研究，針對日本人名的翻譯，將日本人名分為假名人名和漢字人名，漢字人名的翻譯通過建立日本人名常用漢字翻譯詞典實現(xiàn)，而假名人名的翻譯通過Moses系統(tǒng)訓練翻譯模型實現(xiàn)，實驗結果表明對于漢字人名部分的翻譯正確率達到了100%，這是因為其所建立的“日本人名常用漢字翻譯字典”質量很好，對日本人名常用漢字的覆蓋率很高，而對于假名人名部分的翻譯正確率只有47.34%，這說明僅使用統(tǒng)計機器翻譯的方法來處理假名人名效果是不理想的。

另一種方法是給定源語言的命名實體，通過網絡挖掘輔助翻譯的方法得到目標語言對應的命名實體[5]。此方法屬于直譯方法的一種擴展形式。近年來，互聯(lián)網高速發(fā)展，其中的語料資源越來越豐富，很多研究者都在利用互聯(lián)網的語料資源來提取命名實體等價對，Jiang 等[6-7]利用音譯模型和網絡挖掘來得到目標語言對應的命名實體，首先利用音譯模型生成一個候選翻譯，繼而利用音譯信息配合網絡挖掘獲得更多的候選翻譯，最后使用最大熵模型綜合考慮源語言和候選的目標語言命名實體的各種特征，得到最終的結果。實驗結果顯示該方法取得了一定的成效。

第三種方法是從平行語料庫或可比語料庫里批量抽取命名實體翻譯等價對，Huang等[8]提出了一種基于多特征的最小代價的命名實體翻譯對自動抽取方法，實驗結果表明該方法對命名實體翻譯等價對的抽取取得了較好的效果，但該方法對平行語料庫有較大依賴，大規(guī)模的雙語資源相對匱乏，構建成本高。

第四種方法是利用漢字對照表和歸納學習方法從單語語料庫中抽取命名實體翻譯等價對[9-10]，此類方法對日漢漢字命名實體翻譯等價對的抽取簡單高效，有效解決了對日漢雙語資源的依賴性。但是，該方法對日語純假名的日漢實體等價對的抽取具有一定的局限性。

綜上所述，傳統(tǒng)方法中，基于機器翻譯的方法對翻譯系統(tǒng)的性能具有依賴性；基于雙語語料庫或可比語料庫的方法，其性能受限于語料庫的質量和規(guī)模。而基于日語和漢語漢字對照表或詞典的方法，無法有效解決日語純假名的實體的日漢翻譯等價對的自動抽取。

為了解決上述問題，本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯等價對自動抽取方法。首先，該方法使用條件隨機場模型，分別從日語和漢語語料庫中抽取日語和漢語人名；然后，采用基于實例的歸納學習法[11]自動獲取人名實體的日漢音譯規(guī)則庫，通過反饋學習來迭代重構音譯規(guī)則庫。然后，使用音譯規(guī)則庫計算日漢人名實體之間的相似度，給定閾值判定人名實體翻譯等價對。實驗結果表明，提出方法簡單高效，抽取的假名人名翻譯等價對正確率高，可以達86%以上。本方法在實現(xiàn)系統(tǒng)高精度的同時，克服了傳統(tǒng)方法對雙語資源的依賴性。

本文的組織結構如下: 第二節(jié)介紹歸納學習法；第三節(jié)詳細描述本文提出的方法；包括基于條件隨機場的單語命名實體識別、基于歸納學習法的規(guī)則獲取、以及反饋學習和校正處理等；第四節(jié)，實驗部分，先給出一種基于統(tǒng)計機器翻譯模型的日語純假名日漢翻譯等價對的抽取方法，作為本論文的基線系統(tǒng)，然后給出實驗結果和分析討論；最后，給出結論和未來工作。

2 歸納學習法

歸納學習法由日本學者荒木健治等[11]提出，其基本思路主要包括兩個方面，其一是對兩個具有相似性的實例中的相同部分和差異部分進行遞歸式抽取以獲取規(guī)則；其二是通過校正和反饋處理，對抽取的規(guī)則進行篩選，更新規(guī)則庫。該方法通過歸納學習獲取實例間的內在規(guī)則，確定字符串之間的對應關系，表1為從未知字符串抽取對應關系規(guī)則的例子。

表1的輸入1和輸入2存在著對應關系，以下劃線的形式將其標出。隨后，將兩邊的不同部分按照先后順序對齊。其結果如表1所示，段1、段2、段3分別構成對應關系。兩個字符串間不同部分的對應關系，除表1所示的順序對應外還有可能是逆序對應關系。至于采用順序對應還是逆序對應，將取決于所研究的具體問題，在本文中，基于如上所述的假名人名的特點，我們采用順序對應。

表1 從未知字符串抽取對應關系

按照同樣的方法可以從段抽取出共同部分并將段分解為基元。從段中抽取基元的例子如表2所示。將段1、2中用下劃線標注的共同部分作為基元2抽取出來，并將其兩側的不同部分分別看成基元1和基元3。如此，通過分離共同部分和不同部分，可以得到三個基元。

表2 從段中抽取基元

因為可以通過組合的方式將基元還原成段，所以這三個基元就成了兩個段的完全替代品。這種抽取方式通常還需要借助確定對應關系的經驗法則。本手法基于實例分階段地抽取異同部分，從而獲取知識，是一種歸納學習的方法。

3 日語假名和漢語人名翻譯等價對自動抽取方法

現(xiàn)有的命名實體翻譯等價對抽取方法，通常使用平行語料庫或可比語料庫，因而，受限于雙語語料庫的質量和規(guī)模。本文提出的方法旨在突破此限制，并有效提高日語假名實體等價對的抽取精度。提出的方法的系統(tǒng)架構如圖1所示。

首先，我們使用條件隨機場模型(CRFs)，分別從日語和漢語單語語料庫中抽取日語和漢語人名實體集合，再將其轉換成羅馬字[12]音節(jié)列表和漢語拼音列表；然后，使用音譯規(guī)則庫計算日漢人名實體之間的相似度，得到相似度列表。針對相似度高的人名實體對實例，篩選出來，利用歸納學習法，通過反饋學習來獲取新的人名實體的日漢音譯規(guī)則，經過數(shù)次迭代重構，得到最終的音譯規(guī)則庫。并根據(jù)規(guī)則庫，通過相似度計算獲取雙語實體等價對。

圖1 系統(tǒng)架構圖

3.1 單語命名實體抽取

傳統(tǒng)的單語命名實體抽取方法，主要包括基于規(guī)則、基于詞典和基于統(tǒng)計的方法[13]。由于所需額外知識少，移植性好，基于統(tǒng)計的方法正成為研究者所使用的主流方法?；诮y(tǒng)計的方法大量使用了機器學習領域的各種算法，主要包括，隱馬爾可夫模型(HMM)、最大熵馬爾科夫模型(MEMM)、條件隨機場模型(CRFs)等。

條件隨機場( Conditional Random Fields，簡稱CRFs) 是一種用于序列數(shù)據(jù)標注的條件概率模型，由 Lafferty 等[14]于 2001 年提出，它是通過定義標記序列和觀察序列的條件概率來預測最可能的標記序列的。條件隨機場模型(CRFs)是近年來在序列標注問題中應用的比較多，也是效果最好的一種模型。它沒有隱馬爾可夫模型那樣嚴格的獨立性假設，因而可以容納任意的上下文信息。同時，由于CRFs計算全局最優(yōu)輸出節(jié)點的條件概率，克服了最大熵馬爾科夫模型和其它非生成的有向圖模型所固有的標記偏置的缺點。CRFs是在給定需要標記的觀察序列的條件下，計算整個標記序列的聯(lián)合概率分布，而不是在給定當前狀態(tài)條件下，定義下一個狀態(tài)的狀態(tài)分布。

條件隨機場是以給定的觀察值為條件，從而計算輸出狀態(tài)的概率的條件概率模型。其中最簡單的CRFs是一個稱為鏈圖或線圖的無向圖(如圖2所示)，稱為線鏈CRFs(linear-chain CRFs),也是最常用的一種條件隨機場模型。

圖2 線鏈CRFs結構圖

假設O=o1,o2,……,on是一個長度為n的觀察序列，線鏈CRFs的參數(shù)Λ={λ1,λ2,……,λk},則此模型輸出詞位序列S=s1,s2,……,sT的條件概率為式(1)。

(1)

其中,Zo是歸一化因子，作用是確保所有可能的詞位標記序列的條件概率和為1，其定義如式(2)所示。

(2)

公式(1)中的f通常是一個二值表征函數(shù)，用于表達上下文可能的語言特征，其定義為式(3)。

(3)

CRFs模型通過特征函數(shù)能夠整合任何特征，包括可觀察序列O在時刻t時由當前字及其上下文組成的字串序列特征，以及上下文中隱含詞位的轉移特征st-1→st,λk。λk是一個訓練過程中需從訓練語料中學習的參數(shù)，表示的是相應的特征函數(shù)fk(st-1,st,o,t) 的權重，其取值范圍可以是-∞到+∞。對于一個由公式(1)給定的條件隨機場模型，對任意的一個輸入字串，其最可能的標記序列可以由公式(4)求出:

(4)

可以使用Viterbi算法對公式(4)進行解碼，從而求出使得PΔ(S|O)最大的標記序列。

本文所采用的命名實體識別工具是實驗室獨自研發(fā)的基于CRFs的單語命名實體識別工具，該系統(tǒng)選取較為復雜的特征模板進行識別，性能較高，其從中日雙語的維基百科數(shù)據(jù)庫的單語語料庫中抽取漢語人名和日語假名人名。

3.2 歸納學習

日語假名屬于外來詞，大多是通過音譯得到的，而其對應的漢語人名，同樣屬于外來詞，也是通過音譯而來的。因此，從發(fā)音規(guī)律上來講，彼此之間存在一定的對應關系[15]。為了探索和發(fā)現(xiàn)其規(guī)律，可以將假名人名對應的漢字和日語假名分別轉換為對應的中文拼音和羅馬字，例如，“路易斯恩里克”和“ルイスエンリケ”分別轉換為“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”，在這里我們將中文拼音以每個漢字拼音進行分詞，而日語假名對應的羅馬字以其發(fā)音的音節(jié)進行分詞，通過分析，我們可以簡單地得到這樣的規(guī)則對，“l(fā)u～ru”，“yi～i”，“si～su”，“en～e|n”，“l(fā)i～ri”，“ke～ke”，如表3中所示，值為“1”的即是漢字拼音和假名羅馬字的規(guī)則對。我們希望在更多的漢日假名人名對中得到更多這樣的規(guī)則對，以用來識別我們未知的漢日假名人名翻譯等價對。

表3 漢字拼音和假名羅馬字的對應圖

我們將抽取得到的日漢假名人名分別轉換成羅馬字音節(jié)序列和漢語拼音序列。對于音譯而來的假名人名，它的漢語發(fā)音和日語發(fā)音都是順序的，不會出現(xiàn)逆序的情況。因此，給出如下處理步驟:

1. 假設實體等價對之間的首尾發(fā)音音節(jié)具有對應關系。例如，“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”，它們的首尾有“l(fā)u～ru”，“ke～ke”的對應關系。

2.為了確定一個漢字拼音對應幾個羅馬字音節(jié)，給定窗口設置，在一定范圍內獲取候選漢字拼音和羅馬字音節(jié)之間的對應關系規(guī)則對，例如，設窗口為2，我們可以從上例中抽取到“l(fā)u～ru”、“l(fā)u～ru|i”、“ke～ke”和“ke～ri|ke”這些規(guī)則對。

為了提高歸納學習法的效率，本文采用一定規(guī)模的既有假名人名翻譯等價對作為學習數(shù)據(jù)，得到候選的漢字拼音和羅馬字音節(jié)的規(guī)則對的初始集合，然后使用根據(jù)獲取規(guī)則的權重，設定閾值過濾部分低置信度的規(guī)則獲取高置信度的漢字拼音和羅馬字音節(jié)規(guī)則表，之后，根據(jù)相似度計算，獲取實體等價對，再進行校正處理和反饋學習，通過迭代生成新的音譯規(guī)則，并更新規(guī)則的權重。表4給出了一個規(guī)則庫實例。

表4 規(guī)則庫實例

本方法在利用既有假名人名翻譯等價對作為學習數(shù)據(jù)構建初始漢字拼音與羅馬字音節(jié)的規(guī)則庫之后，我們從日漢雙語的單語語料庫中使用基于CRFs的單語命名實體識別工具分別進行假名人名的識別，得到兩個單語的假名人名集合，通過預處理得到分好“詞”的假名人名拼音列表和羅馬字音節(jié)列表，使用上述初始的漢字拼音和羅馬字音節(jié)規(guī)則庫，計算候選的假名人名翻譯等價對的相似度，相似度計算如公式(5)所示。

(5)

其中，nac為假名人名拼音序列，naj為假名羅馬字音節(jié)序列，k為候選假名人名對在規(guī)則庫中找到的規(guī)則對的個數(shù)，ci為規(guī)則對中拼音個數(shù)，ji為規(guī)則對中羅馬音節(jié)個數(shù)，m為假名人名拼音個數(shù)，n為假名羅馬字音節(jié)個數(shù)。

然后，選取相似度大的候選假名人名翻譯等價對進行歸納學習、人工校正和反饋處理，通過迭代處理得到新的候選規(guī)則，對規(guī)則給定閾值，獲取可信度大的候選規(guī)則更新規(guī)則庫，再利用更新的規(guī)則庫迭代計算相似度，直到收斂為止。對于一對多或多對一的規(guī)則情況，本文采用了計算其之間的編輯距離來進行過濾。針對所產生的新規(guī)則，根據(jù)語言學知識進行判定和校正處理，以提高規(guī)則的正確性。

4 實驗

4.1 基線系統(tǒng)

本文采用之前在命名實體翻譯等價對中比較常見的統(tǒng)計機器翻譯系統(tǒng)作為基線系統(tǒng)。如文獻[2]中所述的方法，采用基于短語的統(tǒng)計機器翻譯實現(xiàn)日語假名人名到中文的翻譯。具體使用Moses[16]訓練翻譯模型來實現(xiàn)假名人名的翻譯，基線系統(tǒng)實驗數(shù)據(jù)共包括13 032對日漢假名人名對，實驗中將數(shù)據(jù)分為訓練集、開發(fā)集、測試集三部分，其中測試數(shù)據(jù)與下文實驗中數(shù)據(jù)一致?；€實驗所用的實驗數(shù)據(jù)如表5所示。

表5 基線系統(tǒng)實驗數(shù)據(jù)

如文獻[2]中所述，實驗結果評價指標不用BLEU值來估計，直接用翻譯準確率如公式(6)來測試，表6是測試結果，這也與文獻[2]中的實驗結果相近。

正確率 (6) 表 6 實驗結果

4.2 實驗設置

4.2.1 實驗語料

實驗中所用的單語語料庫來源于中日雙語的維基百科數(shù)據(jù)庫，本實驗從日語單語篇章和漢語單語篇章中使用本實驗室基于CRFs的命名實體工具進行識別，共識別漢語人名88 203個，日語人名73 322個，并從中抽取13 032個假名人名日語條目，并手工進行詞對齊的校正工作，作為實驗的數(shù)據(jù)。

4.2.2 實驗工具

實驗中用到的工具包括，基于CRFs的單語命名實體識別工具，由本實驗室研究小組自主開發(fā)，其他還有GIZA++工具[17]，漢字轉拼音工具[18]，假名轉羅馬字工具[19]等。

4.2.3 參數(shù)設定

實驗中的參數(shù)設定，主要是指對規(guī)則抽取的閾值的設定，在迭代過程中，該閾值應逐漸放寬，否則，隨著迭代次數(shù)的增加，難以獲取新規(guī)則。然而在初始時，該閾值卻不能選的較低，否則將導致規(guī)則庫過冗余。另外，對于相似度的閾值設定，實驗中我們取初值為0.3，隨著迭代的進行，我們進行動態(tài)的調整。

4.2.4 評價方法

實驗結果指標采用準確率(P),召回率(R)和F值來作為評分標準，其中P，R和F的計算方式如公式(7),(8)和(9)所示。

(7)

(8)

(9)

其中，Numcorrect為抽取到的正確的條目，Nummined為抽取到的所有條目，Numttotal為語料中存在的所有正確條目，當β=1時，表示準確率(P)和召回率(R)權重相同，就是一般所說的F1值。本文我們認為準確率和召回率同等重要取β=1。

4.3 實驗結果

本實驗從中日雙語的維基百科數(shù)據(jù)庫中的日語單語篇章和漢語單語篇章中，使用本實驗室基于CRFs的命名實體工具進行識別，共識別漢語人名88 203個，日語人名73 322個，實驗中基于CRFs的單語命名實體識別工具的識別效果分別如表7和表8所示。并從中抽取13 032個假名人名日語條目，并手工對齊，作為實驗的數(shù)據(jù)。其中訓練數(shù)據(jù)12 032個，測試數(shù)據(jù)1 000個。

表7 中文人名識別效果

表8 日語假名人名識別效果

在本文中，我們提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。采用基于實例的歸納學習法自動獲取人名實體的日漢音譯規(guī)則庫，通過反饋學習來迭代重構音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度判定人名實體翻譯等價對。實驗結果見表9.

表9 實驗二結果

表10 實驗三結果

在表9中，在每次迭代對所取的相似度閾值不同，通過多次對比實驗，采用貪心算法進行參數(shù)優(yōu)化。對于每次迭代，對不同相似度閾值下的結果進行比較，取最優(yōu)結果。實驗中，第一次迭代和第二次迭代的相似度閾值取0.3.第三次迭代取0.4，第四、五、六次迭代取0.5。

由實驗二的結果，我們可以看出，使用本文所提出的方法，從單語語料中抽取假名人名對的效果較之使用統(tǒng)計機器翻譯系統(tǒng)的方法準確率提高了很多。例如，我們使用機器翻譯系統(tǒng)翻譯“伊云尼斯域”并不能得到正確的結果“イワニセビッチ”，而用本文的方法容易抽取到這樣的命名實體翻譯對。隨著迭代次數(shù)的增加，經迭代重構的規(guī)則庫越完備，取得實驗效果越好。實驗證明所提方法簡單高效。當然，由于語料的局限性，某些命名實體對也可能抽取不出來，例如，“寬”和“クアン”，這種情況下我們可以通過對規(guī)則庫進行人工校正來解決。由于抽取規(guī)則的不確定性，實驗中，我們對規(guī)則庫做了少量的人工校正，對于明顯不符的規(guī)則如“dang～mu”，直接剔除，對于有稍許偏失的規(guī)則予以修正，對未能提取到的規(guī)則直接加入規(guī)則庫，由表10中可以看到校正后，實驗的效果會有所提高。

5 總結和未來工作

本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。首先，該方法使用條件隨機場模型，分別從日語和漢語語料庫中抽取日語和漢語人名；然后，采用基于實例的歸納學習法自動獲取人名實體的日漢音譯規(guī)則庫，通過反饋學習來迭代重構音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度判定人名實體翻譯等價對。實驗結果表明，提出方法簡單高效，在實現(xiàn)系統(tǒng)高精度的同時，克服了傳統(tǒng)方法對雙語資源的依賴性。我們下一步的工作，將考慮利用更多的特征，如詞長度信息，編輯距離，所屬文本的文體等特征來對單語語料中的命名實體翻譯等價對進行自動抽取；同時，我們嘗試采用規(guī)則獲取和其他統(tǒng)計方法相結合的方法來解決此類問題；使用本方法，我們還將對地名、組織結構名稱等其他純假名命名實體對的自動獲取進行擴展。

[1] D Bikel, S Miller, R Schwartz, et al. A high-performance learning name-finder[C]//Proceedings of Applied Natural Language Processing,Washington DC:1997.

[2] 李婷婷，趙鐵軍，張春越. 基于統(tǒng)計的日本人名的識別和翻譯[J]. 智能計算機與應用, 2012, 2(1) :4-7.

[3] 趙軍. 命名實體識別、排歧和跨語言關聯(lián)[J]. 中文信息學報，2009，23(2):3-17

[4] 鄒波，趙軍. 英漢人名音譯方法研究[A]. 第四屆全國學生計算語言學研討會會議論文集[C],2008:24-30.

[5] Jenq-Haur Wang, Jei-Wen Teng, Pu-Jen Cheng,et al. Translating unknown cross-lingual queries in digital libraries using a web-based approach[C]//Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital Libraries.ACM,2004:108-116

[6] Jiang L,Zhou M,Chien L F,et al.Named entity translation with web mining and Tansliteration[C]//Proceedings of the IJCAI.2007,7:1629-1634

[7] 蔣龍，周明，簡立峰. 利用音譯和網絡挖掘翻譯命名實體[J].中文信息學報，2007,21(1):23-28.

[8] Huang F, Vogel S, Waibel A. Automatic Extraction of Named Entity Translingual Equivalence Based on Multi-Feature Cost Minimization[C]//Proceeding of Association of Computational Linguistics, Sapporo,Japan,2003.

[9] 茹曠. 日漢雙語命名實體對獲取方法及其應用研究[D]. 北京交通大學，2014.

[10] Ru K,Xu J,Zhang Y,et al.A Method to Construct Chinese-Japanese Named Entity Translation Equivalents Using Monolingual Corpora[A].Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg,2013:164-175

[11] 荒木健治，高橋祐治，桃內佳雄，等.帰納的學習を用いたかな漢字変換[C]//電子情報通信學會論文誌，1996，J79-D-Ⅱ(3):391-402.

[12] 羅曉瑩. 日語假名羅馬字標記法的歷史及發(fā)展[J]. 鄭州航空工業(yè)管理學院學報(社會科學版). 2014.

[13] 孫鎮(zhèn)，王惠臨. 命名實體識別研究進展綜述[J]. 現(xiàn)代圖書情報技術，2010,(6):42-47.

[14] John Lafferty, Andrew McCallum, Fernando C N Pereira, Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, 2001.

[15] 何功星. 日語中日漢人名的聲調規(guī)則[J]. 科技信息，2011,(17).

[16] http://www.statmt.org/moses/

[17] http://code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.7.tar.gz

[18] http://www.aies.cn/pinyin.htm

[19] http://o-oo.net.cn/katakana-Roman.asp

Monolingual Corpora Based Japanese-Chinese Translation Extraction for Kana Names

WANG Dongming, XU Jin’an, CHEN Yufeng, ZHANG Yujie

(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)

Named entity translation equivalents play a critical role in cross-language information processing. The traditional method is usually based on large-scale parallel or comparable corpus, which is limited by the size and quality of the corpus resources. In Japanese-Chinese translation, the bilingual corpora resources are relatively scarce: the Chinese Hanzi and Japanese Kanji mapping table is often adopted to deal with Chinese named entity and a SMT model to deal with the Japanese named entities in pure kana. In this paper, we propose a monolingual corpora based approach. Firstly, the conditional random field model is adopted to extract Japanese and Chinese names from monolingual corpus. Then the Japanese-Chinese transliteration rule base is developed by instance based inductive learning in a iterative process employing the feedback learning. Experimental results show that the proposed method is simple and efficient, leverging the severely dependency on bilingual resource by the classical methods.

machine translation;named entities;Japanese kana;inductive learning method;transliteration

王東明(1985—),碩士研究生,主要研究領域為自然語言處理、統(tǒng)計機器翻譯。E-mail:13120428@bjtu.edu.cn徐金安(1970—),副教授,主要研究領域為自然語言處理和機器翻譯。E-mail:jaxu@bjtu.edu.cn陳鈺楓(1981—),副教授,主要研究領域為自然語言處理和機器翻譯。E-mail:chenyf@bjtu.edu.cn

1003-0077(2015)05-0084-07

2015-08-14 定稿日期： 2015-10-09

國家自然科學基金 (61370130,61473294)；中央高?；究蒲袠I(yè)務費專項資金 (2015JBM033)；國家國際科技合作專項資助(2014DFA11350)

TP391