亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于話題翻譯模型的雙語文本糾錯(cuò)

        2016-09-26 07:30:11
        關(guān)鍵詞:語義文本語言

        陳 歡 張 奇

        (復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 210000)

        ?

        基于話題翻譯模型的雙語文本糾錯(cuò)

        陳歡張奇

        (復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院上海 210000)

        近年來,隨著信息全球化的影響,社交網(wǎng)絡(luò)文本上的多語言混合現(xiàn)象越來越普遍。許多中文文本中混雜著其他語言的情況已很常見。絕大多數(shù)現(xiàn)有的自然語言處理算法都是基于單一語言的,并不能很好地處理多語言混合的文本,因此在進(jìn)行其他自然語言處理任務(wù)之前對文本進(jìn)行預(yù)處理顯得尤為重要。面對網(wǎng)絡(luò)文本語義空間雙語對齊語料的匱乏,提出一種基于話題翻譯模型的方法,利用不同語義空間的語料計(jì)算網(wǎng)絡(luò)文本語義空間的雙語對齊概率,再結(jié)合神經(jīng)網(wǎng)絡(luò)語言模型將網(wǎng)絡(luò)混合文本中的英文翻譯成對應(yīng)中文。實(shí)驗(yàn)在人工標(biāo)注的測試語料上進(jìn)行,實(shí)驗(yàn)結(jié)果表明,通過不同的對比試驗(yàn)證明文中的方法是有效的,能提升翻譯正確率。

        網(wǎng)絡(luò)文本話題翻譯模型神經(jīng)網(wǎng)絡(luò)語言模型

        0 引 言

        隨著近年來網(wǎng)絡(luò)的飛速發(fā)展,越來越多的人加入到了社交網(wǎng)絡(luò)中。與此同時(shí),信息的國界性變得不明顯,人們可能會使用各國語言發(fā)表評論,最為常見的就是文本中混雜英文的情況。近年來國內(nèi)較為活躍的社交網(wǎng)絡(luò)就有新浪微博、微信朋友圈和人人網(wǎng)等,其中每天都會產(chǎn)生大量的文本,由于參與人群主要是年輕人,導(dǎo)致這些文本中包含很多非規(guī)范用語,中英文混合就是其中一個(gè)重要現(xiàn)象。

        新浪微博是目前國內(nèi)最活躍的社交媒體之一,通過對兩億余條微博的分析,我們發(fā)現(xiàn)有15%以上的微博包含至少一個(gè)英文單詞,這些英文單詞可能是單個(gè)字母,某個(gè)英文單詞,拼音組合等。例如:“小王這人真nice”(小王這人真好)。人們在微博中會將某個(gè)中文單詞按照另一種形式來表達(dá),對于他們的閱讀受眾,并不會造成很大理解上的影響。

        而現(xiàn)有的許多自然語言處理算法例如:分詞、句法解析、情感挖掘等都是基于單一語言的,并不能很好地處理多語言混合的情況。與此同時(shí),這種非規(guī)范的網(wǎng)絡(luò)文本缺乏標(biāo)注的對齊語料,許多自然語言處理任務(wù)的效率都受到了影響。因此在網(wǎng)絡(luò)文本上進(jìn)行自然語言處理工作之前,對文本進(jìn)行預(yù)處理顯得尤為重要。經(jīng)過預(yù)處理工作將非規(guī)范文本轉(zhuǎn)換成規(guī)范的單一語言的規(guī)范文本,會極大地方便接下來的工作。

        文本糾錯(cuò)任務(wù)主要分為三步來完成。

        第一步識別出需要糾錯(cuò)的詞。本文中將著眼于網(wǎng)絡(luò)文本中混雜的英文單詞,對于拼音和一些可能的拼寫錯(cuò)誤暫不考慮,我們通過簡單的字典匹配來識別需要處理的英文。

        第二步產(chǎn)生每個(gè)非規(guī)范詞的替換詞列表。鑒于網(wǎng)絡(luò)文本的雙語對齊語料的缺乏,本文考慮利用其他語義空間(例如新聞?wù)Z料)的雙語對齊語料統(tǒng)計(jì)出對齊概率表,再根據(jù)不同語義空間的映射來產(chǎn)生網(wǎng)絡(luò)語義空間的雙語對齊概率表。

        第三步挑選出最合適的替換詞對非規(guī)范詞進(jìn)行替換。本文中利用神經(jīng)網(wǎng)絡(luò)語言模型,對第二步中產(chǎn)生的候選詞列表進(jìn)行重新排序,最終排序代表了候選詞替換的概率。

        Zhang等[10]首先提出了一種結(jié)合翻譯模型與語言模型來解決社交網(wǎng)絡(luò)語義空間中英文混合文本的翻譯方法。使用了GIZA++在非網(wǎng)絡(luò)語義空間生成中英文單詞對齊概率表,再結(jié)合神經(jīng)網(wǎng)絡(luò)語言模型的訓(xùn)練,對候選詞進(jìn)行重新排序。本文中將在該方法的基礎(chǔ)上進(jìn)行改進(jìn)。

        本文的主要研究內(nèi)容包括:① 將中英文混合網(wǎng)絡(luò)文本糾錯(cuò)工作看作是翻譯問題,通過話題翻譯模型和神經(jīng)網(wǎng)絡(luò)語言模型的整合產(chǎn)生合適的替換詞。② 利用網(wǎng)絡(luò)語義空間外的訓(xùn)練語料產(chǎn)生詞對齊列表,再將該語義空間映射到網(wǎng)絡(luò)語義空間,這樣就解決了網(wǎng)絡(luò)文本訓(xùn)練語料缺乏的問題。③ 神經(jīng)網(wǎng)絡(luò)語言模型的結(jié)合能有效利用網(wǎng)絡(luò)文本上下文信息,對替換詞列表就行重新排序。④ 所有訓(xùn)練語料和測試語料均通過網(wǎng)絡(luò)爬取,并針對測試語料進(jìn)行了人工標(biāo)注。

        1 相關(guān)工作

        隨著用戶生成文本的日益增多,國內(nèi)外有許多文本糾錯(cuò)方面的研究。Aw等[1]將文本糾錯(cuò)工作看作是非規(guī)范英文到規(guī)范英文的翻譯工作,通過對于短信息文本的研究,提出了一種短語級別翻譯的方法來完成此工作。Kobus等[2]研究了法文短信息的字詞正確拼寫方法,提出了一種基于機(jī)器翻譯的方法,結(jié)合了不確定音素來實(shí)現(xiàn)文本糾錯(cuò)。Han等[3]利用了一種有監(jiān)督的方式來檢測費(fèi)規(guī)范詞并利用音位形態(tài)上的相似性來生成正確的規(guī)范詞,再根據(jù)非規(guī)范詞和規(guī)范詞的相似度以及上下文信息來重新排序候選詞對。Liu等[4]提出了一種整合的糾錯(cuò)系統(tǒng),通過設(shè)置一系列字母轉(zhuǎn)換的模式并結(jié)合字母轉(zhuǎn)換、可視化刺激和字符相似度來進(jìn)行文本糾錯(cuò)。Han等[5]介紹了一種基于字典的方法,鑒于規(guī)范詞與非規(guī)范詞更多出現(xiàn)在相同的上下文中,自動(dòng)構(gòu)建出了一個(gè)規(guī)范化字典。Wang[6]等設(shè)計(jì)了一個(gè)定向搜索解碼器來解決缺失詞復(fù)原、標(biāo)點(diǎn)糾錯(cuò)、單詞糾錯(cuò)和分割的問題。

        以上這些方法在非規(guī)范文本糾錯(cuò)方面達(dá)到了很好的效果,但這些工作都是著眼于單一語言的文本,因此中英文混合的情況在這里并不適用。

        文本糾錯(cuò)的工作可以看作是機(jī)器翻譯的工作,文本中混雜的非規(guī)范詞看作是源文本,其對應(yīng)的規(guī)范詞看作是目標(biāo)文本。對于相同語義空間的文本來說,很容易訓(xùn)練出一個(gè)翻譯模型來解決文本糾錯(cuò)的問題。但是由于社交網(wǎng)絡(luò)訓(xùn)練語料的匱乏,而其它語義空間雙語對齊語料相比很容易獲得。最好的方法是能夠利用其它語義空間的雙語對齊語料,進(jìn)行一些調(diào)整來適應(yīng)網(wǎng)絡(luò)文本語義空間。Liu等[7]提出了一種話題翻譯模型,根據(jù)其它語義空間的雙語對齊語料和目標(biāo)語義空間的話題分布進(jìn)行映射,最終可以得到一個(gè)訓(xùn)練語料充足且適應(yīng)性強(qiáng)的模型。文中利用了隱藏馬爾可夫話題模型,由Gruber等[9]在2007年提出。該模型將文檔中詞的話題看作一條馬爾可夫鏈,假定相同句子和相鄰句子中的詞應(yīng)該屬于相同的話題,來計(jì)算話題分布。最終可以得到每個(gè)話題下產(chǎn)生單詞的概率(單詞|話題)和每個(gè)句子屬于某個(gè)話題的概率(話題|句子)。

        2 雙語文本糾錯(cuò)

        在這個(gè)部分將詳細(xì)描述如何解決網(wǎng)絡(luò)雙語混合文本糾錯(cuò)的問題。通過對非規(guī)范詞發(fā)掘、規(guī)范詞對生成和規(guī)范詞排序三個(gè)步驟,將中文網(wǎng)絡(luò)文本中混雜的英文單詞轉(zhuǎn)換成結(jié)合了上下文信息最合適的規(guī)范替換詞。用下面公式來表示最終糾錯(cuò)系統(tǒng):

        (1)

        式中,c表示中文規(guī)范詞,C表示中文詞的字典,p(c)表示單詞的語言模型計(jì)算概率,p(c|t)表示句子t下單詞的翻譯概率。

        2.1非規(guī)范詞發(fā)掘

        中文網(wǎng)絡(luò)文本中包含很多類型的非規(guī)范詞。這里我們先通過英文字母的正則匹配從海量微博中挑選出包含英文字母的微博,之后根據(jù)標(biāo)準(zhǔn)英漢字典挑選出包含英文單詞的微博。

        2.2規(guī)范詞對生成

        在統(tǒng)計(jì)機(jī)器翻譯的工作中,詞對齊發(fā)揮了很大的作用。參考了Liu等[7]的工作,對于一個(gè)源句子,e=e1,…,ei,…,eI,和一個(gè)目標(biāo)句子c=c1,…,cj,…,cJ,將詞對齊處理視為兩個(gè)句子單詞位置的笛卡爾積集合:

        a?(i,j):i=1,…,I;j=1,…,J

        (2)

        其中,i和j分別表示詞在句子中的位置。對于雙語對齊語料中的所有單詞。本文通過每個(gè)詞的詞對齊來估計(jì)該詞的可能翻譯詞。結(jié)合了話題信息后,可以這樣定義英文單詞到中文單詞的翻譯概率:

        (3)

        等式右端第一項(xiàng)表示在給定話題tc下,英文單詞e翻譯成中文單詞c的概率,第二項(xiàng)英文單詞對應(yīng)的話題分布。根據(jù)隱藏話題馬爾可夫模型在非網(wǎng)絡(luò)語義空間語料Cout的訓(xùn)練,我們可以分別再計(jì)算特定話題下英文單詞對應(yīng)中文單詞的分布P(中文|話題,英文)和英文的話題分布P(話題|英文)。因?yàn)樾枰M(jìn)行不同語義空間的映射,我們還需要在網(wǎng)絡(luò)語義空間語料Cin進(jìn)行話題模型訓(xùn)練。為了區(qū)分,本文將網(wǎng)絡(luò)語義空間的話題用tc_in表示,非網(wǎng)絡(luò)語義空間的話題用tc_out表示。由于兩個(gè)不同語義空間的話題維度可能不同,這里需要再引入網(wǎng)絡(luò)文本語義空間話題對應(yīng)非網(wǎng)絡(luò)文本語義空間的概率分布。非網(wǎng)絡(luò)文本語義空間的單詞對應(yīng)話題的分布可以用下面的公式來計(jì)算:

        (4)

        這里可以理解為通過英文單詞在網(wǎng)絡(luò)文本空間的分布和不同語義空間的映射得到英文單詞對應(yīng)非網(wǎng)絡(luò)文本空間的話題分布。則式(3)就可以進(jìn)一步表示為:

        (5)

        接下來通過對于不同部分的計(jì)算來得到英文單詞對應(yīng)中文單詞的翻譯概率。過濾掉較小的值之后,得到的每個(gè)英文單詞對應(yīng)的翻譯詞表便是可能的候選詞。

        首先需要定義在非網(wǎng)絡(luò)文本語義空間的特定話題下,英文單詞對應(yīng)中文單詞的翻譯概率。類似Su等[7]的工作,根據(jù)每個(gè)句子的話題分布,可以計(jì)算出英文詞對應(yīng)中文詞的條件分布。不同的是因?yàn)檫@里雙語對齊語料的話題空間相同,因此使用中文的話題分布,再利用到了最大似然估計(jì)的知識,定義話題相關(guān)的翻譯概率為:

        (6)

        式中,Cout表示非網(wǎng)絡(luò)文本語義空間語料集,表示語料中對齊的兩個(gè)句子,即e表示英文句子,c表示中文句子,count表示在句子對中英文單詞和中文單詞共同出現(xiàn)的次數(shù)。P(tc_out|c)表示該中文句子c對應(yīng)的話題分布。

        接下來要定義不同語義空間的映射概率分布。由于不同語義空間的出現(xiàn)的詞可能不同,這里根據(jù)兩個(gè)語義空間的公有詞來定義映射概率分布:

        (7)

        式中,P(c|tc_in)可以直接通過隱藏話題馬爾可夫模型直接得到,可以進(jìn)一步通過句子對應(yīng)的話題分布來計(jì)算P(tc_out|c):

        (8)

        式中,countc(c)表示在句子c中單詞c的出現(xiàn)次數(shù)。

        最后,定義英文單詞對應(yīng)網(wǎng)絡(luò)文本語義空間的話題分布計(jì)算方法,類似于之前的最大似然估計(jì)方法,按如下公式處理:

        (9)

        2.3規(guī)范詞篩選

        為了更好地利用到用戶的歷史信息,這里引入一個(gè)用戶相關(guān)的神經(jīng)網(wǎng)絡(luò)語言模型。該模型根據(jù)一段詞序列和某個(gè)用戶發(fā)表的句子,來估計(jì)當(dāng)前序列的下一個(gè)詞。參考了Huang等[8]的神經(jīng)網(wǎng)絡(luò)語言模型,本文的語言模型結(jié)構(gòu)如圖1所示。

        圖1 用戶歷史信息相關(guān)的神經(jīng)網(wǎng)絡(luò)語言模型結(jié)構(gòu)

        整個(gè)神經(jīng)網(wǎng)絡(luò)語言模型由兩個(gè)打分的部分組成,即詞序列信息和用戶歷史信息。給定一個(gè)詞序列c和用戶歷史信息u,我們的目標(biāo)是從所有詞中挑選出正確的序列最后一個(gè)詞。s(c,u)表示神經(jīng)網(wǎng)絡(luò)的得分函數(shù),由局部序列得分scorel和用戶歷史信息得分scoreu加和得到。c表示當(dāng)前的序列,cw表示最后一個(gè)詞被w替換后的詞序列。要找出比其余分?jǐn)?shù)s(c,u)都高1以上的s(cw,u),可以對于每個(gè)語料中的(c,u),求解下列最小化損失目標(biāo)函數(shù):

        (10)

        神經(jīng)網(wǎng)絡(luò)中第一個(gè)部分詞序列信息可以由以下方式計(jì)算。對于詞序列c=w1,w2,…,wn可以用一個(gè)詞向量列表x=(x1,x2,…,xn)來表示,xi是第i個(gè)詞wi的詞向量,c由每個(gè)詞的詞向量連接組成。整個(gè)詞向量矩陣E由每個(gè)字典中的詞的行向量組成,在訓(xùn)練過程中將會不斷更新。最終詞序列信息得分scorel由下列公式計(jì)算:

        a1=f(W1[x1,x2,…,xn]+b1)

        (11)

        scorel=W2a1+b2

        (12)

        式中f是激活函數(shù),這里我們使用正切函數(shù)tanh,Wn是第n層神經(jīng)網(wǎng)絡(luò)的權(quán)重轉(zhuǎn)移矩陣,bn是第n層的偏移矩陣,由于神經(jīng)網(wǎng)絡(luò)只有一個(gè)隱藏層,所以n的取值只有1、2。

        接下來需要定義神經(jīng)網(wǎng)絡(luò)中第二個(gè)部分用戶歷史信息的計(jì)算方式。首先對于一個(gè)用戶文檔,計(jì)算其加權(quán)平均值:

        (13)

        最后的分?jǐn)?shù)通過詞序列信息分?jǐn)?shù)和用戶歷史信息分?jǐn)?shù)加和得到:

        score=scorel+scoreu

        (14)

        神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程使用傳統(tǒng)的反向傳播算法,通過訓(xùn)練可以得到每個(gè)詞的詞向量以及神經(jīng)網(wǎng)絡(luò)權(quán)重轉(zhuǎn)移矩陣和偏移矩陣,進(jìn)而可以對任意句子計(jì)算其語言模型分?jǐn)?shù)score。通過語言模型分?jǐn)?shù)和之前翻譯模型分?jǐn)?shù)的乘積,就可以對整個(gè)候選詞列表就行重新排序。

        3 實(shí)驗(yàn)及結(jié)果分析

        由于在中英混合文本糾錯(cuò)領(lǐng)域還沒有公開的標(biāo)注數(shù)據(jù)集用來評測,這里將使用人工抓取并標(biāo)注的數(shù)據(jù)用來訓(xùn)練與測試,我們將與Zhang等[10]的工作進(jìn)行對比,最后進(jìn)行結(jié)果的分析。

        3.1實(shí)驗(yàn)數(shù)據(jù)

        為了使提出的模型有更好的文本糾錯(cuò)能力, 本文從新浪微博上爬取了2億條微博。從中隨機(jī)選取了500條包含英文單詞的中英混合微博,經(jīng)過人工標(biāo)注正確答案后作為測試集。同時(shí) 從射手網(wǎng)爬取了16 032 145條中英對齊電影字幕語料作為非網(wǎng)絡(luò)語義空間的訓(xùn)練文本。本文使用了FudanNLP作為中文分詞工具,openHTMM作為訓(xùn)練隱藏馬爾科夫話題模型的工具。

        3.2實(shí)驗(yàn)結(jié)果與分析

        針對中英文混合文本中的英文單詞,話題翻譯模型可以為其生成候選詞列表,再結(jié)合神經(jīng)網(wǎng)絡(luò)語言模型分?jǐn)?shù)計(jì)算,可以對候選詞列表重新排序。實(shí)驗(yàn)中將分別對第一個(gè),前五個(gè),前十個(gè)結(jié)果的正確率進(jìn)行評測。對比試驗(yàn)設(shè)置為使用字典方法與使用GIZA產(chǎn)生概率表的對比和使用n元語言模型與使用神經(jīng)網(wǎng)絡(luò)語言模型的對比,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 文本糾錯(cuò)正確率

        表中方法部分分別表示翻譯模型-語言模型。D表示基于字典查找的方式尋找翻譯詞,這里產(chǎn)生的翻譯詞沒有翻譯概率,因而將每個(gè)候選詞的初始概率設(shè)定為統(tǒng)一數(shù)值。GIZA表示使用GIZA++工具包產(chǎn)生對齊概率表,HTM為本文中提出的隱藏話題翻譯模型。LM表示n元語言模型,NLM表示本文中提出的神經(jīng)網(wǎng)絡(luò)語言模型。

        根據(jù)實(shí)驗(yàn)結(jié)果表格中的結(jié)果可以看出,在不使用翻譯模型結(jié)合基本的n元語言模型時(shí),可以對中英文混合文本中的英文詞達(dá)到25.2%的翻譯正確率,而使用了神經(jīng)網(wǎng)絡(luò)語言模型后,正確率提升到了27.4%,同時(shí)對于前五結(jié)果的正確率也有一定的提升。鑒于字典中一般沒有詞超過10個(gè)解釋,所以前十結(jié)果正確率幾乎相同。在相同翻譯模型下,神經(jīng)網(wǎng)絡(luò)語言模型相比n元語言模型產(chǎn)生了更好的效果,這也說明了我們提出的神經(jīng)網(wǎng)絡(luò)語言模型能更好地在這種用戶相關(guān)的語義空間中捕捉上下文信息。使用GIZA++產(chǎn)生翻譯對時(shí),因?yàn)樯婕暗秸鎸?shí)世界里的翻譯場景,會生成更多的翻譯詞,并且可能產(chǎn)生一些字典中沒有的網(wǎng)絡(luò)釋義,這種釋義更接近微博語義空間中的真實(shí)環(huán)境,因此在正確率上取得了較大幅度的提升。最后引入的隱藏話題翻譯模型和神經(jīng)網(wǎng)絡(luò)語言模型的結(jié)合取得了最高的正確率60.4%,同時(shí)在前五、前十結(jié)果也取得了最高的正確率72.6%,77.2%,這是因?yàn)殡[藏話題翻譯模型能更好的結(jié)合相同詞在不同語義空間的上下文信息,同時(shí)由于系統(tǒng)設(shè)置,模型訓(xùn)練不需要網(wǎng)絡(luò)語言空間的雙語對齊語料,使得本文的方法更容易被應(yīng)用。

        4 結(jié) 語

        本文針對中文社交網(wǎng)絡(luò)進(jìn)行了文本糾錯(cuò)工作, 對于中英混合的社交文本,我們能夠有效地對混雜的英文進(jìn)行翻譯,并且結(jié)合當(dāng)前語境產(chǎn)生出合適的翻譯詞進(jìn)行替換。經(jīng)過了這一步預(yù)處理工作,能極大地方便接下來的后續(xù)自然語言處理工作。

        我們定義了話題相關(guān)的翻譯模型來產(chǎn)生英文詞的翻譯對,這一步能有效利用上下文信息初步生成具有概率值的候選詞列表。再結(jié)合用戶歷史信息相關(guān)的神經(jīng)網(wǎng)絡(luò)語言模型能最終生成正確的英文詞替換詞。這對于當(dāng)今爆炸式的信息處理有很大的積極作用。

        本文的工作還有很大提升空間,接下來會考慮利用深度學(xué)習(xí)網(wǎng)絡(luò)來挖掘翻譯詞,可能會產(chǎn)生更好的結(jié)果。

        [1]AwAT,ZhangM,XiaoJ,etal.Aphrase-basedstatisticalmodelforSMStextnormalization[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:33-40.

        [2]KobusC,YvonF,DamnatiG.NormalizingSMS:aretwometaphorsbetterthanone?[C]//Proceedingsofthe22ndInternationalConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics,2008:441-448.

        [3]HanB,BaldwinT.Lexicalnormalisationofshorttextmessages:Maknsensa#twitter[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1.AssociationforComputationalLinguistics,2011:368-378.

        [4]LiuF,WengF,JiangX.Abroad-coveragenormalizationsystemforsocialmedialanguage[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:1035-1044.

        [5]HanB,CookP,BaldwinT.Automaticallyconstructinganormalisationdictionaryformicroblogs[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.AssociationforComputationalLinguistics,2012:421-432.

        [6]WangP,NgHT.Abeam-searchdecoderfornormalizationofsocialmediatextwithapplicationtomachinetranslation[C]//ProceedingsofNAACL-HLT,2013:471-481.

        [7]SuJ,WuH,WangH,etal.Translationmodeladaptationforstatisticalmachinetranslationwithmonolingualtopicinformation[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:459-468.

        [8]HuangEH,SocherR,ManningCD,etal.Improvingwordrepresentationsviaglobalcontextandmultiplewordprototypes[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.AssociationforComputationalLinguistics,2012:873-882.

        [9]GruberA,WeissY,Rosen-ZviM.HiddentopicMarkovmodels[C]//InternationalConferenceonArtificialIntelligenceandStatistics,2007:163-170.

        [10]ZhangQ,ChenH,HuangX.Chinese-Englishmixedtextnormalization[C]//Proceedingsofthe7thACMinternationalconferenceonWebsearchanddatamining.ACM,2014:433-442.

        TOPICSTRANSLATIONMODEL-BASEDBILINGUALTEXTERRORSCORRECTION

        ChenHuanZhangQi

        (School of Computer Science,Fudan University,Shanghai 210000,China)

        Alongwiththeglobalisationofinformationinrecentyears,multilingualmixingphenomenahavebecomeincreasinglypopularinsocialnetworkstexts.ItisquitecommoninChinesetextsthatotherlanguagesaremixed.Sincemostoftheexistingnaturallanguageprocessingalgorithmisthemonolingualtask-based,themultilingualmixedtextcan’tbewellprocessed,thereforeitiscrucialtopre-processthetextbeforecarryingoutothernaturallanguageprocessingtasks.Forthelackofthecorpusofbilingualalignmentinnetworktextsemanticspace,weproposedatopicstranslationmodel-basedmethod,itcalculatestheprobabilityofbilingualalignmentofnetworktextsemanticspaceusingthecorpusindifferentsemanticspaces,thenincorporatesneuralnetworklanguagemodeltotranslatetheEnglishinmixednetworktexttocorrespondingChinesetext.Theexperimentwassetonamanuallabelledtestcorpus.Experimentalresultindicatedthatthroughdifferentcomparativeexperimentsitwasprovedthattheproposedapproachwaseffectiveandwasabletoimprovetranslationaccuracy.

        NetworktextTopicstranslationmodelNeuralnetworklanguagemodel

        2014-06-05。陳歡,碩士,主研領(lǐng)域:自然語言處理,機(jī)器學(xué)習(xí)。張奇,副教授。

        TP391

        ADOI:10.3969/j.issn.1000-386x.2016.03.067

        猜你喜歡
        語義文本語言
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        我有我語言
        認(rèn)知范疇模糊與語義模糊
        av在线男人的免费天堂| 人妻丝袜无码国产一区| 少妇邻居内射在线| 对白刺激的老熟女露脸| 久久狠狠髙潮曰十八女人| 日本激情网站中文字幕| 在线成人一区二区| 国产人成精品综合欧美成人| 粉嫩国产白浆在线播放| 少妇人妻精品久久888| 国产又大又黑又粗免费视频| 无码国产一区二区三区四区| 亚洲精品天堂av免费看| 日本av一区二区三区四区| 最新国产精品拍自在线观看| 五月婷婷丁香视频在线观看| 久久久久人妻精品一区二区三区| 亚洲av无码av男人的天堂| jjzz日本护士| 黄色大片国产精品久久| 大地资源网在线观看免费官网 | 亚洲第一无码精品久久| 视频一区中文字幕在线观看| 国产无套中出学生姝| 9lporm自拍视频区| 国内精品久久久久国产盗摄| 亚洲精品二区三区在线观看| 亚洲一区二区三区av色婷婷 | 91大神蜜桃视频在线观看| 日本不卡在线视频二区三区| 亚洲毛片αv无线播放一区| 一本久道久久综合五月丁香| 我也色自拍俺也色自拍| 少妇夜夜春夜夜爽试看视频| √天堂中文官网8在线 | 偷拍一区二区三区黄片| 性做久久久久久免费观看| 国产精品麻豆aⅴ人妻| av日本一区不卡亚洲午夜| 校园春色人妻激情高清中文字幕| 久久aⅴ人妻少妇嫩草影院|