亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Android和深度學(xué)習(xí)的彝漢翻譯系統(tǒng)實(shí)現(xiàn)

        2020-07-16 09:42:58田大雕阮心如王可豪
        締客世界 2020年1期
        關(guān)鍵詞:彝語(yǔ)客戶機(jī)語(yǔ)料庫(kù)

        田大雕 阮心如 王可豪

        (西南民族大學(xué) 四川 成都 610225)

        引言

        民族語(yǔ)言翻譯工作是促進(jìn)民族事業(yè)發(fā)展的重要內(nèi)容之一,是促進(jìn)民族地區(qū)經(jīng)濟(jì)、文化和社會(huì)建設(shè)尤其是國(guó)家安全的客觀需要[1]。

        Android平臺(tái)作為現(xiàn)今最新、應(yīng)用最為廣泛的移動(dòng)操作系統(tǒng),因具有能支持強(qiáng)大的硬件配置和多種無(wú)線通信方式等優(yōu)勢(shì)功能,被運(yùn)用于各種移動(dòng)終端設(shè)備中[2]。本系統(tǒng)基于Android平臺(tái)開發(fā),同時(shí),我們收集了近50000條彝語(yǔ)和漢語(yǔ)的對(duì)應(yīng)的平行語(yǔ)料庫(kù),并結(jié)合Tensorflow框架構(gòu)建神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練框架來(lái)實(shí)現(xiàn)翻譯功能。

        1 系統(tǒng)構(gòu)架

        本翻譯系統(tǒng)的總構(gòu)架包塊客戶端設(shè)備、無(wú)線訪問點(diǎn)、交換機(jī)以及服務(wù)器和數(shù)據(jù)庫(kù)。用戶端是用戶可直觀使用的設(shè)備,無(wú)線訪問點(diǎn)和交換機(jī)用于數(shù)據(jù)通道的傳輸,服務(wù)器負(fù)責(zé)和客戶機(jī)連接以及Tensorflow算法程序的封裝,語(yǔ)料庫(kù)負(fù)責(zé)存儲(chǔ)和管理彝漢雙語(yǔ)平行語(yǔ)料庫(kù)。

        在該結(jié)構(gòu)系統(tǒng)中,客戶端使用Android 4.0版本以上的設(shè)備,連接服務(wù)器的方式可以采用ADSL有線連接或WIFI無(wú)線連接的方式訪問服務(wù)器。當(dāng)用戶在手機(jī)端輸入需要翻譯的文字后,發(fā)送HTTP請(qǐng)求給服務(wù)器進(jìn)行翻譯,服務(wù)器接受請(qǐng)求響應(yīng)后,向語(yǔ)料庫(kù)查詢匹配語(yǔ)料數(shù)據(jù),并將數(shù)據(jù)通過模型訓(xùn)練,以得到翻譯的結(jié)果,最后服務(wù)器將翻譯結(jié)果反饋給用戶端,從而實(shí)現(xiàn)翻譯的功能。

        2 C/S結(jié)構(gòu)介紹

        由于在線翻譯需要運(yùn)行大量框架程序,內(nèi)存空間需求大,所以本文在軟件系統(tǒng)設(shè)計(jì)中采用C/S結(jié)構(gòu)并將程序封裝在服務(wù)器端[3]??蛻魴C(jī)通過局域網(wǎng)與服務(wù)器相連,當(dāng)接受到用戶的請(qǐng)求數(shù)據(jù)后,會(huì)通過網(wǎng)絡(luò)向服務(wù)器提出請(qǐng)求。當(dāng)服務(wù)器接受到客戶機(jī)的請(qǐng)求后,會(huì)調(diào)取語(yǔ)料庫(kù)的數(shù)據(jù),并進(jìn)行模型訓(xùn)練得出結(jié)果,最后將翻譯結(jié)果提交給客戶機(jī),客戶機(jī)再將數(shù)據(jù)結(jié)果直接呈現(xiàn)給用戶,這樣便完成了翻譯的全部流程。

        使用這種結(jié)構(gòu)可以提高系統(tǒng)的通信速度,并結(jié)合Android的操作機(jī)制,大大減輕了前端界面的操作壓力;同時(shí),這種結(jié)構(gòu)還可以合理有效的分配客戶機(jī)和服務(wù)器端的任務(wù),充分利用系統(tǒng)硬件配置[3],從而減少了系統(tǒng)的通信開銷[4]。

        3 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

        3.1 深度可分離卷積神經(jīng)網(wǎng)絡(luò)

        深度可分離卷積是引入深度可分離卷積的Inception,通常稱之為“Xception”。它將傳統(tǒng)卷積分解成一個(gè)深度卷積和一個(gè)1*1的卷積。

        深度卷積通過在每個(gè)獨(dú)立的輸入通道上執(zhí)行空間卷積,在比傳統(tǒng)卷積減少參數(shù)數(shù)量的同時(shí),也對(duì)每個(gè)通道進(jìn)行了學(xué)習(xí)。通過采用1*1的窗口逐點(diǎn)卷,從而把深度卷積的輸出映射到一個(gè)新的通道空間[5]。具體過程如圖1所示:

        3.2 LSTM神經(jīng)網(wǎng)絡(luò)

        長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[6],內(nèi)部有四個(gè)網(wǎng)絡(luò)層。它能夠?qū)W習(xí)利用以前的信息來(lái)對(duì)當(dāng)前任務(wù)進(jìn)行相應(yīng)的操作。與傳統(tǒng)的RNN網(wǎng)絡(luò)相比,它是為了解決訓(xùn)練過程中的梯度消失和長(zhǎng)依賴問題,因此提出了一種“記憶機(jī)制”,即對(duì)狀態(tài)進(jìn)行選擇與處理。

        LSTM網(wǎng)絡(luò)結(jié)構(gòu)可以分成輸入門、輸出門、遺忘門和輸入輸出神經(jīng)網(wǎng)絡(luò)這幾個(gè)部分。而這種特殊的門結(jié)構(gòu)可以選擇讓哪些信息通過,通過丟棄、添加、更新細(xì)胞狀態(tài)等來(lái)達(dá)到使用目的[7]。其作用公式如下:

        其中,i(t)表示輸入門輸出、o(t)代表輸出門輸出、f(t)表示遺忘門輸出、c(t)表示細(xì)胞狀態(tài)、h(t)表示t時(shí)刻隱藏層的輸出數(shù)據(jù)、a表示激活函數(shù)。

        4 實(shí)驗(yàn)過程及結(jié)果分析

        4.1 神經(jīng)網(wǎng)絡(luò)處理結(jié)果

        4.1.1 實(shí)驗(yàn)思路

        神經(jīng)機(jī)器翻譯(NMT)是機(jī)器翻譯的重要方向。由循環(huán)神經(jīng)網(wǎng)絡(luò)演化而來(lái)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型可以綜合語(yǔ)言的語(yǔ)法、語(yǔ)義以及連貫性等方面進(jìn)行機(jī)器翻譯、語(yǔ)義提取、文本摘要等任務(wù)[7]。

        彝語(yǔ)屬于資源稀缺型的語(yǔ)言,其語(yǔ)料收集困難,地方種類繁雜,使得數(shù)據(jù)稀疏問題嚴(yán)重。本工作首先將彝語(yǔ)切分為詞、音節(jié)、字符、字詞4種不同的粒度。通過采用雙向長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)形成詞語(yǔ)表示,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于源語(yǔ)言,對(duì)不同的粒度序列進(jìn)行卷機(jī)運(yùn)算,使編碼器完整地捕獲源語(yǔ)言句子語(yǔ)義信息。

        4.1.2 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)中訓(xùn)練的彝漢雙語(yǔ)語(yǔ)料規(guī)模為5萬(wàn)句對(duì)。隨機(jī)劃分測(cè)試集和訓(xùn)練集,訓(xùn)練之前對(duì)語(yǔ)料進(jìn)行了人工校對(duì)。實(shí)驗(yàn)分為漢語(yǔ)——彝語(yǔ)和彝語(yǔ)——漢語(yǔ)兩個(gè)翻譯方向。卷積神經(jīng)網(wǎng)絡(luò)CNN由五層編碼器和九層解碼器構(gòu)成,batch_size的大小為128。深度可分離卷積翻譯模型卷積核為3*3,每層核的寬度為3。實(shí)驗(yàn)使用雙語(yǔ)互譯評(píng)估(BLEU)值作為模型效果的指標(biāo)。

        4.1.3 結(jié)果展示

        本模型得到的BLEU值在20%左右,效果較好。漢彝的翻譯效果較彝漢好,平均高出0.805個(gè)百分點(diǎn)。其原因可能是漢語(yǔ)組詞復(fù)雜,訓(xùn)練過程中涉及到的詞數(shù)量有限,造成BLEU值偏低。此外,實(shí)驗(yàn)中子詞粒度的效果最優(yōu),這是因?yàn)樽釉~粒度可以由低頻詞切分成高頻詞片段,緩解數(shù)據(jù)稀疏的問題。而字符粒度的BLEU較低的原因是彝語(yǔ)切分為字符后,雖然緩解了數(shù)據(jù)稀疏問題,但是增加了句子長(zhǎng)度,使得長(zhǎng)距離依賴學(xué)習(xí)的更加困難[8]。

        4.2 Android端翻譯測(cè)試

        本文根據(jù)已經(jīng)構(gòu)建好的Android端軟件和服務(wù)器端,進(jìn)行翻譯測(cè)試實(shí)驗(yàn)。在界面中通過輸入文本(用戶可以根據(jù)需要選擇翻譯類型),然后數(shù)據(jù)將傳輸?shù)椒?wù)器端,并使用LSTM算法返回翻譯結(jié)果。結(jié)果在翻譯界面中可以實(shí)時(shí)查看。

        在軟件上對(duì)中文和彝文進(jìn)行幾次翻譯后,就可以實(shí)現(xiàn)從中文到彝文,從彝文到中文的雙向翻譯,本文通過給能夠識(shí)別彝漢雙語(yǔ)的人識(shí)別,結(jié)果顯示許多測(cè)試翻譯結(jié)果大致一樣。但是由于系統(tǒng)和模型的內(nèi)在缺陷存在,本系統(tǒng)的準(zhǔn)確性和文學(xué)性與陳述的實(shí)際條目和含義之間存在一定偏差,但不會(huì)影響整體閱讀。

        綜上所述,經(jīng)反復(fù)測(cè)試,采用深度可分離網(wǎng)絡(luò)、LSTM等算法的翻譯結(jié)果測(cè)試集準(zhǔn)確度達(dá)到86%,并且系統(tǒng)在Android方面也顯示了翻譯的完整性和可行性。

        5 結(jié)語(yǔ)

        本文中設(shè)計(jì)的翻譯系統(tǒng),可以實(shí)現(xiàn)彝語(yǔ)和漢語(yǔ)之間的互譯功能。在技術(shù)上,主要基于Android平臺(tái)開發(fā)、數(shù)據(jù)庫(kù)開發(fā)和當(dāng)前流行的機(jī)器翻譯框架,并利用Flask框架搭建了數(shù)據(jù)交互的橋梁;從翻譯的結(jié)果來(lái)看,該系統(tǒng)有較準(zhǔn)確的翻譯結(jié)果。

        此外,本項(xiàng)目在后期開發(fā)時(shí),可以根據(jù)現(xiàn)有框架,并結(jié)合各種語(yǔ)言的特有語(yǔ)法結(jié)構(gòu)進(jìn)行分析,優(yōu)化翻譯模型;以便加入更多的民族語(yǔ)言,比如藏語(yǔ)、維吾爾語(yǔ)、回文等;當(dāng)系統(tǒng)達(dá)到一定規(guī)模后,這將在促進(jìn)民族地區(qū)交流溝通的同時(shí),還可以極大的保護(hù)我國(guó)少數(shù)民族語(yǔ)言的多樣性。

        猜你喜歡
        彝語(yǔ)客戶機(jī)語(yǔ)料庫(kù)
        Reducing the global cancer burden with gastrointestinal screening: China’s 30 years practice
        民初《大定縣志·殊語(yǔ)》中的彝語(yǔ)研究
        納蘇彝語(yǔ)越南語(yǔ)親屬稱謂特征及其文化內(nèi)涵異同研究
        訪大涼山懸崖村
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        漢語(yǔ)“不”與彝語(yǔ)“ap”的異同
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
        瘦客戶機(jī):安全與便捷的選擇
        語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
        青青草在线免费视频播放| 国产乱人伦精品一区二区| 亚洲丁香婷婷综合久久小说| 久久免费视亚洲无码视频| 久久精品国产精品亚洲婷婷| 一本色道久久亚洲加勒比| 日韩毛片无码永久免费看| 日本精品a在线观看| 精品的一区二区三区| 国产色第一区不卡高清| 无码av中文一区二区三区桃花岛| 97人人超碰国产精品最新| 黄色资源在线观看| 久久丁香花综合狼人| 亚洲一区二区三区高清视频| 白白色发布会在线观看免费| 公和我做好爽添厨房中文字幕 | 亚洲天堂av社区久久| 日韩精品视频免费网站| 日本在线 | 中文| 亚洲成a人片在线观看无码| 国产在视频线精品视频二代| 中文字幕色资源在线视频| 国产日韩av在线播放| 国产精品久久久久久52avav | 熟妇人妻丰满少妇一区| 日本视频一中文有码中文| 女人被狂躁c到高潮| 国产精品卡一卡二卡三| jk制服黑色丝袜喷水视频国产| 在线人妻va中文字幕| 丰满熟妇人妻av无码区| 亚洲人成网7777777国产| 无码久久精品蜜桃| 日本一二三四区在线观看| 区二区三区玖玖玖| 粉嫩极品国产在线观看| 亚洲中文有码一区二区| 国产性感丝袜在线观看| 情人伊人久久综合亚洲| 99国产精品99久久久久久|