亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢維雙語平行詞匯語料庫構(gòu)建技術(shù)研究

        2020-04-22 20:36:14祖力克爾江艾孜海爾江艾孜爾古麗
        電腦知識與技術(shù) 2020年6期
        關(guān)鍵詞:雙語詞匯

        祖力克爾江 艾孜海爾江 艾孜爾古麗

        摘要:該文主要研究雙語平行詞匯語料庫為目的研究翻譯插件技術(shù)及方法,并進(jìn)行探討。首先陳述雙語平行語料庫構(gòu)建進(jìn)展和研究技術(shù)及方法;其次介紹漢語語料形成方法;探索通過引入API翻譯插件完成讀取一翻譯一寫入的語料詞匯翻譯對齊工作,并通過人工校正后生成漢維詞典;最后通過實(shí)驗(yàn),分析方法的可行性和可靠性。

        關(guān)鍵詞:雙語;詞匯;翻譯技術(shù);雙語詞典

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2020)06-0202-03

        在“人工智能”“大數(shù)據(jù)處理”領(lǐng)域開展自然語言處理工作對大量對雙語資源庫和語言知識庫的需求越來越大,對資源知識庫的構(gòu)建工作越來越重視。在現(xiàn)實(shí)生活中語言成為我們交流發(fā)展之間最大的障礙,這個(gè)問題在社會交流過程中尤為突出,影響人們的生活、學(xué)習(xí)、工作。為解決語言溝通問題,就需要一個(gè)可靠的漢語一維吾爾語機(jī)器翻譯系統(tǒng),完成這樣一個(gè)完整的漢語維吾爾語翻譯系統(tǒng)就需要大量的基礎(chǔ)工作作為支撐,漢語一維吾爾語雙語資源構(gòu)建對漢維機(jī)器翻譯起了重要作用。本文的主要工作就是研究漢語一維吾爾語機(jī)器翻譯系統(tǒng)的基礎(chǔ)部分之一——漢語一維吾爾語雙語資源庫的構(gòu)建。

        目前國內(nèi)隨著統(tǒng)計(jì)機(jī)器翻譯的發(fā)展,多種不同的翻譯方法相繼被提出:基于詞的翻譯模型,基于短語的翻譯模型,基于形式句法的翻譯模型,基于句法的翻譯模型等。本文采用目前工業(yè)界和學(xué)術(shù)界中廣泛使用的層次短語模型(基于形式句法)。在統(tǒng)計(jì)機(jī)器翻譯過程中,詞語對齊為機(jī)器翻譯的關(guān)鍵。詞語對齊利用大量雙語平行句對,依靠無監(jiān)督的統(tǒng)計(jì)信息,自動對雙語平行句對進(jìn)行詞對齊。常用的工具為根據(jù)IBMmode實(shí)現(xiàn)的GIZAG++。不管使用什么方都法離不開詞對齊資源的支持。真實(shí)語料需要經(jīng)分析和處理,才能成為有用的資源。世界上第一個(gè)網(wǎng)絡(luò)檢索工具Web Crawler于1994年誕生,目前家喻戶曉的主流搜索引擎有Google、Baidu、搜狗和LiveSearch等。為了獲取雙語平行語料,一個(gè)最重要的條件是有雙語知識,也可以理解為雙語互譯詞信息,雙語互譯詞是一個(gè)寶貴的資源,因此本文重點(diǎn)研究雙語詞典的獲取技術(shù)問題。

        本研究采用網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)頁正文提取技術(shù)、文本預(yù)處理技術(shù)等文本采集和加工技術(shù),開展雙語語言資源獲取。除了對齊技術(shù)、術(shù)語提取技術(shù)等外,還有文本分類技術(shù)、去重技術(shù)、句子邊界識別等技術(shù),服務(wù)于語言資源知識庫建設(shè)。該成果將在自然語言理解、機(jī)器翻譯、人工智能、大數(shù)據(jù)分析、語言模型構(gòu)造等方面廣泛應(yīng)用。

        本研究選擇網(wǎng)絡(luò)媒體語料作為漢語詞匯資源庫語料,使用Python編程工具快速有效地生成漢語一維吾爾語對照詞表,并經(jīng)過后期人工校對,形成漢語一維吾爾語雙語詞匯資源庫。對后期的漢語維吾爾語機(jī)器翻譯系統(tǒng)開發(fā)奠定基礎(chǔ),這對學(xué)習(xí)國語也有很大的幫助,提高其交流水平,以減少溝通障礙。因此,構(gòu)建漢語維吾爾語詞匯雙語資源庫具有重要意義,服務(wù)于決勝全面建成小康社會,實(shí)現(xiàn)最偉大的夢想。

        1漢維雙語文本語料獲取技術(shù)研究

        1.1語料獲取

        在雙語平行詞匯語料庫構(gòu)建過程中,為建設(shè)漢一維雙語詞匯資源庫,利用Scrapy爬蟲框架爬取“天山網(wǎng)”(網(wǎng)絡(luò)媒體語料)中的漢語語料,通過漢語分詞處理系統(tǒng)形成大量漢語詞匯語料庫。

        1.2語料預(yù)處理

        處理初始語料遇到以下幾種問題,

        (1)編碼問題,根據(jù)不同情況會遇到漢語語料的編碼格式問題,主要是uff-8與gbk直接的相互轉(zhuǎn)換,這個(gè)問題讀取和寫入時(shí)用python代碼來處理。

        (2)替換某些特定字符,需要替換字符的時(shí)候使用自己編寫腳本進(jìn)行替換。

        (3)去除數(shù)據(jù)中不是文本的部分,主要是針對爬蟲收集的語料數(shù)據(jù),由于爬下來的內(nèi)容中有很多html的標(biāo)簽,需要?jiǎng)h除這些標(biāo)簽。對爬取的頁面用X-path來進(jìn)行頁面分析提取題目,作者,發(fā)布時(shí)間,正文。提取的文本里有少量的標(biāo)點(diǎn)符號,這些多余的標(biāo)點(diǎn)符號則用正則表達(dá)式刪除。

        2翻譯插件技術(shù)研究

        2.1研究思路

        隨著社會發(fā)展,特別是科學(xué)、互聯(lián)網(wǎng)信息的快速增長,人們的生活、工作及學(xué)習(xí)方式逐步適應(yīng)新的生活、工作、學(xué)習(xí)方式,現(xiàn)有的雙語對照標(biāo)準(zhǔn)詞匯資源庫,靠人工處理不能滿足人民生活、工作及學(xué)習(xí)需求。為了適應(yīng)人民現(xiàn)代生活、工作及學(xué)習(xí)需求,為了利用好互聯(lián)網(wǎng)資源,本文研究翻譯插件技術(shù),自動、動態(tài)的增加雙語對照標(biāo)準(zhǔn)詞匯資源庫的詞匯,滿足人民不斷產(chǎn)生的新時(shí)代生活、工作、學(xué)習(xí)需求。

        首先使用自己開發(fā)的爬蟲軟件收集漢語網(wǎng)絡(luò)媒體文本語料,再進(jìn)行預(yù)處理,以文本形式保存,并構(gòu)建漢語文本電子語料庫;其次利用漢語通用的分詞軟件,對文本進(jìn)行分詞,構(gòu)建漢語單語詞匯表;通過翻譯插件技術(shù),構(gòu)建漢維雙語對照動態(tài)標(biāo)準(zhǔn)詞匯資源庫。

        2.2翻譯器模型

        隨著機(jī)器翻譯技術(shù)的興起,市面上出現(xiàn)了大量具有不同功能、適應(yīng)不同環(huán)境、滿足不同需求的詞典或翻譯軟件,其中應(yīng)用比較廣泛的有谷歌翻譯、有道翻譯、百度翻譯。三大主流翻譯軟件都為用戶提供了免費(fèi)或有償?shù)膽?yīng)用程序接口(API),這三種翻譯工具除了應(yīng)用環(huán)境不同以外,所包含的語言數(shù)量也不同。谷歌翻譯包含語言種類有104種,有道翻譯包含語言種類有23種,百度翻譯包含語言種類28種,其中有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,這就為許多語言研究者提供了便利,研究者可以通過調(diào)用翻譯插件快速處理問題。本文主要研究基于翻譯插件的漢語一維吾爾語的雙語詞匯資源庫構(gòu)建技術(shù)。

        本次研究核心算法主要是通過循環(huán)依次讀取語料詞匯表中的已處理詞匯;然后通過引入的互聯(lián)網(wǎng)搜索引擎技術(shù)搜索符合翻譯需求的資源;通過翻譯插件翻譯,對讀取詞匯依次翻譯生成翻譯結(jié)果,其中這一翻譯過程,為防止出現(xiàn)因訪問頻繁而導(dǎo)致翻譯失敗或禁止翻譯,采用詞匯階段方法,在每個(gè)階段翻譯結(jié)束后使翻譯程序強(qiáng)制調(diào)整,調(diào)整結(jié)束后再進(jìn)入下一個(gè)階段的詞匯翻譯;最后將翻譯生成結(jié)果,通過正則表達(dá)式獲取正確翻譯結(jié)果,并依次輸入到其對應(yīng)詞匯的下一列單元格。其構(gòu)建模型如圖1所示。

        2.3翻譯器的實(shí)現(xiàn)

        構(gòu)建對齊雙語詞匯庫流程:按順序在漢語詞匯表中讀取詞匯;將讀取內(nèi)容利用程序調(diào)用搜索引擎模塊,搜索對應(yīng)的API翻譯插件對齊翻譯;將翻譯結(jié)果寫入詞匯表中與翻譯內(nèi)容對齊位置,構(gòu)建對齊雙語語料。由上述方法構(gòu)建而成的對齊雙語詞匯庫實(shí)例結(jié)果如表1所示。

        在完成自動生成漢維對照詞表的過程中,所遇到并需要解決的問題主要集中在數(shù)據(jù)從讀到翻譯再到寫入方法的實(shí)現(xiàn)上。首先是對表格的讀取,通過讀取表格方法讀取表格數(shù)據(jù),寫人數(shù)據(jù)到表格;其次是完成翻譯過程,翻譯過程主要采用的是引入搜索引擎找到需要的API翻譯插件,通過編程模仿用戶進(jìn)行翻譯行為,并獲取翻譯結(jié)果。具體實(shí)驗(yàn)中發(fā)現(xiàn),翻譯過程中出現(xiàn)翻譯過于頻繁導(dǎo)致翻譯中斷或主機(jī)被禁。針對這個(gè)問題,采用大規(guī)模詞匯翻譯時(shí)利用分段處理方法詞匯翻譯為一個(gè)階段,每個(gè)階段之間強(qiáng)制程序睡眠一段時(shí)間。通過反復(fù)實(shí)驗(yàn),積累經(jīng)驗(yàn)基礎(chǔ)上,翻譯過程中采用50個(gè)詞匯為一個(gè)翻譯階段,每個(gè)階段時(shí)間間隔為30秒的實(shí)驗(yàn)策略,可以達(dá)到快速穩(wěn)定地自動生成對照詞表的效果。

        3實(shí)驗(yàn)分析

        本文使用的語料來源主要是“網(wǎng)站新聞”媒體中爬取的漢語語料,經(jīng)過公開的分詞軟件來進(jìn)行分詞,并構(gòu)建詞匯語料庫。本文以20萬種詞匯作為實(shí)驗(yàn)對象,進(jìn)行實(shí)驗(yàn)。詞匯翻譯率85%以上,翻譯正確率75%左右,達(dá)到預(yù)期研究效果。在研究中發(fā)現(xiàn)了以下這個(gè)問題。

        (1)語料來源的動態(tài)性。由于本文使用的語料來源“網(wǎng)站新聞”媒體,更新速度快,靜態(tài)翻譯平臺無法適應(yīng)產(chǎn)生的新詞匯,影響翻譯率的提高。

        (2)翻譯平臺提供的資源有限。由于是從網(wǎng)絡(luò)媒體上爬下來,會出現(xiàn)一定規(guī)模的未登錄詞,影響翻譯率的提高。

        (3)翻譯平臺提供的資源中具有一個(gè)詞匯多種翻譯的現(xiàn)象,導(dǎo)致翻譯正確率不太高。

        中英平行語料對齊技術(shù)以及機(jī)器翻譯技術(shù)相對成熟。在進(jìn)一步研究漢語一維吾爾語平行語料庫以及機(jī)器翻譯時(shí),可以借鑒這些成果,采取多種方法,使用智能技術(shù)手段提升漢語一維吾爾語平行語料庫及機(jī)器翻譯質(zhì)量。

        猜你喜歡
        雙語詞匯
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        雙語讓人更聰明
        快樂雙語
        新晨(2013年7期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年5期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年10期)2014-09-29 02:50:54
        本刊可直接用縮寫的常用詞匯
        本刊一些常用詞匯可直接用縮寫
        一本色道久久88—综合亚洲精品 | 日韩毛片在线| 国产强伦姧在线观看| 日韩精品一区二区三区影音视频 | 国产精品国产三级国av在线观看| 99精品久久精品一区| 24小时日本在线视频资源| 国产看黄网站又黄又爽又色| 欧美激情精品久久999| 人妻少妇中文字幕久久hd高清| 国产aⅴ激情无码久久久无码| 色八a级在线观看| 日本久久久免费高清| 精品久久精品久久精品| 久久国产成人精品av| 日韩乱码人妻无码中文字幕视频| 成人午夜视频一区二区无码| 日本一二三区在线不卡| 久久99国产精品久久99| 胸大美女又黄的网站| 久亚洲一线产区二线产区三线麻豆| 国产高清吃奶成免费视频网站| 国产精品白丝喷水在线观看| 大学生粉嫩无套流白浆| 成人久久黑人中出内射青草| 色se在线中文字幕视频| 亚洲色www无码| 久久精品re| 在线观看午夜亚洲一区| 国产国产裸模裸模私拍视频| 国产av一级黄一区二区三区| 日产精品一区二区三区免费 | 久久精品女人天堂av| 国产综合精品久久亚洲| 我的极品小姨在线观看| 久久精品国产99国产精品亚洲| 国产三级在线观看免费| 国产不卡在线免费视频| 大陆老熟女自拍自偷露脸| 夜夜未满十八勿进的爽爽影院| 亚洲成人av一区二区三区|