亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計方法從文本中抽取分詞詞典

        2020-04-14 04:54:29黃超
        電腦知識與技術(shù) 2020年4期
        關(guān)鍵詞:機(jī)器翻譯分詞詞典

        摘要:常見的機(jī)器翻譯方法有兩種,一種是已經(jīng)發(fā)展得比較完善的統(tǒng)計機(jī)器翻譯,另一種是出現(xiàn)不久的神經(jīng)機(jī)器翻譯。這兩種翻譯方式首先都需要將文本劃分成詞或短語,對于一些語種,如中文,詞并不是明顯分開的,必須要分詞。分詞的時候,需要使用詞典,通常詞典是人工生成人工添加。本文提出了一種方式,可以從復(fù)數(shù)文本中自動提取分詞詞典。

        關(guān)鍵詞:機(jī)器翻譯;分詞;詞典

        中圖分類號:TP393

        文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2020)04-0213-02

        收稿日期:2019-10-15

        基金項(xiàng)目:本文工作得到國家重點(diǎn)研發(fā)計劃(2017YFB0802300)資助作者簡介:黃超,男,碩士研究生,主要研究方向?yàn)樾畔踩?/p>

        Extracting Word Segmentation Dictionary from Text Based on Statistical Method

        HUANG Chao

        (School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)

        Abstract:There are two common methods of machine translation,one is the statistical machine translation that has been developed relatively well,and the other is the neural machine translation that appears soon.First of all,both of these translation methods need to segment the text into words or phrases.For some languages,such as Chinese,the words are not clearly segmented so the text must be segmented into words first.W hen segmenting text into words,it is necessary to use a dictionary that is usually generated and added manually.This paper proposes a way to automatically extract word segmentation dictionary from plural text.

        Key words:machine translation;word segmentation;dictionary

        隨著互聯(lián)網(wǎng)的發(fā)展,機(jī)器翻譯在各行各業(yè)中都變得越來越重要。人們在生產(chǎn)生活中往往會查找一些外文的資料,這時就需要機(jī)器翻譯來幫助人們翻譯外文資料。為了提高翻譯的準(zhǔn)確度和流暢度,國內(nèi)外各個研究機(jī)構(gòu)都對機(jī)器翻譯進(jìn)行過非常深入的研究?,F(xiàn)在,機(jī)器翻譯方法主要有兩種,一種是統(tǒng)計機(jī)器翻譯,這種翻譯方式是基于統(tǒng)計模型,將一個短語翻譯成另一種語言中含義最為接近的短語[1]。另一種就是神經(jīng)機(jī)器翻譯,這是一種出現(xiàn)不久的翻譯方法,基于神經(jīng)網(wǎng)絡(luò)[2-4]。相比于統(tǒng)計機(jī)器翻譯,神經(jīng)機(jī)器翻譯可以更多地考慮語法和語義對翻譯影響,從而獲得更好的翻譯準(zhǔn)確度。

        以上兩種翻譯方法,首先都要將文本劃分成單詞或短語,才能進(jìn)行接下來的翻譯步驟。對于一些語種,,如英文,其單詞是自然劃分的。而對于另一些語種,如中文,其單詞不是自然劃分的,所以在翻譯之前需要進(jìn)行分詞?,F(xiàn)在已經(jīng)有比較成熟的中文分詞工具,如結(jié)巴分詞。這些分詞工具都需要根據(jù)詞庫對文本進(jìn)行劃分,而現(xiàn)在的詞庫都是人為生成人為添加的。

        本文將介紹一種基于統(tǒng)計方法的從復(fù)數(shù)文本中抽取分詞詞典的方法,并驗(yàn)證該方法的可行性。由于現(xiàn)階段沒有標(biāo)準(zhǔn)可以評價一個詞典優(yōu)異性,所以本文的實(shí)驗(yàn)結(jié)果更多地依據(jù)經(jīng)驗(yàn)。

        1 詞典抽取

        1.1 數(shù)據(jù)預(yù)處理

        中文和英文不同,在很多字符集中,英文的ASCII碼是-致的,而中文的ASCII碼往往是不一致的,所以首先要統(tǒng)一字符集。在本文中,使用GBK作為統(tǒng)一的字符集。中文有簡體和繁體,同一個字的簡體和繁體的ASCII碼是不一樣的,所以,在預(yù)處理時,本文將所有的中文都轉(zhuǎn)換成簡體。

        1.2 數(shù)據(jù)統(tǒng)計

        本文提出的方法,是統(tǒng)計一個字之后接下來的字的個數(shù)。在統(tǒng)計時,需要將無效的字符除去。無效的字符有這幾類。一是ASCI碼大于0的字符,在GBK編碼中,所有中文字符的ASCII碼都小于0。二是中文標(biāo)點(diǎn)符號,在GBK編碼中,中文標(biāo)點(diǎn)符號字符的ASCII碼也小于0,但是這不是有效的字符,必須除去。三是以GBK編碼表示的數(shù)字和希臘字母等,去除的原因和中文標(biāo)點(diǎn)相同。在去除上述字符的同時,也將其作為一個句子的分割。

        1.3 提取詞典

        在做完統(tǒng)計之后,就可以進(jìn)行詞典的提取。統(tǒng)計的結(jié)果中,一個字之后會有很多不同的字,而且這些字出現(xiàn)的次數(shù)也不相同。這里有一個經(jīng)驗(yàn)思路,即如果一個字A和另一個字B組成一個有意義詞,那么A后面跟著的字中B出現(xiàn)的次數(shù)就很高,反之次數(shù)就低。所以只需要找出次數(shù)多的字即可。

        2 實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)設(shè)置

        本文只針對中文,所以數(shù)據(jù)是中文數(shù)據(jù),其來源是wiki百科。從wiki百科獲得的原始數(shù)據(jù)都是utf-8編碼,并且繁簡混合,所以對其做預(yù)處理操作。做完預(yù)處理后,進(jìn)行效果驗(yàn)證。

        2.2 效果驗(yàn)證

        本文使用MySQL數(shù)據(jù)庫存儲統(tǒng)計結(jié)果。MySQL數(shù)據(jù)庫提供了非常豐富的數(shù)據(jù)處理函數(shù),例如可以根據(jù)字進(jìn)行分組,可以求一組數(shù)的最大值,可以對數(shù)據(jù)進(jìn)行排序,這些有助于詞典抽取。

        下表是“臺”字之后的字及其次數(shù),由于數(shù)量較多,所以選擇了其中部分?jǐn)?shù)據(jù)。

        從表格中可以看出,“灣”和“北”出現(xiàn)的次數(shù)遠(yuǎn)遠(yuǎn)超過其他的字,說明“臺灣”和“臺北”是兩個有意義的詞。

        下表是“町”字之后的字及其出現(xiàn)次數(shù)。

        從表中可以看出,“町”字后的字出現(xiàn)的次數(shù)都比較少,而且分布非常均勻,可以判斷“町”無法和其他字組成一個有意義

        的詞。

        3 總結(jié)和展望

        本文提出一個基于統(tǒng)計方法的從復(fù)數(shù)文本中提取字典的方法。這個方法是一個全新的方法,也具有一定的可行性,不過其結(jié)果并不理想,還需要進(jìn)行更深入的研究。

        本文從wiki百科中獲得的數(shù)據(jù)其實(shí)并不多,這也影響了實(shí)驗(yàn)的效果。同時由于沒有一個標(biāo)準(zhǔn)來評價詞典的效果,所以最后的評價更多地需要通過經(jīng)驗(yàn),這也是一個不足。

        接下來需要修改模型,進(jìn)行更多的實(shí)驗(yàn)。而且不能只考慮兩個字的詞,還需要考慮三個字、四個字的詞。通過更加深入的研究,以期能獲得更理想的結(jié)果。

        參考文獻(xiàn):

        [1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]/Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguisticson Human Language Technology一NAACL '03,May 27-June 1,2003.Edmonton,Canada.Morristown,NJ,USA:Association for Computational Linguistics,2003:48-54.

        [2]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.

        [3]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[J].arXiv preprint arXiv:1705.03122,2017.

        [4]Sutskever I,Vinyals 0,le Q.Sequence to sequence learning

        with neural networks[J].Advances in Neural Information Processing Systems,2014:3104-3112.

        [通聯(lián)編輯:唐一東]

        猜你喜歡
        機(jī)器翻譯分詞詞典
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        互聯(lián)網(wǎng)+新時代下人機(jī)翻譯模式研究
        考試周刊(2017年2期)2017-01-19 09:13:50
        “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
        考試周刊(2017年2期)2017-01-19 09:12:54
        大數(shù)據(jù)背景下石油科技翻譯
        智富時代(2016年12期)2016-12-01 17:03:10
        值得重視的分詞的特殊用法
        機(jī)器翻譯不可盲取
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        久久香蕉国产线熟妇人妻| 国产一区二区三区在线av| 久久一道精品一区三区| 99精品国产在热久久无码| 亚洲欧美精品伊人久久| 9丨精品国产高清自在线看| 一本色道久久88加勒比—综合| 天天做天天爱夜夜爽毛片毛片 | 精品91亚洲高清在线观看| 亚洲国产天堂av成人在线播放| 久久久99精品免费视频| 久久精品国产亚洲av四虎| 国产成人美女AV| 狼色精品人妻在线视频| 精品91亚洲高清在线观看| 按摩偷拍一区二区三区| 久久精品国产99久久久| 国产欧美日韩久久久久| 亚洲中文欧美日韩在线| 亚洲a级视频在线播放| 中文字幕在线亚洲精品| 色婷婷欧美在线播放内射| 亚洲av综合色区在线观看| 中文字幕av熟女中文av| 国产女人的高潮国语对白| 亚洲一区二区在线| 男女啪啪免费视频网址| 四虎影在永久在线观看| 国外精品视频在线观看免费| 天天射色综合| 一区二区视频在线国产| 蜜桃日本免费看mv免费版| 成人免费xxxxx在线视频| 亚洲国产精品二区三区| 公和我做好爽添厨房| 欧洲日本一线二线三线区本庄铃 | 中文字幕亚洲日本va| 日韩人妻另类中文字幕| 欧美巨大巨粗黑人性aaaaaa| 无码国产精品色午夜| 中文国产乱码在线人妻一区二区|