亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多語言預(yù)訓(xùn)練模型的緬甸語分詞研究

2024-06-03 05:04:11張嘯巖張慧陳宇

電腦知識與技術(shù) 2024年11期

張嘯巖張慧陳宇

摘要：緬甸語屬于低資源語言，收集大量緬語文本進行預(yù)訓(xùn)練是一項耗時耗力的工作。目前已存在一些在多種語言（包括緬甸語）上預(yù)訓(xùn)練的模型，例如bert-base-multilingual-cased和xlm-roberta-base。因此，文章提出了一種新方法，即在多語言（包括緬甸語）預(yù)訓(xùn)練模型的基礎(chǔ)上，利用緬語文本進行再預(yù)訓(xùn)練，以提升模型的分詞性能。首先，構(gòu)建了緬語預(yù)訓(xùn)練語料庫，并使用它制作了一個僅包含緬甸語的tokenizer。然后，重置了多語言預(yù)訓(xùn)練模型的詞嵌入層和位置編碼層，并在重置后的多語言預(yù)訓(xùn)練模型上使用自制的tokenizer加入緬語預(yù)訓(xùn)練語料庫進行再預(yù)訓(xùn)練。最后，在自建的以及公開的分詞標(biāo)注數(shù)據(jù)集上進行了微調(diào)。與未進行再預(yù)訓(xùn)練的情況相比，模型在F1值上分別提高了2.23%和1.2%，且自建數(shù)據(jù)集的提升幅度高出公開數(shù)據(jù)集的1.34%。

關(guān)鍵詞：緬甸語；自然語言處理；自動分詞；Roberta；語料庫

中圖分類號：TP391 文獻標(biāo)識碼：A

文章編號：1009-3044（2024）11-0022-07

電腦知識與技術(shù)2024年11期

電腦知識與技術(shù)的其它文章: 基于小學(xué)生計算思維培養(yǎng)的項目式教學(xué)模式構(gòu)建與實踐研究; BOPPPS 參與式課程思政教學(xué)案例設(shè)計; 混合式BOPPPS 教學(xué)模式的Scratch 編程教學(xué)設(shè)計; CDIO-OBE 工程教育理念下的Java程序設(shè)計課程改革探析; 信號處理類課程教學(xué)中信號頻譜的對偶性總結(jié); 新工科背景下Multisim 在電工電子技術(shù)課程教學(xué)中的應(yīng)用研究