張嘯巖 張慧 陳宇
摘要:緬甸語屬于低資源語言,收集大量緬語文本進行預(yù)訓(xùn)練是一項耗時耗力的工作。目前已存在一些在多種語言(包括緬甸語)上預(yù)訓(xùn)練的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一種新方法,即在多語言(包括緬甸語)預(yù)訓(xùn)練模型的基礎(chǔ)上,利用緬語文本進行再預(yù)訓(xùn)練,以提升模型的分詞性能。首先,構(gòu)建了緬語預(yù)訓(xùn)練語料庫,并使用它制作了一個僅包含緬甸語的tokenizer。然后,重置了多語言預(yù)訓(xùn)練模型的詞嵌入層和位置編碼層,并在重置后的多語言預(yù)訓(xùn)練模型上使用自制的tokenizer加入緬語預(yù)訓(xùn)練語料庫進行再預(yù)訓(xùn)練。最后,在自建的以及公開的分詞標(biāo)注數(shù)據(jù)集上進行了微調(diào)。與未進行再預(yù)訓(xùn)練的情況相比,模型在F1值上分別提高了2.23%和1.2%,且自建數(shù)據(jù)集的提升幅度高出公開數(shù)據(jù)集的1.34%。
關(guān)鍵詞:緬甸語;自然語言處理;自動分詞;Roberta;語料庫
中圖分類號:TP391 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)11-0022-07