亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合結(jié)合注意力機制的藏文文本分類模型

        2025-04-22 00:00:00馮宇舒艾金勇李爽
        科技創(chuàng)新與應(yīng)用 2025年10期
        關(guān)鍵詞:注意力機制

        摘 "要:由于藏語與漢語、英語在語法結(jié)構(gòu)和詞匯特點上的差異,傳統(tǒng)的文本分類方法在藏文上的應(yīng)用面臨挑戰(zhàn)。為此,該文提出一種基于多特征融合與注意力機制的藏文文本分類模型,該模型結(jié)合CINO、TextCNN和BiLSTM模型的優(yōu)勢。實驗結(jié)果表明,該文提出的模型在公開數(shù)據(jù)集TNCC上的F1值為73.09%,在自建數(shù)據(jù)集TiTCD上的F1值為80.97%。因此,該模型能夠較好地捕捉到藏文文本語義,在藏文文本分類任務(wù)上性能有所提升。

        關(guān)鍵詞:藏文文本分類;預(yù)訓(xùn)練語言模型;多特征融合;注意力機制;文本分類方法

        中圖分類號:H214 " " "文獻標志碼:A " " " " "文章編號:2095-2945(2025)10-0061-05

        Abstract: Due to the differences in grammatical structure and lexical characteristics between Tibetan, Chinese and English, the application of traditional text classification methods in Tibetan faces challenges. To this end, this paper proposes a Tibetan text classification model based on multi-feature fusion and attention mechanism, which combines the advantages of CINO, TextCNN and BiLSTM models. Experimental results show that the F1 value of the proposed model on the public dataset TNCC is 73.09%, and the F1 value on the self-built dataset TiTCD is 80.97%. Therefore, this model can better capture Tibetan text semantics and improve performance on Tibetan text classification tasks.

        Keywords: Tibetan text classification; pre-trained language model; multi-feature fusion; attention mechanism; text classification methods

        隨著信息技術(shù)的快速發(fā)展,文本分類作為自然語言處理領(lǐng)域的重要任務(wù)之一,在信息檢索、情感分析等領(lǐng)域發(fā)揮著關(guān)鍵作用。然而,由于藏語在語法結(jié)構(gòu)、詞匯形態(tài)和表達方式上與漢語、英語等語言存在顯著差異,傳統(tǒng)的文本分類方法在處理藏文文本時往往難以取得理想效果。這種差異不僅體現(xiàn)在詞匯的豐富性和形態(tài)變化上,還反映在句法結(jié)構(gòu)的復(fù)雜性上,使得藏文文本的語義表示和特征提取面臨較大挑戰(zhàn)。針對這一問題,本研究提出了一種融合多特征與注意力機制的藏文文本分類模型,旨在充分利用藏文文本的語義信息,提升分類性能。通過結(jié)合CINO、TextCNN和BiLSTM等模型的優(yōu)勢,該模型能夠更有效地捕捉藏文文本的深層語義特征,為藏文文本分類任務(wù)提供新的解決方案。

        1 "相關(guān)工作

        當(dāng)前,中英文文本分類技術(shù)已較為完善,然而,由于可用的藏語語料庫有限,藏文文本分類研究仍處于早期階段。王莉莉等[1]開發(fā)了一種多分類器藏文文本分類模型;蘇慧婧等[2-3]采用了高斯樸素貝葉斯模型、多層感知機和深度可分離卷積網(wǎng)絡(luò)進行藏文文本分類;李亮[4]基于ALBERT預(yù)訓(xùn)練模型提出了一種方法;張英等[5]則提出了一種動態(tài)多頭注意力機制的分類模型。盡管這些模型在分類效果上表現(xiàn)不錯,但它們大多未采用公共數(shù)據(jù)集,這限制了對不同方法性能的直接比較。

        2 "藏文分類模型

        本文開發(fā)了一種融合特征與注意力機制的藏文文本分類模型。模型首先利用CINO預(yù)訓(xùn)練詞向量,該模型基于BERT的優(yōu)勢,采用transformer架構(gòu)和MLM技術(shù),不僅精確捕捉詞匯信息,還考慮了詞匯的位置信息。接著,通過Transformer Encoder和其Layer的多頭注意力機制處理CINO生成的詞向量;利用雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)進行序列建模;并通過TextCNN層提取文本的局部特征。最終,將CINO、BiLSTM、多頭注意力(MHA)和TextCNN的輸出進行融合,輸入全連接層以進行分類。模型結(jié)構(gòu)詳如圖1所示。

        2.1 "CINO預(yù)訓(xùn)練語言模型

        CINO預(yù)訓(xùn)練模型[6]基于多語言的XLM-R(XLM-RoBERTa)預(yù)訓(xùn)練模型構(gòu)建,其在多種國內(nèi)少數(shù)民族語言的低資源語料庫上進行了進一步的預(yù)訓(xùn)練。該模型不僅繼承了XLM-R對超過100種語言的識別能力,還增強了對蒙古語、藏語、維吾爾語、哈薩克語、朝鮮語和壯語等語言的理解。研究顯示,CINO在這些少數(shù)民族語言的數(shù)據(jù)集上表現(xiàn)優(yōu)異,對研究人員具有顯著的應(yīng)用價值。為了更好地適應(yīng)這些語言,CINO模型進行了詞匯的擴充和優(yōu)化,以減少預(yù)測誤差。與XLM-R相比,CINO在資源受限的環(huán)境中表現(xiàn)更佳,并且在少數(shù)民族語言的預(yù)訓(xùn)練方面也更為出色。因此,本文選用CINO-large-v2模型進行詞向量的預(yù)訓(xùn)練工作。

        2.2 "TextCNN層

        Rakhlin[7]提出的TextCNN模型為文本分類領(lǐng)域帶來了創(chuàng)新。在文本處理中,局部特征通常指連續(xù)單詞序列,與N-gram模型理念相近。TextCNN的優(yōu)勢在于其自動提取關(guān)鍵N-gram特征,捕捉文本的多層次語義。該模型專注于局部特征的識別,使用預(yù)訓(xùn)練詞向量輸入,并通過不同大小的卷積核提取特征,這些核能夠識別不同長度的文本模式。TextCNN由卷積層、池化層和全連接層組成:卷積層提取特征,池化層減少特征維度并增強位置不變性,全連接層進行分類。最后,通過softmax函數(shù)輸出分類概率,為文本分類提供依據(jù)。

        2.3 "BiLSTM層

        在自然語言處理中,BiLSTM模型具有卓越的上下文信息捕捉能力。BiLSTM是對標準LSTM的改進,采用雙向機制同時分析文本的前文和后文,以更全面地理解語義。本文采用BiLSTM模型,其通過2個方向的特征提取來獲取更豐富的上下文信息。這種雙向策略讓模型能從多角度理解文本的內(nèi)在聯(lián)系,加深對全局語義的把握。為了增強特征提取的精確性,本文使用CINO模型生成的動態(tài)詞向量作為BiLSTM的輸入,這些詞向量能夠捕捉詞匯在不同上下文中的變化,為BiLSTM提供更準確的文本表示。結(jié)合CINO模型的輸出,本研究的方法不僅提取了文本的局部特征,還深入探索了文本的全局上下文。在BiLSTM處理后,本文將前向和后向特征合并,形成了一個全面的文本表示,既保留了雙向語義信息,也為后續(xù)的模型訓(xùn)練和預(yù)測提供了全面的特征支持。

        2.4 "多頭注意力機制

        多頭注意力機制用于增強模型對序列中不同位置信息的捕捉能力。通過并行處理序列中的所有元素,注意力機制能夠捕捉到序列中不同位置之間的依賴關(guān)系;模型可以學(xué)習(xí)到哪些位置是重要的,哪些是不重要的,從而更加靈活地處理不同長度和復(fù)雜度的序列;同時,注意力機制允許模型在訓(xùn)練時進行并行計算,可以加快訓(xùn)練速度。

        2.5 "藏文文本分類模型框架

        本研究提出的模型巧妙地融合了CINO模型提取的[CLS]特征信息與TextCNN及BiLSTM模型提取的特征向量。能夠更全面地捕捉文本的特征,進而提升文本分類的準確性。首先將經(jīng)過預(yù)處理的藏文文本輸入至CINO模型中。CINO模型不僅輸出了編碼器的所有結(jié)果,還特別提取了最后一層的[CLS]特征,這些特征富含關(guān)鍵的語義信息。通過采用多頭注意力機制,進一步篩選出最具代表性的語義特征。隨后,我們將這些精選的特征并行輸入到TextCNN和BiLSTM模型中,以深入挖掘文本的深層特征和上下文信息。最終,將TextCNN和BiLSTM提取的特征向量與[CLS]特征進行有效融合,并將這一融合后的特征集輸入到分類器中進行文本分類。

        3 "實驗

        3.1 "實驗環(huán)境

        論文實驗環(huán)境見表1。

        表1 "實驗環(huán)境配置參數(shù)

        3.2 "實驗語料來源和數(shù)據(jù)處理

        目前,TNCC數(shù)據(jù)集是公開可用的藏文語料之一,由Qun等[8]在2017年的研究中首次發(fā)布。該數(shù)據(jù)集依據(jù)音節(jié)將藏文詞匯進行劃分,并涵蓋了12個分類的藏文文本,分為2個部分:一部分包含新聞標題的短文本,另一部分則包含新聞?wù)牡拈L文本。在本文中,采用了長文本數(shù)據(jù)集進行分析。TNCC數(shù)據(jù)集包含數(shù)據(jù)類別和數(shù)目見表2。

        本文按照新聞類別,從香格里拉網(wǎng)、甘南香巴拉在線、西藏日報藏文版等藏文網(wǎng)頁上抓取藏文新聞數(shù)據(jù),構(gòu)建藏文分類語料TiTCD(Tibetan Text Classification Dataset)。該數(shù)據(jù)集使用TIP-LAS[9]進行分詞,共有9個類別,文本數(shù)量為16 045條。TiTCD數(shù)據(jù)集包含數(shù)據(jù)類別和數(shù)目見表3。

        TNCC和TiTCD都按照8∶1∶1隨機劃分為訓(xùn)練集、驗證集和測試集。

        3.3 "實驗參數(shù)設(shè)置

        為了使模型達到最好的效果,實驗對PyTorch版本的CINO-large-v2模型進行了微調(diào)。整體模型參數(shù)見表4。

        3.4 "評價指標

        藏文新聞文本分類的評估指標使用Acc(準確率)、Prec(精確率)、Rec(召回率)和Macro-F1,計算公式如下

        式中:TP為真陽例,TN為真陰例,F(xiàn)P為假陽例,F(xiàn)N為假陰例,通過以下公式計算得到每一類的F1 值,再將各類的F1值平均,即為評估指標Macro-F1。

        3.5 "實驗結(jié)果及分析

        3.5.1 "TNCC數(shù)據(jù)集上的分類對比實驗

        TNCC數(shù)據(jù)集是一個公開的藏文新聞文本集合,廣泛用于評估藏文模型的性能。本文中,對比了多種模型,包括CNN、LSTM、TextCNN、BiLSTM、XLR-R-large、CINO-large、CINO-large-v2,以及新提出的分類器模型在該數(shù)據(jù)集上的表現(xiàn)。表5是TNCC數(shù)據(jù)集在不同模型下的分類結(jié)果,表6是本文模型對測試集文本所屬各個類別的識別情況。

        對比表5、表6的數(shù)據(jù),XLR模型在分類表現(xiàn)上不如其他模型,這可能是因為其沒有針對藏文進行預(yù)訓(xùn)練。CINO模型的各個版本,包括small-v2、base-v2、large以及l(fā)arge-v2,隨著Transformer層數(shù)、隱藏狀態(tài)和注意力頭數(shù)量的增加,性能也在提升。盡管large和large-v2結(jié)構(gòu)相同,但v2版本對詞表進行了優(yōu)化,專注于中文和少數(shù)民族語言,使得在TNCC數(shù)據(jù)集上的分類得分逐漸提高。CINO-large-v2取得了最高的F1得分71.0%,表現(xiàn)優(yōu)于其他單一模型。

        本研究提出的分類模型在TNCC數(shù)據(jù)集上達到了73.09%的Macro-F1值,表現(xiàn)最佳。該模型在大多數(shù)類別上識別效果良好,尤其是在器械類文本上。然而,對于文學(xué)、藝術(shù)和民俗類的文本,分類效果不佳,尤其是民俗類,其召回率最低,影響了整體F1值。這可能是因為民俗類樣本數(shù)量較少,導(dǎo)致模型未能充分學(xué)習(xí)到區(qū)分特征。相比之下,語言類雖然樣本也較少,但由于其音節(jié)單元與其他類別差異顯著,使得分類效果較好。這表明,即使在訓(xùn)練樣本有限的情況下,本模型也能實現(xiàn)有效的分類。

        3.5.2 "TiTCD數(shù)據(jù)集上的分類對比實驗

        TiTCD數(shù)據(jù)集為本研究自制數(shù)據(jù)集,本文分別在CINO-base-v2,CINO-large-v2模型上進行對比實驗,并設(shè)置了合理的消融實驗來證明模型的有效性。表7是TiTCD數(shù)據(jù)集在不同模型下的分類結(jié)果,表8是本文模型對測試集文本所屬各個類別的識別情況。

        通過對比表7、表8的數(shù)據(jù),可以發(fā)現(xiàn)本研究提出的分類模型在藏文文本分類任務(wù)上表現(xiàn)突出,尤其是在處理藏文新聞文本時效果顯著。在TNCC和自建的TiTCD數(shù)據(jù)集上的實驗表明,該模型能有效捕捉藏文文本的語義,展現(xiàn)出良好的表示和泛化能力。

        在不同類別的文本識別中,法律類文本的分類效果最為顯著,這可能歸因于其較大的數(shù)據(jù)量,使得模型能夠?qū)W習(xí)到更多的特征,同時法律類文本的語義特征與其他類別有較大差異。相比之下,科技知識類的分類效果不盡如人意,這可能與樣本數(shù)量較少有關(guān),且混淆矩陣顯示,部分科技知識類文本被誤分類為文化類,表明這兩類文本在表達上存在一定的相似性。盡管人物類樣本數(shù)量有限,但分類結(jié)果卻相當(dāng)好,這可能是因為人物類文本的音節(jié)單元與其他類別有較大差異,使得類別特征更加明顯。這也表明,本模型在樣本數(shù)量較少的情況下,也能實現(xiàn)有效的分類。

        4 "結(jié)束語

        本文提出了一種融合特征和注意力機制的藏文文本分類模型,并與其他幾種先進的深度學(xué)習(xí)模型在TNCC藏文新聞文本分類數(shù)據(jù)集和自定義數(shù)據(jù)集上進行了比較。實驗結(jié)果表明,該模型的準確性和有效性得到了驗證,其結(jié)合了CINO模型的豐富上下文語義捕捉能力、TextCNN模型的局部特征識別能力以及BiLSTM模型的長距離依賴處理能力,通過雙向信息流提升了對上下文的理解,增強了文本特征提取,從而提高了分類性能。

        盡管如此,本研究在藏文文本分類方面仍有改進空間。首先,實驗數(shù)據(jù)集規(guī)模較小且類別分布不均勻。其次,模型僅使用了CINO模型來生成藏文詞向量。未來研究將考慮結(jié)合統(tǒng)計和語義特征,以生成更高質(zhì)量的藏文詞向量,進一步提升模型從低資源語言文本中提取語義特征的能力,以期達到更優(yōu)的分類效果。

        參考文獻:

        [1] 王莉莉,楊鴻武,宋志蒙.基于多分類器的藏文文本分類方法[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2020,40(1):102-110.

        [2] 蘇慧婧,群諾,賈宏云.基于GaussianNB模型的藏文文本分類研究與實現(xiàn)[J].青海師范大學(xué)學(xué)報(自然科學(xué)版),2019,35(4):1-4,54.

        [3] 蘇慧婧,索朗拉姆,尼瑪扎西,等.基于MLP和SepCNN神經(jīng)網(wǎng)絡(luò)模型的藏文文本分類研究[J].軟件,2020,41(12):11-17.

        [4] 李亮.基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用[D].蘭州:蘭州大學(xué),2020.

        [5] 張英,擁措,于韜.基于動態(tài)多頭注意力機制的藏文語言模型[J].計算機工程與設(shè)計,2023,44(12):3707-3713.

        [6] YANG Z, XU Z, CUI Y, et al. CINO: A Chinese minority pre-trained language model[J]. arxiv preprint arxiv:2202.13558,2022.

        [7] RAKHLIN A. Convolutional neural networks for sentence classification[J]. GitHub,2016(6):25.

        [8] QUN N,LI X, et al. End-to-endneuraltext classificationfor Tibetan[J].Chinese Computational Linguistics and Natural LanguageProcessing Based on Naturally Annotated Big Data, 2017.

        [9] 李亞超,江靜,加羊吉,等.TIP-LAS:一個開源的藏文分詞詞性標注系統(tǒng)[J].中文信息學(xué)報,2015,29(6):203-207.

        猜你喜歡
        注意力機制
        基于注意力機制的行人軌跡預(yù)測生成模型
        基于注意力機制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
        多特征融合的中文實體關(guān)系抽取研究
        基于序列到序列模型的文本到信息框生成的研究
        基于深度學(xué)習(xí)的手分割算法研究
        從餐館評論中提取方面術(shù)語
        面向短文本的網(wǎng)絡(luò)輿情話題
        基于自注意力與動態(tài)路由的文本建模方法
        基于深度學(xué)習(xí)的問題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        国产精品后入内射日本在线观看| 在线看片免费人成视频久网下载| 国产综合无码一区二区色蜜蜜| 国产偷国产偷亚洲清高| 欧美高h视频| 国产av自拍在线观看| 中文字幕乱码熟女人妻在线| 国产激情无码一区二区| 欧美 变态 另类 人妖| av无码精品一区二区乱子| 日本高清一区二区在线观看| 成人一区二区三区国产| 欧美成人秋霞久久aa片| 特级做a爰片毛片免费看108| 中文字幕久久久久人妻无码 | 久久午夜夜伦鲁鲁片免费无码| 亚洲色大成在线观看| 亚洲精品中文有码字幕| 久久精品熟女亚洲av麻豆永永| 欧美大屁股xxxx高潮喷水| 日本熟妇色xxxxx欧美老妇| 香蕉国产人午夜视频在线观看| 精品人妻夜夜爽一区二区| 精品粉嫩av一区二区三区| 人妻少妇无码精品视频区| 亚洲最大日夜无码中文字幕| 国产aⅴ丝袜旗袍无码麻豆| 日韩不卡一区二区三区色图| 国产猛烈高潮尖叫视频免费| 黑人巨茎大战欧美白妇| 精品在免费线中文字幕久久| 国产亚洲精品综合在线网站| 人妻少妇哀求别拔出来| 亚洲 另类 日韩 制服 无码| 亚洲欧美日韩高清中文在线| 蜜桃一区二区三区在线视频| 人妻少妇进入猛烈时中文字幕| 日韩人妻无码精品久久| 97色偷偷色噜噜狠狠爱网站97| 亚洲女同av一区二区在线观看| 丝袜美腿av在线观看|