亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的唐卡文本分類研究

        2022-01-21 10:30:28王昱
        現(xiàn)代計算機 2021年33期
        關鍵詞:語義分類文本

        王昱

        (西北民族大學數(shù)學與計算機科學學院,蘭州 730030)

        0 引言

        唐卡(Tang ka)又叫唐喀,是藏語音譯過來的詞。在《藏漢大辭典》中對唐卡的解釋是:“卷軸畫,畫有圖像的布或紙,可用軸卷成一束者?!保?],而在《西藏歷史文化詞典》中的解釋是:“唐卡是指流行于藏區(qū)的一種宗教卷軸畫,通常繪于布帛與絲絹上,是西藏地方繪畫的主要形式之一?!保?]唐卡從起源至今千百年以來,隨著歷史、宗教的發(fā)展而五光十色,其題材內容包含歷史、文化、政治等領域,具有龐大的內容體系、獨特的藝術價值,不僅是藏民族的百科全書,也是中華民族的驕傲。在唐卡的發(fā)展歷史中,許多人研究唐卡、描述唐卡,留下大量的唐卡語料。文本分類是自然語言處理的研究熱點之一,針對唐卡文本的分類,可以高效地對這些文本進行管理和配置,對后續(xù)唐卡知識圖譜的構建、唐卡信息檢索有積極的意義,因此具有一定的研究價值。

        目前中文文本分類技術已經成熟,國內外專家針對文本分類任務的研究主要體現(xiàn)在文本的特征表示方法與分類算法的改進。針對文本的特征表示,文獻[3]提出使用TF-IDF算法與Word2vec結合生成詞向量,用于短文本的分類,但這一方法存在詞與詞之間的順序和位置關系不清晰的問題。文獻[4]提出一種統(tǒng)計共現(xiàn)矩陣,這一向量表示方法進行詞的向量化表示,能使詞的語義和語法信息蘊含在向量之中,這一特征方法被應用到多種自然語言處理任務上。文獻[5]運用詞向量表示方法ELMo,該模型在訓練過程中使用了雙向的LSTM考慮了上下文關系,較好地解決了多義詞的問題,預訓練+微調成為一種新的范式被大量應用在文本分類及其他自然語言處理任務上。文獻[6]中提出Transformer結構作為特征提取器,使用Self-Attention,具有強大的特征提取能力。文獻[7]基于Transformer的Encoder部分提出了BERT模型,采用了雙向編碼的方式,利用了每個詞的上下文信息,使模型能更好地表達語義信息,問世后便刷新了自然語言處理領域的多項任務指標。文獻[8]對于BERT模型進行改進,提出了輕量版本的預訓練語言模型ALBERT,這一模型不僅參數(shù)量少而且一問世就刷新了自然語言處理的多項任務指標。

        另一方面針對分類器的構建上,文獻[9]使用卷積神經網絡(convolutional neural network)對文本進行句子級別的分類任務,但TextCNN忽略了文本的上下文信息。文獻[10]提出使用循環(huán)神經網絡(recurrent neural network)處理文本分類任務,但循環(huán)神經網絡對于處理長文本會產生梯度消失或梯度爆炸的問題。文獻[11]提出使用雙向長短期記憶網絡結合Attention機制進行電網領域設備各種文本分類任務,實驗結果表明BiLSTM提升了分類效果。文獻[12]提出了一種基于卷積神經網絡來改進核函數(shù)的方法,在法律文本的關系分類有較好的效果。文獻[13]提出一種深層金字塔卷積網絡(DPCNN),通過加深網絡來捕捉文本的長距離依賴關系,相比于傳統(tǒng)的TextCNN方法提升了將近2%。

        針對唐卡領域文本,本文提出了一種基于BERT(bidirectional encoder from transformers)的唐卡領域文本分類算法。該算法首先用BERT預訓練語言模型對唐卡文本進行了特征表示,隨后將句子級別的特征表示輸入卷積神經網絡中再次提取局部語義信息,最后輸入分類器中進行分類,在唐卡語料測試集上驗證的F1值達到了92.87%,實驗結果證明該方法的有效性。

        1 基于BERT的唐卡語料文本分類算法

        對于唐卡語料文本分類算法,有唐卡文本的預處理、唐卡文本的特征表示、唐卡文本分類三個步驟。唐卡文本的預處理是指將唐卡文本進行數(shù)據(jù)清洗,再劃分類別。唐卡文本的特征表示是指將唐卡文本轉換為模型可以接收的形式,形成特征向量。唐卡文本分類是將特征向量輸入到分類器中進行分類。

        1.1 唐卡文本收集的預處理

        1.1.1 數(shù)據(jù)的收集

        本文搜集了三部分的唐卡語料,一部分是從網絡上爬取的唐卡人物解釋語料,另一部分是在《圖解唐卡系列》書籍上收集的有關唐卡的描述語料描述。最后一部分是在《佛教大辭典》收集的有關唐卡人物語料。最終收集到的數(shù)據(jù)有8917條數(shù)據(jù),根據(jù)沒句話的特征定義了11種關系。

        1.1.2 數(shù)據(jù)清洗

        在唐卡文本中包含大量的特殊字符、空白格、英文字符、繁體字。首先這一步中將特殊字符與空白格刪掉。這些特殊字符與空白格會對特征提取產生影響,為了讓模型更多地關注文本的語義信息,將這些特殊字符在文本中去掉。再分別將英文字符與繁體字轉換為漢文字符與簡體字符。英文字符與繁體字符會增加特征表示的復雜程度,轉化為漢文字符和簡體字符在不會增加特征復雜程度的同時還能表達相同的語義特征。

        1.1.3 類別配備

        文本采用的是有監(jiān)督的深度學習的方法,需要對唐卡文本進行類別標注。這一步中先使用規(guī)則的方法,將原始文本進行類別配對,減少了一部分的標注量,隨后再進行人工類別校對,確保文本與類別能夠一一配對。在某些類別中,樣本數(shù)過于稀少,研究價值不大,所以將樣本數(shù)稀少的類別刪除。

        1.2 BERT-base,預訓練模型

        BERT(bidiectional encoder representations from transforms)模型,是由谷歌在2018年所提出,BERT是由堆疊的Transformer Encoder層組成的網絡模型,再輔以詞編碼和位置編碼而成的,其模型結構如圖1所示,圖中E1,E2,…,Em表示的是字符級的文本輸入,其經過雙向Transformer Enconder編碼得到文本的向量化表示T1,T2,…,Tm。BERT模型主要使用了Transformer模型的Encoder部分。

        圖1 BERT模型結構

        1.2.1 Transformer模型的Encoder部分

        Transformer是谷歌在2017年提出的結構,用于機器翻譯的編碼和解碼。由于其具有強大的編碼能力和并行性被廣泛地使用。其編碼器部分模型結構如圖2所示,Transformer Encoder由兩個子層(sub-layers)構成,第一個子層是一個多頭的自注意力機制(multi-head self-attention mechanism),第二個子層是一個前饋神經網絡(feed forward network),并且在每個子層后面都會加上殘差連接(residual connection)和歸一化層(layer normalisation)。Transform Encoder的輸出會作為下一個Transform Encoder層的輸入,多個Transform Encoder不斷堆疊最終得出結合上下文的語義表示。而BERT模型便使用了這一結構作為特征提取器。

        圖2 Transformer Encoder模型結構

        如圖2所示,模型輸入經過詞嵌入再輔以位置編碼,再經過子層一多頭的自注意力機制層進行計算,再通過子層二前饋神經網絡,最后經過每個子層時都要進行殘差連接和歸一化層后輸出。

        1.2.2 輸入向量

        BERT使用Transformer作為編碼器,為了保留文本的位置信息,需要額外地加入位置編碼(positional embedding),在同一句話里含有相同的字,字的順序不一樣,整句話的意思就會不大一樣,例如:“我去你家”與“你去我家”,這兩句話字符一樣,但表達的意思完全不同。而分辨這倆句話就需要進行位置編碼,在文獻[4]中提出了一種基于正弦、余弦的位置編碼,在BERT中計算位置向量的公式如下:

        公式(1)、(2)中PE表示進行位置編碼后得到的向量,pos代表了詞的序號,公式(1)中的2i代表了特征向量的奇數(shù)位,公式(2)中的2i+1代表了特征向量的偶數(shù)位,dmodel表示特征向量的維數(shù),由此特征向量經過公式(1)、(2)進行位置向量編碼得到位置向量,特征向量與位置向量相加作為BERT模型的輸入,隨后進入下一層Multihead Attention。

        1.3 BERT模型的輸入、輸出

        BERT模型會接收單個句子或者句子對作為模型的輸入,通過切詞,對于每一個最小詞單位token,會計算其對應的token embedding、segment embedding和position embedding。token embedding代表了由One-Hot詞表映射的編碼。segment embedding代表了分割編碼,用來區(qū)分每個字或詞所屬的句子。BERT中的Positional embedding是直接對不同的位置隨機初始化一個position embedding加到token embedding上。最后三種不同的向量相加作為該token的表示向量輸入模型中。BERT模型中使用的segment embedding和position embedding均在預訓練的過程中得到。BERT模型輸出也為一個向量。設一句話的長度為n,其輸入的詞向量可以表示為X=(x1,…,xn),經過transformer的編碼后輸出為向量Z=(z1,…,zn),每個分量zi,都是xi結合了上下文的表示。

        1.4 BERT-CNN模型

        BERT的訓練分兩次進行,在使用巨量的文本訓練基礎模型后,只需要在下游任務中選擇特定數(shù)據(jù)集上微調,就能獲得極佳的性能。卷積神經網絡一開始用于處理圖片數(shù)據(jù),即H×W形式的數(shù)據(jù),在文本中使用的CNN模型可以提取語義的深層信息,所以本文把CNN模型用于文本分類的下游任務上,進一步提取語義特征,在BERT模型下游接上CNN模型,其結構如圖3所示。

        圖3 BERT-CNN模型結構

        BERT提取并整合了單句語義信息的能力和使用分類標簽[CLS]捕獲句對關系,在文本分類任務中使用句子首標簽[CLS]的輸出特征作為分類標簽,計算分類標簽與真實標簽的交叉熵,并將其作為優(yōu)化目標。隨后再通過卷積神經網絡進行更深層次的特征提取,最后通過Softmax進行歸一化處理,輸出每句唐卡文本的類別。

        2 實驗結果與分析

        2.1 實驗數(shù)據(jù)

        本文實驗使用的數(shù)據(jù)集是收集來的唐卡數(shù)據(jù)集,共包含8937條有標簽的數(shù)據(jù),標簽的類別有11種,類型分別為別稱、合稱、藏文拉丁轉寫、梵文拉丁轉寫、化身、身相、頭戴、坐騎、坐具、持物、手印。各個文本的數(shù)據(jù)樣例如表1所示。

        表1 唐卡數(shù)據(jù)樣例

        唐卡將唐卡數(shù)據(jù)按照8∶1∶1的比例劃分為訓練集、驗證集、測試集。使用THUCNews短文本開源數(shù)據(jù)集作為對比數(shù)據(jù)集。

        2.2 評價指標

        分類問題常用的評價指標包括:準確率(precision)、召回率(recall)、F1值(H-mean值)分類結果的混淆矩陣[11]如表1所示。

        表2 分類結果的混淆矩陣

        (1)P指標是指在模型預測是Positive的所有結果中,模型預測對的比重即分類器模型預測為正且預測正確的樣本占所有預測為正的樣本比例,計算公式如下:

        (2)R指標是指模型預測對的比重即分類器預測為正且預測正確的樣本占所有真實為正的樣本的比例,計算公式如下:

        (3)F1值是為了評價模型輸出的優(yōu)劣,綜合了Precision和Recall指標,進行加權調和平均,計算公式如下:

        F1值的取值范圍[0,1]。從公式中可以看出當P=R=1時,F(xiàn)1值達到最大值1,然而在實際情況中很難實現(xiàn),在使用F1值作為評價指標時其值越接近1,說明分類器性能越好。

        2.3 實驗過程

        本文使用TextCNN、BiLSTM、BERT、BERTBiLSTM模型作為對照實驗,其中TextCNN模型與BiLSTM模型中利用中文分詞工具Jieba進行分詞,詞嵌入采用了Word2vec,訓練時參數(shù)設置如表3所示。

        表3 TextCNN模型訓練參數(shù)設置

        BERT-CNN的模型參數(shù)設置如表4所示:

        表4 BERT-CNN模型訓練參數(shù)設置

        2.4 實驗結果

        本文在唐卡數(shù)據(jù)集上進行實驗,分別使用了TextCNN、BERT、BERT-CNN,BERT-BiLSTM作為對照實驗,最終實驗結果如表5所示。

        表5 模型實驗結果

        表5為各個模型在唐卡數(shù)據(jù)集數(shù)據(jù)集上面的評價指標對比,可以看出在不使用預訓練語言模型,僅僅使用文本卷積模型的分類效果F1值達到了87.32%,使用了預訓練語言模型不進一步提取語義特征,BERT的分類效果F1值達到88.55%相比于卷積神經網絡提升1.23%,而將這倆個模型優(yōu)點結合的BERT-CNN模型F1值效果最好,達到了90.54%,相比于TextCNN和BERT模型F1值分別提升了3.22%和1.99%,證明了BERT-CNN模型的有效性。

        3 結語

        本文在解決唐卡文本分類問題時,使用BERT預訓練模型代替?zhèn)鹘y(tǒng)的Word2vec模型進行唐卡文本特征表示,并在BERT模型后加入CNN再次提取語句的局部特征,進行唐卡文本分類,最終在測試集上的整體F1值達到90.54%。證明了該算法的有效性。由于在某些唐卡語料中一句話過長和存在多種類別,后續(xù)將進一步研究長句子分類與多標簽問題。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        認知范疇模糊與語義模糊
        亚洲免费av第一区第二区| 国产日韩精品中文字幕| 精品天堂色吊丝一区二区| 一本色道久久88综合日韩精品| 四虎影院在线观看| 久久99亚洲网美利坚合众国| 国产洗浴会所三级av| 午夜天堂av天堂久久久| 国产精品久久久久影院| 免费a级毛片无码无遮挡| 国产精品免费久久久免费| 蜜桃在线一区二区三区| 激情五月我也去也色婷婷| 97日日碰人人模人人澡| 亚洲av无码片一区二区三区| 中文亚洲AV片在线观看无码| 少妇人妻系列中文在线| 中文字幕免费在线观看动作大片| 亚洲精品久久久久久久久av无码| 欧美伊人亚洲伊人色综| 在线观看国产精品一区二区不卡| 极品人妻被黑人中出种子| 欧美精品中文字幕亚洲专区| 国产精品99精品一区二区三区∴| 少妇一区二区三区精选| 精品久久久久久综合日本| 少妇装睡让我滑了进去| 中文字幕精品一二三区| 无人视频在线播放在线观看免费| 精品人妻一区二区三区视频| 国产h视频在线观看| 国产精品美女| 台湾自拍偷区亚洲综合| 精品人妻av区乱码色片| 国产二级一片内射视频插放| 国产AV无码专区亚洲AV桃花庵| 日本一道本加勒比东京热| 偷看农村妇女牲交| 亚洲日韩欧美国产另类综合| 亚洲天堂av社区久久 | 蜜桃传媒一区二区亚洲av婷婷|