亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合標(biāo)簽語(yǔ)義特征的BERT 微調(diào)問(wèn)句分類方法

        2022-06-13 16:46:18亢文倩
        電視技術(shù) 2022年5期
        關(guān)鍵詞:微調(diào)標(biāo)簽語(yǔ)義

        亢文倩

        (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

        0 引 言

        問(wèn)句分類是問(wèn)答系統(tǒng)的一個(gè)重要處理過(guò)程[1],是在用戶給定自然語(yǔ)言問(wèn)句的前提下,將問(wèn)句與預(yù)定義類別形成映射,并用類別標(biāo)簽表示。該類別標(biāo)簽作為對(duì)問(wèn)句答案范圍的語(yǔ)義約束,用于檢索與標(biāo)簽對(duì)應(yīng)的答案,盡可能地縮減檢索空間,提升檢索效率。傳統(tǒng)的問(wèn)句分類方法大致分為基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法三種。

        基于深度學(xué)習(xí)的問(wèn)句分類方法近年來(lái)成為研究的熱點(diǎn),相較于機(jī)器學(xué)習(xí)方法常用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型[2-3]、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型[4-6]等網(wǎng)絡(luò)結(jié)構(gòu),這些方法可以端到端地獲取文本特征,大大降低了人力成本和時(shí)間成本。但由于深度學(xué)習(xí)的特性,在節(jié)省資源的同時(shí)也受到數(shù)據(jù)稀疏的影響。深度學(xué)習(xí)模型處理下游自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)的前提是,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)屬于同一個(gè)領(lǐng)域,也就是說(shuō)它們必須擁有共同的特征空間和相同的數(shù)據(jù)分布,否則分類精度會(huì)大大降低。如果要對(duì)新領(lǐng)域的問(wèn)句進(jìn)行分類,則需要在新領(lǐng)域?qū)δP椭匦逻M(jìn)行訓(xùn)練,故而深度學(xué)習(xí)分類器的可重用性較低。

        深度遷移學(xué)習(xí)將深度學(xué)習(xí)方法與遷移學(xué)習(xí)相結(jié)合,對(duì)于上述問(wèn)題是一種很有效的解決方法。例如,雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)[7]使 用Transformer 作為主要框架,首先預(yù)訓(xùn)練模型并初始化參數(shù),其次根據(jù)下游任務(wù)的使用目標(biāo)域數(shù)據(jù)對(duì)參數(shù)進(jìn)行微調(diào),可以替代Word2Vec 應(yīng)用到文本分類等11 項(xiàng)NLP 任務(wù)中。SUN 等人[8]對(duì)比了在文本分類上BERT 模型的不同微調(diào)方法的性能。由于BERT模型從訓(xùn)練數(shù)據(jù)中提取特征,因此忽略了文本標(biāo)簽所提供的語(yǔ)義信息。

        PURI 等人[9]對(duì)分類任務(wù)進(jìn)行自然語(yǔ)言描述,將其作為輸入并對(duì)模型訓(xùn)練,將所有任務(wù)轉(zhuǎn)化為QA 任務(wù),輸出為自然語(yǔ)言答案。KISHALOY 等人[10]提出了一種零樣本學(xué)習(xí)方法(TARS),在上述模型基礎(chǔ)上,將文本分類轉(zhuǎn)化成二進(jìn)制分類。TARS 模型在情感分析領(lǐng)域的分類適配性較高,而在問(wèn)題、主題類型的分類正確率較低。

        通過(guò)對(duì)以上方法的研究與分析,本文將類別標(biāo)簽用于BERT 微調(diào)分類器的訓(xùn)練,比較標(biāo)簽和問(wèn)句的語(yǔ)義相似度,獲取兩者的關(guān)聯(lián)性,提出一種融合標(biāo)簽語(yǔ)義特征的BERT 微調(diào)問(wèn)句分類方法,簡(jiǎn)稱L-BERT-FiT。

        1 算法模型及實(shí)現(xiàn)

        鑒于深度遷移學(xué)習(xí)強(qiáng)大的泛化能力和特征提取能力,L-BERT-FiT 主要由以下3 部分組成如圖1所示。

        (1)定義虛擬標(biāo)簽詞典。首先,模型訪問(wèn)訓(xùn)練集和測(cè)試集,獲取已知的標(biāo)簽文本,生成一個(gè)虛擬的標(biāo)簽詞典。在對(duì)模型進(jìn)行預(yù)訓(xùn)練時(shí),將該詞典中的標(biāo)簽與問(wèn)句形成一一對(duì)應(yīng)的元組<預(yù)測(cè)標(biāo)簽,問(wèn)句>作為輸入。

        (2)特征提取。將輸入的預(yù)測(cè)標(biāo)簽視為文本×1,問(wèn)句視為文本×2,則將分類任務(wù)視為計(jì)算文本×1和×2 相似度任務(wù)。提取×1 的語(yǔ)義信息和×2 的語(yǔ)義信息,并比較兩者的相關(guān)性,將其作為輸入特征,調(diào)節(jié)BERT 參數(shù)。

        (3)BERT 微調(diào)。在上述預(yù)訓(xùn)練完成后,使用微量的目標(biāo)域數(shù)據(jù)對(duì)BERT 模型進(jìn)行參數(shù)微調(diào),并使用SoftMax 函數(shù)作為輸出層的線性激活函數(shù),選擇分類結(jié)果(正確/錯(cuò)誤)。

        1.1 預(yù)處理

        獲取源領(lǐng)域和將要進(jìn)行預(yù)測(cè)分類的目標(biāo)域類別標(biāo)簽生成標(biāo)簽詞典。例如,源域包含兩個(gè)類別的問(wèn)句“Society”“Computers”“Entertainment”“Sports”,目標(biāo)域的問(wèn)句可能屬于類別“Science”“Business”“Education”“Health”,則生成的虛擬標(biāo)簽詞典則為{Society,Computers,Entertainment,Sports,Science,Business,Education,Health}。

        如圖2 所示,在BERT 訓(xùn)練時(shí),輸入的元組格式為<預(yù)測(cè)類標(biāo)簽,問(wèn)句>。BERT 將輸入的文本的格式轉(zhuǎn)化為“[CLS]y[SEP]x[SEP]”,其中y代表類標(biāo)簽,x代表問(wèn)句,[SEP]標(biāo)志用于間隔兩個(gè)文本輸入,[CLS]標(biāo)志位于輸入起始位置。

        圖2 L-BERT-FiT 生成的詞嵌入

        1.2 特征提取

        如圖2 所示,BERT 將輸入文本x中的每個(gè)單詞轉(zhuǎn)換為詞嵌入E,每個(gè)詞嵌入都由3 部分組成:Token 嵌入+Segment 嵌入+Position 嵌入。并對(duì)E進(jìn)行加權(quán)映射得到三個(gè)向量Query(Q)、Key(K)和Value(V),其中Q=K=V。然后,計(jì)算輸入的特征矩陣[11]:

        K,Q,V的輸入維度為dK,dQ,dV,SoftMax激活函數(shù)用以獲取權(quán)重。由于BERT 中的Selfattention 機(jī)制是多頭的,即可以獲得多個(gè)Attention輸出,則Transformer-encoder 輸出的最終特征矩陣為[11]:

        式中:h代表h個(gè)Attention head,W O代表線性映射,將向量映射到高維空間更易獲取所需信息。參數(shù)矩陣

        1.3 語(yǔ)義相似度計(jì)算

        獲取到特征向量后,需要計(jì)算標(biāo)簽向量A和問(wèn)句向量B的語(yǔ)義相似度.這里使用特征向量的點(diǎn)積(cosine)來(lái)進(jìn)行計(jì)算:

        最后,使用SoftMax 函數(shù)形成一個(gè)概率分布,比較同一問(wèn)句與不同標(biāo)簽的相似度,取值最高的輸出為TRUE,其余的輸出為FALSE。

        2 實(shí)驗(yàn)條件與結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        2.1.1 數(shù)據(jù)集

        實(shí)驗(yàn)數(shù)據(jù)集采用的是Yahoo! Answers數(shù)據(jù)集[12]。此數(shù)據(jù)集為英文問(wèn)答數(shù)據(jù)集,共含有10 個(gè)不同的問(wèn)句類別。人為地根據(jù)不同的類別標(biāo)簽將數(shù)據(jù)集劃分為3 個(gè)不同的領(lǐng)域,每個(gè)領(lǐng)域包含4 種類別的問(wèn)句,如表1 所示:

        表1 實(shí)驗(yàn)數(shù)據(jù)集的領(lǐng)域劃分

        在實(shí)驗(yàn)過(guò)程中,選擇不同的領(lǐng)域作為源域和目標(biāo)域。選取10 000 條源域數(shù)據(jù)作為訓(xùn)練集,用以預(yù)訓(xùn)練模型;500 條目標(biāo)域數(shù)據(jù)作為開(kāi)發(fā)集,用以微調(diào)BERT;4 000 條目標(biāo)域數(shù)據(jù)作為訓(xùn)練集,用于測(cè)試模型在目標(biāo)域的分類效果。

        2.1.2 數(shù)據(jù)預(yù)處理

        對(duì)數(shù)據(jù)集中的問(wèn)句進(jìn)行降噪處理,去除標(biāo)點(diǎn)及特殊符號(hào),去除多余空格,將大寫字母轉(zhuǎn)換為小寫;并將原始數(shù)字標(biāo)簽替換為文本標(biāo)簽,處理結(jié)果如表2 所示。

        表2 預(yù)處理前后的數(shù)據(jù)元組對(duì)比

        2.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        本實(shí)驗(yàn)在Google colab 上利用Python3.7 編寫,使用Flair 框架。模型網(wǎng)絡(luò)層數(shù)為12,注意多頭個(gè)數(shù)h=12,參數(shù)總量為110 MB。詞嵌入大小為512,隱藏維度768,dropout=0.1。epoch 的最大數(shù)量為20,每批執(zhí)行110 次迭代,最大batch 為16,初始學(xué)習(xí)率為0.000 1。

        2.3 實(shí)驗(yàn)結(jié)果

        為了宏觀地反映L-BERT-FiT 模型的跨領(lǐng)域問(wèn)句分類性能,對(duì)每個(gè)模型分別進(jìn)行5 組跨領(lǐng)域分類實(shí)驗(yàn),每組實(shí)驗(yàn)分別進(jìn)行3 次,實(shí)驗(yàn)結(jié)果取3 次的平均值。

        由表3 可見(jiàn),L-BERT-FiT 的分類性能在不同領(lǐng)域存在波動(dòng),當(dāng)L-BERT-FiT 由領(lǐng)域1 遷移至領(lǐng)域3 時(shí),精度相較BERT-FiT 提升最高,提升4.28%。當(dāng)L-BERT-FiT 由領(lǐng)域2 遷移至領(lǐng)域1 時(shí),精度相較BERT-FiT 提升最低,僅提升了1.38%。這可能與不同域之間的距離和提取的特征數(shù)量有關(guān),但總體上實(shí)驗(yàn)結(jié)果得到了顯著提升。

        表3 L-BERT-FiT 與BERT 微調(diào)模型在跨域問(wèn)句分類中的精度(單位:%)

        由表3 可以得出結(jié)論,與BERT 微調(diào)相比,L-BERT-FiT 的平均精度提高了約2.86%,進(jìn)一步提升了深度遷移學(xué)習(xí)模型——BERT 微調(diào)的跨領(lǐng)域的問(wèn)句分類效果。

        3 結(jié) 語(yǔ)

        本文提出了一種融合標(biāo)簽語(yǔ)義特征的BERT 微調(diào)問(wèn)句分類方法,提取類別標(biāo)簽的語(yǔ)義信息和問(wèn)句與標(biāo)簽的語(yǔ)義相似度作為特征對(duì)BERT 模型進(jìn)行微調(diào)。實(shí)驗(yàn)證明,這種方法在新領(lǐng)域問(wèn)句集中獲得了較好的分類結(jié)果。

        然而在模型訓(xùn)練時(shí),輸入的<預(yù)測(cè)標(biāo)簽,問(wèn)句>一對(duì)一元組會(huì)導(dǎo)致如下問(wèn)題:輸入元組的數(shù)量成倍增長(zhǎng),大大增加了計(jì)算時(shí)間和成本。未來(lái)的工作將著手于解決計(jì)算負(fù)載的問(wèn)題,降低模型的時(shí)間成本。問(wèn)句作為短文本,面臨著特征稀疏的問(wèn)題,未來(lái)將對(duì)問(wèn)句進(jìn)行數(shù)據(jù)增強(qiáng),進(jìn)一步提升分類精度。此外,由于環(huán)境限制,實(shí)驗(yàn)使用了BERT-BASE 版本,目前已經(jīng)有更多的BERT 變體,如ALBert、RoBERTa、ERNIE 等,未來(lái)將研究這些版本是否對(duì)跨領(lǐng)域問(wèn)句分類任務(wù)有著更好的效果,進(jìn)一步提高模型的推理能力。

        猜你喜歡
        微調(diào)標(biāo)簽語(yǔ)義
        語(yǔ)言與語(yǔ)義
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
        電線電纜(2018年2期)2018-05-19 02:03:44
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        標(biāo)簽化傷害了誰(shuí)
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        認(rèn)知范疇模糊與語(yǔ)義模糊
        全國(guó)大部省份結(jié)束2014高考 多地高考模式微調(diào)
        日本黄页网站免费大全| 国产亚洲精品国产精品| 亚洲av无码乱码在线观看性色| 欧美日韩国产一区二区三区不卡| 免费看国产成年无码av| 久久精品国产亚洲一级二级| 风骚人妻一区二区三区| 无遮挡呻吟娇喘视频免费播放| 乱中年女人伦av| 亚洲伊人免费综合网站| 精品人妻一区二区三区视频| 免费黄色影片| 在线看片无码永久免费aⅴ| 一区二区特别黄色大片| 国产自拍在线观看视频| 久久天天躁狠狠躁夜夜躁2014| 色一情一乱一伦一区二区三欧美| 91精品亚洲一区二区三区| 国产精品视频白浆免费视频| 女人脱了内裤趴开腿让男躁| 国产精品厕所| 蜜桃网站在线免费观看视频| 国产一区二区三区在线大屁股| 国产日产精品一区二区三区四区的特点 | 亚洲精品自拍视频在线观看| 成人av资源在线观看| 丝袜美腿一区二区三区| 亚洲精品国产精品国自产观看| 色二av手机版在线| 国产亚洲成人精品久久久| 午夜福利av无码一区二区| 亚洲精品第一国产麻豆| 亚洲天堂一二三四区在线| 精品无码人妻夜人多侵犯18| 中文字幕无码av激情不卡| 国产成人啪精品视频免费网| 日韩av在线不卡一区二区| 久久精品国产亚洲av无码娇色 | 国产第一页屁屁影院| 爱v天堂在线观看| 中文字幕一区久久精品 |