亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合BTM和BERT的短文本分類方法

        2022-12-30 07:51:36付文杰馬紅明
        關(guān)鍵詞:分類文本方法

        付文杰,楊 迪,馬紅明,吳 迪

        (1.國(guó)網(wǎng)河北省電力有限公司 營(yíng)銷服務(wù)中心,河北 石家莊 050000;2.河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲 056038)

        0 引 言

        短文本因其內(nèi)容簡(jiǎn)短、易于閱讀的特性,廣泛存在于微博、短信、電力工單等載體中[1]。文本分類作為自然語言處理的基本任務(wù),能夠?yàn)檩浨榉治?、情感分析、個(gè)性化推薦等下游應(yīng)用服務(wù)。因此,如何高效、精確地對(duì)短文本進(jìn)行分類已經(jīng)成為自然語言處理領(lǐng)域的難點(diǎn)與重點(diǎn)[2]。

        針對(duì)文本長(zhǎng)度長(zhǎng)短不一和特征提取困難的問題,文獻(xiàn)[3]提出了一種基于LDA和深度學(xué)習(xí)的文本分類方法,但LDA更加適用于長(zhǎng)文本。針對(duì)短文本存在高維和特征稀疏的問題,文獻(xiàn)[4]在短文本分類方法中,采用BTM挖掘潛在主題信息,充分考慮短文本特征,有效緩解了語義模糊的問題。

        為充分提取短文本語義信息,文獻(xiàn)[5]提出了融合詞向量及BTM的分類方法BTM&Word2Vec,文獻(xiàn)[6]提出了一種基于BTM和Doc2Vec的分類方法BTM&Doc2Vec,上述文獻(xiàn)均采用主題模型和潛在特征向量模型對(duì)語料庫進(jìn)行建模,向量拼接后輸入到SVM實(shí)現(xiàn)短文本分類。

        針對(duì)Word2Vec與Doc2Vec模型在進(jìn)行文本向量表示時(shí),存在無法解決一詞多義的問題,文獻(xiàn)[7-9]提出了一種基于BERT的短文本分類方法,提高了中文短文本分類精度和魯棒性。

        綜上所述,本文結(jié)合BTM和BERT模型優(yōu)勢(shì),提出一種融合BTM和BERT的短文本分類方法。分別采用BTM和BERT模型對(duì)預(yù)處理后的短文本集建模,提取文本主題特征信息和上下文語義信息,構(gòu)建短文本特征向量,以增強(qiáng)語義表征能力,從而提高短文本分類精度。

        1 相關(guān)技術(shù)

        1.1 BTM模型

        LDA和PLSA等傳統(tǒng)主題模型通過獲取詞語的共現(xiàn)信息來表示文本級(jí)的潛在主題,但在處理短文本時(shí),存在嚴(yán)重的特征稀疏問題。而BTM模型通過對(duì)整個(gè)語料庫的詞對(duì)建模來提高主題學(xué)習(xí)的能力,有效克服了短文本特征稀疏的問題,較傳統(tǒng)主題模型能夠更好地理解短文本主題信息。BTM圖模型[4]如圖1所示,其符號(hào)含義見表1。

        圖1 BTM圖模型

        表1 BTM符號(hào)及其含義

        假設(shè)Multi()表示多項(xiàng)分布,Dir()表示Dirichlet分布,則對(duì)于整個(gè)語料庫中的詞對(duì),BTM建模過程如下[10]:

        (1)對(duì)整個(gè)語料庫,采樣一個(gè)主題分布θ~Dir(α);

        (2)對(duì)每一個(gè)主題z∈[1,K], 采樣主題-詞分布φz~Dir(β);

        (3)對(duì)每一詞對(duì)b=(wi,wj), 采樣一個(gè)主題z~Multi(θ), 從采樣到的主題z中隨機(jī)抽取兩個(gè)詞wi、wj組成詞對(duì)b=(wi,wj)~Multi(φz)。

        1.2 BERT模型

        Word2Vec、GloVe作為詞嵌入模型只能獲得靜態(tài)的和上下文無關(guān)的詞向量,不能很好地表示不同上下文中詞的語義[11]。而BERT[12]基于雙向Transformer 結(jié)構(gòu)生成上下文感知的動(dòng)態(tài)詞向量,能夠更好地表示上下文語義信息[13]。BERT模型結(jié)構(gòu)[14]如圖2所示。

        圖2 BERT模型結(jié)構(gòu)

        圖2中,E1、E2、E3、…、En表示短文本中的字符,Trm表示Transformer編碼器,T1、T2、T3、…、Tn表示經(jīng)過雙向Transformer編碼器后,獲得的字向量。

        2 BTM&BERT方法

        融合BTM和BERT的短文本分類方法BTM&BERT流程如圖3所示。首先,對(duì)短文本進(jìn)行預(yù)處理;其次,采用BTM對(duì)預(yù)處理后的短文本集進(jìn)行建模,獲得K維主題向量;再次,采用BERT模型對(duì)預(yù)處理后的短文本集進(jìn)行建模,獲得句子級(jí)別的Q維特征向量;最后,將BTM與BERT建模獲得的特征向量進(jìn)行拼接,獲得K+Q維短文本特征向量,輸入到Softmax分類器,獲得分類結(jié)果。

        圖3 BTM&BERT流程

        2.1 短文本預(yù)處理

        原始語料庫數(shù)據(jù),包含了很多無用信息,如符號(hào)、戶號(hào)等,需要對(duì)原始語料庫進(jìn)行預(yù)處理來獲取比較規(guī)范的數(shù)據(jù)集。短文本預(yù)處理主要包括清洗過濾、分詞、去停用詞三部分。

        第一部分:對(duì)短文本進(jìn)行清洗過濾,以電力工單短文本為例,刪除“[”、“]”、“客戶×××來電反映”、“請(qǐng)盡快核實(shí)處理”等無意義的符號(hào)和語句,以此來減少數(shù)據(jù)噪聲,另外,過濾少于10個(gè)字符的超短文本,以及多于128個(gè)字符的長(zhǎng)文本;

        第二部分:基于jieba采用樹結(jié)構(gòu)查找速度較快的優(yōu)勢(shì),以及較好地解決了過多的形容詞和副詞對(duì)計(jì)算概率與句子切分的影響[15]。因此,本文采用jieba分詞工具對(duì)短文本進(jìn)行分詞,在分詞模塊中加入停用詞表和自定義詞表,使分詞更加的精確;

        第三部分:對(duì)短文本進(jìn)行去停用詞處理,刪除諸如“同時(shí)”、“的”、“現(xiàn)在”、“今天”、“一直”等意義不大的詞匯,減少文本的冗余度。

        2.2 短文本特征向量構(gòu)建

        短文本特征向量構(gòu)建主要包含3部分內(nèi)容。首先,采用BTM對(duì)預(yù)處理后的短文本集進(jìn)行建模,獲得K維主題向量;然后,采用BERT模型對(duì)預(yù)處理后的短文本集進(jìn)行建模,獲得句子級(jí)別的Q維特征向量;最后,將BTM與BERT建模獲得的向量進(jìn)行拼接,獲得K+Q維短文本特征向量。

        2.2.1 BTM建模

        BTM從文本的潛在語義方向建模,能夠有效解決TF-IDF、TF-IWF等統(tǒng)計(jì)方法忽略語義信息的問題。似于LDA,θ和φ是BTM主題模型中的隱含變量,因此需要從語料庫中的觀察變量詞項(xiàng)來估計(jì)參數(shù)θ和φ,本文采用吉布斯抽樣(Gibbs sampling)方法進(jìn)行推斷,得到每個(gè)詞對(duì)b=(wi,wj) 的條件概率為

        (1)

        式中:z-b表示除了詞b以外的所有其它詞對(duì)的主題分配,B表示數(shù)據(jù)集中的詞對(duì)集,cz表示詞對(duì)b被分配給主題z的次數(shù),cw|z表示詞w被分配給主題z的次數(shù),W為詞匯表大小。

        根據(jù)經(jīng)驗(yàn),取α=50/K,β=0.01。 最終估計(jì)出主題分布θz、 主題-詞分布φw|z和文本-主題概率P(z|d)。θz和φw|z公式請(qǐng)參見文獻(xiàn)[16],P(z|d) 公式如下

        (2)

        式中:cd(b)表示文本d中包含詞對(duì)b的次數(shù)。

        在獲得文本-主題概率P(z|d) 之后,選取每篇文本的文本-主題概率值P(z|d) 作為文本主題特征,獲得主題向量集dBTM={d1_BTM,d2_BTM,…,dn_BTM}, 其中,第n篇短文本主題向量可以表示為dn_BTM={p(z1|dn),p(z2|dn),…,p(zK|dn)}。

        2.2.2 BERT建模

        采用輸出句子級(jí)別向量的方式,即BERT模型輸出最左邊[CLS]特殊符號(hào)的向量,該符號(hào)對(duì)應(yīng)的輸出向量作為整篇文本的語義表示。BERT模型輸出[17]如圖4所示。

        圖4 BERT模型輸出

        如圖4所示,[CLS]和[SEP]是BERT模型自動(dòng)添加的句子開頭和結(jié)尾的表示符號(hào),假設(shè)有某篇短文本s=[申請(qǐng)用電服務(wù)查詢密碼重置], 將其按照字粒度進(jìn)行分字后可表示為s=[申、請(qǐng)、用、電、服、務(wù)、查、詢、密、碼、重、置], 經(jīng)Word Embedding之后,得到s對(duì)應(yīng)的字嵌入矩陣A=[a1,a2,a3,…,a12]T, 其中a12是對(duì)應(yīng)“置”的向量表示,假設(shè)字向量維度為k, 則A是一個(gè)12*k的矩陣。然后,構(gòu)建Q-Query、K-Key、V-Value這3個(gè)矩陣,分別來建立當(dāng)前字與其它字的關(guān)系,并生成特征向量。其中,Q=AWQ、K=AWK、V=AWV。 接著,進(jìn)行多頭自注意力計(jì)算,計(jì)算公式為

        (3)

        MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO

        (4)

        (5)

        最后,將MultiHead與最初輸入的文本序列進(jìn)行殘差連接,最終得到句子級(jí)別特征向量。

        2.2.3 短文本特征向量拼接

        將BTM建模獲得的文本特征向量集dBTM={d1_BTM,d2_BTM,…,dn_BTM} 與BERT建模獲得的句子級(jí)別文本特征向量集dBERT={v1,v2,…,vn} 進(jìn)行對(duì)應(yīng)拼接,獲得最終短文本特征向量集dBTM+BERT={d1_BTM+v1,d2_BTM+v2,…,dn_BTM+vn}, 其中第n篇短文本特征向量可以表示為dn_BTM+BERT={p(z1|dn),p(z2|dn),…,p(zK|dn),vn}。

        2.3 Softmax分類

        在獲得短文本特征向量集之后,采用Softmax回歸模型對(duì)短文本進(jìn)行分類。假設(shè)有訓(xùn)練樣本集 {(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)}, 其中xn表示第n個(gè)訓(xùn)練樣本對(duì)應(yīng)的短文本特征向量,共n個(gè)訓(xùn)練樣本,yn∈{1,2,…,m} 表示第n個(gè)訓(xùn)練樣本對(duì)應(yīng)的類別,m為類別個(gè)數(shù),本文中m=4。

        給定測(cè)試短文本特征向量x,通過Softmax回歸模型的判別函數(shù)hθ(x) 計(jì)算給定樣本x屬于第j個(gè)類別的概率,輸出一個(gè)m維向量,每一維表示當(dāng)前樣本屬于當(dāng)前類別的概率,出現(xiàn)概率最大的類別即為當(dāng)前樣本x所屬的類別。Softmax 回歸模型的判別函數(shù)hθ(x) 為

        (6)

        (7)

        通過判別函數(shù)hθ(x), 即可以實(shí)現(xiàn)短文本數(shù)據(jù)預(yù)測(cè)分類。

        融合BTM和BERT的短文本分類方法(BTM&BERT)如算法1所示。

        算法1: BTM&BERT

        輸入:D={(d1,y1),(d2,y2),…,(dn,yn)}、Niter=1000、K、α=50/K、β=0.01

        輸出: 短文本分類模型BB_model

        (1) 對(duì)短文本集D進(jìn)行預(yù)處理

        (2) 為所有詞對(duì)隨機(jī)分配初始主題

        (3) foriter=1 toNiterdo

        (4) forbi∈Bdo

        (5) 為每一個(gè)詞對(duì)分配主題zb

        (6) 更新cz、cwi|z、cwj|z

        (7) End for

        (8) End for

        (9) 計(jì)算主題分布θz和主題-詞分布φw|z

        (10) 根據(jù)式(2)計(jì)算文本-主題概率P(z|d), 獲得主題向量集dBTM={d1_BTM,d2_BTM,…,dn_BTM}

        (11) 采用BERT預(yù)訓(xùn)練模型對(duì)預(yù)處理后的短文本集進(jìn)行建模, 獲得句子級(jí)別的特征向量集dBERT={v1,v2,…,vn}

        (12) 對(duì)文本向量集dBTM和dBERT進(jìn)行拼接, 獲得短文本特征向量集dBTM+BERT

        (13) 將短文本向量集dBTM+BERT輸入到Softmax 回歸模型進(jìn)行訓(xùn)練

        (14) 輸出短文本分類模型BB_model

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        本實(shí)驗(yàn)的環(huán)境為:操作系統(tǒng)為64位Win10家庭版,處理器為Intel Core(TM) i5-9300H,RAM為16 GB,語言環(huán)境為Python3.6,BTM建模環(huán)境為Ubuntu 16.04,BERT建模環(huán)境為tensorflow 1.14。

        表2 實(shí)驗(yàn)數(shù)據(jù)具體分布情況

        實(shí)驗(yàn)數(shù)據(jù)(部分)見表3。

        表3 實(shí)驗(yàn)數(shù)據(jù)(部分)

        3.2 評(píng)價(jià)指標(biāo)

        本文采用Precision(精確率)、Recall(召回率)和F1-measure(F1值)3個(gè)指標(biāo)對(duì)提出的BTM&BERT方法進(jìn)行有效性分析。對(duì)應(yīng)的混淆矩陣見表4,3個(gè)指標(biāo)的計(jì)算公式如下所示

        表4 分類結(jié)果的混淆矩陣

        (8)

        (9)

        (10)

        3.3 與其它短文本分類方法的比較

        采用Google提供的BERT-Base模型進(jìn)行訓(xùn)練,BERT模型的網(wǎng)絡(luò)結(jié)構(gòu)為12層,隱藏層為768維,注意力機(jī)制采用12頭模式,采用Adam優(yōu)化器,學(xué)習(xí)率為0.001,dro-pout 為0.1。由于主題數(shù)目K值的選取會(huì)直接影響B(tài)TM的性能,所以本文在主題數(shù)目K值上進(jìn)行了實(shí)驗(yàn),在BTM建模時(shí),根據(jù)語料庫類別數(shù),設(shè)置K=4,9,14 (以5為間隔),分析在不同K值下,對(duì)本文所提出的方法的影響。在不同K值下,本文提出的BTM&BERT方法在生產(chǎn)類非緊急業(yè)務(wù)、用電服務(wù)需求、用電異常核實(shí)、用電信息變更4個(gè)類別下的Precision、Recall和F1-measure結(jié)果見表5~表7。

        表5 BTM&BERT在各個(gè)類別下的分類結(jié)果(K=4)

        表6 BTM&BERT在各個(gè)類別下的分類結(jié)果(K=9)

        表7 BTM&BERT在各個(gè)類別下的分類結(jié)果(K=14)

        從表5~表7可以看出,在不同K值下,本文提出的BTM&BERT方法在各個(gè)類別下的Precision、Recall和F1-measure雖然有小幅度變化,但其分值均能達(dá)到0.8,表明主題數(shù)目K值對(duì)分類效果有一定地影響,但還是能夠?qū)﹄娏味涛谋具M(jìn)行較高精度的分類,在以后的工作中,可以考慮利用困惑度(Perplexity)[18]或者主題連貫性(Topic Coherence)[19]等方法優(yōu)先確定最優(yōu)主題數(shù)目K值,進(jìn)一步提高短文本分類效果。

        為了驗(yàn)證BTM&BERT方法在分類精度上的優(yōu)勢(shì),本文將BTM&BERT方法與基于BTM的分類方法(BTM)、基于BERT的分類方法(BERT)、融合詞向量及BTM模型的分類方法(BTM&Word2Vec)以及基于BTM和Doc2Vec的分類方法(BTM&Doc2Vec)進(jìn)行對(duì)比實(shí)驗(yàn)。5種方法對(duì)應(yīng)的Precision、Recall和F1-measure見表8~表10。

        表8 5種方法對(duì)比實(shí)驗(yàn)結(jié)果(K=4)

        表9 5種方法對(duì)比實(shí)驗(yàn)結(jié)果(K=9)

        表10 5種方法對(duì)比實(shí)驗(yàn)結(jié)果(K=14)

        在不同K值下,各個(gè)類別下對(duì)應(yīng)的F1-measure比較結(jié)果如圖5~圖7所示。

        圖5 各個(gè)類別下對(duì)應(yīng)的F1-measure比較(K=4)

        圖6 各個(gè)類別下對(duì)應(yīng)的F1-measure比較(K=9)

        圖7 各個(gè)類別下對(duì)應(yīng)的F1-measure比較(K=14)

        從表8~表10以及圖5~圖7可以看出,與其它4種分類方法相比,本文提出的BTM&BERT方法在分類精度上取得了更好的效果。其中,對(duì)于BTM方法,提取文本主題特征來表示整體文本信息,無法準(zhǔn)確全面地表示文本,分類精度最低;對(duì)于BTM&Word2Vec方法,利用BTM擴(kuò)充Word2Vec文本向量,有效解決文本稀疏性問題,分類精度高于BTM方法,但利用Word2Vec表示文本向量無法解決一詞多義和文本語序的問題;對(duì)于BTM&Doc2Vec方法,有效解決了文本語序的問題,分類精度高于BTM&Word2Vec方法,但仍沒有解決一詞多義的問題;對(duì)于BERT方法,融合了字向量、文本向量和位置向量,該方法具有較強(qiáng)的文本表征能力,分類精度高于BTM、BTM&Word2Vec和BTM&Doc2Vec方法;對(duì)于本文提出的BTM&BERT方法,結(jié)合BTM和BERT的優(yōu)勢(shì),充分考慮文本上下文語義信息,并融合文本主題特征信息來豐富文本語義信息,分類精度高于BTM、BTM&Word2Vec、BTM&Doc2Vec和BERT這4種方法。

        4 結(jié)束語

        針對(duì)短文本特性,在BTM能夠有效解決短文本特征稀疏以及較高精度提取主題特征信息的基礎(chǔ)上,結(jié)合BERT預(yù)訓(xùn)練語言模型強(qiáng)大表義能力的優(yōu)勢(shì),提出了一種融合BTM和BERT的短文本分類方法,并應(yīng)用到電力工單短文本中。首先,對(duì)電力工單短文本集進(jìn)行清洗過濾、分詞和去停用詞預(yù)處理操作;其次,采用BTM對(duì)預(yù)處理后的電力工單短文本集建模,獲得K維主題向量;再次,采用BERT對(duì)預(yù)處理后的電力工單短文本集建模,獲得句子級(jí)別的Q維特征向量;最后,將BTM與BERT獲得的特征向量進(jìn)行拼接,獲得K+Q維文本特征向量,輸入到Softmax分類器,獲得電力工單短文本分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,BTM&BERT方法與BTM、BTM&Word2Vec、BTM&Doc2Vec以及BERT方法相比,在精確率、召回率以及F1值3個(gè)指標(biāo)上,對(duì)電力工單短文本分類任務(wù)表現(xiàn)出更優(yōu)效果,有效提高了電力工單短文本分類精度。在今后工作中,將對(duì)BTM進(jìn)行優(yōu)化,提高短文本主題特征信息提取精度,以進(jìn)一步提高短文本分類性能。

        猜你喜歡
        分類文本方法
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        不卡av一区二区在线| 在线观看欧美精品| 亚洲综合色婷婷久久| 亚洲国产精品av麻豆一区| 青青草 视频在线观看| 老司机亚洲精品影院| 99国产精品视频无码免费| 国产亚洲av手机在线观看| 日本熟妇hd8ex视频| 日本高清一区二区在线观看| 亚洲综合在线观看一区二区三区| 国产偷久久久精品专区| 天美麻花果冻视频大全英文版| 亚洲熟妇夜夜一区二区三区| 丝袜美腿福利视频在线| 亚洲熟妇少妇任你躁在线观看无码 | 国产zzjjzzjj视频全免费| 亚洲九九夜夜| 国产精品成人一区二区在线不卡| 日韩精品中文一区二区三区在线| 久久精品成人无码观看不卡| 国产成人精品免费久久久久| 中文字幕一区二区三区精品在线| 尹人香蕉久久99天天拍| 成人片黄网站色大片免费观看cn| 日本一区二区三区激情视频| 中文字幕日本av网站| 射精专区一区二区朝鲜| 亚洲国产欧美在线成人| 亚洲综合久久久中文字幕| 婷婷色国产精品视频二区 | 99热久久精里都是精品6| 国产在线欧美日韩精品一区二区 | 亚洲另类丰满熟妇乱xxxx| 熟妇激情内射com| 亚洲国产精品嫩草影院久久| 国产成人福利在线视频不卡 | 成人自慰女黄网站免费大全| 日本少妇被黑人xxxxx| 久久精品国产精品亚洲婷婷| 人妻经典中文字幕av|