亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking-Bert集成學(xué)習(xí)的中文短文本分類算法

        2022-04-25 05:35:32鄭承宇王新王婷尹甜甜鄧亞萍
        科學(xué)技術(shù)與工程 2022年10期
        關(guān)鍵詞:分類文本模型

        鄭承宇,王新,王婷,尹甜甜,鄧亞萍

        (云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,昆明 650500)

        文本分類一直是自然語(yǔ)言處理領(lǐng)域的重要研究課題,傳統(tǒng)機(jī)器學(xué)習(xí)算法文本特征表達(dá)能力較弱,需要進(jìn)行特征工程提取,基于海量大數(shù)據(jù)支撐的深度學(xué)習(xí)算法面臨著對(duì)具體問(wèn)題的強(qiáng)依賴性。而中文短文本具有特征詞匯較少,詞意復(fù)雜和特征稀疏等特點(diǎn),現(xiàn)有文本分類算法的預(yù)測(cè)效果往往依賴于具體問(wèn)題,不同場(chǎng)景狀態(tài)下算法適應(yīng)能力較弱,引起了中外學(xué)者的廣泛關(guān)注[1-3]。

        徐清越等[4]提出一種融合雙維度卷積神經(jīng)網(wǎng)絡(luò)(two-dimensional convolutional neural networks, TD-CNN)和位置自注意力機(jī)制(positional attention mechanism, PO-ATT)的文本分類模型,提取文本向量的豐富語(yǔ)義特征,根據(jù)詞語(yǔ)和字符兩種不同嵌入級(jí)別的特征向量表達(dá)進(jìn)行語(yǔ)義分類研判。隨后,陳可嘉等[5]提出一種基于全局詞向量表示(global vectors for word representation, Glove)和隱含狄利克雷分布(latent dirichlet allocation, LDA)主題模型的文本表示改進(jìn)方法,訓(xùn)練隱含主題信息和相應(yīng)概率信息分布的主題向量,計(jì)算兩者相似性作為輸入。相比傳統(tǒng)語(yǔ)義分類模型,上述方法在一定程度上提升了文本分類器的性能。沈雅婷等[6]提出一種基于自舉匯聚法的文本分類多基模型框架(bagging fastText, B_f),以fastText為基礎(chǔ)框架,運(yùn)用集成學(xué)習(xí)思想,設(shè)置最優(yōu)超參數(shù)組成多基模型,再通過(guò)投票機(jī)制確定文本最終類別,在大規(guī)模有監(jiān)督文本分類任務(wù)中表現(xiàn)出了較好的普遍適用性。上述研究工作基于word2vec或Glove等靜態(tài)詞向量展開,在解決短文本分類問(wèn)題時(shí)仍存在一定的局限性。近期,隨著預(yù)訓(xùn)練語(yǔ)言模型的廣泛應(yīng)用,越來(lái)越多的學(xué)者開始將其用于文本的深層語(yǔ)義抽取,段丹丹等[7]提出一種基于預(yù)訓(xùn)練語(yǔ)言模型(bidirectional encoder representations from transformer, BERT)的中文短文本分類模型,利用Transformer雙向編碼器在句子層面進(jìn)行特征向量表示,在中文短文本分類任務(wù)中表現(xiàn)出了更好的模型性能。在此基礎(chǔ)上,崔文武等[8]提出一種基于BERT模型的訴訟案件違法事實(shí)要素自動(dòng)抽取方法,并引入循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行編碼,提取上下文相關(guān)的語(yǔ)義信息。張翼翔等[9]提出一種基于BERT-BIGRU-ATT模型的短文本分類方法,利用BERT預(yù)訓(xùn)練語(yǔ)言模型提取文本字向量,并引入雙向門控神經(jīng)單元(bidirectional gated recurrent unit, Bi-GRU)和注意力機(jī)制(attention, ATT),強(qiáng)化學(xué)習(xí)短文本的上下文語(yǔ)義特征。

        綜合上述分析,現(xiàn)提出一種用于中文短文本分類的多基模型框架Stacking-Bert,通過(guò)集成多個(gè)異質(zhì)基分類器實(shí)現(xiàn)文本向量的訓(xùn)練和預(yù)測(cè)。該模型采用BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)大量中文語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,得到融合詞語(yǔ)本身和上下文語(yǔ)義信息的動(dòng)態(tài)詞向量表示,并將獲得的短文本字向量與TextCNN、DPCNN、TextRNN、TextRCNN等神經(jīng)網(wǎng)絡(luò)模塊相結(jié)合,運(yùn)用Stacking集成學(xué)習(xí)思想,對(duì)多個(gè)異質(zhì)基分類器設(shè)計(jì)一個(gè)元分類器模型進(jìn)行訓(xùn)練和分類,以期解決現(xiàn)有文本分類算法適應(yīng)各場(chǎng)景能力較弱,分類準(zhǔn)確率較低的問(wèn)題。

        1 相關(guān)模型介紹

        1.1 Stacking集成學(xué)習(xí)模型

        Stacking集成學(xué)習(xí)算法是一種通過(guò)構(gòu)建一個(gè)元分類器模型來(lái)整合多個(gè)基分類模型的集成學(xué)習(xí)技術(shù),通過(guò)將若干個(gè)具有學(xué)習(xí)能力較強(qiáng)和差異性較大的基分類器模型組合成一個(gè)強(qiáng)分類器,以此提升模型的泛化能力。Stacking集成通常包含多個(gè)不同的基模型和一個(gè)元模型。基分類器模型利用整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練,元分類器模型將多個(gè)異質(zhì)基分類器模型的輸出特征作為輸入特征進(jìn)行訓(xùn)練,模型框架結(jié)構(gòu)如圖1所示。

        圖1 Stacking集成學(xué)習(xí)算法框架

        Stacking集成學(xué)習(xí)將訓(xùn)練好的基模型對(duì)整個(gè)訓(xùn)練集進(jìn)行預(yù)測(cè),將樣本預(yù)測(cè)結(jié)果作為新訓(xùn)練集的特征值進(jìn)行訓(xùn)練。在集成學(xué)習(xí)中,每個(gè)基分類器模型的學(xué)習(xí)能力和算法差異性是影響Stacking集成學(xué)習(xí)算法性能的關(guān)鍵因素,為了能夠最大程度地發(fā)揮集成模型性能,基分類器模型在保持強(qiáng)學(xué)習(xí)能力的同時(shí)需要具備一定的異質(zhì)性,從而提取不同的特征信息表達(dá)。最終得到的集成學(xué)習(xí)模型將具有兼顧基分類器和元分類器的算法學(xué)習(xí)能力,使得集成模型的預(yù)測(cè)準(zhǔn)確率得到進(jìn)一步提升。

        1.2 BERT預(yù)訓(xùn)練語(yǔ)言模型

        BERT預(yù)訓(xùn)練語(yǔ)言模型是Devlin等[10]提出的一種動(dòng)態(tài)詞向量表示方法,采用多層雙向的Transformer編碼器對(duì)大量中文語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,在文本句子層面可以得到融合詞語(yǔ)本身和上下文語(yǔ)義信息的動(dòng)態(tài)詞向量表示,模型結(jié)構(gòu)如圖2所示。

        E1,E2,…,EN為文本序列輸入向量;Trm為Transformer編碼器結(jié)構(gòu)組件;T1,T2,…,TN為BERT模型輸出的動(dòng)態(tài)詞向量

        BERT模型采用多層Transformer編碼器設(shè)計(jì),Transformer編碼器是一個(gè)采用了多頭自注意力機(jī)制(multi-head attention)的Seq2Seq序列模型,模型結(jié)構(gòu)為Encoder-Decoder。BERT模型利用多層Transformer結(jié)構(gòu)和多頭自注意力機(jī)制對(duì)大量文語(yǔ)料庫(kù)預(yù)訓(xùn)練,將中文文本輸入映射為動(dòng)態(tài)詞向量表示,相比基于傳統(tǒng)的靜態(tài)詞向量表示方法,能夠更好地解決中文短文本中存在的同義詞、近義詞以及一詞多義現(xiàn)象,從而實(shí)現(xiàn)更為完整的語(yǔ)義特征表達(dá)。

        1.3 基分類器模型

        由于中文短文本具有特征稀疏、維度不足等特征,在使用BERT模型進(jìn)行文本字向量表示的基礎(chǔ)上,采用當(dāng)前主流的4種神經(jīng)網(wǎng)絡(luò)分類模型來(lái)構(gòu)造Stacking集成學(xué)習(xí)的基分類器,主要包括TextCNN經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型、DPCNN新型卷積神經(jīng)網(wǎng)絡(luò)、RNN循環(huán)神經(jīng)網(wǎng)絡(luò)以及RCNN混合神經(jīng)網(wǎng)絡(luò)模型。

        (1)TextCNN文本卷積神經(jīng)網(wǎng)絡(luò)[11]是一種經(jīng)典的文本分類算法,Kim等[12]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類領(lǐng)域,采用多個(gè)不同大小的卷積核在句子層面對(duì)文本詞匯進(jìn)行卷積操作,能夠有效提取短文本的詞級(jí)特征信息。

        (2)DPCNN新型卷積神經(jīng)網(wǎng)絡(luò)[13]針對(duì)TextCNN模型不能學(xué)習(xí)文本的長(zhǎng)距離依賴關(guān)系的不足,通過(guò)不斷增加網(wǎng)絡(luò)深度,從而有效地抽取文本的長(zhǎng)距離依賴關(guān)系。

        (3)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)[14]在每一個(gè)時(shí)間步長(zhǎng)上輸入文本序列中的一個(gè)詞向量表示,計(jì)算當(dāng)前時(shí)間步長(zhǎng)上的隱藏狀態(tài),然后當(dāng)前時(shí)間步長(zhǎng)下的輸出傳遞給下一個(gè)時(shí)間步長(zhǎng),結(jié)合下一個(gè)時(shí)間步長(zhǎng)的詞向量一起作為RNN網(wǎng)絡(luò)單元的輸入,再計(jì)算下一個(gè)時(shí)間步長(zhǎng)上的RNN隱藏狀態(tài),從而學(xué)習(xí)文本序列的上下文依賴關(guān)系。

        (4)RCNN混合神經(jīng)網(wǎng)絡(luò)模型[15]結(jié)合了RNN和CNN兩個(gè)網(wǎng)絡(luò)模塊用于文本分類,同時(shí)考慮每個(gè)詞的詞向量和上下文的依賴關(guān)系,共同構(gòu)成詞向量的最終嵌入表示。

        TextCNN、DPCNN、RNN和RCNN神經(jīng)網(wǎng)絡(luò)采用具有不同的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)進(jìn)行文本向量的特征提取,TextCNN注重于文本詞匯特征信息捕捉,DPCNN注重于文本的長(zhǎng)距離關(guān)系抽取,RNN注重于學(xué)習(xí)文本序列的上下文依賴關(guān)系,RCNN結(jié)合RNN和CNN兩個(gè)模塊設(shè)計(jì),充分考慮每個(gè)詞的詞向量和上下文的向量表示。針對(duì)不同的目標(biāo)任務(wù)的關(guān)注點(diǎn),該4種神經(jīng)網(wǎng)絡(luò)模塊有著自身獨(dú)特的算法優(yōu)勢(shì),且具有不同的場(chǎng)景適應(yīng)能力,在多項(xiàng)自然語(yǔ)言處理(natural language processing, NLP)任務(wù)中均有著良好的表現(xiàn)。

        2 基于Stacking-Bert的短文本分類

        2.1 Stacking-Bert多基模型框架

        深度學(xué)習(xí)算法在文本分類領(lǐng)域得到了廣泛應(yīng)用,但其分類效果往往依賴于具體問(wèn)題。集成學(xué)習(xí)通過(guò)綜合多個(gè)異質(zhì)基分類器來(lái)預(yù)測(cè)結(jié)果,具有更強(qiáng)的場(chǎng)景適應(yīng)能力和更高的分類準(zhǔn)確率。基于Stacking集成學(xué)習(xí)思想,提出一種Stacking-Bert多基模型框架的中文短文本分類算法,充分考慮多個(gè)基分類器模型之間的差異性和學(xué)習(xí)能力,對(duì)BERT模型進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)微調(diào),在BERT模型內(nèi)部的Transfomer編碼器后面嵌入TextCNN、DPCNN、RNN和RCNN神經(jīng)網(wǎng)絡(luò)模塊實(shí)現(xiàn)網(wǎng)絡(luò)層的融合,最終形成5種基模型分類器,分別為:BERT-Base、BERT-TextCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN,其中,“-”表示把BERT預(yù)訓(xùn)練語(yǔ)言模型的最后一層Transformer結(jié)構(gòu)的輸出分別輸入到對(duì)應(yīng)的下游任務(wù)神經(jīng)網(wǎng)絡(luò)層中,BERT-Base表示BERT模型本身的原始輸出,模型結(jié)構(gòu)如圖3所示。

        圖3 Stacking-Bert多基模型框架

        其中,BERT模型采用多層雙向Transformer編碼器對(duì)大量中文預(yù)料庫(kù)進(jìn)行訓(xùn)練,可以得到融合詞語(yǔ)本身和上下文語(yǔ)義信息的動(dòng)態(tài)詞向量表示,在一定程度上可以解決短文本的特征稀疏和一詞多義問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以有效捕獲文本的詞級(jí)結(jié)構(gòu)信息,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以學(xué)習(xí)文本的上下文依賴關(guān)系,是文本特征提取的經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本文研究設(shè)計(jì)Stacking-Bert多基模型框架第一層基分類器選擇BERT-Base、BERT-TextCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行訓(xùn)練得到模型預(yù)測(cè)結(jié)果,第二層元分類器采用支持向量機(jī)實(shí)現(xiàn)輸入向量從低維空間到高維空間的映射,用于對(duì)第1層基分類器模型學(xué)習(xí)結(jié)果的集成分類,充分考慮性能較好模型具有的優(yōu)勢(shì)和性能較差模型帶來(lái)的偏差,從而提高模型的泛化能力和場(chǎng)景適應(yīng)能力。

        2.2 算法描述

        基于Stacking-Bert多基模型框架的集成學(xué)習(xí)算法偽代碼如下。

        算法1Stacking-Bert集成學(xué)習(xí)算法輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)};基分類器模型ζ1,ζ2,…,ζT;元分類器模型ζ。過(guò)程:1:fort=1,2,…,Tdo2: ht=ζt(D);3:endfor4:D'=?;5:fori=1,2,…,mdo6: fort=1,2,…,Tdo7: zit=ht(xi);8: endfor9: D'=D'∪((zi1,zi2,…,ziT),yi);10:endfor11:h'=ζ(D');輸出:集成模型H(x)=h'(h1(x),h2(x),…,hT(x))。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集介紹

        為測(cè)試各模型的短文本分類效果,采用網(wǎng)絡(luò)公開的三個(gè)中文數(shù)據(jù)集,分別包括搜狗新聞THUCNews_data,新浪微博simplifyweibo_moods,京東評(píng)論Jingdong_data。其中搜狗新聞數(shù)據(jù)集包含10種新聞?lì)悇e,共計(jì)200 000條。新浪微博數(shù)據(jù)集包含喜悅、憤怒、厭惡和低落4種情感類別,共計(jì)361 744條。京東評(píng)論數(shù)據(jù)集為網(wǎng)上手機(jī)購(gòu)物的正負(fù)評(píng)論,包含好評(píng)、中評(píng)、差評(píng)3種類別,共計(jì)3 000條。選取的3類數(shù)據(jù)集可以測(cè)試模型分別在大規(guī)模數(shù)據(jù)樣本下和小樣本數(shù)據(jù)集下的性能表現(xiàn)。隨機(jī)選取其中80%的數(shù)據(jù)樣本作為訓(xùn)練集,10%作為驗(yàn)證集,剩余10%作為測(cè)試集。為了測(cè)試模型的泛化能力,各標(biāo)簽類別數(shù)據(jù)保持一定程度的不平衡性,三個(gè)中文數(shù)據(jù)集的概況如表1所示。

        表1 數(shù)據(jù)集統(tǒng)計(jì)表

        3.2 對(duì)比實(shí)驗(yàn)

        采用當(dāng)前主流的深度學(xué)習(xí)文本分類算法作為對(duì)比實(shí)驗(yàn),包括word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分類算法。

        (1)word2vec-CNN和word2vec-BiLSTM文本分類算法采用word2vec詞向量表示方法,然后把詞向量分別輸入到CNN模型和BiLSTM模型中再次進(jìn)行特征信息提取,最后通過(guò)softmax進(jìn)行分類,是目前常用的文本分類算法。

        (2)BERT-TexCNN、BERT-DPCNN、BERT-RNN和BERT-RCNN文本分類算法采用BERT預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行字向量表示,分別以TexCNN、DPCNN、RNN和RCNN作為下游任務(wù)進(jìn)行特征提取,相比word2vec詞向量表示方法,提升了模型性能。

        3.3 評(píng)價(jià)指標(biāo)

        為了衡量本文所提模型的有效性,采用精確率(Precision)、召回率(Recall)和Micro-F1衡量模型的分類性能,其定義為

        (1)

        (2)

        (3)

        式中:Precision代表預(yù)測(cè)結(jié)果為正例的情況中預(yù)測(cè)正確的比例;Recall代表實(shí)際結(jié)果為正例的情況中預(yù)測(cè)正確的比例。Micro-F1同時(shí)考慮標(biāo)簽預(yù)測(cè)精確率和召回率,是兩者的調(diào)和平均值,也是衡量不平衡數(shù)據(jù)集的重要指標(biāo)。

        3.4 參數(shù)設(shè)置

        基于Stacking-Bert集成學(xué)習(xí)的中文短文本分類方法,將中文短文本的長(zhǎng)度處理為32,采用BERT模型進(jìn)行動(dòng)態(tài)詞向量表示,并運(yùn)用Stacking集成學(xué)習(xí)思想,利用TextCNN、DPCNN、RNN和RCNN等算法構(gòu)造多個(gè)基分類器,模型訓(xùn)練過(guò)程中設(shè)置最大迭代次數(shù)epochs為20,一個(gè)批次訓(xùn)練樣本為128,學(xué)習(xí)率為0.001。此外,為了保證模型的正常迭代,設(shè)置若連續(xù)輸入超過(guò)1 000個(gè)訓(xùn)練樣本,模型效果還沒有提升,則提前結(jié)束訓(xùn)練。模型參數(shù)詳細(xì)設(shè)置如表2和表3所示。

        表2 Stacking集成學(xué)習(xí)的特征參數(shù)

        表3 BERT模型參數(shù)設(shè)置

        使用Google提供的BERT-Base預(yù)訓(xùn)練語(yǔ)言模型,采用12層網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),隱藏層維數(shù)設(shè)置為768,采用Multi-Head Self-attention(head=12)。BERT模型訓(xùn)練參數(shù)設(shè)置如表3所示。

        3.5 模型對(duì)比

        為了有效評(píng)估本文所提基于Stacking-Bert集成學(xué)習(xí)模型在中文短文本數(shù)據(jù)集上的分類性能,對(duì)比了當(dāng)前主流的基于深度學(xué)習(xí)的文本分類算法,所有對(duì)比模型采用相同的模型參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)進(jìn)行模型性能的衡量。為了防止實(shí)驗(yàn)結(jié)果的偶然性,對(duì)模型運(yùn)行10次計(jì)算均值,得出的對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。

        如表4所示,采用word2vec詞向量表示方法的文本分類模型在三個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率最低,分別為0.87、0.68和0.64,這是由于word2vec靜態(tài)詞向量模型在解釋文本一詞多義、上下文依賴關(guān)系、序列結(jié)構(gòu)特征等信息方面存在不足,而基于BERT模型的文本分類準(zhǔn)確率整體得到了大幅度的提升,達(dá)到了0.94、0.88和0.85,說(shuō)明BERT模型能有效地捕捉文本的深層信息特征。本文所提Stacking-Bert集成學(xué)習(xí)在BERT模型下游任務(wù)采用了不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取文本不同的信息特征表達(dá),然后基于一個(gè)元學(xué)習(xí)器實(shí)現(xiàn)文本的分類預(yù)測(cè),在搜狗新聞、新浪微博和京東評(píng)論三個(gè)數(shù)據(jù)集上都達(dá)到了最好的F1,分別為0.96、0.91和0.89,驗(yàn)證了Stacking-Bert集成學(xué)習(xí)對(duì)中文短文本分類的有效性。

        表4 模型分類精確率

        此外,實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的文本分類效果在大規(guī)模搜狗新聞數(shù)據(jù)集上明顯優(yōu)于小樣本京東評(píng)論數(shù)據(jù)集,表現(xiàn)出了深度學(xué)習(xí)算法對(duì)具體問(wèn)題的強(qiáng)依賴性,而Stacking-bert集成模型在一定程度上減少了上述差距。

        4 結(jié)論

        研究了一種基于Stacking-Bert集成學(xué)習(xí)的中文短文本分類方法。采用BERT預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行文本字向量表示,并將獲得的短文本字向量與TextCNN、DPCNN、TextRNN、TextRCNN等神經(jīng)網(wǎng)絡(luò)模塊相結(jié)合,提取不同的特征信息表達(dá)。然后運(yùn)用Stacking集成學(xué)習(xí)思想,通過(guò)集成多個(gè)基分類器實(shí)現(xiàn)短文本的訓(xùn)練和預(yù)測(cè),與word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等算法進(jìn)行對(duì)比實(shí)驗(yàn),該模型在精確率、召回率和整體F1等評(píng)價(jià)指標(biāo)上均優(yōu)于其他模型,對(duì)中文短文本的分類研究提供了一定的參考價(jià)值。

        BERT模型采用多層雙向Transformer編碼器對(duì)大量中文預(yù)料庫(kù)進(jìn)行訓(xùn)練,可以得到融合詞語(yǔ)本身和上下文語(yǔ)義信息的動(dòng)態(tài)詞向量表示,在一定程度上可以解決短文本的特征稀疏和一次多義問(wèn)題。TextCNN、DPCNN、TextRNN、TextRCNN基分類模型在保持算法強(qiáng)學(xué)習(xí)能力的同時(shí)具備一定的異質(zhì)性,Stacking集成學(xué)習(xí)基于所有訓(xùn)練好的基模型的預(yù)測(cè)構(gòu)造新的測(cè)試集,再對(duì)測(cè)試集進(jìn)行預(yù)測(cè),具有更好的泛化能力,能有效提升文本的分類精度,在特定領(lǐng)域的文本分類任務(wù)中具有非常高的應(yīng)用價(jià)值。在下一步工作中,將針對(duì)大規(guī)模數(shù)據(jù)集探討集成算法的復(fù)雜度問(wèn)題,并針對(duì)大型數(shù)據(jù)集訓(xùn)練過(guò)程中造成的時(shí)間消耗和計(jì)算資源消耗,嘗試使用分布式訓(xùn)練方法完成對(duì)基分類器模型的訓(xùn)練,在保證模型精度的同時(shí)提高模型訓(xùn)練效率。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        丝袜美腿亚洲一区二区| 国产亚洲视频在线观看网址| 欧洲熟妇色xxxx欧美老妇多毛网站| 一本久道久久综合五月丁香| 精品福利一区| 日韩AV无码乱伦丝袜一区| 精品一区二区三区a桃蜜| 亚洲夜夜性无码| 狠狠色婷婷久久一区二区三区| 欧美成人片一区二区三区| 精品一区二区三区在线观看| 国产丝袜精品丝袜一区二区| 人妻一区二区三区免费看| 蓝蓝的天空,白白的云| 十四以下岁毛片带血a级| 2018国产精华国产精品| av蓝导航精品导航| 天啦噜国产精品亚洲精品 | 国产精品福利自产拍久久| 国产精品国产午夜免费福利看| 熟女少妇精品一区二区三区| 国产视频自拍一区在线观看| 久久精品国产99国产精品亚洲| 五月婷婷俺也去开心| 五月激情婷婷丁香| 中文字幕中乱码一区无线精品| 文字幕精品一区二区三区老狼| 久久久亚洲精品一区二区三区| 青青草原综合久久大伊人| 91日韩高清在线观看播放| 久久夜色精品国产噜噜噜亚洲av| 伊人狼人影院在线视频| 青青草原综合久久大伊人精品| 人妻哺乳奶头奶水| 香蕉成人啪国产精品视频综合网| 国产亚洲精品高清视频| 一区二区三区午夜视频在线| 久久99精品久久久久久9蜜桃| 大胆欧美熟妇xxbbwwbw高潮了| 午夜视频网址| 免费观看一区二区三区视频|