亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ERNIE+DPCNN+BiGRU 的農(nóng)業(yè)新聞文本分類

        2023-05-24 03:18:44楊森淇段旭良郎松松李志勇
        計(jì)算機(jī)應(yīng)用 2023年5期
        關(guān)鍵詞:掩碼卷積分類

        楊森淇,段旭良*,肖 展,郎松松,李志勇

        (1.四川農(nóng)業(yè)大學(xué) 信息工程學(xué)院,四川 雅安 625014;2.四川農(nóng)業(yè)大學(xué) 農(nóng)業(yè)信息工程實(shí)驗(yàn)室,四川 雅安 625014)

        0 引言

        隨著我國(guó)農(nóng)業(yè)的快速發(fā)展,人們對(duì)農(nóng)業(yè)新聞的質(zhì)量提出了更高的要求,但因農(nóng)業(yè)領(lǐng)域因涵蓋面廣、涉及產(chǎn)業(yè)眾多,農(nóng)業(yè)信息的獲取仍存在針對(duì)性較差、分類不清等問(wèn)題,人們需要花費(fèi)大量時(shí)間甄別出所需的農(nóng)業(yè)新聞,極大地阻礙了農(nóng)業(yè)新聞的傳播。

        目前中文新聞分類最著名的數(shù)據(jù)集是THUCNews(THU Chinese Text Classification)[1],它包含74 萬(wàn)篇新聞文檔,涉及體育、財(cái)經(jīng)、房產(chǎn)、教育和科技等14 類新聞,但唯獨(dú)沒(méi)有農(nóng)業(yè)新聞。農(nóng)業(yè)新聞的分類在中文新聞分類領(lǐng)域目前仍處于起步階段,如何精準(zhǔn)、高效地實(shí)現(xiàn)農(nóng)業(yè)新聞文本分類,為用戶提供精準(zhǔn)的農(nóng)業(yè)新聞,提高農(nóng)業(yè)新聞傳播的效率,擴(kuò)大農(nóng)業(yè)新聞的傳播范圍,成了目前亟待解決的問(wèn)題。

        1 文本與新聞分類模型

        1.1 針對(duì)不同領(lǐng)域新聞的分類模型

        文本分類模型的更新進(jìn)展較快,如Wang 等[2]提出了一種用于文本分類的歸納圖卷積網(wǎng)絡(luò)(Inductive Graph Convolutional Network for Text classification,InducT-GCN),該網(wǎng)絡(luò)僅基于訓(xùn)練文檔的統(tǒng)計(jì)數(shù)據(jù)構(gòu)建圖,并用詞向量的加權(quán)和來(lái)表示文檔向量。InducT-GCN 在測(cè)試期間進(jìn)行單向圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的傳播,能降低時(shí)間和空間復(fù)雜度,InducT-GCN 在5 個(gè)文本分類基準(zhǔn)中取得了最好的效果。Wang 等[3]將多維邊緣嵌入圖卷積網(wǎng)絡(luò)(Multi-dimensional Edge-enhanced Graph Convolutional Network,ME-GCN)用于半監(jiān)督文本分類,通過(guò)構(gòu)建文本圖描述文本之間的多維關(guān)系,并將生成的圖送入ME-GCN 訓(xùn)練,它可以整合整個(gè)文本語(yǔ)料庫(kù)的豐富圖邊信息源。實(shí)驗(yàn)結(jié)果表明,ME-GCN 在8 個(gè)基準(zhǔn)數(shù)據(jù)集中顯著優(yōu)于最先進(jìn)的方法。Yang 等[4]提出了混合經(jīng)典量子模型,由一種新穎的隨機(jī)量子時(shí)間卷積(Quantum Temporal Convolution,QTC)學(xué)習(xí)框架組成,該框架取代了基于BERT(Bidirectional Encoder Representation from Transformers)的解碼器中的一些層。實(shí)驗(yàn)結(jié)果表明,BERT-QTC 模型在Snips 和ATIS 口語(yǔ)數(shù)據(jù)集中獲得了較好的結(jié)果。

        新聞分類是文本分類的一個(gè)分支,文本分類技術(shù)自然也被應(yīng)用到新聞?lì)I(lǐng)域[5],針對(duì)新聞分類的研究日益增多,很多學(xué)者都提出了針對(duì)新聞分類的模型。謝志峰等[6]針對(duì)財(cái)經(jīng)新聞提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的中文財(cái)經(jīng)新聞分類方法,通過(guò)CNN 對(duì)中文財(cái)經(jīng)新聞進(jìn)行分類,在大、小規(guī)模的財(cái)經(jīng)語(yǔ)料上都表現(xiàn)優(yōu)異。許英姿等[7]針對(duì)物流新聞分類提出了一種基于改進(jìn)的加權(quán)補(bǔ)集樸素貝葉斯物流新聞分類的方法,針對(duì)文本不均衡的情況,加權(quán)補(bǔ)集樸素貝葉斯模型在進(jìn)行新聞分類時(shí)更加快速和準(zhǔn)確。朱芳鵬等[8]針對(duì)船舶工業(yè)領(lǐng)域新聞構(gòu)建了一個(gè)船舶工業(yè)新聞?wù)Z料庫(kù),并提出了基于文檔頻率、卡方統(tǒng)計(jì)量及潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)進(jìn)行特征選擇和特征降維,將文檔-詞矩陣映射成文檔-主題矩陣后,最終對(duì)處理后的特征采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行文本分類的方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效解決文本向量的高維度、高稀疏性問(wèn)題,在小樣本集和類別有限的前提下獲得了比傳統(tǒng)方法更好的分類效果。李超凡等[9]為了解決中文電子病歷文本分類的高維稀疏性、算法模型收斂較慢、分類效果不佳等問(wèn)題,提出了一種基于注意力機(jī)制(Attention mechanism)結(jié)合CNN 和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的模型。該病歷文本分類模型對(duì)比實(shí)驗(yàn)的結(jié)果表明,該模型的F1 值達(dá)到了97.85%,有效地提升了病歷文本分類的效果。目前國(guó)內(nèi)農(nóng)業(yè)新聞分類的模型還較少,其中霍婷婷[10]提出了一種基于FastText 對(duì)“重要詞進(jìn)行加權(quán)篩選”和“融合新聞標(biāo)題”的模型CFT-FastText(Content Feature and Title Fast Text)應(yīng)用于農(nóng)業(yè)新聞文本分類,通過(guò)對(duì)特征增強(qiáng)的序列進(jìn)行加權(quán)篩選,再融合提出的CFT-FastText 算法,可以獲得更好的農(nóng)業(yè)新聞分類效果。

        農(nóng)業(yè)文本與其他類別文本相比,具有長(zhǎng)度較短、文本間較為類似、特征不突出,并且維度較高、稀疏性較強(qiáng)等特點(diǎn),容易區(qū)分不開(kāi)。例如“在山區(qū)如何養(yǎng)野雞”和“在山區(qū)如何捉野雞”這兩個(gè)只有一字之差的農(nóng)業(yè)新聞標(biāo)題,前者屬于畜牧業(yè),而后者屬于副業(yè)。針對(duì)農(nóng)業(yè)文本的特點(diǎn),不同作者提出了不同的解決辦法。如金寧等[11]運(yùn)用詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法對(duì)農(nóng)業(yè)文本的特征進(jìn)行擴(kuò)展,并采用Word2Vec(Word to Vector)模型訓(xùn)練分詞結(jié)果,將農(nóng)業(yè)文本轉(zhuǎn)為低維、連續(xù)的詞向量,實(shí)現(xiàn)了農(nóng)業(yè)問(wèn)答社區(qū)中農(nóng)業(yè)問(wèn)句的精確快速分類;王郝日欽等[12]提出了一種基于CNN 和注意力機(jī)制的水稻文本分類方法,根據(jù)水稻文本具備的特征,采用Word2Vec 方法對(duì)文本數(shù)據(jù)進(jìn)行處理與分析,并結(jié)合農(nóng)業(yè)分詞詞典對(duì)文本數(shù)據(jù)進(jìn)行向量化處理,有效地解決了文本的高維性和稀疏性問(wèn)題。

        1.2 基于BERT的新聞分類

        目前,融合BERT 模型的新聞分類方法取得了較好的效果。BERT 模型是一種基于大量語(yǔ)料庫(kù)訓(xùn)練完成的語(yǔ)言模型,生成的詞向量擁有較多的先驗(yàn)信息、并且充分結(jié)合上下文語(yǔ)義等優(yōu)點(diǎn),因此被廣泛應(yīng)用于新聞分類領(lǐng)域。隨后產(chǎn)生了一批基于BERT 進(jìn)行改進(jìn)的加強(qiáng)版模型,例如Liu 等[13]提出的RoBERTa(Robustly optimized BERT)模型是BERT 的改進(jìn)版,具有訓(xùn)練時(shí)間更長(zhǎng)、批量數(shù)據(jù)更大、訓(xùn)練序列更長(zhǎng)等特點(diǎn),并且加入了動(dòng)態(tài)調(diào)整掩碼機(jī)制,在GLUE(General Language Understanding Evaluation)、RACE(Large-scale ReAding Comprehension dataset from Examination)和SQuAD(Stanford Question Answering Dataset)上取得了當(dāng)時(shí)最先進(jìn)的成績(jī)。哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)的Cui 等[14]提出的MacBERT(MLM as correction BERT)模型在多個(gè)方面對(duì)RoBERTa 進(jìn)行了改進(jìn),利用相似的單詞掩碼減小了預(yù)訓(xùn)練和微調(diào)階段兩者之間的差距,并在多個(gè)數(shù)據(jù)集上取得了較好的效果。

        楊先鳳等[15]針對(duì)傳統(tǒng)文本特征無(wú)法充分解決一詞多義的問(wèn)題,利用BERT 字注釋和雙向門(mén)控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)結(jié)合注意力機(jī)制提取特征。實(shí)驗(yàn)結(jié)果表明,在公開(kāi)數(shù)據(jù)集THUCNews 上,該模型比未引入字注釋的文本分類模型有明顯提高。彭玉芳等[16]融合了中國(guó)圖書(shū)館分類法的族性檢索和分面分類法的特性檢索,構(gòu)建了南海文獻(xiàn)分類法,應(yīng)用BERT 預(yù)訓(xùn)練模型實(shí)現(xiàn)細(xì)粒度的多標(biāo)簽?zāi)虾WC據(jù)性數(shù)據(jù)的自動(dòng)分類,從更細(xì)粒度的視角實(shí)現(xiàn)數(shù)據(jù)分類,從而更有利于展開(kāi)數(shù)據(jù)挖掘,找到數(shù)據(jù)間潛在的關(guān)聯(lián)關(guān)系。張海豐等[17]提出了一種結(jié)合BERT 和特征投影網(wǎng)絡(luò)的新聞主題文本分類方法,該方法將新聞?lì)愇谋据斎隑ERT 模型后,輸出的特征再次進(jìn)行多層全連接層的特征提取,并將最終提取到的文本特征結(jié)合特征投影方法進(jìn)行提純,從而強(qiáng)化分類效果。但是BERT 模型針對(duì)中文領(lǐng)域和其預(yù)訓(xùn)練模塊仍有較多不足,在BERT 模型中,對(duì)文本的預(yù)處理都按照最小單位進(jìn)行切分,在英文文本中掩碼的對(duì)象多數(shù)情況下為詞根,而非完整的詞,對(duì)于中文則是按字切分,直接對(duì)單個(gè)的字進(jìn)行掩碼,這種方式限制了模型對(duì)于詞語(yǔ)信息的學(xué)習(xí)。

        1.3 基于ERNIE的新聞分類

        BERT-Chinese-WWM(Whole Word Masking)模型[18]改進(jìn)了中文處理的過(guò)程:首先對(duì)中文進(jìn)行分詞,在掩蓋時(shí)將完整詞語(yǔ)的所有字一并掩蓋,便于模型對(duì)語(yǔ)義信息的學(xué)習(xí)。

        百度發(fā)布的ERNIE(Enhanced Representation through kNowledge IntEgration)模型[19]則進(jìn)一步擴(kuò)展了中文全詞掩蓋策略,不僅包含了中文分詞,還包括短語(yǔ)及命名實(shí)體的全詞掩蓋。國(guó)內(nèi)也有學(xué)者利用ERNIE 進(jìn)行新聞分類,如陳杰等[20]利用ERNIE 結(jié)合文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN),通過(guò)領(lǐng)域預(yù)訓(xùn)練生成高階文本特征向量并進(jìn)行特征融合,實(shí)現(xiàn)語(yǔ)義增強(qiáng),進(jìn)而提升短文本分類效果。黃山成等[21]提出一種基于ERNIE2.0、雙向長(zhǎng)短時(shí)記憶(Bi-directional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)和Attention 的隱式情感分析方法EBA(ERNIE2.0,BiLSTM and Attention),能夠較好捕捉隱式情感句的語(yǔ)義及上下文信息,有效提升隱式情感的識(shí)別能力,并在SMP2019 公開(kāi)數(shù)據(jù)集上取得了較好的分類效果。喻航等[22]利用ERNIE 結(jié)合TF-IDF針對(duì)區(qū)級(jí)人大報(bào)告特定的幾方面內(nèi)容進(jìn)行文本分類,利用ERNIE 直接對(duì)語(yǔ)義知識(shí)單元進(jìn)行建模,并且在此基礎(chǔ)上加入TF-IDF 提升模型性能。實(shí)驗(yàn)結(jié)果表明,該方法在分類的準(zhǔn)確率和召回率上表現(xiàn)不錯(cuò),ERNIE 模型收斂速度得到了明顯提升。

        綜上所述,為了避免BERT 在中文特征提取上的不足,以及目前國(guó)內(nèi)在農(nóng)業(yè)新聞分類領(lǐng)域的欠缺,采用ERNIR 結(jié)合深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(Deep Pyramidal Convolutional Neural Network,DPCNN)和雙向門(mén)控循環(huán)單元(BiGRU),提出EGC 模型。本文的主要工作包括:1)自建農(nóng)業(yè)新聞數(shù)據(jù)集,對(duì)網(wǎng)絡(luò)上真實(shí)存在的農(nóng)業(yè)類新聞進(jìn)行收集并清洗;2)在數(shù)據(jù)集上對(duì)比幾組最經(jīng)典的模型,并嘗試了幾種不同的激活函數(shù),最終基于ERNIE、DPCNN 和BiGRU 提出EGC 模型。

        2 EGC模型

        為了提取更完整的特征,本文EGC 模型由3 個(gè)模型融合構(gòu)成,包括ENIRE、BiGRU 和改進(jìn)DPCNN。

        2.1 ERNIE

        ERNIE 是基于谷歌公司研發(fā)的BERT 模型,原生的BERT 用在中文上時(shí)是基于單個(gè)字的,忽略了文字的聯(lián)系,而ERNIE 可以很好地捕捉文字之間的關(guān)系。以“越南巴沙魚(yú)出口仍未走出困境”為例,BERT 和ERNIE 的掩碼策略對(duì)比如圖1 所示,ERNIE 加入了前后文本的聯(lián)系,更容易推理出被掩蓋掉的文字。當(dāng)使用原生BERT,會(huì)隨機(jī)掩碼15%的文字,BERT 不會(huì)考慮上下文的聯(lián)系,導(dǎo)致一個(gè)詞被分開(kāi),不易推理出被掩蓋掉的文字;而ERNIE 的掩碼策略會(huì)考慮文字之間的關(guān)系,會(huì)以詞來(lái)進(jìn)行掩碼,能夠更容易推理出被掩蓋的文字。

        ERNIE 的核心 部分是Transformer-encode[23],如 圖2 所示。數(shù)據(jù)輸入后,經(jīng)過(guò)編碼和添加位置信息,利用多頭注意力機(jī)制進(jìn)行計(jì)算,通過(guò)歸一化以及前向傳播和再次歸一化,從多頭注意力機(jī)制到再次歸一化構(gòu)成一個(gè)層,經(jīng)過(guò)N個(gè)這樣的層,輸出編碼。

        圖2 Transformer-encode結(jié)構(gòu)Fig.2 Structure of Transformer-encode

        2.2 BiGRU

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是自然語(yǔ)言處理任務(wù)中的一個(gè)重要方法,與CNN 相比,它的最大優(yōu)勢(shì)是能夠提取到上下文的文本特征,在處理序列問(wèn)題時(shí)優(yōu)勢(shì)明顯。Hochreiter 等[24]提出了長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),LSTM 在記憶上下文重要信息的同時(shí),會(huì)遺忘掉無(wú)關(guān)信息,解決了RNN 反向梯度消散等問(wèn)題;但LSTM 計(jì)算量比較大,訓(xùn)練時(shí)間過(guò)長(zhǎng)。針對(duì)LSTM 的不足,Cho 等[25]提出了門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU),對(duì)LSTM 進(jìn)行簡(jiǎn)化,結(jié)構(gòu)如圖3 所示。

        圖3 GRU結(jié)構(gòu)Fig.3 Structure of GRU

        其中:Zt表示更新門(mén);W表示權(quán)值矩陣;Ht表示t時(shí)刻的隱藏層狀態(tài);xt表示t時(shí)刻的輸入;Rt表示重置門(mén)。

        但單向的GRU 只提取了上文對(duì)下文的影響,無(wú)法反映出下文對(duì)上文的影響。為了充分提取每個(gè)新聞標(biāo)題的特征,采用BiGRU,它每步的輸出由當(dāng)前狀態(tài)的前向狀態(tài)和后向狀態(tài)組合而成,可以提取更加完整、豐富的特征信息。BiGRU結(jié)構(gòu)如圖4 所示。

        圖4 BiGRU結(jié)構(gòu)Fig.4 Structure of BiGRU

        2.3 改進(jìn)DPCNN

        Johnson 等[26]提出的DPCNN 的核心是等長(zhǎng)卷積和1/2 池化層,等長(zhǎng)卷積的輸入和輸出都為n,而1/2 池化層令每次輸入的序列長(zhǎng)度減半,隨著層數(shù)的加深,將長(zhǎng)度疊起來(lái),最終會(huì)呈現(xiàn)一個(gè)金字塔形狀。

        針對(duì)農(nóng)業(yè)新聞標(biāo)題的特點(diǎn),本文對(duì)DPCNN 進(jìn)行改進(jìn),提出DPCNN-upgrade。根據(jù)計(jì)算,農(nóng)業(yè)類新聞數(shù)據(jù)集平均長(zhǎng)度大概在18.98,農(nóng)業(yè)新聞標(biāo)題要比其他新聞短一些,針對(duì)該特點(diǎn),將DPCNN 的卷積層減少2 個(gè),以保留更多的文本特征,達(dá)到了更好的效果。

        DPCNN 與DPCNN-upgrade 的對(duì)比如圖5 所示,數(shù)據(jù)輸入后經(jīng)過(guò)Region embedding,將數(shù)據(jù)轉(zhuǎn)化為句向量表示,然后將這些特征向量依次輸入到后面的卷積組,每個(gè)卷積組包含1個(gè)卷積層以及從輸入到輸出的殘差相連。每個(gè)組之間由步長(zhǎng)為2 的池化層相連接,可以設(shè)置多個(gè)卷積組來(lái)提取特征,直到最后的卷積組得到最終文本的特征向量表示。

        圖5 DPCNN和DPCNN-upgrade對(duì)比Fig.5 Comparison between DPCNN and DPCNN-upgrade

        2.4 EGC模型結(jié)構(gòu)

        一些可用于文本分類的先進(jìn)模型,如ChineseBERT,RoBERTa 和MacBERT,它們進(jìn)行了一些基于BERT 的調(diào)整,如更改掩碼策略、增大batch size 或者將字形考慮進(jìn)特征范圍內(nèi)等,這些調(diào)整雖然在一定程度上提升了訓(xùn)練的效果,但針對(duì)農(nóng)業(yè)新聞的高維度和稀疏性特點(diǎn),效果有限。針對(duì)農(nóng)業(yè)文本特征較少、文本間較為類似、特征不突出、維度較高、稀疏性較強(qiáng)等問(wèn)題,本文的EGC 模型將DPCNN-upgrade 與BiGRU 提取出的特征進(jìn)行融合,以降低特征的稀疏性并降低特征維度,融合后的特征更準(zhǔn)確,能有效提高農(nóng)業(yè)新聞分類的準(zhǔn)確度。EGC 模型結(jié)構(gòu)如圖6 所示,主要包括輸入編碼層、特征提取層、特征融合層和Softmax。

        圖6 EGC詳細(xì)框架Fig.6 Detailed framework of EGC

        1)輸入編碼層。數(shù)據(jù)集輸入后,經(jīng)過(guò)ERNIE 的掩碼機(jī)制,embedding 過(guò)后,輸入transformer encode,將數(shù)據(jù)集轉(zhuǎn)化為編碼。

        2)特征提取層。將編碼后的數(shù)據(jù)分別輸入DPCNNupgrade 和BiGRU 兩部分進(jìn)行特征提取。

        數(shù)據(jù)輸入到DPCNN-upgrade,經(jīng)過(guò)一個(gè)卷積層后,與沒(méi)經(jīng)過(guò)卷積層的數(shù)據(jù)進(jìn)行拼接操作,然后輸入循環(huán)模塊;接著依次經(jīng)過(guò)1/2 池化層和卷積層,再將池化后的數(shù)據(jù)和卷積后的數(shù)據(jù)進(jìn)行拼接,并不斷循環(huán)這個(gè)模塊N次;循環(huán)結(jié)束后,將數(shù)據(jù)進(jìn)行一次池化得到最終的特征。

        為了得到BiGRU 部分的特征,將數(shù)據(jù)輸入到GRU 中,每個(gè)位置上有兩個(gè)反方向的GRU,通過(guò)將信息不斷傳遞,分別匯總前向和后向信息,最終將每個(gè)位置上的兩個(gè)GRU 的匯總信息進(jìn)行拼合,組成該數(shù)據(jù)的特征。

        3)特征融合層。將DPCNN-upgrade 提取出來(lái)的特征和BiGRU 提取出來(lái)的特征進(jìn)行拼接,組成最終的特征。

        4)Softmax。利用Softmax 對(duì)拼接后的特征進(jìn)行全鏈接,從而得到最終類別的概率[27],進(jìn)一步輸出最終結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        由于目前沒(méi)有公開(kāi)的新聞,需要采用自建數(shù)據(jù)集,本實(shí)驗(yàn)所用的農(nóng)業(yè)數(shù)據(jù)集利用八爪魚(yú)軟件[28]在中國(guó)畜牧網(wǎng)、海洋資訊網(wǎng)、西南漁業(yè)網(wǎng)、中國(guó)農(nóng)業(yè)網(wǎng)、中國(guó)大豆網(wǎng)和中國(guó)油脂科技網(wǎng)等農(nóng)業(yè)新聞網(wǎng)站進(jìn)行數(shù)據(jù)爬取。數(shù)據(jù)時(shí)效性對(duì)保證數(shù)據(jù)質(zhì)量至關(guān)重要[29-31],因此我們從2022 年4 月開(kāi)始采集最新數(shù)據(jù),并進(jìn)行去除停用詞、標(biāo)點(diǎn)符號(hào)等操作的預(yù)處理,以保證數(shù)據(jù)的可用性和質(zhì)量。數(shù)據(jù)集總量為20 834,各類別具體情況如表1 所示,其中訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例為8∶1∶1,數(shù)據(jù)集的句子的平均長(zhǎng)度為18.98。

        表1 數(shù)據(jù)集各類別數(shù)量Tab.1 Number of each category in dataset

        3.2 評(píng)價(jià)指標(biāo)

        評(píng)價(jià)指標(biāo)使用精確率P(Precision)、召回率R(Recall)和F1 分?jǐn)?shù)F1(F1-score)[26],計(jì)算公式如下:

        其中:TP(True Positive)表示將正類預(yù)測(cè)為正類數(shù);FN(False Negative)表示將正類預(yù)測(cè)為負(fù)類數(shù);FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類數(shù);TN(True Negative)表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù)。

        宏平均(Macro-averaging)[31]在很多項(xiàng)目中經(jīng)常被使用,但是針對(duì)農(nóng)業(yè)新聞數(shù)據(jù)集有些不適用。原因在于農(nóng)業(yè)新聞數(shù)據(jù)集中每個(gè)類別所占比重不同,且數(shù)據(jù)集之前的數(shù)量差距較大,林業(yè)、副業(yè)新聞數(shù)據(jù)較少,所以采用權(quán)重平均(Weighted-averaging)[32]更客觀。權(quán)重平均是所有類別的F1加權(quán)平均,公式如下:

        其中:n為類別數(shù),ki為類別i占數(shù)據(jù)集總數(shù)的比例。

        3.3 實(shí)驗(yàn)參數(shù)

        序列長(zhǎng)度設(shè)置為19,學(xué)習(xí)率為10-5,ENIRE 隱藏層數(shù)量為768,BiGRU 隱藏層數(shù)量為256,dropout 設(shè)置為0.1。

        3.4 模型對(duì)比

        針對(duì)農(nóng)業(yè)新聞利用不同的模型做了多組實(shí)驗(yàn),包含基礎(chǔ)的BERT、較為先進(jìn)的模型RoBERTa 和MacBERT,以及BERT+CNN、BERT+RNN、BERT+DPCNN、ERNIE、ERNIE+DPCNN 和ERNIE+BiGRU,激活函數(shù)為線性整流函數(shù)(Rectified Linear Unit,ReLU)[33],結(jié)果如表2 所示,其中:加粗為最優(yōu)結(jié)果,下劃線為次優(yōu)結(jié)果。由表2 可以看出,EGC達(dá)到了最好的效果,要全面優(yōu)于其他對(duì)比模型,在精確率、召回率和F1 分?jǐn)?shù)上比次優(yōu)結(jié)果分別提高了1.33、1.11 和1.21個(gè)百分點(diǎn),比ERNIE 分別提高了1.47、1.29 和1.42 個(gè)百分點(diǎn),這得益于EGC 大幅降低了農(nóng)業(yè)文本的稀疏性和高維度特征。

        表2 不同模型的加權(quán)平均指標(biāo)的比較Tab.2 Comparison of weighted-average indicators of different models

        為了探索不同激活函數(shù)對(duì)EGC 模型的影響,進(jìn)一步嘗試使用ReLU[33]、帶泄露修正 線性單元(Leaky ReLU)[34]、RReLU(Reflected ReLU)[35]和PReLU[36]進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。可以看出,針對(duì)農(nóng)業(yè)新聞文本的分類,使用RReLU 的實(shí)際效果更好,相較于ReLU 提升了0.99 個(gè)百分點(diǎn)。

        表3 四種不同激活函數(shù)的性能對(duì)比Tab.3 Performance comparison of four different activation functions

        4 結(jié)語(yǔ)

        隨著農(nóng)業(yè)現(xiàn)代化的不斷發(fā)展,農(nóng)業(yè)新聞的傳播顯得尤為重要,準(zhǔn)確的新聞分類可以提高新聞傳播的效率。本文利用新聞的標(biāo)題信息,提出基于ERNIE、DPCNN 和BiGRU 的EGC模型,與傳統(tǒng)模型相比,綜合性能更好,可為精確分類農(nóng)業(yè)新聞提供理論方法支持。

        但農(nóng)業(yè)新聞中的副業(yè)分類難度較大,因?yàn)榻┠甑难芯糠椒ǘ际腔谏疃葘W(xué)習(xí),而副業(yè)中包含的類別較多,比如糖業(yè)、食用油、紡織業(yè)、藥材采集、手工副業(yè)等,數(shù)據(jù)集的分配將顯著影響副業(yè)的分類,若出現(xiàn)一些只在測(cè)試集中出現(xiàn)的數(shù)據(jù),準(zhǔn)確率將明顯降低,而且目前還缺乏副業(yè)的詳細(xì)分類規(guī)范。因此,在接下來(lái)的研究中,我們將進(jìn)一步研究副業(yè)的細(xì)分化,以進(jìn)一步提高分類準(zhǔn)確率。

        目前關(guān)于農(nóng)業(yè)新聞的數(shù)據(jù)集還較少,但隨著自媒體的逐步發(fā)展,今后可考慮爬取自媒體來(lái)源的新聞。

        EGC 模型目前僅考慮了農(nóng)業(yè)新聞的標(biāo)題,并未考慮新聞的主體和文中配圖,今后可以考慮結(jié)合多模態(tài)數(shù)據(jù)以提取到更多的特征,進(jìn)一步提高數(shù)據(jù)分類效果。

        EGC 模型對(duì)算力有一定的要求,在接下來(lái)的研究中,可以精簡(jiǎn)模型,加快訓(xùn)練過(guò)程。

        猜你喜歡
        掩碼卷積分類
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分類算一算
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        低面積復(fù)雜度AES低熵掩碼方案的研究
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
        教你一招:數(shù)的分類
        基于掩碼的區(qū)域增長(zhǎng)相位解纏方法
        亚洲中文字幕在线精品2021| 日韩丝袜亚洲国产欧美一区| 黑丝美女被内射在线观看| 在线国产丝袜自拍观看| 国产精品亚洲片在线观看不卡| 亚洲av第一页国产精品| 国产精品亚洲午夜不卡| 国产精品久久一区二区蜜桃| 亚洲视频在线一区二区| 久久久久亚洲av片无码v| 精品无码AV无码免费专区| 国产少妇一区二区三区| 国产网站一区二区三区| 国产一区二区三精品久久久无广告| 国产免费一级高清淫日本片| 超短裙老师在线观看一区| 性色视频加勒比在线观看| 国产精品视频露脸| 99热这里只有精品4| 91成人自拍视频网站| 亚洲大尺度无码无码专区| 品色永久免费| 欧美精品久久久久久三级| 91亚洲免费在线观看视频| 国产亚洲美女精品久久久2020| 国模无码人体一区二区| 丰满少妇人妻无码超清| 中文字幕丰满人妻av| 风韵多水的老熟妇| 成人免费a级毛片| 亚洲一区二区三区偷拍女厕| 婷婷精品国产亚洲av| 国产一区二区三区激情视频 | 国产农村熟妇videos| 国产目拍亚洲精品一区二区| 女优av福利在线观看| 国产成人自拍高清在线| 人妻少妇av中文字幕乱码| 91精品国产91久久综合桃花| 亚洲精品中文字幕导航| 免费无遮挡禁18污污网站|