亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合語(yǔ)義知識(shí)和BiLSTM-CNN的短文本分類方法

        2021-11-20 01:07:27楊秀璋李曉峰袁杰李坤琪楊鑫羅子江
        計(jì)算機(jī)時(shí)代 2021年11期
        關(guān)鍵詞:深度學(xué)習(xí)

        楊秀璋 李曉峰 袁杰 李坤琪 楊鑫 羅子江

        DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.013

        摘? 要: 為快速準(zhǔn)確地從海量新聞中挖掘用戶需求,解決短文本語(yǔ)義關(guān)系單薄、篇幅較短、特征稀疏問(wèn)題,提出一種融合語(yǔ)義知識(shí)和BiLSTM-CNN的短文本分類方法。該分類模型將新聞短文本預(yù)處理成Word2Vec詞向量,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取代表性的局部特征,利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲上下文語(yǔ)義特征,再由Softmax分類器實(shí)現(xiàn)短文本分類。文章對(duì)體育、財(cái)經(jīng)、教育、文化和游戲五大主題的新聞?wù)Z料進(jìn)行了實(shí)驗(yàn)性的分析。結(jié)果表明,融合語(yǔ)義知識(shí)和BiLSTM-CNN的短文本分類方法在準(zhǔn)確率、召回率和F1值上均有所提升,該方法可以為短文本分類和推薦系統(tǒng)提供有效支撐。

        關(guān)鍵詞: 短文本分類; BiLSTM-CNN; 深度學(xué)習(xí); 語(yǔ)義知識(shí)

        中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)11-49-06

        A short text classification method fusing semantic knowledge and BiLSTM-CNN

        Yang Xiuzhang, Li Xiaofeng, Yuan Jie, Li Kunqi, Yang Xin, Luo Zijiang

        (School of Information of Guizhou University of Finance and Economics, Guiyang, Guizhou 550025, China)

        Abstract: In order to quickly and accurately tap users needs from mass news, to solve the problems of thin semantic relations, short length, and sparse features in short texts, this paper proposes a short text classification method combining semantic knowledge and BiLSTM-CNN. In this classification model, news short texts are preprocessed into Word2Vec word vectors, representative local features are extracted by convolutional neural network, contextual semantic features are captured by bidirectional short and long time memory network, and then the short texts are classified by Softmax classifier. This paper experimentally analyzes the news corpus of five topics, namely sports, finance, education, culture and games. The results show that the short text classification method combining semantic knowledge and BiLSTM-CNN has improved in accuracy, recall rate and F1 value. This method can provide effective support for short text classification and recommendation system.

        Key words: short text classification; BiLSTM-CNN; deep learning; semantic knowledge

        0 引言

        隨著互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)的迅速發(fā)展,以搜索引擎、微博、論壇、博客、評(píng)論等為主體的海量短文本信息與日俱增,如何快速精準(zhǔn)地將其進(jìn)行歸類,挖掘出所需的關(guān)鍵知識(shí)及研究熱點(diǎn),已成為重要的研究課題。

        文本分類作為自然語(yǔ)言處理領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn),旨在精準(zhǔn)地劃分文本的主題類別,再通過(guò)推薦系統(tǒng)或知識(shí)圖譜實(shí)現(xiàn)關(guān)聯(lián)個(gè)性化推薦,幫助用戶從雜亂信息中快速、高效地提取所需知識(shí)。面對(duì)大規(guī)模短文本語(yǔ)料,傳統(tǒng)分類方法是采用向量空間模型表征短文本,再進(jìn)行相似性計(jì)算,或通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)文本分類,缺乏對(duì)短文本上下文語(yǔ)義的關(guān)聯(lián)分析,難以避免引入干擾信息和克服短文本的特征稀疏問(wèn)題,較難挖掘到深層次的文本特征,從而限制了短文本分類的精準(zhǔn)度[1]。針對(duì)這些問(wèn)題,本文提出一種融合語(yǔ)義知識(shí)和BiLSTM-CNN的短文本分類方法,從而有效地利用上下文語(yǔ)義知識(shí),提高短文本分類的精準(zhǔn)度。

        1 相關(guān)研究

        1.1 基于機(jī)器學(xué)習(xí)的文本分類

        傳統(tǒng)的文本分類方法是基于機(jī)器學(xué)習(xí)和特征工程實(shí)現(xiàn)的,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。常用的方法包括SVM、KNN、決策樹(shù)、樸素貝葉斯等[2-3]。劉一然等[4]提出了基于支持向量機(jī)(SVM)的學(xué)科文本自動(dòng)分類方法。周慶平等[5]通過(guò)聚類改進(jìn)KNN文本分類算法提升分類效果。何偉[6]應(yīng)用基于IGDC特征加權(quán)的樸素貝葉斯方法進(jìn)行文本分類,并實(shí)現(xiàn)了多種中文文本數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)。Elberrichi和Bidi[7]通過(guò)遺傳算法改進(jìn)文本分類特征提取過(guò)程,提升分類的準(zhǔn)確率。楊曉花等[8]改進(jìn)貝葉斯算法,完成圖書自動(dòng)分類任務(wù)。

        上述方法雖然不斷提升著文本分類的準(zhǔn)確率,但只能提取文本的淺層知識(shí),缺乏考慮文本上下文依賴關(guān)系,忽略語(yǔ)義知識(shí)對(duì)文本分類的影響。早期基于機(jī)器學(xué)習(xí)的文本分類方法主要通過(guò)詞頻、TF-IDF、信息熵、互信息等技術(shù)提取文本特征,再調(diào)用無(wú)監(jiān)督學(xué)習(xí)或有監(jiān)督學(xué)習(xí)算法進(jìn)行文本分類,這些評(píng)估函數(shù)大多基于統(tǒng)計(jì)學(xué)原理,缺乏對(duì)海量短文本數(shù)據(jù)的有效分類[9]。

        1.2 基于深度學(xué)習(xí)的文本分類

        隨著深度學(xué)習(xí)和人工智能的興起,以詞向量模型為基礎(chǔ),融合深度神經(jīng)網(wǎng)絡(luò)、LDA模型、Attention機(jī)制的短文本分類方法逐漸出現(xiàn)。2013年Mikolov等[10]提出了Word2Vec模型,通過(guò)訓(xùn)練大規(guī)模語(yǔ)料得到低維詞向量,從而表征語(yǔ)義信息,常用框架包括CBOW和Skip-gram。

        近年來(lái),深度學(xué)習(xí)的各類方法開(kāi)始廣泛應(yīng)用于文本分類領(lǐng)域。Kim[11]首次運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)來(lái)進(jìn)行特征提取及文本分類。Zhang等[12]基于字符級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型提升分類準(zhǔn)確率。陳波[13]改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文本分類,從而提升準(zhǔn)確率、召回率和F值。邱爾麗等[14]通過(guò)字符級(jí)CNN技術(shù)完成公共政策網(wǎng)民支持的分類研究。

        同時(shí),由于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, 簡(jiǎn)稱RNN)可以聯(lián)系上下文突出文本序列信息,它也被應(yīng)用于自然語(yǔ)言處理領(lǐng)域。為進(jìn)一步解決RNN模型的梯度爆炸和梯度消失問(wèn)題,門控遞歸單元網(wǎng)絡(luò)(GRU)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)被提出并應(yīng)用于文本分類任務(wù)。Lai等[15]通過(guò)RCNN模型提取文本特征及實(shí)現(xiàn)文本分類。李云紅等[16]提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)變體和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法。梁志劍等[17]提出一種基于BiGRU和貝葉斯分類器的文本分類方法,有效提高了文本分類的效率和準(zhǔn)確率。鄭國(guó)偉等[18]通過(guò)LSTM模型對(duì)金融領(lǐng)域的新聞數(shù)據(jù)進(jìn)行分類。Zhou等[19]在BiLSTM模型中融合二維池化操作,實(shí)現(xiàn)文本特征提取和文本分類。為了更好地提取重點(diǎn)關(guān)注的文本數(shù)據(jù),注意力(Attention)機(jī)制被引入深度神經(jīng)網(wǎng)絡(luò)及自然語(yǔ)言處理任務(wù)中。Wang等[20]結(jié)合LSTM模型和注意力機(jī)制實(shí)現(xiàn)情感分類研究。陶志勇等[1]提出了基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的改進(jìn)注意力短文本分類方法。張宇藝等[21]通過(guò)改進(jìn)CBOW模型,并結(jié)合ABiGRU方法實(shí)現(xiàn)文本分類。張彥楠等[22]融合CNN、雙向GRU及注意力機(jī)制,完成錄音文本分類任務(wù)。姚苗等[23]提出自注意力機(jī)制的Att-BLSTMs模型并應(yīng)用于短文本分類研究,有效地提高了短文本分類的準(zhǔn)確率。

        綜上所述,BiLSTM模型可以提取上下文語(yǔ)義知識(shí),CNN和RNN模型可以捕獲具有代表性的局部文本特征,Attention機(jī)制能夠突出詞語(yǔ)的重要性,強(qiáng)化網(wǎng)絡(luò)模型的學(xué)習(xí)和泛化能力。本文在以上研究基礎(chǔ)上提出一種融合語(yǔ)義知識(shí)和BiLSTM-CNN的短文本分類模型,整個(gè)模型盡可能地發(fā)揮CNN、BiLSTM和Attention的優(yōu)勢(shì),提升短文本分類的準(zhǔn)確率,多角度考慮短文本分類的互補(bǔ)性及協(xié)調(diào)性。

        2 本文模型

        本文針對(duì)短文本語(yǔ)義關(guān)系單薄、篇幅較短、特征稀疏等問(wèn)題,提出了一種融合BiLSTM-CNN和語(yǔ)義知識(shí)的短文本分類模型。

        2.1 算法總體框架

        該模型將短文本預(yù)處理成Word2Vec詞向量,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的卷積層和池化層把文本詞向量表征成句子詞向量,結(jié)合BiLSTM神經(jīng)網(wǎng)絡(luò)和Attention機(jī)制構(gòu)建文本向量,最終得出分類結(jié)果。本文方法的總體框架如圖1所示。具體步驟如下。

        ⑴ 首先通過(guò)Python和XPath構(gòu)建自定義爬蟲(chóng)抓取新聞標(biāo)題數(shù)據(jù),包括體育、財(cái)經(jīng)、教育、文化和游戲五大主題;接著進(jìn)行數(shù)據(jù)預(yù)處理操作,計(jì)算輸入層的詞向量。

        ⑵ 輸入層中嵌入的詞向量會(huì)將文本中的每一個(gè)詞匯表征為相應(yīng)的詞向量空間,接著輸入卷積神經(jīng)網(wǎng)絡(luò),卷積層由多個(gè)濾波器組成,池化層提取出具有代表性的局部特征。

        ⑶ 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層(BiLSTM)旨在提取上下文語(yǔ)義特征,BiLSTM能夠更好地捕捉到雙向語(yǔ)義依賴,從而進(jìn)行細(xì)粒度的分類。

        ⑷ 當(dāng)BiLSTM層完成上下文語(yǔ)義特征提取后,其輸出會(huì)通過(guò)Attention機(jī)制進(jìn)一步突出所提取的關(guān)鍵性詞語(yǔ),并賦予相關(guān)權(quán)重。

        ⑸ 最后,經(jīng)過(guò)BiLSTM-CNN和Attention神經(jīng)網(wǎng)絡(luò)得到的特征向量,會(huì)由Softmax分類器計(jì)算短文本的分類結(jié)果,完成分類任務(wù)。

        2.2 數(shù)據(jù)預(yù)處理

        在進(jìn)行短文本分類任務(wù)前,需要對(duì)語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理操作,主要包括以下內(nèi)容。

        ⑴ 分詞。本文抓取了搜索引擎的新聞標(biāo)題數(shù)據(jù)作為實(shí)驗(yàn)語(yǔ)料,中文分詞采用Jieba工具完成,并導(dǎo)入自定義詞典進(jìn)行專有名詞識(shí)別。

        ⑵ 停用詞過(guò)濾。通過(guò)Python導(dǎo)入哈爾濱工業(yè)大學(xué)停用詞表、百度停用詞表和四川大學(xué)停用詞表進(jìn)行數(shù)據(jù)清洗,過(guò)濾掉如“我們”“的”“這”等停用詞以及標(biāo)點(diǎn)符號(hào)。

        ⑶ 異常值處理。在中文文本中,還會(huì)存在一些異常的詞匯,此時(shí)需要進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換及人工標(biāo)注,從而為后續(xù)的文本分類提供輔助。

        經(jīng)過(guò)上述處理,將得到更高質(zhì)量的短文本數(shù)據(jù)集,從而提升分類效果。最后將清洗后的數(shù)據(jù)及類標(biāo)存儲(chǔ)至數(shù)據(jù)庫(kù)中,進(jìn)行后續(xù)的短文本分類實(shí)驗(yàn)。

        2.3 Word2Vec詞向量

        詞向量是自然語(yǔ)言處理領(lǐng)域中的基礎(chǔ)知識(shí),在文本挖掘、語(yǔ)義分析、情感分析等方面具有一定的價(jià)值。Word2Vec是2013年Google開(kāi)源的一款基于詞向量的計(jì)算工具,旨在根據(jù)上下文信息表征特征詞,通過(guò)向量空間的相似度來(lái)表示語(yǔ)義相似度,從而挖掘出詞語(yǔ)之間的內(nèi)在語(yǔ)義知識(shí)和關(guān)聯(lián)信息。

        Word2Vec包括CBOW模型和Skip-gram模型。其中,CBOW模型是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞的概率,已知上下文w(t-1)、w(t-2)、w(t+1)、w(t+2),對(duì)當(dāng)前詞w(t)的概率進(jìn)行預(yù)測(cè);Skip-gram模型則是利用當(dāng)前詞的詞向量來(lái)預(yù)測(cè)上下文。圖2為基于Word2Vec和深度學(xué)習(xí)的文本分類模型,它將句子轉(zhuǎn)換為詞向量并結(jié)合上下文語(yǔ)義知識(shí)完成分類任務(wù),識(shí)別出文化(類標(biāo)0)和體育(類標(biāo)1)兩個(gè)類別。

        2.4 卷積神經(jīng)網(wǎng)絡(luò)模型

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, 簡(jiǎn)稱CNN)通過(guò)提取局部特征進(jìn)行文本分類,利用卷積核滑動(dòng)搜集句子信息來(lái)提取特征,從而提高特征利用率。典型的CNN模型包括輸入層、卷積層、池化層和全連接層。

        卷積層旨在提取輸入語(yǔ)料的數(shù)據(jù)特征,采用不同尺寸的卷積核進(jìn)行卷積運(yùn)算,其計(jì)算如公式(1)所示,最終得到新的特征hdi。

        其中,f表示ReLU激活函數(shù),wd表示大小為d的卷積核,Vi表示輸入層的詞向量,bd表示偏置項(xiàng)。通過(guò)設(shè)置d個(gè)不同大小的卷積核對(duì)Vi進(jìn)行特征提取,滑動(dòng)濾波器映射得到最終的局部特征集合Hd:

        池化層旨在降低數(shù)據(jù)維度,縮減文本特征向量和網(wǎng)絡(luò)參數(shù)的大小,同時(shí)能保持文本特征統(tǒng)計(jì)屬性并增大模型的適應(yīng)性。本文對(duì)卷積操作得到的局部特征Hd進(jìn)行池化操作,采用最大池化方法來(lái)提取特征,其計(jì)算公式如下:

        經(jīng)過(guò)池化層提取出文本的局部重要特征,接著將所有池化層得到的特征在全連接層進(jìn)行組合,得到輸出向量S。最后將全連接層輸出向量S輸入Softmax分類器中進(jìn)行短文本分類,從而預(yù)測(cè)最終類別。

        2.5 BiLSTM模型和Attention

        雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(Bi-directional Long Short-Term Memory, 簡(jiǎn)稱BiLSTM)可以從兩個(gè)方向?qū)渥舆M(jìn)行編碼,提取上下文語(yǔ)義特征,更好地捕捉到雙向語(yǔ)義依賴,從而進(jìn)行細(xì)粒度的分類。

        針對(duì)在短文本分類任務(wù)中,不同詞語(yǔ)對(duì)整個(gè)文本語(yǔ)義的貢獻(xiàn)不同,本文利用Attention機(jī)制為BiLSTM-CNN模型的輸出賦予不同的權(quán)重,從而將單詞級(jí)別的特征融合成句子級(jí)別的特征,提高關(guān)鍵詞信息對(duì)分類結(jié)果的影響。最后,經(jīng)過(guò)Attention機(jī)制得到了向量將輸入到softmax分類器中,從而實(shí)現(xiàn)短文本分類任務(wù)。

        3 實(shí)驗(yàn)

        提出一種融合語(yǔ)義知識(shí)的短文本分類方法,為驗(yàn)證其有效性和實(shí)用性,采用TensorFlow深度學(xué)習(xí)框架構(gòu)建神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

        實(shí)驗(yàn)通過(guò)Python自定義爬蟲(chóng)采集50000條新聞標(biāo)題數(shù)據(jù),涉及體育、財(cái)經(jīng)、教育、文化和游戲共五個(gè)主題,并將數(shù)據(jù)集按照6:2:2的比例隨機(jī)劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,具體數(shù)據(jù)分布情況如表1所示。數(shù)據(jù)預(yù)處理采用Jieba工具實(shí)現(xiàn),包括對(duì)文本語(yǔ)料的中文分詞、停用詞過(guò)濾、去除低頻特征詞等,從而提高文本分類的準(zhǔn)確率。

        3.2 評(píng)估指標(biāo)

        文本分類任務(wù)通常會(huì)采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)評(píng)價(jià)指標(biāo)。其計(jì)算公式如下:

        其中,TP表示短文本分類正確的數(shù)量,Sum表示實(shí)際分類的文本數(shù)量,TS表示屬于該類別的文本數(shù)量。準(zhǔn)確率旨在評(píng)估被分類模型正確劃分到某個(gè)類別中的比例,召回率旨在評(píng)估屬于某個(gè)類別的查全率,F(xiàn)值是準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值,常用于評(píng)價(jià)分類模型的最終好壞。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        為了保證實(shí)驗(yàn)結(jié)果更加真實(shí)有效,本研究進(jìn)行了多次交叉驗(yàn)證,最終的實(shí)驗(yàn)結(jié)果為10次短文本分類實(shí)驗(yàn)結(jié)果的平均值。同時(shí),該模型的文本序列長(zhǎng)度設(shè)置為600,CNN模型的卷積核數(shù)量設(shè)置為128,卷積核尺寸設(shè)置為3,學(xué)習(xí)率為0.001,BiLSTM模型的正反向神經(jīng)元數(shù)均設(shè)置為300,詞向量維度為300,優(yōu)化算法選擇Adam優(yōu)化器,并且增加Dropout層防止出現(xiàn)過(guò)擬合現(xiàn)象。

        采用融合語(yǔ)義知識(shí)和BiLSTM-CNN方法對(duì)所抓取的新聞標(biāo)題語(yǔ)料進(jìn)行短文本分類,得到的實(shí)驗(yàn)結(jié)果如表2所示。其中,短文本分類準(zhǔn)確率最高的是體育類別,值為0.9253;準(zhǔn)確率最低的是游戲類別,值為0.8745。短文本分類召回率最高的是游戲類別,值為0.9125;召回率最低的是財(cái)經(jīng)類別,值為0.8845;短文本分類F值最高的是體育類別,值為0.9178;F值最低的是財(cái)經(jīng)類別,值為0.8874。

        為進(jìn)一步對(duì)比短文本分類的實(shí)驗(yàn)結(jié)果,本文詳細(xì)對(duì)比了多種分類算法,其實(shí)驗(yàn)結(jié)果如表3所示。由表可知,本文所提出方法在該數(shù)據(jù)集的短文本分類比較中,平均準(zhǔn)確率、平均召回率和平均F值都有一定程度的提升。

        本文方法的平均準(zhǔn)確率為0.9010,平均召回率為0.9006,平均F值為0.9008。相比于傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法有較大提升,其平均F值比決策樹(shù)(DT)方法提升了0.0898,比最近鄰(KNN)方法提升了0.1145,比支持向量機(jī)(SVM)方法提升了0.855。

        本文方法與經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)相比,F(xiàn)值也有一定程度提升,F(xiàn)值分別比CNN、GRU、LSTM和BiLSTM高出0.0585、0.0675、0.0560和0.0445。隨著文本分類模型進(jìn)一步演化,TextCNN和Attention機(jī)制融合模型逐漸被提出,本文方法依舊顯示優(yōu)于這些方法,其F值比TextCNN模型提升0.0194,比Attention+CNN模型提升0.0124,比Attention+BiLSTM模型提升0.0091??傮w而言,本文提出的方法在該新聞標(biāo)題中文數(shù)據(jù)集的短文本分類效果更好。

        同時(shí),該模型的正確率(Accuracy)和誤差變化曲線如圖4和圖5所示。隨著迭代次數(shù)增加,其正確率逐漸升高,而誤差逐漸降低,并且每隔100次迭代輸出一次結(jié)果。最終趨于平緩,BiLSTM-CNN和Attention模型正確率穩(wěn)定在0.9078,誤差穩(wěn)定在0.001。

        4 結(jié)束語(yǔ)

        針對(duì)短文本語(yǔ)義關(guān)系單薄、篇幅較短、特征稀疏問(wèn)題,本文提出了一種融合BiLSTM-CNN和語(yǔ)義知識(shí)的短文本分類模型。通過(guò)CNN模型提取短文本的局部特征,利用BiLSTM提取上下文語(yǔ)義依賴,考慮文本中每個(gè)詞語(yǔ)前后的語(yǔ)義關(guān)系影響,并經(jīng)過(guò)Attention機(jī)制進(jìn)一步突出所提取的關(guān)鍵性詞語(yǔ),賦予相關(guān)權(quán)重,從而提升短文本的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文提出的方法優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法和經(jīng)典的深度學(xué)習(xí)分類方法,最終的平均準(zhǔn)確率為0.9010,平均召回率為0.9006,平均F值為0.9008。相較于其他方法,這三個(gè)評(píng)價(jià)指標(biāo)均有所提升。本文的方法可以應(yīng)用于短文本分類、推薦系統(tǒng)、數(shù)據(jù)挖掘、自然語(yǔ)言處理等領(lǐng)域,具有較好的準(zhǔn)確率和實(shí)用性。未來(lái),將一方面進(jìn)一步擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)集,研究該算法的普適性;另一方面將結(jié)合深度語(yǔ)義知識(shí),進(jìn)一步提升模型對(duì)文本分類準(zhǔn)確率的影響。

        參考文獻(xiàn)(References):

        [1] 陶志勇,李小兵,劉影等.基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的改進(jìn)注意力短文本分類方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019.12:21-29

        [2] 郭詩(shī)瑤.融合上下文信息的文本分類算法的研究及應(yīng)用[D].北京郵電大學(xué),2019:27

        [3] 楊秀璋,夏換,于小民等.基于多視圖融合的論文自動(dòng)分類方法研究[J].現(xiàn)代電子技術(shù),2020.43(8):120-124

        [4] Joachims T. Text categorization with support vector machines:? learning with many relevant features[J]. Proc of the 10th European Conf on Machine Learning (ECML-98).Chemnitz: Springer-Verlag,1998:137-142

        [5] 周慶平,譚長(zhǎng)庚,王宏君等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016.33(11):3374-3377

        [6] 何偉.基于樸素貝葉斯的文本分類算法研究[D].南京郵電大學(xué),2019:22

        [7] BidiN,Elberrichi Z. Feature selection for text classification using genetic algorithm[C]//International Conference on Modelling,Identification and Control. IEEE,2017:806-810

        [8] 楊曉花,高海云.基于改進(jìn)貝葉斯的書目自動(dòng)分類算法[J].計(jì)算機(jī)科學(xué),2018.45(8):203-207

        [9] 熊漩,嚴(yán)佩敏.融合多頭自注意力機(jī)制的中文分類方法[J].電子測(cè)量技術(shù),2020.43(10):125-130

        [10] MikolovT,ChenKai,CorradoG,et al. Efficient estimation of word representations in vector space[J].arXiv:1301.3781,2013.

        [11] Kim Y. Convolutional neural networks for sentence classification[J].Association for the Computation Linguistics,2014.15(6):1746-1751

        [12] Zhang X, Zhao J, Lecun Y. Character-level convolutional networks for text classification[C] //International Conferenceon Neural Information Processing Systems.MIT Press,2015:649-657

        [13] 陳波.基于循環(huán)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)文本分類方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2018.30(5): 705-710

        [14] 邱爾麗,何鴻魏,易成岐等.基于字符級(jí)CNN技術(shù)的公共政策網(wǎng)民支持度研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020.4(7):28-37

        [15] Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C] //Proc of the 29th AAAI Conference on Artificial Intelligence,2015:2267-2273

        [16] 李云紅,梁思程,任劼等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)變體和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019.49(4):573-579

        [17] 梁志劍,謝紅宇,安衛(wèi)鋼.基于BiGRU和貝葉斯分類器的文本分類[J].計(jì)算機(jī)工程與設(shè)計(jì),2020.41(2): 381-385

        [18] 鄭國(guó)偉,呂學(xué)強(qiáng),夏紅科等.基于LSTM的金融新聞傾向性[J].計(jì)算機(jī)工程與設(shè)計(jì),2018.39(11):3462-3467

        [19] Zhou P, Qi Z, Zheng S, et al. Text Classification Improved by Integrating Bidirectional LSTM with Two-dimensional Max Pooling[OL]. arXiv Preprint, arXiv: 1611.06639

        [20] Wang Y, Huang M, Zhao L, et al. Attention-based LSTM for Aspect-level Sentiment Classification[C] //Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2016:606-615

        [21] 張宇藝,左亞堯,陳小幫.基于改進(jìn)的CBOW與ABiGRU的文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(24):135-140

        [22] 張彥楠,黃小紅,馬嚴(yán)等.基于深度學(xué)習(xí)的錄音文本分類方法[J].浙江大學(xué)學(xué)報(bào) (工學(xué)版),2020.54(7):1-8

        [23] 姚苗,楊文忠,袁婷婷等.自注意力機(jī)制的短文本分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020.41(6):1592-1598

        猜你喜歡
        深度學(xué)習(xí)
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        精品国产中文字幕久久久| 538任你爽精品视频国产| 无码a级毛片免费视频内谢| 自拍偷拍亚洲视频一区二区三区| 一二三四区中文字幕在线| 在线视频观看免费视频18| 国产三级欧美| 亚洲一区二区三区在线观看| 狼人伊人影院在线观看国产| 免费无码av一区二区三区| 成人免费ā片在线观看| 亚洲AV专区一专区二专区三| 在线视频观看一区二区| 97人妻人人做人碰人人爽| 车上震动a级作爱视频| 亚洲无码观看a| 国产精品人妻熟女男人的天堂| 国产精品久久久久9999吃药| 秋霞午夜无码鲁丝片午夜精品| 亚洲亚洲亚洲亚洲亚洲天堂| 久久精品亚洲熟女av麻豆| 亚洲av无码成人网站在线观看| 色婷婷六月天| 亚洲一区二区三区在线更新| 蜜桃视频在线观看免费亚洲| 少妇无码太爽了不卡视频在线看| 91人妻无码成人精品一区91| 亚洲一区二区三区精品久久| 国产 高潮 抽搐 正在播放 | 亚洲国产日韩一区二区三区四区| 中国午夜伦理片| 亚洲国产综合人成综合网站| 国产精品一区二区久久精品蜜臀| 不卡一区二区视频日本| 四虎影视永久地址www成人| av无码天堂一区二区三区| 久久精品亚洲一区二区三区画质| 大学生粉嫩无套流白浆| 国产精品6| 精品视频一区二区在线观看| 中国娇小与黑人巨大交|