亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多種算法對不同中文文本分類效果比較研究

        2019-05-24 14:17:58陳慧田大鋼馮成剛
        軟件導刊 2019年5期
        關(guān)鍵詞:長短期記憶網(wǎng)絡(luò)文本分類支持向量機

        陳慧 田大鋼 馮成剛

        摘 要:為彌補目前國內(nèi)學者只做單一算法研究且語料單一的缺陷,使用Word2vec詞向量模型結(jié)合支持向量機(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)3種不同分類算法,研究了不同中文文本分類問題,包括微博語料的多維細粒度情感分類、酒店評價的傾向性分析和新聞文本的主題分類。將3種分類模型在不同文本中的分類效果進行對比,結(jié)果顯示這3種算法對于不同的中文分類效果各有不同:不同維度的詞向量對準確率等評價指標影響很大;支持向量機模型更適合于細粒度的微博情感分類;卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)算法更適合于噪聲小、文本長且規(guī)范的新聞主題分類任務(wù)。分類粒度會對算法準確性產(chǎn)生影響,粒度越細、任務(wù)越復雜,算法準確性越低。

        關(guān)鍵詞:文本分類;Word2vec;支持向量機;卷積神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò)

        DOI:10. 11907/rjdk. 182489

        中圖分類號:TP3-0 文獻標識碼:A 文章編號:1672-7800(2019)005-0073-06

        Abstract:In order to make up for the shortcomings of a single algorithm and a single corpus, this paper uses Word2vec combined with support vector machine (SVM), convolutional neural network (CNN) and long short-term memory (LSTM) to study the classification of different Chinese text, including multi-dimensional fine-grained emotional classification of micro-blog corpus, tendentiousness analysis of hotel evaluation and thematic classification of news text. Finally, the classification effects of the three classification models in different texts are compared. The results show that word vectors of different dimensions have significant effects on accuracy and other evaluation indicators; support vector machine model is more suitable for fine grained micro-blog sentiment classification; convolutional neural network and long short-term memory are more suitable for news topic classification tasks with low noise, long text and standard; classification granularity will also affect the accuracy of the algorithm, including the finer granularity, the more complex task, the lower the accuracy of the algorithm.

        Key Words:text classification;Word2vec;SVM;CNN;LSTM

        0 引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)逐漸成為人們獲取信息的重要途徑。但正因為網(wǎng)上信息的爆炸式增長,用戶想要從海量信息中高效且準確地獲取需要的信息反而變得更加困難。如何從這些浩瀚的文本中抽取出有價值的信息成為研究熱點。文本分類利用自然語言處理、數(shù)據(jù)挖掘和機器學習等技術(shù),有效地對不同類型的文本進行自動分類,發(fā)現(xiàn)其中的規(guī)律[1]。文本分類是文本挖掘的重要組成部分,其主要任務(wù)是將給定的文本集合劃分到已知的一個或多個類別集合中[2],例如將新聞文本根據(jù)主題分配到其所屬的頻道,將產(chǎn)品評論文本根據(jù)情感傾向分為積極和消極兩部分。

        目前,文本分類任務(wù)已應(yīng)用到許多領(lǐng)域,如情感分析(Sentiment Analysis)、主題分類(Topic Classification)、垃圾郵件檢測(Spam Detection)等[3]。文本分類的核心問題是文本表示和分類模型。在自然語言處理和文本分析問題中,詞袋(Bag of Words)和詞向量(Word Embedding)是兩種最常用的模型。傳統(tǒng)的文本表示利用詞袋模型將詞無序地表示到一個高維的向量空間模型中,這種做法拋棄了原文本中的語法和詞序等結(jié)構(gòu)信息。Google[4]發(fā)布的一款Word2vec工具,將詞表示為K維實數(shù)向量,使用向量空間上的相似度表示文本語義上的相似度。

        目前,文本分類研究主要是基于機器學習的方法[5],且主要研究同一算法在相同語料下的分類效果。唐曉波等[6]提出的一種基于旋進原則的回歸SVM情感分類模型,魏勇[7]提出一種結(jié)合關(guān)聯(lián)語義和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文本分類方法等,均只研究了單一算法對文本分類的效果;趙明等[8]比較了SVM、CNN和LSTM模型對飲食健康文本的分類效果,只針對飲食健康文本分類,語料單一,結(jié)論不具有普適性。本文使用支持向量機(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)3種算法研究不同的中文文本分類問題,包括微博語料多維細粒度的情感分類,酒店評價的傾向性分析和新聞文本的主題分類,彌補了只做單一算法研究且語料單一的缺陷。筆者首先通過 Word2vec 模型將不同中文文本訓練成詞向量,然后將訓練成的詞向量分別輸入到支持向量機模型(SVM)和長短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,3種模型通過學習得到詞向量中隱藏的分類信息并給出文本分類結(jié)果,對3種模型在不同中文文本中的分類效果進行對比。

        1 文本分類技術(shù)

        1.1 文本分類過程

        文本分類(Text Categorization)指將未標明類別的文本分類到各自對應(yīng)的類別中?;静襟E如下:①確定分類類別,即文本共分為哪幾類;②對文本作清洗、分詞等準備工作,并將人工分類過的文本作為訓練集;③確定文本表示方法;④應(yīng)用具體分類模型訓練文本分類器;⑤評價分類器性能并進行文本分類。本文文本分析流程如圖1所示。

        1.2 文本表示技術(shù)

        文本分類的核心問題之一是文本表示。Zhang等[9]利用One-hot把文本表示為向量,即將單詞看作一個原子符號,這種表示方式容易造成維度災(zāi)難且不能展示詞語之間的語義關(guān)系。Paccanaro等[10]提出了Distributed representation概念,統(tǒng)稱為詞向量(Word embedding)。該方法將詞語表示成一個定長連續(xù)的稠密向量,使用詞語之間的“距離”概念表示詞語的語義關(guān)系。

        本文采用Word2vec工具中的CBOW模型,將中心詞窗口大小k內(nèi)的詞作為上下文,求中心詞出現(xiàn)的概率。使用長度[m=2k]定義上下文長度,系統(tǒng)輸入為m個上下文單詞,用[w1,w2,?wm]表示。用[w]表示目標(輸出)單詞,將[w]可以看作d維向量,其中d是字典長度,模型的目的就是計算概率[P(w|w1,w2,?wm)]并使這些結(jié)果在訓練集上達到最大。由圖2可知模型包含輸入層、隱藏層和輸出層。輸入層有[m×d]個節(jié)點,輸入m個上下文單詞的d維one-hot向量,one-hot向量的分量只有一個為1,其余全為0,1所對應(yīng)的位置就是該詞在字典中的索引。因此,可用對應(yīng)于上下文位置和單詞索引表示一個輸入[xij]。具體就是輸入[xij∈{0,1}]包含兩個索引i和j,其中[i∈{1,2,?,m}]表示上下文位置,[j∈{1,2,?d}]是單詞標識符。隱藏層有p個節(jié)點,則Word2vec詞向量的維度即為p。用[h1,h2,?hp]表示隱藏節(jié)點的輸出。經(jīng)多次試驗發(fā)現(xiàn),在p為300時效果達到最優(yōu)。輸入層和隱藏層通過[d×p]的共享權(quán)重矩陣u連接,其中[ujq]表示字典中第j個單詞到第q個隱層節(jié)點的連接。

        3.2 實驗設(shè)計

        如圖4所示,首先從網(wǎng)絡(luò)上下載和爬取NLPCC2017微博數(shù)據(jù)集、譚松波教授收集整理的酒店評價情感語料和搜狐新聞數(shù)據(jù),然后對原始數(shù)據(jù)進行降噪清洗,并對剩余數(shù)據(jù)進行分詞處理。分詞后的數(shù)據(jù)輸入到Word2vec工具中進行訓練,輸出的詞向量構(gòu)成訓練集和測試集數(shù)據(jù)。本文選取支持向量機模型(SVM)、長短期記憶網(wǎng)絡(luò)模型(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)對數(shù)據(jù)進行訓練與測試。最后根據(jù)精度(Precision)、召回率(Recall)和F1值分別判定這3種算法的分類效果。本研究所有實驗均使用Python語言實現(xiàn)。

        3.3 數(shù)據(jù)來源與清洗

        本文數(shù)據(jù)來源:①微博數(shù)據(jù)來源于第六屆自然語言處理與中文計算會議(NLPCC2017)中的微博語料數(shù)據(jù)集,該語料主要用于識別整條微博所表達的情緒,不同于簡單的褒貶分類,它將情感分為喜、怒、哀、樂、惡5個細粒度情緒類別,屬于細粒度的情感分類問題。經(jīng)過刪除重復語料、小于12字符的語句和空語句等數(shù)據(jù)清洗、降噪工作,最后選擇30 294條語料,并按4∶1比例分為訓練集和測試集;②酒店評價語料來源于譚松波教授搜集整理的酒店評價情感語料。該語料主要用于識別評價中所表達的情緒是積極還是消極的,屬于二分類問題。經(jīng)過語料清洗降噪,最后選擇10 000條語料,按4∶1分為訓練集和測試集;③新聞?wù)Z料來源于搜狐新聞數(shù)據(jù)(SogouCS)。搜狗新聞數(shù)據(jù)沒有直接提供分類,需要通過新聞來源網(wǎng)址的URL查詢其對應(yīng)分類。由于新聞分布不均,所以需要去除新聞數(shù)量較少的類別,最后選取汽車、財經(jīng)、IT、健康、體育、旅游、教育、軍事、文化、娛樂、時尚11個類,每個類分別抽取2 000條新聞??紤]到新聞標題意義重大,將新聞標題和新聞內(nèi)容連接到一起,然后截取每條新聞前 100個字作為一條語料,將所有語料按4∶1分成訓練集與測試集。

        3.4 預(yù)訓練詞向量

        中文文本和英文文本在語法和分詞處理時具有較大差異,中文文本需要經(jīng)歷一個分詞過程,即把連續(xù)的文字分成單獨的詞匯,而英文文本只需通過空格和標點便可將獨立的詞從原文中分離出來。因此,首先將各中文語料用jieba分詞工具進行分詞處理,然后使用Word2vec工具訓練詞向量庫,訓練參數(shù)設(shè)置如表1所示,Word2vec工具包括CBOW和Skip-Gram模型。試驗表明:3種語料中CBOW模型訓練效果較好。因此,本文采用CBOW模型進行詞向量訓練,即根據(jù)已知中心詞的上下文預(yù)測該詞出現(xiàn)的概率,同時本實驗設(shè)置丟棄詞頻少于3的單詞不訓練。上下文窗口設(shè)置為5,即當前詞與預(yù)測詞在一個句子中的最大距離是5。高頻詞匯的隨機降采樣配置閾值為1e-3。

        試驗結(jié)果表明,不同維度的詞向量對準確率影響效果很大。在詞向量維度增加過程中,詞向量包含的語義和語法特征信息越來越多,各算法在語料中的分類準確率、召回率和F1值3個指標都出現(xiàn)遞增趨勢。以SVM算法微博語料分類為例,從圖5可以看出,當詞向量從50維變化到300維時,準確率、召回率、F1三個指標均增加10%以上。但隨著詞向量維度增加到400維、500維時,訓練難度和時間越來越大,準確率等評價指標卻增加緩慢,因此本實驗采用300維訓練語料的詞向量。

        3.5 實驗結(jié)果及分析

        將微博語料、酒店評價語料和新聞文本語料訓練成的詞向量分別輸入到支持向量機(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)中,分別通過3種模型學習得到詞向量中隱藏的情感信息并給出情感分類結(jié)果,如表2所示。

        根據(jù)實驗結(jié)果統(tǒng)計模型的準確率、召回率等模型性能評估指標,得出如下結(jié)論:

        (1)支持向量機模型(SVM)更適合于細粒度的微博情感分類。圖6、圖7給出了詞向量為300維時各分類模型對微博語料和酒店評價的分類結(jié)果。由圖可知:①在微博情感細分類任務(wù)和酒店評價二分類任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)的分類效果不如支持向量機(SVM)。在微博語料情感多分類任務(wù)中,由于微博語料噪聲大、文本短、口語化嚴重等原因,卷積神經(jīng)網(wǎng)絡(luò)的卷積效果較差,長短期記憶網(wǎng)絡(luò)儲存遠距離信息的優(yōu)勢發(fā)揮不明顯,導致分類效果不理想,準確率等評價指標遠低于SVM模型;②在酒店評價傾向性二分類任務(wù)中,雖然酒店評價和微博語料一樣具有噪聲大、口語化嚴重的特點,但由于是簡單的二分類問題,復雜程度不高,CNN和LSTM的分類效果只是略低于SVM模型。由此可見,支持向量機模型(SVM)更適合于細粒度的微博情感分類。

        (2)分類粒度會對算法的準確性產(chǎn)生影響。對比圖4、圖5可以看出:粒度越細、任務(wù)越復雜,算法的準確性會越低。因此,酒店評價二分類任務(wù)的準確性遠高于多維細粒度的微博情感分析。原因有兩點:①在二分類問題中,積極和消極情感區(qū)分度較大,而在細粒度情感分析中,有些情感粒度之間區(qū)別度并不是很高。例如,本微博細粒度情感細分為喜、怒、哀、樂、惡5維粒度,其中喜與樂、怒與惡這類情感彼此之間會有情感交叉,區(qū)分度不是很高;②一條語料往往不只包含一種情感,大多數(shù)文本會包含幾種情感,給微博文本情感分析造成了難度。

        (3)卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)更適合于噪聲小、文本較長且規(guī)范的新聞主題分類任務(wù)。圖8給出了詞向量為300維時各分類模型對新聞主題分類的評價結(jié)果。實驗結(jié)果表明:新聞主題多分類任務(wù)中,3種分類模型都達到了良好的分類效果,分類準確率都在82%以上。其中,CNN和LSTM的分類效果最優(yōu),均達到了85%以上,具體原因如下:不同于微博語料和酒店評價語料的噪聲大、文本短、口語化嚴重,新聞?wù)Z料具有噪聲小、文本長、用詞規(guī)范的特點。與SVM模型相比,LSTM 能夠存儲遠距離信息,CNN 能夠提取不同維度的特征,這些功能能夠更好地挖掘出新聞?wù)Z料詞向量中隱藏的分類信息。而SVM模型在挖掘詞向量中隱藏的分類信息時,損失了詞與詞之間的語義信息,這是在新聞主題分類任務(wù)中SVM模型性能不如CNN和LSTM模型的主要原因。

        4 結(jié)語

        本文使用Word2vec詞向量工具和多種算法結(jié)合,研究了不同中文文本分類問題,包括微博語料的多維細粒度情感分類、酒店評價的傾向性分析和新聞文本的主題分類。將支持向量機模型(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)3種算法在各領(lǐng)域文本中的分類效果進行了對比。研究表明:①不同維度的詞向量對正確率影響效果顯著,當詞向量從50維變化到300維時,準確率、召回率、F1三個指標均增加10%以上;②支持向量機模型(SVM)除燥能力更強,更適合于細粒度的微博情感分類;③卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM)更適合于噪聲小、文本規(guī)范的新聞主題分類任務(wù);④分類粒度會對算法的準確性產(chǎn)生影響。粒度越細,任務(wù)越復雜,算法的準確性會越低。今后的工作是改進Word2vec詞向量模型,使其在分類效果上得到進一步提升,以及改進機器學習算法,使其對不同領(lǐng)域的文本分類具有普適性。

        參考文獻:

        [1] RIVERO L. Encyclopedia of database technologies and applications[M]. IGI Publishing, 2005.

        [2] 張彪. 文本分類中特征選擇算法的分析與研究[D]. 合肥:中國科學技術(shù)大學, 2010.

        [3] 劉婷婷,朱文東,劉廣一. 基于深度學習的文本分類研究進展[J]. 電力信息與通信技術(shù), 2018(3):59-63.

        [4] 唐曉麗,白宇,張桂平,等. 一種面向聚類的文本建模方法[J]. 山西大學學報:自然科學版, 2014, 37(4):595-600.

        [5] PIAO S,WHITTLE J. A feasibility study on extracting twitter users' interests using NLP tools for serendipitous connections[C].IEEE Third International Conference on Privacy, Security, Risk and Trust. IEEE, 2012:910-915.

        [6] 唐曉波,嚴承希. 基于旋進原則和支持向量機的文本情感分析研究[J]. 情報理論與實踐,2013,36(1):98-103.

        [7] 魏勇. 關(guān)聯(lián)語義結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法[J]. 控制工程,2018(2):167-172.

        [8] 趙明,杜會芳,董翠翠,等. 基于Word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機械學報, 2017, 48(10):202-208.

        [9] ZHANG W,TANG X,YOSHIDA T. Text classification with support vector machine and back propagation neural network[M].Computational Science-ICCS 2007. Springer Berlin Heidelberg,2007:150-157.

        [10] PACCANARO A,HINTON G E. Learning distributed representations of concepts using linear relational embedding[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 13(2):232-244.

        [11] 何躍,鄧唯茹,張丹. 中文微博的情緒識別與分類研究[J]. 情報雜志,2014(2):136-139.

        [12] 劉勇,全廷偉. 基于DAG-SVMS的SVM多分類方法[J]. 統(tǒng)計與決策,2007(20):146-148.

        [13] SANTOS C N D,GATTIT M. Deep convolutional neural networks for sentiment analysis of short texts[C].International Conference on Computational Linguistics,2014.

        [14] KIM Y. Convolutional neural networks for sentence classification[J]. Eprint Arxiv, 2014(5):215-219.

        [15] ELMAN J L. Finding structure in time[J]. Cognitive science,1990,14(2):179-211.

        [16] HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

        (責任編輯:杜能鋼)

        猜你喜歡
        長短期記憶網(wǎng)絡(luò)文本分類支持向量機
        LSTM—RBM—NMS模型下的視頻人臉檢測方法研究
        餐飲業(yè)客流預(yù)測的深度聯(lián)合模型
        商情(2018年47期)2018-11-26 09:12:38
        基于LSTM的媒體網(wǎng)站用戶流量預(yù)測與負載均衡方法
        基于LSTM自動編碼機的短文本聚類方法
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        動態(tài)場景中的視覺目標識別方法分析
        論提高裝備故障預(yù)測準確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于蟻群智能算法的研究文本分類
        国产成人免费a在线视频| 少妇下面好爽好紧好湿一区二区| 丰满少妇按摩被扣逼高潮| 国产精品久久久久久一区二区三区| 男女啪啪永久免费观看网站| 国产女人精品视频国产灰线| 蜜臀av一区二区三区人妻在线| 日本一区二区视频免费在线观看| 国产一区二区三区仙踪林| 亚洲日韩中文字幕无码一区| 人妻丝袜无码国产一区| 无码国产精品一区二区免费网曝| 无人视频在线播放在线观看免费| 国产精品又湿又黄九九九久久嫩草 | 夜鲁很鲁在线视频| 推油少妇久久99久久99久久| 久久精品国产成人午夜福利| 91精品国产高清久久福利| 日韩经典午夜福利发布| 国产乱码一二三区精品| 亚洲成AⅤ人在线观看无码| 看全色黄大黄大色免费久久| av免费在线国语对白| 国产精品人人做人人爽人人添 | 国产成人啪精品视频免费网 | 真实的国产乱xxxx在线| 欧妇女乱妇女乱视频| 男女好痛好深好爽视频一区 | 国产精品成人久久一区二区| 四季极品偷拍一区二区三区视频| 成人免费无码大片a毛片抽搐色欲| av无码天堂一区二区三区| 三级国产女主播在线观看| 国产精品午夜福利亚洲综合网| 久久伊人最新网址视频| 欧美乱妇高清无乱码在线观看 | 色综合久久五十路人妻| 久久精品国产熟女亚洲| 免费人成视频xvideos入口| 无码之国产精品网址蜜芽| 午夜亚洲精品视频网站|