亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法

        2018-10-26 11:32:38江澤裔吳志剛
        科技資訊 2018年13期
        關(guān)鍵詞:機器學習

        江澤裔 吳志剛

        摘 要:文本分類一直是自然語言處理中一個備受關(guān)注的問題,在郵件分類、文件檢索、用戶情感識別等領(lǐng)域有著廣闊的應(yīng)用。同時人工智能飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域取得了巨大的成功,本文則在傳統(tǒng)方法基礎(chǔ)上,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在中文短文本分類任務(wù)中。與英文文本不同,中文文本文字連貫、搭配豐富,從而存在著文本的特征維度高,特征稀疏等問題。本文將卷積神經(jīng)網(wǎng)絡(luò)和Word2vec的Skip-gram方法結(jié)合,應(yīng)用在短文本分類中。首先利用Skip-gram得到文本的詞向量表示,然后用卷積神經(jīng)網(wǎng)絡(luò)從向量化的文本中提取特征,在用這些提取出來的特征進行文本分類。實驗結(jié)果與傳統(tǒng)機器學習方法相比較,獲得了更高的準確性,驗證了卷積神經(jīng)網(wǎng)絡(luò)在短文本分類中的有效性。

        關(guān)鍵詞:卷積神經(jīng)網(wǎng) 絡(luò)文本分類 機器學習

        中圖分類號:TP391.4 文獻標識碼:A 文章編號:1672-3791(2018)05(a)-0013-03

        隨著信息技術(shù)的普及以及存儲介質(zhì)的發(fā)展,人們所接觸的文本信息正在呈指數(shù)級增長,在整理、篩選和處理文本信息耗費的時間和精力也越來越多。智能的文本分類算法在快速整理海量文件庫,提高篩選效率等工作中有著重要意義。

        針對文本分類的課題,國內(nèi)外學者都有廣泛的研究。傳統(tǒng)的文本分類方法有向量空間法、K-最近鄰、決策樹、支持向量機等方法[1]。這些方法在文本分類中取得了不錯的效果,但是在表示短文本時會出現(xiàn)特征向量維度過高和數(shù)據(jù)稀疏的問題,同時這些特征值不能夠保存詞語的語法信息和相關(guān)的語義信息。針對這個問題,H.Saif,et al提出了SentiCircles的方法動態(tài)的更新字典中詞匯的權(quán)值,從而表達文本的含義[2]。Agarwal,et al提出了通過自然語言的語法形式等手段來進行特征提取[3]。這些方法雖然能夠提取更多的特征信息,但是這些條件同時也限制了特征提取的泛化能力[4]。

        同時,深度學習的蓬勃發(fā)展,在圖像識別,語音識別等領(lǐng)域的成功應(yīng)用,使得其很多的理論基礎(chǔ)和先進技術(shù)自然的被引用在自然語言處理的領(lǐng)域。

        Yoon Kim使用了含有一個卷積層的卷積神經(jīng)網(wǎng)絡(luò)對英文斷句進行分類,對比了隨機初始化、預訓練詞向量、靜態(tài)輸入矩陣和動態(tài)輸入矩陣等不同的方法,并得出靜態(tài)輸入矩陣的模型分類效果較好[5]。Kalchbrenner提出來一種名為動態(tài)卷積網(wǎng)絡(luò)(DCNN)的模型,該模型采用了動態(tài)池化的方法,不需要先驗知識的輸入,也不需要人工提取特征[5]。Baotian Hu,et al則利用卷積神經(jīng)網(wǎng)絡(luò)則關(guān)注對英文短句的建模,通過設(shè)置一個最大句子長度,對相對較短的句子采用0填充的方式解決解決不同長度句子輸入的問題[6]。

        然而,傳統(tǒng)方法通常關(guān)注文本的統(tǒng)計信息,忽略了詞匯、句子之間的結(jié)構(gòu)關(guān)系,同時,中文文本內(nèi)容表達多樣,蘊含意蘊深厚,語句結(jié)構(gòu)信息是不可或缺的一部分。本文將采用一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,不僅僅包含文本詞匯信息,還加入了詞匯結(jié)構(gòu)上的特征,應(yīng)用于文本分類問題中,并取得了良好的實驗結(jié)果。

        1 文本分類的過程

        文本分類是指將給定文本按其內(nèi)容特點歸到一個或多個預先定義的文本類別的過程,主要包括文本預處理,文本表示、特征選擇、特征提取、分類器分類。

        1.1 文本預處理

        與英文不同,中文文本在預處理時,通常要完成兩個步驟:首先對文本進行分詞,將一整段文本分割成獨立的詞匯,另外中文短文本中含有較多維持文本結(jié)構(gòu)的停用詞,往往是“的”“地”“我們”等。這些詞匯不僅不能反映文本的主旨,還會對提取關(guān)鍵詞等操作產(chǎn)生較大的影響,因此需將其過濾。為了使得結(jié)果有意義,訓練文本和測試文本需使用相同的預處理方法,即相同的分詞方法,相同的刪去停用詞規(guī)則,以及相同的特征選擇和文本表示方式[1,7]。

        1.2 文本表示

        對處理過的文本信息進行合理的建模,使得計算機能夠高效的處理。通常建模方法有向量空間模型,布爾模型和概率模型等。向量空間模型是目前使用最廣泛的一種文本表示方式。該模型通過構(gòu)造一個多維度的向量空間,每一個維度表示特征集中的一個特征詞,使得文本之間的相似度可以通過向量之間的相似度來計算。

        1.3 特征選擇和特征提取

        短文本經(jīng)過預處理之后,特征詞的數(shù)量很多,直接利用這些特征詞進行分類容易引起維度災(zāi)難等問題。同時,還有一部分的特征詞在分類算法中的貢獻較小,甚至會對分類結(jié)果產(chǎn)生更差的影響。通常會對預處理之后的特征集進行特選擇或特征提取。

        特征選擇是在當前的特征集中,選擇有利于算法分類的子集,而特征提取則將當前的特征集轉(zhuǎn)化成另一種表現(xiàn)形式,是將原來的特征集變?yōu)楦邔哟胃映橄蟮募稀?/p>

        常用的特征選擇方法有信息增益(Information Gain)和互信息(Mutual Information)等。特征提取的方法則有隱性語義索引(LSI)以及潛在狄利克雷分配模型(LDA)等主題模型的方式。近年來卷積神經(jīng)網(wǎng)絡(luò)、Doc2vec模型等方法也有很大的發(fā)展,并獲得很不錯的結(jié)果。

        經(jīng)過特征選擇或特征提取的后,最終得到短文本的詞向量表示方式,再選擇不同的分類算法對其進行分類處理[1]。

        2 實驗過程

        為驗證CNN在短文本數(shù)據(jù)集上的分類效果,本文對比了CNN、SVM和KNN這3種方法,并結(jié)合各個算法的特點分析了實驗結(jié)果[8,9]。

        2.1 數(shù)據(jù)預處理

        本次實驗選用的數(shù)據(jù)庫是搜狐實驗室中新聞類的文本數(shù)據(jù),包括汽車、財經(jīng)、IT等10個類別,共約10萬篇文檔。并使用jieba中文分詞組件對文本進行分詞,jieba中文分詞組件還擁有詞性標注功能,能夠?qū)φZ句分詞后的每個詞匯標注詞性,這樣就能根據(jù)詞性刪去大部分的停用詞。以文本中財經(jīng)類的一段文本為例:

        原始文本:這家公司2005年年底注冊用戶達到400萬,計劃今年注冊用戶突破1000萬,號稱是國內(nèi)最大的第三方網(wǎng)絡(luò)支付平臺。

        分詞結(jié)果:這家/公司/2005/年/年底/注冊/用戶/達到/400/萬/,/計劃/今年/注冊/用戶/突破/1000/萬/,/號稱/是/國內(nèi)/最大/的/第三方/網(wǎng)絡(luò)/支付/平臺/。

        去除停用詞:這家公司注冊用戶達到計劃注冊用戶突破號稱國內(nèi)最大網(wǎng)絡(luò)支付平臺分詞完成之后,用Word2vec方法將字詞轉(zhuǎn)為計算機可以理解的稠密向量。Word2vec分為CBOW和Skip-Gram兩種模式,由于本次實驗的訓練文本數(shù)量充足,Skip-gram模型的表現(xiàn)更佳,則將每個特征詞通過Skip-gram模型得到一個維度為100的特征向量,使得文本信息能夠被計算機所識別和計算

        2.2 實驗過程

        本次研究中選擇的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,文本預處理完成生成的詞向量,經(jīng)由輸入層輸入到卷積層中,卷積層之后是一個池化層,最后通過全連接層輸出結(jié)果。

        Ye Zhang,et al基于Yoon Kim的研究結(jié)果,測試了不同結(jié)構(gòu),不同參數(shù)設(shè)置的神經(jīng)網(wǎng)絡(luò)在文本分類實驗中的性能。通過對比實驗,卷積核深度為100~200,同時詞向量的維度在100~200,卷積核的大小為3×3,4×4,5×5時效果較好。本次試驗中。模型在數(shù)據(jù)集上訓練過程如圖2所示。

        從圖2中可以看出,經(jīng)過迭代訓練,模型收斂情況良好,當?shù)螖?shù)超過1000次時,模型分類精度在90%以上,超過5000次迭代后,模型精度達到95%。

        實驗設(shè)計了卷積神經(jīng)網(wǎng)絡(luò)方法與另外兩種常用的分類方法對比,隨機選取了汽車、財經(jīng)和旅游3個領(lǐng)域的短文本進行測試。

        從表1可以看出,不同方法在測試數(shù)據(jù)集上的表現(xiàn)差異較大,KNN方法在整體上遜色于SVM和CNN方法,同時SVM方法與CNN方法的效果大致相當,但CNN方法的總體表現(xiàn)略好于SVM方法。

        3 結(jié)果分析

        KNN通過測試短文本與訓練庫中的短文本相似度來進行分類的,與其附近K個短文本中相同類別最多的那些文本同類,這種方法存在著較大的弊端,首先不同領(lǐng)域的文本可能存在著較多的相似內(nèi)容,比如,有關(guān)“自駕游”的文本可能存在著較多汽車的內(nèi)容,但并非屬于汽車類。

        SVM的分類效果也很好,但由于CNN中還存在著文章詞匯結(jié)構(gòu)的信息,這些信息在分類過程中也有比較重要的作用,例如,開頭結(jié)尾處的詞匯往往是與文章主旨相關(guān),因此卷積神經(jīng)網(wǎng)絡(luò)的性能會略勝一籌。

        4 結(jié)語

        本文實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在中文文本分類中的應(yīng)用,并在中文短文本分類上取得了較好的效果。較之傳統(tǒng)方法,該方法提高了分類精度,且自動的提取特征,不需要人為的設(shè)計,實現(xiàn)過程更加方便快捷。

        但是該模型仍有需要改進的地方。神經(jīng)網(wǎng)絡(luò)模型通常存在著訓練周期長,參數(shù)調(diào)整較難的情況,在保證模型分類精度的同時,引入其他算法以提高神經(jīng)網(wǎng)絡(luò)的訓練效率將是之后研究的重中之重。

        參考文獻

        [1] 朱磊.基于Word2vec詞向量的文本分類研究[D].西南大學,2017.

        [2] Saif H, He Y, Alani H. Semantic sentiment analysis of twitter[A]. International semantic web conference[C]. 2012:508-524.

        [3] Agarwal A, Xie B, Vovsha I, et al. Sentiment analysis of twitter data[A]. Proceedings of the workshop on languages in social media[C].2011:30-38.

        [4] Kouloumpis E,Wilson T,Moore JD.Twitter sentiment analysis: The good the bad and the omg[A]. International Conference on Weblogs & Social Media[C].2011:164.

        [5] Kim Y. Convolutional neural networks for sentence classification[D].Cornell University,2014.

        [6] Hu B,Lu Z,Li H,et al.Convolutional neural network architectures for matching natural language sentences[A].Advances in neural information processing systems[C].2014:2042-2050.

        [7] 石志偉,劉濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應(yīng)用,2005(29):180-183.

        [8] 平源.基于支持向量機的聚類及文本分類研究[D].北京郵電大學,2012.

        [9] 殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J].計算機工程,2017(5):1-6.

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應(yīng)用
        无码国产色欲xxxx视频| 一区二区三区精品偷拍av| 综合成人亚洲网友偷自拍| 亚洲男女内射在线播放| 国产精品亚洲一区二区在线观看| 日本a在线看| 丝袜美腿久久亚洲一区| 黄片小视频免费观看完整版 | 亚洲av天天做在线观看| 91天堂素人精品系列全集亚洲| 中文少妇一区二区三区| 97人妻精品一区二区三区男同| 一本一道波多野结衣av中文 | 亚洲精品白浆高清久久| 久久久精品人妻一区二区三区游戏 | 高清不卡av在线播放| 九九在线中文字幕无码| 无码人妻精品一区二区三区在线| mm在线精品视频| 亚洲视频在线观看第一页| 国模雨珍浓密毛大尺度150p| 国产不卡一区二区三区免费视 | 国产麻豆成人精品av| 国产极品美女高潮无套| av无码久久久久不卡网站下载| 国产一区二区欧美丝袜| 一区二区高清免费日本| 品色堂永远免费| 麻豆91免费视频| 国产精品三级国产精品高| 无码人妻久久一区二区三区免费丨 | 午夜无码一区二区三区在线| 亚洲熟女av一区少妇| 国产成人av在线免播放观看新| 性一交一乱一伦| 久久视频在线视频精品| 亚洲女人毛茸茸粉红大阴户传播| 亚洲欧洲∨国产一区二区三区| 国产成人香蕉久久久久| 国产剧情av麻豆香蕉精品| 40岁大乳的熟妇在线观看|