亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權(quán)詞向量和LSTM-CNN的微博文本分類(lèi)研究

        2018-10-22 01:48:40馬遠(yuǎn)浩曾衛(wèi)明石玉虎徐鵬
        現(xiàn)代計(jì)算機(jī) 2018年25期
        關(guān)鍵詞:分類(lèi)文本信息

        馬遠(yuǎn)浩,曾衛(wèi)明,石玉虎,徐鵬

        (上海海事大學(xué)信息工程學(xué)院,上海201306)

        0 引言

        隨著信息時(shí)代的來(lái)臨,各種社交媒體得到了迅速發(fā)展。其中,微博作為一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的社交網(wǎng)絡(luò)平臺(tái),越來(lái)越多的網(wǎng)民選擇利用微博來(lái)發(fā)表自己的觀點(diǎn)情感。由于微博文本內(nèi)容的長(zhǎng)度限定在140個(gè)字符以內(nèi),與傳統(tǒng)的評(píng)論內(nèi)容長(zhǎng)度相差較大,內(nèi)容簡(jiǎn)短,其原創(chuàng)性特別強(qiáng)。因此,對(duì)微博文本數(shù)據(jù)進(jìn)行分析挖掘,從中發(fā)掘出用戶的興趣愛(ài)好、發(fā)現(xiàn)熱點(diǎn)話題、以及開(kāi)發(fā)個(gè)性化推薦系統(tǒng)都具有非常大的研究?jī)r(jià)值。然而,由于微博其龐大的數(shù)據(jù)信息量以及文本語(yǔ)言信息不規(guī)范性等原因,使得要從這些龐大的文本信息中去分析判斷人們的情感態(tài)度變得非常困難,所以僅僅依靠傳統(tǒng)的人工方法進(jìn)行挖掘分析顯然不夠準(zhǔn)確。因此,想要在最短的時(shí)間內(nèi)挖掘出有價(jià)值的文本信息,就需要一些自動(dòng)化的文本信息挖掘技術(shù)的幫助。其中,自然語(yǔ)言處理技術(shù)(NLP)是目前解決該類(lèi)問(wèn)題的重要途徑,通過(guò)對(duì)微博上用戶發(fā)表的評(píng)論進(jìn)行分析,可從中判斷出用戶的主觀情感傾向。

        自上世紀(jì)50年代開(kāi)始就已經(jīng)開(kāi)始了對(duì)文本分類(lèi)的研究。Zhang等[1]利用One-hot Representation對(duì)文本進(jìn)行向量化表示的基礎(chǔ)上,借助支持向量機(jī)(Sup?port Vector Machine,SVM)和反向傳播(Back Propaga?tion,BP)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)文本的高效分類(lèi)。Hinton等人[2]提出了Distributed Representation概念,通稱詞向量(Word Embedding)。龔靜等人[3]利用改進(jìn)的TF-IDF算法提取文本特征,并利用樸素貝葉斯分類(lèi)器進(jìn)行文本分類(lèi)。豆孟寰[4]基于N-Gram統(tǒng)計(jì)語(yǔ)言模型對(duì)文本分類(lèi),N-Gram模型根據(jù)每個(gè)詞出現(xiàn)在其前面n個(gè)詞的概率來(lái)表示文本。Bengio等人[5]提出用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型,一定程度上解決了N-Gram模型的問(wèn)題。上述方法分析過(guò)程中對(duì)文本進(jìn)行數(shù)值化表示時(shí)面臨數(shù)據(jù)稀疏以及建模之間語(yǔ)義相似度較大等問(wèn)題。

        針對(duì)上述問(wèn)題,本文首先利用Google提出的一個(gè)NLP工具Word2Vec進(jìn)行微博文本詞向量訓(xùn)練,同時(shí)通過(guò)TF-IDF模型對(duì)詞向量進(jìn)行加權(quán)賦值,判斷出詞語(yǔ)之間的重要程度。其次,對(duì)于輸入樣本數(shù)據(jù)的序列化,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠有效地對(duì)鄰近位置信息進(jìn)行整合。其中,RNN的子類(lèi)LSTM(Long Short-Term Memory)模型是為了解決RNN的Gradient Vanish的問(wèn)題所提出的。因此,本文在上述詞向量的基礎(chǔ)上,借助LSTM與CNN混合模型對(duì)微博文本內(nèi)容進(jìn)行自動(dòng)選擇特征,進(jìn)而實(shí)現(xiàn)準(zhǔn)確分類(lèi)。

        1 方法

        1.1方法流程

        首先,文本分類(lèi)需要對(duì)數(shù)據(jù)集進(jìn)行必要的預(yù)處理。然后,利用Word2Vec模型與TF-IDF模型進(jìn)行詞向量訓(xùn)練;最后,采用LSTM與CNN神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,最后用Softmax分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè)。其分析流程圖如圖1所示。

        圖1 方法流程圖

        1.2文本預(yù)處理

        微博上的文本數(shù)據(jù)帶有大量的噪聲,例如不規(guī)范的字符、標(biāo)點(diǎn)等,這些噪聲會(huì)干擾我們對(duì)文本信息的挖掘,所以在文本分類(lèi)前首先要將數(shù)據(jù)集進(jìn)行預(yù)處理。

        因?yàn)橹形呐c英文不同,中文以字為單位,單獨(dú)的字不能表達(dá)意思,因此對(duì)中文文本分類(lèi)要進(jìn)行分詞處理。本文采用Python的結(jié)巴(Jieba)分詞模塊,以精確模式進(jìn)行分詞。中文停用詞對(duì)文本研究沒(méi)有太大價(jià)值,故需將文本中介詞、代詞、虛詞等停用詞以及特殊符號(hào)去除。

        1.3詞向量訓(xùn)練

        Word2Vec是一款Google開(kāi)源的詞向量計(jì)算工具,通常采用CBOW和Skip-Gram兩種模型。與傳統(tǒng)的詞向量相比,Word2Vec詞向量的維度通常在100-300維之間,減少了計(jì)算的復(fù)雜度。

        本文采用Skip-Gram模型,Skip-Gram與CBOW正相反,給定input word來(lái)預(yù)測(cè)上下文,而COBW是給定上下文,來(lái)預(yù)測(cè)input word。該模型包括三個(gè)層:輸入層、投影層和輸出層,如圖2所示。

        圖2 Skip-Gram模型

        Skip-Gram模型的訓(xùn)練目標(biāo)就是使得下式的目標(biāo)值最大:

        其中,c>0是窗口的大小,T是訓(xùn)練文本的大小。并利用梯度下降法對(duì)其進(jìn)行優(yōu)化?;镜腟kip-gram模型計(jì)算條件概率如下式:

        其中,vw和v′w分別是詞w的輸入和輸出向量。

        1.4 LSTM分類(lèi)算法

        LSTM是長(zhǎng)短期記憶網(wǎng)絡(luò),是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),屬于RNN的一個(gè)變種,主要就是在它的算法中加入一個(gè)判斷信息是否有用的“處理器”,這個(gè)結(jié)構(gòu)被稱為cell,通過(guò)精心設(shè)計(jì)的結(jié)構(gòu)來(lái)去除或者增加信息到細(xì)胞狀態(tài)的能力。如圖3所示。

        圖3 LSTM cell結(jié)構(gòu)

        LSTM的第一步是決定我們要從細(xì)胞狀態(tài)中扔掉哪些信息。該決定由一個(gè)叫做“遺忘門(mén)”的Sigmoid層控制。首先讀取ht-1和xt,使用Sigmoid函數(shù)輸出一個(gè)在0-1之間的數(shù)。0表示“完全舍棄”,1表示“完全保留”,ft的計(jì)算公式為:

        式中σ表示sigmoid函數(shù),Wf遺忘門(mén)權(quán)重,bf遺忘門(mén)偏置。

        更新值為it,它決定我們要更新什么值。另一部分是tanh層創(chuàng)造了一個(gè)新的候選值向量Cˉt,該值會(huì)被加入到細(xì)胞狀態(tài)中去。

        式中σ為sigmoid函數(shù),wi更新門(mén)權(quán)重,bi更新門(mén)偏置,tanh雙曲正切函數(shù),wc更新候選值,bc更新候選值偏置,候選值

        最后將舊狀態(tài)與ft相乘,丟棄我們確定要丟棄的信息,根據(jù)我們所需要的狀態(tài)變化。

        其中,Ct表示新?tīng)顟B(tài)。最后,我們決定最后的輸出,公式如下所示:

        式中wo更新輸出值的權(quán)重,bc更新輸出值偏置,ht最終確定輸出的那部分。LSTM通過(guò)梯度下降法實(shí)現(xiàn)損失函數(shù)最小化的參數(shù)估計(jì)。

        1.5 LSTM-CNN混合模型

        為了有效提高微博文本分類(lèi)的準(zhǔn)確率,本文提出了一個(gè)LSTM-CNN的混合模型,模型結(jié)構(gòu)如圖4所示:

        (1)卷積層

        首先,卷積層接受大小為n×d的微博詞向量特征矩陣X,矩陣X的每一行為句子中一個(gè)詞的詞向量。然后選取尺寸為m×d的卷積核w∈Rm×d對(duì)矩陣X進(jìn)行卷積操作得到向量值vi。卷積過(guò)程如下式所示:

        式中f表示ReLU(Rectified Linear Units)激活函數(shù),m表示卷積計(jì)算滑動(dòng)窗口大小,b為偏置項(xiàng),Xi:i+m-1表示在X的第i行到第i+m-1行范圍內(nèi)抽取的局部特征。ReLU激活函數(shù)如下式所示:

        (2)池化層

        最大池化(max pooling)采用Pooling窗口中最大值作為采樣值,能夠有效的降低網(wǎng)絡(luò)訓(xùn)練參數(shù)及模型的過(guò)擬合程度。因此,在完成卷積計(jì)算后采用最大池化的方法。

        (3)Softmax層

        最后將LSTM層的輸出送入Softmax分類(lèi)器進(jìn)行分類(lèi),公式如下所示:

        其中,p(y=i|x;θ)為樣本x屬于i類(lèi)的概率。

        2 實(shí)驗(yàn)結(jié)果分析

        2.1實(shí)驗(yàn)數(shù)據(jù)

        本文所采用的數(shù)據(jù)來(lái)自CSDN(https://www.csdn.net/)下載的微博文本數(shù)據(jù),該數(shù)據(jù)集經(jīng)過(guò)繁簡(jiǎn)轉(zhuǎn)換、去重、去掉4字以下過(guò)短評(píng)論,形成最終的數(shù)據(jù)集。數(shù)據(jù)集提供了3000條已標(biāo)注立場(chǎng)類(lèi)別的訓(xùn)練數(shù)據(jù),1000條已知立場(chǎng)標(biāo)簽的測(cè)試數(shù)據(jù)。數(shù)據(jù)集共分為五個(gè)描述主體,分別是:#春節(jié)放鞭炮,#深圳禁摩限電,#俄羅斯在敘利亞的反恐行動(dòng),#iPhone SE,#開(kāi)放二胎。

        2.2分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)

        為了評(píng)價(jià)本文提出的模型對(duì)分類(lèi)結(jié)果的準(zhǔn)確性,實(shí)驗(yàn)采用了常用的分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)——精確率對(duì)模型進(jìn)行檢驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果建立兩分類(lèi)結(jié)果混合矩陣如下表1所示:

        表1 兩類(lèi)分類(lèi)結(jié)果混合矩陣

        文本分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)繼承信息檢索評(píng)價(jià)指標(biāo),一般采用精度(precision)、召回率(recall)、F-score和準(zhǔn)確率(accuracy)。根據(jù)表(1)可得它們的計(jì)算公式如下:

        實(shí)際應(yīng)用中,通常使用precision和recall加權(quán)調(diào)和平均作為一個(gè)綜合的評(píng)價(jià)標(biāo)準(zhǔn),稱之為F-score:

        2.3實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證本文提出的LSTM-CNN混合模型的有效性,本文進(jìn)行了四組實(shí)驗(yàn),分別是基于Word2Vec和SVM,基于Word2Vec和LSTM,基于Word2Vec加權(quán)詞向量和LSTM以及基于Word2Vec加權(quán)詞向量和LSTM-CNN,得到了如表2所示的實(shí)驗(yàn)結(jié)果。

        表2 實(shí)驗(yàn)結(jié)果

        從表2中實(shí)驗(yàn)結(jié)果可知,相比于傳統(tǒng)機(jī)器學(xué)習(xí)SVM,LSTM具有更高的準(zhǔn)確率。而將Word2Vec詞向量加權(quán)后準(zhǔn)確率提高了3%左右。但是基于本文提出的LSTM-CNN混合模型要比LSTM分類(lèi)效果更高。由此可以得到,基于Word2Vec與TF-IDF合并模型,可以很好地降低向量的維度和高稀疏性。然后利用LSTM-CNN混合模型對(duì)文本特征進(jìn)行提取,進(jìn)行微博文本分類(lèi)具有良好的效果。

        3 結(jié)語(yǔ)

        本文的Word2Vec模型加上TF-IDF模型相比于傳統(tǒng)模型,解決了傳統(tǒng)向量空間模型的高維稀疏特征,還解決了傳統(tǒng)模型所不具有的語(yǔ)義特征,但是因?yàn)閃ord2Vec模型無(wú)法識(shí)別詞的權(quán)重,所以引入TF-IDF模型計(jì)算詞向量的權(quán)重,結(jié)合兩種模型,最后用LSTMCNN混合模型進(jìn)行特征提取,最后利用Softmax分類(lèi)器進(jìn)行分類(lèi),取得了較好的結(jié)果。但是本文對(duì)數(shù)據(jù)的大小,數(shù)據(jù)的復(fù)雜性沒(méi)有進(jìn)行更深層次的研究,還有更多的影響因素影響文本分類(lèi)的準(zhǔn)確性。

        猜你喜歡
        分類(lèi)文本信息
        分類(lèi)算一算
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        亚洲AV日韩AV高潮喷潮无码| 婷婷色香五月综合激激情| 伊人久久精品久久亚洲一区 | 人妻丰满熟妇aⅴ无码| 国产98在线 | 日韩| 国产成人亚洲综合一区 | 免费无码又爽又刺激网站直播| 午夜福利92国语| 伊人亚洲综合网色AV另类| 97超碰国产一区二区三区| 国产一区二区三区天堂| 国产高跟黑色丝袜在线| 四虎影视国产在线观看精品| 亚洲国产av一区二区三| 亚洲av乱码二区三区涩涩屋| 国模雨珍浓密毛大尺度150p| 中文在线天堂网www| 无码无在线观看| 大香蕉国产av一区二区三区| 人人人妻人人澡人人爽欧美一区| 无码丰满少妇2在线观看| 一区二区三区在线视频免费观看 | 国产亚洲一区二区三区成人| 久久一区二区三区久久久| 色一情一乱一伦| 欧美日韩综合网在线观看| 亚洲中文字幕不卡一区二区三区 | 性一乱一搞一交一伦一性| 日韩中文字幕久久久经典网| 国产精品综合女同人妖| 精品国际久久久久999波多野| 韩日美无码精品无码| 午夜无码国产18禁| 国产日产一区二区三区四区五区| 人与动牲交av免费| 日韩欧美第一页| 一区二区三区成人av| 天天躁夜夜躁av天天爽| 亚洲碰碰人人av熟女天堂| 开心激情站开心激情网六月婷婷| 国产一区二区三区在线观看第八页 |