亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的HMM模型在特征抽取上的應(yīng)用

        2018-04-25 07:36:16,
        關(guān)鍵詞:語義特征模型

        ,

        (西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)

        0 引言

        傳統(tǒng)的情感分析方式是基于簡單統(tǒng)計(jì)的情感傾向分類,Tsou等[1]利用大眾對(duì)名人的評(píng)價(jià)語料,全面地統(tǒng)計(jì)分析極性元素分布密度和語義強(qiáng)度得到詞語的語義傾向。

        接著,基于機(jī)器學(xué)習(xí)的文本傾向性研究開始興起,Pang 等[2-3]利用bag-of-words 技術(shù)并且樸素貝葉斯、最大熵、支持向量機(jī)(SVM)分類器方法對(duì)電影影評(píng)進(jìn)行情感傾向分析;Whitelaw 等[4]提取文本中形容詞和修飾語詞組作為特征結(jié)合詞袋技術(shù)形成向量空間模型并采用 SVM 對(duì)電影影評(píng)分類;Turney使用一些固定句法模式來抽取基于詞性標(biāo)注的標(biāo)簽。Taboada[5]提出基于詞庫的方法,用帶有一定傾向和強(qiáng)度的情感詞及詞組的詞典采用集約化方法計(jì)算每個(gè)文本的情感分值。向量空間模型的假設(shè)是特征與特征之間是相互獨(dú)立的(正交假設(shè)),這在實(shí)際中難以滿足。

        為了改善向量空間模型的缺陷,LSA(Latent Semantic Analysis)[6]潛在語義分析的方法被提出了,并且在信息檢索方面取得了一定的成功。

        隨著,計(jì)算機(jī)計(jì)算的存儲(chǔ)能力和計(jì)算性能不斷地提高,深度學(xué)習(xí)的方法再次進(jìn)入人們的視野,并成為情感分類研究的熱點(diǎn)。RNN具有很強(qiáng)大的抽取文本信息的能力,并且循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在NLP里應(yīng)用廣泛,論文[7]證明了RNN在文本分類和情感分類上效果很好,但是,RNN解決不了長期依賴的問題,LSTM模型能解決任何長度的序列,并且能夠捕獲長時(shí)間的獨(dú)立性。

        隨著對(duì)word2vec的深入,以及谷歌對(duì)word2vec開源以后,在論文[8]中作者運(yùn)用的是基于word2vec加權(quán)的svm算法,作者通過計(jì)算每一個(gè)文檔當(dāng)中詞語的tf-idf作為權(quán)值,最后得出一個(gè)比較好的結(jié)果。在文章[9]中,作者將連續(xù)的三個(gè)詞作為一個(gè)嵌入向量對(duì)進(jìn)行輸入,通過神經(jīng)網(wǎng)絡(luò)模型,最后測(cè)評(píng)分類結(jié)果,在這篇文章中,所有的詞匯在空間上相鄰,作為一個(gè)輸入,這樣的做法是VSM的擴(kuò)展,相當(dāng)于把詞對(duì)作為一個(gè)單元進(jìn)行處理,忽略了詞對(duì)之間的關(guān)聯(lián)性。因此,對(duì)詞對(duì)的關(guān)聯(lián)性如果按照論文的處理方式是空間位置的相鄰。

        1 特征抽取模型的設(shè)計(jì)

        1.1 概率圖模型

        設(shè)X={x1,…,xk,…,xl}表示的是訓(xùn)練集,xk=(xk1),…,xki),…,xkp),其中k∈{1,2,…,l},i∈{1,2,…,p},xk表示的是第k個(gè)樣本,xki表示的是第k個(gè)樣本中的第i個(gè)觀測(cè)值,l表示的是訓(xùn)練集的樣本容量,p表示的是是組成樣本xk的序列長度。

        集合S={s1,s2,…,sn}為訓(xùn)練集當(dāng)中所有的狀態(tài)集合,集合O={o1,o2,…,om}為觀測(cè)值的集合(其中m為觀測(cè)集合的長度,n為狀態(tài)值的長度)。那么隱馬爾科夫模型所涉及概率圖模型就如圖1。

        圖1 概率圖模型

        圖1表示的是訓(xùn)練集中任意一個(gè)序列對(duì)應(yīng)的狀態(tài)和觀測(cè)值之間的關(guān)系。從上面的概率圖模型中我們可以看出三個(gè)基本的變量,狀態(tài)集,觀測(cè)矩陣,狀態(tài)轉(zhuǎn)移矩陣。因此對(duì)于隱馬爾科夫模型,我們定義三個(gè)最基本的矩陣和向量。狀態(tài)轉(zhuǎn)移矩陣A=[aij] (其中i,j∈{1,2,…,n}),B=[bij],其中i∈{1,2,…,n},j∈{1,2,…,m}。設(shè)π=[π1,π2,…,πn]^T表示狀態(tài)向量,用來表示每個(gè)狀態(tài)的權(quán)重。

        其中對(duì)于以上的aij=P{S=sj|S=si}表示從si狀態(tài)轉(zhuǎn)移到sj狀態(tài)的一步轉(zhuǎn)移概率,A表示的是一步轉(zhuǎn)移概率矩陣,bij=P{S=si|O=oj}表示觀測(cè)值對(duì)應(yīng)的某一個(gè)狀態(tài)的概率值。πi=P{S=si}表示某一個(gè)狀態(tài)對(duì)應(yīng)狀態(tài)概率。

        而對(duì)于訓(xùn)練集要獲得上面三個(gè)參數(shù)Φ=(A,B,π)。針對(duì)自然語言的特殊要求,在構(gòu)建模型之前,我們定義一種運(yùn)算如公式(1):

        α?β=λ

        (1)

        在公式(1)中α、β、λ都是n維向量,對(duì)于它們的任意分量都有λi=αi×βi。

        計(jì)算某一個(gè)觀測(cè)值對(duì)應(yīng)的狀態(tài)表示值用公式(2)進(jìn)行計(jì)算:

        γ=AT·β?π

        (2)

        這里A表示的是狀態(tài)轉(zhuǎn)移矩陣,β表示某觀測(cè)矩陣B中的某一個(gè)觀測(cè)值對(duì)應(yīng)的觀測(cè)向量,π表示的是狀態(tài)向量。

        1.2 獲取HMM的三要素的方法

        在實(shí)驗(yàn)過程中,按照Baum-Welch算法對(duì)構(gòu)成中文的語料庫進(jìn)行訓(xùn)練。獲得隱馬爾科夫模型的三要素Φ=(A,B,π),根據(jù)哈工大語言云得到結(jié)果,其中的隱含變量是詞對(duì)的語義標(biāo)注,觀測(cè)向量是觀測(cè)詞匯,可以獲得馬爾科夫模型的初始化,隨后,根據(jù)Baum-Welch或者EM算法進(jìn)行迭代獲得馬爾科夫模型的三要素,其流程如圖2所示。

        圖2 HMM訓(xùn)練過程

        1.3 MHMM表示詞對(duì)向量

        根據(jù)馬爾科夫鏈的一步轉(zhuǎn)移概率,可以很清楚的知道某一個(gè)詞對(duì)出現(xiàn)的概率。狀態(tài)矩陣表示的是一步轉(zhuǎn)移概率,而詞匯的觀測(cè)矩陣表示的詞對(duì)在每個(gè)狀態(tài)下的觀測(cè)概率。因此,用公式(2)表示的是詞對(duì)在語義特征上的抽取概率和。接下來用馬爾科夫鏈的性質(zhì),說明算法的合理性。

        定義1:轉(zhuǎn)移概率在離散序列馬爾科夫鏈{Xn}中,其具有有限或者無限的狀態(tài)S={s1,s2,…,sn},假設(shè)x=x(tn)表示序列t=tn時(shí)的狀態(tài),則條件轉(zhuǎn)移矩陣表示的是在所有的觀測(cè)序列當(dāng)中從上一步轉(zhuǎn)移到下一個(gè)狀態(tài)的概率統(tǒng)計(jì)值,用其對(duì)應(yīng)的頻率來估計(jì)。即是說轉(zhuǎn)移概率矩陣為P=[pij]=P{x(tn+1)=sj|x(tn)=si},其中sj,si∈S。

        定義2:觀測(cè)向量表示的是,在整個(gè)觀測(cè)當(dāng)中,某一個(gè)觀測(cè)值o在某一個(gè)狀態(tài)上的概率值。假設(shè)觀測(cè)向量用β表示,β是一個(gè)m維的向量。其中假設(shè):

        β={b1,b2,…bi,…,bm}

        其中:對(duì)于bi的解釋表示如下。

        bi=P{S=si|O=o}

        上式表示的是某一個(gè)觀測(cè)詞對(duì)在si狀態(tài)下的概率。

        用馬爾科夫鏈的知識(shí),很容易知道在整個(gè)馬爾科夫過程中,條件轉(zhuǎn)移概率用的是n個(gè)狀態(tài),而每個(gè)狀態(tài)對(duì)應(yīng)的概率為bi,那么一次詞對(duì)向量對(duì)應(yīng)的每個(gè)狀態(tài)的輸出就是:

        P=ATβ

        (3)

        如果再乘以每個(gè)狀態(tài)對(duì)應(yīng)的權(quán)重,上面是用π來表示的,那么就可以看成是這個(gè)詞匯對(duì)在出現(xiàn)的每個(gè)對(duì)應(yīng)的權(quán)重概率值。在公式(3)中,這個(gè)權(quán)重用π表示,這里的π表示的是每個(gè)狀態(tài)在訓(xùn)練集中對(duì)應(yīng)的狀態(tài)的概率。

        而且根據(jù)馬爾科夫鏈的一步轉(zhuǎn)移矩陣,以及在每個(gè)狀態(tài)下的概率分布,很容易算出這個(gè)觀測(cè)變量在每個(gè)狀態(tài)下的概率。因此,用這個(gè)方法來表示一個(gè)語義詞對(duì),具有一定的科學(xué)性。

        2 算法有效性驗(yàn)證

        2.1 數(shù)據(jù)獲取與預(yù)處理

        本文的數(shù)據(jù)集通過網(wǎng)絡(luò)爬蟲,采集了豆瓣的影評(píng)數(shù)據(jù),對(duì)采集的數(shù)據(jù)進(jìn)行后續(xù)處理:第一部是將整個(gè)數(shù)據(jù)集進(jìn)行過濾,把影評(píng)數(shù)據(jù)里面重復(fù)的字段刪除;第二部是將單個(gè)測(cè)評(píng)數(shù)據(jù)當(dāng)中連續(xù)幾個(gè)重復(fù)的詞條進(jìn)行過濾;第三,去除里面的停頓詞。第四部是將評(píng)分替換成差評(píng)和好評(píng),標(biāo)準(zhǔn)是低于6分的判定是差評(píng),高于6分的判定是好評(píng)。

        對(duì)中文分詞,從分詞效果上來看,哈工大的自然語言處理工具的作用效果更好,分詞的正確率較高,而且,本文考慮了隱含變量的運(yùn)用,因此,在進(jìn)行數(shù)據(jù)預(yù)處理的時(shí)候,選擇了哈工大詞云的語義角色標(biāo)注。

        在哈工大的詞云上,根據(jù)詞對(duì)的語義特征,將語義標(biāo)注分成了:施事關(guān)系,當(dāng)事關(guān)系,等等大約100種關(guān)系,而這種關(guān)系可以用這樣的一個(gè)序列表示(x1,x2,…,xn,r)其中xi表示的是某一個(gè)詞語,前面的x1至xn表示的是在語義標(biāo)注里面存在的詞匯,r表示這n個(gè)詞語之間的語義關(guān)系。

        2.2 特征抽取

        2.2.1 RNN

        RNN是循環(huán)神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)單元如圖3所示。

        圖3 RNN單元

        RNN的計(jì)算過程如下,假設(shè)輸入序列是:

        其中xt表示的是一個(gè)n維的向量。

        xt=[x1,x2,…,xn]

        記憶單元的初始值為:

        C=[c1,c2,…,cn]

        RNN的激活函數(shù)為線性激活函數(shù),輸入權(quán)值矩陣為win,輸出權(quán)值矩陣為wout。根據(jù)前向算法,很容易得到的下面的算法:

        (4)

        式中,[x1,Ci-1]中表示將兩個(gè)向量拼接在一起。那么輸出就為:

        oi=wout·Ci

        (5)

        2.2.2 LSTM

        同樣的道理,LSTM單元如圖4所示。

        圖4 LSTM結(jié)構(gòu)示意圖

        可以從圖中看出LSTM由:輸入門、輸出門和遺忘門,三個(gè)門進(jìn)行控制其輸出以及在細(xì)胞單元里面的輸入值和輸出值的變化,而且這三個(gè)門的權(quán)重值都是通過LSTM本身學(xué)到的。

        按照上面的要求,可以得到如下的步驟(以下的σ(·)表示的是sigmoid函數(shù)):

        第一步:決定單元狀態(tài)保留的信息,是通過遺忘門來實(shí)現(xiàn)的。對(duì)應(yīng)的是圖中的ft,其計(jì)算如下:

        ft=σ(wf·[xt,ht-1]+bf)

        (6)

        it=σ(wi·[xt,ht-1])+bi

        (7)

        (8)

        第三步:更新記憶狀態(tài),對(duì)應(yīng)圖中的Ct,其計(jì)算過程如下。

        (9)

        第四步:最后輸出Ot和ht,它們的計(jì)算過程如下:

        Ot=σ(wo·[xt,ht-1])

        (10)

        ht=ot×tanh·(Ct)

        (11)

        運(yùn)用LSTM神經(jīng)單元的多個(gè)層次對(duì)輸入序列進(jìn)行迭代會(huì)產(chǎn)生很多個(gè)輸出,然后在實(shí)驗(yàn)過程中取出序列的最后一個(gè)輸出作為句子向量。

        2.2.3 句子特征抽取方式

        進(jìn)行特征抽取以前,通過哈工大語言云對(duì)原始數(shù)據(jù)進(jìn)行語義分析,并將訓(xùn)練數(shù)據(jù)存儲(chǔ)為json數(shù)據(jù),作為訓(xùn)練數(shù)據(jù),然后根據(jù)里面的詞對(duì)訓(xùn)練HMM的精確參數(shù)(A,B,π),其中A表示狀態(tài)矩陣,B表示觀測(cè)矩陣,π表示狀態(tài)向量。訓(xùn)練HMM的過程如2.2介紹的那樣。在進(jìn)行特征抽取的時(shí)候采用的是MHMM模型,用改進(jìn)的隱馬爾科夫模型對(duì)一個(gè)語義詞對(duì)進(jìn)行表示。并且按照MHMM模型,獲得句子當(dāng)中出現(xiàn)的某一個(gè)詞對(duì)出現(xiàn)的特征按照如圖5所示的過程去進(jìn)行詞對(duì)特征抽取,并將其輸入到LSTM神經(jīng)元中,并且將最后的輸出作為句子特征向量。

        圖5 詞對(duì)向量的訓(xùn)練過程

        考慮到整個(gè)過程當(dāng)中,每個(gè)詞對(duì)形成的詞對(duì)向量存在一定的稀疏性,因此,在對(duì)整個(gè)數(shù)據(jù)輸入到LSTM之前,運(yùn)用softmax函數(shù)對(duì)數(shù)據(jù)進(jìn)行歸一化處理。

        接下來,將特征抽取以后的每個(gè)詞對(duì)向量組成的序列,放入LSTM單元當(dāng)中,用動(dòng)態(tài)RNN對(duì)輸入的詞對(duì)序列迭代處理,神經(jīng)單元的最后一個(gè)輸出向量作為評(píng)論樣本表示的特征向量。

        2.3 情感分類模型建立

        在構(gòu)建模型之前,對(duì)模型輸入的詞對(duì)或者詞匯進(jìn)行了預(yù)訓(xùn)練,獲得句子向量,然后根據(jù)句子向量和類別標(biāo)簽產(chǎn)生分類訓(xùn)練器。在實(shí)驗(yàn)過程中,建立了如下的分類器模型:

        1)基于word2vec的SVM:先將所有的詞匯用word2vec進(jìn)行訓(xùn)練產(chǎn)生了詞向量,對(duì)每一條評(píng)論分詞產(chǎn)生的序列進(jìn)行遍歷獲得詞匯向量后,用每個(gè)分量的其平均值表示句子向量,用這個(gè)句子向量輸入到SVM中進(jìn)行模型訓(xùn)練。

        2)標(biāo)準(zhǔn)的LSTM算法:通過word2vec對(duì)詞匯進(jìn)行訓(xùn)練以后,把詞匯按照分詞順序進(jìn)行排列并按照這個(gè)詞序在word2vec的模型中找到對(duì)應(yīng)的向量,輸入到LSTM的神經(jīng)元中,獲得其句子的向量,最后按照這個(gè)向量進(jìn)行3000次的迭代產(chǎn)生,使用交叉熵作為優(yōu)化器,采用隨機(jī)梯度下降法進(jìn)行優(yōu)化求得最優(yōu)值。

        3)基于詞對(duì)的LSTM算法:通過word2vec對(duì)詞匯進(jìn)行訓(xùn)練以后,將三個(gè)在語序上相鄰的詞匯放在一起,求其平均值,然后將這些平均值作為輸入,輸入至LSTM單元中進(jìn)行計(jì)算,其訓(xùn)練器的優(yōu)化過程同上。

        4)基于MHMM的LSTM算法:通過3.2.3的過程進(jìn)行特征抽取,然后輸入到LSTM的輸入單元中,其優(yōu)化過程和迭代過程同上。

        5)基于隨機(jī)向量的LSTM算法:對(duì)詞向量的初始化采用的是隨機(jī)向量,輸入到LSTM單元當(dāng)中,其訓(xùn)練和優(yōu)化的過程與第二種方式基本相同。

        2.4 MHMM用于情感分類

        基于MHMM的LSTM實(shí)驗(yàn)做法是將評(píng)論集通過訓(xùn)練馬爾科夫模型的三要素,得到每個(gè)單詞對(duì)的詞向量,將它們LSTM的一個(gè)輸入,再將序列按照順序逐個(gè)輸入到LSTM神經(jīng)元中,其處理結(jié)構(gòu)如圖6所示。

        圖6 基于MHMM的LSTM情感分類圖

        輸入層:經(jīng)過LTP產(chǎn)生的語義詞對(duì)。

        MHMM:經(jīng)過MHMM對(duì)產(chǎn)生的詞對(duì)進(jìn)行處理,得到每個(gè)詞對(duì)在語義上產(chǎn)生的概率分布,然后用softmax進(jìn)行歸一化處理,產(chǎn)生的輸出。

        Z:經(jīng)過MHMM產(chǎn)生的輸出,經(jīng)過歸一化處理,用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

        LSTM:LSTM用來作為特征提取的一個(gè)工具,每個(gè)序列都會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)的輸出。

        Softmax層:用softmax層作為分類的依據(jù)。

        根據(jù)以上的說明,MHMM用于LSTM模型的情感分類算法如算法1所示。

        算法1:

        輸入:無標(biāo)簽的數(shù)據(jù)D,訓(xùn)練集D-train,測(cè)試集D-test

        輸出:測(cè)試集的情感標(biāo)簽

        1)將訓(xùn)練集和測(cè)試集中的數(shù)據(jù)進(jìn)行預(yù)處理

        2)獲取隱馬爾科夫參數(shù)(A,B,π),并且用來得到詞匯對(duì)的向量表示

        3)初始化LSTM-RNN的參數(shù),訓(xùn)練模型

        4)For Sentences s in D-train:

        a)對(duì)于s中的每個(gè)詞匯,找到其對(duì)應(yīng)的詞向量,放入輸入層

        b)通過LSTM-RNN產(chǎn)生輸出,用輸出的最后一個(gè)向量作為softmax的輸入。

        c)通過softmax層產(chǎn)生分類的依據(jù)

        d)通過反向傳播調(diào)節(jié)參數(shù)獲得最后的模型

        End for

        5)導(dǎo)出模型,用于測(cè)試集的情感分類

        6)For Sentences s in D-test:

        a)對(duì)于s中的每個(gè)詞匯,找到其對(duì)應(yīng)的詞對(duì)向量,放入輸入層

        b)通過LSTM-RNN產(chǎn)生輸出,用輸出的最后一個(gè)向量作為softmax輸入。

        c)通過softmax層產(chǎn)生分類

        End for

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 實(shí)驗(yàn)測(cè)評(píng)參數(shù)的定義

        本文采用正確率,召回率和f-measure對(duì)分類產(chǎn)生的結(jié)果進(jìn)行測(cè)評(píng),在進(jìn)行測(cè)評(píng)之前首先對(duì)幾個(gè)符號(hào)進(jìn)行定義:

        TP:通過分類算法,將原本的正類預(yù)測(cè)成為正類的數(shù)目;

        FN:通過分類算法,將原本的正類預(yù)測(cè)成為負(fù)類的數(shù)目;

        TN:通過分類算法,將原本的負(fù)類預(yù)測(cè)成為負(fù)類的數(shù)目;

        FP:通過分類算法,將原本的負(fù)類預(yù)測(cè)成為正類的數(shù)目;

        那么,可以定義以下的公式進(jìn)行分類的測(cè)評(píng)。

        正確率:

        (11)

        召回率:

        (12)

        f-measure:

        (13)

        3.2 實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)結(jié)論

        3.2.1 訓(xùn)練階段

        在爬取的豆瓣影評(píng)數(shù)據(jù)集中抽取四萬條左右的評(píng)論數(shù)據(jù),經(jīng)過哈工大詞云進(jìn)行語義角色標(biāo)注,獲得詞對(duì)表示的語義標(biāo)簽,把詞對(duì)作為觀測(cè)矩陣、把語義標(biāo)簽作為潛在的隱含特征,通過訓(xùn)練HMM的三要素獲得了詞對(duì)的表示,并且將這些語義用來訓(xùn)練HMM模型。對(duì)這四萬多條的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)其評(píng)論情感極性見表1。

        表1 訓(xùn)練集情感極性統(tǒng)計(jì)結(jié)果表

        并且將這些特征輸入到LSTM-RNN模型中,并且抽取最后的一個(gè)詞匯特征作為神經(jīng)網(wǎng)絡(luò)的輸入,再進(jìn)行分類,在訓(xùn)練的時(shí)候,選擇的優(yōu)化器是交叉熵,使用隨機(jī)梯度下降法進(jìn)行學(xué)習(xí),其學(xué)習(xí)率設(shè)置為0.0001,在訓(xùn)練模型的時(shí)候,每次用于訓(xùn)練模型的評(píng)論集的batch大小設(shè)置為512條,經(jīng)過大約2千萬次的訓(xùn)練,各個(gè)模型-算法正確率見表2。

        表2 數(shù)據(jù)集情感極性統(tǒng)計(jì)結(jié)果表

        從表中,可以很容易得出的是,運(yùn)用MHMM進(jìn)行特征抽取的效果比詞對(duì)向量進(jìn)行特征抽取的效果要高1個(gè)百分點(diǎn),用詞對(duì)向量進(jìn)行特征抽取比標(biāo)準(zhǔn)的word2vec進(jìn)行詞向量的表示要11個(gè)高百分點(diǎn),因此MHMM的在特征的抽取上有較好的作用效果。

        3.2.2 測(cè)試階段

        通過對(duì)測(cè)試集的情感極性分析獲得了數(shù)據(jù)統(tǒng)計(jì)情況見表3。

        表3 測(cè)試集情感極性統(tǒng)計(jì)結(jié)果表

        通過對(duì)數(shù)據(jù)的測(cè)試,獲取了的測(cè)評(píng)數(shù)據(jù)包括:模型的正確率,模型的召回率和模型的f-score,其詳細(xì)情況見表4。

        從表4中可以看出來,使用三個(gè)模型進(jìn)行特征抽取的時(shí)候,MHMM的正確率比詞對(duì)向量高出1個(gè)百分點(diǎn),比標(biāo)準(zhǔn)的word2vec進(jìn)行特征抽取詞向量的模型高0.04百分點(diǎn)。召回率最大的是運(yùn)用word2vec進(jìn)行特征抽取的模型,其比詞對(duì)向量高2個(gè)百分點(diǎn),比MHMM-LSTM詞向量進(jìn)行特征抽取3個(gè)高百分點(diǎn)。f-score值最高的是使用word2vec進(jìn)行特征抽取的,其比其他兩個(gè)模型高出的百分點(diǎn)依次是:1.5個(gè)百分點(diǎn)和1.4個(gè)百分點(diǎn)。

        運(yùn)用MHMM產(chǎn)生的詞向量和空間相鄰的詞語產(chǎn)生的詞向

        表4 模型測(cè)試 %

        量作為LSTM-RNN細(xì)胞的輸入,進(jìn)行情感分類,通過多輪迭代產(chǎn)生,對(duì)其正確率、召回率和f-score進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明了通過MHMM進(jìn)行預(yù)訓(xùn)練產(chǎn)生的詞對(duì)向量,用于LSTM-RNN分類器中,其性能優(yōu)于空間相鄰的詞對(duì)向量,而詞對(duì)向量的性能優(yōu)于word2vec。

        綜上觀之,運(yùn)用MHMM進(jìn)行特征抽取,進(jìn)行情感分類的作用效果較好。

        參考文獻(xiàn):

        [1] Tsou B K Y, Yuen R W M, Kwong O Y, et al.Polarity classification of celebrity coverage in the Chinese press[A].Proc.of International Conference on Intelligence Analysis[C]. 2005.

        [2] Pang B, Lee L, Vaithyanathan S. Thumbs up?: Sentiment classification using machine learning techniques[A].Proc of the ACL Conference on Empirical Methods in Natural Language Processing[C].Association for Computational Linguistics, 2002:79-86.

        [3] Pang B, Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales[A].Pro. of the 43rd Annual Meeting on Association for Computation Linguistics[C].Association for Computational Linguistics,2005:115-124.

        [4] WhtitelawC,GargN,ArgamonS.Using appraisal groups for sentiment analysis[A].Proc of 14th ACM International Conference on Information and Knowledge Management 2005:625-631.

        [5] Taboada M, Brooke J, Tofiloski M, et al. Lexicon-based methods for sentiment analysis[J]. Computational Linguistics, 2011, 37(2): 267-307.

        [6] Nigam,McCallumA,ThrunS,et al.Learning to classify text from labeled and unlabeled documents[A].Proceedings of the 15th National /10thConferenceon Artificial Intelligence/Innovative Applications of Artificial Intelligence [C].Menlo Park,CA,USA:AAAI Press,1998:792-799.

        [7] Lee Y.Dernoncourt:sequential short-text classification with recurrent and convolutional neural networks(2016).arXiv preprint:2016.

        [8] 李 銳,張 謙,劉嘉勇.基于加權(quán)word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.

        [9] ChiLu et al,A P-LSTM Neural Networksfor Sentiment Classification[J].Jinho Kim .KyuseokLongbing Cao Jae-Gil Lee XueminLin.Yang-Sae moon(eds):105-110.

        猜你喜歡
        語義特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        国产精品久久久久免费看| 免费观看又色又爽又湿的视频| av无码免费永久在线观看| 国产丝袜精品不卡| 美女被搞在线观看一区二区三区| 日本伦理精品一区二区三区| 永久黄网站免费视频性色| 尤物99国产成人精品视频| 国产粉嫩嫩00在线正在播放| 精品久久人妻av中文字幕| 国产亚洲精品成人aa片新蒲金| 99精品热这里只有精品| 亚洲精品中文字幕观看| 亚洲中文字幕综合网站| 国产精品久久久亚洲| 欧美巨大xxxx做受中文字幕| 国色天香精品亚洲精品| 亚洲女同免费在线观看| 337p日本欧洲亚洲大胆| 欧美丰满大爆乳波霸奶水多| 国产日产亚洲系列av| 91精品国自产拍老熟女露脸| 国产一区内射最近更新| 麻豆av传媒蜜桃天美传媒| 国产精品亚洲av网站| 亚洲av高清一区二区在线观看 | 免费视频一区二区三区美女| 人妻激情偷乱视频一区二区三区| 牛鞭伸入女人下身的真视频| 91免费国产| 99精品久久精品一区| 国产乱子伦农村xxxx| 久久精品国产亚洲vr| 亚洲自偷自拍另类第一页| 无套内射在线无码播放| av蓝导航精品导航| 无码av永久免费大全| 青草久久婷婷亚洲精品| 大桥未久亚洲无av码在线| 91精品久久久久含羞草| 亚洲高清一区二区精品|