亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于LDA主題模型的評論文本情感分類方法

        2017-07-24 17:38:30周詠梅陽愛民周劍峰林江豪
        數(shù)據(jù)采集與處理 2017年3期
        關(guān)鍵詞:語料文檔詞語

        王 偉 周詠梅,2 陽愛民,2 周劍峰 林江豪

        (1.廣東外語外貿(mào)大學(xué)思科信息學(xué)院,廣州,510006;2.廣東外語外貿(mào)大學(xué)語言工程與計算實驗室,廣州,510006;3.廣東外語外貿(mào)大學(xué)圖書館,廣州,510006;4.廣東外語外貿(mào)大學(xué)財務(wù)處, 廣州,510420)

        一種基于LDA主題模型的評論文本情感分類方法

        王 偉1周詠梅1,2陽愛民1,2周劍峰3林江豪4

        (1.廣東外語外貿(mào)大學(xué)思科信息學(xué)院,廣州,510006;2.廣東外語外貿(mào)大學(xué)語言工程與計算實驗室,廣州,510006;3.廣東外語外貿(mào)大學(xué)圖書館,廣州,510006;4.廣東外語外貿(mào)大學(xué)財務(wù)處, 廣州,510420)

        針對互聯(lián)網(wǎng)出現(xiàn)的評論文本情感分析,引入潛在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一種分類方法。該分類方法結(jié)合情感詞典,依據(jù)指定的情感單元搭配模式,提取情感信息,包括情感詞和上、下文。使用主題模型發(fā)掘情感信息中的關(guān)鍵特征,并融入到情感向量空間中。最后利用機器學(xué)習(xí)分類算法,實現(xiàn)中文評論文本的情感分類。實驗結(jié)果表明,提出的方法有效降低了特征向量的維度,并且在文本情感分類上有很好的效果。

        評論文本;情感單元;潛在主題;情感分析;機器學(xué)習(xí)

        引 言

        互聯(lián)網(wǎng)的蓬勃發(fā)展方便了網(wǎng)民觀點的表達與傳播,導(dǎo)致出現(xiàn)了大量主觀性的在線文本信息。這些在線文本的情感分析已經(jīng)成為自然語言處理的一個研究熱點。文本情感分析是指對包含用戶表示的觀點、喜好和情感等的主觀性文本進行檢測、分析以及挖掘[1]。對于一些群體性事件,分析網(wǎng)民情緒的變化過程實際上就是對網(wǎng)絡(luò)輿情進行演化建模及趨勢預(yù)測,為有關(guān)部門進行輿論引導(dǎo)提供決策依據(jù)[2]。除此之外,文本情感分析技術(shù)也被成功運用到產(chǎn)品營銷、股價預(yù)測等領(lǐng)域,因此研究在線文本的情感傾向具有很重要的理論和實用價值。目前文本情感分析的研究成果主要可歸結(jié)為基于語義分析和基于機器學(xué)習(xí)的兩大類方法。基于語義分析的方法大多依靠已有的情感詞典、語義規(guī)則等來判別情感極性。楊佳能等[3]提出基于PageRank算法判定情感詞集的極性并計算其強度,進而構(gòu)建新聞評論情感詞典。唐浩浩等[4]提出一種基于詞親和度的算法識別微博詞語語義傾向,以此構(gòu)建出高質(zhì)量的情感詞典,從而提高微博文本情感分析的準(zhǔn)確率。文獻[5,6]也做了基于語義規(guī)則實現(xiàn)情感分類的相關(guān)研究?;跈C器學(xué)習(xí)的方法主要是選取大量有意義的特征來實現(xiàn)分類。Pang等[7]首次使用3種機器學(xué)習(xí)方法,對電影評論的“積極”和“消極”情感進行分類。文獻[8]定義了7種詞語搭配模型,以微博語料為基礎(chǔ),構(gòu)建二元詞語搭配詞庫。相關(guān)研究也探討了利用深度學(xué)習(xí)(Deep learning)對文本情感進行分析。梁軍等[9]利用遞歸神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)與任務(wù)相關(guān)的特征,算法性能接近當(dāng)前采用許多手工標(biāo)注特征的傳統(tǒng)算法,節(jié)省了大量人工標(biāo)注的工作量。

        在線評論文本存在大量新詞、語法不規(guī)范等特點[8],使得中文評論文本情感分析存在困難與挑戰(zhàn)。相關(guān)研究引入了近幾年發(fā)展起來的主題模型。文獻[10,11]利用潛在狄利克雷分布(Latent Dirichlet allocation,LDA)模型實現(xiàn)文本的聚類和分類。文獻[12]提出基于主題的情感向量空間模型,它將文本的潛在主題特征融入到情感模型中,實驗證明主題概率模型在情感分類任務(wù)上有良好的性能。本文結(jié)合上下文知識,提出一種基于LDA主題模型的中文評論文本情感分析方法。這種方法以語料庫為基礎(chǔ),結(jié)合情感詞典,依據(jù)指定的情感單元搭配模式,抽取出情感詞和上下文知識,使用LDA模型挖掘文本中關(guān)鍵的情感特征,并利用支持向量機(Support vector machine, SVM)方法進行分類,實驗表明了本文提出方法的有效性。

        1 評論文本情感分類方法框架

        圖1 提出的評論文本情感分類方法基本框架Fig.1 Framework of sentiment analysis for comment texts

        本文提出的評論文本情感分類方法基本框架如圖1所示。主要包括利用LDA主題模型訓(xùn)練情感單元和基于主題的情感向量空間建模。構(gòu)建模型之前,先對評論文本進行預(yù)處理,主要是對語料進行分詞、詞性標(biāo)注等,篩選出屬于目標(biāo)詞性的詞語。利用情感詞典,依據(jù)提前定義的情感單元搭配模式,抽取能夠表征評論文本情感的信息,即情感詞和上下文。然后使用LDA主題模型,對選取出的情感信息進行訓(xùn)練,得到評論文本的關(guān)鍵情感特征。將得到的關(guān)鍵情感特征作為特征向量的特征項,構(gòu)建基于主題的文本情感向量空間,利用支持向量機方法實現(xiàn)對評論文本的情感分類。其中,LDA是一種3層貝葉斯概率模型,包含“文檔-主題-詞”3層結(jié)構(gòu)。2003年David M B等[13]提出的最初模型只引入1個超參數(shù)α使每個文檔的主題概率分布服從Dirichlet分布。隨后,Griffiths等[14]引入另一個超參數(shù)β使每個主題的詞概率分布也服從Dirichlet分布。從而,LDA模型發(fā)展為一個完整的產(chǎn)生式概率生成模型。LDA是一種非監(jiān)督機器學(xué)習(xí)方法,建模時做了詞袋(Bag of words)假設(shè),即只考慮詞語出現(xiàn)的次數(shù)而不考慮詞語的順序。當(dāng)有X篇文本,主題數(shù)為K,詞語數(shù)為N時,一篇文本中第i個詞語的概率為

        (1)

        LDA模型針對一個文本的生成過程為:(1)文本d的主題從主題分布中抽取得到,即從Dirichlet(α)抽樣出θd;(2)對于抽取出的主題zi,從Dirichlet(β)抽樣出φz;(3)對于詞語wi和主題zi,抽樣得到P(zi|θ)和P(wi|zi,φ);(4)重復(fù)上述步驟直至遍歷文本中每一個詞語。具體模型如圖2所示,各符號的含義如表1所示。本文引入LDA模型的生成思想對文本情感進行分析。一篇文本的生成過程基于某一類主要情感,有目的地選取能夠表達相應(yīng)情感或者潛在情感的關(guān)鍵詞語,通過關(guān)鍵詞語的組合和排列,得到主觀性的情感文本。因此利用LDA模型發(fā)掘文本中基于主題的關(guān)鍵情感特征,并融入情感向量模型來實現(xiàn)文本的情感極性判別。

        表1 LDA圖模型各符號含義

        2 情感信息抽取

        僅僅依靠情感詞難以完成實際的情感分類任務(wù),因此將上下文知識融合到本文提出的模型中。利用語料庫和情感詞典,抽取指定詞性搭配模式的情感詞和上下文,構(gòu)建三元搭配單元。

        2.1 情感詞典

        本文研究包含情感詞的文本情感極性,對不包含情感詞的文本暫不考慮。一個較完整的情感詞典對情感分析很重要。整合HowNet極性詞典、臺灣大學(xué)的NTUSD情感詞典和大連理工大學(xué)信息檢索研究室的情感本體庫[16],去除重復(fù)詞語,得到完整情感詞集。利用各個詞典的標(biāo)注結(jié)果,對每一個情感詞進行褒貶投票。對于投票傾向一致的情感詞自動加入本文所用情感詞典,否則采用人工標(biāo)注方式并且多次校對。

        2.2 提取情感單元

        構(gòu)造情感單元的目的是最大可能地獲取文本中與情感有關(guān)的信息。本文提出的三元情感單元既包括與情感有直接關(guān)系的情感特征,也考慮了間接影響情感傾向的上下文。三元情感單元定義:u=,其中u為情感單元;w為情感詞語;e,f為上下文詞語;w,e,f三者滿足以下兩個條件:

        (1) 詞性搭配滿足8種模式:,< adj, prepw, n>,< adj, prepw, v>,,< v, prepw, n >,< n, prepw, adj >,< n, prepw, n >,< n, prepw, v >,其中adj為形容詞,v為動詞,n為名詞,prepw為情感詞w的詞性并且prepw∈{adj, v, n}。

        (2) 以一個句子為范圍,在滿足條件(1)的情況下,e、f為距離w最近的上下文詞語。此處的句子是指由標(biāo)點符號分割而成的語言單位。在抽取之前,需要對語料先進行分詞、詞性標(biāo)注以及刪除停用詞等非目標(biāo)詞性的詞。抽取過程主要依賴于預(yù)先指定的詞性搭配模式。抽取步驟為:

        (1)利用整合得到的情感詞典,匹配出文檔d中出現(xiàn)的情感詞wi。

        (2)對于情感詞wi,根據(jù)提出的8種詞性搭配模式提取滿足條件的上下文詞語ei和fi,組合得到情感單元ui。

        (3)重復(fù)上述兩個步驟,直至遍歷文檔d中所有詞語。提取情感單元后的文檔d*表示為:d*= {u1,u2,…,um},其中m為文檔d中情感詞數(shù)量。

        3 融合主題的情感向量空間模型構(gòu)建

        3.1 情感特征

        提取情感特征是文本情感分析的技術(shù)重點和難點之一,有效的特征項是正確分類的關(guān)鍵。類似LDA生成思想,本文認(rèn)為一篇文本是基于某一類主要情感有目的地選取表達對應(yīng)情感或者潛在情感的詞語,組合之后得到的。本文得到情感特征的主要過程是抽取出上下文詞匯,配合情感詞,通過LDA模型選取出關(guān)鍵的情感特征,以此作為向量空間的特征項。本文用于分類的情感特征包括上下文詞匯和情感詞。每一篇文檔可表示為

        d= [con1, con2, …, conm,w1,w2, …,wn]

        (2)

        圖3 關(guān)鍵特征項抽取步聚Fig.3 Framework of extracting key features

        式中:d為文檔的向量表示;coni為上下文詞語;m為上下文詞語數(shù)目;wi為情感詞;n為情感詞數(shù)目。按照2.2節(jié)抽取得到的情感單元包含了全部上下文詞匯和情感詞,容易出現(xiàn)維數(shù)較大的問題,并不適合構(gòu)造特征向量,需要結(jié)合LDA模型計算出關(guān)鍵特征項,實現(xiàn)降維的效果。本文所提取的關(guān)鍵特征項是指文檔d*所屬最大概率主題中概率值較大的詞語。LDA模型訓(xùn)練后得到“文檔-主題”概率矩陣DT和“主題-詞語”概率矩陣TW。利用得到的矩陣抽取關(guān)鍵特征項,圖3為步驟流程,具體步驟如下:

        (1)將已提取情感單元的文檔集D*作為LDA模型的輸入。

        (2)訓(xùn)練LDA模型得到“文檔-主題”矩陣DT和“主題-詞語”矩陣TW。

        (4)對應(yīng)矩陣TW中的主題Tmax,將詞語按照模型訓(xùn)練后的概率值大小排序,然后以比例1/p抽取得到關(guān)鍵特征項,降低特征項的維度,p取正整數(shù)。

        (5)重復(fù)步驟(3),(4)直至遍歷文檔集D*所有文檔,然后整合全部關(guān)鍵特征項并去除重復(fù)項。

        3.2 特征權(quán)重

        向量空間的特征權(quán)重采用tfidf值。tfidf值是一種普遍使用并且有效的權(quán)重計算方法。它強調(diào)某一個詞在一篇文檔中的重要性,表示為

        tfidf = TF × IDF

        (3)

        式中:TF =h/g,IDF = log(1 +t/r) ,TF為詞頻,h為詞語w在文檔d出現(xiàn)的次數(shù),g為文檔d的詞語數(shù)量,IDF為逆向文件頻率,t為總文檔數(shù),r為包含詞語w的文檔數(shù)量。

        4 實驗及結(jié)果分析

        4.1 實驗數(shù)據(jù)和評測標(biāo)準(zhǔn)

        實驗數(shù)據(jù)來源于譚松波[17]搜集的關(guān)于酒店的中文情感評論語料。對于數(shù)據(jù)集中不包含情感詞的文本暫不考慮。整理語料得到10 000條評論文本,其中包括7 000條正向文本,3 000條負(fù)向文本。隨機選取3 000條語料作為實驗語料,數(shù)據(jù)集信息如表2所示。數(shù)據(jù)預(yù)處理采用中科院ICTCLAS分詞工具對實驗語料進行分詞、詞性標(biāo)注。實驗中的機器學(xué)習(xí)分類器選用SVM,工具選取臺灣大學(xué)林智仁開發(fā)的LibSVM。

        表2 實驗數(shù)據(jù)

        本文對不包含情感詞的語料暫不考慮,并且認(rèn)為包含情感詞的文本具有單一情感極性,分類結(jié)果只有正向或負(fù)向。對于每一個文本都能進行分類的語料集,評判分類器性能的正確率(Precision)、召回率(Recall)和F相等。因此采用總體準(zhǔn)確率作為本文方法的分類性能評價指標(biāo),公式為

        (4)

        式中:Oaccuracy為總體準(zhǔn)確率,Correct(ci)是分類為ci并且正確的文檔數(shù),Doc(ci)是類別為ci的文檔總數(shù)。

        4.2 實驗結(jié)果分析

        本文實驗的情感類別分為正向情感和負(fù)向情感兩類。利用本文方法與快速主成分分析法[18]分別提取出低維度空間下的情感特征,作情感極性判別實驗對比分析。所用LDA模型參數(shù)設(shè)置如下:α=0.5,β=0.1,主題數(shù)K選取不同的正整數(shù)進行實驗對比分析,其中α和β為LDA模型的超參數(shù)。

        圖4 不同主題數(shù)下的實驗結(jié)果Fig.4 Experimental results with different K

        (1)LDA模型的參數(shù)實驗。選取部分實驗語料,對主題數(shù)K取不同的正整數(shù)進行實驗,得到的實驗結(jié)果如圖4所示。明顯可知總體準(zhǔn)確率相對穩(wěn)定,維持在79%左右。總體準(zhǔn)確率最高和最低的實驗結(jié)果分別是K=1和K=20,兩者相差只有0.89%。實驗語料針對同個話題下的評論語料,話題內(nèi)容較集中,造成主題數(shù)K對本文方法的分類性能影響不大。

        (2)情感分類實驗。將LDA模型主題數(shù)K取3,訓(xùn)練迭代次數(shù)為100,對實驗1,2,3和本文方法進行對比分析,實驗結(jié)果如表3所示。實驗1依據(jù)本文2.2節(jié)內(nèi)容提取情感單元作為情感特征。實驗2利用LDA模型提取文本中的特征。實驗3則在實驗1的基礎(chǔ)上采用快速主成分分析法提取主要特征作為向量空間的特征項。本文方法利用LDA模型訓(xùn)練實驗1得到的情感特征選取出概率值較大的主題詞,并將其作為情感特征項。由表3可知,相較于實驗1~3,本文方法總體準(zhǔn)確率有明顯提高。實驗1得到的負(fù)向準(zhǔn)確率高達90%,但是正向準(zhǔn)確率較低,導(dǎo)致總體準(zhǔn)確率只接近70%,正負(fù)向分類性能明顯不平衡。實驗1和本文方法提取的正向情感詞占總特征項詞數(shù)的比例都接近15%,但是實驗3的正向準(zhǔn)確率達到了78.92%,說明特征項中情感詞的比例并不是造成實驗1正向準(zhǔn)確率低的主要原因。主要原因是提取的情感詞能否作為有效的特征項。實驗1利用情感詞典識別出情感詞,但是部分正向情感詞存在傾向性弱或者極性依附于語境的問題,例如“節(jié)省”,“隨意”和“清淡”等詞匯,因此該方法對情感詞典的質(zhì)量要求較高。本文方法則利用LDA模型自動訓(xùn)練出情感單元中的有效情感詞作為情感向量空間的特征項,提高了分類的準(zhǔn)確率,并且不過度依賴于情感詞典。另外本文方法相對于實驗1,維數(shù)大幅度下降且取得了良好的分類效果,說明本文方法適用于大規(guī)模語料的分析任務(wù)。與本文方法不同,實驗2不提取文本的情感單元,直接利用LDA模型訓(xùn)練文本的主題特征,得到的分類準(zhǔn)確率低于本文方法的分類準(zhǔn)確率,驗證了對文本的情感單元進行提取能夠有效地優(yōu)化情感分類的效果。實驗3利用FastPCA方法對特征向量進行主成分分析,實現(xiàn)了同樣程度的降維效果。從表3可知,本文方法相對實驗3分類總體準(zhǔn)確率高,說明本文方法在降維方面表現(xiàn)更出色,可以有效地提取出評論文本的關(guān)鍵特征項。

        表3 實驗結(jié)果

        5 結(jié)束語

        本文將LDA模型引入到文本情感分析的研究中?;贚DA模型的生成思想,認(rèn)為一篇評論文本是基于某一類主要情感有目的地選取詞語,表達相應(yīng)的情感或者潛在情感。因此本文通過構(gòu)建一個較完整的情感詞典,以中文評論語料庫為基礎(chǔ),依據(jù)指定的情感單元搭配模式,匹配出情感詞和上下文詞匯,構(gòu)造情感單元。通過LDA模型訓(xùn)練文本的情感單元,計算得到“文檔-主題”矩陣和“主題-詞語”矩陣,以此抽取出能夠有效表征情感的關(guān)鍵特征項,并將其融入到情感模型中。最后利用機器學(xué)習(xí)的方法,對中文評論文本的情感進行分類,實驗取得了很好的分類效果。同時實驗證明相比于一般的降維方法,本文提出的方法更有優(yōu)勢。該方法能夠結(jié)合主題模型挖掘詞語之間潛在的語義關(guān)聯(lián),對文本進行有效的降維。 本文研究還有很多可以改進的空間,在情感單元的構(gòu)造過程中只考慮了上下文詞匯,對更復(fù)雜的句子語境缺乏深入討論。下一步會考慮利用依存句法的知識,挖掘句子中潛在語境和情感信息,并應(yīng)用到文本情感分類中。

        [1] 魏韡,向陽,陳千. 中文文本情感分析綜述[J]. 計算機應(yīng)用,2011,31(12):3321-3323.

        Wei Wei, Xiang Yang, Chen Qian. Survey on Chinese text sentiment analysis[J]. Journal of Computer Applications,2011, 31(12):3321-3323.

        [2] 周耀明,李弼程. 一種自適應(yīng)網(wǎng)絡(luò)輿情演化建模方法[J]. 數(shù)據(jù)采集與處理,2013,28(1):69-76.

        Zhou Yaoming, Li Bicheng. Adaptive evolution modeling method of internet public opinion[J]. Journal of Data Acquisition and Processing,2013,28(1):69-76.

        [3] 楊佳能,陽愛民,周詠梅. 基于語義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報:理學(xué)版,2014,49(11):14-21,30.

        Yang Jianeng,Yang Aimin, Zhou Yongmei.Sentiment classification method of Chinese micro-blog based on semantic analysis[J]. Journal of Shandong University:Natural Science ,2014,49(11):14-21,30.

        [4] 唐浩浩,王波,周杰,等. 基于詞親和度的微博詞語語義傾向識別算法[J]. 數(shù)據(jù)采集與處理,2015,30(1):137-147.

        Tang Haohao, Wang Bo, Zhou Jie, et al. Semantic orientation identification terms from Chinese micro-blogs based on word affinity measure[J]. Journal of Data Acquisition and Processing, 2015, 30(1): 137-147.

        [5] 張晶,朱波,梁琳琳,等. 基于情緒因子的中文微博情緒識別與分類[J]. 北京大學(xué)學(xué)報:自然科學(xué)版,2014,50(1):79-84.

        Zhang Jing, Zhu Bo, Liang Linlin, et al.Recognition and classification of emotions in the Chinese microblog based on emotional factor[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):79-84.

        [6] 趙文清,侯小可,沙海虹. 語義規(guī)則在微博熱點話題情感分析中的應(yīng)用[J]. 智能系統(tǒng)學(xué)報,2014,9(1):121-125.

        Zhao Wenqing, Hou Xiaoke, Sha Haihong. Application of semantic rules to sentiment analysis of microblog hot topics[J]. CAAI Transactions on Intelligent Systems,2014,9(1):121-125.

        [7] Pang B, Lee L, Vaithyanathan S.Thumbs up: Sentiment classification using machine learning techniques[C]∥Conference on Empirical Methods in Natural Language Processing.[S.l.]:Association for Computational Linguistics,2002:79--86..

        [8] 周劍峰,陽愛民,周詠梅,等. 基于二元搭配詞的微博情感特征選擇[J]. 計算機工程,2014,40(6):162-165.

        Zhou Jianfeng, Yang Aimin,Zhou Yongmei, et al. Micro-blog sentiment feature selection based on bigram collocation[J]. Computer Engineering,2014, 40(6):162-165.

        [9] 梁軍,柴玉梅,原慧斌,等. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報,2014,28(5):155-161.

        Liang Jun, Chai Yumei, Yuan Huibin, et al. Deep learning for Chinese micro-blog sentiment analysis[J]. Journal of Chinese Information,2014,28(5):155-161

        [10]王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學(xué),2015,33(1):63-68.

        Wang Peng, Gao Cheng, Chen Xiaomei. Research on LDA model based on text clustering[J]. Information Science,2015,33(1):63-68

        [11]李湘東,廖香鵬,黃莉. LDA模型下書目信息分類系統(tǒng)的研究與實現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù),2014,30(5):18-25.

        Li Xiangdong, Liao Xiangpeng, Huang Li. Research and implementation of bibliographic information classification system in LDA model[J]. New Technology of Library and Information Service,2014,30(5):18-25.

        [12]王磊,苗奪謙,張志飛,等. 基于主題的文本句情感分析[J]. 計算機科學(xué),2014,41(3):32-35.

        Wang Lei, Miao Duoqian, Zhang Zhifei, et al. Emotion analysis on text sentences based on topics[J]. Computer Science,2014,41(3):32-35.

        [13]David M B. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:1-6.

        [14]Griffiths T L. Finding scientific topics[J]. Proceedings of the National Academy of Sciences, 2004,101:5228-5235.

        [15]Dowling J E, Wald G.The biological function of vitamin A acid[J].Proceeding of the National Academy of Sciences of the United States of America, 1960,46(5):587.

        [16]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008, 27(2): 180-185.

        Xu Linhong, Lin Hongfei, Pan Yu, et al. Construction the affective lexicon ontology[J]. Journal of The China Society For Scientific and Technical Information, 2008, 27(2): 180-185.

        [17]羅毅, 李利, 譚松波,等. 基于中文微博語料的情感傾向性分析[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2014,49(11):1-7.

        Luo Yi, Li Li, Tan Songbo, et al.Sentiment analysis on Chinese Micro-blog corpus[J].Journal of Shandong University Natural Science,2014,49(11):1-7.

        [18]Sharma A, Paliwal K K. Fast principal component analysis using fixed-point algorithm[J]. Pattern Recognition Letters, 2007, 28(10):1151-1155.

        Method of Sentiment Analysis for Comment Texts Based on LDA

        Wang Wei1, Zhou Yongmei1,2, Yang Aimin1,2, Zhou Jianfeng3, Lin Jianghao4

        (1.Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou, 510006, China;2.Laboratory for Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou, 510006, China;3.Library, Guangdong University of Foreign Studies, Guangzhou, 510006, China;4.Financial Department, Guangdong University of Foreign Studies, Guangzhou, 510420, China)

        A method of sentiment analysis for online comment texts is proposd based on the latent Dirichlet allocation (LDA) model. The method extracts the sentiment information containing sentiment words and context with the sentiment word dictionary according to the specified collocation patterns of sentiment unit. Use the LDA model to mine the key features of the sentiment information and then combine them into the sentiment vector space. The machine-learning algorithm is used to classify the sentiment polarity of Chinese comment texts. After experiment, the presented method is proved to be effective in reducing dimensionality and text sentiment classification.

        comment text; sentiment unit; latent topic; sentiment analysis; machine learning

        國家社會科學(xué)基金(12BYY045 )資助項目;教育部“新世紀(jì)”優(yōu)秀人才支持計劃(NCET-12-0939)資助項目;廣東省教育廳科技創(chuàng)新(2013KJCX0067)資助項目;廣州市社會科學(xué)規(guī)劃(15Q16)資助項目;廣東外語外貿(mào)大學(xué)研究生科研創(chuàng)新(14GWCXXM-36)資助項目;廣東外語外貿(mào)大學(xué)校級(14Q3)資助項目;廣東省普通高校青年創(chuàng)新人才類(299-X5122106)資助項目。

        2015-06-19;

        2015-07-31

        TP391

        A

        王偉(1991-),男,碩士研究生,研究方向:文本情感分析、機器學(xué)習(xí)和自然語言處理,E-mail:20131010007@gdufs.edu.cn。

        周詠梅(1971-),女,教授,研究方向:自然語言處理、文本情感分析和機器學(xué)習(xí)。

        陽愛民(1970-),男,教授,研究方向:自然語言處理、文本情感分析和機器學(xué)習(xí)。

        周劍峰(1986-),男,碩士研究生,研究方向:自然語言處理、文本情感分析和機器學(xué)習(xí)。

        林江豪(1985-),男,碩士研究生,研究方向:自然語言處理、文本情感分析和機器學(xué)習(xí)。

        猜你喜歡
        語料文檔詞語
        容易混淆的詞語
        有人一聲不吭向你扔了個文檔
        找詞語
        詞語欣賞
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        一枚詞語一門靜
        《苗防備覽》中的湘西語料
        一道久在线无码加勒比| 亚洲精品白浆高清久久| 亚洲人成人一区二区三区| 久久水蜜桃亚洲av无码精品麻豆| 亚洲电影中文字幕| av亚洲在线一区二区| 美女一区二区三区在线观看视频 | 又黄又硬又湿又刺激视频免费| 国产午夜福利100集发布| 亚洲av综合日韩| 久久久久99精品成人片试看| 乱子伦视频在线看| 国产传媒在线视频| 黑丝美女被内射在线观看| 在线观看一区二区三区国产| 国产在线观看91一区二区三区| 日本熟妇人妻xxxx| 色欲综合一区二区三区| 人人妻人人澡人人爽欧美精品| 无遮高潮国产免费观看| 色综合久久久久综合一本到桃花网| 亚洲毛片av一区二区三区| 国产三级国产精品国产专播| 一边捏奶头一边高潮视频| 一本精品99久久精品77| 国产午夜精品久久久久免费视| 国产欧美日本亚洲精品一4区| 色综合久久精品中文字幕| 日本刺激视频一区二区| 午夜免费观看日韩一级视频| 北条麻妃国产九九九精品视频| 乱人伦中文无码视频在线观看 | 国产成人一区二区三区在线观看| 全免费a级毛片免费看视频| 亚洲先锋影院一区二区| 亚洲一区二区三区免费av在线| 黄片国产一区二区三区| 国产极品女主播国产区| 激性欧美激情在线| 国产91吞精一区二区三区| 亚洲日韩精品久久久久久|