亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多類別語義詞簇的新聞讀者情緒分類

        2016-09-29 17:40:26溫雯吳彪蔡瑞初郝志峰王麗娟
        計算機應(yīng)用 2016年8期
        關(guān)鍵詞:情感分析

        溫雯 吳彪 蔡瑞初 郝志峰 王麗娟

        摘要:分析和研究文本讀者情緒有助于發(fā)現(xiàn)互聯(lián)網(wǎng)的負面信息,是輿情監(jiān)控的重要組成部分。考慮到引起讀者不同情緒主要因素在于文本的語義內(nèi)容,如何抽取文本語義特征因此成為一個重要問題。針對這一問題,提出首先使用word2vec模型對文本進行初始的語義表達;在此基礎(chǔ)上結(jié)合各個情緒類別分別構(gòu)建有代表性的語義詞簇,進而采用一定準(zhǔn)則篩選對類別判斷有效的詞簇,從而將傳統(tǒng)的文本詞向量表達改進為語義詞簇上的向量表達;最后使用多標(biāo)簽分類方法進行情緒標(biāo)簽的學(xué)習(xí)和分類。實驗結(jié)果表明,該方法相對于現(xiàn)有的代表性方法來說能夠獲得更好的精度和穩(wěn)定性。

        關(guān)鍵詞:情感分析;情緒分類;語義詞簇;多標(biāo)簽學(xué)習(xí);word2vec

        中圖分類號:TP391

        文獻標(biāo)志碼:A

        0引言

        隨著Web2.0的到來,在互聯(lián)網(wǎng)上獲得大量新聞?wù)Z料及讀者的評論文本和情緒標(biāo)簽已經(jīng)成為一件輕而易舉的事情。通過對文本情緒的分析,能夠讓我們更加清楚了解文本給人們?nèi)粘I顜淼挠绊?,有助于監(jiān)控和定位特殊情緒的傳播[1]。近年來,大量情感文本的出現(xiàn)使得情感分析已經(jīng)成為了文本挖掘的熱點。整體而言,情感分析的研究分為兩大類。

        一類是文本的直接情感分析,一般定義為文本直接呈現(xiàn)出的情感極性,主要是作者寫作時的情感,包括正面和負面的態(tài)度,通常采用單標(biāo)簽及極性度量表示,目前的主流方法包括:

        1)簡單的基于情感詞典極性詞的研究。例如,Hatzivassiloglou等[2]從大語料庫華爾街日報(Wall Street Journal)中發(fā)掘出大量的形容詞性的評價詞語;周詠梅等[3]通過新聞評論語料和基礎(chǔ)情感詞典獲得評論情感詞集和種子詞,判定評論情感詞集的極性并計算其強度,進而構(gòu)建新聞評論情感詞典。2)較為復(fù)雜的基于情感句或篇章的研究。例如,Tang等[4-5]通過構(gòu)建情感詞典和情感三元組研究篇章集的情感分析。

        另外一類是針對文本所可能引發(fā)的讀者情緒的研究。情緒分析強調(diào)的是個體自身的情緒變化,如喜、怒、哀、樂、悲等,在分析時需要綜合考慮多個方面的信息,相對于熱門的文本直接情感的研究,讀者情緒的研究是一個更加困難的工作,目前仍處于起步的階段,各種研究技術(shù)存在一定的缺陷,主要采用多標(biāo)簽的方式表示讀者的情緒,標(biāo)簽之間并不是互斥關(guān)系,可以同時存在。例如,2010年,Quan等[6]研究句子層面上的文本情緒分類問題,將句子的情緒分類問題看成是多標(biāo)簽文本分類。首先基于標(biāo)注文檔集抽取每類情緒詞集合,利用線性核函數(shù)方法計算句子與每類情緒詞集合之間的相似度,根據(jù)預(yù)設(shè)定的閾值確定句子的情緒類別。哈工大徐睿峰團隊[7-9]認為情緒分析、情緒歸因、情緒預(yù)測和情緒個性化建模這四個問題之間并不是孤立的,而是相互聯(lián)系的,因此提出了基于“刺激認知反射輸出”機制的文本情緒計算[7-8]以及用隱含狄利克雷分配(Latent Dirichlet Allocation, LDA)模型進行多標(biāo)簽的情緒分析。

        通過對讀者情緒的研究分析,可以讓我們實時監(jiān)控網(wǎng)上的文本信息,及時發(fā)現(xiàn)負面信息,趁早介入,避免負面信息給社會帶來大的影響。傳統(tǒng)的輿情監(jiān)控主要采用監(jiān)控關(guān)鍵詞以及熱點分析的辦法,但是這樣的方式有一定的缺陷,因為熱點事件表明該事件已經(jīng)發(fā)生,并且對社會造成了一定的影響,采用熱點分析的方法會有一定的延時,所需要的代價也更大。相反,采用情緒分析的方法,可以更快地預(yù)測文本可能給讀者帶來的情緒,及早發(fā)現(xiàn)并解決問題。此外,情感分析還能夠用于信息檢索中[10]。

        考慮到不同的讀者在閱讀時由于個人經(jīng)歷以及思維的不同所產(chǎn)生的情緒也不盡相同,甚至同樣一篇文章可能給不同的讀者帶來完全相反的情緒,或者是同一個讀者可能同時產(chǎn)生多種情緒,包括人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批評、贊揚等。顯然,僅僅從作者的角度出發(fā)采用單標(biāo)簽的方式研究人們閱讀文本后產(chǎn)生的情緒,邏輯上是不夠嚴密的。因此,本文主要關(guān)注的是讀者閱讀完新聞以后可能產(chǎn)生的情緒,采用多標(biāo)簽的方式對文本進行情緒的分析及預(yù)測。為了更夠獲得更好的效果,我們需要做的是結(jié)合文檔的上下文信息以及標(biāo)簽信息,對文檔進行特征提取,然后將特征放入到合適的分類器中進行訓(xùn)練預(yù)測以及效果的評估。

        1相關(guān)工作

        讀者情緒受到兩個要素影響:其一是讀者閱讀的文本自身所包含的內(nèi)容;其二是讀者個體是否易激發(fā)某種情緒的特性(簡稱其為“個體信息”)。由于讀者的個體信息不容易被采集和量化,當(dāng)前面向文本的讀者情緒預(yù)測通常被建模成一類特殊的文本分類問題,認為分類后的文本所屬的情緒類別即為讀者可能產(chǎn)生的情緒,從而完成讀者的情緒預(yù)測問題[11-12]。采用這種方式研究讀者的情緒,需要解決兩個關(guān)鍵的問題:第一個是如何表達文本可能引起讀者某類情緒的屬性;第二個是如何設(shè)計有效而符合顯示的分類器。 首先,構(gòu)建這種分類器需要可以量化的文本屬性,一般采用把文本轉(zhuǎn)換成特征向量。眾所周知,文本由詞組成,最直接的辦法就是采用詞來表示文本。如果用傳統(tǒng)的稀疏表示法表示詞,在解決某些任務(wù)時(比如構(gòu)建語言模型)會造成維數(shù)災(zāi)難[13]。人們在研究過程中發(fā)現(xiàn)使用低維的詞向量就沒這樣的問題。同時從實踐上看,高維的特征如果要套用 Deep Learning,其復(fù)雜度幾乎是難以接受的,因此低維的詞向量在這里也飽受追捧。文本的情緒其實蘊涵在文字之間,所以一般認為通過找出蘊涵在詞中的情感的關(guān)系,就能夠分析出文本的情感傾向。以往大多數(shù)情感分析任務(wù)都采用詞袋模型,甚至有一種基本的假設(shè),即讀者的情緒會與新聞的某個主題相關(guān),相同或者相似的主題事件會引起讀者產(chǎn)生相似的情緒,因此也有不少研究采用基于詞袋模型改進的主題模型[14]。詞袋模型假定對于一個文本,忽略其詞序和語法、句法,將其僅僅看作是一個詞的集合,或者說是詞的一個組合,文本中每個詞的出現(xiàn)都是獨立的,不依賴于其他詞是否出現(xiàn)。這種假設(shè)對自然語言進行了簡化,便于模型化,所以也被廣泛用在文本分類的一些方法當(dāng)中。當(dāng)傳統(tǒng)的貝葉斯分類被應(yīng)用到文本當(dāng)中時,貝葉斯中的條件獨立性假設(shè)正是詞袋模型的基礎(chǔ)。但是,詞袋方法沒有考慮詞與詞之間的順序。隨著人們對本文處理技術(shù)的深入研究, Blei等[14]在2003年提出了主題模型。LDA基于一個常識性假設(shè):文檔集合中的所有文本均共享一定數(shù)量的隱含主題?;谠摷僭O(shè),它將整個文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。LDA是三層的貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),利用統(tǒng)計學(xué)的知識,分析文檔集內(nèi)部信息,將集合映射到基于隱含主題的特征空間上,過濾噪聲等干擾信息。從文檔到詞符合Dirichlet分布,主題到詞符合多項式分布,它可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。由于它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息,這降低了問題的復(fù)雜性。例如,李芳等[15]對名詞性短語運用LDA模型挖掘潛在的評價主題也獲得了不錯的效果。雖然LDA能夠考慮潛在語義信息,不單純從機械的詞頻統(tǒng)計角度分析文檔,但LDA模型只考慮了文本的主題分布,而主題向量的維度有限,僅利用這樣的向量來計算文本相似度,必然丟失大量的信息,區(qū)分文本的力度是不夠的。

        目前流行的一種文本情感分析方法是利用word2vec模型獲得語料的詞向量。word2vec模型是Google在2013年提出的一個深度學(xué)習(xí)模型[16],它將詞表征成實數(shù)值向量,采用連續(xù)詞袋模型(Continuous Bag-Of-Words Model,CBOW)和Skip-Gram(continuous Skip-Gram model)兩種模型。在文本聚類的過程中,相似度計算是文本聚類中非常重要的一個步驟,對聚類結(jié)果的好壞有著直接的影響,但傳統(tǒng)的相似度計算模型僅采取詞頻統(tǒng)計來表示文本,丟失了文本間大量的語義信息,從而影響了相似度計算的效果。

        簡單地采用詞袋模型的方法則忽略了詞與詞之間的關(guān)系,往往會丟失上下文的信息,導(dǎo)致區(qū)分文本的力度不夠。而詞向量所體現(xiàn)的是語義和語法的信息,word2vec能夠結(jié)合上下文的信息,訓(xùn)練出詞向量,通過把詞映射到V維的向量空間,詞與詞之間的向量操作能夠與語義相對應(yīng)[17]。相當(dāng)于如果把詞當(dāng)作是特征,那么就是把特征映射到V維的向量空間,通過訓(xùn)練,可以把對文本處理的內(nèi)容簡化為V維的向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。因此,word2vec輸出的詞向量可以被用來做很多自然語言處理相關(guān)的工作。此外,與復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)相比,word2vec去掉了十分費時的非線性隱層,采用了Negative Sampling和隨機梯度下降算法,并且只遍歷一遍數(shù)據(jù),不需重復(fù)迭代,所以十分高效[18]。與此同時,word2vec還有一些比較精細的應(yīng)用,比如計算詞的相似度、詞的類比關(guān)系以及文章的相似度等。

        除此之外,由于文本的情緒分析是一個多標(biāo)簽學(xué)習(xí)的問題,因此還需要尋找合適的多標(biāo)簽分類方法,將轉(zhuǎn)化文本得到的特征輸入到多標(biāo)簽分類器中,最終得到需要的模型。在過去,也有一些采用多標(biāo)簽分類器進行文本處理的工作,例如,2007年,Zhang 等[19]提出基于算法名稱中大寫且不斜體?k近鄰的多標(biāo)簽(MLKNN)學(xué)習(xí)算法處理文本的標(biāo)簽信息,通過計算k近鄰的所屬的類別來確定自己所屬的類別;2009年,Cheng等[20]利用Logistics回歸進行多標(biāo)簽分類學(xué)習(xí),Logistics回歸通過引入對數(shù),解決了因變量是不連續(xù)變量的問題。MLKNN分類器以及Logistics回歸分類器對于不同的分類任務(wù)都獲得了不錯的效果。

        2模型定義及方法

        2.1問題定義

        讀者在閱讀新聞文本之后可能產(chǎn)生多種情緒,包括喜、怒、哀、樂、悲等。在能夠采集相關(guān)語料及讀者情緒標(biāo)注的情況下,該問題可以轉(zhuǎn)化為以下機器學(xué)習(xí)模型:

        假設(shè)給定包N個文檔的文檔集D={D1,D2,…,DN},其對應(yīng)的情緒標(biāo)簽集為:Y={y1,y2,…,yN},且yi∈2L,L為對應(yīng)一篇文檔的不同情緒類型(例如“開心”“憤怒”“無聊”等)的數(shù)量。情緒分類的學(xué)習(xí)模型可以定義為:根據(jù)已標(biāo)注的語料文檔及其標(biāo)簽,獲得多標(biāo)簽分類模型。從機器學(xué)習(xí)的角度,該問題可以轉(zhuǎn)化為一類典型的分類問題加以解決,其中包含兩個關(guān)鍵的步驟:

        1)文本特征的抽取,即從文本集中抽取有代表性的特征,其過程可以表示為構(gòu)建一種特征映射:φ=D→x,為后續(xù)情緒分類作準(zhǔn)備。

        2)分類器的設(shè)計,即構(gòu)建文本特征空間到標(biāo)簽空間的映射: f=x→y。由于同一文本所引發(fā)的讀者情緒具有多種可能性,這一步所需做的工作就是構(gòu)建一個合適的多標(biāo)簽分類器(例如采用典型的多標(biāo)簽分類器,或?qū)⒃搯栴}轉(zhuǎn)化為單標(biāo)簽多類問題進行解決)。

        在以往的工作中,對不同的情緒標(biāo)簽,往往采用相同的文本特征,但考慮到文本之所以引發(fā)讀者的不同情緒,其對應(yīng)的情緒特征理應(yīng)是有差異性的。本文主要著眼于這一問題,嘗試設(shè)計結(jié)合類標(biāo)簽的文本特征。具體思路表達如下:

        步驟1針對不同的情緒標(biāo)簽,提取有差異化的文本特征,即建立φl:D→xl(l=1,2,…,L);

        步驟2在差異化的文本特征基礎(chǔ)上,分別構(gòu)建針對不同標(biāo)簽的分類器fl=xl→yl(l=1,2,…,L)。

        為了更好地表達文本中的主要信息,本文主要基于word2vec及語義詞簇的思想提取文本特征。

        2.2基于多類別語義詞簇的情緒分類

        2.2.1基于語義詞簇的特征提取

        在語料中可以觀察到,對于包含不同語義的文本,讀者所呈現(xiàn)的情緒有所區(qū)別。例如,對于文本中出現(xiàn)與恐怖襲擊、災(zāi)難相關(guān)的信息,大多數(shù)用戶所呈現(xiàn)的情緒是悲傷或憤怒。為此,在文本特征提取方面,本文主要借助語義向量(word2vec)對語料進行初始表達。具體做法是:如圖1所示,首先對文本進行預(yù)處理,然后分詞,進而采用word2vec將詞語映射到語義空間,在此基礎(chǔ)上構(gòu)建語義詞簇,最后通過計算文本中各個詞簇出現(xiàn)的頻率獲得可量化的文本特征。

        之所以選用word2vec模型作為詞語的初始表達,是因為該模型通過語料的學(xué)習(xí),可以結(jié)合上下文信息,將詞映射到V維的語義向量空間?;谶@個轉(zhuǎn)化,不同詞語語義相似度可以通過其在語義向量空間上的相似度來度量,從而有望獲得語義信息接近的詞簇。在此基礎(chǔ)上獲得的詞簇將比單純的詞語更有語義代表性,在一定程度上能夠解決一義多詞的問題。另一方面,將高維度的詞向量聚集成詞簇,還有助于解決傳統(tǒng)詞向量模型中的維度過高的問題。

        2.2.2結(jié)合情緒標(biāo)簽的文本特征提取

        然而,由于word2vec是一種無監(jiān)督的學(xué)習(xí)方法,在訓(xùn)練時考慮的是整個語料庫的信息,所有標(biāo)簽的代表詞簇被融合在一起;尤其在標(biāo)簽集本身就有不平衡性(imbalanced)時,某些情緒標(biāo)簽的代表詞簇有可能被樣本數(shù)量較多的標(biāo)簽的代表詞簇所影響。為了解決這一問題,我們在前述方法的基礎(chǔ)上提出了一種改進方法——基于word2vec的多類別語義詞簇構(gòu)建方法mwc-word2vec(multiple word clustering based on word2vec)。

        該方法基于以下假設(shè):影響讀者情緒的文本特征可以通過不同語義詞簇的頻率來刻畫;引起讀者不同情緒的文本中的代表詞簇有所差別。

        多類別語義詞簇量化文本的過程如圖2所示。其第一個關(guān)鍵點在于將語料根據(jù)情緒標(biāo)簽分成L個子集,對于每個子集Ωi 分別采用word2vec模型映射成詞向量,再通過類似2.2.1節(jié)的方式得到文檔在詞簇向量上的頻率,作為最終的文本特征。

        第二個關(guān)鍵點則是,考慮到同一個標(biāo)簽內(nèi)的簇對該標(biāo)簽的影響力有一定的區(qū)別,也有可能存在不同標(biāo)簽之間的詞簇相似度很大的問題,這樣的詞簇并不利于情緒的分析與計算。所以通過計算簇之間的余弦距離,篩選剔除掉對情緒標(biāo)簽分類沒有實際意義的簇,即圖2中的詞簇篩選(*)。定義如下篩選原則:若任意一個簇的k近鄰的標(biāo)簽信息都與自己的標(biāo)簽不同,則該詞簇對于該標(biāo)簽沒有代表性,因此可以被剔除。

        在完成詞簇的篩選以后,按照式(1)統(tǒng)計文本在每個詞簇上的頻率分布,從而完成文本的量化工作,得到結(jié)合情緒標(biāo)簽的文本特征,輸入多標(biāo)簽分類器中。

        2.3針對特征進行多標(biāo)簽分類

        在完成文本的量化工作以后,將所得到的特征向量輸入多標(biāo)簽分類器中。在多標(biāo)簽分類的階段,采用MLKNN的方法進行分類。MLKNN是基于k近鄰的多標(biāo)簽學(xué)習(xí)算法,它屬于Lazy-learning的有監(jiān)督的方法,直到給定一個測試元組才開始構(gòu)造分類模型。采用MLKNN算法的優(yōu)勢是非常簡單、易于實現(xiàn)。后續(xù)實驗也表明,處理本文的多標(biāo)簽分類問題時,選擇MLKNN作為本文的分類器是合適且有效的。

        3實驗結(jié)果與分析

        實驗數(shù)據(jù)來自于Yahoo Qimo的新聞?wù)Z料,共有49000篇新聞,每篇包括標(biāo)題、內(nèi)容、投票總數(shù)以及各種情緒所占的比例。其中情緒的標(biāo)簽有8個,分別是:實用、感人、開心、超扯、無聊、害怕、難過、火大。實際的數(shù)據(jù)中有少量是沒有投票的數(shù)據(jù),也有部分是投票較少的數(shù)據(jù),為了標(biāo)簽的準(zhǔn)確性,避免數(shù)據(jù)的雜亂以及人為的干擾,選用有10票及以上投票的數(shù)據(jù)進行實驗分析,實驗數(shù)據(jù)共有22841篇新聞文本。

        本文實驗結(jié)果中采用漢明損失(HammingLoss,HL)、平均精度(AVerage Precision,AVP)、排序損失(RankingLoss,RL)、覆蓋率(Coverage,Cov)以及1-錯誤率(OneError,OE)這五個指標(biāo)進行評價,AVP的值越大說明分類的效果越好。HL、RL、Cov和OE的值越小說明效果越好。具體到每個標(biāo)簽的話,還采用F1值對分類效果進行評價。

        3.1數(shù)據(jù)基本情況

        選取具有相對較多讀者投票(20票及以上)的15851篇新聞文本,共6369816投票數(shù),即平均每篇新聞的投票數(shù)約為401,統(tǒng)計單標(biāo)簽情況下文本的標(biāo)簽分布情況,如表1所示。

        由表1可知,單個標(biāo)簽情況下,數(shù)據(jù)存在不平衡的現(xiàn)象。某些標(biāo)簽,例如火大或者開心,有比較多的語料,而某些則存在語料不足的情況。通過觀察數(shù)據(jù)的特點,不斷調(diào)整閾值,最終選擇較好的分界閾值為0.23,即如果某個標(biāo)簽有23%或者以上的投票比例,則默認該文檔有這個標(biāo)簽,且把此標(biāo)簽標(biāo)記為1,否則標(biāo)記為0,由此得到的分布情況如表2所示。

        通過表2發(fā)現(xiàn),2個或以上的標(biāo)簽占了總數(shù)的52%,這也符合實際情況,同時反映了采用單標(biāo)簽分類技術(shù)來處理新聞文本的情緒分析問題不太合理,也從側(cè)面驗證了多標(biāo)簽是有必要的。實驗中,將數(shù)據(jù)集分成兩部分:隨機選擇總樣本集中的2/3作為訓(xùn)練樣本,剩余的1/3作為測試樣本,并進行4次重復(fù)實驗求平均值后再進行對比。

        3.2實驗對比

        采用幾種不同的方法對文本進行量化表達,然后將量化后的特征放入到MLKNN分類器中進行訓(xùn)練及測試,同時采用不同的參數(shù)進行實驗效果的對比,結(jié)果如表3所示,其中LDA-MLKNN是文獻[9]中所提出的一類方法;word2vec-mlknn及mwc-word2vec-mlknn是本文提出的方法。

        固定特征數(shù)量為120時,通過選取不同的k值,比較k值對于MLKNN模型平均精度的影響。由表3以發(fā)現(xiàn),當(dāng)k=8時,能夠獲得相對較好的結(jié)果。但是,k值的選取對于平均精度的影響卻不是很大,所以,在后續(xù)的實驗當(dāng)中選擇k=8進行實驗分析。

        通過表4可以發(fā)現(xiàn),采用word2vec模型處理數(shù)據(jù)的效果明顯比LDA好,平均準(zhǔn)確度比LDA增加約3個百分點,其他幾種評價指標(biāo)也更好。LDA的最好效果在特征維度為40時取得,最好的平均精度為77.18%;而word2vec的性能比較穩(wěn)定,最好效果在特征為200個維度時取得,平均精度約為8046%;采用多類別語義詞簇的方法處理文本數(shù)據(jù)得到的性能最好,平均精度約為83.14%,在word2vec的基礎(chǔ)上有所提高。隨著特征詞簇的增大,word2vec以及多類別語義詞簇的方法趨向穩(wěn)定,且效果比LDA好。

        具體到每個標(biāo)簽的情況,比較各個方法下最優(yōu)參數(shù)的F1值,結(jié)果如表5所示。其中,LDA-MLKNN最好的F1值在特征維度為80時取得,word2vec-mlknn以及mwc-word2vec-mlknn最好的F1值都是在特征為240時取得。

        我們發(fā)現(xiàn),在不同的標(biāo)簽下F1值有比較大的差異,這其中存在一定的客觀原因,包括某些標(biāo)簽語料不足等。但是,總的來說,在不同的方法中,mwc-word2vec-mlknn依然效果相對最好。

        為了考察篩選參數(shù)對于模型的影響,給出了不同篩選參數(shù)對應(yīng)的結(jié)果如圖3所示,可以看出,選擇不同的參數(shù),對效果有不一樣的影響。這里,考慮到不同的詞簇大小應(yīng)該根據(jù)不同的k值大小進行相應(yīng)設(shè)置,令k值為詞簇總數(shù)的百分比。結(jié)果顯示,當(dāng)篩選參數(shù)為詞簇總數(shù)的1/4時,獲得的平均精度整體上最高,也更加穩(wěn)定。

        更進一步,針對mwc-word2vec-mlknn,設(shè)定篩選系數(shù)為詞簇總數(shù)的1/4,改變詞簇的數(shù)量,進行進一步的實驗分析,結(jié)果如圖4所示。圖4顯示隨著特征數(shù)的增大,分類的平均精度慢慢趨向平穩(wěn)。而且比較實驗還顯示:如果不進行過濾,在特征維度為320時,精度會有所波動;但采用了過濾方法后穩(wěn)定性更好,更加健壯。這也說明了在情緒分類時過濾一些對標(biāo)簽分類沒有明顯區(qū)分度的詞簇是有必要的。

        4結(jié)語

        本文深入研究了針對新聞文本的讀者情緒分類和學(xué)習(xí)方法。通過研究word2vec對于文本分析的作用以及實際效果,明確了word2vec對于文本的情緒分析的作用?;跀?shù)據(jù)的特點,對word2vec作了改進,提出了多類別語義詞簇的方法,解決了針對不同情緒標(biāo)簽下文本語義詞簇的構(gòu)建和表達。在word2vec訓(xùn)練的過程中加入文本的標(biāo)簽的控制,避免不同特定情緒標(biāo)簽語義詞簇的干擾。同時,采用啟發(fā)式的方法,對非代表性語義詞簇進行過濾,強化了代表性詞簇的表達能力,使得針對不同的情緒標(biāo)簽,所獲得的特征具有更好的區(qū)分度。

        情緒分析目前是一個熱門的話題,也是一個重要的領(lǐng)域。在未來的工作中,我們將結(jié)合讀者的評論信息以及個人信息,對文本的情緒進行更加細粒度的分析,獲得更加完善的模型和方法。

        參考文獻:

        [1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848. (ZHAO Y Y, QIN B, LIU T. Sentiment analysis [J].Journal of Software, 2010, 21(8): 1834-1848.)

        [2]HATZIVASSILOGLOU V, MCKEOWN K R. Predicting the semantic orientation of adjectives [C]// ACL 98: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1997: 174-181.

        [3]周詠梅,陽愛民,楊佳能.一種新聞評論情感詞典的構(gòu)建方法[J].計算機科學(xué),2014,41(8):67-69. (ZHOU Y M, YANG A M, YANG J N. Construction method of sentiment lexicon for new reviews [J]. Computer Science, 2014, 41(8): 67-69.)

        [4]TANG D, QIN B, LIU T. Learning semantic representations of users and products for document level sentiment classification [C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1014-1023.

        [5]TANG D, QIN B, LIU T. Document modeling with convolutional-gated recurrent neural network for sentiment classification [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1422-1432.

        [6]QUAN C, REN F. Sentence emotion analysis and recognition based on emotion words using Ren-CECps [J]. International Journal of Advanced Intelligence Paradigms, 2010, 2(1): 105-117.

        [7]XU R, CHEN T, XIA Y, et al. Word embedding composition for data imbalances in sentiment and emotion classification [J]. Cognitive Computation, 2015, 7(2): 226-240.

        [8]GUI L, YUAN L, XU R, et al. Emotion cause detection with linguistic construction in Chinese Weibo text [C]// NLPCC 2014: Proceedings of the Third CCF Conference on Natural Language Processing and Chinese Computing, Volume 496 of the series Communications in Computer and Information Science. Berlin: Springer-Verlag, 2014: 457-464.

        [M]// Communications in Computer and Information Science.

        [9]葉璐.新聞文本的讀者情緒自動預(yù)測方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012:35-43. (YE L. Research on emotion prediction of news articles from readers perspective [D]. Harbin: Harbin Institute of Technology, 2012: 35-43.)

        [10]HURST M F, NIGAM K. Retrieving topical sentiments from online document collections [C]// Proceedings of SPIE 5296: Document Recognition and Retrieval Ⅺ. Bellingham, WA: SPIE, 2004: 27-34.

        [11]雷龍艷.中文微博細粒度情緒識別研究[D].衡陽:南華大學(xué),2014:20-36. (LEI L Y. Research on fine-grained sentiment analysis base on Chinese micro-blog [D]. Hengyang: University of South China, 2014: 20-36.)

        [12]WANG S, LI D, WEI Y, et al. A feature selection method based on Fishers discriminant ratio for text sentiment classification [C]// WISM 2009: Proceedings of the 2009 International Conference on Web Information Systems and Mining, LNCS 5854. Berlin: Springer-Verlag, 2009: 88-97.

        http://xueshu.baidu.com/s?wd=paperuri%3A%28a6e3d1f433b123dc1be397879e9a267e%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fwww.sciencedirect.com%2Fscience%2Farticle%2Fpii%2FS0957417411000972&ie=utf-8&sc_us=5991109085789876904

        [J]. Expert Systems with Applications. Volume 38, Issue 7, July 2011, Pages 8696–8702

        [13]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.

        [14]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

        [15]李芳,何婷婷,宋樂.評價主題挖掘及其傾向性識別[J].計算機科學(xué),2012,39(6):159-162. (LI F, HE T T, SONG L. Opinion topic mining and orientation identification [J]. Computer Science, 2012, 39(6): 159-162.)

        [16]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [J]. ICLR Workshop, arXiv preprint arXiv:1301.3781, 2013.

        http://xueshu.baidu.com/s?wd=paperuri%3A%289b96fcef89a076065163c0793f74f68c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fadsabs.harvard.edu%2Fabs%2F2013arXiv1301.3781M&ie=utf-8&sc_us=151487362127720313

        [17]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Advances in Neural Information Processing Systems 26. Cambridge, MA: MIT Press, 2013: 3111-3119.

        [18]鄧澍軍,陸光明,夏龍.Deep Learning實戰(zhàn)之word2vec[Z].網(wǎng)易有道, 2014: 16-17. (DENG S J, LU G M, XIA L. Deep learning practice of word2vec [Z]. Youdao, 2014: 16-17.)

        [19]ZHANG M-L, ZHOU Z-H. ML-KNN: a lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40(7): 2038-2048.

        [20]CHENG W, HLLERMEIER E. Combining instance-based learning and logistic regression for multilabel classification [J]. Machine Learning, 2009, 76(2): 211-225.

        猜你喜歡
        情感分析
        基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
        面向應(yīng)用比較的用戶評論挖掘工具的設(shè)計與實現(xiàn)
        基于微博文本的情感傾向分析
        軟件工程(2016年12期)2017-04-14 02:05:53
        基于word2vec擴充情感詞典的商品評論傾向分析
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        歌曲《我的深情為你守候》的情感分析與演唱詮釋
        日本精品一区二区在线看| 国精产品推荐视频| www国产亚洲精品| 欧洲多毛裸体xxxxx| 日韩精品无码免费专区网站| 2021av在线| 国产AV高清精品久久| 国产伦奸在线播放免费| 水蜜桃在线精品视频网| 中文字幕一精品亚洲无线一区| 国产欧美精品区一区二区三区 | 少妇愉情理伦片丰满丰满| 欧美日韩亚洲国内综合网| 少妇厨房愉情理伦片bd在线观看| 国产亚洲精品成人无码精品网站 | 精品久久久少妇一区二区| 精品少妇一区二区三区免费观| 久久精品人人做人人爽| 一区二区三区不卡在线| 人妻有码中文字幕在线| 国产国语亲子伦亲子| 亚洲av福利无码无一区二区| 色狠狠一区二区三区香蕉| 亚洲Av无码专区尤物| 美腿丝袜一区在线观看| 91九色熟女潮喷露脸合集| 亚洲乱码一区二区三区在线观看| 88久久精品无码一区二区毛片| а中文在线天堂| 亚洲国产丝袜美女在线| 一区二区三区四区草逼福利视频 | 国产韩国精品一区二区三区| 91九色国产老熟女视频| 厨房人妻hd中文字幕| 99久久伊人精品综合观看| 欧美成人在线A免费观看| 久久久国产精品首页免费| 久久国产精品亚洲va麻豆| 看av免费毛片手机播放| 亚洲另类激情综合偷自拍图| 蜜桃av区一区二区三|