亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向情感聚類的文本相似度計算方法研究

        2018-06-14 07:38:52王素格
        中文信息學(xué)報 2018年5期
        關(guān)鍵詞:語義聚類向量

        李 欣,李 旸,王素格,3

        (1. 山西職工醫(yī)學(xué)院 信息中心,山西 晉中 030619;2. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)

        0 引言

        隨著新興電子商務(wù)平臺,微博和微信等社交媒體的廣泛使用,人們在享受互聯(lián)網(wǎng)技術(shù)帶來便利的同時,也用文字記載了自己的心情、狀態(tài)、評價和觀點。通過挖掘海量微博和評論文本等社會媒體數(shù)據(jù),可以獲得用戶對產(chǎn)品的情感傾向(褒揚或者貶斥),從而指導(dǎo)企業(yè)的決策以及個人的消費行為[1-2]。有監(jiān)督的機器學(xué)習(xí)方法需要大量的帶標(biāo)簽的文本數(shù)據(jù),而無監(jiān)督的文本聚類方法可以克服這一不足[3]。

        目前,聚類方法在文本數(shù)據(jù)挖掘中發(fā)揮了重要作用,情感聚類的相關(guān)研究也備受關(guān)注[4]。情感聚類常面臨三個困難: 首先,由于聚類算法的無指導(dǎo)性,使聚類結(jié)果總是沿著文本最顯著的特點聚簇。而文本一般是按照一定的主題進行組織,因此,情感聚類結(jié)果的準確率并不高;其次,由于用戶表達的感受和觀點等情感蘊含在評論中,其特征表現(xiàn)并不明顯。從大量的特征中難以實現(xiàn)情感特征的有效分離;再次,海量的文本數(shù)據(jù)也存在文本表示的高維和稀疏問題。為了解決這些問題,一些研究者試圖對傳統(tǒng)的聚類算法進行改進。希望獲得較高的聚類精度,另一些則從特征選擇和文本間距離度量等方面展開研究,然而,這些方法過多地依賴人工參與及反饋,且不能有效解決文本向量表示的高維和稀疏問題。

        為了充分利用文本的上下文信息,獲取文本的語義特征,同時降低文本表示的維度和稀疏性,本文從文本相似度計算角度出發(fā),提出一種基于子空間的文本語義相似度計算方法(RESS)。該方法分別構(gòu)建文本相關(guān)度子空間(RSS)和文本情感子空間(ESS),在此基礎(chǔ)上計算文本集的語義相似度,構(gòu)建相似度矩陣,最后采用聚類算法實現(xiàn)情感聚類。

        1 相關(guān)研究

        近幾年,情感分析技術(shù)為各行各業(yè)及政府提供了重要的信息,體現(xiàn)著不可估量的價值,這些應(yīng)用推動了情感分析技術(shù)的發(fā)展。Pang等[5]人首次使用監(jiān)督學(xué)習(xí)方法在電影評論領(lǐng)域做了情感分類研究,2001年,Sanjiv等[6]人設(shè)計出在經(jīng)濟領(lǐng)域進行實時情感挖掘和分析系統(tǒng),采用分類算法獲取股民對股票投資的觀點傾向,并分析股票走勢對金融市場和股民情緒的影響。隨著網(wǎng)絡(luò)評論文本的指數(shù)級增長,采用無監(jiān)督的聚類方法進行情感分析也備受關(guān)注。研究者主要從聚類算法的層面進行改進,如重構(gòu)文本聚簇[7]、添加約束條件[8]、構(gòu)建新特征空間[9]、引入反饋機制[10]等。而這些方法過多地依賴人工參與和人類反饋,甚至需要人工閱讀大量的評論文本,既耗時又費力。隨著研究的深入,人們漸漸發(fā)現(xiàn),對文本情感聚類的研究不能停留在算法層面,情感因素的表示、文本特征選擇直接影響著聚類結(jié)果,在特征選擇、文本距離度量等方面開展了大量的研究。

        詞特征的選擇是文本情感分析的關(guān)鍵步驟,Ellen等[11]人在情感分析和觀點挖掘的任務(wù)中使用詞、n元語法、短語和詞匯語義規(guī)則進行文本表示,并使用詞語包容關(guān)系所構(gòu)建的層次結(jié)構(gòu)識別復(fù)雜特征和約簡冗余特征。實驗表明這種特征選擇方法可以改善情感分析效果。Feng等[12]人認為博客文本中的情感傾向性在網(wǎng)絡(luò)中服從一定的分布。它與已有博文聚類方法不同的是,他們認為對于文本特征表示,挖掘博文中潛在的情感因素比抽取其關(guān)鍵詞更重要。文中提出了一種概率潛在語義分析方法,首先為隱含的情感因子建模,然后對文本進行聚類。黃永光等[13]人分析了網(wǎng)絡(luò)中存在的大量不規(guī)范的文本數(shù)據(jù)。這些不僅長度短,而且語言用詞極不規(guī)范。針對此類問題他們提出的一種“規(guī)范文本——拼音串匹配——搜索聚類”處理流程,很好地提高了變異短文本的聚類性能。文本聚類技術(shù)有效性的前提是為文本選取合適的特征。但在短文本中,由于特征的稀疏性,單純使用統(tǒng)計分析方法存在很多弊端。因此,Makrehchi等[14]人在《同義詞詞林》的基礎(chǔ)上,考慮語義和統(tǒng)計特性,選擇最佳特征,使得聚類性能也得到了提升。傳統(tǒng)的文本聚類方法,都是在詞匯特征的基礎(chǔ)上,加入一些簡單的語義信息。如利用WordNet獲得同義或反義關(guān)系,而沒有利用任何基于短語的語義分析。Zheng等[15]人從名詞短語的角度挖掘更多的語義信息(上位關(guān)系、下位關(guān)系、整體部分關(guān)系),改進了基于WordNet的聚類方法,獲得了更好的效果。由于特征集過大使得文本表示維度過高,特征集過小,導(dǎo)致文本表示稀疏,信息表現(xiàn)不完整。Jing等[16]人提出一種新的基于知識的向量空間模型,這種模型考慮了文檔之間的非相似性,與傳統(tǒng)的只考慮文檔之間的相似性方法相比,提高了文本聚類的性能。王素格等[17]人針對文本情感分類中的數(shù)據(jù)稀疏問題,提出一種新的文本表示模型。該模型利用模糊粗糙理論對文本屬性特征進行離散化處理,對包含情感傾向意義的屬性加權(quán)。計算屬性對于情感類別的隸屬度,實現(xiàn)屬性特征的壓縮,提高情感分類效果。夏云慶等[18]人針對歌詞情感分析問題,提出了基于情感單元的情感向量空間模型。該模型能夠有效地解決文本表示效率、歧義、情感功能、數(shù)據(jù)稀疏等方面的不足,提高情感分類的效果。針對微博情感分析問題,劉全超等[19]利用微博內(nèi)容和轉(zhuǎn)發(fā)等特征,構(gòu)建基于短語路徑的微博文本情感傾向性判定方法,提高情感分類性能。

        2 基于子空間的文本語義相似度計算

        傳統(tǒng)的文本表示方法將所有的文本構(gòu)建在共同的特征空間上。文本集的特征個數(shù)作為向量的維度,特征數(shù)越多,則每篇文本的信息表現(xiàn)得越完整。但同時增加了向量的維度,提高了計算的復(fù)雜度。相反,特征數(shù)越少,雖然降低了計算的復(fù)雜度,但同時減少了文本向量所包含的信息量。針對情感聚類中文本-特征向量的高維和稀疏問題,以及對評論文本潛在情感因素的表示問題,本文從子空間角度出發(fā),構(gòu)建文本集的語義相似度矩陣。

        在文本情感聚類中,文本相似度既要充分考慮文本在分布上的相關(guān)性,又需要計算文本間的情感相關(guān)度。因此,本文分別為數(shù)據(jù)集構(gòu)建相關(guān)性子空間(RSSV)和情感子空間(ESSV),計算基于相關(guān)性和情感相融合的文本語義相似度(RESS),在此基礎(chǔ)上進行文本情感聚類。其流程圖如圖1所示。

        圖1 基于RESS的文本情感聚類流程

        2.1 詞語相關(guān)度

        文本是由詞組成的。在聚類過程中,詞語之間的相關(guān)度直接影響到文本相似性計算和文本聚類效果。對本文所使用的語料集進行統(tǒng)計和分析發(fā)現(xiàn),當(dāng)文本數(shù)據(jù)為2 000篇時,詞數(shù)可達近20 000個,這些詞語以其復(fù)雜的關(guān)系構(gòu)成了不同的表達。因此,詞語相關(guān)度度量是文本表示和文本聚類研究的前提和基礎(chǔ)。

        詞語相關(guān)度反映了詞語在語法、語義及語用方面的關(guān)聯(lián)程度。常用的詞語相關(guān)度計算方法有兩種: 一種是基于本體知識庫(如HowNet、WordNet、同義詞詞林、情感詞典[20]等)的方法。這種方法把詞語作為本體知識網(wǎng)中的節(jié)點,通過計算節(jié)點之間的距離獲得詞語之間的相關(guān)性。該方法簡單、直觀,但由于對外部資源的依賴性強,因此在解決多領(lǐng)域和跨領(lǐng)域問題時會表現(xiàn)出一定的局限性;另一種是基于大規(guī)模語料庫的統(tǒng)計方法。該方法建立在滿足以下假設(shè)的前提上: 凡是語義相近的詞,其上下文也相似。對于大規(guī)模語料資源,這一假設(shè)是成立的。統(tǒng)計兩個詞語在特定窗口中同時出現(xiàn)的頻率,頻率越大,其相關(guān)性越大?;诮y(tǒng)計的方法表面上計算孤立的兩個詞語之間的關(guān)聯(lián)關(guān)系,實際上也利用了詞語所在的上下文信息。本文采用基于語料庫統(tǒng)計的方法計算詞語相關(guān)度。

        假設(shè)ti,tj是文本集中兩個特征詞,rel(ti,tj)表示ti與tj的相關(guān)度,采用加權(quán)對數(shù)似然比(WLLR)方法,其公式如式(1)所示。

        (1)

        2.2 文本相關(guān)性子空間(RSSV)

        由于自然語言表達的豐富性,在文本相關(guān)性度量中,為了降低向量維度,減少數(shù)據(jù)的稀疏性,同時利用文本的特征信息,本文將文本向量建立在以任意兩篇文本及其特征所構(gòu)成的子空間上。子空間的維度最大不超過兩篇文本中詞的個數(shù)。在以兩篇文本構(gòu)成的子空間上構(gòu)建特征向量,不但降低了向量維度,而且能夠充分利用文本的詞信息。

        設(shè)評論文本數(shù)據(jù)集X={x1,x2,…,xN},xi表示第i篇評論文本,N表示評論文本的總數(shù),T={t1,t2,…,tn}是X的原始特征集,n表示特征個數(shù),假定Θ(X,T)表示文本集的原始特征空間。

        對于xi,xj∈X,T1={t1,t2,…,tp}?T表示xi,xj中所有非停用詞構(gòu)成的特征詞集。其中,p表示特征個數(shù)。采用T1為文本xi,xj構(gòu)建基于相關(guān)度的特征子空間Θ1((xi,xj),T1),Θ1?Θ。用vi={wi1,wi2,…,wip}表示文本xi的特征向量表示。其中,wik(k=1,…,p)表示文本xi在特征tk下的權(quán)重,其計算的規(guī)則如下:

        (1) 若文本xi中包含特征詞tk,則wik=1;

        (2) 若文本xi中不包含特征詞tk,wik=maxt∈xirel(tk,t)。其中,rel(tk,t)表示tk與xi中詞t的相關(guān)度,采用式(1)計算。

        與傳統(tǒng)的向量空間表示不同,基于RSSV的文本表示為數(shù)據(jù)集中任意兩篇文本xi,xj構(gòu)建向量子空間,其向量模型見表1所示。

        表1 基于RSSV的文本向量模型

        2.3 文本情感子空間(ESSV)

        評論者發(fā)表其觀點時,常常隱含著其情感傾向和情緒表達。因此,包含傾向的觀點詞可以用情感向量表示。由于文本是詞的集合,對觀點詞向量進行疊加,可以獲得文本的情感向量表示,構(gòu)建文本情感子空間。

        2.3.1 情感特征集

        對于產(chǎn)品評論和微博,評論者通常采用情緒詞表達個人的觀點和情感傾向。例如“這款三星用著真心不爽!??!”其中,“不爽”是一個表示情緒的貶義詞,評論者以此表達對“這款三星手機”的差評。由此可見,評論者的心情能夠反映其對產(chǎn)品的態(tài)度。在語料庫中,很多評論文本所持有的觀點是通過評論者“喜”、“怒”、“哀”、“樂”的情緒表達的,因此,在情感子空間中,情感特征詞應(yīng)同時考慮到情緒詞和觀點詞。

        對于第k個文本特征詞tk∈T,用情感特征集M={M1,M2,…,M12}構(gòu)建特征詞的情感向量。對于不同的數(shù)據(jù)集,情感特征集M的選擇也是不同的。

        對于英文數(shù)據(jù)集,采用Mitral[21]等人提出的情緒類別劃分方式[22-23],使用“anger”、“disgust”、“fear”、“guilt”、“sadness”、“shame”、“interest”、“joy”、“surprise”、“desire”、“l(fā)ove”、“courage”共12個基本情緒構(gòu)成情感特征集M。

        對于中文數(shù)據(jù)集,在情感類別的劃分方面至今還沒有統(tǒng)一標(biāo)準。本文采用林鴻飛[24]的分類方法,在七個基本情感類別(“恐懼”、“憤怒”、“厭惡”、“悲傷”、“驚訝”、“高興”、“喜好”)的基礎(chǔ)上,參考英文情感類的劃分,并對數(shù)據(jù)集進行統(tǒng)計和分析。在中文數(shù)據(jù)集的每個領(lǐng)域均增加五個與領(lǐng)域相關(guān)的觀點詞,分別是: 保險領(lǐng)域: “煩人”、“可惡”、“缺德”、“失望”、“不錯”;翡翠領(lǐng)域: “漂亮”、“溫潤”、“精致”、“圓潤”、“均勻”;手機領(lǐng)域: “失望”、“郁悶”、“傷心”、“不錯”、“爽”,將情感類別擴充到12類,分別作為每個數(shù)據(jù)集的情感特征集M。

        2.3.2 文本情感子空間(ESSV)

        (2)

        2.4 文本語義相似度計算

        對于文本情感聚類,常常面臨聚類的方向和結(jié)果不是情感相關(guān)的。為了解決這一問題,我們提出一種基于RSSV和ESSV融合的文本語義相似度計算方法(RESS),在文本相關(guān)性子空間Θ1和文本情感子空間Θ2結(jié)合的基礎(chǔ)上,構(gòu)建文本語義空間Θ1∪Θ2∈Θ。

        在語義空間中,依據(jù)Θ1有效地解決文本向量的高維問題,實現(xiàn)文本表示的有效降維;依據(jù)Θ2將數(shù)據(jù)集的原始空間映射到情感空間,實現(xiàn)文本表示的情感因素表達。

        對于文本向量xi和xj,基于相關(guān)性的文本相似度S1(xi,xj)計算如式(3)所示,其中,vi,vj分別為文本xi,xj的相關(guān)性特征向量表示。

        (3)

        (4)

        基于RESS的xi和xj文本相似度S(xi,xj)計算如式(5)所示。

        S(xi,xj)=αS1(xi,xj)+(1-α)S2(xi,xj)

        (5)

        其中α取值范圍為(0,1)。當(dāng)α→0時,S(xi,xj)→S2(xi,xj);當(dāng)α→1時,S(xi,xj)→S1(xi,xj)。

        3 實驗及結(jié)果分析

        3.1 實驗語料及評價指標(biāo)

        本文所使用的語料包含英文語料和中文語料。英文語料來自亞馬遜網(wǎng)站的產(chǎn)品評論數(shù)據(jù)。含概Book、DVD、Electronic和Kitchen四個領(lǐng)域,每個領(lǐng)域包含2 000篇文本,文本情況統(tǒng)計見表2;中文語料來自第六屆中文傾向性分析評測(COAE2014),包含保險、翡翠、手機三個領(lǐng)域的的微博數(shù)據(jù),文本情況統(tǒng)計見表3。

        表2 英文數(shù)據(jù)集文本情況統(tǒng)計

        表3 中文數(shù)據(jù)集文本情況統(tǒng)計

        本文的實驗主要對產(chǎn)品評論文本進行正面和負面兩極情感聚類。為了驗證聚類結(jié)果的有效性,采用純度和F值兩個聚類性能評價指標(biāo)[25]。所有實驗的聚類方法均采用K-means聚類方法。

        3.2 參數(shù)確定

        在第2.4節(jié)中提出,基于RESS的文本相似度計算需要確定α參數(shù)。為了分析基于RSSV的文本相關(guān)度和基于ESSV的文本相關(guān)度對于RESS的文本相似度的影響,本文對α取值為[0,0.1,…,1],采用圖示的形式分別展示中、英文數(shù)據(jù)集聚類的F值,如圖2、圖3所示。

        圖2 英文數(shù)據(jù)集中不同參數(shù)α下的聚類F值

        圖3 中文數(shù)據(jù)集不同參數(shù)α下的聚類F值

        從圖2和圖3中可以看出,對于中、英文數(shù)據(jù)集,當(dāng)參數(shù)α取值為0.6~0.9時,比取值為0.1~0.5所獲得的聚類結(jié)果更好。這表明文本的上下文(相關(guān)性因素)比情感因素在表達文本語義相似度時能夠提供更有價值的信息,獲得更好的聚類結(jié)果。英文數(shù)據(jù)集的聚類性能峰值保持在參數(shù)取值為0.8~0.9之間,說明情感因素在聚類中并未起到很好的作用。而中文數(shù)據(jù)集的聚類結(jié)果峰值在參數(shù)α取值為0.5-0.9之間,這說明情感因素和語義因素共同作用能夠獲得更好的聚類結(jié)果。尤其對于手機數(shù)據(jù)集,當(dāng)參數(shù)α取0.5時,聚類效果最好。

        通過對數(shù)據(jù)集的分析發(fā)現(xiàn),上述聚類結(jié)果與ESSV方法中情感特征集的選取密切相關(guān)。對于英文數(shù)據(jù)集,不同領(lǐng)域選取相同的情感特征詞,沒有考慮領(lǐng)域相關(guān)的情感特征;對于中文數(shù)據(jù)集,在確定情感類別時采用基于統(tǒng)計的方法,為不同領(lǐng)域選取一定的領(lǐng)域相關(guān)的特征詞作為補充。情感特征集包含了通用情感詞和領(lǐng)域相關(guān)的情感詞。這種情感特征選擇方法能更好地刻畫文本中潛在的情感因素,提升情感聚類性能。這也說明,情感集的選定也是影響情感聚類結(jié)果的一個重要因素。

        3.3 基于語義子空間的情感聚類結(jié)果

        為了驗證語義子空間對文本向量表示的有效降維,本文針對英文數(shù)據(jù)集和中文數(shù)據(jù)集,對在原始空間Θ和文本語義子空間Θ1∪Θ2的文本向量表示進行對比,結(jié)果如表4所示。

        表4 數(shù)據(jù)集在Θ和Θ1∪Θ2的特征數(shù)量

        從表4中可以看出,對于中、英文文本數(shù)據(jù),采用子空間的文本表示和采用原始特征空間的文本表示在選取的文本特征數(shù)量上存在量級的差別。比如,對于Book數(shù)據(jù)集的2 000篇文本,在Θ空間中選取的特征數(shù)量為18 835個,在Θ1∪Θ2空間特征最多只有2 636個;對于來自微博的中文數(shù)據(jù)集則更少,保險領(lǐng)域的2 153篇文本在Θ空間中選取的特征數(shù)為7 293,在Θ1∪Θ2子空間,特征數(shù)最多為134個。這表明采用語義子空間的文本表示能有效地解決文本向量表示的高維問題。

        為了進一步驗證語義子空間表示對文本情感聚類的有效性,本文在中英文數(shù)據(jù)集上進行實驗,分別使用基于TF-IDF方法和使用基于概念詞典(WordNet、HowNet)的方法構(gòu)建文本相似度矩陣,聚類的比較結(jié)果如表5所示。

        從表8中可以看出,本文的方法比采用傳統(tǒng)的TF-IDF以及概念詞典的文本相似度方法具有更好的F值。采用TF-IDF方法,雖然可以有效地選擇對文本聚類具有高區(qū)分度的特征詞,但沒有考慮詞語之間的語義關(guān)系;基于概念詞典的方法只利用詞語間的相似度關(guān)系,而沒有充分考慮詞語之間的情感關(guān)系;本文方法既考慮了詞語之間的相關(guān)性,也體現(xiàn)了詞語的情感因素,因此能夠有效地改進情感聚類的效果。

        表5 不同文本表示的相似度計算方法的情感聚類F值

        對比分析在文本相關(guān)性子空間Θ1、文本情感子空間Θ2、文本語義子空間Θ1∪Θ2和原始特征空間Θ中的情感聚類結(jié)果,實驗結(jié)果見表6和表7所示。

        表6 數(shù)據(jù)集在不同表示空間中的聚類純度

        表7 數(shù)據(jù)集在不同表示空間中的聚類F值

        從表6和表7可以看出:

        (1) 對于中、英文領(lǐng)域的七個數(shù)據(jù)集,在Θ1、Θ2、Θ1∪Θ2三種子空間上的聚類結(jié)果均優(yōu)于原始空間Θ,對于DVD、Electronic、Kitchen、保險、翡翠、手機數(shù)據(jù)集,在空間Θ1∪Θ2上獲得最好的聚類純度和F值。這說明本文提出的基于語義子空間的文本表示和相似度計算方法在情感聚類中是有效的。

        (2) 在英文數(shù)據(jù)集中,Book數(shù)據(jù)集在Θ1上獲得的情感聚類效果最好,并且優(yōu)于Θ1∪Θ2(文本相關(guān)性子空間),這與Book數(shù)據(jù)集本身的特點有關(guān)。Book數(shù)據(jù)集的評論相對其他數(shù)據(jù)集較長,文本中不但包含了閱讀者對某一本書的整體評價和感受,而且也包含大量對書中故事情節(jié)和人物情感的客觀描述,因此,在Θ2上構(gòu)建的情感向量是不準確的,會影響評論文本的情感極性。

        (3) 在中文數(shù)據(jù)集中,雖然保險和翡翠數(shù)據(jù)集是非平衡的,但其聚類的純度和F值均比手機數(shù)據(jù)集高。通過對數(shù)據(jù)分類結(jié)果的分析發(fā)現(xiàn),保險、翡翠領(lǐng)域的評論文本的語言風(fēng)格、評價對象和評價詞相對固定、單一。這種語言現(xiàn)象有助于提高非平衡數(shù)據(jù)集多數(shù)類的聚類效果,從而改善了數(shù)據(jù)集整體的聚類結(jié)果。這說明本文提出的基于RESS的情感聚類方法同樣適用于不平衡數(shù)據(jù)集,這在大數(shù)據(jù)中有更廣泛的應(yīng)用價值。

        4 結(jié)論與展望

        本文針對情感聚類中文本-特征向量的高維和稀疏問題,以及對評論文本潛在情感因素的表示問題,提出基于子空間的文本語義相似度計算方法(RESS),通過構(gòu)建文本相關(guān)度子空間(RSS)和文本情感子空間(ESS),計算文本集語義相似度矩陣,實現(xiàn)情感聚類。在中、英文七個領(lǐng)域的數(shù)據(jù)集上分別進行實驗,結(jié)果表明: 基于RESS的文本語義相似度計算從文本相關(guān)性和情感角度實現(xiàn)文本的語義表示,有效地解決文本向量的高維問題,并獲得較好的聚類結(jié)果。同時,該方法也適用于非平衡數(shù)據(jù)集。

        本文的情感聚類結(jié)果將文本分為正面和負面兩類,但是五級情感標(biāo)簽可以更細地刻畫情感的強度。因此,今后將在五級情感聚類方面開展研究。

        [1] 孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展,2013, 50(01):146-169.

        [2] Berry M W, Castellanos M. Survey of text mining [M]. New York: Springer, 2004:219-232.

        [3] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 417-424.

        [4] 李欣,王素格,李德玉. 面向文本情感聚類的維度判別方法[J]. 計算機工程與應(yīng)用, 2015,51(7):124-130.

        [5] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics, 2002:79-86.

        [6] Das S R, Chen M Y. Yahoo! For amazon: sentiment parsing from small talk on the Web[J]. ManagementScience, 2007, 53(9):1375-1388.

        [7] 陳笑蓉,劉作國. 文本聚類的重構(gòu)策略研究[J]. 中文信息學(xué)報,2016,30(02):189-195.

        [8] Bilenko M, Basu S, Mooney R J. Integrating constraints and metric learning in semi-supervised clustering[C]//Proceedings of the 21stInternational Conference on Machine Learning. ICML, 2004:81-88.

        [9] Bekkerman R, Raghavan H, Allan J, et al. Interactive clustering of text collections according to a user-specified Criterion[C]//Proceedings of the International Joint Conference on Artificial Intelligence. IJCAI, 2007: 684-689.

        [10] Dasgupta S, Ng V. Mining clustering dimensions[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010: 26270.

        [11] Riloff E, Patwardhan S, Wiebe J. Feature subsumption for opinion analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,2006: 440-448.

        [12] Feng S, Wang D, Yu G, et al. Extracting common emotions from blogs based on fine-grained sentiment clustering[J]. Knowledge and Information Systems, 2011, 27(2): 281-302.

        [13] 黃永光,劉挺,車萬翔,胡曉光. 面向變異短文本的快速聚類算法[J]. 中文信息學(xué)報,2007,21(02): 63-68.

        [14] Makrehchi M, Kamel M S. Text classification using small number of features[M]. Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, 2005: 580-589.

        [15] Zheng H T, Kang B Y, Kim H G. Exploiting noun phrases and semantic relationships for text document clustering[J]. Information Sciences, 2009, 179(13): 2249-2262.

        [16] Jing L, Ng M K, Huang J Z. Knowledge-based vector space model for text clustering[J]. Knowledge and Information Systems, 2010, 25(1): 35-55.

        [17] 王素格,李德玉,魏英杰. 基于賦權(quán)粗糙隸屬度的文本情感分類方法[J]. 計算機研究與發(fā)展, 2011, 48(05):855-861.

        [18] 夏云慶,楊瑩,張鵬洲,劉宇飛. 基于情感向量空間模型的歌詞情感分析[J]. 中文信息學(xué)報,2010,24(01): 99-103.

        [19] 劉全超,黃河燕,馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報,2014, 28(04):123-131.

        [20] 郗亞輝. 產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建[J]. 中文信息學(xué)報, 2016,30 (05):136-144.

        [21] Mitral M, Hadi A, Man L, et. al. Sense Sentiment Similarity: An Analysis[C]//Proceedings of the 26thAssociation for the Advancement of Artificial Intelligence, 2012:1706-1712.

        [22] Neviarouskaya A, Ishizuka M. SentiFul: Generating a reliable lexicon for sentiment analysis[C]//Proceedings of the 3th International Conference on Affective Computing and Intelligent Interaction and Workshops (ACII), 2009:1-6.

        [23] Ortony A, Turner T J. What's basic about basicemotions?[J]. Psychological Review, 1990, 97(3):315-331.

        [24] 徐琳宏,林鴻飛,潘宇. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008,27(2):180-185.

        [25] Dunning T. Accurate methods for the statistics of surprise and Coincidence[J]. Computational Linguistics, 1993, 19(1): 61-74.

        猜你喜歡
        語義聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        “上”與“下”語義的不對稱性及其認知闡釋
        向量垂直在解析幾何中的應(yīng)用
        基于改進的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        認知范疇模糊與語義模糊
        国产尤物AV尤物在线看| 国产精品欧美福利久久| 男人和女人高潮免费网站| 69av视频在线| 国产在线观看一区二区三区av| 亚洲av色香蕉一区二区三区| 性一交一乱一透一a级| 小12箩利洗澡无码视频网站| 亚洲免费av第一区第二区| 无遮挡很爽很污很黄的女同| 亚洲综合色区另类av| 免费毛片在线视频| 日本高清免费播放一区二区| 日本高清一级二级三级 | 全部孕妇毛片丰满孕妇孕交| 成人午夜免费无码视频在线观看| 亚洲黄色大片在线观看| 国产亚洲欧美精品永久| 特级婬片国产高清视频| 国产精品深夜福利免费观看| 人妻被公上司喝醉在线中文字幕| 天天躁日日躁狠狠躁欧美老妇小说| 亚洲av中文无码字幕色三| yw193.can尤物国产在线网页| 人妖在线一区二区三区| 性无码专区无码| 国产精品无码一区二区在线国| 亚洲一区二区三区在线更新| 亚洲成av人片女在线观看| 精品国产人妻一区二区三区| 色欲AV成人无码精品无码| 亚洲人成精品久久熟女| 人妻少妇出轨中文字幕| a毛片全部免费播放| 日韩色久悠悠婷婷综合| 亚洲综合国产成人丁香五月激情 | 国产男女插插一级| 亚洲一区久久蜜臀av| 久久伊人精品一区二区三区| 五月天激情小说| 91青青草免费在线视频|