亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向短文本情感分類的特征拓?fù)渚酆夏P?/h1>
        2016-05-04 02:42:55馮旭鵬黃青松付曉東劉利軍
        中文信息學(xué)報 2016年5期
        關(guān)鍵詞:分類特征情感

        胡 楊,馮旭鵬,黃青松,3,付曉東,劉 驪,劉利軍

        (1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,云南 昆明 650500;3. 云南省計算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        面向短文本情感分類的特征拓?fù)渚酆夏P?/p>

        胡 楊1,馮旭鵬2,黃青松1,3,付曉東1,劉 驪1,劉利軍1

        (1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,云南 昆明 650500;3. 云南省計算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        由于短文本極稀疏性和特征分散的特點(diǎn),短文本的情感分類效果總是不及篇章文本的情感分類,針對此問題,該文提出面向短文本情感分類的特征拓?fù)渚酆夏P?。模型首先從特征點(diǎn)互信息,情感指向相似度,主題歸屬差異值三個維度整合計算情感特征的關(guān)聯(lián)度,然后根據(jù)特征關(guān)聯(lián)度建立拓?fù)渚酆蠄D模型,通過在圖上求解強(qiáng)聯(lián)通分量聚合高關(guān)聯(lián)度情感特征,從大量未標(biāo)注語料中提取相似特征對訓(xùn)練集特征進(jìn)行補(bǔ)充,同時降低訓(xùn)練空間維度。實(shí)驗(yàn)將模型應(yīng)用于短文本情感分類,與基準(zhǔn)算法對比能提高分類準(zhǔn)確率和召回率分別達(dá)0.03和0.027。驗(yàn)證了模型在緩解短文本極稀疏性和特征分散問題上的效果。

        短文本;情感分類;特征關(guān)聯(lián)度;強(qiáng)聯(lián)通分量;拓?fù)渚酆?/p>

        1 引言

        隨著科學(xué)和網(wǎng)絡(luò)技術(shù)的發(fā)展以及時代的進(jìn)步,互聯(lián)網(wǎng)在人們的生活中扮演著越來越重要的角色。而隨著智能手機(jī),平板電腦進(jìn)入人們的日常生活,在微博、微信、社交網(wǎng)絡(luò)、電子商務(wù)網(wǎng)站和各類服務(wù)平臺上,以短評論和微博等各種形式存在的短文本信息大量出現(xiàn)且數(shù)量還在快速增長。針對這些短文本信息的分析和處理技術(shù)已經(jīng)應(yīng)用于觀點(diǎn)挖掘,用戶行為分析,熱點(diǎn)話題發(fā)現(xiàn)[1]與追蹤乃至醫(yī)療服務(wù)評價等各個領(lǐng)域,從短文本挖掘出有用的信息目前已成為研究界關(guān)注的重點(diǎn)。

        在針對文本的分析與處理研究工作中,文本情感分類是一個重要的分支,即對主觀性文本進(jìn)行正負(fù)極傾向性的分類,從而達(dá)到了解用戶心理,監(jiān)督輿論導(dǎo)向等應(yīng)用目的。Pang等首次將監(jiān)督學(xué)習(xí)方法引入文本情感分類問題的解決[2],后續(xù)的研究[3-5]說明監(jiān)督學(xué)習(xí)的方法已經(jīng)能夠很好的解決文本情感分類的問題。不同于普通文本,短文本由于字?jǐn)?shù)少,用語隨意且不規(guī)范,使其具有天然的極稀疏性[6],同時,短文本詞語特征除了稀疏,還形式多樣并且分散。在監(jiān)督學(xué)習(xí)中,對已有數(shù)據(jù)進(jìn)行人工標(biāo)記是一項(xiàng)繁重的任務(wù),通常已標(biāo)記的訓(xùn)練語料是有限的,更多的是大量未標(biāo)記語料。短文本因篇幅短小,表達(dá)隨性,其未標(biāo)注語料中有許多未在訓(xùn)練語料出現(xiàn)的有用特征。例如,在未標(biāo)注語料中雖然出現(xiàn)了與訓(xùn)練語料中某特征詞近義的詞條,在訓(xùn)練語料中卻從未出現(xiàn)該特征詞的情況,例如,訓(xùn)練語料中只有“厲害”或“?!保礃?biāo)注語料中卻出現(xiàn)“碉堡”,“給力”等詞。根據(jù)上述論據(jù)及前人的總結(jié)[7],傳統(tǒng)監(jiān)督學(xué)習(xí)情感分類方法對短文本情感分類問題并不適用。

        目前,研究者主要從兩方面對短文本處理問題展開研究: 1)借助外源知識庫(主要為Wikipedia,WordNet,HowNet等)對短文本內(nèi)容進(jìn)行擴(kuò)充[6,8-9];2)采用各種特征提取和映射方法,對短文本特征空間進(jìn)行降維以緩解短文本特征的極稀疏問題[10-13]。其中,第二類方法雖然不需要外源知識庫,但因與特定算法或數(shù)據(jù)的高度耦合性以及短文本訓(xùn)練集蘊(yùn)含的內(nèi)容有限,降維后分類和檢索的準(zhǔn)確率往往偏低[14]。相比之下,第一種基于外源知識擴(kuò)展的短文本處理方法效果較好,然而,外源知識庫大多依賴于人工維護(hù),且針對微博等新興語料的資源較為稀缺,另一方面,嚴(yán)謹(jǐn)?shù)耐庠粗R庫更新速度較慢,很難跟上短文本社交語料極快的更新速度[4],這導(dǎo)致第一類方法有其自身的不足。文獻(xiàn)[4]針對此問題提出了基于偽相關(guān)反饋的短文本擴(kuò)展方法,將外部知識源從固定的本體庫轉(zhuǎn)為更新速度更快的搜索引擎,從而解決了外源知識庫更新速度慢于短文本語料更新速度的問題,但此方法仍然依賴于外部知識源,且搜索引擎的搜索結(jié)果排序除了依照文本內(nèi)容本身的相似度以外,還加入許多商業(yè)及個性化因素,排序靠前的結(jié)果混雜了較多噪音,從而影響短文本擴(kuò)展內(nèi)容的質(zhì)量。

        針對以上問題,提出面向短文本情感傾向性分類的特征拓?fù)湮张c組合模型,模型定義多維度的特征關(guān)聯(lián)度計算方法,計算有標(biāo)注訓(xùn)練集和未標(biāo)注語料集中所有特征的關(guān)聯(lián)度,并建立基于圖的特征關(guān)聯(lián)模型。從未標(biāo)注語料集中提取相似特征對數(shù)量有限的訓(xùn)練集特征進(jìn)行補(bǔ)充,再利用圖結(jié)構(gòu)對相似的特征進(jìn)行聚合處理。模型不需要外部知識源的介入,訓(xùn)練集特征既得到補(bǔ)充又能有效降低維度,且未標(biāo)注語料越多越豐富,模型越能發(fā)揮優(yōu)勢。通過在真實(shí)語料上的實(shí)驗(yàn)驗(yàn)證,提出的模型在短文本情感分類任務(wù)中具有較好的性能。

        論文組織結(jié)構(gòu)安排如下: 第二節(jié)為相關(guān)工作,第三節(jié)具體闡述了短文本特征拓?fù)渚酆夏P偷脑O(shè)計,第四節(jié)為實(shí)驗(yàn)與分析,第五節(jié)對當(dāng)前工作進(jìn)行總結(jié)和展望。

        2 相關(guān)工作

        文本情感分類是情感識別類問題中的一個重要部分[15]。此領(lǐng)域效果顯著的研究成果層出不窮,文獻(xiàn)[2]采用樸素貝葉斯、最大熵、支持向量機(jī)(Support Vector Machine,SVM)三種分類器對電影評論進(jìn)行情感分類,能夠達(dá)到接近80%的準(zhǔn)確率,成為監(jiān)督學(xué)習(xí)方法解決情感分類問題的典范。Turney提出了無監(jiān)督的情感分類算法,通過互信息計算詞語的語義傾向,進(jìn)而計算得篇章整體的傾向值[16]。在國內(nèi),也有李素科等采用情感特征的譜聚類方法并提出半監(jiān)督的情感分類方法[17]。

        而面對短文本極稀疏,更新快,不規(guī)范等特點(diǎn),在針對短文本進(jìn)行挖掘與分析工作之前,需要研究者做好特征降維或知識補(bǔ)充的預(yù)處理工作。文獻(xiàn)[6,8-9]主要采用借助外源知識庫的方式對短文本內(nèi)容進(jìn)行擴(kuò)展,Hu根據(jù)短文本特征詞數(shù)量的不同分別采用Wikipedia和WordNet擴(kuò)展短文本[8],Han利用Wikipedia的結(jié)構(gòu)化信息來補(bǔ)充微博或短文本內(nèi)容,并結(jié)合圖上的隨機(jī)游走算法訓(xùn)練模型[9],肖永磊同樣將外源知識庫設(shè)定為Wikipedia,并采用NMF分解(非負(fù)矩陣分解)的方法計算Wikipedia概念之間的語義近鄰,為微博擴(kuò)展與自身相關(guān)的語義概念[6]。

        另外,還有一些不完全依賴于外源知識庫的短文本處理方法。Sriram等分析微博的文本特點(diǎn),在詞袋模型(Bag of Words)的基礎(chǔ)上抽取八個額外的應(yīng)用相關(guān)性特征作為輔助特征來補(bǔ)充短文本,提高分類準(zhǔn)確率[10],Haesun等使用基于聚類重心數(shù)據(jù)降維(Centroid method, CM)的方法應(yīng)用于文本分類[11],Xu等使用潛在語義分析方法解決手機(jī)短信分類問題[12],劉全超等利用微博短文本內(nèi)容及轉(zhuǎn)發(fā)、評論關(guān)系特征構(gòu)建情感詞典和表情符號庫,擴(kuò)展微博話題以幫助分析微博話題輿情[13]。

        目前,國內(nèi)關(guān)于短文本情感分類的研究主要集中在對短文本領(lǐng)域主題的劃分與補(bǔ)充以及探究短文本句法規(guī)律等方面。楊震等首先對于短文信息進(jìn)行基于主體相關(guān)的上下文領(lǐng)域劃分,再根據(jù)不同的上下文領(lǐng)域訓(xùn)練單獨(dú)的短文本分類器,對所屬各個領(lǐng)域的短文本分別進(jìn)行分類[7],陳南昌等從語義分析的角度出發(fā),總結(jié)出含顯性歸總句,含隱性歸總句,含特征詞和一般文本四種短文本類別,并采取不同策略計算四種短文本的情感值[18]。微博作為短文本的代表文體也受到了學(xué)者的關(guān)注,文獻(xiàn)[15,19]分別基于微博意群間的關(guān)系和微博情感單元提出了有效的微博文本情感分類方法。

        3 情感特征拓?fù)鋱D聚合模型

        由于面對的是情感分類問題,情感特征是分類學(xué)習(xí)的基本元素,本文選擇常含有主觀性的形容詞和動詞作為情感詞,在全體語料集的范圍內(nèi)(包含有標(biāo)注訓(xùn)練集和未標(biāo)注語料集)計算情感特征詞之間的關(guān)聯(lián)度,后基于強(qiáng)聯(lián)通分量模型開展訓(xùn)練集特征的補(bǔ)充和多特征的聚合操作。接下來,將從情感特征間關(guān)聯(lián)度的計算和特征補(bǔ)充及聚合兩部分闡述情感特征的拓?fù)渚酆夏P停P驼w結(jié)構(gòu)如圖1所示。

        圖1 情感特征拓?fù)渚酆夏P驼w結(jié)構(gòu)

        3.1 情感特征關(guān)聯(lián)度計算

        設(shè)計多維度特征相關(guān)性衡量策略,計算改進(jìn)的點(diǎn)互信息,情感指向相似度,主題歸屬差異值三個相似維度并整合。

        1. 短文本情感特征點(diǎn)互信息

        (1)

        但由于短文本長度極短(一般不超過140字),如果共現(xiàn)情感詞屬于被轉(zhuǎn)折性詞語分開的情況,則需要對共現(xiàn)值重新定義計算。

        轉(zhuǎn)折性詞語分為兩種:

        1) 轉(zhuǎn)折連接詞

        轉(zhuǎn)折連接詞一般出現(xiàn)在短文本中間部分,例如,“這部電影動作精彩 卻 劇情惡俗!”,設(shè)定: 如果共現(xiàn)的情感詞出現(xiàn)在轉(zhuǎn)折連詞兩端,則認(rèn)為它們被轉(zhuǎn)折性詞語分開。

        2) 轉(zhuǎn)折指示詞

        轉(zhuǎn)折指示詞一般出現(xiàn)在短文本句首部分,例如,“盡管 微軟精心設(shè)計了這一代操作系統(tǒng),還是不得不說Win8是一款失敗的作品!”。設(shè)定: 如果短文本中出現(xiàn)轉(zhuǎn)折指示詞且共現(xiàn)情感詞出現(xiàn)在標(biāo)點(diǎn)符號的兩端,則認(rèn)為它們被轉(zhuǎn)折性詞語分開。

        轉(zhuǎn)折連接詞和轉(zhuǎn)折指示詞具體如表1示例。

        表1 轉(zhuǎn)折性詞語示例表

        考慮情感詞是否被轉(zhuǎn)折性詞語分開,設(shè)置影響權(quán)值如式(2)所示。

        (2)

        于是,計算特征詞點(diǎn)互信息時考慮入轉(zhuǎn)折性詞語的影響,將式(1)改進(jìn)如式(3)所示。

        (3)

        2. 情感指向相似度

        情感指向是情感詞修飾實(shí)體名詞的分布情況,這里設(shè)定在短文本中,某情感詞前最近的實(shí)體名詞被該情感詞修飾,例如,“許教授的敢言固然可敬,但缺乏建設(shè)性,忽視了正能量的傳播?!逼渲校翱删础迸c“缺乏建設(shè)性”修飾“敢言”,“傳播”修飾“正能量”。

        每個情感詞都有自己特有且相對固定的修飾對象,可以認(rèn)為: 情感指向的相似度是情感詞相似度的一種體現(xiàn)。

        (4)

        式(4)中,N為語料集中實(shí)體名詞的數(shù)量,向量元素nij根據(jù)實(shí)體名詞nj是否被情感詞wi修飾,設(shè)定如式(5)所示。

        (5)

        如此設(shè)定向量元素的意義: 各情感詞對于所有實(shí)體名詞的指向分布是一個0-1分布,若某實(shí)體名詞被該情感詞修飾過,則對應(yīng)向量元素為1,說明情感詞曾被用于修飾該實(shí)體名詞,否則對應(yīng)向量元素為0,表示實(shí)體名詞與情感詞之間不存在修飾關(guān)系。

        情感詞wi和wj間的情感指向相似度使用余弦相似度計算,加入平滑因子的計算公式如式(6)所示。

        (6)

        3. 情感特征主題歸屬差異值

        隱式狄利克雷模型(Latent Dirichlet Allocation,LDA)是一個生成式概率模型,能很好的表示文本的內(nèi)蘊(yùn)特征,模型在文本與特征詞之間加入了一層抽象的概念——主題[21]。在LDA模型中,主題被定義為文本中特征的概率分布,反過來想,語料中每個特征詞也可以表示為歸屬于各個主題的概率分布,如圖2所示。

        圖2 LDA模型特征主題歸屬

        圖中,α和β是超參數(shù)[21],M,N,T分別為文檔數(shù),特征數(shù)和主題數(shù),w為特征詞,z為特征詞的主題分配,θ為“文本—主題”的概率分布,φ1,φ2,…φn是各個主題下“主題—特征”的概率分布。LDA模型中,“主題—特征”的分布概率φkn的計算公式如式(7)所示

        (7)

        (8)

        至此,將每個情感特征表示為所屬各個主題的概率分布形式如式(9),其中φnk意義是出現(xiàn)情感詞wn時,情感詞wn歸屬于主題k的條件概率,并由式(8)估算。

        (11)

        3.2 短文本情感特征吸收與聚合模型

        情感特征關(guān)聯(lián)度由上一小節(jié)求得的三個維度的情感特征相似性整合而成,通過情感特征之間的關(guān)聯(lián)度可以確定特征聚合圖上的邊關(guān)系。情感特征關(guān)聯(lián)度整合計算公式如式(12)所示。

        (12)

        關(guān)于式(12),由于情感特征的主題歸屬分布差異與點(diǎn)互信息和情感指向相似度不同,是一種分布差異的描述,故放在分母,ρ是平滑因子,N是語料集中情感特征總數(shù)。

        (13)

        圖3 情感特征聚合圖模型

        通過在建立的有向圖模型中求強(qiáng)聯(lián)通分量,對關(guān)聯(lián)緊密相似度高的情感特征進(jìn)行聚集,如圖3所示。這樣,來自未標(biāo)注語料集的情感特征詞被聚集到高相似度的訓(xùn)練集特征周圍,對短文本情感特征進(jìn)行補(bǔ)充,再通過“縮點(diǎn)”操作,即將同屬一個強(qiáng)聯(lián)通分量的節(jié)點(diǎn)聚合為一個點(diǎn),實(shí)現(xiàn)短文本情感特征空間的降維。Gabow算法能在線性的時間復(fù)雜度解決強(qiáng)聯(lián)通分量求解問題[22]。

        對于未能與訓(xùn)練集特征聚合的未標(biāo)注語料集特征被將舍棄。對于來自訓(xùn)練集且將被聚合在一起的原情感特征,聚合后特征值的計算有如下兩種策略,在實(shí)驗(yàn)中將對其進(jìn)行比較。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        為評估提出的特征拓?fù)渚酆夏P兔鎸Χ涛谋厩楦蟹诸惾蝿?wù)時的性能,實(shí)驗(yàn)選用的語料集與文獻(xiàn)[7]相同: 未去重且平衡的中文情感挖掘語料集ChnSentiCorp*http://www.searchforum.org.cn/tansongbo/corpus-senti.htm,包含針對圖書,旅店,電腦三個領(lǐng)域的短評論。除此之外,選用NLPCC 2014所提供的有標(biāo)注微博情緒分析樣例語料集*http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html作為補(bǔ)充實(shí)驗(yàn)數(shù)據(jù),根據(jù)原來的細(xì)粒度類別標(biāo)注對語料進(jìn)行重新標(biāo)記(生氣、厭惡、悲傷隸屬負(fù)面,開心、喜歡隸屬正面,正負(fù)傾向不明顯的害怕、驚訝被屏蔽)。具體各領(lǐng)域?qū)嶒?yàn)語料信息如表2所列,可能由于分詞器及詞庫選用不同,前三種與文獻(xiàn)[7]所列略有差異。

        表2 短文本實(shí)驗(yàn)語料信息

        4.2 實(shí)驗(yàn)設(shè)計

        實(shí)驗(yàn)規(guī)劃為五部分: 1.預(yù)處理; 2.閾值α取值影響實(shí)驗(yàn); 3.LDA主題數(shù)設(shè)置實(shí)驗(yàn); 4.特征聚合特征值計算策略比較實(shí)驗(yàn); 5.提出模型與其他算法對比實(shí)驗(yàn)。

        實(shí)驗(yàn)評價標(biāo)準(zhǔn): 準(zhǔn)確率(P)、召回率(R),采用微平均的方式計算全局準(zhǔn)確率、召回率。

        實(shí)驗(yàn)中使用的工具: 中文分詞工具選用ICTCLAS*http://ictclas.nlpir.org/,選用SVM作為基礎(chǔ)分類算法,實(shí)現(xiàn)工具選用LibSVM*http://www.csie.ntu.edu.tw/~cjlin/,LDA主題建模選用工具M(jìn)allet*http://mallet.cs.umass.edu/。以上工具中,LibSVM設(shè)置使用徑向基核函數(shù)(Radial Basis Function,RBF),其余采用缺省值。

        實(shí)驗(yàn)對比算法: 對實(shí)驗(yàn)語料先進(jìn)行清洗,分詞,去停用詞。選擇樸素貝葉斯(Na?ve Bayes,NB),SVM算法直接對短文本進(jìn)行情感分類以及文獻(xiàn)[7]中基于領(lǐng)域歸屬劃分和基于上下文重構(gòu)的兩種短文本情感分類算法作為對比算法,并按照文獻(xiàn)[7]描述,實(shí)現(xiàn)算法時選用使性能最優(yōu)的子方法及參數(shù)。

        實(shí)驗(yàn)數(shù)據(jù)的分配及使用: 為了更客觀地驗(yàn)證所提方法的性能,將每個領(lǐng)域的正負(fù)實(shí)驗(yàn)語料等分為五份,一份作為訓(xùn)練集,一份作為測試集,其余作為輔助訓(xùn)練的未標(biāo)注語料集。每小份語料輪流充當(dāng)以上角色進(jìn)行實(shí)驗(yàn),即每個領(lǐng)域的語料進(jìn)行20輪實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取平均值以盡可能降低隨機(jī)擾動帶來的影響。其他基準(zhǔn)方法輪流將每小份語料作為測試集其余為訓(xùn)練集,每個領(lǐng)域進(jìn)行五輪實(shí)驗(yàn)。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)結(jié)果圖4、圖5展示了關(guān)于實(shí)驗(yàn)第二部分閾值α的不同取值影響和實(shí)驗(yàn)第三、四部分取不同LDA主題數(shù)及特征值不同計算策略時的部分實(shí)驗(yàn)結(jié)果,圖4實(shí)驗(yàn)結(jié)果為固定主題數(shù)為150,特征值計算策略為求最大值時的結(jié)果,圖5實(shí)驗(yàn)結(jié)果為閾值α固定為0.6時的結(jié)果。

        圖4 閾值α取值實(shí)驗(yàn)結(jié)果

        圖5 主題數(shù)及特征值計算策略實(shí)驗(yàn)結(jié)果

        分析圖4結(jié)果,可以得出: 1.當(dāng)閾值α小于等于0.3時,由于特征聚合圖建邊的門檻太低,導(dǎo)致特征聚合過度,嚴(yán)重影響情感分類效果,分類結(jié)果沒有參考意義; 2.閾值α從0.4到0.6,情感分類的準(zhǔn)確率大致呈上升趨勢,到0.6時達(dá)到相對峰值; 3.閾值α從0.6到1.0,情感分類準(zhǔn)確率開始呈下降趨勢,原因是圖模型建邊標(biāo)準(zhǔn)變高,導(dǎo)致圖上節(jié)點(diǎn)過于分散,失去了特征聚合的效果,這也從另一個側(cè)面說明特征拓?fù)渚酆夏P偷挠行浴?/p>

        從圖5得出結(jié)論: 1.無論特征值計算采用何種方法,情感分類準(zhǔn)確率都隨著主題數(shù)的增多而升高,主題數(shù)為150和200時,準(zhǔn)確率達(dá)到相對峰值,主題數(shù)為200時比150時情感分類準(zhǔn)確率稍高,但考慮時間效率,認(rèn)為150是LDA主題數(shù)最佳選擇;2.使用兩種聚合特征值計算方法時,情感分類的準(zhǔn)確率差異較小,說明特征值計算方法的選擇對情感分類準(zhǔn)確率影響不大。因?yàn)楸痪酆嫌谕稽c(diǎn)的情感特征本身關(guān)聯(lián)度高,分布差異及原特征值差異較小。

        表3、表4分別列出了特征拓?fù)渚酆夏P偷那楦蟹诸惻c傳統(tǒng)分類方法以及基于領(lǐng)域歸屬劃分/上下文重構(gòu)的情感分類性能對比情況,其中,“NB”和“SVM”分別代表使用樸素貝葉斯和SVM算法直接進(jìn)行短文本情感分類,“Field”和“Context”分別代表使用基于領(lǐng)域歸屬劃分和上下文重構(gòu)的方法進(jìn)行短文本情感分類,“COV”表示基于特征拓?fù)渚酆夏P偷那楦蟹诸?,表中加粗?jǐn)?shù)字顯示不同算法相同指標(biāo)的最高者。發(fā)現(xiàn): 1.經(jīng)過情感特征拓?fù)渚酆夏P偷奶幚?,情感分類性能明顯優(yōu)于直接使用樸素貝葉斯和SVM算法進(jìn)行短文本情感分類,分析: 雖然后面兩種分類方法使用的訓(xùn)練語料數(shù)倍于所提方法,但訓(xùn)練語料較多反而使得短文本特征稀疏且分散帶來的影響更加明顯,使得傳統(tǒng)情感分類方法很難擺脫這兩點(diǎn)的困擾。相反,提出模型對特征的吸收與聚合效果得到體現(xiàn);2.基于特征拓?fù)渚酆夏P偷那楦蟹诸愊啾然陬I(lǐng)域歸屬劃分和上下文重構(gòu)的方法準(zhǔn)確率和召回率分別提高2.59%和2.55%,尤其是在微博領(lǐng)域上,算法的性能提升較明顯,準(zhǔn)確率和召回率分別提高7.21%和5.84%,分析: 微博語料比一般評論更短,用語更隨意,特征更加稀疏且涵蓋信息多而雜,導(dǎo)致領(lǐng)域及上下文類別界限較為模糊,不利于完全發(fā)揮大類歸屬重構(gòu)算法的優(yōu)勢。

        表3 對比傳統(tǒng)方法分類實(shí)驗(yàn)結(jié)果

        表4 對比領(lǐng)域歸屬及上下文重構(gòu)分類實(shí)驗(yàn)結(jié)果

        5 結(jié)語

        提出一種面向短文本情感分類的情感特征拓?fù)渚酆夏P?,從三個維度計算情感特征之間的關(guān)聯(lián)度,并建立圖模型,利用在圖上的強(qiáng)聯(lián)通分量求解將高相似度情感特征聚合,一方面從未標(biāo)注語料集向訓(xùn)練集進(jìn)行了特征補(bǔ)充,另一方面降低了監(jiān)督學(xué)習(xí)訓(xùn)練模型的維度。實(shí)驗(yàn)將模型應(yīng)用于包含短評論或微博文本的語料情感分類任務(wù),得到了較好的效果。證明了方法在緩解短文本極稀疏性,特征分散等問題時的有效性。

        目前基于深度神經(jīng)網(wǎng)絡(luò)的詞嵌入學(xué)習(xí)(如: 詞向量模型)及自動編碼機(jī)等技術(shù)從深層的語義關(guān)系中挖掘特征間的相關(guān)性,未來計劃借助此類技術(shù)改進(jìn)模型的特征相關(guān)性計算方法,進(jìn)一步提高特征吸收與聚合的質(zhì)量,并將模型擴(kuò)展至跨領(lǐng)域的情形。由于上述技術(shù)基于深度神經(jīng)網(wǎng)絡(luò),在面對大規(guī)模語料時,還需探索保證算法時空效率的有效方法。

        [1] ASitaram, A Huberman. Predicting the Future With Social Media[C]//Proceedings of ACM, 2010.

        [2] Pang B, Lee L,Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02, 2002: 79-86.

        [3] Ni XC,Xue GR, Ling X, Yu Y, Yang Q. Exploring in the weblog space by detecting informative and affective articles[C]//Proceedings of the 16th Int’l Conf. on World Wide Web. Banff: ACM Press, 2007: 281-290.

        [4] Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Barcelona: Association for Computational Linguistics, 2004: 412-418.

        [5] Whitelaw C, Garg N,Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM Int’l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005: 625-631.

        [6] 肖永磊, 劉盛華, 劉悅, 等. 社會媒體短文本內(nèi)容的語義概念關(guān)聯(lián)和擴(kuò)展[J]. 中文信息學(xué)報, 2014, 28(4): 21-28.

        [7] 楊震, 賴英旭, 段立娟, 等. 基于上下文重構(gòu)的短文本情感極性判別研究[J]. 自動化學(xué)報, 2012, 38(1): 55-67.

        [8] Xia H, Nan S, Chao Z, et al. Exploiting internal and external semantics for the clustering of short texts using world knowledge[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong: ACM, 2009: 919-928.

        [9] HXianpei, S Le, Z Jun. Collective Entity Linking in Web Text: A Graph-Based Method[C]//Proceedings of the SIGIR, 2011.

        [10] BSriram, David Fuhry, Engin Demir, et al. Short Text Classification in Twitter to Improve Information Filtering[C]//Proceedings of SIGIR’10. Geneva, Switzerland, 2010.

        [11] Park H, Jeon M, Rosen J B. Lower dimensional representation of text data based on centroids and least squares[J]. Bit Numerical Mathematics, 2003, 43(2): 427-448.

        [12] Xu W R, Liu D X,Guo J, et al. Supervised dual-PLSA for personalized SMS filtering[C]//Proceedings of the 5th Asia Information Retrieval Symposium on Information Retrieval Technology. Sapporo, Japan: Springer-Verlag, 2009, 254-264.

        [13] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報, 2014, 28(4): 123-131.

        [14] 王蒙, 林蘭芬, 王鋒. 基于偽相關(guān)反饋的短文本擴(kuò)展與分類[J]. 浙江大學(xué)學(xué)報(工學(xué)版), 2014, 48(10): 1835-1842.

        [15] 桂斌,楊小平,朱建林等.基于意群劃分的中文微博情感傾向分析研究[J].中文信息學(xué)報,2015,29(3): 100-105.

        [16] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.

        [17] 李素科, 蔣嚴(yán)冰, 基于情感特征聚類的半監(jiān)督情感分類[J]. 計算機(jī)研究與發(fā)展, 2013, 50(12): 2570-2577.

        [18] 程南昌, 侯敏, 滕永林. 基于文本特征的短文本傾向性分析研究[J]. 中文信息學(xué)報, 2015, 29(2): 163-169.

        [19] 高凱,李思雨,阮冬茹等.基于微博的情感傾向性分析方法研究[J].中文信息學(xué)報,2015,29(4): 40-49.

        [20] Turney P, Littman M L. Measuring praise and criticism: Inference of semantic orientation from association [J]. ACM Transansaction on Information Systems, 2003, 21(4): 315-346.

        [21] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

        [22] Gabow H N. Path-based depth-first search for strong and biconnected components[J]. Information Processing Letters, 2000: 107-114.

        [23] Kullback S, Leibler R A. On information and sufficiency [J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86.

        Feature Polymeric Topology Model for Short-Text Sentiment Classification

        HU Yang1,F(xiàn)ENG Xupeng2,HUANG Qingsong1,3,F(xiàn)U Xiaodong1,LIU Li1,LIU Lijun1

        (1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,Yunnan 650500,China; 2. Educational Technology and Network Center, Kunming University of Science and Technology, Kunming,Yunnan 650500,China;3. Yunnan Key Laboratory of Computer Technology Applications, Kunming,Yunnan 650500,China)

        Short-text has some peculiarities: extreme sparsity, disperse features and so on, which leads to inferior sentiment classification on short-text. To solve this problem, we propose the feature polymeric topology model for short-text sentiment classification. The model integrates mutual information among features, similarity of sentiment orientation and topic ascription difference into the sentiment features correlation. Then this correlation is employed to establish topology polymeric graph, in which the strongly connected components are assumed as the most similar sentiment features. Finally, the polymeric topology model supplements the training feature set with similar features from the unlabeled corpora, and reduces dimension of training space at same time. In experiment,the proposed model can improve the presicion and recall by 0.03 and 0.027, respectively.

        short-text; sentiment classification; features correlation; strongly connected components; topological polymerization

        胡楊(1991—),碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、文本情感分類。E?mail:superhy199148@hotmail.com馮旭鵬(1986—),碩士,實(shí)驗(yàn)師,主要研究領(lǐng)域?yàn)樾畔z索、自然語言處理。E?mail:fxpflybird@hotmail.com黃青松(1962—),通信作者,碩士,教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、智能信息系統(tǒng)。E?mail:kmustailab@hotmail.com

        1003-0077(2016)05-0028-08

        2015-08-19 定稿日期: 2016-02-03

        國家自然科學(xué)基金(81360230, 61462056, 61462051)

        TP391

        A

        猜你喜歡
        分類特征情感
        分類算一算
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        不忠誠的四個特征
        分類討論求坐標(biāo)
        如何在情感中自我成長,保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類

        国产综合久久久久久鬼色| 米奇亚洲国产精品思久久| 日韩av他人妻中文字幕| 国产流白浆视频在线观看| 欧美色欧美亚洲另类二区| 精品国产黑色丝袜高跟鞋| 亚洲熟妇av日韩熟妇av| 久久精品国产亚洲av日韩一| 人妻 丝袜美腿 中文字幕| 中文字幕亚洲欧美日韩2019| 老汉tv永久视频福利在线观看 | 亚洲精品国产福利在线观看| 国产在线一区二区三区四区乱码| 国产在线精品一区二区三区| 131美女爱做视频| 欧美激情国产亚州一区二区| 亚洲啪啪色婷婷一区二区| 国产色欲av一区二区三区| 免费a级毛片无码a| 国产韩国精品一区二区三区| 亚洲精品一区二区在线免费观看| 99久久99久久精品免费看蜜桃| 国产又黄又大又粗视频| 亚洲中文字幕精品一区二区| 久草视频这里只有精品| 99久久人妻无码精品系列蜜桃 | 精品中文字幕日本久久久 | 国产日韩乱码精品一区二区| 国产白浆一区二区三区性色| 亚洲aⅴ在线无码播放毛片一线天| 国产小屁孩cao大人| 美女射精视频在线观看| 日韩国产人妻一区二区三区| 亚洲国产精品久久久久秋霞1| 国产成人精品视频网站| 给我看免费播放的视频在线观看| 激情内射日本一区二区三区| 国产 中文 制服丝袜 另类 | 色欲AV无码久久精品有码| 亚洲国产一区一区毛片a| 人妻饥渴偷公乱中文字幕|