奠雨潔,金 琴,吳慧敏
中國人民大學(xué) 信息學(xué)院,北京 100872
基于多文本特征融合的中文微博的立場檢測(cè)
奠雨潔,金 琴,吳慧敏
中國人民大學(xué) 信息學(xué)院,北京 100872
微博立場檢測(cè)是判斷微博作者對(duì)某一個(gè)話題的態(tài)度是支持、反對(duì)或中立。在基于監(jiān)督學(xué)習(xí)的分類框架上,擴(kuò)展并提出基于多文本特征融合的中文微博的立場檢測(cè)方法。首先探究了基于詞頻統(tǒng)計(jì)的特征(詞袋特征(Bag-of-Words,BoW)、基于同義詞典的詞袋特征、考慮詞與立場標(biāo)簽共現(xiàn)關(guān)系的特征)和文本深度特征(詞向量、字向量)。之后使用支持向量機(jī),隨機(jī)森林和梯度提升決策樹對(duì)上述特征進(jìn)行立場分類。最后,結(jié)合所有特征分類器進(jìn)行后期融合。實(shí)驗(yàn)表明,文中提出的特征對(duì)于不同話題下的微博立場檢測(cè)的結(jié)果都有提升,且文本深度特征和基于詞頻統(tǒng)計(jì)的特征能夠捕捉到文本的不同信息,在立場檢測(cè)中是互補(bǔ)的?;诒疚姆椒ǖ奈⒉┝鰴z測(cè)系統(tǒng)在2016年自然語言處理與中文計(jì)算會(huì)議(NLPCC2016)的中文微博立場檢測(cè)評(píng)測(cè)任務(wù)中取得了最好的結(jié)果。
立場檢測(cè);情感分析;文本特征表示;微博;文本分類
隨著互聯(lián)網(wǎng)的飛速發(fā)展和多樣化網(wǎng)絡(luò)交流工具的廣泛使用,越來越多的互聯(lián)網(wǎng)用戶在博客、論壇等平臺(tái)上圍繞社會(huì)事件、消費(fèi)產(chǎn)品等話題發(fā)表自己的觀點(diǎn)、態(tài)度,表達(dá)自己的立場、情緒。這些評(píng)論,對(duì)商業(yè)智能、輿情分析、政府決策等都具有重要的研究價(jià)值。文本情感分析就是研究如何用計(jì)算機(jī)來分析這些評(píng)論信息[1-3]?!拔⒉笔钱?dāng)今互聯(lián)網(wǎng)最流行的社交媒體之一,其用戶基數(shù)大、傳播速度快等特點(diǎn)使得微博成為社會(huì)熱點(diǎn)和輿論傳播的重要平臺(tái)。針對(duì)微博數(shù)據(jù)的情感分析,近年來也引起了廣泛的關(guān)注[4]。由于微博文本句子簡短,因此對(duì)微博的情感分析主要集中在句子層面的情感傾向性分析(即判斷文本的情感是積極還是消極)[5-7]。
微博用戶對(duì)熱點(diǎn)事件的立場(或態(tài)度)通常能夠反映熱點(diǎn)事件的輿情走向,因此,對(duì)微博用戶的立場分析,有廣泛的應(yīng)用前景。微博用戶的立場檢測(cè),通常是判斷微博作者對(duì)于某個(gè)話題的態(tài)度是支持、反對(duì)或中立。它與傳統(tǒng)的文本情感傾向性分析很接近,但不同之處在于,立場檢測(cè)是分析文本針對(duì)某一特定話題的情感傾向,而傳統(tǒng)的情感傾向性分析不考慮任何話題。例如:“最反感這些拉客的!還有在機(jī)動(dòng)車道上行駛的!”,這條微博不考慮任何目標(biāo)話題時(shí),它的情感極性是消極,但是考慮“深圳禁摩限電”這個(gè)話題后,這條微博就是“支持”這個(gè)話題的。
本文提出的方法基于有監(jiān)督的機(jī)器學(xué)習(xí)算法,并利用多種文本特征的融合來實(shí)現(xiàn)中文微博的立場檢測(cè)。通過分析微博文本上不同話題的特點(diǎn),首先選取了五種不同的文本特征表示,包括:詞袋特征(BoW)、基于同義詞典的詞袋特征(S-BoW)、考慮話題主題詞和立場標(biāo)簽共現(xiàn)關(guān)系的特征(sVariance)以及從word2vec中提取的詞和字向量。其中S-BoW使用同義詞典對(duì)一元文法進(jìn)行擴(kuò)展,有效地?cái)U(kuò)充了詞匯表,能夠更好地處理詞匯表外詞語;sVariance結(jié)合不同話題下的主題詞和立場類別標(biāo)簽的共現(xiàn)情況,能夠更有針對(duì)性地處理立場檢測(cè)問題。之后本文采用支持向量機(jī)(Support Vector Machine,SVM),隨機(jī)森林(Random Forest)和梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)作為分類器進(jìn)行立場分類。最后,將不同特征的分類器進(jìn)行后期融合得到最終微博用戶的立場。實(shí)驗(yàn)結(jié)果表明,本文提到的方法能夠有效檢測(cè)中文微博中的作者立場。系統(tǒng)在 NLPCC2016(The Fifth Conference on Natural Language Processing and Chinese Computing)的中文微博立場檢測(cè)的評(píng)測(cè)任務(wù)中取得了最優(yōu)的比賽結(jié)果[8]。
本文的組織結(jié)構(gòu)如下:
第2章介紹立場檢測(cè)相關(guān)工作。第3章介紹本文的立場檢測(cè)方法,包括特征提取、立場分類和特征后期融合。第4章介紹本文的方法在中文微博數(shù)據(jù)集上的驗(yàn)證結(jié)果并對(duì)結(jié)果進(jìn)行分析。第5章對(duì)本文研究工作做出總結(jié)以及對(duì)未來的研究做出展望。
立場檢測(cè)是一項(xiàng)特殊的情感分析任務(wù),因此常見的情感分析的方法可以用于立場檢測(cè),如基于特征分類的方法,利用機(jī)器學(xué)習(xí)模型,通過學(xué)習(xí)大量有意義的特征來完成分類任務(wù)。文獻(xiàn)[9]首次將機(jī)器學(xué)習(xí)的方法應(yīng)用于篇章級(jí)(英文)的情感分類任務(wù)中。他們使用了n-gram詞語特征和詞性特征,并對(duì)比了樸素貝葉斯(Na?ve Bayes)、最大熵和SVM這三種分類模型,發(fā)現(xiàn)Unigram特征效果最好。在中文情感分類研究中,文獻(xiàn)[10]使用了三種機(jī)器學(xué)習(xí)算法(SVM、貝葉斯和n元文法)、三種特征選取算法(信息增益、CHI統(tǒng)計(jì)和文檔頻率)以及三種特征項(xiàng)權(quán)重計(jì)算方法(二值、詞頻和TF-IDF)對(duì)微博進(jìn)行了情感分類的實(shí)證研究。研究發(fā)現(xiàn),采用SVM作為分類器、信息增益作為特征選取算法,以及TF-IDF(Term Frequency-Inverse Document Frequency) 作為特征項(xiàng)權(quán)重,三者結(jié)合對(duì)微博的情感分類效果最好。
基于話題的情感分析與立場檢測(cè)任務(wù)較為相似,二者都是對(duì)特定的話題進(jìn)行情感傾向分析。文獻(xiàn)[11]中提出一種基于LDA話題模型與How-net詞典的中文博客多方面話題情感分析方法,該方法首先利用數(shù)據(jù)語料訓(xùn)練LDA話題模型對(duì)博客文本進(jìn)行話題識(shí)別與劃分;在此基礎(chǔ)上,基于How-net詞典對(duì)劃分后的話題段落進(jìn)行情感傾向計(jì)算。文獻(xiàn)[12]在話題情感模型中,將文檔中情感詞看作一個(gè)馬爾可夫鏈,考慮局部上下文中情感詞之間的相互依賴關(guān)系,利用該依賴關(guān)系進(jìn)行情感分析。這類方法在基于篇章級(jí)的文本情感分析中取得了較好的成果,但是這類方法有如下問題:第一,模型較為復(fù)雜,求解比較困難。第二,多數(shù)方法在篇章級(jí)文本上進(jìn)行驗(yàn)證。與篇章級(jí)文本相比,微博文本較為簡短,上下文信息稀缺,且句子結(jié)構(gòu)和詞語表達(dá)不規(guī)范。因此上述方法很難直接用于微博文本的立場檢測(cè)。
立場檢測(cè)的研究工作最早開始于政治辯論,國外對(duì)于立場檢測(cè)的研究工作也主要集中在政治辯論、在線辯論等平臺(tái)。研究方法主要利用這些平臺(tái)用戶之間的關(guān)系和對(duì)話等特征進(jìn)行立場檢測(cè)[13-14]。在SemEval2016的評(píng)測(cè)任務(wù)(http://alt.qcri.org/semeval2016/task6/)中,有大量的研究隊(duì)伍參與了英文微博(Twitter)的立場檢測(cè)。例如:文獻(xiàn)[15]將立場檢測(cè)問題歸結(jié)為多分類問題,抽取了二元、三元文法、語義特征(否定詞的數(shù)量,感嘆號(hào)的數(shù)量等)以及立場詞典特征,使用層次分類器的框架檢測(cè)微博用戶的立場。實(shí)驗(yàn)表明在立場檢測(cè)任務(wù)中,不同的文本特征的表現(xiàn)跟具體的話題類別相關(guān)。文獻(xiàn)[16]使用了一元文法和詞向量特征,利用隨機(jī)森林、SVM和GBDT三種分類器進(jìn)行特征分類,并在后期融合了不同特征。實(shí)驗(yàn)結(jié)果表明,不同特征的融合對(duì)實(shí)驗(yàn)結(jié)果的提升較為顯著。
本文的研究任務(wù)與文獻(xiàn)[8]中定義的立場檢測(cè)任務(wù)一致,本文提出的方法借鑒并擴(kuò)展了[16]在Twitter數(shù)據(jù)集上的工作,將其應(yīng)用到中文微博數(shù)據(jù)的立場檢測(cè)。中文微博和英文微博的共同點(diǎn)在于文本較簡短,用詞不規(guī)范,不同之處在于中文的處理更復(fù)雜,例如:中文微博中可能包含英文等外語文字;中文的語法結(jié)構(gòu)更復(fù)雜等。 因此,除了使用一元文法和詞向量特征外,本文根據(jù)中文微博上不同話題的特點(diǎn),探索了其他語義特征。第一,本文使用同義詞典對(duì)一元文法進(jìn)行擴(kuò)展,有效地?cái)U(kuò)充了詞匯表,能夠更好地處理詞匯表外詞語。第二,本文提出了一種新的權(quán)重計(jì)算方法,該方法結(jié)合不同話題下的主題詞和立場類別標(biāo)簽的共現(xiàn)情況,更有針對(duì)性地處理立場檢測(cè)問題。第三,由于微博文本比較簡短,每個(gè)字在微博中相較于詞語可能更重要,因此本文還抽取了字向量特征。基于上述特征,使用隨機(jī)森林、SVM和GBDT進(jìn)行立場分類并使用特征分類器的后期融合來預(yù)測(cè)最終立場。
如圖1所示,本文提出的基于監(jiān)督學(xué)習(xí)的立場檢測(cè)方法,共分為4個(gè)階段:數(shù)據(jù)預(yù)處理、特征抽取、立場分類和后期融合。
圖1 系統(tǒng)框架
數(shù)據(jù)預(yù)處理包括清洗語料、漢字簡繁體轉(zhuǎn)化、分詞和去除停用詞。在原始的微博中有很多新聞標(biāo)題,表情符號(hào)和URL鏈接,這些信息會(huì)增加微博正文的噪音,因此,在語料清洗階段,使用正則表達(dá)式去除這些信息。例如:
原始微博:【禁摩限電:國家權(quán)力“內(nèi)卷化”之弊 -FT中文網(wǎng)】從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……(分享自 @FT中文網(wǎng))http://t.cn/Rq4oQ6N
清洗后微博:從3月21日開始,深圳交警實(shí)施“禁摩限電”專項(xiàng)集中整治活動(dòng),在街頭巷尾對(duì)摩的、電動(dòng)車圍追堵截。根據(jù)其發(fā)布的消息,截止3月3……
如果一條微博在清洗過后不包含任何內(nèi)容,那么認(rèn)為這條微博是沒有立場的。語料清洗過程中去除的文本和對(duì)應(yīng)的示例如表1所示。語料清洗結(jié)束后,使用開源工具 zhtools(https://github.com/skydark/nstools/blob/master/zhtools/)進(jìn)行漢字簡繁體轉(zhuǎn)換,再使用結(jié)巴(jieba)(https://github.com/fxsjy/jieba)對(duì)微博進(jìn)行分詞。
表1 語料清洗
基于有監(jiān)督的機(jī)器學(xué)習(xí)的方法,通過選取大量有意義的特征來完成分類任務(wù)。在文本分類中,通常選取的特征是基于詞頻的特征,例如n-gram等。本文抽取了兩類特征:基于詞頻統(tǒng)計(jì)的特征和文本深度特征?;谠~頻統(tǒng)計(jì)的特征包括:基于Unigram的詞袋特征、基于同義詞典的詞袋特征、基于主題詞和立場類別標(biāo)簽共現(xiàn)關(guān)系的特征。文本深度特征是來自word2vec模型的詞向量和字向量。
3.2.1 BoW
詞袋模型(Bag-of-Words-BoW)[17]是最常見的文本表示方法。它在處理文本時(shí),通常只考慮文本中是否出現(xiàn)詞匯表中的詞語,而不考慮詞語順序、句子語法或語義結(jié)構(gòu)。BoW表示的特征值,可以有很多權(quán)重方法,其中最常見的是TF-IDF[18]。本文的基本文本表示方法是基于Unigram的BoW模型和對(duì)應(yīng)的TF-IDF權(quán)重,該特征將作為基本特征用來與文中其他特征進(jìn)行分類性能的比較。
3.2.2 S-BoW
微博用戶對(duì)相同事物的表達(dá)方式各異,微博上因此存在大量的新詞和生僻詞。由于微博文本較為簡短,且表達(dá)方式口語化、不規(guī)范化,傳統(tǒng)的BoW一方面會(huì)非常稀疏,另一方面不能很好地處理詞匯表外詞語。因此本文提出基于同義詞典的詞袋特征,利用同義詞典對(duì)關(guān)鍵詞做同義詞替換,對(duì)詞義進(jìn)行擴(kuò)展,這樣可以有效處理詞匯表外詞語。
本文使用的同義詞典來自哈工大《同義詞林》。《同義詞林》按照樹狀的層次結(jié)構(gòu)(共5層)收錄了53 859條詞。本文使用以下三種類別的同義詞:(1)在不同上下文環(huán)境中詞義都相同的詞語,如“喜歡”和“愛”;(2)詞義可能有差別,但隸屬于同一類別的詞語,如“雞”和“鴨”;(3)單獨(dú)詞,即不包含在上述兩類詞的詞語。
在生成詞匯表的過程中,利用同義詞典對(duì)每個(gè)詞語進(jìn)行同義詞擴(kuò)充。具體來說,首先利用同義詞典得到每個(gè)詞語的類別ID,將類別ID放入詞匯表中。如果這個(gè)詞語在同義詞典中沒有找到任何信息,則將這個(gè)詞語放入詞匯表。對(duì)擴(kuò)展后的詞匯表再使用詞袋模型和TFIDF作為文本特征。在文中后面的實(shí)驗(yàn)描述中,用SBoW代表該類基于同義詞典的BoW特征。
3.2.3 sVariance
微博作者表達(dá)對(duì)某個(gè)話題的立場時(shí),很少會(huì)直接發(fā)表“支持”或“反對(duì)”這樣的立場詞,更多的是發(fā)表具體支持或反對(duì)的理由。例如:微博“廣州的也給全部禁了吧,特別是摩托車,容易出事!”表達(dá)了對(duì)話題“深圳禁摩限電”的支持。雖然每個(gè)話題相互獨(dú)立,且微博作者的表達(dá)方式千差萬別,但對(duì)于相同的話題,支持者(或反對(duì)者)所談?wù)摰暮诵挠^點(diǎn)是接近的。例如:“深圳禁摩限電”的話題支持者談?wù)摰暮诵氖请娔Σ蛔袷亟煌ㄒ?guī)則所帶來的不安全因素,而反對(duì)者談?wù)摰暮诵氖钦伺e為一刀切,不考慮電摩是底層老百姓的生活必需品。因此,如果能捕捉到支持(或反對(duì))某個(gè)話題的核心內(nèi)容,就能夠有效地區(qū)分微博作者的立場。
為此,借鑒文獻(xiàn)[19]中的eVector(用于進(jìn)行情感分類的情感向量;通過統(tǒng)計(jì)詞語在不同情感類別中出現(xiàn)的頻率計(jì)算詞語的權(quán)重),提出了一種新的權(quán)重計(jì)算方式sVariance。根據(jù)詞語和不同立場標(biāo)簽的共現(xiàn)情況,一個(gè)詞語i的sVariance值的計(jì)算方式如公式(1)所示,其中,F(xiàn)i,S,F(xiàn)i,A和Fi,N分別是詞語i在支持(Support/Favor)、反對(duì)(Against)、中立(None)的微博中出現(xiàn)的次數(shù),F(xiàn)i,avg是在三個(gè)類別中的平均出現(xiàn)次數(shù)。
由公式(1)可知,如果一個(gè)詞在支持(或反對(duì))的數(shù)據(jù)中出現(xiàn)頻率較高而在中立數(shù)據(jù)中出現(xiàn)較少,那么它對(duì)應(yīng)的sVariance值會(huì)較高,這個(gè)詞語很可能是一個(gè)能表達(dá)明確立場的詞語。如果一個(gè)詞語在三個(gè)立場類別中出現(xiàn)頻率都較高,那么它對(duì)應(yīng)的sVariance值會(huì)較小,這個(gè)詞很可能是一個(gè)中立詞。因此,對(duì)每個(gè)話題,根據(jù)詞語的sVariance值,可以將詞語分為兩類:該話題的觀點(diǎn)詞和中立詞。觀點(diǎn)詞可以有效地區(qū)分微博作者的立場。表2分別列出了“深圳禁摩限電”中sVariance最高和最低的前5個(gè)詞語。從表2可以看出,sVariance較高的詞語都是和話題緊密相關(guān)的詞語,而sVariance較低的詞語是和話題無關(guān)的詞語。sVariance給予中立詞更小的權(quán)重,能夠減少這些詞語在立場分類中帶來的噪聲。因此,利用sVariance值基本可以區(qū)分觀點(diǎn)詞和中立詞,再結(jié)合BoW形成的文本特征表示能夠有效地區(qū)分作者的立場。本文使用BoW和sVariance作為第三種特征表示,在文中后面的實(shí)驗(yàn)描述中,用sVariance代表該類特征。
表2 話題“深圳禁摩限電”詞語的sVariance舉例
3.2.4 詞向量
Word2vec[20]是Google在2013年開源的一款將詞表示為實(shí)數(shù)值向量的工具,它利用深度學(xué)習(xí)的思想,把對(duì)文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。Word2vec的詞向量可以獲取詞語之間的相似度信息,因此可以處理數(shù)據(jù)稀疏的問題。近年來,已經(jīng)有研究利用這個(gè)工具進(jìn)行情感分析[21-22]。
本文利用Gensim[23]和維基百科中文語料(https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2),訓(xùn)練了一個(gè)400維的word2vec模型。通過這個(gè)模型,可以得到每一個(gè)詞語的向量表示。這些詞向量已經(jīng)包含了詞語的一些語義信息。表3列出了在word2vec模型中,與“老百姓”的詞向量最相似的5個(gè)詞語以及它們之間詞向量的余弦距離。從表3可以看出,余弦距離較近的詞語所表達(dá)的詞義信息也相近,說明通過word2vec得到的詞向量已經(jīng)從大規(guī)模語料中學(xué)習(xí)到了語義信息。這些語義信息可以有效地解決微博文本稀疏問題,更好地處理表外詞語,尤其是對(duì)話題中的觀點(diǎn)詞的擴(kuò)展,能夠更高效地判定微博作者的立場。
表3 詞向量相似度示例
將一條微博中所有詞語的向量進(jìn)行平均,作為這條微博文本的詞向量表示。
3.2.5 字向量
字符層面的特征在短文本的處理中通常能發(fā)揮更有效的作用[24]。微博文本的總長度不超過140個(gè)字符,因此,本文使用字層面的特征來表示微博文本。在文本預(yù)處理時(shí)不進(jìn)行分詞,而進(jìn)行字切分。接著使用上文提到的word2vec模型,得到每個(gè)字的向量。將一條微博的所有字的向量進(jìn)行平均,作為這條微博的字向量表示。
本文基于上述的文本特征,使用支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)以及梯度提升決策樹(GBDT)作為立場檢測(cè)的分類器。SVM是常見的文本分類算法,廣泛用于基于詞頻特征的文本分類。隨機(jī)森林和GBDT都是基于決策樹的組合模型。隨機(jī)森林在學(xué)習(xí)時(shí),采用隨機(jī)的方式建立一個(gè)由若干決策樹構(gòu)成的森林,決策樹之間相互獨(dú)立,在對(duì)新樣本進(jìn)行分類時(shí),每一棵決策樹對(duì)樣本單獨(dú)判斷,根據(jù)多數(shù)投票原則決定樣本最終的類別。GBDT在學(xué)習(xí)時(shí),每一次新模型的建立依據(jù)前一次模型的殘差,并朝著前一次模型的殘差梯度下降的方向產(chǎn)生新的模型。決策樹的優(yōu)點(diǎn)是訓(xùn)練時(shí)間較短,預(yù)測(cè)過程快速。隨機(jī)森林有一個(gè)顯著優(yōu)點(diǎn)是能夠處理高維度的數(shù)據(jù)而不用做特征選擇,而GBDT更擅長處理連續(xù)特征。
每一個(gè)話題的微博文本,共分析了五種特征表示。在立場分類時(shí),BoW,S-BoW和sVariance分別使用SVM,隨機(jī)森林進(jìn)行分類,詞向量和字向量使用SVM,隨機(jī)森林和GBDT進(jìn)行分類。
利用不同的特征和分類算法進(jìn)行立場檢測(cè)時(shí),會(huì)產(chǎn)生不同的子分類器。在進(jìn)行后期融合時(shí),使用不同子分類器對(duì)樣本預(yù)測(cè)概率的加權(quán)平均作為最終的立場判斷的預(yù)測(cè)概率,并選擇預(yù)測(cè)概率最大的立場類別作為最終的立場標(biāo)簽。
設(shè)特征 fi對(duì)樣本 x屬于類別c的預(yù)測(cè)概率為Pfi(c|χ),它在參與融合時(shí)的權(quán)重為afi,共有5類特征參與融合,最終預(yù)測(cè)概率如公式(2)所示。若特征 fi不參與融合,則對(duì)應(yīng)權(quán)重為afi為0。
Pfi(c|χ)是特征 fi對(duì)樣本 x屬于類別c的預(yù)測(cè)概率,是該特征結(jié)合不同分類器產(chǎn)生的平均預(yù)測(cè)概率,BoW,S-BoW和sVariance對(duì)應(yīng)的 Pfi(c|χ)的預(yù)測(cè)概率如公式(3)中(a)所示,詞向量和字向量對(duì)應(yīng)的 Pfi(c|χ)如公式(3)中(b)所示。
其中 Psi(c|χ),Pri(c|χ),Pgi(c|χ)分別是 SVM、隨機(jī)森林和GBDT對(duì)樣本 x(基于特征 fi)屬于類別c的預(yù)測(cè)概率。由于原始的SVM不能產(chǎn)生樣本所屬類別的概率輸出,使用Softmax函數(shù)將SVM的決策值轉(zhuǎn)化為概率輸出,如公式(4)所示,將決策函數(shù)值z(mì)=f(x)單調(diào)映射到區(qū)間[0,1],因此,可把 σsoftmax(z)當(dāng)作概率處理。 Pri(c|χ)是隨機(jī)森林對(duì)樣本的預(yù)測(cè)概率,如公式(5)所示,其中T為森林中樹的棵數(shù),Pj(c|χ)為森林中每棵樹對(duì)樣本x劃分到類別c的預(yù)測(cè)概率。Pgi(c|χ)是GBDT對(duì)樣本的輸出概率,與決策樹的輸出概率(即測(cè)試樣本所劃分到的葉子節(jié)點(diǎn)的樣本個(gè)數(shù)所占的比例)一致。
本文實(shí)驗(yàn)的數(shù)據(jù)集來自NLPCC2016中文微博立場檢測(cè)的評(píng)測(cè)任務(wù)[8]。數(shù)據(jù)來源是新浪微博,一共包含5個(gè)話題的微博及其立場標(biāo)簽,共4 000條數(shù)據(jù)。每條數(shù)據(jù)提供了微博ID,微博對(duì)應(yīng)的話題,文本信息和立場標(biāo)簽,例如:
〈ID>4
〈Target>深圳禁摩限電
〈Text>只要騎電動(dòng)車,拘不拘還不是警察說的算
〈Stance> AGAINST
數(shù)據(jù)集涉及的話題分別是:“iPhone SE”、“俄羅斯敘利亞反恐行動(dòng)”、“開放二胎”、“春節(jié)放鞭炮”、“深圳禁摩限電”。立場標(biāo)簽分別是:“FAVOR(支持)”、“AGAINST(反對(duì))”、“NONE(中立)”。每個(gè)話題共800條數(shù)據(jù),實(shí)驗(yàn)中每個(gè)話題劃分了120條數(shù)據(jù)作為驗(yàn)證集用來選擇分類器最優(yōu)參數(shù),200條作為測(cè)試集用來評(píng)測(cè)分類算法。
在立場檢測(cè)中通常更關(guān)心有明確立場的內(nèi)容,因此實(shí)驗(yàn)選取的評(píng)測(cè)指標(biāo)是“支持”和“反對(duì)”的平均F值,計(jì)算如公式(6)所示,其中Ffavor和Fagainst分別是“支持”和“反對(duì)”的F值。
實(shí)驗(yàn)中主要參數(shù)有:SVM核函數(shù)及代價(jià)值;隨機(jī)森林中樹的棵樹和樹深;GBDT的迭代次數(shù)和樹深;后期融合時(shí)各特征分類器的權(quán)重。使用Scikit-learn[25]中實(shí)現(xiàn)的SVM,隨機(jī)森林和GBDT進(jìn)行實(shí)驗(yàn)。根據(jù)經(jīng)驗(yàn),將分類器的參數(shù)設(shè)置如下:
SVM:RBF核函數(shù),代價(jià)值在2-2到210之間。
隨機(jī)森林:100棵決策樹,每棵樹的樹深在2到30之間。
GBDT:100輪迭代,學(xué)習(xí)率為0.2,樹深在2到30之間。
其中SVM的代價(jià)值,隨機(jī)森林、GBDT中的樹深,通過優(yōu)化驗(yàn)證集的Favg確定。
后期融合時(shí),對(duì)不同特征的分類器設(shè)置相同權(quán)重參與融合,即平均各子分類器預(yù)測(cè)概率作為最終后期融合的預(yù)測(cè)概率。例如,設(shè)S-BoW,sVariance和詞向量對(duì)某話題下的樣本x屬于“支持”該話題的預(yù)測(cè)概率分別為0.6,0.4,0.7,則三個(gè)特征參與融合時(shí),各自的權(quán)重為0.33,最終樣本x屬于“支持”該話題的預(yù)測(cè)概率為0.51。
圖2 單特征立場分類結(jié)果
由于話題相對(duì)獨(dú)立,實(shí)驗(yàn)中為每個(gè)話題單獨(dú)抽取特征并建立分類模型。
圖2展示了5個(gè)話題的單特征的分類情況。如圖2所示,不同的特征在不同話題上的表現(xiàn)不同。為了更好地分析每個(gè)話題上特征的表現(xiàn),表4還列出了每個(gè)話題下最好特征的Favg值以及與基本特征之間的比較。
表4 不同話題下表現(xiàn)最好的單一特征
4.4.1 文本深度特征性能分析
整體而言,來自word2vec的特征表現(xiàn)比較突出。具體來說,對(duì)于“俄羅斯敘利亞反恐行動(dòng)”,字向量表現(xiàn)最好,達(dá)到60.66%的Favg值,比BoW提升了14.97%。表5列出了不同話題的微博平均長度。由表5可以看到,這個(gè)話題的微博非常簡短,每條微博平均長度是49個(gè)字,訓(xùn)練語料中的單字比例占了詞匯表的10.13%,因此每個(gè)字在一條微博中的作用相比詞更重要。另一方面,這個(gè)話題屬于新聞話題的范疇,在維基百科上有大量的相關(guān)語料提供,因此給詞語的向量表示提供了更多有意義的信息。對(duì)于“開放二胎”和“春節(jié)放鞭炮”,詞向量表現(xiàn)最好,分別比BoW提升了2.6%和2.82%。因?yàn)樵诰S基百科中,相關(guān)話題的語料比較豐富,word2vec學(xué)習(xí)到了更豐富的詞匯表示。例如,在word2vec模型中,通過詞向量的相似度計(jì)算,與“二胎”最相似的詞語是:“獨(dú)生子女”,“二孩”,“三胎”,“買房”;與“鞭炮”最相似的詞語有:“爆竹”,“煙花爆竹”,“燃放”,“春節(jié)”,“放炮”,“過年”。這些詞語都是和話題緊密相關(guān)并且微博作者討論較多的。從這里可以看出,這些詞向量已經(jīng)包含了詞語的語義信息(如同義詞信息等),一方面擴(kuò)充了詞匯表,另一方面也提供了額外的有助于文本分析的信息。但“iPhone SE”的詞向量和字向量的表現(xiàn)并不夠好,猜測(cè)與訓(xùn)練word2vec的語料有關(guān),維基百科提供的語料是比較通用領(lǐng)域的,而“iPhone SE”這個(gè)話題的討論偏向電子產(chǎn)品的用戶反饋,因此維基百科并不能提供額外的幫助。
表5 不同話題的微博平均長度
4.4.2 S-BoW性能分析
對(duì)5個(gè)話題而言,S-BoW并沒有明顯改善性能?;跀?shù)據(jù)觀察,表6列出了5個(gè)話題中話題支持者和反對(duì)者的談?wù)撝行?。如?所示,這些話題的支持者(或反對(duì)者)討論的內(nèi)容比較近似,因此使用的一些有代表性的、能顯示作者立場的詞語都很接近,使得產(chǎn)生的新詞數(shù)量不多,同義詞典并不能發(fā)揮作用。另一方面,微博上充滿了大量的網(wǎng)絡(luò)用語和微博作者個(gè)人特色的發(fā)言,而同義詞典相對(duì)比較書面化,很難捕捉到微博上詞語的同義詞信息。
表6 不同話題的支持者反對(duì)者談?wù)摵诵?/p>
4.4.3 sVariance性能分析
sVariance在“iPhone SE”這個(gè)話題上表現(xiàn)最好,F(xiàn)avg值達(dá)到59.52%,比BoW特征提高了1.1%。這個(gè)話題的微博類似于產(chǎn)品評(píng)論,微博作者描述更多的是手機(jī)的屬性,如“屏幕”、“尺寸”、“配置”、“外觀”等。在對(duì)比這個(gè)話題詞語的TF-IDF值和sVariance值時(shí)發(fā)現(xiàn),這些屬性詞的TF-IDF值比較低,而sVariance值比較高。這說明TF-IDF和sVariance都能夠?qū)傩栽~區(qū)分出來。但是sVariance更能夠把描述屬性詞的觀點(diǎn)詞區(qū)分出來。例如:在sVariance值最高的前20個(gè)詞語中包含“喜歡”、“好”、“小”、“不錯(cuò)”、“好看”,這些詞語能夠比較明確判斷微博作者的立場。除了“iPhone SE”,sVariance在其他話題上并沒有明顯改善性能。通過分析這些話題的具體詞語的sVariance值發(fā)現(xiàn),sVariance較高的詞語通常是在有立場(支持或反對(duì))的數(shù)據(jù)樣本中出現(xiàn),而在沒有立場(中立)的數(shù)據(jù)樣本中出現(xiàn)的詞語sVariance值較低,因此sVariance可以較好地區(qū)分微博是否有立場。但是,正如之前提到,這些話題中,微博用戶表達(dá)支持或者反對(duì)的觀點(diǎn)比較集中,支持者和反對(duì)者各自所站的角度不同,因此他們討論的內(nèi)容很少有交集,使得支持者和反對(duì)者使用的有代表性的詞語之間的交集也比較少。在支持(或反對(duì))的數(shù)據(jù)樣本中出現(xiàn)的詞語只在支持(或反對(duì))的數(shù)據(jù)樣本中出現(xiàn),例如“橫沖直撞”只出現(xiàn)在支持“深圳禁摩限電”的話題中。因此,sVariance在具體區(qū)分支持和反對(duì)上表現(xiàn)不夠好。
4.4.4 特征與話題適應(yīng)度分析
在前面的分析中提到,“iPhone SE”這個(gè)話題的微博,更像是產(chǎn)品評(píng)論。對(duì)產(chǎn)品評(píng)論的立場分析與情感分析類似,重要的是區(qū)分出文本中產(chǎn)品的屬性和描述屬性的部分。在本文提取的特征中,sVariance能夠有效地提取屬性詞和部分屬性描述詞。由于大部分屬性描述詞是形容詞,同義詞典中包含的形容詞的同義信息也較為充足,因此在更規(guī)范的產(chǎn)品評(píng)論文本中,S-BoW也能對(duì)屬性描述詞的擴(kuò)充有幫助。
“俄羅斯敘利亞反恐行動(dòng)”這個(gè)話題,與新聞?wù)卧u(píng)論比較類似。由于缺乏背景知識(shí),即使人為分析,這個(gè)話題的立場檢測(cè)都比較困難。這個(gè)話題的微博比較簡短,單純地統(tǒng)計(jì)詞頻信息并不能對(duì)文本進(jìn)行有效分析。因此需要借助其他語料來豐富詞匯和語義信息,尤其是新聞?wù)晤I(lǐng)域的語料。因此,本文提取的特征中,使用維基百科語料訓(xùn)練的word2vec模型所提供的詞和字向量,在這個(gè)數(shù)據(jù)集上能夠表現(xiàn)出良好性能。
“深圳禁摩限電”、“春節(jié)放鞭炮”、“開放二胎”,這三個(gè)話題的微博有相似的特點(diǎn)。首先,這三個(gè)話題與人們的生活息息相關(guān),是日常熱點(diǎn)話題,微博作者愿意表達(dá)更多內(nèi)容,因此這三個(gè)話題的詞匯信息比較豐富。其次,微博作者在表達(dá)立場觀點(diǎn)時(shí)討論的內(nèi)容比較集中,通過分析一些詞匯信息,就能大致判斷出作者立場。因此,在本文提取的特征中,BoW在這三個(gè)話題上的表現(xiàn)都不錯(cuò)。而文本深度特征在這三類話題上的良好表現(xiàn)說明word2vec在通用語料上學(xué)習(xí)到的大量詞匯和上下文信息對(duì)于這類日常討論較多的話題的分析也是有幫助的。
實(shí)驗(yàn)發(fā)現(xiàn),后期融合都能對(duì)分類結(jié)果帶來極大的提升。表7給出了后期融合中每個(gè)話題表現(xiàn)最好的特征組合以及與該話題下表現(xiàn)最好的單特征的比較。從表7可以看出,第一,5個(gè)話題的最優(yōu)特征組合中,都包含了文本深度特征。文本深度特征,不僅在單獨(dú)的立場分類中表現(xiàn)優(yōu)異,在與其他基于詞頻統(tǒng)計(jì)的特征融合后,也對(duì)結(jié)果有顯著提升。第二,在單特征分類中表現(xiàn)一般的S-BoW和sVariance,在與其他特征結(jié)合后也對(duì)分類結(jié)果有提升。經(jīng)過后期融合,5個(gè)話題的Favg值相較于每個(gè)話題表現(xiàn)最好的單特征平均提升了4.63%。實(shí)驗(yàn)證明,本文所抽取的特征能夠捕捉到微博中不同的信息,這些信息對(duì)于微博作者的立場判斷是互補(bǔ)的,能在不同程度上提升立場分類的表現(xiàn)。
表7 后期融合的分類表現(xiàn)
本文在基于監(jiān)督學(xué)習(xí)的文本分類框架上,擴(kuò)展并提出基于多文本特征融合的中文微博的立場檢測(cè)方法。方法包括預(yù)處理、特征抽取、立場分類和后期融合四個(gè)階段。在特征抽取階段,本文探究了五種文本表示方法,包括:詞袋特征(BoW)、基于同義詞典的詞袋特征(S-BoW)、考慮詞與立場標(biāo)簽共現(xiàn)關(guān)系的特征(sVariance)以及利用word2vec得到的文本深度特征(詞向量和字向量)。之后,使用SVM,隨機(jī)森林和GBDT對(duì)上述特征進(jìn)行立場分類。最后,結(jié)合所有特征分類器進(jìn)行后期融合,并預(yù)測(cè)立場標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,對(duì)于不同的話題,文中提取的特征相較于傳統(tǒng)的BoW特征,都有明顯提升。并且在所有話題上,特征的后期融合對(duì)立場分類結(jié)果都有明顯改善。說明文本深度特征和基于詞頻統(tǒng)計(jì)的特征能夠捕捉到文本的不同信息,在立場檢測(cè)中是互補(bǔ)的。此外,考慮實(shí)驗(yàn)中的5個(gè)話題的特性與本文提取的特征之間的適應(yīng)關(guān)系,本文介紹的文本分類方法對(duì)于其他文本分類任務(wù)也是有效的,例如產(chǎn)品評(píng)論的情感分析、產(chǎn)品屬性詞的抽取、新聞評(píng)論的情感傾向性分析等。使用本文介紹的方法在NLPCC2016的中文微博的立場檢測(cè)評(píng)測(cè)任務(wù)中取得了第一名[8]。
本文探究了五種話題,并針對(duì)這五種話題進(jìn)行問題分析和立場檢測(cè),但微博上的話題種類繁多且具有不同的特點(diǎn),在今后的工作中,將致力于探索更普適的方法進(jìn)行立場檢測(cè)。另外,文本深度特征在立場檢測(cè)任務(wù)中的有效性已經(jīng)得到證實(shí),在今后的工作中,還將繼續(xù)探索更多的文本深度特征及其在立場檢測(cè)中的應(yīng)用。
[1]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundationsamp;Trends in Information Retrieval,2008,2(1/2):1-135.
[2]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[3]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2725-2728.
[4]周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):161-164.
[5]高凱,李思雨,阮冬茹,等.基于微博的情感傾向性分析方法研究[J].中文信息學(xué)報(bào),2015(4):40-49.
[6]劉全超,黃河燕,馮沖.基于多特征微博話題情感傾向性判定算法研究[J].中文信息學(xué)報(bào),2014,28(4):123-131.
[7]劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159-165.
[8]Xu R,Zhou Y,Wu D,et al.Overview of NLPCC shared task 4:Stance detection in Chinese Microblogs[M]//Natural language understanding and intelligent applications.[S.l.]:Springer International Publishing,2016.
[9]Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Isabelle P.Proc of the EMNLP 2002.Morristown:ACL,2002:79-86.
[10]劉魯,劉志明.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.
[11]傅向華,劉國,郭巖巖,等.中文博客多方面話題情感分析研究[J].中文信息學(xué)報(bào),2013,27(1):47-56.
[12]Li F,Huang M,Zhu X.Sentiment analysis with global topics and local dependency[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence,AAAI 2010,Atlanta,Georgia,USA,2010:1371-1376.
[13]Murakami A,Raymond R.Support or oppose?Classifying positions in online debates from reply activities and opinion expressions[C]//Proceedings of the International Conference on Computational Linguistics(ACL),2010:869-875.
[14]Sridhar D,Getoor L,Walker M.Collective stance classification of posts in online debate forums[C]//Proceedings of the Joint Workshop on Social Dynamics and Personal Attributes in Social Media,2014:109-117.
[15]Wojatzki M,Zesch T.ltl.uni-due at SemEval-2016 task 6:Stance detection in social media using stacked classifiers[C]//NAACL Hlt,2016.
[16]Liu C,Li W,Demarest B,et al.IUCL at SemEval-2016 task 6:An ensemble model for stance detection in twitter[C]//International Workshop on Semantic Evaluation,2016.
[17]Harris Z S.Distributional structure[J].Word,1954,10(2/3):146-162.
[18]Jones K S.A statistical interpretation of term specificity and its application in retrieval[J].Journal of Documentation,1972,60(1):493-502.
[19]Li C,Wu H,Jin Q.Emotion classification of Chinese microblog text via fusion of bow and evector feature representations[M]//Natural language processing and Chinese computing.Berlin Heidelberg:Springer,2014:217-228.
[20]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.
[21]Xue B,F(xiàn)u C,Shaobin Z.A study on sentiment computing and classification of Sina Weibo with Word2vec[C]//2014 IEEE International Congress on Big Data,2014:358-363.
[22]Zhang D,Xu H,Su Z,et al.Chinese comments sentiment classification based on Word2vec and SVM perf[J].Expert Systems with Applications,2015,42(4):1857-1863.
[23]Rehurek R,Sojka P.Software framework for topic modelling with large corpora[C]//Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks,2010.
[24]Zhang X,LeCun Y.Text understanding from scratch[J].Computer Science,2015.
[25]Pedregosa F,Varoquaux G,Gramfort A,et al.Scikit-learn:Machine learning in python[J].Journal of Machine Learning Research,2012,12(10):2825-2830.
DIAN Yujie,JIN Qin,WU Huimin
School of Information,Renmin University of China,Beijing 100872,China
Stance detection in Chinese microblogs via fusing multiple text features.Computer Engineering and Applications,2017,53(21):77-84.
Stance detection aims to automatically determine whether the author of a text is in favor of the given target,against the given target,or neither.This paper presents a stance detection system based on multiple text feature representations.Firstly,five different feature representations are explored including statistic-based features(BoW,synonym-based BoW,sVariance)and deep text features(word vectors and character vectors).Support Vector Machine(SVM),Random Forest and Gradient Boosting Decision Tree(GBDT)are applied as classifiers.Finally,late fusion is conducted to combine different feature representations.Experiment results show that the proposed feature representations can achieve significant improvement over traditional BoW feature.Moreover,statistic-based features and deep features provide complementary information for stance detection,which leads to the wining system in the Chinese Microblog Stance Detection Evaluation by Natural Language Processing and Chinese Computing(NLPCC 2016).
stance detection;sentiment analysis;text feature representations;Chinese Microblogs;text classification
A
TP391.1
10.3778/j.issn.1002-8331.1702-0292
國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No.2016YFB1001202)。
奠雨潔(1992—),女,碩士,研究領(lǐng)域?yàn)槎嗝襟w信息處理,E-mail:dianyujie-blair@ruc.edu.cn;金琴(1972—),女,博士,副教授,研究領(lǐng)域?yàn)槎嗝襟w智能分析;吳慧敏(1990—),女,碩士,研究領(lǐng)域?yàn)樽匀徽Z言處理。
2017-02-27
2017-04-21
1002-8331(2017)21-0077-08
CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-07-19,http://kns.cnki.net/kcms/detail/11.2127.TP.20170719.1050.022.html