亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主動學習的新聞讀者情緒分類方法

        2017-06-01 11:29:54陳敬劉歡歡李壽山周國棟
        山西大學學報(自然科學版) 2017年1期
        關鍵詞:語料分類器分類

        陳敬,劉歡歡,李壽山,周國棟

        (蘇州大學自然語言處理實驗室,江蘇 蘇州 215006)

        基于主動學習的新聞讀者情緒分類方法

        陳敬,劉歡歡,李壽山*,周國棟

        (蘇州大學自然語言處理實驗室,江蘇 蘇州 215006)

        讀者情緒分類具體是指針對某個文本推測讀者可能產(chǎn)生的情緒。針對該新問題,目前遇到的主要挑戰(zhàn)是標注語料庫的匱乏問題。文章提出了一種基于主動學習的讀者情緒分類方法,即在已有少量標注樣本的基礎上,利用主動學習方法挑選優(yōu)質樣本,使得使用盡量少的標注代價獲得較好的分類性能??紤]到新聞讀者情緒分類可以同時使用新聞文本和評論文本的特殊性,提出了分類器融合分類方法,并在主動學習方面提出了結合不確定性與新聞評論信息量的挑選策略。實驗表明,分類器融合方法能夠獲得比僅用新聞文本更好的分類性能。此外,文章提出的主動學習方法能夠有效減小標注規(guī)模,在同等標注規(guī)模下,獲得比隨機更佳的分類性能。

        讀者情緒分類;主動學習;分類器融合;評論信息量

        隨著各種社交平臺的興起,網(wǎng)絡上用戶的生成內(nèi)容越來越多,產(chǎn)生了大量的文本信息,如新聞、微博、博客等。面對如此龐大且富有情緒表達的文本信息,完全可以考慮通過探索它們的潛在價值為人們服務。因此近年來情緒分析受到計算語言學領域研究者們的密切關注,成為一項基本的熱點研究任務[1-2]。情緒可以分為兩類:作者情緒(作者在寫作文本時所表達的情緒)和讀者情緒(讀者看完文本后所產(chǎn)生的情緒),本文將利用新聞文本與評論文本對新聞的讀者情緒進行粗粒度(消極和積極情緒)的探討研究。下面舉例詳細說明作者情緒與讀者情緒。

        (a) 新聞文本:今天的日本地震很可能是2011年大地震的余震。

        (b) 評論文本:我希望一切都能好,真的好難過,我依舊無法忘記去年的場景。 我的岳父岳母經(jīng)歷了這次地震,多么痛苦啊。

        從以上的新聞文本與評論文本中,我們可以看出新聞文本沒有作者情緒,而新聞文本的讀者情緒為消極情緒。

        在已有的研究工作中,作者的情緒分類研究較多,而讀者的情緒分類研究起步相對較晚,相關的研究較少。Lin等人[3]利用機器學習方法訓練了一個識別讀者情緒的分類器,在后期的研究[4]中,通過探索更多有效的特征,獲得了相對更好的分類結果。Lin和Chen[5]將新聞的讀者情緒分類看作是一個多標簽分類問題,并采用回歸方法得到情緒類別的排序。Bai等人[6]使用一個帶有特定權值的情緒詞典構建文本向量,然后通過訓練SVM和NB模型分別進行讀者情緒預測。Xu等人[7]提出了基于PLDA模型的多標簽讀者情緒預測方法,利用PLDA將特定情緒類型的詞與特定話題結合,再將PLDA的結果作為分類的特征用于情緒預測。Liu等[8]利用新聞和評論兩個相互獨立的視圖分別構建兩個分類器進行協(xié)同學習(Co-training)對新聞讀者的情緒進行粗粒度情緒分類研究。葉璐[9]利用主題模型實現(xiàn)讀者情緒預測,并且在LDA的基礎上采用加權方法進行改進,利用WLDA主題模型實現(xiàn)降維進而對讀者情緒進行預測。劉歡歡[10]利用兩個關聯(lián)的二部圖子圖(新聞文本二部圖和評論文本二部圖)用于描述新聞文本和評論文本之間的關聯(lián),進行基于標簽傳播算法的粗粒度情緒分類;再者又構建了特征-標簽因子圖(FLFG)模型用于實現(xiàn)對文本特征和情緒標簽間關聯(lián)的共同學習,進行基于特征-標簽因子圖模型的細粒度情緒分類。溫雯等人[11]先使用Wordvec模型學習文本初始的語義表達,在此基礎上結合各個情緒類別分別構建有代表性的語義詞簇并采用一定準則篩選出對類別判斷有效詞簇,最終使用多標簽分類的方法進行新聞讀者情緒分類。

        與以往研究不同的是,本文首先探究了全監(jiān)督學習方法下分類器融合方法對新聞讀者情緒分類的效果;再者采用了基于不確定性與評論信息量相結合的主動學習算法,并結合分類器融合方法對新聞讀者情緒進行粗粒度的情緒分類研究。

        新聞的讀者情緒分類有一個特性:既可以用新聞內(nèi)容作為判斷情緒的依據(jù),也可以利用評論內(nèi)容作為判斷情緒的依據(jù)。例如:新聞內(nèi)容的“地震”預示著讀者的消極情緒;同時,評論文本中的“難過”、“痛苦”等描述也直接清晰表達了該新聞的讀者情緒為消極情緒。因此,分別利用新聞文本和評論文本構建兩個分類器,繼而提出了基于分類器融合方法用于融合這兩個分類器進一步提高讀者情緒分類性能。

        此外,目前主流的讀者情緒分類方法是基于機器學習的全監(jiān)督學習方法。標注語料庫的匱乏問題是全監(jiān)督學習方法最大的挑戰(zhàn)。針對該挑戰(zhàn),本文探究基于主動學習的新聞情緒分類方法。具體而言,主動學習是一種通過挑選優(yōu)質樣本進行人工標注,從而能夠在盡可能使用少的標注樣本的情況下保持較好的分類效果。然而,在讀者情緒分類任務中,傳統(tǒng)的基于不確定性的主動學習方法在挑選優(yōu)質樣本的時候,樣本的信息量未被充分利用。在讀者情緒分類任務中,雖然每個樣本中的新聞文本內(nèi)容都比較充分,但是每個樣本的評論文本信息差異較大。具體表現(xiàn)為,有些樣本的評論較多,有些樣本的評論較少甚至沒有??紤]到評論文本的信息量可能對讀者情緒分類帶來積極影響,本文同時考慮樣本不確定因素和評論文本的信息量來挑選優(yōu)質樣本,并結合分類器融合方法改善新聞讀者情緒分類性能。實驗結果表明本文提出的主動學習方法能夠明顯優(yōu)于隨機樣本選擇方法及傳統(tǒng)的基于不確定性的主動學習方法。

        1 主動學習方法

        1.1 基于機器學習的讀者情緒分類

        向量空間模型是目前主流的文本表示方式,文本可以用D(document)表示,特征項(Term)用t表示,文本可以表示為D(t1,t2,t3,…,tn),其中t為特征項,對于文檔D中的每一個特征項,通常會預先設置一個權值表示各特征項的重要程度,例如D(t1,w1;t2,w2;…;tn,wn),簡記為:D(w1,w2,…,wn),其中wk為tk的權重,1≤k≤n。本文采用的特征為詞特征,借助分詞工具,可以方便地提取出這種特征。

        在本文所用語料中,新聞文本與評論文本對應存在。基于全監(jiān)督的學習方法,分別利用新聞文本特征和評論文本特征訓練分類器,然后采用分類器融合的方法得到最終的分類結果。主動學習過程中從未標注樣本中挑選不確定性樣本加入已標注樣本時,采取新聞文本和評論文本的融合特征來表示最大熵模型特征,而在測試時所用的特征與基于全監(jiān)督的學習方法所用的特征一致,即分別利用新聞文本特征和評論文本特征訓練分類器,并利用分類器融合的方法得到最后的實驗結果。為了更清晰表達這些特征,表1通過一個例子來說明。

        表1 新聞文本與評論文本特征以及融合特征的例子

        1.2 分類器融合方法

        本文利用新聞文本和對應的評論文本分別構建了兩個分類器,即新聞讀者的情緒分類器和評論作者的情緒分類器,來預測新聞的讀者情緒。形式上將新聞讀者的情緒分類器記作CN,評論作者的情緒分類器記作Cc。兩個分類器最終會分別賦予測試樣本(記作x)一個后驗概率向量,即PN(x)和PC(x):

        其中,PN(c1|x)表示分類器CN預測樣本x屬于類別c1的概率。PC(c1|x)、PN(c1|x)和PC(c2|x)有類似的定義。

        在多個分類系統(tǒng)(MCS)的研究中,可以利用多種基于分類器后驗概率的融合方法得出最終的分類結果。一般來說,融合方法可以分為兩種[12]:一種是確定的規(guī)則,例如多數(shù)投票法、乘法規(guī)則和直接求和規(guī)則[13]等;另一種是訓練的規(guī)則,例如加權求和規(guī)則[14]和元學習方式[15]等。本文主要采用加權求和規(guī)則來融合新聞讀者和評論作者的情緒分類器的輸出,即通過求后驗概率的加權和來實現(xiàn)兩個分類器的融合,進而得到最終的分類結果,計算方法如下:

        assigny→cj

        (1)

        其中,參數(shù)λ用來表示分類器的權重,其值是通過對訓練數(shù)據(jù)進行全局最優(yōu)搜索調整所得。在本文實驗中,經(jīng)10倍交叉驗證所得,λ的值為0.7。

        1.3 基于不確定性與評論信息量相結合的主動學習方法

        傳統(tǒng)的基于不確定性的主動學習方法是根據(jù)分類結果的后驗概率挑選不確定樣本進行人工標注[16-17]。不同于傳統(tǒng)的方法,本文方法利用評論信息量輔助傳統(tǒng)的不確定性選擇策略,進行未標注樣本的選擇,并結合上述的分類器融合方法進行分類。

        1)評論信息量

        (2)

        2) 不確定性與評論信息量相結合的主動學習算法

        樣本的不確定性是通過已標注樣本構建的分類器對其進行測試的分類結果進行判定[18-19]。具體通過情緒分類結果的后驗概率進行計算,計算方法如下:

        (3)

        綜合評論文本的信息量和樣本的不確定性,樣本選擇的打分公式如下:

        (4)

        不確定性與評論信息量相結合的主動學習算法的主要步驟如下。

        輸入:已標注樣本L,未標注樣本U;

        輸出:新的已標注樣本L;

        程序:

        循環(huán)N次

        1) 根據(jù)未標注樣本U的評論文本算出平均中心向量CR;

        2) 從L中學習分類器f;

        3) 使用f對U進行分類得出每個未標注樣本的不確定度,即Uncertainty(xi);

        5) 計算Score(xi),并將U按照值從大到小的次序進行排列;

        6) 選擇中前n個樣本,放入L中。

        2 實驗結果與分析

        2.1 實驗設置

        本文從Yahoo! Kimo新聞網(wǎng)站*Yahoo新聞數(shù)據(jù)集[CP/OL].[2015-05-25].http:∥tw.news.yahoo.com中搜集了多個領域(世界新聞、生活資訊等)的中文新聞語料,為了保證新聞的粗粒度情緒標簽的準確性,選擇顯著情緒類別的投票比例在50%以上的新聞語料,同時過濾掉不含評論信息的新聞。最終,含有“積極”情緒的語料有1 497篇,含有“消極”情緒的語料有1 997篇,從“積極”情緒的語料和“消極”情緒的語料中各隨機抽取1 000篇作為實驗樣本,其中,80%作為訓練語料,20%作為測試語料,從訓練語料中選取10個樣本作為主動學習中的已標注樣本集,其余的訓練語料都作為未標注樣本集。

        本文所用的特征為新聞文本與評論文本的詞特征,考慮到中文句子中詞與詞之間沒有明顯的分詞信息,需要對其進行分詞。本文采用目前使用最廣泛的漢語分詞開源工具*Ictclas開源工具[CP/OL].[2011-02-16].http:∥ictclas.org/[EB],即,ICTCLAS分詞工具對收集的中文新聞語料進行分詞。

        實驗中使用了基于Mallet工具包*Mallet開源工具[CP/OL].[2002-11-06].http:∥mallet.cs.umass.edu/的最大熵分類方法進行新聞讀者情緒分類,同時本文采用準確率(Accuracy,Acc.)作為新聞讀者情緒分類效果的衡量標準。

        2.2 實驗結果分析

        2.2.1 全監(jiān)督分類方法的結果

        在基于全監(jiān)督的學習方法下,研究了取訓練樣本的10%、20%、40%、60%和80%作為新的訓練樣本,以下幾種全監(jiān)督方法的分類效果。

        ?新聞讀者的情緒分類:基于已標注的新聞文本訓練分類器,對未標注的新聞文本進行分類;

        ?評論作者的情緒分類:基于已標注的評論文本訓練分類器,對未標注的評論文本進行分類;

        ?兩種文本特征融合的情緒分類:將新聞文本和評論文本的特征進行融合訓練分類器,對未標注的新聞文本進行分類;

        ?兩種文本分類加權融合的情緒分類(加權加法規(guī)則):將新聞讀者和評論作者的情緒分類得到的后驗概率采用加權求和的規(guī)則。通過訓練樣本的十倍交叉實驗結果選取最佳權重(λ值)為0.7。

        表2給出了上述四種分類方法的分類性能,從表中可以看出:

        (1)基于新聞文本的情緒分類方法性能明顯優(yōu)于基于評論文本的分類方法,這主要是因為新聞文本所包含的文本內(nèi)容往往比評論文本多。有些樣本的評論文本比較少,很難有足夠分類能力。

        (2)簡單將兩種文本的特征進行疊加并不能提高分類性能,獲得分類效果甚至比單用新聞文本的方法差。然而,采用本文的分類器融合方法能夠穩(wěn)定獲得比新聞文本分類方法更好的分類性能。

        表2 4種全監(jiān)督方法下的實驗結果

        2.2.2 主動學習分類方法的結果

        本實驗比較了以下三種樣本選擇方式用于基于主動學習的讀者情緒分類:

        ?隨機方法(RAND):從未標注樣本集中隨機選擇樣本進行人工標注后加入到已標注樣本集中,再基于已標注樣本集訓練分類器,對未標注的新聞文本進行分類;

        ?不確定性(UNCE):基于不確定性對未標注樣本進行選擇,人工標注后加入到已標注樣本集中,再基于已標注樣本集訓練分類器,對未標注的新聞文本進行分類;

        ?基于不確定性與評論信息量相結合(MULTI):本文提出的主動學習方法,具體方法見在1.3節(jié)。

        從訓練語料中選取10篇語料(積極和消極樣本各5篇)作為初始已標注樣本,采用以上三種不同樣本選擇方式的主動學習方法對新聞讀者情緒進行分類。實驗設定每次選擇最不確定的10個未標注樣本進行人工標注后加入到已標注樣本集中。

        Fig.1 Comparison of experimental results based on the method of active learning圖1 基于主動學習方法的實驗結果的比較

        圖1給出了基于三種樣本挑選策略的分類效果,從圖中我們可以看出:

        (1)基于不確定性與基于不確定性與評論信息量相結合的主動學習方法都能夠有效地減少標注規(guī)模,在同樣的標注規(guī)模下能夠獲得比隨機挑選樣本方法更優(yōu)的性能。例如,基于不確定性與評論信息量相結合的主動學習方法在加入50樣本時就能夠達到了基于隨機的主動學習方法加入200樣本數(shù)的分類效果。

        (2)基于不確定性與評論信息量相結合的主動學習方法在樣本比較少的情況下(少于200)能夠優(yōu)于傳統(tǒng)的基于不確定性的主動學習方法。當標注樣本較多的時候,這兩種主動學習方法的性能表現(xiàn)接近。

        3 本文結論和下一步工作介紹

        本文針對新聞讀者情緒分類問題提出了一種基于分類器融合的全監(jiān)督學習方法,用于組合分別由新聞文本和評論文本訓練的兩個分類器。在此基礎上,本文提出了一種基于不確定性與評論信息量相結合選擇策略的主動學習方法,用于減輕監(jiān)督學習對于標注樣本的依賴。實驗結果表明,分類器融合方法能夠獲得比僅用新聞文本分類器更佳的分類性能。此外,基于不確定性與評論信息量相結合選擇策略的主動學習方法比隨機樣本選擇策略及傳統(tǒng)的基于不確定性的主動學習方法獲得更好的分類性能,在少量的已標注樣本的情況下就能獲得較高的分類性能。

        本文的研究中僅僅使用詞特征,在下一步研究中,我們將考察更復雜的語言特征,例如句法、語義特征,進一步提升讀者情緒分類性能。此外,我們將嘗試結合主動學習和半監(jiān)督學習方法,進一步減輕分類方法對標注樣本的依賴。

        [1]ZhengC,ShenL,DaiN.ChineseMicroblogEmotionClassificationBasedonClassSequentialRules[J].ComputerEngineering,2016,42(2):184-189.DOI:10.3969/j.issn.1000-3428.2016.02.033.

        [2]ChangYC,ChuCH,ChenCC,et al.LinguisticTemplateExtractionforRecognizingReader-Emotion[J].中文計算語言學期刊,2016,21(1):29-50.DOI:10.1111/j.1541-0420.2007.00820.x.

        [3]LinHY,YangC,ChenHH.WhatEmotionsdoNewsArticlesTriggerinTheirReaders[C]∥ProceedingsoftheInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,2007:733-734.DOI:10.1145/1277741.1277882.

        [4]LinHY,YangC,ChenHH.EmotionClassificationofOnlineNewsArticlesfromtheReader’sPerspective[C]∥ProceedingoftheInternationalConferenceonWebIntelligenceandIntelligentAgentTechnology,2008:220-226.DOI:10.1109/WIIAT.2008.197.

        [5]LinHY,ChenHH.RankingReaderEmotionsUsingPairwiseLossMinimizationandEmotionalDistributionRegression[C]∥ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2008:136-144.DOI:10.3115/1613715.1613735.

        [6]BaiS,NingY,YuanS,et al.PredictingReader’sEmotiononChineseWebNewsArticles[C]∥InternationalConferenceonPervasiveComputingandtheNetworkedWorld,2012:16-27.DOI:10.1007/978-3-642-37015-1-2.

        [7]XuR,ZouC,XuJ.Reader’sEmotionPredictionBasedonPartitionedLatentDirichletAllocationModel[C]∥ProceedingsofInternationalConferenceonInternetComputingandBigData,2013:457-464.

        [8]LiuH,LiS,ZhouG,etal.JointModelingofNewsReader’sandCommentWriter’sEmotions[C]∥MeetingoftheAssociationforComputationalLinguistics,2013:511-515.

        [9] 葉璐.新聞文本的讀者情緒自動預測方法研究[D].哈爾濱:哈爾濱工業(yè)大學研究生院,2012.

        [10] 劉歡歡.面向新聞的讀者情緒自動分析方法研究[D].蘇州:蘇州大學研究生院,2015.

        [11] 溫雯,吳彪,蔡瑞初,等.基于多類別語義詞簇的新聞讀者情緒分類[J].計算機應用,2016,36(8):2076-2081.DOI:10.11772/j.issn.1001-9081.2016.08.2076.

        [12]DuinRPW.TheCombiningClassifier:ToTrainOrNotToTrain[C]∥Proceedingsof16thInternationalConferenceonPatternRecognition(ICPR-02),2002:765-770.

        [13]KittlerJ,HatefM,DuinRPW,et al.OnCombiningClassifiers[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,1998,20(3):226-239.DOI:10.1109/34.667881.

        [14]FumeraG,RoliF.ATheoreticalandExperimentalAnalysisofLinearCombinersforMultipleClassifierSystems[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2005,27(6):942-956.DOI:10.1109/TPAMI.2005.109.

        [15]VilaltaR,DrissiY.APerspectiveViewandSurveyofMeta-learning[J].ArtificialIntelligenceReview,2002,18(2):77-95.DOI:10.1023/A:1019956318069.

        [16] 居勝峰,王中卿,李壽山,等.情感分類中不同主動學習策略比較研究[C]∥中國計算語言學研究前沿進展,2011:506-511.

        [17] 劉康,錢旭,王自強.主動學習算法綜述[J].計算機工程與應用,2013,48(34):1-4.DOI:10.3778/j.issn.1002-8331.1205-0149.

        [18] 居勝峰.基于主動學習的情感分類方法研究[D].蘇州:蘇州大學研究生院,2013.

        [19]LiS,XueY,WangZ,ZhouG.ActiveLearningforCross-domainSentimentClassification[C]∥Proceedingofthe22ndInternationalJointConferenceonArtificialIntelligence,2013:2127-2133.

        Active Learning on News Reader Emotion Classification

        CHEN Jing,LIU Huanhuan,LI Shoushan*,ZHOU Guodong

        (NaturalLanguageProcessingLabofSoochowUniversity,Suzhou215006,China)

        Reader emotion classification aims to predict the mood that the reader may have speculated according to some text. For this new issue, the main challenge is the lack of the annotated corpus. In order to alleviate this problem, this paper proposes an active learning approach to reader emotion classification, which is based on a few initial annotated samples, using active learning method to select high-quality sample, making use of the annotating cost as little as possible to get a good classification performance. Considering the specificity that news reader emotion classification, we make use of news text and the comment text and employ classifier combination method to combine them. Moreover, selection strategy combined with uncertainty and news comment information in active learning is proposed.The experiments demonstrate that the method of classifier combination performs better than the method that only using news text. In addition, the proposed active learning method can effectively reduce the dimension scale, and obtain better classification performance than random selection.

        reader emotion classification; active learning; classifier combination; comment information

        10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.004

        2016-11-20;

        2016-12-16

        國家自然科學基金重點項目(61331011);國家自然科學基金(61375073;61273320)

        陳敬(1992-),男,江蘇揚州人,碩士研究生。

        TP391

        A

        0253-2395(2017)01-0021-06

        *通信作者:李壽山(LI Shoushan),shoushan.Li@gmail.com

        猜你喜歡
        語料分類器分類
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        教你一招:數(shù)的分類
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        亚洲国产精品自拍一区| 夫妻免费无码v看片| 免费无码a片一区二三区| 国产日韩成人内射视频| 人妻中文字幕一区二区二区| 少妇高潮久久蜜柚av| 国产精品天堂avav在线| 中文字幕+乱码+中文字幕无忧| 欧美亚洲另类国产18p| av一区二区在线网站| 日韩人妻无码一区二区三区久久| 内射交换多p国产| 狠狠亚洲超碰狼人久久老人| 久久精品国产亚洲av久按摩| 亚洲一区二区三区四区五区六| 亚洲国产成人久久综合一区77| 国产高潮精品一区二区三区av | 亚洲无av码一区二区三区| 无套熟女av呻吟在线观看| 免费a级毛片无码无遮挡| www.日本一区| 精品国产亚洲一区二区三区四区| 放荡的少妇2欧美版| 国产人成视频在线视频| 久久丫精品国产亚洲av不卡| 精品少妇爆乳无码aⅴ区| 成人影院羞羞的视频免费观看 | 亚洲av色香蕉一区二区三区软件| 人人妻人人澡人人爽人人dvd| 午夜精品久久久久久中宇| 国产伦码精品一区二区| av网站大全免费在线观看| 国产精品亚洲欧美大片在线看| 国产精品流白浆喷水| 精品中文字幕精品中文字幕| 成人免费无码大片a毛片抽搐色欲| 国产mv在线天堂mv免费观看| 中文字幕人成乱码中文乱码| 在线日本看片免费人成视久网| 又紧又大又爽精品一区二区| 成全视频高清免费|