亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞典與規(guī)則的新聞文本情感傾向性分析

2017-03-09 02:07:02李晨朱世偉魏墨濟于俊鳳李新天

山東科學(xué) 2017年1期

關(guān)鍵詞：規(guī)則詞匯文本

李晨，朱世偉，魏墨濟，于俊鳳，李新天

(1.山東省科學(xué)院情報研究所，山東濟南 250014；2.山東省科學(xué)院生物研究所，山東濟南 250014)

基于詞典與規(guī)則的新聞文本情感傾向性分析

李晨1，朱世偉1，魏墨濟1，于俊鳳1，李新天2

(1.山東省科學(xué)院情報研究所，山東濟南 250014；2.山東省科學(xué)院生物研究所，山東濟南 250014)

通過對新聞類文體的結(jié)構(gòu)分析，將新聞文體按段落劃分，采用一種基于情感詞典和語義規(guī)則相結(jié)合的情感關(guān)鍵句抽取方法，對段落內(nèi)的句子進行情感分析。綜合考慮情感、轉(zhuǎn)折、否定、程度和歸總等詞語信息構(gòu)建情感詞典，根據(jù)規(guī)則切割新聞文本，將新聞劃分為意群、句子、段落以及篇章，通過制定的規(guī)則計算情感關(guān)鍵句傾向值，最終獲得段落以及整個篇章的情感傾向值，從而得出新聞的情感傾向。與情感詞典和SVM情感分類方法的實驗結(jié)果對比表明，本文方法在對新聞文本進行傾向判別時效果較好，方法具可行性。

情感分析；規(guī)則；情感詞典；網(wǎng)絡(luò)新聞

文本情感傾向性分析又稱情感分析、意見挖掘，是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程，旨在研究人們對人物、事件及其屬性的主觀意見和評價[1-3]。文本情感分析已經(jīng)成為自然語言處理領(lǐng)域的熱點研究話題，涉及自然語言處理、信息檢索、數(shù)據(jù)挖掘等研究領(lǐng)域。

目前，國內(nèi)外使用最多的文本情感分析方式有兩種，一是基于機器學(xué)習(xí)的情感分析[4-5]；二是基于語義的情感分析[6-7]?；跈C器學(xué)習(xí)的情感分析多采用傳統(tǒng)的文本分類技術(shù)，該方式將情感詞匯作為分類的特征關(guān)鍵詞，然后再聯(lián)合其他特征訓(xùn)練分類器來完成文本情感分類，常用的方法有樸素貝葉斯、最大信息熵和支持向量機。Pang等[8]分別使用上述方法進行情感傾向性分析研究，對英文電影評論進行分類，并研究不同特征選擇方式對分類效果的影響。Tan等[9]分別使用NB(NaiveBayesian)、KNN(K-NearestNeighbor)、SVM(SupportVectorMachine)、CentroidClassifier和WindowClassifier5種分類方法并結(jié)合多種特征選擇方法對文章情感傾向性進行分類。樊小超[10]通過對評論性文本的分析,結(jié)合詞典和規(guī)則將文本劃分成情感句集合、細(xì)節(jié)句集合和關(guān)鍵句集合,再對全部文本情感句集合和關(guān)鍵句集合進行訓(xùn)練得到不同的分類器，最后使用投票策略將分類器進行融合,得到最終情感分類結(jié)果。采用機器學(xué)習(xí)的方法進行文本傾向性分類需要大規(guī)模標(biāo)注的訓(xùn)練集，想要獲得較高的分類結(jié)果時，對訓(xùn)練集的質(zhì)量要求很高，而且在進行文本向量化的時候往往會忽略情感詞匯的上下文信息?；谡Z義規(guī)則的文本傾向性研究中，研究者一般考慮詞語、句子、段落和篇章等多個角度自底向上進行層次分析。首先，抽取文中具有明顯主觀色彩的情感詞匯；然后，找出對該詞匯進行修飾的否定和程度詞匯等，通過規(guī)則計算情感詞匯情感值；最后，根據(jù)情感詞匯的情感值，計算得到句子、段落以及篇章的整體情感值，從而獲得最終的情感傾向信息。朱嫣嵐等[11]利用HowNet提供的語義相似度和語義相關(guān)場的定義，通過計算待評估詞與褒貶基準(zhǔn)詞的相似性和相關(guān)性，從而得到待評估詞的傾向度。Turney等[12]使用點互信息PMI(PointwiseMutualInformation)對基準(zhǔn)情感詞表進行擴充，并且采用了基于HNC(HierarchicalNetworkofConcepts)的語義相關(guān)度方法計算詞語的原始極性。馮亮祖[13]利用語句情感傾向性、文本關(guān)鍵詞、語句位置以及語句與標(biāo)題的相似度4種特征抽取情感關(guān)鍵句，通過對情感關(guān)鍵句進行計算得出新聞文本的情感傾向。張成功等[14]構(gòu)建了一個包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞典以及修飾詞典的高效極性詞典，將極性詞和修飾詞組合形成極性短語作為情感分析的基礎(chǔ)單元。

綜合分析現(xiàn)有的研究成果，在中文網(wǎng)絡(luò)新聞情感分析領(lǐng)域，對篇章級情感分析的研究方法中仍然存在沒有充分考慮文體特征和情感分布，以及對復(fù)雜句式缺乏有效的分析方法等問題。本文在上述研究基礎(chǔ)之上，綜合分析網(wǎng)絡(luò)新聞的結(jié)構(gòu)特點，對篇章級的新聞情感分析進行細(xì)化，把新聞自頂向下分割成篇章、句子以及意群，以HowNet情感詞典為基礎(chǔ)，利用哈工大同義詞詞林和臺灣大學(xué)的中文情感極性詞典進行擴展獲得基準(zhǔn)情感詞典，再結(jié)合各類語義規(guī)則獲得網(wǎng)絡(luò)新聞的情感傾向。

1 情感傾向性計算方法

1.1 網(wǎng)絡(luò)新聞文體研究

新聞的主觀性是指在現(xiàn)實生活中真實發(fā)生的事件過程中，敘述者在新聞事件中表現(xiàn)出來的立場、態(tài)度和情感[15]。新聞文體一般主題描述簡單突出，情感表達方式簡單明了，所以可以較好地提取新聞的情感信息。通過對新聞文體的分析研究發(fā)現(xiàn)，對新聞情感分析起到關(guān)鍵作用的文本位置為：

(1)標(biāo)題：標(biāo)題是新聞作者主觀意志的直接表達，是文章主旨的高度濃縮，能夠直接陳述新聞的概要。當(dāng)標(biāo)題含有明顯的情感傾向時，它應(yīng)該被賦予較高的權(quán)重，同時可以將其他語句與標(biāo)題進行相似度計算，進而得到句子與新聞主旨的的相似性。與主旨越相似則就越接近文章作者的情感。

(2)段首與段尾：段首與段尾是新聞作者的開篇與總結(jié)。通過觀察研究，段首與段尾是表達作者情感的主觀句最常出現(xiàn)的位置，而且新聞文本的結(jié)構(gòu)是一種“倒金字塔”式[16]的結(jié)構(gòu)。

(3)其他位置：對于其他位置的句子，如果與標(biāo)題不相關(guān)，則按照普通方式進行情感傾向計算，不再附加額外權(quán)重。

對于篇章級的文本情感分析來說，通常都是對文本進行降維，壓縮文本特征空間來優(yōu)化情感分類問題。Yessenalina等[17]使用SVM模型在進行篇章級情感分類的同時抽取部分語句作為分類的特征空間，取得了較好的效果。李本陽等[18]使用ME模型處理小句級情感分類,以小句級的情感輸出作為篇章級的輸入,并結(jié)合句型特征和句子位置等信息作為特征,采用SVM模型對文本進行篇章級情感分類。本文在對網(wǎng)絡(luò)新聞文本進行情感分析時，首先切割新聞文本，找出情感句，以情感句作為分析基礎(chǔ)，最終通過融合各類規(guī)則計算出文本的情感傾向。

1.2 情感詞典構(gòu)建

新聞由句子組成，句子由詞匯組成，因此詞匯是進行情感傾向性分析的基礎(chǔ)。通過構(gòu)建情感詞典可以將句子中具有情感的詞匯識別出來，從而進行分析。情感詞典在情感分析中起到了重要作用，一些研究者對情感詞典的構(gòu)建工作展開了深入的研究[19]。自然語言當(dāng)中一般會把詞匯分為褒義詞、貶義詞和中性詞3類，其中褒貶義詞明確地表達了作者對某一主題的情感傾向。

本文以HowNet為主體，合并中文負(fù)面情感詞語和中文負(fù)面評價詞語去重后構(gòu)建負(fù)面基礎(chǔ)情感詞典，合并中文正面情感詞語和中文正面評價詞語去重后構(gòu)建正面基礎(chǔ)情感詞典，以中文程度級別詞語作為描述情感詞的程度詞語詞典，考慮否定詞、轉(zhuǎn)折詞和新聞中的各類歸總詞語，分別構(gòu)建否定詞典、轉(zhuǎn)折歸總詞典。HowNet所包含的情感詞匯有限，本文采用哈工大同義詞詞林和臺灣大學(xué)NTUSD簡體中文版本進行去重、剔除歧義詞匯之后，分別加入正/負(fù)面基礎(chǔ)情感詞典。文中采用四元組對情感詞典進行描述，定義如下：

sentimentword(name,polarity,pos,weight) ，

(1)

其中，name表示該詞匯的名稱，polarity表示極性，pos表示詞性，weight代表該詞的權(quán)重。name和pos通過文本分詞工具FudanNLP獲取，polarity和weight則通過定義好的情感詞典獲取。

1.2.1 程度詞典構(gòu)建

在各類語言描述當(dāng)中，修飾詞對情感詞匯的情感表達有著非常重要的作用，不同級別的詞語會產(chǎn)生不同級別的情感傾向。例如：這個人極其討厭和這個人很討厭，同樣是對“討厭”進行修飾，但是“極其”所表達的情感傾向比“很”更加強烈。針對這些能夠?qū)η楦袃A向產(chǎn)生巨大作用的詞匯，本文借助HowNet提供的中文程度級別詞語，構(gòu)建了程度詞語詞典。HowNet對程度詞語進行了級別分類，具體分為6個等級：最(most)、很(very)、較(more)、稍(-ish)、欠(insufficiently)和超(over)。本文按照修飾程度的不同為這6個級別的程度詞分別賦予不同的權(quán)重值，程度詞典表如表1所示。

表1 程度詞典表

1.2.2 否定詞典與轉(zhuǎn)折歸總詞典構(gòu)建

否定詞在文本分析中起到置反情感傾向的作用，所以在分析文本情感傾向時也應(yīng)該將否定詞作為重要的分析對象，因此本文構(gòu)造了一部否定詞詞典。根據(jù)張誼生[20]的文獻，本文使用了28個否定副詞，這些詞包括：不、沒、無、非、莫、弗、勿、毋、未、否、別、無、休、不要、沒有、未必、難以、未曾、不能等。由于否定詞在進行情感判斷時具有置反作用，所以將其權(quán)值設(shè)置為-1。

文本中會存在很多轉(zhuǎn)折句型，在轉(zhuǎn)折句型中往往會發(fā)生情感反轉(zhuǎn)，將前一部分表達的情感弱化，從而突出轉(zhuǎn)折之后的情感。同樣，文本中可能也會包含對作者觀點進行總結(jié)的歸總類詞匯，包含這類詞匯的分句更能夠表達作者的情感傾向，所以需要賦予更高的權(quán)重比例。通過查閱金允經(jīng)等[21]的文獻,本文選擇但、但是、卻、然而、不過、只是、就是、總之、總而言之、總體來看、認(rèn)為、覺得、總結(jié)、綜上所述等作為轉(zhuǎn)折歸總詞匯。

本文情感詞典的構(gòu)建過程如圖1所示：

圖1 情感詞典構(gòu)建流程Fig.1 Construction process of sentiment lexicons

1.3 規(guī)則定義

情感詞典的構(gòu)建可以把情感詞語從句子中孤立出來，但是如果孤立地看待這些詞語，并不能正確地反映新聞的情感傾向。為了提高分析的準(zhǔn)確度，必須將上下文的聯(lián)系考慮進來。因此，在詞語情感計算的基礎(chǔ)上，應(yīng)該考慮上下文中能夠改變詞語情感傾向或者情感強度的語義規(guī)則信息。

本文結(jié)合新聞文體的特點，綜合情感詞典、情感句位置、標(biāo)題等元素定義了多種語義規(guī)則用于情感句的傾向性計算。

1.3.1 情感表達組合

對新聞進行切割，分為段落、句子以及意群，以意群為最小情感單元進行分詞獲取情感詞匯。以情感詞匯為中心，與情感表達有關(guān)的規(guī)則有如下幾種：

規(guī)則1：只包含情感詞匯而不包含其他修飾詞匯的意群，例如：今天心情不錯。例子當(dāng)中只包含“不錯”一個情感詞，該類別的意群權(quán)值計算如公式2所示，其中w為該意群的情感值，p為該情感詞匯的情感值，N為情感詞匯數(shù)量。

(2)

規(guī)則2：包含否定修飾詞意群，例如：今天我不高興！例子中存在否定詞“不”來修飾情感詞“高興”，那么句子的傾向性發(fā)生了反轉(zhuǎn)，由正面變成了負(fù)面。該類別的意群情感值計算如公式3所示，其中m為修飾該情感詞的否定詞的個數(shù)，m的選取采用了滑動窗口方式。通過對情感語料的分析，本文將m設(shè)置為5，即選擇情感詞匯之前5個詞匯中的否定詞個數(shù)。

(3)

規(guī)則3：包含程度修飾詞的意群，例如：今天我很高興！例子中存在“很”這樣一個程度詞來修飾“高興”，那么本來的意群情感傾向在經(jīng)過修飾后得到了明顯的加強。該類別的意群情感值計算如公式4所示，其中d表示修飾該情感詞匯的程度詞的情感權(quán)重，程度修飾詞的選擇依然采用滑動窗口的方式，根據(jù)對情感語料的分析，本文設(shè)置窗口大小為情感詞匯前后各3個。

(4)

規(guī)則4：包含否定詞、程度詞和情感詞匯的意群，其中否定詞位于程度詞之前，例如：今天我不是很高興。這種句型當(dāng)中，否定詞將程度詞的情感程度有所弱化，意群情感計算方式如公式5所示，其中α為否定詞和程度詞的位置信息權(quán)重，這里取0.8。

(5)

規(guī)則5：包含程度詞、否定詞和情感詞匯的意群，其中否定詞位于程度詞之后，例如：今天我很不高興。這種句型當(dāng)中，否定詞將程度詞的情感傾向明顯加強，意群情感計算方式如公式5所示，其中w的取值為1.2。

規(guī)則6：當(dāng)上述規(guī)則中含有轉(zhuǎn)折、歸總詞匯或者位于段首與段尾時，其情感值計算的權(quán)重要增強。計算方式如公式6所示，其中wori為未引入規(guī)則6時計算出的情感值：

w=1.2×wori。

(6)

根據(jù)上述規(guī)則可以計算出每個句子的意群情感傾向值，由此可以計算句子、段落以及篇章的最終情感值，從而得到新聞的情感傾向。其中，s為該句子的情感值；P為段落的情感值；K為該句意群總數(shù)；M為該段落句子總數(shù)；n為最終情感值；Q為該篇章段落總數(shù)。

(7)

(8)

(9)

1.3.2 分析流程

本文使用的基于規(guī)則的網(wǎng)絡(luò)新聞文本情感分析具體流程如下：

(1)文本切割。將文本Doc按照換行符“/r”或者“/n”切割成段落Para，再按照[“?！保?？”，“！”]將Para分為Sen，最后按照[“,”]將Sen切割為多個意群SenGroup。

(2)文本預(yù)處理與情感定位。對每個意群使用FudanNLP進行分詞，結(jié)合情感詞典獲取情感關(guān)鍵詞并按照sentimentword四元組進行標(biāo)注。

(3)融合規(guī)則計算意群情感值。通過文中定義的6個規(guī)則，對得到的意群進行情感值計算。

(4)計算句子情感傾向值。通過規(guī)則對意群加權(quán)得到句子的情感值之后需要再次計算該句子與標(biāo)題的文本相似度。文本采用SimHash算法進行相似度計算，生成標(biāo)題和要對比句子的Hash值，再通過計算兩個Hash值的海明距離判斷相似度。此時句子的情感傾向值計算方式如公式10所示，其中α的值根據(jù)相似度進行調(diào)整，相似度越高α越大。sori為未進行相似度計算時的句子情感值：

s=α×sori。

(10)

(5)計算段落以及篇章的情感傾向值，最終得到文本的情感傾向。算法流程如圖2所示。

圖2 算法流程分析Fig.2 Algorithm flow analysis

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)來源及任務(wù)指標(biāo)

數(shù)據(jù)集1來源于網(wǎng)易和新浪新聞板塊，通過網(wǎng)絡(luò)爬蟲共采集1 000篇新聞?wù)Z料，采用人工標(biāo)注的方式進行情感標(biāo)注，其中正面新聞320篇，負(fù)面新聞219篇，其余為中性新聞。數(shù)據(jù)集2采用網(wǎng)絡(luò)爬蟲爬取的新聞、博客、論壇各300篇作為測試數(shù)據(jù)集。文本采用準(zhǔn)確率(precision)、召回率(recall)和F1值對實驗結(jié)果進行評估。計算方式如下，其中a為判斷正確的文本數(shù)目；b為實際正確的文本數(shù)目，c為所有的文本數(shù)目，Pre為準(zhǔn)確率；Rec為召回率：

Pre=(a/b)×100% ，

(11)

Rec=(a/c)×100% ，

(12)

(13)

2.2 結(jié)果與分析

本文實驗1以只考慮情感詞典而未加入任何規(guī)則條件的測試結(jié)果作為baseline，將融入規(guī)則的測試與之進行對比。結(jié)果如表2所示，其中RPos為正面新聞?wù)倩芈?、PPos為正面新聞準(zhǔn)確率、F1Pos為正面新聞F1值；RNeg、PNeg和F1Neg分別代表負(fù)面新聞?wù)倩芈?、?zhǔn)確率和F1值。通過結(jié)果可知，只采用情感詞匯權(quán)重加權(quán)方式的情感傾向性計算方式比本文采用的基于情感詞典和規(guī)則的計算方式各項指標(biāo)明顯偏低，在復(fù)雜的語言環(huán)境下，相同的詞匯在不同的上下文中所代表的語義有所不同，單純只考慮詞匯本身的含義不能準(zhǔn)確表達情感信息。隨著各類規(guī)則的加入，綜合考慮上下文語義關(guān)系，本文得到的實驗結(jié)果準(zhǔn)確率和召回率都在0.75以上，從而驗證了本文方法是有效可行的。

表2 實驗1結(jié)果

實驗2對數(shù)據(jù)集2中的數(shù)據(jù)進行分析，與目前比較主流的分析方法SVM進行對比。SVM采用的是臺灣大學(xué)林智仁教授開發(fā)的LibSVM。實驗結(jié)果如表3所示。其中Rec為召回率、Pre為準(zhǔn)確率。從實驗結(jié)果來看，通過對各類規(guī)則的總結(jié)，本文提供的方法要優(yōu)于SVM算法，說明本文提供的方法是有效的。

表3 實驗2結(jié)果

3 結(jié)語

本文在對網(wǎng)絡(luò)新聞文體結(jié)構(gòu)分析的基礎(chǔ)上，先后構(gòu)建了正負(fù)面情感詞典、否定詞詞典、程度副詞詞典、轉(zhuǎn)折歸總詞典，結(jié)合多種規(guī)則，提出了一種基于詞典和規(guī)則的網(wǎng)絡(luò)新聞文本情感分析方法，并通過實驗對本方法的有效性和可行性進行了驗證。雖然此次研究取得了一定的成果，但是尚有許多工作需要完成，如含有歧義的詞語的處理；篇章級的情感值是通過段落加權(quán)平均得到，而段落的情感值又是通過句子的加權(quán)平均獲得，這種方式雖然能取得不錯的效果，但是仍然比較簡單。因此，如何消除詞語歧義和更好地獲取篇章級情感值是下一步的研究重點。

[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報，2010,21(8):1834-1848.

[2]LIUB,HUMQ,CHENGJS.Opinionobserver:AnalyzingandcomparingopiniosontheWeb[C]//Proceedingsofthe14thinternationalconferenceonWorldWideWeb.NewYork,NY,USA:ACM,2005:342-351.

[3]PANGB,LEEL.Opinionminingandsentimentanalysis[J].Foundationsandtrendsininformationretrieval,2008,2(1/2):1-135.

[4]王成. 基于半監(jiān)督機器學(xué)習(xí)的文本情感分析技術(shù)[D]. 南京；南京理工大學(xué),2015.

[5]孫建旺,呂學(xué)強,張雷瀚. 基于詞典與機器學(xué)習(xí)的中文微博情感分析研究[J]. 計算機應(yīng)用與軟件,2014, 31(7):177-181.

[6]楊佳能,陽愛民,周詠梅. 基于語義分析的中文微博情感分類方法[J]. 山東大學(xué)學(xué)報(理學(xué)版),2014,49(11):14-21.

[7]張志飛,苗奪謙,岳曉冬,等. 強語義模糊性詞語的情感分析[J]. 中文信息學(xué)報,2015,29(2):68-78.

[8]PANGB,LEEL,VAITHYANATHANS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[EB/OL]. [2016-03-04].http://delivery.acm.org/10.1145/1120000/1118704/p79-pang.pdf?ip=222.173.55.212&id=1118704&acc=OPEN&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID=849300259&CFTOKEN=78353276&__acm__=1475909422_f62191db62812a3a07db2d210c7dc31b.

[9]TANSB,ZHANGJ.AnempiricalstudyofsentimentanalysisforChinesedocuments[J].ExpertSystemswithApplications, 2008, 34(4):2622-2629.

[10]樊小超. 基于機器學(xué)習(xí)的中文文本主題分類及情感分類研究[D]. 南京：南京理工大學(xué), 2014.

[11]朱嫣嵐, 閔錦, 周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006, 20(1):14-20.

[12]TURNEYPD,LITTMANML.Measuringpraiseandcriticism:Inferenceofsemanticorientationfromassociation[J].AcmTransactionsonInformationSystems, 2003, 21(4):315-346.

[13]馮亮祖. 基于情感關(guān)鍵句的新聞文本情感分類研究[D]. 北京:北京郵電大學(xué), 2015.

[14]張成功, 劉培玉, 朱振方,等. 一種基于極性詞典的情感分析方法[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2012, 47(3):47-50.

[15]李凌燕. 新聞敘事的主觀性研究[M]. 上海：東方出版中心, 2013.

[16]謝暉. 新聞文本學(xué)[M]. 北京：中國傳媒大學(xué)出版社, 2007.

[17]YESSENALINAA,YUEY,CARDIEC.Multi-levelstructuredmodelsfordocument-levelsentimentclassification[C]//ConferenceonEmpiricalmethodsinnaturallanguageprocessing.Massachusetts,USA:AssociationforComputationallinguistics,2010:1046-1105.

[18]李本陽. 句子和篇章文本傾向分析[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2010.

[19]杜偉夫. 文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2010.

[20]張誼生.現(xiàn)代漢語副詞研究[M].上海：學(xué)林出版社，2000.

[21]金允經(jīng),金昌吉. 現(xiàn)代漢語轉(zhuǎn)折連詞組的同異研究[J]. 漢語學(xué)習(xí),2001(2):34-40.

DOI:10.3976/j.issn.1002-4026.2017.01.020

Lexiconandrulesbasednewstextsentimentanalysis

LIChen1,ZHUShi-wei1,WEIMo-ji1,YUJun-feng1,LIXin-tian2

(1.InformationInstitute,ShandongAcademyofSciences,Jinan250014,China;2.BiologyInstitute,ShandongAcademyofSciences,Jinan250014,China)

∶Accordingtothestructure,thenewsstylewasdividedintoseveralparagraphs.Basedonsentimentlexiconandsemanticrules,amethodofextractingsentimentalkeysentenceswasusedtoanalyzethesentimentofsentenceswithineachparagraph.Firstly,sentimentlexiconwasbuiltbyconsideringtheemotion,twist,negation,degreeandsumsupvocabularies;Secondly,accordingtorules,newstextwasdividedintosensegroups,sentences,paragraphsandchapters;Furthermore,orientationvalueofsentimentalkeysentenceswascomputedbytherulesestablished,andthenthesentimentalorientationvalueoftheparagraphsandthewholechapterswasobtainedbyweightedaverageofsentences,thusthesentimentalorientationofnewswasrevealed.ComparedwithlexiconbasedmethodandSVMsentimentclassification,experimentalresultsshowthatthemethodproposedhasgoodeffectsontheorientationidentificationofnewstext,showinggoodfeasibilityaswell.

∶sentimentanalysis;rules;sentimentlexicon;onlinenews

10.3976/j.issn.1002-4026.2017.01.019

2016-07-13

山東省科技發(fā)展計劃(2014GGX101013)；山東省重點研發(fā)計劃(2015GGX101032，2015GGX101037，2016GGX101018)

李晨(1988—)，男，碩士，研究方向為大數(shù)據(jù)和數(shù)據(jù)挖掘。

1002-4026(2017)02-0115-07