亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)義規(guī)則與表情加權(quán)融合的微博情感分析方法

        2016-08-06 01:58:26趙天奇姚海鵬張俊東張培穎

        趙天奇,姚海鵬,方 超,張俊東,張培穎

        (北京郵電大學(xué) 網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        ?

        語(yǔ)義規(guī)則與表情加權(quán)融合的微博情感分析方法

        趙天奇,姚海鵬,方超,張俊東,張培穎

        (北京郵電大學(xué) 網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        摘要:當(dāng)前中文微博情感分析的主流做法是將情感極性分類結(jié)果的好壞作為評(píng)判的標(biāo)準(zhǔn)。從提高微博情感判別準(zhǔn)確度的目的出發(fā),盡量多考慮影響微博情感的元素。在統(tǒng)計(jì)微博中情感詞的基礎(chǔ)上,加入了微博表情這一重要元素,采用與文本情感值加權(quán)的方式參與微博情感計(jì)算,使得對(duì)含有表情的微博情感判定結(jié)果有了一定程度的提高;在語(yǔ)義規(guī)則部分,基本涵蓋了漢語(yǔ)中最常用的幾種句型規(guī)則和句間關(guān)系規(guī)則,使得對(duì)復(fù)雜語(yǔ)句的情感分析更加準(zhǔn)確。同時(shí),還對(duì)每條微博的情感給出了具體的數(shù)值,并在正確率、召回率、F值的基礎(chǔ)上,提出合格率這一指標(biāo),對(duì)微博情感判別方法得到的數(shù)值準(zhǔn)確性進(jìn)行評(píng)價(jià)。通過(guò)搭建Hadoop平臺(tái)對(duì)測(cè)試集的1萬(wàn)條數(shù)據(jù)進(jìn)行測(cè)試,驗(yàn)證了融合算法的有效性。

        關(guān)鍵詞:微博;情感分析;語(yǔ)義規(guī)則;微博表情

        0引言

        21世紀(jì)是數(shù)據(jù)信息爆炸的時(shí)代,伴隨移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等發(fā)展和普及,數(shù)據(jù)信息正在瘋狂地增長(zhǎng)。社交媒體時(shí)代,人們更多地通過(guò)微博、微信等互聯(lián)網(wǎng)平臺(tái)表情達(dá)意,“人人都有了自己的麥克風(fēng)”。而從古代開始就有的“防民之口甚于防川”的說(shuō)法,甚至今日仍然有著一定的借鑒意義。

        數(shù)據(jù)意味著信息,海量數(shù)據(jù)意味著巨大的信息。對(duì)這些數(shù)據(jù)加以利用可以獲得巨大的潛在價(jià)值:對(duì)消費(fèi)者來(lái)說(shuō),將其他用戶對(duì)某類產(chǎn)品評(píng)價(jià)進(jìn)行匯總和分析可以為其是否購(gòu)買提供參考;對(duì)商業(yè)公司來(lái)說(shuō),分析消費(fèi)者對(duì)產(chǎn)品的評(píng)價(jià)可以作為其后續(xù)改進(jìn)的基礎(chǔ);對(duì)政府部門來(lái)說(shuō),掌握輿情的發(fā)展與走勢(shì)可以更好地維護(hù)社會(huì)的穩(wěn)定。而這些海量信息的獲取與分析如果都靠人工來(lái)完成,那么是很難應(yīng)付的,因而如何快速準(zhǔn)確地處理和使用信息已經(jīng)成為當(dāng)前研究的熱點(diǎn)。

        本文就是從這樣的目的出發(fā),以微博數(shù)據(jù)作為研究對(duì)象,選取1萬(wàn)條用戶微博,采用融合語(yǔ)義規(guī)則和表情加權(quán)的算法對(duì)微博情感值進(jìn)行評(píng)判,通過(guò)Hadoop平臺(tái)對(duì)數(shù)據(jù)進(jìn)行分布式處理。

        1相關(guān)工作

        現(xiàn)階段,在情感分析領(lǐng)域,英文微博的研究較為成熟,而中文微博相對(duì)來(lái)說(shuō)才剛剛起步。因此,用于英文的情感分析資源比較豐富。常用的情感詞典包括SentiWordNet和Inquirer等,這些詞典的突出特點(diǎn)是能夠提供詞語(yǔ)在不同語(yǔ)境下的情感傾向,是情感分析準(zhǔn)確率的重要保障。另外,英文的標(biāo)注語(yǔ)料也初具規(guī)模,從人工標(biāo)注到Pak等[1]利用Twitter表情符自動(dòng)標(biāo)注,英文標(biāo)注語(yǔ)料一直在不斷擴(kuò)充和完善,為測(cè)試工作提供豐富的原材料。

        相比之下,中文的情感分析資源還比較匱乏。常用的情感詞典主要有知網(wǎng)情感詞典、同義詞詞林以及包括臺(tái)灣大學(xué)和大連理工大學(xué)類似的一些高校提供的情感詞匯庫(kù),但質(zhì)量良莠不齊。標(biāo)注語(yǔ)料方面,雖然近兩年出現(xiàn)了一些包括中國(guó)中文信息學(xué)會(huì)信息檢索專業(yè)委員會(huì)舉辦中文傾向性分析評(píng)測(cè)(chinese opinion analysis evaluation,COAE)提供的中文情感標(biāo)注語(yǔ)料在內(nèi)的標(biāo)注文本,但總體而言,權(quán)威的情感分析語(yǔ)料仍舊不多。

        在研究方法方面,目前主流的方法主要是基于語(yǔ)義和機(jī)器學(xué)習(xí)這2種[1]。所謂基于語(yǔ)義,就是通過(guò)統(tǒng)計(jì)微博文本中情感詞的情感值,并通過(guò)求平均或者其他運(yùn)算方式給出語(yǔ)句和文本的情感值;而機(jī)器學(xué)習(xí)就是通過(guò)構(gòu)造分類器,使用標(biāo)注好的訓(xùn)練集訓(xùn)練分類器,并區(qū)分訓(xùn)練集中的正例和反例,常用的方法有樸素貝葉斯法(Naive Bayes)[2-3]、K 最近鄰法、中心向量法和支持向量機(jī)法(support vector machine,SVM)等。

        國(guó)外的研究主要針對(duì)Twitter的數(shù)據(jù)進(jìn)行展開。2005年P(guān)ak在進(jìn)行標(biāo)注Twitter文本情感極性數(shù)據(jù)集的基礎(chǔ)上實(shí)現(xiàn)了基于樸素貝葉斯、支持向量機(jī)和條件隨機(jī)場(chǎng)的情感分類器。2009年Go等[4]采用無(wú)監(jiān)督指導(dǎo)的樸素貝葉斯、最大熵和支持向量機(jī)3種機(jī)器學(xué)習(xí)方法,并加入表情符號(hào)這一特征,大大提高了情感傾向判別的準(zhǔn)確率。2011年Jiang等[5]運(yùn)用五折交叉驗(yàn)證的方法驗(yàn)證了情感詞典和主題相關(guān)特征可以提高分離效果的準(zhǔn)確性。

        國(guó)內(nèi)的研究主要針對(duì)新浪微博、騰訊微博等進(jìn)行展開。徐琳宏等[6]考慮句子的詞匯和結(jié)構(gòu)2個(gè)層面,根據(jù)影響語(yǔ)句情感的9個(gè)語(yǔ)義特征構(gòu)建了情感詞匯庫(kù),進(jìn)行了情感分析的初步嘗試。李鈍等[7]結(jié)合語(yǔ)言學(xué)知識(shí),在獲得詞語(yǔ)語(yǔ)義傾向時(shí)采用了“情感傾向定義”權(quán)重優(yōu)先的方式,為粗粒度的文本情感分析奠定基礎(chǔ)。劉志明等[8]通過(guò)對(duì)比3種機(jī)器學(xué)習(xí)算法、3種特征項(xiàng)權(quán)重計(jì)算方法和3種特征選取算法,發(fā)現(xiàn)使用SVM、詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)及信息增益(information gain,IG)選擇特征項(xiàng)權(quán)重時(shí)效果最佳。謝麗星等[9]在對(duì)新浪微博數(shù)據(jù)進(jìn)行情感分析研究時(shí)提出了基于層次結(jié)構(gòu)的多策略方法,并采用主題相關(guān)特征進(jìn)行特征提取,提高了準(zhǔn)確率。

        但總體來(lái)說(shuō),目前的情感分析效果并不十分理想。在目前常用的2種方式中,基于語(yǔ)義詞匯的情感分析算法實(shí)現(xiàn)的粒度更細(xì),但把詞語(yǔ)從句子中孤立出來(lái),忽略詞語(yǔ)的上下文關(guān)系及句法規(guī)則,反映微博消息的情感傾向時(shí)不夠完善;而基于機(jī)器學(xué)習(xí)的方法在處理新聞、論壇等長(zhǎng)文本情況時(shí)效果較好,對(duì)微博短文本的分析不夠理想。因此,本文利用現(xiàn)有的研究成果及分析方法,采用情感詞典加語(yǔ)義規(guī)則的計(jì)算模型進(jìn)行微博情感計(jì)算,并利用表情詞典對(duì)最終的結(jié)果加以修正。

        2情感分析算法的設(shè)計(jì)

        2.1情感分析流程

        圖1是本文提出的微博情感分析算法流程,輸入為整條微博。文本預(yù)處理實(shí)現(xiàn)的功能之一是正則匹配“[]”內(nèi)的字符,從而提取表情符號(hào)的文字表示,構(gòu)建表情的集合,通過(guò)在表情數(shù)據(jù)庫(kù)中查詢其對(duì)應(yīng)的情感值并求和,得到微博表情部分的情感分?jǐn)?shù)。文本預(yù)處理的另一個(gè)作用是對(duì)微博純文本按照“。” “;”“!”“?”進(jìn)行分句操作,得到多個(gè)復(fù)句。通過(guò)對(duì)句號(hào)、分號(hào)、嘆號(hào)和問(wèn)號(hào)的識(shí)別判斷各個(gè)復(fù)句的句型,并給予相應(yīng)的權(quán)值。對(duì)復(fù)句按照“,”進(jìn)行分句操作,得到復(fù)句中每個(gè)分句,通過(guò)識(shí)別轉(zhuǎn)折、遞進(jìn)、假設(shè)3種句間關(guān)系的關(guān)鍵詞來(lái)判斷各分句間的關(guān)系,并對(duì)相應(yīng)的分句賦予一定的權(quán)值。在分句中通過(guò)查找情感詞典庫(kù)確定情感詞的極性和數(shù)值,并根據(jù)情感詞前出現(xiàn)的程度副詞和否定副詞進(jìn)行相應(yīng)的數(shù)值修正。最后,根據(jù)各部分得到的數(shù)值加權(quán)求和得到最終的微博情感結(jié)果。

        圖1 微博情感分析流程圖Fig.1 Microblog sentimental analysis flow chart

        2.2情感詞典的構(gòu)建

        情感詞典是情感分析的基礎(chǔ),情感詞典的質(zhì)量直接決定了情感分析的效果。目前使用最多的中文情感詞典主要是知網(wǎng)的中英文情感詞典、大連理工情感詞匯本體庫(kù)、臺(tái)灣大學(xué)中文情感詞典等。知網(wǎng)的情感詞典包括正面情感詞語(yǔ)、正面評(píng)價(jià)詞語(yǔ)等6個(gè)詞表的中英文版本,分類細(xì)致,詞語(yǔ)全面,但只有詞語(yǔ)本身,缺少對(duì)應(yīng)的詞性標(biāo)注及情感強(qiáng)度等標(biāo)簽,在情感數(shù)值的計(jì)算上存在難度;臺(tái)灣大學(xué)的情感詞庫(kù)也是如此,將正向情感詞和負(fù)向情感詞分別放在2張表中,但沒(méi)有詞性標(biāo)注和情感強(qiáng)度;大連理工情感詞典相比較而言,詞語(yǔ)的指標(biāo)更為全面,詞性、情感強(qiáng)度、情感極性都進(jìn)行了標(biāo)注,方便用于情感值的計(jì)算。

        因此,本文采用大連理工情感詞匯本體庫(kù)作為基礎(chǔ),并對(duì)其進(jìn)行了簡(jiǎn)化處理,只保留了詞語(yǔ)名稱、詞性、情感強(qiáng)度和極性4個(gè)基本屬性。情感分類按照論文《情感詞匯本體的構(gòu)造》所述,情感分為7個(gè)大類21個(gè)小類。情感強(qiáng)度分為5檔,用1,3,5,7,9來(lái)表示,1為強(qiáng)度最??;9為強(qiáng)度最大。每個(gè)詞在每一類情感下都對(duì)應(yīng)了一個(gè)極性,其中,0代表中性,1代表褒義,2代表貶義,3代表兼有褒貶兩性。同時(shí),作為補(bǔ)充,還選取了褒義基準(zhǔn)詞和貶義基準(zhǔn)詞各40個(gè)并手動(dòng)將其情感傾向值設(shè)為9,即最大強(qiáng)度[10]。因?yàn)槲⒉┲械木渥硬⒉皇呛?jiǎn)單情感詞的疊加,所以,只有情感詞詞典對(duì)于文本的情感分析肯定是不夠用的。我們考慮到語(yǔ)義規(guī)則對(duì)文本情感分析的影響,引入了程度副詞詞典和否定副詞詞典。其中,程度副詞詞典采用知網(wǎng)提供的程度級(jí)別詞語(yǔ)(中文)共219個(gè),沿用藺璜等[11]提出將這些詞分為4個(gè)等級(jí)的做法,即極量、高量、中量和低量。否定詞典由整理出的19個(gè)否定副詞構(gòu)成,權(quán)值為-1。程度副詞和否定副詞詞分別如表1和表2所示。

        表1 程度副詞示例表

        表2 否定副詞示例表

        除此之外,我們還將新浪微博中常用的共計(jì)77個(gè)表情在[-1,1]進(jìn)行人工標(biāo)注,作為表情數(shù)據(jù)集使用,如圖2所示。圖2中的“笑哭了”表情,在數(shù)值上體現(xiàn)為1,“怒”在數(shù)值上體現(xiàn)為-1,“擠眼”為0.7等。

        至此,情感詞典的構(gòu)建工作已經(jīng)完成,由大連理工情感詞典本體庫(kù)、褒義基準(zhǔn)詞典、貶義基準(zhǔn)詞典、程度副詞詞典、否定副詞詞典及表情詞典共6部分構(gòu)成。

        2.3語(yǔ)義規(guī)則

        由于漢語(yǔ)的博大精深,人們?cè)诒磉_(dá)的時(shí)候往往不是靠堆疊情感詞來(lái)表達(dá)自己的情感,也就是說(shuō)我們?cè)诜治鑫⒉┣楦袝r(shí)不能只采用統(tǒng)計(jì)情感詞的方式,而是應(yīng)該更多地考慮人們?cè)诒磉_(dá)時(shí)的一些特殊方法,如句式、句型和修辭上的不同。本文從這一目的出發(fā),在微博情感分析時(shí)加入了句型規(guī)則和句間關(guān)系規(guī)則[11],下面就這2個(gè)規(guī)則進(jìn)行闡述。

        圖2 微博表情Fig.2 Microblog emoticons

        2.3.1句型規(guī)則

        經(jīng)過(guò)分詞以后的文本由各簡(jiǎn)短子句組成,用集合表示為{S1,S2,…,Si,…,Sn}。我們這里所講的句型規(guī)則是定義在一個(gè)完整句子上的,即以句號(hào)、分號(hào)、問(wèn)號(hào)或嘆號(hào)結(jié)尾的句子,可以簡(jiǎn)單地理解為一個(gè)復(fù)句。一個(gè)復(fù)句可以用Si來(lái)表示,其中包括s1到sn共n個(gè)子句。考慮4種常見的句型:感嘆句、反問(wèn)句、疑問(wèn)句和陳述句,定義Ti表示句型規(guī)則下的權(quán)值,Ti的數(shù)值由以下4條規(guī)則決定。

        ④如果復(fù)句為陳述句,即Si以其他標(biāo)點(diǎn)結(jié)尾,則Ti=1。

        2.3.2句間關(guān)系規(guī)則

        在語(yǔ)句級(jí)別的分析上,除了句型的判斷外,在一個(gè)復(fù)句中,多個(gè)子句間的關(guān)系也會(huì)對(duì)情感分析有一定的影響。本節(jié)將一個(gè)復(fù)句中的各個(gè)子句作為研究對(duì)象,考慮句間的3種常見關(guān)系:轉(zhuǎn)折關(guān)系、假設(shè)關(guān)系、遞進(jìn)關(guān)系,定義ri表示句間關(guān)系權(quán)值,其數(shù)值由以下規(guī)則決定。

        1)轉(zhuǎn)折關(guān)系規(guī)則。一般情況,轉(zhuǎn)折復(fù)句前面分句提出某種事實(shí)或情況,后面分句轉(zhuǎn)而述說(shuō)與前面分句相反或相對(duì)的意思,即后面分句才是說(shuō)話人所要表達(dá)的真正意圖。故定義規(guī)則如下。

        ①如果復(fù)句Si中有單一轉(zhuǎn)折后接詞(如:“但是”“但”“卻”“可是”)且出現(xiàn)在分句sj上,則r1,r2,…,rj-1=0;rj,rj+1,…,rn=1。

        ②如果復(fù)句Si中有成對(duì)轉(zhuǎn)折標(biāo)志詞(如,“雖然…但是”)且在分句sj中出現(xiàn)轉(zhuǎn)折后接詞,則r1,r2,…,rj-1=0;rj,rj+1,…,rn=1。

        ③如果復(fù)句Si中有單一轉(zhuǎn)折前接詞(如:“雖然”)且出現(xiàn)在分句sj上,則r1,r2,…,rj-1=1;rj,rj+1,…,rn=0。

        2)假設(shè)關(guān)系規(guī)則。假設(shè)關(guān)系在實(shí)際的表達(dá)中更傾向于強(qiáng)調(diào)前提條件,而弱化后半部分,故有如下定義。

        ①若復(fù)句Si中存在假設(shè)關(guān)系后接詞(如“那么”)且出現(xiàn)在分句sj中,則r1,r2,…,rj-1=1;rj,rj+1,…,rn=0.5。

        ②若復(fù)句Si中存在否定假設(shè)關(guān)系前接詞(如:“如果不”),且否定關(guān)系后接詞(如“那么”)出現(xiàn)在分句sj中,則r1,r2,…,rj-1=-1;rj,rj+1,…,rn=-0.5。

        3)遞進(jìn)關(guān)系規(guī)則。遞進(jìn)關(guān)系是指能夠表示在意義上進(jìn)一層關(guān)系的,且有一定邏輯的詞語(yǔ)?,F(xiàn)定義規(guī)則如下。

        如果復(fù)句Si中存在遞進(jìn)關(guān)系標(biāo)志詞(如:“更加”“更有甚者”)且出現(xiàn)在分句sj中,則r1,r2,…,rj-1=1,rj,rj+1,…,rn=1.5。

        除了這3類常見的句間關(guān)系外,還有因果關(guān)系、并列關(guān)系以及其他一般關(guān)系,這些關(guān)系的前后分句在情感上變化不大,所以,不做區(qū)分,分句情感的權(quán)值設(shè)為1。

        2.4表情加權(quán)

        在對(duì)存在表情的微博進(jìn)行分析時(shí),如果只考慮文本的情感值而忽略表情對(duì)整條微博情感值的影響,那么將是對(duì)數(shù)據(jù)信息的一種浪費(fèi)。在現(xiàn)有的微博情感研究工作中主要采用2種方式對(duì)表情符號(hào)進(jìn)行處理:①將表情符號(hào)并入情感詞典中,即將表情的情感極性按照情感詞的方式進(jìn)行統(tǒng)計(jì),這種方式對(duì)于表情符號(hào)信息的利用并不十分充分;②王文[13]提出的將表情情感值與文本情感值加權(quán)處理作為最后的結(jié)果,這樣可以為細(xì)粒度的情感數(shù)值計(jì)算提供方便且充分利用了表情符號(hào)的信息。故本文采用這一方法對(duì)表情加以利用。

        表情與文本情感值的比例選擇問(wèn)題也會(huì)對(duì)最終的結(jié)果產(chǎn)生影響。在文獻(xiàn)[13]中,通過(guò)對(duì)數(shù)據(jù)集的測(cè)試發(fā)現(xiàn),當(dāng)表情與文本的比例為0.4和0.6時(shí),加權(quán)后正負(fù)面情感傾向的判斷準(zhǔn)確率有明顯提升,在其測(cè)試集中判斷準(zhǔn)確率從78.6%提升到83.4%。因此,本文算法也沿用0.4和0.6這一加權(quán)比例,對(duì)微博最終情感進(jìn)行計(jì)算。

        2.5微博綜合情感計(jì)算

        通過(guò)前面的準(zhǔn)備工作,我們得到了一條微博在表情、復(fù)句、分句、詞語(yǔ)4個(gè)層面上的參數(shù),本節(jié)將給出如何利用這些參數(shù)進(jìn)行最終的情感值計(jì)算?,F(xiàn)從詞語(yǔ)到復(fù)句的順序進(jìn)行分析,即顆粒度由小到大,用Emotion的首字母E來(lái)表示情感值。

        1)詞語(yǔ)情感值E(Wi)表示為

        E(Wi)=Neg×ad×seni

        (1)

        (1)式中:Neg表示情感詞對(duì)應(yīng)的否定副詞;ad表示情感詞對(duì)應(yīng)的程度副詞;seni表示句中情感詞與情感詞庫(kù)匹配后得到的情感值。

        詞語(yǔ)級(jí)的情感值是情感詞語(yǔ)本身及其對(duì)應(yīng)的程度副詞和否定副詞修正后的結(jié)果。由于代碼實(shí)現(xiàn)上的原因,當(dāng)匹配到情感詞后,向前至多取2個(gè)詞,如果存在程度副詞和否定副詞,則按程度副詞詞典和否定副詞詞典對(duì)應(yīng)的權(quán)值進(jìn)行修正;如果在2個(gè)詞的范圍內(nèi)沒(méi)有找到程度副詞和否定副詞,則按權(quán)值為1對(duì)待,即不對(duì)情感詞本身的極性和情感值產(chǎn)生影響。

        2)分句情感值E(si)表示為

        (2)

        (2)式中:∑E(Wi)表示分句內(nèi)所有詞語(yǔ)情感值的和;ri表示當(dāng)前分句的句間關(guān)系系數(shù)。

        分句情感值由分句內(nèi)所有詞語(yǔ)情感值之和乘以分句的句間關(guān)系權(quán)值確定。由2.3.2節(jié)提出的規(guī)則確定。

        3)復(fù)句情感值E(Si)為

        (3)

        復(fù)句情感值由復(fù)句內(nèi)各分句情感值求和乘以復(fù)句的句型系數(shù)得到。

        4)文本情感值Etext為

        (4)

        微博文本的情感值由各復(fù)句的情感值求和得到。

        5)表情情感值Eemotion為

        (5)

        表情的情感值由微博中出現(xiàn)的所有表情的情感值求和取平均確定。

        6)微博情感值為

        (6)

        由于本文的目的是對(duì)微博的情感給出具體的數(shù)值表示,而不是正負(fù)傾向性分析,所以情感詞匯和表情的情感值都取值[-1,1],但由于句間關(guān)系和句型關(guān)系的修正,結(jié)果的絕對(duì)值可能會(huì)超出[-1,1]的限制,因此,這里我們規(guī)定,如果最終的情感值的E絕對(duì)值超過(guò)1,則E取1;不超過(guò)1時(shí),不進(jìn)行修正和取舍。

        3情感分析實(shí)驗(yàn)

        3.1實(shí)驗(yàn)數(shù)據(jù)

        由于目前中文微博的分析起步不久,暫時(shí)還沒(méi)有標(biāo)準(zhǔn)的微博情感分析語(yǔ)料可供分析,所以,本文通過(guò)爬蟲的方式爬取新浪微博的原始數(shù)據(jù)40余萬(wàn)條,從中篩選原創(chuàng)微博1萬(wàn)條。由于本文實(shí)現(xiàn)的微博情感分析算法會(huì)給出一個(gè)[-1,1]的數(shù)值作為微博的情感值,因而選取5名志愿者對(duì)篩選出的1萬(wàn)條微博情感值進(jìn)行討論式的人工判定,在[-1,1]給出每條微博的情感值。

        在這個(gè)過(guò)程中,由于無(wú)法避免主觀因素對(duì)情感判定的影響,以及算法對(duì)非情感句進(jìn)行的情感相似度處理造成的誤差,所以,本文在實(shí)驗(yàn)分析中對(duì)3種情感分類的標(biāo)準(zhǔn)做了一定的調(diào)整,[-0.2,0.2]為中性微博,(0.2,1)為正向微博,[-1,-0.2]為負(fù)向微博。

        (7)

        在這1萬(wàn)條原創(chuàng)微博的分類結(jié)果中,正向微博有2 683條,中性微博有5 065條,負(fù)向微博2 252條。從這一分類結(jié)果中可以看到,中性微博占據(jù)較大的比例,正向微博和負(fù)向微博比例相對(duì)較小且正向微博稍多。

        3.2實(shí)驗(yàn)性能評(píng)估指標(biāo)

        本文采用第2節(jié)提出的算法對(duì)每條微博進(jìn)行情感分析,將分析的結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比對(duì),采用正確率 (Precision)和召回率 (Recall)及F值(F)[14]作為微博情感極性判別的標(biāo)準(zhǔn)。同時(shí),還需對(duì)微博情感分?jǐn)?shù)判別的準(zhǔn)確率進(jìn)行評(píng)判,如果算法判定的結(jié)果與人工標(biāo)注結(jié)果的誤差在±0.1內(nèi),則認(rèn)為合格,用合格率表示微博情感分?jǐn)?shù)判定的準(zhǔn)確程度。

        下面給出正確率、召回率、F值及合格率的計(jì)算公式

        (8)

        (9)

        (10)

        (11)

        3.3實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        根據(jù)3.1節(jié)提出的情感分類判別方法以及3.2節(jié)提出的合格率判斷標(biāo)準(zhǔn),對(duì)爬取到的微博數(shù)據(jù)通過(guò)Hadoop進(jìn)行離線處理,如圖3所示。然后對(duì)結(jié)果進(jìn)行指標(biāo)評(píng)價(jià)。

        圖3 數(shù)據(jù)測(cè)試流程圖Fig.3 Data test flow chart

        實(shí)驗(yàn)測(cè)試了本文提出的算法及支撐本文的2篇文章中提出的算法[11,13],并對(duì)測(cè)試結(jié)果進(jìn)行了比較。由于本文只采取了這2篇文章中的主要思想進(jìn)行融合,并沒(méi)有融合其全部工作,因而在比較的時(shí)候只選擇了語(yǔ)義規(guī)則+情感詞典和表情加權(quán)+情感詞典2種方式,即2篇論文中的主體思想,所以在測(cè)試的指標(biāo)上可能與2篇論文給出的結(jié)果有所偏差。測(cè)試結(jié)果如表3,表4所示。

        表3 正確率、召回率、F值

        表4 合格率

        表3和表4中的“語(yǔ)義規(guī)則+情感詞典”是指通過(guò)查找微博中的情感詞并結(jié)合語(yǔ)義規(guī)則對(duì)微博情感進(jìn)行判定,“表情加權(quán)+情感詞典”是指將微博中的情感詞數(shù)值求和取平均并結(jié)合表情符號(hào)的加權(quán)對(duì)微博情感進(jìn)行判定,2種方法中的情感詞典、語(yǔ)義規(guī)則和表情加權(quán)與本文2.2節(jié)、2.3節(jié)和2.4節(jié)是一致的,沒(méi)有差別?,F(xiàn)對(duì)表3和表4的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析如下。

        1)表3的準(zhǔn)確率一列,3種方法均表現(xiàn)出正向、負(fù)向數(shù)值高,中性數(shù)值低的特點(diǎn)。造成這種現(xiàn)象的原因是中性區(qū)間為(-0.2,0.2),相比于中性區(qū)間為0的情況擴(kuò)大了范圍,導(dǎo)致有一部分正向和負(fù)向的微博被判斷為中性微博,使得準(zhǔn)確率計(jì)算公式中的分母增大,數(shù)值減小。

        2)表3的召回率一列,3種方法都表現(xiàn)出正向、中性數(shù)值高,負(fù)向數(shù)值偏低的特點(diǎn)。造成這一現(xiàn)象的原因主要是情感詞庫(kù)中負(fù)向情感詞不夠完善,導(dǎo)致部分負(fù)向情感的微博不能準(zhǔn)確識(shí)別。還有一部分原因是因?yàn)樘厥獾男揶o手法或非常規(guī)的表達(dá)方式,如“不!對(duì)!是!被!蚊!子!咬!了!三!個(gè)!包!”。

        3)表3的F值一列,3種方法的平均F值分別為0.637,0.658和0.691。在對(duì)比中我們發(fā)現(xiàn),由于表3是對(duì)極性判別準(zhǔn)確度的一種考量,所以,當(dāng)文本情感值判定有偏差時(shí),表情加權(quán)可以對(duì)其進(jìn)行修正,所以其結(jié)果準(zhǔn)確程度相對(duì)于語(yǔ)義規(guī)則來(lái)說(shuō)更高。當(dāng)本文算法將語(yǔ)義規(guī)則和表情加權(quán)結(jié)合到一起的時(shí)候,F(xiàn)值有了較為明顯的提升,平均F值達(dá)到0.691,正向情感微博的F值達(dá)到0.740,效果已屬于良好。

        4)在合格率方面,可以看到在加入規(guī)則和表情加權(quán)后平均合格率已經(jīng)達(dá)到0.619,即經(jīng)過(guò)程序計(jì)算后有61.9%的微博情感值與人工標(biāo)注的情感值在±0.1的誤差之內(nèi),已經(jīng)屬于比較不錯(cuò)的結(jié)果。另外,正向和中性的微博在合格率上提升幅度相對(duì)較大,負(fù)向微博的合格率提升幅度較小。其中的原因除了情感詞的識(shí)別存在誤差以外,還跟人們?cè)谑褂梦淖直磉_(dá)情感上的習(xí)慣有關(guān):人們?cè)诒磉_(dá)負(fù)向情感的時(shí)候較少使用復(fù)雜的句式,一般簡(jiǎn)潔明了,而在表達(dá)正向和中性情感時(shí)對(duì)復(fù)雜句式的使用相對(duì)較多,所以,語(yǔ)義規(guī)則在分析復(fù)雜句式上的優(yōu)勢(shì)就體現(xiàn)不出來(lái)了。

        5)在對(duì)合格率的誤差進(jìn)行分析時(shí),我們發(fā)現(xiàn)大部分誤差產(chǎn)生的原因主要有2方面:①分詞結(jié)果存在誤差;②情感詞典不完善。如“嚴(yán)格規(guī)范執(zhí)法隊(duì)伍人員行為”中的“嚴(yán)格”,在句中是作為副詞出現(xiàn)的,但在分詞時(shí)被當(dāng)作形容詞。還有一些不可避免的情況是因?yàn)楹芏嘣~語(yǔ)有一詞多義的現(xiàn)象,在不同的語(yǔ)境下可能表現(xiàn)為相反的詞性,在情感詞典庫(kù)中被標(biāo)注為中性,這種詞在處理的時(shí)候很難準(zhǔn)確識(shí)別其詞性及強(qiáng)度,造成對(duì)結(jié)果的干擾。

        6)本文提出的融合算法將語(yǔ)義規(guī)則與表情加權(quán)結(jié)合在一起,融合了2種方法在進(jìn)行情感分析時(shí)的優(yōu)點(diǎn):融合算法與語(yǔ)義規(guī)則+情感詞典的方法相比,加入了表情的修正,在對(duì)情感極性判別的準(zhǔn)確度方面有所提升;與表情加權(quán)+情感詞典的方法相比,加入了語(yǔ)義規(guī)則,不僅對(duì)極性判別有修正作用,也對(duì)復(fù)雜句式的處理提供幫助,主要體現(xiàn)在合格率這一參數(shù)上。

        4結(jié)束語(yǔ)

        中文微博的情感研究起步較晚,受限于目前并不完善的情感詞典及測(cè)試集,本文提出的融合算法對(duì)情感分類的判別結(jié)果有所提升,但提升幅度有限。其中,表情加權(quán)規(guī)則的加入對(duì)微博極性的判斷有一定的修正作用,語(yǔ)義規(guī)則的加入對(duì)含有復(fù)雜句式較多的正向微博和中性微博的情感數(shù)值判定有一定的提升作用,但總體效果仍舊難以達(dá)到理想的程度。

        后續(xù)的改進(jìn)可以著手于添加更多的語(yǔ)義規(guī)則以及對(duì)句子主題的提取,也可以融合機(jī)器學(xué)習(xí)或深度學(xué)習(xí),使得在分析微博情感的時(shí)候能夠有更多的特征可供使用,結(jié)果自然也更準(zhǔn)確。

        參考文獻(xiàn):

        [1]PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]∥Proceedings of the Seventh Conference on International Language Resources and Evaluation. Valletta, Malta: LREC,2010:1320-1326.

        [2]周勝臣,瞿文婷,石英子,等. 中文微博情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用與軟件,2013,30 (3):161-164,181.

        ZHOU Shengchen, QU Wenting, SHI Yingzi, et al. Overview on sentiment analysis of Chinese microblog[J]. Computer Applications and Software, 2013,30 (3):161-164,181.

        [3]ZHANG H. The optimality of naive bayes[C]∥Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference. Miami Beach, Florida, USA: DBLP, 2004:562-567.

        [4]GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford, 2009, 44(1):1-12.

        [5]JIANG Long,YU Mo,ZHOU Ming,et al. Target-dependent twitter sentiment classification[J]. Meeting of Association for Computational Linguistica, 2011, 26(3): 151-160.

        [6]徐琳宏,林鴻飛. 基于語(yǔ)義特征和本體的語(yǔ)篇情感計(jì)算[J].計(jì)算機(jī)研究與發(fā)展,2007,44(3):356-360.

        XU Linhon, LIN Hongfei. Discourse affective computing based on semantic features and ontology[J]. Journal of Computer Research and Development, 2007,44(3):356-360.

        [7]李鈍,曹付元,曹元大,等. 基于短語(yǔ)模式的文本情感分類研究[J].計(jì)算機(jī)科學(xué),2008,35(4):132-134.

        LI Dun, CAO Fuyuan, CAO Yuanda, et al. Text Sentiment Classification Based on Phrase Patterns[J]. Computer Science, 2008,35(4):132-134

        [8]劉志明,劉魯. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012,48(1):1-4.

        LIU Zhiming, LIU Lu. Empirical study of sentiment classification for Chinese microblog based on machine learning[J]. Computer Engineering and Applications, 2012,48(1):1-4.

        [9]謝麗星,周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào), 2012,26(1):73-83.

        XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical structure based hybrid approach to sentiment analysis of Chinese mico blog and its feature extraction[J]. Journal of Chinese Information Processing, 2012,26(1):73-83.

        [10] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006(01):14-20.

        ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic Orientation Computing Based on HowNet[J]. Journal of Chinese Information Processing, 2006(01):14-20.

        [11] 藺璜,郭姝慧. 程度副詞的特點(diǎn)范圍與分類[J]. 山西大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2003(02):71-74.

        LIN Huang, GUO Shuhui. The feature scope and classification of adverb of degree[J]. Journal of Shanxi University: Philosophy & Social Science, 2003(02):71-74.

        [12] 王志濤,於志文,郭斌,等. 基于詞典和規(guī)則集的中文微博情感分析[J]. 計(jì)算機(jī)工程與應(yīng)用,2015,51(8):218-225.

        WANG Zhitao, YU Zhiwen, GUO Bin, et al. Sentiment analysis of Chinese micro blog based on lexicon and ruleset[J]. Computer Engineering and Applications, 2015,51(8): 218-225.

        [13] 王文,王樹鋒,李洪華. 基于文本語(yǔ)義和表情傾向的微博情感分析方法[J]. 南京理工大學(xué)學(xué)報(bào),2014(06):733-738,749.

        WANG Wen, WANG Shufeng, LI Honghua. Microblogging sentiment analysis method based on text semantics and expression tendentiousness[J]. Journal of NanJing University of Science and Technology. 2014(06):733-738,749.

        [14] LI Guangxia,HOI S C H,CHANG Kuiyu,et al. Micro-blogging sentiment detection by collaborative online learning[C]//Proceedings of the 2010 IEEE International Conference on Data Mining. Sydney,Australia: IEEE, 2010:893-898.

        DOI:10.3979/j.issn.1673-825X.2016.04.010

        收稿日期:2016-02-14

        修訂日期:2016-04-15通訊作者:趙天奇 zhaotianqi@bupt.edu.cn

        基金項(xiàng)目:國(guó)家自然科學(xué)基金(61471056);江蘇省科技計(jì)劃項(xiàng)目(BY2013095-3-1,BY2013095-3-03)

        Foundation Items:The National Natural Science Foundation of China (61471056);The Science and Technology Program of Jiangsu Province(BY2013095-3-1,BY2013095-3-03)

        中圖分類號(hào):TP391

        文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1673-825X(2016)04-0503-08

        作者簡(jiǎn)介:

        趙天奇(1992-),男,內(nèi)蒙古赤峰人,碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)技術(shù)、自然語(yǔ)言處理。E-mail:zhaotianqi@bupt.edu.cn。

        姚海鵬(1983-),男,河北張家口人,講師,碩士生導(dǎo)師,主要研究方向?yàn)槲磥?lái)網(wǎng)絡(luò)體系架構(gòu)、網(wǎng)絡(luò)大數(shù)據(jù)、新一代移動(dòng)通信體系架構(gòu)及關(guān)鍵技術(shù)、物聯(lián)網(wǎng)體系架構(gòu)等。

        方超(1985-),男,湖北武漢人,博士,主要研究方向?yàn)槲磥?lái)網(wǎng)絡(luò)體系架構(gòu)設(shè)計(jì)、內(nèi)容中心網(wǎng)絡(luò)緩存、能效、移動(dòng)性管理技術(shù),網(wǎng)絡(luò)大數(shù)據(jù)架構(gòu)設(shè)計(jì)及關(guān)鍵技術(shù)。

        張俊東(1992-),男,北京人,碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)技術(shù),自然語(yǔ)言處理等。

        張培穎(1981-),男,遼寧盤錦人,博士研究生,主要研究方向?yàn)榫W(wǎng)絡(luò)大數(shù)據(jù)架構(gòu)及關(guān)鍵技術(shù),信息中心網(wǎng)絡(luò)關(guān)鍵技術(shù)等。

        (編輯:劉勇)

        Microblogging sentiment analysis method with the combination of semantic rules and emoticon weighting

        ZHAO Tianqi, YAO Haipeng, FANG Chao, ZHANG Jundong, ZHANG Peiying

        (State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, P.R. China)

        Abstract:Current Chinese microblog sentiment analyses usually use emotional polarity classification result as evaluation standard. To improve the accuracy of the result, this paper considers the elements which may have influence on micro-blog sentiment as much as possible. On the basis of microblogging emotional words, emoticon information is additionally considered for weighted processing, improving the emotional polarity classification result of microblogs which contain emoticons. Then semantic rules, including several common sentence rules and sentence relationship rules, are covered to make a better result of sentimental analyses of complex statements. Meanwhile, we calculate the score of each blog, which is judged by qualification rate. Finally, through Hadoop platform, 10 000 sets of data were tested and verified the validity of the fusion algorithm.

        Keywords:microblog; sentiment analysis; semantic rules; emoticon

        91久久福利国产成人精品| 久久国产在线精品观看| 亚洲一区二区三区国产| 亚洲精品蜜夜内射| 亚洲av无码电影网| 久久亚洲av成人无码软件| 丝袜美腿一区二区在线观看| 国产一区二区不卡av| 亚洲一区二区免费在线观看视频| 国产精品186在线观看在线播放| 天天综合网在线观看视频| 日韩精品无码区免费专区| 就国产av一区二区三区天堂| 风流少妇一区二区三区91| 日韩人妻中文字幕高清在线| 爆乳熟妇一区二区三区霸乳| 高中生粉嫩无套第一次| 另类专区欧美在线亚洲免费| 成激情人妻视频| 亚洲天堂av在线免费播放| 亚洲精品久久国产精品| 亚洲国产精华液网站w| 欧美一欧美一区二三区性| 国产av无码专区亚洲aⅴ| 亚洲精品av一区二区日韩| 图片小说视频一区二区| 日本阿v网站在线观看中文| 国产成人77亚洲精品www| 精品专区一区二区三区| 国产亚洲av无码av男人的天堂| а天堂中文最新一区二区三区| 成人免费毛片内射美女-百度| 午夜无码无遮挡在线视频| 日韩av天堂综合网久久| 最新露脸自拍视频在线观看| 中文字幕日韩一区二区不卡| 国产伦精品一区二区三区视| 国产喷白浆精品一区二区| 国产av在线观看一区二区三区| 4399理论片午午伦夜理片| 69精品免费视频|