亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于STR的情感挖掘方法研究
——以航空公司質(zhì)量評價(jià)為例*

2017-02-24 12:05:50史偉

湖州師范學(xué)院學(xué)報(bào) 2017年1期

關(guān)鍵詞：分類文本情感

史偉

(湖州師范學(xué)院商學(xué)院，浙江湖州 313000)

基于STR的情感挖掘方法研究
——以航空公司質(zhì)量評價(jià)為例*

史偉

(湖州師范學(xué)院商學(xué)院，浙江湖州 313000)

情感挖掘現(xiàn)在常用來分析文本，以確定語料是正面的或是負(fù)面的。最近，情感挖掘已經(jīng)擴(kuò)展到用于解決更深入性的問題，諸如辨別主觀命題中的客觀成分，確定發(fā)表在微博、論壇和新聞中的文本數(shù)據(jù)集的來源和主題等。企業(yè)可以利用觀點(diǎn)的極性和情感主題的識別，以獲得對情感的驅(qū)動(dòng)者和影響范圍更深入的理解。這些信息可以幫助企業(yè)提高競爭智能，改進(jìn)客戶服務(wù)，獲得更好的品牌形象，并且增強(qiáng)競爭力。本文提出了一種新的情感挖掘方法，它可用于檢測文本的情感極性和情感主題。該方法包括一個(gè)情感主題的識別模型(STR)，這個(gè)模型是在帶有VEM算法的相關(guān)主題模型(CTM)的基礎(chǔ)上構(gòu)建的。然后基于微博上航空公司的數(shù)據(jù)，驗(yàn)證了本文方法的適用性和高效性。最后，基于本文方法輸出的結(jié)果，計(jì)算了三大航空公司的航空質(zhì)量等級，從而檢測了它們的聲譽(yù)。

情感挖掘；情感主題識別(STR)；商務(wù)智能；數(shù)據(jù)科學(xué)

社交媒體如微博等的出現(xiàn)正改變和塑造著企業(yè)新環(huán)境和新競爭格局。消費(fèi)者、非盈利組織和其它利益方能夠在互聯(lián)網(wǎng)上通過各種渠道表達(dá)對企業(yè)和它們品牌的意見和看法。人們運(yùn)用一些特殊的方法和算法來處理這些意見并從中提取有用的信息和模式。其中一種具體的方法就是情感挖掘。情感挖掘包括對文本字符串的分析，以確定語料庫是否包含負(fù)面或正面的觀點(diǎn)或情緒(例如快樂、沮喪、無聊、興奮或悲傷)。它同時(shí)也處理這些問題比如：從主觀命題中區(qū)分出客觀成分，確定一個(gè)文檔中不同觀點(diǎn)的來源，并總結(jié)作者在整個(gè)文本語料中的判斷和態(tài)度[1]。情感主題識別(STR)就是試圖為每一種情感找出最具代表性的主題。通過STR分析有可能會(huì)找到引起正面和負(fù)面情感的深層原因[2]。

情感挖掘，也被稱為情感分析或意見挖掘，已經(jīng)發(fā)展出一系列算法來識別在線文本的情感傾向(正或負(fù))，并確定文本是主觀的還是客觀的[3](P79-86)[4][5][6]。許多這類算法已經(jīng)被廣泛應(yīng)用到多領(lǐng)域的情感相關(guān)問題中。Pang et al.的研究關(guān)注電影評論的情感傾向的確定[3]。其它研究也有關(guān)注博客中情感表達(dá)的平均水平，其目標(biāo)是確定基于不同年齡和地域差異導(dǎo)致的幸福程度的總體趨勢[7]。然而，很少有研究關(guān)注情感主題識別(STR)[8][9][10][11]。

在本研究中，我們提出了一種情感極性檢測結(jié)合情感主題識別(STR)的新的情感挖掘方法。所提出的方法類似一個(gè)智能工具可用來回答情感的驅(qū)動(dòng)力和影響范圍等問題。本研究的主要貢獻(xiàn)如下：

第一，該方法包括一個(gè)情感主題的識別模型(STR)，這個(gè)模型是在帶有VEM算法的相關(guān)主題模型(CTM)的基礎(chǔ)上構(gòu)建的。第二，STR模型可通過計(jì)算航空質(zhì)量排名獲得相關(guān)信息，進(jìn)而對航空公司的聲譽(yù)進(jìn)行評估[12]?；谖⒉┥项櫩蛯鴥?nèi)三大航空公司(中國國際航空、中國南方航空、中國東方航空)的情感表達(dá)，我們提出了對航空質(zhì)量排名(AQR)評估的方法。本文提出的航空質(zhì)量排名(AQR)的計(jì)算主要基于微博中的主觀性文本，而不是通常的顧客調(diào)查。第三，開發(fā)了一個(gè)原型系統(tǒng)，主要通過微博中的案例研究進(jìn)行該方法的應(yīng)用。第五，開發(fā)了一種匹配觀點(diǎn)性微博與主題詞庫的算法。第四，我們對開發(fā)的原型系統(tǒng)進(jìn)行了評估。

本研究的具體安排如下：第二部分對情感挖掘中的STR做了文獻(xiàn)綜述。然后，我們在第三部分提出并討論了本文的方法。第四部分，我們報(bào)告了一個(gè)實(shí)驗(yàn)，并討論了其結(jié)果。本研究的評價(jià)階段放在了第五部分。最后，我們在第六部分總結(jié)了本研究，并探討了未來的研究方向。

一、文獻(xiàn)綜述

現(xiàn)有的關(guān)于情感分類技術(shù)的工作主要側(cè)重于對社交媒體和消費(fèi)者評價(jià)中的評論文本進(jìn)行分類，將文本分為積極的、消極的或中性的類別。最近的研究工作中還有一個(gè)重點(diǎn)就是區(qū)分主觀和客觀文本。李光敏等分別從主題識別、主客觀性分類、情感極性分類等方面介紹了情感類激素在國內(nèi)外的研究進(jìn)展，并列舉出情感分析在網(wǎng)絡(luò)輿情監(jiān)控方面的應(yīng)用和今后需深入研究的問題[5]。Pang and Lee提出的基于分類的切割方法，是結(jié)合了個(gè)人偏好和關(guān)系為基礎(chǔ)的分類方法。他們提出了一個(gè)文本分類過程，就是不論是主觀的還是客觀的先將文檔中的句子進(jìn)行標(biāo)注。然后，應(yīng)用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)分類器抽取結(jié)果。這個(gè)過程可以防止極性分類器考慮不相關(guān)的或潛在的誤導(dǎo)性文本。接著，采用樸素貝葉斯方法和支持向量機(jī)(SVM)方法對主觀數(shù)據(jù)集進(jìn)行訓(xùn)練，并作為基礎(chǔ)的主觀性檢測器。前者方法得到的分類結(jié)果更為準(zhǔn)確[4](P271)。Pak and Paroubek運(yùn)用多項(xiàng)式樸素貝葉斯分類器構(gòu)建了一種情感分類器，這種分類器是基于貝葉斯定理的。該分類器采用詞性(POS)分布估計(jì)在不同文本中詞性(POS)標(biāo)注的概率，并用它來計(jì)算后驗(yàn)概率。為了提高分類器的準(zhǔn)確性，他們?nèi)コ瞬粠в袕?qiáng)烈情感的或呈現(xiàn)中性的短語或句子[6](P436-439)。

王磊等提出了一個(gè)基于主題特征與三支決策理論相融合的多標(biāo)記情感分類方法，首先采用基于主題的情感識別模型判斷句子的多標(biāo)記情感類別，在此基礎(chǔ)上結(jié)合三支決策理論，最終實(shí)現(xiàn)對文本篇章的多標(biāo)記情感分類，取得不錯(cuò)的效果[13]。在最近的一項(xiàng)關(guān)于情感主題檢測的研究中，Lin et al.提出了一種基于隱含狄利克雷分配模型(LDA)的新的概率建?？蚣芊Q為共同情感主題模型(JST)，這個(gè)模型能從文本中檢測情感并同時(shí)確定主題。LDA模型是基于假設(shè)文檔是包含混合主題的，其中每個(gè)主題都是文字的概率分布。JST是一個(gè)弱監(jiān)督模型，它在文檔和主題層間增加了額外的一層。這使JST成為一個(gè)四層模型，其中情感標(biāo)注與文檔相關(guān)聯(lián)，主題又與情感標(biāo)注關(guān)聯(lián)，詞語同時(shí)與情感標(biāo)注和主題相聯(lián)系[9]。相似地，Cai et al.開發(fā)了一種包括情感和主題檢測方法的整體情感挖掘系統(tǒng)。他們的情感檢測采用基于統(tǒng)計(jì)的方法，而主題檢測則是基于逐點(diǎn)互信息和詞頻分布的方法[8]。Zhao et al.提出了一種分層的生成模型，稱為用戶情感主題模型(USTM)，用于獲取帶有情感信息的用戶主題。USTM提煉帶有不同情感趨勢的用戶主題包括積極的、消極的和中性的。USTM是一種無監(jiān)督的生成模型，在同時(shí)考慮主題和情感的情況下獲取用戶在主題層次的情感。通過USTM提取的每個(gè)主題都有一個(gè)情感標(biāo)簽。USTM旨在獲得情感提煉的主題用于用戶級情感分析的研究。作者通過一個(gè)中文數(shù)據(jù)集(IT類產(chǎn)品)和兩個(gè)英文數(shù)據(jù)集(電影評論和安然電子郵件)進(jìn)行了實(shí)驗(yàn)研究。他們發(fā)現(xiàn)當(dāng)通過USTM提取的情感和主題是信息豐富和清晰的，USTM的性能在構(gòu)建用戶興趣時(shí)就表現(xiàn)的更好[10]。

不同于以上這些工作，我們提出的方法不僅獲取用戶的情感，同時(shí)獲取隱含于這種情感的主題。通過這種方式，模型提取的每種情感都有一些隱含的主題，并提供了不同消費(fèi)者情感的總體情況和范圍。該方法的目的是解釋數(shù)據(jù)集中每種標(biāo)注情感的驅(qū)動(dòng)因素，并度量情感的整體寬度。先前關(guān)于情感分析的研究工作，首先從文檔或社交媒體中抽取主題相關(guān)的文本，然后使用分類方法以確定每個(gè)特定主題下的文本情感傾向。不同于這些研究工作，我們的模型基于每種情感中的相關(guān)主題，給出了情感傾向的根本原因。

二、方法

圖1描述了我們所提出方法的框架。下面的各小節(jié)將分別解釋這個(gè)框架中的不同步驟。

(一)數(shù)據(jù)準(zhǔn)備

微博是一個(gè)社交網(wǎng)站，其中心活動(dòng)就是通過網(wǎng)絡(luò)或移動(dòng)設(shè)備發(fā)布短信息。它主要用來分享信息和描述人們的日常生活，當(dāng)然也用于信息傳播。新浪微博是國內(nèi)最大的微博網(wǎng)站，我們選擇它作為收集數(shù)據(jù)的來源，并對我們的研究進(jìn)行分析。我們的數(shù)據(jù)主要是討論三家航空公司(中國國際航空、中國南方航空、中國東方航空)的微博評論文本。

收集相關(guān)微博文本后，我們就對這些數(shù)據(jù)進(jìn)行情感分析。數(shù)據(jù)準(zhǔn)備的過程按如下步驟進(jìn)行：1.從微博中收集討論一個(gè)特定主題(如東方航空)的相關(guān)網(wǎng)絡(luò)評論。2.刪除轉(zhuǎn)發(fā)條目、html鏈接和標(biāo)記。3.對每條給定的微博文本，去除標(biāo)點(diǎn)符號、數(shù)字、@符號、人名和不必要的空間。

(二)情感詞匯

知網(wǎng)2007版情感分析用詞匯集作為中文情感關(guān)鍵詞字典，該詞匯集提供了正面評價(jià)詞3730個(gè)，負(fù)面評價(jià)詞3116個(gè)，正面情感詞836個(gè)，負(fù)面情感詞1254個(gè)[14]。

此外，為了確保從我們模型的算法中獲得最大結(jié)果，我們應(yīng)用帶有VEM算法的相關(guān)主題模型(CTM)從微博中提取詞條，并將它們列入詞匯庫中。這里的詞條指的是針對每條航空質(zhì)量排名(AQR)標(biāo)準(zhǔn)(準(zhǔn)點(diǎn)率、拒絕登機(jī)、行李處理不當(dāng)和客戶投訴)的主題相關(guān)詞，它們是從微博中經(jīng)過過濾和去除停用詞獲取的。

(三)情感檢測

確定情感極性可通過將微博文本與一個(gè)預(yù)定義的主觀詞庫對比得到。已經(jīng)有許多算法被應(yīng)用到情感分類中。這些算法包括決策樹[15](P81-93)，K-近鄰[16]，神經(jīng)網(wǎng)絡(luò)[17](P317-332)和支持向量機(jī)(SVM)[18]。這些算法中，樸素貝葉斯方法是情感分類中比較流行的，因?yàn)槠溆?jì)算效率和相對良好的預(yù)測性能[19]。先前有關(guān)分類的文獻(xiàn)就是用的樸素貝葉斯方法[20][21](P503-510)。樸素貝葉斯方法是基于貝葉斯規(guī)則的一種簡單分類方法。這種方法通過讀取一組實(shí)例，然后使用貝葉斯定理，以評估所有資格的后驗(yàn)概率。對于每個(gè)實(shí)例，選擇最高的后驗(yàn)概率。樸素貝葉斯假設(shè)在給定類上的每個(gè)變量的特征值都是條件獨(dú)立的，這就大大降低了計(jì)算成本[22]。因此，我們采用樸素貝葉斯算法進(jìn)行我們的情感分析，這里應(yīng)用3.0.2版本的R軟件包[23]。之所以選擇該軟件，因?yàn)樗敲赓M(fèi)并開放源代碼的。它還提供了用于定量分析和可視化數(shù)據(jù)的全面軟件包。R還允許不同算法的集成，并提供了靈活的自定義代碼，以產(chǎn)生預(yù)期的結(jié)果。

(四)情感主題識別模型

與情感檢測結(jié)合使用的STR模型旨在揭示情感型主題中每種情感存在的根本原因。在我們的STR模型中，主題詞使用帶有VEM算法的相關(guān)主題模型(CTM)提取，并按照航空質(zhì)量排名(AQR)標(biāo)準(zhǔn)(準(zhǔn)點(diǎn)率、拒絕登機(jī)、行李處理不當(dāng)和客戶投訴)通過半監(jiān)督方法對主題詞進(jìn)行分類。CTM是隱含狄利克雷分配模型(LDA)的擴(kuò)展，允許主題間的相關(guān)性。在CTM中，主題的比例呈現(xiàn)正態(tài)分布。CTM采用另一種更靈活的主題比例分配方法，允許組件之間的協(xié)方差結(jié)構(gòu)。CTM提供了一個(gè)潛在主題結(jié)構(gòu)的更現(xiàn)實(shí)的模型，其中一個(gè)潛在主題的存在可能與另一個(gè)相關(guān)聯(lián)。CTM支持更多的主題，并提供了一種探索數(shù)據(jù)的自然方法。用于擬合模型的方法是VEM算法。我們的STR模型采用R包topicmodels，目前提供擬合帶有VEM算法的相關(guān)主題模型(CTM)的一個(gè)接口[11]。在topicmodels中，VEM算法代替了普通的EM算法，因?yàn)樵贓-step中的期望完全似然仍然很難處理[23]。Wainwright and Jordan對變分推理做了很好的介紹[24]。

情感主題匹配算法是基于微博將相關(guān)詞條匹配給一些特定的情感主題。這種算法主要的思想是找到那些與主題情感相關(guān)的詞條，其中主題情感是與主題情感詞匯相關(guān)的。

(五)航空質(zhì)量排名(AQR)

對航空質(zhì)量進(jìn)行排名這里采用較成熟的AQR方法。AQR是通過結(jié)合多個(gè)性能標(biāo)準(zhǔn)對航空質(zhì)量進(jìn)行評價(jià)的客觀方法。AQR評分計(jì)算公式：

(1)

其中OT表示準(zhǔn)點(diǎn)率，DB表示拒絕登機(jī)，MB表示行李處理不當(dāng)，CC表示客戶投訴(飛行問題，價(jià)格比較，預(yù)訂、票務(wù)和登機(jī)，票價(jià)退款，行李，客戶服務(wù)，殘疾，廣告，歧視，動(dòng)物，其它)，這些標(biāo)準(zhǔn)變量如表1所示。標(biāo)準(zhǔn)中的數(shù)據(jù)都是根據(jù)美國運(yùn)輸部提供的月度航空旅行消費(fèi)報(bào)告確定[12]，由于航空質(zhì)量標(biāo)準(zhǔn)的國際一致性，這些數(shù)據(jù)對于其它國家航空公司同樣具有參考價(jià)值。權(quán)重反映了消費(fèi)者決策中標(biāo)準(zhǔn)的重要程度，而+/-符號反映了標(biāo)準(zhǔn)對消費(fèi)者進(jìn)行航空質(zhì)量評級的影響方向。權(quán)重是根據(jù)65家航空公司的行業(yè)專家的意見判斷而建立的，將消費(fèi)者判斷航空質(zhì)量的重要性分為0-10不同等級[12]。AQR值越高表明航空公司聲譽(yù)越好。

表1 AQR的標(biāo)準(zhǔn)、權(quán)重和影響方向

三、案例研究與結(jié)果

我們的研究主要針對中國的航空公司展開，首先對新浪微博上關(guān)于三家航空公司(中國國際航空、中國南方航空、中國東方航空)的評論文本進(jìn)行情感分類：正面的、中立的或負(fù)面的。然后，我們運(yùn)用提出的STR模型生成各個(gè)航空公司的主題。接著各個(gè)主題按四種AQR標(biāo)準(zhǔn)(OT、DB、MB和CC)進(jìn)行分類。為了進(jìn)行實(shí)驗(yàn)，我們使用R軟件包開發(fā)了一個(gè)原型，這個(gè)原型支持第三部分所描述的方法。下文“情感檢測結(jié)果”一節(jié)，對所獲得的結(jié)果進(jìn)行了討論。本實(shí)驗(yàn)中所使用的微博文本主要包括中國國際航空2892條評論、中國南方航空3292條評論和中國東方航空897條評論。每條微博中都包含了一些關(guān)于這些航空公司的評論：正面的、負(fù)面的或中立的。根據(jù)上述據(jù)準(zhǔn)備過程對收集的微博文本進(jìn)行預(yù)處理。

(一)情感檢測結(jié)果

為了分析消費(fèi)者針對三家航空公司(中國國際航空、中國南方航空、中國東方航空)的情感，我們采用樸素貝葉斯算法。正如前面所提到的，該算法針對主觀性數(shù)據(jù)集表現(xiàn)的更為優(yōu)秀，本文中該算法準(zhǔn)確率達(dá)到了88.5%。圖2顯示了各航空公司的情感極性分類結(jié)果。

從圖2可以發(fā)現(xiàn)，對于中國國際航空正面的微博數(shù)要多于負(fù)面的微博，各自約為46.1%和37.2%，剩下的就為中立的。中國南方航空大約有45.3%為正面，36.9%為負(fù)面，其它的為中立(見圖3)。中國東方航空則大約有39.6%為正面，38.5%為負(fù)面，剩下的則為中立(見圖4)。

(二)情感主題識別結(jié)果

如上所述，本研究的STR模型采用帶有VEM算法的CTM模型。該模型從航空公司的微博中產(chǎn)生各種詞條，這些詞條被用來為每類AQR標(biāo)準(zhǔn)構(gòu)建詞匯庫?？偟膩碚f，本研究構(gòu)建了四類詞匯庫：準(zhǔn)點(diǎn)率類詞匯、拒絕登機(jī)類詞匯、行李處理不當(dāng)類詞匯和客戶投訴類詞匯。建立的模型產(chǎn)生了相較于其它STR模型更好的性能表現(xiàn)，因?yàn)槲覀兊哪Ｐ蛯⑶楦兄黝}間的依賴性和相關(guān)性作為一個(gè)重要的因素考慮進(jìn)了情感分析和STR中。STR模型幫助我們在每種AQR標(biāo)準(zhǔn)下正確地將微博數(shù)據(jù)中詞條相關(guān)主題進(jìn)行正負(fù)極的分類。

四、評價(jià)

從STR模型中導(dǎo)出的情感主題列表被用來計(jì)算三家航空公司(中國國際航空、中國南方航空、中國東方航空)的AQR值。表3顯示了每1000條微博得到的AQR計(jì)算結(jié)果。

如表2所示，我們的方法產(chǎn)生的模擬三家航空公司AQR的結(jié)果表明：中國國際航空居第一位，其次是中國南方航空，然后是中國東方航空。這一結(jié)果表明，我們基于情感相關(guān)主題的情感分析方法在了解每種情感產(chǎn)生的潛在原因上的有效性。這種方法的性能比目前AQR的方法[12]更便于對航空公司聲譽(yù)的確定。

表2 AQR顯示使用AQR評分標(biāo)準(zhǔn)得到的各航空公司計(jì)算結(jié)果

五、結(jié) 論

情感挖掘已經(jīng)從簡單的情感極性檢測發(fā)展到認(rèn)識這些情感的主題。我們提出的方法同時(shí)獲得了用戶情感和情感主題。以這種方式抽取出含有基本主題的每種情感，并提供了一種全面的不同用戶情感的知識和范圍。所提出的方法目的是回答數(shù)據(jù)集中每種情感驅(qū)動(dòng)的相關(guān)問題，并檢查情感的整體寬度。我們描述了如何運(yùn)用所提出的STR模型對三家主要的航空公司(中國國際航空、中國南方航空、中國東方航空)進(jìn)行AQR計(jì)算。

我們在有限數(shù)量的微博上測試了提出的方法，結(jié)果是比較理想的。同時(shí)我們也正在不斷地收集三家航空公司的微博，并在不久的將來在更大的數(shù)據(jù)集中重新測試提出的方法。我們也將方法應(yīng)用到其它領(lǐng)域，以評估所提出的方法。應(yīng)該注意的是雖然基于情感詞匯的方法能檢測出基本的情感，但是這種方法有時(shí)在檢測比喻性表達(dá)(如諷刺或挑釁)時(shí)是不足的。未來的研究應(yīng)該試圖提出解決這些不足的方法。

[1]PANG B, LEE L. Opinion mining and sentiment analysis [J]. Foundations and trends in information retrieval, 2008(1-2):1-135.

[2]MOSTAFA M M. More than words: Social networks’ text mining for consumer brand sentiments [J]. Expert Systems with Applications, 2013(10):4241-4251.

[3]PANG B, LEE L, VAITHYANATHAN S. Thumbs up? : sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics,2002.

[4]PANG B, LEE L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]// Proceedings of the 42nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004.

[5]李光敏，張行文，張磊,等. 面向網(wǎng)絡(luò)輿情的評論文本情感分析研究[J].情報(bào)雜志，2014(5)：157-160.

[6]PAK A, PAROUBEK P. Twitter based system: Using Twitter for disambiguating sentiment ambiguous adjectives[C]// Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics, 2010.

[7]DODDS P S, DANFORTH C M. Measuring the happiness of large-scale written expression: Songs, blogs, and Presidents [J]. Journal of Happiness Studies, 2010(4):441-456.

[8]CAI K, SPANGLER S, CHEN Y, ZHANG L. Leveraging sentiment analysis for topic detection [J]. Web Intelligence and Agent Systems, 2010(3): 291-302.

[9]LIN C, HE Y, EVERSON R, RUGER S. Weakly supervised joint sentiment-topic detection from text [J]. IEEE Transactions on Knowledge and Data Engineering, 2012(6):1134-1145.

[10]陳永恒，左萬利，林耀進(jìn). 基于主題種子詞的情感分析方法[J].計(jì)算機(jī)應(yīng)用，2015(9)：2560-2564.Zhao, T., Li, C., Ding, Q., & Li, L. User-sentiment topic model: refining user's topics with sentiment information[C]// Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics. ACM, 2012:10.

[11]BLEI D, LAFFERTY J. Correlated topic models [J]. Advances in neural information processing systems, 2006(18): 147.

[12]BOWEN B D, HEADLEY D E [EB/OL]. Airline Quality Rating 2012. (2016, April ) [2013]. http://www.airlinequalityrating.com/reports/2012aqr.pdf.

[13]王磊,黃河笑,吳兵，等.基于主題與三支決策的文本情感分析[J].計(jì)算機(jī)科學(xué)，2015(6)：93-96.

[14]How Net [R/OL]. How Net' s Home Page.. http ://www.keenage.com.

[15] LEWIS D D, RINGUETTE M. A comparison of two learning algorithms for text categorization [C]// Third annual symposium on document analysis and information retrieval,1994.

[16]TAN S. Neighbor-weighted k-nearest neighbor for unbalanced text corpus [J]. Expert Systems with Applications, 2005(4): 667-671.

[17]WIENER E, PEDERSEN J O, WEIGEND A S. A neural network approach to topic spotting [C]// Proceedings of SDAIR-95, 4th annual symposium on document analysis and information retrieval, 1995.

[18]JOACHIMS T.Determining the sentiment of opinions [J].Making large scale SVM learning practical, 1999.

[19]CHEN J, HUANG H, TIAN S, QU Y. Feature selection for text classification with Na?倞ve Bayes[J]. Expert Systems with Applications, 2009(3): 5432-5435.

[20] ZHANG M L,PEA J M, ROBLES V. Feature selection for multi-label naive Bayes classification[J]. Information Sciences, 2009(19):3218-3229.

[21]FRANK E,BOUCKAERT R R. Naive bayes for text classification with unbalanced classes[C]// Knowledge Discovery in Databases: PKDD 2006. Springer Berlin Heidelberg, 2006.

[22]MITCHELL T M. Machine learning and data mining [J]. Communications of the ACM, 1999(11): 30-36.

[23]HORNIK K, GRüN B. Topic models: An R package for fitting topic models[J]. Journal of Statistical Software, 2011(13):1-30.

[24]WAINWRIGHT M J, JORDAN M I. Graphical models, exponential families, and variational inference [J]. Foundations and Trends in Machine Learning, 2008(1-2): 1-305.

[責(zé)任編輯鐵曉娜]

An Approach to Sentiment Mining Based on STR

SHI Wei

(School of Business , Huzhou University , Huzhou 313000,China)

Sentiment mining has been commonly associated with the analysis of a text string to determine whether a corpus is of a negative or positive opinion. Recently, sentiment mining has been extended to address problems such as distinguishing objective from subjective propositions, and determining the sources and topics of different opinions expressed in textual data sets such as web blogs, tweets, message board reviews, and news. Companies can leverage opinion polarity and sentiment topic recognition to gain a deeper understanding of the drivers and the overall scope of sentiments. These insights can advance competitive intelligence, improve customer service, attain better brand image, and enhance competitiveness. This research paper proposes a sentiment mining approach which detects sentiment polarity and sentiment topic from text. The approach includes a sentiment topic recognition model that is based on Correlated Topics Models (CTM) with Variational Expectation-Maximization (VEM) algorithm. We validate the effectiveness and efficiency of this model using airline data from Twitter. We also examine the reputation of three major airlines by computing their Airline Quality Rating (AQR) based on the output from our approach.

sentiment mining; Sentiment Topic Recognition(STR); business intelligence; data science

2016-10-28

浙江省社科規(guī)劃課題成果“基于微博的大數(shù)據(jù)挖掘：情感分析的視角”(項(xiàng)目編號：16NDJC079YB)；浙江省自然科學(xué)基金資助項(xiàng)目“大數(shù)據(jù)背景下基于情感本體的中文微博挖掘：情感分析的視角 ”(項(xiàng)目編號： LY15G030023 )；國家自然科學(xué)基金資助項(xiàng)目“在線消費(fèi)者評論對商家銷售業(yè)績的影響: 情感分析的視角”(項(xiàng)目編號：71371144)

史偉，博士，副教授，從事商務(wù)智能與情感計(jì)算研究。

F562.6

1009-1734(2017)01-0051-08

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于STR的情感挖掘方法研究——以航空公司質(zhì)量評價(jià)為例*

一、文獻(xiàn)綜述

二、方 法

三、案例研究與結(jié)果

四、評 價(jià)

五、結(jié) 論

基于STR的情感挖掘方法研究
——以航空公司質(zhì)量評價(jià)為例*

一、文獻(xiàn)綜述

二、方法

四、評價(jià)

五、結(jié) 論