亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        商家評(píng)論的情感分類(lèi)研究和應(yīng)用

        2011-03-11 09:02:42袁立宇鞠久朋楊豪杰宋平波
        電信科學(xué) 2011年6期
        關(guān)鍵詞:文檔權(quán)重分類(lèi)

        袁立宇,鞠久朋,楊豪杰,宋平波

        (1.中國(guó)電信股份有限公司廣東研究院 廣州 510630;2.海量信息技術(shù)有限公司 北京 100190)

        商家評(píng)論的情感分類(lèi)研究和應(yīng)用

        袁立宇1,鞠久朋2,楊豪杰1,宋平波1

        (1.中國(guó)電信股份有限公司廣東研究院 廣州 510630;2.海量信息技術(shù)有限公司 北京 100190)

        大多數(shù)基于有指導(dǎo)機(jī)器學(xué)習(xí)方法的情感分類(lèi)采用N元(n-gram)詞袋(bag-of-words)模型,使用二值(binary)作為特征項(xiàng)的權(quán)重。本文系統(tǒng)地分析了信息檢索中常用的特征權(quán)重計(jì)算方法,并從項(xiàng)頻、倒文檔率、歸一化因子等角度加以借鑒和改進(jìn),研究其在商家評(píng)論上的應(yīng)用。最主要的改進(jìn)在于考慮了特征項(xiàng)在不同類(lèi)別中分布情況的差異以及對(duì)倒文檔率的平滑。在餐飲評(píng)論語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,經(jīng)典的tf·idf若干變形,尤其是倒文檔率類(lèi)差異(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分類(lèi)準(zhǔn)確率。在酒店、電腦、書(shū)籍等領(lǐng)域的在線評(píng)論公開(kāi)數(shù)據(jù)集上也取得了較好的性能,證明了方法的普遍適用性。這一方法目前已經(jīng)在中國(guó)電信“號(hào)碼百事通”業(yè)務(wù)中用于餐飲商家及優(yōu)惠券推薦,效果良好。

        商家評(píng)論;消費(fèi)偏好;情感分析;褒貶分類(lèi);特征權(quán)重

        1 引言

        移動(dòng)互聯(lián)網(wǎng)的普及助推了Web 2.0技術(shù)的發(fā)展,用戶(hù)由當(dāng)初PC時(shí)代簡(jiǎn)單接收互聯(lián)網(wǎng)上的信息,向主動(dòng)發(fā)布交互信息轉(zhuǎn)變。產(chǎn)生的評(píng)論數(shù)據(jù)正以指數(shù)級(jí)的速度在增長(zhǎng),這些評(píng)論包括對(duì)商家品牌、服務(wù)和產(chǎn)品的評(píng)論。如果對(duì)這些用戶(hù)主動(dòng)發(fā)布的評(píng)論進(jìn)行數(shù)據(jù)挖掘,判別情感傾向,就能更好地了解用戶(hù)的消費(fèi)習(xí)慣、分析熱點(diǎn)輿情,給商家提供重要的決策依據(jù)。因此,情感分析(sentiment analysis)已經(jīng)成為自然語(yǔ)言處理研究中的熱點(diǎn)。情感分析又稱(chēng)意見(jiàn)挖掘(opinion mining),是指通過(guò)計(jì)算機(jī)手段,幫助用戶(hù)快速獲取、整理和分析相關(guān)評(píng)價(jià)信息。

        目前,按照處理文本粒度的不同,情感分析可以分為詞語(yǔ)級(jí)、短語(yǔ)級(jí)、句子級(jí)、篇章級(jí)以及多篇章級(jí)等幾個(gè)研究層次。按照處理文本的類(lèi)別不同,可分為基于產(chǎn)品評(píng)論的情感分析和基于新聞評(píng)論的情感分析。按照研究任務(wù)的不同,可以分為3項(xiàng)層次遞進(jìn)的研究任務(wù),即情感信息抽取、情感信息分類(lèi)以及情感信息檢索與歸納。本文主要研究情感信息分類(lèi)中情感表達(dá)的褒貶二元分類(lèi)問(wèn)題。

        基于特征的機(jī)器學(xué)習(xí)是情感分類(lèi)的主要方法。在基于有指導(dǎo)機(jī)器學(xué)習(xí)方法的情感分類(lèi)研究中,特征項(xiàng)的權(quán)重設(shè)置大部分采用二值法。本文借鑒了信息檢索中tf·idf的權(quán)重計(jì)算方法,分析其若干變形,系統(tǒng)地研究了特征權(quán)重對(duì)篇章級(jí)情感分類(lèi)的作用,在餐飲類(lèi)評(píng)論語(yǔ)料上取得了良好的性能,并在多個(gè)領(lǐng)域的公開(kāi)數(shù)據(jù)集上實(shí)驗(yàn)證明其普遍適用性。

        2 相關(guān)工作

        一般而言,研究者將主觀本文的情感極性分為褒義和貶義兩類(lèi)。學(xué)術(shù)上一般認(rèn)為,對(duì)情感分類(lèi)比較系統(tǒng)的研究工作始于Turney[1]基于無(wú)指導(dǎo)學(xué)習(xí)(un-supervised learning)對(duì)多個(gè)領(lǐng)域評(píng)論情感傾向性分類(lèi)以及Pang等[2]基于有指導(dǎo)學(xué)習(xí)(supervised learning)對(duì)電影評(píng)論進(jìn)行情感傾向性分類(lèi)??v觀目前的研究工作,可分為兩種研究思路:基于情感知識(shí)的方法以及基于特征分類(lèi)的方法。

        一部分學(xué)者通過(guò)考察文本內(nèi)部情感知識(shí)的屬性來(lái)完成情感分類(lèi)。Turney利用點(diǎn)對(duì)互信息(PMI),通過(guò)計(jì)算文本中抽取的關(guān)鍵詞和種子詞的語(yǔ)義相似度來(lái)判斷關(guān)鍵詞的情感極性,從而預(yù)測(cè)整個(gè)句子(篇章)的情感傾向性。也有學(xué)者構(gòu)建情感模板判別情感文本的情感傾向。上述基于情感知識(shí)的情感分類(lèi)方法的工作重心在于情感文本中情感知識(shí)的挖掘以及各種情感知識(shí)融合的方法研究。

        還有一部分學(xué)者將情感分類(lèi)定義為一種二元分類(lèi)任務(wù),即對(duì)任意給定的情感文本單元,由分類(lèi)器協(xié)助判斷其情感極性。Pang等使用樸素貝葉斯、最大熵、SVM等算法,考慮了unigram、bigram的二值及項(xiàng)頻等特征權(quán)重,對(duì)影評(píng)進(jìn)行分類(lèi),其結(jié)果顯示基于SVM算法的unigram二值權(quán)重取得了比較好的效果?;谔卣鞣诸?lèi)的方法目前還是情感分類(lèi)的主流方法。這種方法定義明確,其根本問(wèn)題在于特征的選取。因此嘗試使用更深層、更復(fù)雜的分類(lèi)特征也許是這類(lèi)方法的突破方向之所在。

        其后的基于機(jī)器學(xué)習(xí)的特征分類(lèi)方法的研究大多是基于此,算法的改進(jìn)主要在對(duì)文本的預(yù)處理和特征的選擇。一個(gè)重要的預(yù)處理是檢測(cè)出主觀性評(píng)論 (句子),Hatzivassiloglou等[3]表明主觀性檢測(cè)往往比情感傾向性分析更為困難。Pang等后續(xù)的研究也表明,對(duì)刪除客觀性句子后的評(píng)論作情感分類(lèi)的精確率比對(duì)整個(gè)文本作分類(lèi)高。Li等[4]提出了情感極性轉(zhuǎn)移結(jié)構(gòu)(polarity shifting structure)用于發(fā)現(xiàn)情感轉(zhuǎn)移特征(如否定、對(duì)比、轉(zhuǎn)折等),從一定程度上提高了分類(lèi)性能。

        目前,基于特征的方法的研究重點(diǎn)在于有效特征的發(fā)現(xiàn)、特征選擇以及特征權(quán)重等問(wèn)題的研究。其中特征權(quán)重的研究是重要突破點(diǎn)之一,本文的研究就是基于此,從信息檢索理論中借鑒和改進(jìn)特征權(quán)重的計(jì)算方法,并將其成功應(yīng)用于情感分類(lèi)。

        3 特征權(quán)重研究

        文檔D用詞袋(bag of words)的特征向量表示法,可記為D={w1,w2,…,wr}。其中r為詞典的維度(特征項(xiàng)項(xiàng)數(shù)),wi,i=1,2,…,r為項(xiàng) i(一個(gè) n-gram單元)在文檔D中的權(quán)重。Pang等實(shí)驗(yàn)表明,采用unigram的二值的權(quán)重(當(dāng)tfi>0時(shí),wi=1;當(dāng)tfi=0時(shí),wi=0。其中tfi為特征項(xiàng)出現(xiàn)的頻率),用SVM分類(lèi)器,取得了最好的性能。與文本分類(lèi)相比,一個(gè)有趣的現(xiàn)象是,簡(jiǎn)單地使用tfi的權(quán)重往往會(huì)導(dǎo)致性能的降低。

        這一部分將說(shuō)明經(jīng)典的tf·idf權(quán)重計(jì)算方法,并在此基礎(chǔ)上擴(kuò)展其若干變形,包括類(lèi)差異idf、SMART和BM25算法,并介紹其在情感分類(lèi)領(lǐng)域的應(yīng)用。這一部分,包括實(shí)驗(yàn)部分都是采用unigram模型,但是,特征權(quán)重計(jì)算方法的概念可以很容易地?cái)U(kuò)展到n-gram模型,本文將不作特別說(shuō)明。

        3.1 經(jīng)典的 tf·idf權(quán)重

        在信息檢索中,經(jīng)典的tf·idf計(jì)算方法賦予文檔D中項(xiàng)i的權(quán)重為:

        其中,tfi為特征項(xiàng)在文檔中出現(xiàn)的頻率,idfi為倒文檔率(inverse document frequency,IDF),N為訓(xùn)練集合中總的文檔數(shù),dfi為含有項(xiàng)i的文檔數(shù)。

        在分類(lèi)問(wèn)題中使用項(xiàng)頻是很直觀的,因?yàn)轫?xiàng)在文檔中出現(xiàn)的頻率越高,該文檔屬于某一類(lèi)的概率就越大。但正如先前討論,在情感分類(lèi)領(lǐng)域往往會(huì)帶來(lái)性能的下降。另一方面,在信息檢索中,使用倒文檔率的作用是降低類(lèi)無(wú)關(guān)項(xiàng)的權(quán)重(如停用詞),提高只在少量文檔中出現(xiàn)項(xiàng)的權(quán)重。但是,倒文檔率僅提供了項(xiàng)在所有文檔中的分布情況,而沒(méi)有考慮項(xiàng)在類(lèi)與類(lèi)之間分布的差異性。

        3.2 類(lèi)差異 tf·idf

        鑒于以上對(duì)idf的討論,類(lèi)差異idf主要衡量特征項(xiàng)在某一類(lèi)與在其他類(lèi)分布情況的差異。因此,項(xiàng)i在文檔D中的權(quán)重為兩者之差,即:

        其中Nj為訓(xùn)練集合中屬于類(lèi)別cj的文本數(shù)目,dfi,j為類(lèi)cj中包含項(xiàng)i的文檔數(shù)。

        但是,這種計(jì)算方法也存在著缺陷,它沒(méi)有提供任何對(duì)dfi,j的平滑因子。因此,當(dāng)特征項(xiàng)僅在某一類(lèi)或都在其他類(lèi)出現(xiàn)時(shí),dfi,j=0,會(huì)帶來(lái)災(zāi)難性的錯(cuò)誤(如被零除或求零的對(duì)數(shù))。

        3.3 SMART 和 BM25 的 tf·idf變形

        SMART[5,6]是一個(gè)基于特征向量空間模型(vector space model,VSM)的信息檢索系統(tǒng),它提出了若干tf·idf的變形。主要從項(xiàng)頻、倒文檔率、歸一化因子等3個(gè)角度考慮,分別見(jiàn)表1、2、3的前幾行。

        其中,maxt(tf)是該文檔中所有項(xiàng)出現(xiàn)頻數(shù)的最大值;avg_dl是所有文檔中,文檔項(xiàng)個(gè)數(shù)的平均(平均有效特征維度)。最后一行是BM25算法,參數(shù)k1和b均被置為默認(rèn)的 1.2 和 0.95。注意到,在 L(對(duì)數(shù)平均)以及 o(BM25)的項(xiàng)頻計(jì)算方法中,新引入了平均文本長(zhǎng)度avg_dl這一因素,這是因?yàn)殚L(zhǎng)文本通常有更大的項(xiàng)頻,從一定意義上對(duì)項(xiàng)頻作了歸一化處理,使得統(tǒng)計(jì)更為合理。

        表1 項(xiàng)頻tf的若干計(jì)算方法

        表2的前3行是常見(jiàn)的形式,第4行是BM25的形式,其余行是考慮了類(lèi)差異(△)和平滑因子(’)的變形,具體細(xì)節(jié)在后面介紹。

        表2 倒文檔率idf的若干計(jì)算方法

        表3 歸一化因子

        這里,歸一化因子取余弦距離(cosine distance)。

        SMART系統(tǒng)特征權(quán)重計(jì)算方法的每個(gè)形式都由3個(gè)字母表示,第一個(gè)表示tf的若干變形,第二個(gè)表示idf的若干變形,第三個(gè)是歸一化因子。這樣,權(quán)重就有6×9×2=108種不同的計(jì)算組合。如bnn表示二值的特征權(quán)重(boolean tf No idf No normalization,bnn),原始的項(xiàng)頻的權(quán)重可記為nnn,帶有歸一化因子的項(xiàng)頻權(quán)重記為nnc,BM25的權(quán)重就記為okn。

        3.4 SMART和BM25的類(lèi)差異變形

        這里,沿用參考文獻(xiàn)[7]對(duì)SMART和BM25的倒文檔率所作的類(lèi)差異擴(kuò)展,用希臘字母“△”表示類(lèi)差異的計(jì)算方法,用重音符號(hào)“’”標(biāo)記平滑后的權(quán)重,見(jiàn)表2最后幾行。

        例如,o△(k)n表示的權(quán)重為使用BM25的tf以及類(lèi)差異 BM25 的 idf方法,式(3)為:

        由于BM25算法本身已經(jīng)帶有平滑因子,△(k)默認(rèn)就是平滑的,因此沒(méi)有平滑變形。筆者對(duì)上述公式根據(jù)參考文獻(xiàn)[8]作了部分修正,如表2最后一行。主要出于以下兩點(diǎn)考慮:首先,當(dāng)dfi大于1時(shí),在改進(jìn)的版本中,平滑因子對(duì)最終idf值的影響會(huì)比較小,因?yàn)樗觗fi與Ni在乘積之后;其次,當(dāng)dfi=0時(shí),平滑因子正確地作了小部分修正,避免了潛在的被零除的風(fēng)險(xiǎn)。

        4 實(shí)驗(yàn)結(jié)果與分析

        筆者在中國(guó)電信“號(hào)碼百事通”業(yè)務(wù)中的餐飲類(lèi)中文評(píng)論數(shù)據(jù)上做了實(shí)驗(yàn),并在多個(gè)領(lǐng)域的公開(kāi)數(shù)據(jù)集上作了驗(yàn)證。前者主要是驗(yàn)證其可行性,后者側(cè)重于說(shuō)明方法的普遍適用性。

        4.1 實(shí)驗(yàn)設(shè)置

        采集到的餐飲類(lèi)評(píng)論共計(jì)1萬(wàn)條,來(lái)源于點(diǎn)評(píng)網(wǎng)(www.dianping.com)與口碑網(wǎng)(www.koubei.com)。經(jīng)過(guò)標(biāo)注人員手工標(biāo)注后分成兩類(lèi),其中含有正例6718條、負(fù)例3282條。為了使正、負(fù)例數(shù)據(jù)樣本均衡,一次性隨機(jī)抽樣兩類(lèi)各3000條作為實(shí)驗(yàn)數(shù)據(jù)。另3個(gè)領(lǐng)域的評(píng)論數(shù)據(jù)包含從攜程網(wǎng)(www.ctrip.com)抓取的酒店評(píng)論、從京東網(wǎng)上商城(www.360buy.com)抓取的電腦(筆記本)評(píng)論以及從當(dāng)當(dāng)網(wǎng)(www.dangdang.com)抓取的書(shū)籍評(píng)論[9]。這3類(lèi)語(yǔ)料都是經(jīng)過(guò)去重后的平衡語(yǔ)料,每類(lèi)語(yǔ)料均含有正、負(fù)例各2000條。語(yǔ)料的一些信息見(jiàn)表4。

        表4 多領(lǐng)域語(yǔ)料信息統(tǒng)計(jì)

        對(duì)中文的分詞,使用海量分詞系統(tǒng)。選用支持向量機(jī)的SVMlight[10]實(shí)現(xiàn)作為分類(lèi)器,所有參數(shù)均為默認(rèn)。為了易于對(duì)比起見(jiàn),不作復(fù)雜的文本預(yù)處理,如常見(jiàn)的繁簡(jiǎn)轉(zhuǎn)換、去除英文單詞、保留指定詞性列表中的詞性、去除停用詞等,僅去除了符號(hào)字符,對(duì)分詞后的結(jié)果抽unigram特征。

        由于tf、idf的變形較多,不同的組合有108種,限于篇幅,只對(duì)具有代表性的組合做了實(shí)驗(yàn),并展示了性能較好的若干組合結(jié)果。一般而言,對(duì)于沒(méi)有平滑的類(lèi)差異idf,采用了歸一化因子,因?yàn)樗鼈兺ǔ1葲](méi)有歸一化的表現(xiàn)要好;對(duì)于平滑的,不對(duì)其作歸一化處理,因?yàn)橹饕P(guān)注平滑的性能。經(jīng)過(guò)這樣的篩選,每類(lèi)數(shù)據(jù)設(shè)計(jì)了13組有代表性的、相同參數(shù)的實(shí)驗(yàn),見(jiàn)表4第一列。

        為了從訓(xùn)練集中獲得較為精確的idf信息,所有實(shí)驗(yàn)都是基于leave-one-out的交叉驗(yàn)證,而不是常用的n-fold(特別地 n≠N1+N2,其中 N1、N2分別為正、負(fù)例的樣本數(shù))。主要是因?yàn)閕df及類(lèi)差異idf是項(xiàng)固有的屬性(經(jīng)驗(yàn)值),且只能從訓(xùn)練語(yǔ)料中獲得(無(wú)法在測(cè)試集中獲得),訓(xùn)練語(yǔ)料數(shù)量越多,統(tǒng)計(jì)結(jié)果就越精確。這里,測(cè)試集合上項(xiàng)的idf被假定為與訓(xùn)練集合中的分布情況一致。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        根據(jù)上述實(shí)驗(yàn)設(shè)置,在餐飲、酒店、電腦以及書(shū)籍等4個(gè)領(lǐng)域的數(shù)據(jù)上做了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表5。第一列是權(quán)重計(jì)算參數(shù)的選擇,其余列為不同的數(shù)據(jù)集。

        為了更直觀地展示實(shí)驗(yàn)結(jié)果,表4對(duì)應(yīng)的柱狀圖如圖1所示。

        表5 評(píng)論情感分類(lèi)準(zhǔn)確率(%)

        圖1 4類(lèi)數(shù)據(jù)實(shí)驗(yàn)結(jié)果柱狀圖

        以下將就各個(gè)類(lèi)別上的實(shí)驗(yàn)結(jié)果加以分析。

        在餐飲類(lèi)數(shù)據(jù)上,實(shí)驗(yàn)結(jié)果再次表明二值的特征權(quán)重(bnc)比直接的項(xiàng)頻(nnc)(82.71%)性能要好。在簡(jiǎn)單的 tf設(shè)置(nn)中,歸一化因子(c)的作用微乎其微(nnn 82.69%vs.nnc 82.71%)。tf的若干變換(o、a)也沒(méi)有能明顯的效果改善,甚至導(dǎo)致性能的下降。更為有趣的是,在信息檢索中表現(xiàn)良好的BM25算法,在這里的性能卻一般。idf的若干全局變形(t、k)在餐飲類(lèi)上也沒(méi)有新的貢獻(xiàn)??紤]了類(lèi)差異idf及平滑因子的若干變形(除了△(k))都對(duì)性能帶來(lái)了較大幅度的提升,最高可達(dá)到5.5%(93.99%~88.49%),且提升的性能相當(dāng)。對(duì)比數(shù)據(jù)可以看到,平滑因子起到了積極的作用(n△(t)c 92.78%vs.n△(t’)c 92.98%,以及 n△(t)n 93.57%vs.n△(t’)n 93.99%)。除此以外,作了歸一化處理的性能反而比沒(méi)有作歸一化處理的性能差,這種復(fù)雜的計(jì)算并沒(méi)有帶來(lái)應(yīng)有的效果。在性能較好的各種類(lèi)差異 idf及平滑變形中,tf的 n、a、b,idf的 t、p 及平滑因子的引入,都對(duì)性能提升起到了重要的作用。

        在酒店的評(píng)論中,各種組合的分布情況與餐飲類(lèi)的數(shù)據(jù)大致相同。這里,tf的性能比二值的性能要好,且差距較大。也就是說(shuō),并不能直截了當(dāng)?shù)亟o出結(jié)論,究竟是二值的好、抑或是tf的好,在不同的數(shù)據(jù)集或不同的領(lǐng)域中,它們存在著差異性。但是不管怎樣,從實(shí)驗(yàn)結(jié)果來(lái)看,類(lèi)差異的idf變形以及對(duì)它們的平滑,使最終性能同樣有了大幅度提升(從86.70%提升到90%左右)。

        電腦(筆記本)領(lǐng)域的實(shí)驗(yàn)結(jié)果中,當(dāng)選擇 BM25的形式(okc)時(shí),性能有較大程度的降低,其余權(quán)重計(jì)算方法基本保持相當(dāng)?shù)男阅堋3齩kc外,未考慮類(lèi)差異idf與考慮類(lèi)差異idf的性能百分點(diǎn)的方差分別為1.3167和0.9295,相對(duì)較小。

        在書(shū)籍領(lǐng)域上測(cè)試的性能,雖然沒(méi)有特別離群的結(jié)果,但是波動(dòng)比較大,兩組的方差分別為1.9462和3.8998。但是可以看到,在書(shū)籍領(lǐng)域的平均準(zhǔn)確率比較高,最高的準(zhǔn)確率達(dá)到了96.45%。在眾多idf類(lèi)差異的變形中,△(t)和△(k)與其他變形的性能差異尤為明顯。

        總體而言,類(lèi)差異idf的引入,在各領(lǐng)域的數(shù)據(jù)上都顯示了其對(duì)性能提升的重要性,且通常情況下,平滑因子對(duì)性能也能起到積極的作用。歸一化因子的作用并不是很明顯,考慮到其計(jì)算代價(jià),在以后的實(shí)踐中,歸一化因子可暫不納入考慮的范疇。就類(lèi)差異idf的若干變形而言,△(t’)的變形表現(xiàn)出普遍適用的效果,BM25的變形所起到的作用,卻不及其在信息檢索中的作用大。

        5 結(jié)束語(yǔ)

        本文系統(tǒng)地研究了從信息檢索領(lǐng)域繼承和擴(kuò)展來(lái)的特征權(quán)重的計(jì)算策略在商家評(píng)論情感分析上的應(yīng)用。在多個(gè)領(lǐng)域的評(píng)論數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明了該方法的有效性與普遍適用性。

        本文的方法已經(jīng)在中國(guó)電信“號(hào)碼百事通”業(yè)務(wù)中微博客上的餐飲商家及優(yōu)惠券推薦上實(shí)際得到了應(yīng)用。這一推薦業(yè)務(wù)的框架包括根據(jù)用戶(hù)所發(fā)表的博文生成用戶(hù)興趣概要(profile)的模塊,用戶(hù)興趣概要與待推薦商品、服務(wù)的類(lèi)別匹配以及待推薦商品服務(wù)的篩選等模塊。其中,前兩個(gè)模塊使用了海量公司的基于知識(shí)樹(shù)的關(guān)鍵詞提取以及文本分類(lèi),待推薦商品服務(wù)的篩選應(yīng)用了本文的情感分析方法。實(shí)際應(yīng)用效果良好。

        進(jìn)一步研究在于,將提出的權(quán)重調(diào)整方法用于自然語(yǔ)言處理的其他領(lǐng)域,如文本分類(lèi)、話題發(fā)現(xiàn)等,并將其從二分問(wèn)題擴(kuò)充到多分問(wèn)題中。

        1 Peter Turney.Thumbs up or thumbs down Semantic orientation applied to unsupervised classification of reviews.In:Proc of the 40th Annual Meeting ofthe Association for Computational Linguistics(ACL),2002

        2 Pang Bo,Lee Lilian,Vaithyanathan S.Thumbs up Sentiment classification using machine learning techniques.In:Conferenee on Empirieal Methods in Natural Language Processing,Morristown,NJ,USA,2002

        3 Vasileios Hatzivassiloglou,Janyce Wiebe.Effects of adjective orientation and gradability on sentence subjectivity.In:the International Conference on Computational Linguistics(COLING),2000

        4 Li Shoushan,SophiaY M,YingChen,et al.Sentiment classification and polarity shifting.In: the International Conference on Computational Linguistics(COLING),2010

        5 Salton G.The SMART retrieval system-experiments in automatic document.In:Processing of Prentice-Hall,Inc,Upper Saddle River,NJ,USA,1971

        6 Gerard Salton,Chris Buckley.Term weightingapproaches in automatic text retrieval.Technical report,Ithaca,NY,USA,1987

        7 Justin Martineau,Tim Finin.Delta TFIDF:an improved feature space for sentiment analysis.In:Proceedings of the Third AAAI International Conference on Weblogs and Social Media,San Jose,CA,2009

        8 Georgios Paltoglou,Mike Thelwall.A study of information retrieval weighting schemes for sentiment analysis.In:Proc of the 48th Annual Meeting of the Association for Computational Linguistics,Uppsala,Sweden,2010

        9 http://www.searchforum.org.cn/tansongbo/corpus-senti.htm

        10 http://www.cs.cornell.edu/People/tj/svm_light

        11 薛立宏,張?jiān)迫A,曹敏.移動(dòng)互聯(lián)網(wǎng)運(yùn)營(yíng)關(guān)鍵問(wèn)題及商業(yè)模式探討.電信科學(xué),2009,25(5)

        12 羅志強(qiáng),沈軍.移動(dòng)電子商務(wù)用戶(hù)溯源認(rèn)證技術(shù)研究與應(yīng)用.電信科學(xué),2009,25(6)

        Feature Weighting for Sentiment Classification of Online Chinese Reviews

        Yuan Liyu1,Ju Jiupeng2,Yang Haojie1,Song Pingbo1
        (1.Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China;2.Hylanda Information Technology Co.,Ltd.,Beijing 100190,China)

        Most supervised machine learning method based sentiment classifications apply binary n-gram weights.In this paper,we systematically explore whether more sophisticated feature weighting schemes adapted from information retrieval(IR)can enhance the accuracy of sentiment classification for business reviews.Considered points of view are term frequency(tf),delta inverse document frequency(idf),and smoothing factor.Using restaurant reviews from the number wizard service created by China Telecom as experimental data show that,variants of the classic tf·idf scheme,especially incorporating of delta idf and smoothing factors,provide significant increases in accuracy.Tests on multi-domain public data sets indicate the universality of our approach.The proposed method has been implemented as effective application of restaurant recommendation system on China Telecom Number Wizard micro-blog.

        business review, consumer preference, sentiment analysis, polarity classification,feature weighting

        2011-05-13)

        猜你喜歡
        文檔權(quán)重分類(lèi)
        有人一聲不吭向你扔了個(gè)文檔
        分類(lèi)算一算
        權(quán)重常思“浮名輕”
        分類(lèi)討論求坐標(biāo)
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        国产成人亚洲综合色婷婷| 91麻豆精品久久久影院| 日本三区在线观看视频| 色综合久久中文综合网亚洲| 国产三级精品三级| 国产乱色精品成人免费视频| 精品欧美久久99久久久另类专区 | 永久免费毛片在线播放| av免费在线播放一区二区| 丰满人妻猛进入中文字幕| 色欲人妻综合aaaaa网| 五十路熟妇高熟无码视频| 2021精品综合久久久久| 日本高清人妻一区二区| 青青草骚视频在线观看| 大地资源在线观看官网第三页| 日韩欧美在线综合网| 亚洲熟妇av日韩熟妇av| 亚洲综合中文日韩字幕| 97色伦图片97综合影院| 欧美内射深喉中文字幕| 91久久久久无码精品露脸| 国产精品一区二区三区蜜臀| 久久这里都是精品99| 夜夜高潮夜夜爽国产伦精品| 国内精品久久久久久中文字幕 | 亚州五十路伊人网| 人妻少妇偷人精品视频| 久久国产劲爆∧v内射| 国产97在线 | 中文| 三级国产女主播在线观看| 久久精品亚洲成在人线av| 亚洲桃色视频在线观看一区| 国内精品卡一卡二卡三| 国产精品自产拍在线18禁| 日韩av中文字幕一卡二卡| 精品亚洲一区二区三区四区五 | 欧洲日韩视频二区在线| 久久国产女同一区二区| av在线观看一区二区三区| 国产精品第一国产精品|