亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最大熵的情感傾向研究

        2013-04-12 01:49:12韓卓
        關(guān)鍵詞:文本分類

        韓卓

        【摘 要】隨著電子商務的迅速發(fā)展,網(wǎng)絡上涌現(xiàn)了許多購物網(wǎng)站和產(chǎn)品論壇,這些購物網(wǎng)站和產(chǎn)品論壇為消費者提供了發(fā)表評論的平臺。越來越多的人在做出消費決策前喜歡到互聯(lián)網(wǎng)上參考用戶和媒體對某產(chǎn)品的評論和報道信息。本文利用最大熵方法對網(wǎng)絡產(chǎn)品評論的情感傾向進行識別,通過實驗表明最大熵方法是一種非常有前途的文本分類方法。

        【關(guān)鍵詞】用戶評論;文本分類;最大熵模型;情感傾向

        【Abstract】With the rapidly expand of electronic commerce, it has emerged many shopping websites and the product forum in the net,these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments,maximum entropy model is a promising technique for sentiment analysis.

        【Key words】Customer reviews;Test classification;Maximum Entropy Model;Sentiment;Analysis

        0.引言

        隨著電子商務的迅速發(fā)展,近年來,自有服裝品牌、網(wǎng)站銷售的購物模式得到了越來越多顧客的認可,如凡客誠品、夢芭莎等,因為是自有品牌,所以這些購物網(wǎng)站的商品質(zhì)量相對統(tǒng)一。越來越多的人在做出消費決策前喜歡到互聯(lián)網(wǎng)上參考用戶和媒體對某產(chǎn)品的評論和報道信息。通過互聯(lián)網(wǎng)上的產(chǎn)品評論,消費者可以了解其他用戶對產(chǎn)品的態(tài)度傾向,從而做出更好的購買決策,對于銷售商和生產(chǎn)商,可以及時獲得用戶對其產(chǎn)品和服務的反饋,了解用戶對自己和對競爭對手的評價,從而改進產(chǎn)品,改善服務,獲得競爭優(yōu)勢。因此,作為非結(jié)構(gòu)化信息挖掘的一個新興領(lǐng)域,產(chǎn)品評論的情感傾向研究引起了人們極大的興趣。[1]

        1.最大熵模型

        最大嫡模型是用來進行概率估計的:假設是某個事件,b是事件a 發(fā)生的環(huán)境(或稱上下文),我們想知道a和b的聯(lián)合概率,記為p(a,b) 。更一般地,設所有可能發(fā)生的事件組成的集合為A,所有環(huán)境組成的集合為B,我們想知道,對于任意給定的a∈A b∈B,概率p(a,b)是多少?

        我們把這個問題放到自然語言處理的領(lǐng)域來討論,對于文本分類問題,一個文檔分到某個類別可以看成一個事件,文檔中出現(xiàn)的詞可以看成這個事件發(fā)生的環(huán)境,我們想知道包含詞b的文檔屬于某一類 a的概率。很容易想到的方法是通過訓練語料進行統(tǒng)計。給定一個訓練集,定義A=(a1,a2,···,am)是文檔所屬類別集,B=(b1,b2,···,bn)是文檔的特征詞集,num(ai,bj)為訓練集中二元組(ai,bj)出現(xiàn)的次數(shù),那么我們可以使用如下公式進行概率估計:

        (ai,bj)= (1)

        這個方法有個很大的問題,即“稀疏事件”(sparse evidence)問題,即便是很大的訓練文本,很多二元組仍然沒有出現(xiàn),武斷地認為它的概率為0,顯然是不可取的。最大熵模型是這樣來解決稀疏事件問題的,它使未知事件的概率分布總是盡可能均勻,即傾向于得到最大嫡[2]。例如一個軍事、政治和科技的3類文本分類問題,我們得知,出現(xiàn)“飛機”這個詞的80%的文檔屬子軍事類別,對于“飛機”這個詞在其他兩類中的分布未知.根據(jù)最大嫡原則,如果給定一個包含“飛機”這個詞文檔,那么認為文檔以0.8的概率屬于軍事類別,分別以0.1的概率屬子其他兩類;如果文檔中不包含“飛機”這個詞,那么認為文檔分別以相同的1/3的概率屬于每一個類.即在符合已知約束的情況下,使未知事件的分布盡可能均勻。

        具體來說,根據(jù)Shannon[2]的定義,嫡的計算公式如下:

        H(P)=-p(x)log2p(x) (2)

        那么,求解滿足最大嫡原則的概率分布的公式如下:

        p*=arg maxH(P) (3)

        如果沒有其他任何先驗知識,根據(jù)滴的性質(zhì),式(3)得到最大值的條件是:

        p(a|b)= (4)

        因為p(a|b)=1

        但是,盡管訓練語料中不能給出所有二元組(ai,bj)的概率值,但能夠給出部分二元組的概率值,或某些概率需要滿足的條件。即問題變成求部分信息下的最大滴或滿足一定約束的最優(yōu)解。

        如何表示這些部分信息呢研究者引人了特征函數(shù)的概念(有時簡稱為特征).特征函數(shù)一般情況下是一個二值函數(shù)f(a,b)→[0,1],例如對于上述的文本分類問題,我們可以定義特征函數(shù)為:

        f(a,b)=1,(a=事類)∧(b=飛機)

        0 othersize

        對于特征函數(shù)關(guān),它相對于經(jīng)驗概率分布(a,b)的期望值為:

        Ef=(a,b)f(a,b) (5)

        特征函數(shù)f相對于模型(a|b)的期望值為:

        Epf=(b)(a|b)f(a,b) (6)

        我們限制在訓練集中,這商個期望值相同,即

        Epf=Ef (7)

        我們將式(7)稱為約束。顯然,可以定義很多的特征函數(shù),它們之間可以是互不相關(guān)的,甚至問題的角度也可以是完全不同的刻問題的力度也可大可小總之,特征函數(shù)很靈活地將許多散、零碎的知識組合起來完成同一個任務.給定k個特征函數(shù)f1,f2,···,fk我們可以得到所求概率布的k組約束,

        Epf=Ef

        其中,i=1,2,···,k?,F(xiàn)在,我們的何題就變成了滿足一組約束條件的最優(yōu)解問題,即

        p={p|Epf=Ef,i=1,2,···,k}

        p*=arg H(p) (9)

        求解這個最優(yōu)解的經(jīng)典方法是拉格朗日乘子算法,本文直接給出結(jié)論。式(9)要求的p*具有下面的形式:

        p*(a|b)=exp(λifi(a,b) (10)

        其中,π(b)是規(guī)一化因子。

        π(b)=exp(λifi(a,b) (11)

        λi是參數(shù),可以看成特征函數(shù)的權(quán)值,如果通過在訓練集上進行學習,知道了 的值,就得到了概率分布函數(shù),完成了最大嫡模型的構(gòu)造。設|A|是事件集的大小,k是特征函數(shù)的數(shù)目,從式(10)我們可以看到塌大嫡模型的時間復雜度是O(k|A|)。

        為了構(gòu)造最大嫡模型,我們必須求出參數(shù)λ,文本中我們使用了GIS算法。設N是訓練樣本集的大小,|A|是事件集的大小,算法經(jīng)過P次迭代后收斂,則整個復雜度是O(NP|A)。

        2.實驗

        基于網(wǎng)絡產(chǎn)品評論的傾向化研究實驗,我們選取了凡客誠品購物網(wǎng)。凡客誠品購物網(wǎng)網(wǎng)是國內(nèi)著名的擁有自主品牌,網(wǎng)絡銷售的以服裝類銷售為主的購物網(wǎng)站,該網(wǎng)站包括數(shù)萬個款式的服裝,數(shù)百萬個注冊用戶和數(shù)千萬條評論數(shù)據(jù)。本文選擇了包含評論最多的100款服裝作為研究對象。

        本文實驗的結(jié)果主要有兩個評價指標:召回率和準確率。召回率是模型正確判斷的結(jié)果占所有正確結(jié)果的比率;準確率是模型正確判斷的結(jié)果占所有判斷結(jié)果的比率[3]。為了綜合評價系統(tǒng)的性能,一般還會計算一個F值,即準確率和召回率的加權(quán)幾何平均值[4]。以上三個評價指標的計算公式如下:

        其中,β是召回率和準確率的相對權(quán)重,本文取β=1,即認為召回率和準確率同等重要。

        主觀評論一般分為三類:正面褒揚類、中立類、反面貶斥類,可以根據(jù)評論中出現(xiàn)的情感詞進行判別[5]。本文的實驗語料為用戶對100款服裝的評論,從中選出800條評論語句。本文首先將原始語料進行了處理,為了不破壞評論中情感詞的上下文關(guān)系,更好地將評論的傾向性看作一個序列,降低數(shù)據(jù)擬合對實驗結(jié)果的影響,我們抽取其中的600條評論作為訓練集,200條評論作為測試集。評論的標記情況如表1所示:

        利用最大熵模型對其中600條標記的評論進行訓練,得到一個模板文件,然后根據(jù)此模板文件對剩余200條測試語料進行測試,實驗結(jié)果如表2所示。

        從下表可以看出,200條測試評論人工標注的結(jié)果為褒揚類100條,貶斥類80條,中立類20條,而模型判斷的結(jié)果為:褒揚類87條,貶斥類67條,中立類46條。由于受到客觀中立類冗余標記的影響,有些本身帶有情感傾向的評論沒有被模型正確識別出來,而是誤將它們劃分到了中立的類別中,同時,有些本身不包含情感傾向的中立類評論被誤分到了褒揚或貶斥的類別中[5]。上表中匹配標記指的是模型判斷出的結(jié)果與人工標注的結(jié)果相一致的標記,也就是指模型判斷正確結(jié)果的總數(shù)。整體來看,三類標記取得的準確率和召回率不是很高,僅為61.5%,尤其是中立類的準確率不到30%,是因為在訓練過程中,模型受客觀冗余標記的影響,將一些褒揚或貶斥類的評論誤分到了中立類別中,導致模型判斷出的中立類結(jié)果總數(shù)增多,從而降低了其準確率。

        3.結(jié)論

        在評論中可能出現(xiàn)了情感詞表中未能包含的情感詞匯或者是出現(xiàn)了在否定詞表和程度副詞表中沒有包括的否定詞和程度副詞,因為情感詞表是我們?nèi)斯俗⒌?,由于精力有限,使得情感語料規(guī)模有限,這也使得統(tǒng)計不夠全面。 對于評論中的一些詞匯是否包含情感,是否是情感詞匯,只能通過人工才能判斷,無論是采用基于規(guī)則的,還是基于統(tǒng)計的方法,目前的機器計算都還無法判斷出來的[6]。以上這兩方面可能是造成我們的結(jié)果精確度不高的原因。總的來說,取得了不錯的準確率和召回率,都達到了60%以上,表明使用最大熵模型做情感傾向研究是很有效的。

        【參考文獻】

        [1]姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究.中文信息學報,2007,21(05):73-79.

        [2]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制陰.中文信息學報,2007,21(1):96-100.

        [3]周俊生,戴新宇,尹存燕,陳家駿.自然語言信息抽取中的機器學習方法研究.計算機科學,2005,32(03):186-190.

        [4]Adam L.Berger,Stephen A.Della Pjetra, and Vincent J.Della Pjetra .A Maximum EntropyApproach to Natural Language Processing.Computational Linguistic,1996,22(l):39-71.

        [5]姚天防,程希文,徐飛玉等.文本意見挖掘綜述[J].中文信息學報,2008,Vol.22(No.3).

        [6]許洪波,姚天防,黃營等等.“中文傾向性分析評測技術(shù)報告”.北京:第二屆中文傾向性分析評測會議(COAE2009),2009.

        [7]S.Blair-Goldensohn, K.Hannan,R.McDonald,T.Neylon,G.A.Reis,J.Reynar. Building a sentiment summarizer for local service reviews.Proceedings of NLP Challenges in the Information Explosion Era.Beijing:Academic Press,2008:1-9.

        猜你喜歡
        文本分類
        基于樸素貝葉斯的Web文本分類及其應用
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學院檔案管理的應用
        科技視界(2016年24期)2016-10-11 09:36:57
        不同情境下中文文本分類模型的表現(xiàn)及選擇
        基于內(nèi)容的英語錄音教材標注研究與應用
        多核SVM文本分類研究
        軟件(2015年5期)2015-08-22 08:02:45
        久久久久亚洲av成人网人人软件| 狠狠躁夜夜躁人人爽天天不卡| 国产优质女主播在线观看| 中文字幕视频一区懂色| 精品国产精品久久一区免费式| 放荡的少妇2欧美版| 国产精品美女久久久久| 国产精品福利小视频| 激情五月婷婷六月俺也去 | 国产精品玖玖资源站大全| 亚洲第一大av在线综合| 天堂一区二区三区在线观看视频 | 国产尤物自拍视频在线观看 | 久久婷婷国产色一区二区三区| 一区二区亚洲精品在线| 国产精品无码一区二区三区电影| 在线亚洲午夜理论av大片| 久久中国国产Av秘 入口| 亚洲国产精品色婷婷久久| 日韩午夜免费视频精品一区| 天堂中文а√在线| 国产suv精品一区二人妻| 一区二区三区国产在线网站视频| 亚洲国产一区二区精品| 日本一区二区在线高清观看| 国产精品v片在线观看不卡| 欧美疯狂做受xxxxx高潮| 中文字幕亚洲精品人妻| 国产精品自拍午夜伦理福利| 性猛交ⅹxxx富婆视频| 亚洲男人的天堂网站| 成人无码网www在线观看| a级三级三级三级在线视频| 日韩精品 在线 国产 丝袜| a级毛片高清免费视频就| 亚洲VA欧美VA国产VA综合| 一区二区三区日本在线| 97人妻精品一区二区三区男同| 亚洲av永久精品爱情岛论坛| 日本手机在线| 热综合一本伊人久久精品 |