亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多項(xiàng)式貝葉斯分類模型的短文本多情感傾向分析及實(shí)現(xiàn)

        2016-06-22 09:17:35劉正黃震華同濟(jì)大學(xué)電子與信息工程學(xué)院上海201804
        現(xiàn)代計(jì)算機(jī) 2016年14期
        關(guān)鍵詞:分類文本情感

        劉正,黃震華(同濟(jì)大學(xué)電子與信息工程學(xué)院,上?!?01804)

        ?

        基于多項(xiàng)式貝葉斯分類模型的短文本多情感傾向分析及實(shí)現(xiàn)

        劉正,黃震華
        (同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804)

        摘要:

        關(guān)鍵詞:

        0 引言

        文本情感分析一直是機(jī)器擬人交流的一個(gè)重點(diǎn)研究課題之一,隨著互聯(lián)網(wǎng)的普及,人們已經(jīng)習(xí)慣于利用智能終端設(shè)備發(fā)表各種言論和記錄生活所見(jiàn)所聞、情感狀況等,通過(guò)對(duì)文字進(jìn)行情感分析可以獲得其文本中潛在的情感傾向。

        以往的情感建模的研究基本主要都是針對(duì)情感的正負(fù)向極性的情感建模研究,實(shí)際人機(jī)交流過(guò)程中,正負(fù)情感的辨別并不能很好地說(shuō)明人們所想表達(dá)的深層含義。

        基于SVM、KNN等方法進(jìn)行二項(xiàng)性建模分析是通常學(xué)術(shù)界工業(yè)界的分析方法,在這幾年的研究發(fā)展過(guò)程中,已經(jīng)取得了不錯(cuò)的成績(jī)了。

        但人的情感是具有豐富性、多樣性等特點(diǎn)的,二項(xiàng)性分析僅僅在文本情感分析中起著分析先鋒的作用,在實(shí)際生產(chǎn)中應(yīng)用較為局限。

        為了使計(jì)算機(jī)能更好地和人溝通交流,本文主要針對(duì)短文本的多情感傾向性進(jìn)行建模分析。

        1 模型與方法

        本文以貝葉斯理論為基礎(chǔ),提出了基于貝葉斯的多情感模型。

        1.1貝葉斯分類算法

        根據(jù)貝葉斯理論,貝葉斯文本分類算法是一個(gè)經(jīng)典的文本分類算法,其在預(yù)測(cè)一個(gè)未知類別的可能屬性中有著較為詳細(xì)的理論和實(shí)踐基礎(chǔ)。通常我們要求在事件B發(fā)生的條件下事件A發(fā)生的概率時(shí),可以通過(guò)條件概率推導(dǎo)出:

        讓其一般化我們可以得到,其中集合{Ai}表示事件集合里的部分集合:

        針對(duì)文本分類主要存在著三種不同的貝葉斯模型:高斯模型、多變量的伯努利模型和多項(xiàng)式模型,根據(jù)以往的學(xué)者的研究經(jīng)驗(yàn),本文選取了后者,即多項(xiàng)式模型進(jìn)行實(shí)驗(yàn)。

        該多項(xiàng)式貝葉斯分類模型算法的通用公式如下式:

        其中Nki是wk類別ci的所有文檔中出現(xiàn)的總次數(shù),|V|是訓(xùn)練數(shù)據(jù)集的總單詞數(shù)。

        1.2文本狀態(tài)空間

        一般而言,在情感分析領(lǐng)域,文本的情感分析中,字詞往往帶有情感權(quán)重,情感詞的權(quán)重往往會(huì)影響整體詞匯的情感傾向辨別,例如:“很高興”和“很不高興”,這兩個(gè)短語(yǔ)中,“很”字加強(qiáng)了情感權(quán)重,而“不”字將情感極性進(jìn)行了反轉(zhuǎn),故而詞向量的表示關(guān)系到了最終情感分析的結(jié)果。

        本文通過(guò)對(duì)短文本分詞,構(gòu)建文本結(jié)構(gòu)化向量,即文本的狀態(tài)空間來(lái)描述文本事實(shí),將其定義為一組有序集合[q0,q1,…,qr]T,其中每個(gè)元素qi(i=0,1,…,r)為狀態(tài)分變量。

        狀態(tài)關(guān)系是用來(lái)定義狀態(tài)之間存在的某種過(guò)程性函數(shù)組f0,f1,…,ft,式中每個(gè)元素fi(i=0,1,…,t)為轉(zhuǎn)換過(guò)程的分函數(shù)。

        則這里可將文本結(jié)構(gòu)化為一個(gè)狀態(tài)關(guān)系圖,該關(guān)系圖可以由一個(gè)二元組(S,O)所構(gòu)成的有向圖表示,其中:

        S為所有“詞”的狀態(tài)空間集合S0,S1,…,Sn,其中Si=[q0,q1,…,qr]T

        O為所有狀態(tài)關(guān)系過(guò)程性函數(shù)組的集合O0,O1,…,Ok,其中Oi= f0,f1,…,ft,如圖1所示:

        圖1 狀態(tài)空間示例圖

        從示例圖中,可以看出S0與S1,S2,S3存在著O0,O1,O2的狀態(tài)關(guān)系,S2與S1,S4存在著狀態(tài)關(guān)系,等等,在此種狀態(tài)空間表示的情況下,通過(guò)計(jì)算詞與詞之間的狀態(tài)關(guān)系,得到狀態(tài)空間表示圖。

        根據(jù)文獻(xiàn)[1],本文將詞與詞之間的依存關(guān)系窗口定義為前后三個(gè)窗格,列如圖1中,S4就與S1,S2,S3存在著關(guān)系,但是關(guān)系圖中O4的影響則應(yīng)該是比較小的。

        結(jié)合上節(jié)的多項(xiàng)式貝葉斯算法,其實(shí)

        通過(guò)求解狀態(tài)空間最終獲得各個(gè)參數(shù)向量的綜合評(píng)定結(jié)果。

        1.3程序算法

        多項(xiàng)式貝葉斯分類模型的訓(xùn)練算法如下所示:

        1 //C,類別集合,D,用于訓(xùn)練的文本文件集合

        2 TrainMultinomialNB(C,D):

        3//統(tǒng)計(jì)訓(xùn)練樣本包含多少種單詞

        4V←ExtractVocabulary(D)

        5//類ci下單詞wik在訓(xùn)練的文本文件集合中出現(xiàn)過(guò)的次數(shù)之和

        6N←CountTokens(D)

        7for c in C

        8//計(jì)算類別ci下的單詞總數(shù)

        9Nc←CountTokensInClass(D,c)

        10prior[c]←Nc/N

        11 //將類別ci下的文檔連接成一個(gè)大字符串

        12textc←ConcatenateTextOfAllDocsInClass(D,c)

        13for t in V

        14 //計(jì)算類ci下單詞wi的出現(xiàn)次數(shù)

        15ct←CountTokensOfTerm(textc,t)

        16for t in V

        17//計(jì)算P(wi|ci)

        18condprob[t][c]←(Tct + 1)/(Sum(Tct)+ |V|)

        19

        return V,prior,condprob

        狀態(tài)空間的帶權(quán)圖搜索算法的實(shí)現(xiàn)本文參考文獻(xiàn)[3]進(jìn)行修改實(shí)現(xiàn)。

        1.4訓(xùn)練源數(shù)據(jù)

        本文利用大連理工大學(xué)信息檢索研究室所做的標(biāo)記的情感詞匯本體庫(kù)作為訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)文本示例如下表所示。

        情感強(qiáng)度分為1,3,5,7,9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小。

        該本體庫(kù)有21種情感分類,如表所示:

        表1 情感詞匯本體庫(kù)示例

        表2 情感詞匯本體庫(kù)情感分類表

        經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn)妒忌(NK)的詞匯過(guò)于稀少,其所占的概率權(quán)重極低,考慮到訓(xùn)練結(jié)果的合理性,本文不對(duì)該種情感特種做訓(xùn)練。

        2 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)挑取了兩條微博做結(jié)果展示,所有結(jié)果都經(jīng)過(guò)歸一化處理了,情感值在區(qū)間之間,值越大表示情感程度越強(qiáng)烈:

        微博一[4]:為啥公共場(chǎng)合女生不能蹲一下?犯法了嗎?影響他人了嗎?既然沒(méi)有,那累了為啥不能蹲一下?蹲著也很好看啊,人家蹲一下都要被拍照發(fā)微博受批判指責(zé)人家沒(méi)教養(yǎng),瘋了吧?沒(méi)經(jīng)女生同意就拍人家發(fā)微博才沒(méi)教養(yǎng)好吧,這點(diǎn)事都要批判,智障。

        圖2 微博一的情感結(jié)果展示

        表3 微博一的情感結(jié)果

        通過(guò)結(jié)果可以看出該條微博所主要隱含的三大類情感是失望、憤怒、羞。通過(guò)自然人對(duì)文字的理解大致也可以判斷出這三大類感情要素。

        微博二[5]:【人生感悟】人生最悲哀的事情,就是你發(fā)現(xiàn)曾經(jīng)一路上,和你一起的人,漸漸地就離你遠(yuǎn)去了。也許是因?yàn)榻Y(jié)婚生子,也許是因?yàn)閯诶鄄豢柏?fù)荷,也許是因?yàn)槔硐霛u異,也許是因?yàn)榉茨砍沙?。但是你還是要繼續(xù)孤獨(dú)地走下去。在你想要放棄的那一刻,想想為什么當(dāng)初堅(jiān)持走到了這里。[春暖花開(kāi)]

        通過(guò)對(duì)該條微博文本的計(jì)算,主要包含的三大類情感要素為:贊揚(yáng)、相信、快樂(lè),這和人的理解大致吻合。

        3 結(jié)語(yǔ)

        本文給出了多情感分析的一種實(shí)現(xiàn)方法,該算法結(jié)合多項(xiàng)式貝葉斯分類模型算法和文本狀態(tài)空間模型,對(duì)文本多情感分析做了研究,具有一定的實(shí)際意義。通過(guò)對(duì)文本數(shù)據(jù)的訓(xùn)練研究,使得計(jì)算結(jié)果更貼切于人的理解,遺憾的是現(xiàn)階段對(duì)文本情感領(lǐng)域的研究基本停留在二項(xiàng)分析,沒(méi)有過(guò)多的算法研究可以對(duì)比。

        圖3 微博二的情感展示圖

        表4 微博二的情感結(jié)果

        參考文獻(xiàn):

        [1]趙軍,黃昌寧.漢語(yǔ)基本名詞短語(yǔ)結(jié)構(gòu)分析模型.計(jì)算機(jī)學(xué)報(bào),1999,22(2):141-146.

        [2]維基百科.隱馬爾可夫模型[EB/OL].[2015-03-08].https://zh.wikipedia.org/wiki/隱馬爾可夫模型.

        [3]衷路生,宋執(zhí)環(huán).局部加權(quán)組合狀態(tài)空間系統(tǒng)正交梯度辨識(shí)[J].控制與決策,2008,23(8):879-882,887.DOI:10.3321/j.issn:1001-0920.2008.08.007.

        [4]http://weibo.com/1220291284/DjMMOB6ca

        [5]http://weibo.com/1879549382/Dls8SiDlO

        Analysis and Simulation of Multi-Emotion in Short Text Based on Bayes Multinomial Model

        LIU Zheng,HUANG Zhen-hua
        (School of Electronics and Information,Tongji University,Shanghai 201804)

        Abstract:

        Nowadays,text sentiment classification is mainly for text sentiment propensity analysis,positive and negative emotion classification.Studies the text short text in the field of multi-sentiment analysis work,through the establishment of a multinomial model of Bayes classifier and the state-space representation,to build and train the entire model.Experimental results show that emotional text classification has certain rationality in actual results,analysis results can be obtained through a variety of emotional analysis algorithm.

        Keywords:

        目前文本情感分類主要是針對(duì)文本情感的傾向性分析,主要研究正負(fù)情感的分類。主要研究短文本領(lǐng)域的文本多情感分析工作,通過(guò)建立多項(xiàng)式貝葉斯分類模型以及結(jié)合狀態(tài)空間,構(gòu)建并訓(xùn)練整個(gè)分析模型。實(shí)驗(yàn)結(jié)果表明,文本的情感分類在實(shí)際結(jié)果中具有一定的合理性,可以通過(guò)算法的分析得出多種情感的分析結(jié)果。

        多項(xiàng)式貝葉斯分類模型;狀態(tài)空間模型;多情感分析

        基金項(xiàng)目:

        國(guó)家自然科學(xué)基金(No.71171148)

        文章編號(hào):1007-1423(2016)14-0039-05

        DOI:10.3969/j.issn.1007-1423.2016.14.008

        作者簡(jiǎn)介:

        劉正(1990-),男,浙江湖州人,碩士研究生,研究方向?yàn)槲谋緮?shù)據(jù)挖掘分析

        黃震華(1980-),男,上海人,博士,副教授,研究方向?yàn)樾畔z索、不確定數(shù)據(jù)處理、數(shù)據(jù)挖掘

        收稿日期:2016-03-21修稿日期:2016-04-30

        Bayes Multinomial Model;State-Space Representation;Multi-Emotion Analysis

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        久久精品丝袜高跟鞋| 亚洲精品92内射| 小宝极品内射国产在线| 91免费永久国产在线观看| 国产在线无码免费视频2021| 极品视频一区二区三区在线观看| 国产精品美女主播在线| 绝顶高潮合集videos| 国产肉体xxxx裸体137大胆| 五月天精品视频在线观看| 国产呦系列视频网站在线观看 | 国产三级av在线播放| 欧美黑人乱大交| 久久成人黄色免费网站| 成人大片免费视频播放一级| 风韵丰满熟妇啪啪区老老熟妇| 又粗又黄又猛又爽大片app| 国产人妻久久精品二区三区老狼| 日韩A∨精品久久久久| 亚洲AV无码国产精品久久l| 日本免费精品一区二区三区视频 | 暴露的熟女好爽好爽好爽| 欧美老熟妇乱子| 久久av无码精品人妻出轨| 欧美专区在线| av免费一区在线播放| 婷婷色婷婷开心五月四| 国精品无码一区二区三区在线| 午夜大片又黄又爽大片app| 伊人不卡中文字幕在线一区二区| 日本久久久免费观看视频| 成人内射国产免费观看| 骚片av蜜桃精品一区| 韩国三级中文字幕hd久久精品| 亚洲AV色欲色欲WWW| 国产一区二区杨幂在线观看性色 | 一区二区三区内射美女毛片| 久久精品国产亚洲av电影网| 欧美激情五月| 久久综合久中文字幕青草| 国产精品国产自产自拍高清av|