亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮情感強(qiáng)度的加權(quán)社會網(wǎng)絡(luò)偏好信息識別研究

        2020-03-24 03:49:36來能燁
        關(guān)鍵詞:文本情感信息

        來能燁

        (上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)

        0 引言

        通常情況下,大多數(shù)網(wǎng)民會在各種社交網(wǎng)絡(luò)上表達(dá)出對社會熱點(diǎn)事件的不同看法。因此,如何有效識別其態(tài)度、行為和情感偏好程度成為被廣泛關(guān)注的研究熱點(diǎn)。情感偏好是情感強(qiáng)度的另一種表達(dá)形式,在根本上決定著人的思想、行為和生理活動,制約著情感的動力特性。

        基于此,諸多學(xué)者及專業(yè)人士從各方面對該問題進(jìn)行了研究并提出各自觀點(diǎn)。Pablo C 等人[1]指出,社交網(wǎng)絡(luò)領(lǐng)域的主要研究方向之一,是尋找和分析用戶之間可能存在的聯(lián)系。這些發(fā)展允許用戶在其聯(lián)系人網(wǎng)絡(luò)上進(jìn)行擴(kuò)展,而不必在全部用戶中進(jìn)行搜索;?avdar,A B 等[2]研究挖掘社交和交互數(shù)據(jù),將這些信息與當(dāng)前的數(shù)據(jù)分析模型結(jié)合起來,得出其結(jié)合程度是有限的的結(jié)論。可使用客戶的社交網(wǎng)絡(luò)信息來增強(qiáng)這個(gè)基本模型,以包含客戶所做的間接貢獻(xiàn);Daniela F E 等[3]描述了如何將Twitter 上的性別識別作為一種智能的商業(yè)工具,來確定用戶之間的隱私問題,并最終為更有可能積極響應(yīng)目標(biāo)廣告的客戶提供更個(gè)性化的服務(wù);Ran X[4]研究網(wǎng)絡(luò)傳播效應(yīng),也被稱為同伴效應(yīng)或社會影響過程,并提出了幾種替代估計(jì)方法,當(dāng)存在共同決定影響和選擇的未觀察特征時(shí),這些方法有可能正確識別傳染效應(yīng)。采用蒙特卡羅模擬結(jié)果,設(shè)計(jì)了一種網(wǎng)絡(luò)空間調(diào)整估計(jì)器;杜永萍等人[5]提出了一種CNNLSTM 模型下短文本情感分類方法,該方法以卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),構(gòu)建大小不同的卷積窗口,對文本的譜義特征進(jìn)行提取,采用長短時(shí)記憶模型,預(yù)測文本的情感傾向。通過在不同文本中進(jìn)行驗(yàn)證,證明方法有效提高了網(wǎng)絡(luò)文本情感識別的召回率,但是其準(zhǔn)確率相對較低。穆永利等人[6]提出了一種基于E-CNN 的情緒原因識別方法。該方法首先對本文進(jìn)行卷積、池化等操作來融合句子中的語義信息,通過CNN 集成降低數(shù)據(jù)不平衡性對識別效果的影響,解決了傳統(tǒng)識別方法規(guī)則制定繁瑣、需要對文本進(jìn)行空間降維等問題。該方法可以從所有信息中有效識別全局信息,但是沒有給出一個(gè)能夠判斷句子中真正情感的子句的合理度量,使得最終識別結(jié)果不夠準(zhǔn)確。

        為提高情感偏好識別的準(zhǔn)確率和識別效率,本文提出了一種考慮情感強(qiáng)度的加權(quán)社會網(wǎng)絡(luò)偏好信息識別算法。該算法的優(yōu)越之處在于將網(wǎng)絡(luò)文本語句中不同程度的副詞賦予不同的權(quán)重值,通過本身定義的權(quán)重值與句中的副詞權(quán)值相乘來獲得文本的總體情感強(qiáng)度。通過GMM 算法進(jìn)行情感偏好狀態(tài)測定,完成識別全過程,總體識別效果更好,具有較好的應(yīng)用價(jià)值。

        1 文本挖掘

        文本挖掘以語言學(xué)、統(tǒng)計(jì)梳理分析等作為主要理論依據(jù),在信息檢索技術(shù)的基礎(chǔ)上,從網(wǎng)絡(luò)繁雜的用戶信息中,將能夠表現(xiàn)出各類特征的獨(dú)立信息提取出來。在文本挖掘過程中,文本分詞是很重要的一部分,其關(guān)鍵部分在于歧義切分。在英文文本中,因其單詞之間有空格能夠被視為分隔符,所以歧義切分過程較為方便,但是中文文本中每句話的字詞都是相互聯(lián)系的,沒有明顯的分隔標(biāo)記,相對英文文本來說,中文文本的歧義切分較為復(fù)雜。

        為了使分詞具有較好效率的同時(shí)也能充分保證分詞的準(zhǔn)確性,使用詞典與互信息相結(jié)合的分詞方法,對文本進(jìn)行分詞處理。將MI(x,y)定義為詞x和詞y的互信息,則有:

        式中,當(dāng)MI(x,y)≥0 時(shí),表明二者經(jīng)常同時(shí)出現(xiàn),同時(shí)證明兩個(gè)詞的關(guān)聯(lián)性很強(qiáng);當(dāng)MI(x,y)≈0,則代表x和y同時(shí)出現(xiàn)的次數(shù)極少,從而證明二者的關(guān)聯(lián)性較弱;當(dāng)MI(x,y)≤0 時(shí),則表明x和y不會同時(shí)出現(xiàn),二者之間沒有關(guān)聯(lián)性,為互補(bǔ)分布。

        通過對詞語互信息的計(jì)算,原詞典中信息就會隨之豐富,從而獲得詞與詞之間的互信息矩陣為:

        在進(jìn)行文本分詞時(shí),為豐富詞典信息,使用雙向匹配分詞法對網(wǎng)絡(luò)文本語句進(jìn)行切分處理。在處理過程中,當(dāng)正向和逆向切分的最終呈現(xiàn)效果不同時(shí),通過互信息選出最適合整體的分詞結(jié)果,同時(shí)計(jì)算切分后詞語的整體平均互信息以減少詞語個(gè)數(shù)對切分結(jié)果的影響。其計(jì)算方法如式(3):

        式中,n表示被切分詞語數(shù)量,Wi表示第i個(gè)切分詞語。

        由于中文文本中的語言表達(dá)形式較為復(fù)雜,直接挖掘分析切分后的語句尤為困難。因此需要將分詞處理的文本整合成更適合定量研究的文本情感形式。首先,提取各網(wǎng)絡(luò)文本內(nèi)的情感特征項(xiàng),然后對提取后的情感特征項(xiàng)做文本系統(tǒng)結(jié)構(gòu)化,并將其作為中間狀態(tài)依次對文本信息進(jìn)行描述。在文本系統(tǒng)中,文本之間是相互不發(fā)生聯(lián)系的,因此從數(shù)據(jù)整體來看文件之間數(shù)據(jù)是沒有結(jié)構(gòu)關(guān)系的,而結(jié)構(gòu)化就是將程序中逐漸積累出的內(nèi)容和數(shù)據(jù)進(jìn)行歸納整理,使程序數(shù)據(jù)條理化,更易于后期的處理。

        文本通常能夠通過詞語來表達(dá)特征,如關(guān)鍵詞、主題詞、短語等。一般情況下,文本特征大致可以劃分為語義特征和描述特征兩類,通過處理特征項(xiàng)就可以實(shí)現(xiàn)文本分析。提取語義特征中的評價(jià)對象主要過程如下:

        (1)采用中分詞方法對文本進(jìn)行分詞處理。

        (2)對切分后的名詞進(jìn)行比對,得到評價(jià)對象。

        (3)選出文本中含有評價(jià)對象的句子。

        (4)將修飾評價(jià)對象的詞語進(jìn)行篩選,將其視為情感詞,并且將修飾情感詞的副詞定義為修飾詞。

        (5)記錄情感詞及修飾詞的相對位置。

        2 情感強(qiáng)度模型

        2.1 基于情感強(qiáng)度的詞表構(gòu)建

        在文本中,句中的一些副詞往往可以表達(dá)出這個(gè)句子的情感強(qiáng)度,不同程度的副詞賦予不同的權(quán)重值。整個(gè)句子的最終情感權(quán)值,可以通過自身定義的權(quán)值與句中的副詞權(quán)值相乘而獲得。

        本文選擇219 個(gè)程度副詞,根據(jù)其強(qiáng)度分為5個(gè)等級(W1,W2,W3,W4,W5),分別賦予不同的權(quán)重值見表1,構(gòu)建的文本情感見表2。

        表1 程度副詞權(quán)重Tab.1 Weight of degree adverbs

        表2 情感詞表Tab.2 Sentiment word table

        2.2 文本情感計(jì)算規(guī)則

        將文本D分解成句子S的集合,則D={S1,S2,···,Sn},每個(gè)句子的情感權(quán)值(Si)為:

        則整篇文本的情感權(quán)值為:

        式中,Swi表示每個(gè)句子中副詞的權(quán)重值;如果F(S)>0,則可以判定該文本為正向情感;如果F(S)<0,則可以判定該文本為負(fù)向情感;如果F(S)=0,則可以判定該文本為中性情感。

        計(jì)算情感詞W的值Swi如下式:

        式中,Np表示正向詞的數(shù)目,Nn表示負(fù)向的詞匯數(shù)目。

        考慮到文本中句型對情感強(qiáng)度判定的影響,根據(jù)不同句型歸納出句子的情感值如下:

        疑問句:F'(Si)=F(Si)×(-0.2)+(-0.5)

        反問句:F'(Si)=F(Si)×(-0.6)+(-0.5)

        感嘆句:F'(Si)=F(Si)×(1.5)

        假設(shè)句:F'(Si)=F(Si)×(-0.2)

        通過句子的情感值可以獲得文本的情感權(quán)重值為[7]:

        當(dāng)F'(S)>0時(shí),則表示為正向情感[8-9],F(xiàn)'(S)<0 時(shí),則可以定義為負(fù)向情感,F(xiàn)'(S)=0時(shí),則文本可以定義為中性情感。

        再次加入程度副詞進(jìn)行計(jì)算如下:

        式中,Ne為否定系數(shù),*為調(diào)節(jié)過程。

        若感情詞與否定詞相鄰,則可以判斷該文本為負(fù)偏好情感,因此將其否定系數(shù)Ne設(shè)置為-1。σ表示調(diào)節(jié)系數(shù),如果篩選出的情感詞與程度副詞“非?!?、“極其”等相鄰時(shí),則可以判定其為正偏好情感,其表達(dá)式如下:

        如果情感詞與“一般”、“還可以”等程度副詞相鄰時(shí)[10],則可以將該文本定義為中偏好情感。則其情感得分如下式:

        3 加權(quán)網(wǎng)絡(luò)信息偏好識別算法

        通過計(jì)算用戶對目標(biāo)個(gè)體的情感偏好指數(shù),可以了解用戶對任意事物的選擇傾向,并能反映出相對于他人的不同價(jià)值取向,即價(jià)值取向表現(xiàn)的優(yōu)劣程度足以直接反映出個(gè)人的情緒偏好。

        語篇情感偏好識別主要是通過語篇中句子的情感權(quán)重來判斷。考慮情感強(qiáng)度的社會網(wǎng)絡(luò)偏好信息加權(quán)識別,是在文本挖掘和情感強(qiáng)度模型建立的基礎(chǔ)上,通過GMM 算法進(jìn)行特征提取和向量轉(zhuǎn)換,確定情感偏好狀態(tài),完成識別過程。具體流程如圖1所示。

        圖1 識別流程Fig.1 Identification flow chart

        為了更有效的識別文本情感偏好,需對文本進(jìn)行預(yù)處理。文本處理包括:命名實(shí)體及過濾停用詞等。本文在Windows 操作系統(tǒng)下,獲取相關(guān)文本數(shù)據(jù),并對文本中表情符號、網(wǎng)址等無意義的文本進(jìn)行清理。

        采用GMM 算法識別情感詞。其具體數(shù)學(xué)表達(dá)形式如下:

        式中,xt為第t個(gè)高斯分布的D維隨機(jī)向量[11],ai代表第i個(gè)單高斯分布的權(quán)重值,且定義pi(xi)(i,…,m)為高斯分布函數(shù),則:

        式中,∑i表示協(xié)方差矩陣,μi表示均值矢量。協(xié)方差矩陣可以用滿矩陣,也可以使用簡化后的對角矩陣。高斯分布密度如下式:

        式中,為了能夠得到最佳的樣本分布概率,采用EM算法來估計(jì)GMM 模型的參數(shù)[12]。

        設(shè)待測樣本為y,將分類器給出的似然度標(biāo)記為,其中,k代表各情感強(qiáng)度,則各情感強(qiáng)度權(quán)值如下:

        似然度直接決定分類器的置信度,更直接的表現(xiàn)是似然度的分散程度。置信度越高,則判定結(jié)果越準(zhǔn)確。完成識別全過程步驟如下:

        (1)將文本輸入分類器,做詞法和語法分析,獲得更易識別的文本結(jié)構(gòu)。

        (2)對獲得的結(jié)構(gòu)化文本進(jìn)一步分析,將其與相應(yīng)的情感規(guī)則進(jìn)行匹配。結(jié)合情感強(qiáng)度模型,做情感劃分,得到情感值。

        (3)輸出情感值。將判斷用戶偏好的情感值反饋給機(jī)器。

        (4)抽取反饋中有價(jià)值的信息,更新詞典。

        4 仿真實(shí)驗(yàn)

        為了驗(yàn)證考慮情感強(qiáng)度的網(wǎng)絡(luò)評論情感偏好識別方法的有效性,本文使用了八爪魚采集器,爬取了新浪微博上關(guān)于“新冠肺炎疫情”爆發(fā)期間的熱門評論,共計(jì)2 943條作為數(shù)據(jù)來源進(jìn)行對比實(shí)驗(yàn)。

        實(shí)驗(yàn)所用情感詞主要來源于《知網(wǎng)》的情感分析用語詞集,并且加入了一些最新出現(xiàn)的網(wǎng)絡(luò)情感用詞,對詞語進(jìn)行去重處理后,獲得的主要情感詞。

        為驗(yàn)證本文算法的準(zhǔn)確性,將文獻(xiàn)[4-6]中提出的方法與本文算法進(jìn)行比較。利用各算法的準(zhǔn)確率Pre、召回率Rec和F值作為評判項(xiàng)。Pre其表達(dá)式為:

        Rec能夠衡量系統(tǒng)查全率,其表達(dá)式為:

        在識別過程中,往往不能夠使準(zhǔn)確度和召回率同時(shí)具有較好的表現(xiàn),因此常使用F值來對識別的整體效果做評估。F值的常用表達(dá)式如下:

        其中,各參數(shù)含義見表3。

        表3 分類評價(jià)標(biāo)準(zhǔn)參數(shù)含義表Tab.3 Meanings of parameters for classification evaluation criteria

        各算法的各項(xiàng)指標(biāo)值如下圖2 所示。

        圖2 不同方法的準(zhǔn)確率對比圖Fig.2 Comparison of precision of each method

        由圖2 可見,在7 次迭代下,本文方法對網(wǎng)絡(luò)偏好數(shù)據(jù)的分析與識別準(zhǔn)確率較高,說明在進(jìn)行語篇情感偏好識別時(shí),對語篇中句子的情感權(quán)重判斷效果較好。在文本挖掘和情感強(qiáng)度模型建立的基礎(chǔ)上,考慮情感強(qiáng)度的社會網(wǎng)絡(luò)偏好信息加權(quán)識別方法實(shí)際應(yīng)用效果較強(qiáng)。

        應(yīng)用情感分析用語詞集,在系統(tǒng)查全率即召回率方面進(jìn)行對比結(jié)果如圖3 所示。

        圖3 不同方法的系統(tǒng)數(shù)據(jù)召回率對比圖Fig.3 Comparison of recall of each method

        由圖3 可知,在進(jìn)行系統(tǒng)召回率測試時(shí),本文方法的召回效果對比結(jié)果魯棒性較強(qiáng),說明本文方法對文本中表情符號、網(wǎng)址等無意義的文本進(jìn)行清理后,實(shí)際有用的數(shù)據(jù)能夠被系統(tǒng)查全即有效召回。

        將以上兩次實(shí)驗(yàn)數(shù)據(jù)進(jìn)行二次擬合,使用F 值進(jìn)行整體效果評估。評估結(jié)果如圖4 所示。

        圖4 不同方法的F 值對比結(jié)果Fig.4 Comparison of F values of each method

        從圖4 中可以看出,在情感識別的過程中,文獻(xiàn)[4]算法整體效果最差,本文算法要優(yōu)于其它文獻(xiàn)方法。最終獲得的召回率、準(zhǔn)確率和F值的數(shù)值都高于前兩者。因此,證明本文算法是可行的,并且識別效果更優(yōu)。

        5 結(jié)束語

        用戶對網(wǎng)絡(luò)使用體驗(yàn)感要求增高,情感強(qiáng)度能夠有效獲取用戶對某種屬性喜愛程度。本文提出的考慮情感強(qiáng)度的加權(quán)社會網(wǎng)絡(luò)偏好信息識別算法,經(jīng)對比試驗(yàn)得出如下結(jié)論:

        (1)通過將其本身定義的權(quán)重值與句中的副詞權(quán)值相乘來獲得文本的總體情感強(qiáng)度,優(yōu)化語句情感權(quán)重,實(shí)現(xiàn)語句的整體閾值。

        (2)在排除無意義文本信息后,對文本進(jìn)行特征提取及向量轉(zhuǎn)化,通過GMM 算法進(jìn)行情感偏好狀態(tài)測定,總體識別效果更好。

        猜你喜歡
        文本情感信息
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        蜜臀久久99精品久久久久久小说| 国产av一区二区三区区别| 日本在线免费精品视频| 国产精品亚洲一区二区三区在线| 国产激情自拍在线视频| a级毛片免费观看在线播放| 欧美疯狂性xxxxxbbbbb| 国产欧美日本亚洲精品一4区| 国产亚洲av夜间福利在线观看| 亚洲a∨无码精品色午夜| 亚洲av日韩aⅴ无码色老头| 一道久在线无码加勒比| 无码av永久免费大全| 亚洲国产一区二区中文字幕| 国产内射一级一片内射视频| 精品乱码久久久久久久 | 91精品全国免费观看青青| 亚洲视频观看一区二区| 成人免费播放视频777777 | 欧美日本精品一区二区三区| 人人爽人人爽人人片av| 大地资源中文第三页| 午夜日本精品一区二区| 美利坚日韩av手机在线| 人妻丰满熟妇av无码区hd| 污污污污污污污网站污| 久久免费网站91色网站| 美女被男人插得高潮的网站| 亚洲无亚洲人成网站77777| 狠狠久久精品中文字幕无码| 狠狠躁夜夜躁人人爽天天不卡| 国产三级c片在线观看| 国产特级毛片aaaaaa高潮流水| 亚洲va中文字幕无码毛片| 久热这里只有精品99国产| 亚洲国产精品成人一区| 男人的天堂av高清在线| a级国产乱理论片在线观看 | 久久福利青草精品免费| 一区二区三区岛国av毛片| 中文字幕一区二区三区视频|