亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合密度峰值與局部特征的大數(shù)據(jù)情感分析

        2021-11-17 07:35:00孟祥光郭東偉
        計(jì)算機(jī)仿真 2021年6期
        關(guān)鍵詞:聚類向量詞匯

        孟祥光,郭東偉

        (吉林大學(xué)軟件學(xué)院,吉林長春市 130021)

        1 引言

        在互聯(lián)網(wǎng)應(yīng)用中,人們對于商品、服務(wù)、民生、事件等的討論和評價(jià),發(fā)揮著越來越重要的作用。企業(yè)可以根據(jù)用戶評價(jià)優(yōu)化商品和經(jīng)營服務(wù);政府可以根據(jù)民眾評論快速掌握民生需求,防止發(fā)生輿情事件;用戶可以根據(jù)網(wǎng)絡(luò)討論和評價(jià)確定目標(biāo)商品及購買意愿。總之,充分利用討論與評價(jià)數(shù)據(jù),獲取其中隱含的價(jià)值信息對于互聯(lián)網(wǎng)良性發(fā)展具有推動作用,于是情感分析技術(shù)應(yīng)運(yùn)而生。該技術(shù)就是基于互聯(lián)網(wǎng)中的主觀文本,由計(jì)算機(jī)自動提取出其中所要表達(dá)的情感信息[1]。但是對于一些具有隱含意義的自然語言,準(zhǔn)確可靠的情感提取并非易事[2-3]。當(dāng)前使用較多的方法是機(jī)器學(xué)習(xí),結(jié)合語法、語義特征完成分類。文獻(xiàn)[4]提出了一種多神經(jīng)網(wǎng)絡(luò)融合的方式實(shí)現(xiàn)情感分析;文獻(xiàn)[5]利用ELMO轉(zhuǎn)換詞匯向量,并采用MSCNN訓(xùn)練詞匯向量并提取特征;文獻(xiàn)[6]引入self-attention優(yōu)化機(jī)器學(xué)習(xí),改善特征分類性能;文獻(xiàn)[7]基于self-attention機(jī)制設(shè)計(jì)了Tree-LSTM訓(xùn)練模型,同時(shí)引入Maxout神經(jīng)元,進(jìn)一步改善了情感分類的準(zhǔn)確率;文獻(xiàn)[8]融合了self-attention與Bi-LSTM,實(shí)現(xiàn)了雙語情感分析?;谶@些研究,本文也采用機(jī)器學(xué)習(xí)進(jìn)行特征提取,同時(shí)考慮到機(jī)器學(xué)習(xí)參數(shù)較多,學(xué)習(xí)效率較低的問題,難以應(yīng)付大數(shù)據(jù)應(yīng)用場景,于是先對原始數(shù)據(jù)進(jìn)行粗粒度聚類。這里設(shè)計(jì)了一種密度峰值聚類(DPC),DPC具有調(diào)節(jié)參量少,執(zhí)行效率高的優(yōu)點(diǎn)[9],另外本文針對原始數(shù)據(jù)集采取區(qū)域劃分,獨(dú)立聚類,使聚類效率進(jìn)一步提高,最終通過各子區(qū)域輸出合并得到全局結(jié)果。在粗粒度聚類后的本文數(shù)據(jù)上,再融合LSTM-CNN進(jìn)行局部特征提取,大幅縮減了待處理數(shù)據(jù)規(guī)模及參量個(gè)數(shù),從而可以高效可靠的實(shí)現(xiàn)大數(shù)據(jù)情感分析。

        2 DPC優(yōu)化聚類

        DPC優(yōu)化算法的核心是對全部數(shù)據(jù)求解局部密度ρ與相對距離δ[10],構(gòu)造(ρ,δ)關(guān)系,進(jìn)而確定聚類中心。對于任意數(shù)據(jù)i,其局部密度ρi可以利用與其它數(shù)據(jù)的歐氏距離dij(j≠i)來計(jì)算,公式如下

        (1)

        (2)

        根據(jù)dij與ρi,計(jì)算相對距離,公式如下

        (3)

        在對數(shù)據(jù)集合進(jìn)行子區(qū)域分割時(shí),采用網(wǎng)格策略。此時(shí),算法主要求解每個(gè)子區(qū)域內(nèi)的數(shù)據(jù)密度與距離,以及鄰近子區(qū)域的相關(guān)參數(shù),這樣的處理過程在優(yōu)化數(shù)據(jù)計(jì)算復(fù)雜度的同時(shí),有利于改善分布式計(jì)算的負(fù)載均衡性。對于一些數(shù)據(jù)點(diǎn),所屬簇可能與所屬子區(qū)域并不是一個(gè),這種邊界數(shù)據(jù)可以將其同時(shí)歸屬于不同子區(qū)域。于是提出子區(qū)域擴(kuò)展定義,假定si為任意子區(qū)域,邊界數(shù)據(jù)所屬簇的截距為d,則擴(kuò)展后的子區(qū)域?yàn)閟i+d。當(dāng)數(shù)據(jù)包含多維度時(shí),子區(qū)域?qū)?yīng)為空間區(qū)域。為盡可能降低數(shù)據(jù)劃分對ρi的影響,本文引入高斯核優(yōu)化ρi,計(jì)算公式為

        (4)

        (5)

        這里的n表示網(wǎng)格劃分的子區(qū)域數(shù)量。對于任何一個(gè)子區(qū)域而言,只有ρi與δi的乘積超過門限值,才能將其確定為聚類中心。在采用局部DPC聚類時(shí),通過擴(kuò)展可能會使一些相鄰區(qū)域產(chǎn)生數(shù)據(jù)交集。當(dāng)需要對子區(qū)域結(jié)果進(jìn)行合并處理時(shí),可以利用邊界數(shù)據(jù)特征搜索出相應(yīng)的簇。假定c1、c2依次為交集區(qū)域A1與A2中的局部簇,它們之間滿足c1?A1,c2?A2,A1∩A2≠?。當(dāng)某數(shù)據(jù)d位于c1與c2簇的交集內(nèi),且該數(shù)據(jù)同時(shí)屬于c1與c2的核心元素,考慮到子區(qū)域交集數(shù)據(jù)一定是邊界數(shù)據(jù),合并點(diǎn)一定落在邊界數(shù)據(jù)內(nèi),則此時(shí)應(yīng)該將c1與c2采取合并,并將d作為合并點(diǎn)。從合并點(diǎn)能夠知道c1與c2存在的聯(lián)系,進(jìn)而能夠確定它們的全局特征。

        3 文本大數(shù)據(jù)情感分析

        3.1 局部優(yōu)化文本特征提取

        文本中的詞性能夠反映出人物的情感特征,假定某文本的詞匯集描述為T={t1,t2,…tn},經(jīng)過Word2Vec可以變換得到相應(yīng)的詞匯向量V(ti)。向外推廣可以得到句子矩陣的詞匯向量集Sij={V(t1),V(t2),…V(tn)},且Sij∈Rn×k,k表示V(ti)的維度。為了在CNN訓(xùn)練時(shí)重點(diǎn)突出詞匯特征,對句子包含的諸如情緒、程度、肯定和否定等詞匯采取標(biāo)注。這里引入多頭注意力,它可以描述為拼接矩陣與加權(quán)形式

        MH(X,K,V)=HW

        (6)

        左側(cè)項(xiàng)的X表示搜索的目標(biāo)向量;K、V是X對應(yīng)的鍵值對;右側(cè)項(xiàng)W表示加權(quán)矩陣;H表示拼接矩陣。在標(biāo)注過程中,文本詞匯特征對應(yīng)多頭拼接矩陣H,任意詞匯對應(yīng)不同的向量值tri,且tri∈Rk。于是,一個(gè)包含n個(gè)詞匯的句子,對應(yīng)的詞匯特征描述如下

        tr1:n=tr1⊕tr2⊕…⊕trn

        (7)

        其中,⊕表示拼接操作。根據(jù)Sij求解出多頭注意力的X、K、V參量,公式如下

        (8)

        其中,wX、wK與wV均表示加權(quán)矩陣。于是,利用注意力得到詞匯特征輸出為

        (9)

        把輸出結(jié)果Otr采取如下前饋加權(quán),從而求解出額外特征

        (10)

        wm表示前饋加權(quán)矩陣;etr表示偏移量。至此,通過前述計(jì)算可以得到文本句子內(nèi)的情感詞匯特征??紤]到詞匯特征與句子表達(dá)可能存在差異,這里將詞匯與句子各自對應(yīng)的特征進(jìn)行融合。采取門控加權(quán)融合,公式如下

        R=activate(wt⊙Ce+(1-activate(wt⊙))⊙Cs)

        (11)

        activate(-)表示激活函數(shù);wt表示門控加權(quán);Cs表示句子特征,提取公式如下

        Cs=softmax(0,w1Otr+e1)w2+e2

        (12)

        w1與w2均表示加權(quán);e1與e2均表示偏移量。再利用如下公式計(jì)算出句子的情感極性

        p=softmax(wlinkCs+elink)

        (13)

        wlink與elink分別表示連接層加權(quán)和偏移量。CNN網(wǎng)絡(luò)在訓(xùn)練情感極性p的過程中,采取交叉熵進(jìn)行評估

        (14)

        cij=f(F·V(t(i:i+l-1))+e)

        (15)

        cij是包含詞匯i的句子j對應(yīng)的局部特征;l是要提取的詞匯向量行數(shù);V(t(i:i+l-1))是獲取i至i+l-1行詞匯向量;F是卷積濾波;e是偏移量;f(-)是ReLU變換。

        3.2 文本特征提取流程

        基于局部特征優(yōu)化的文本大數(shù)據(jù)情感分析流程如下:

        1)文本大數(shù)據(jù)初始化操作,一方面去除文本內(nèi)沒有語義的非詞匯;另一方面利用分詞器對文本內(nèi)詞匯采取分割處理。在去除非詞匯的同時(shí),為防止噪聲干擾,還會對停用詞進(jìn)行刪除。將分割后的詞匯采取Word2Vec變換,構(gòu)造向量字典。

        2)在CNN的嵌入層完成向量拼接,并利用式(7)得到句子整體的詞匯特征。

        3)將Sij輸入至BiLSTM層,同時(shí)給定Sigmoid激活函數(shù)。在BiLSTM層的輸入端,采取雙向策略,利用隱層分別得到詞匯與句子特征。在BiLSTM層的輸出端,采取Bijt=BiLSTM(Sijt)方式完成結(jié)果拼接,Bijt即為時(shí)間點(diǎn)t,BiLSTM層的最終結(jié)果;Sijt表示在時(shí)間點(diǎn)t,包含詞匯i的句子j對應(yīng)矩陣。

        4)在CNN中計(jì)算局部特征,采用Cijt=CNN(Bijt)糾正BiLSTM層結(jié)果,Cijt即為時(shí)間點(diǎn)t,CNN輸出結(jié)果。對詞匯與句子特征采取融合,并使全連接層介入。

        5)利用softmax得到大數(shù)據(jù)情感分類。

        4 仿真與結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境與衡量指標(biāo)

        仿真操作系統(tǒng)為Windows10,軟件實(shí)現(xiàn)語言為Python,實(shí)驗(yàn)數(shù)據(jù)集選擇COAE2014,該數(shù)據(jù)集具有40000條數(shù)據(jù)。在COAE2014內(nèi)部,有5000條對應(yīng)的情感極性為已知的,可以用于網(wǎng)絡(luò)或深度學(xué)習(xí)。詞匯截取選擇jieba,向量變換選擇Word2Vec,經(jīng)過處理后最終得到的向量模型配置如表1。

        表1 向量模型配置

        在衡量密度峰值聚類性能時(shí)選擇ARI指標(biāo)。ARI能夠描述聚類輸出和實(shí)際的吻合性,它的變化區(qū)間是[-1,1],計(jì)算公式為

        (16)

        式中,RI表示蘭德系數(shù);E(RI)表示RI期望。ARI的值越接近1,說明聚類效果越好,越接近-1,說明聚類效果越差。RI的計(jì)算公式為

        (17)

        在衡量數(shù)據(jù)情感分類時(shí)選擇Precision、Recall和Fl-measure三項(xiàng)指標(biāo)。其中Precision用于衡量數(shù)據(jù)分類的查準(zhǔn)率,計(jì)算公式為

        (18)

        這里的TP表示積極情感數(shù)據(jù)被正確分類成積極情感的數(shù)量。FP表示錯誤標(biāo)記成正的數(shù)量,即非積極情感數(shù)據(jù)被錯誤分類成積極情感的數(shù)量。Recall用于衡量數(shù)據(jù)分類的查全率,計(jì)算公式為

        (19)

        這里的FN表示積極情感數(shù)據(jù)被錯誤分類成積極情感的數(shù)量。Fl-measure是對Precision和Recall的綜合評價(jià),計(jì)算公式為

        (20)

        4.2 實(shí)驗(yàn)結(jié)果分析

        為了衡量局部DPC優(yōu)化算法的聚類性能,引入AE-MDPC[9]和DPPOD[10]方法作為比較。實(shí)驗(yàn)過程中,依次增加數(shù)據(jù)規(guī)模,得到不同數(shù)據(jù)規(guī)模下各方法的ARI指標(biāo),結(jié)果如圖1所示。根據(jù)結(jié)果對比,當(dāng)數(shù)據(jù)規(guī)模增加時(shí),各聚類方法的ARI值均有所增加。其中本文方法的ARI值始終最高,表明聚類效果與實(shí)際類別最吻合。這得益于本文設(shè)計(jì)的區(qū)域劃分與局部聚類策略,針對劃分區(qū)域使用高斯核優(yōu)化密度計(jì)算,并根據(jù)密度與距離乘積實(shí)時(shí)調(diào)整篩選門限,使聚類中心實(shí)現(xiàn)自適應(yīng)選擇,從而獲得更準(zhǔn)確的聚類性能。

        圖1 實(shí)驗(yàn)結(jié)果

        為了衡量本文方法在大數(shù)據(jù)情感分類方面的整體性能,本文引入文獻(xiàn)[6]、文獻(xiàn)[7]和文獻(xiàn)[8]中方法作為比較,分別得出不同方法在COAE2014數(shù)據(jù)集下的Precision、Recall和Fl-measure指標(biāo),結(jié)果如圖2所示。根據(jù)指標(biāo)數(shù)據(jù),本文方法相比于文獻(xiàn)[6]、文獻(xiàn)[7]和文獻(xiàn)[8],在Precision指標(biāo)上依次提高了0.035、0.026和0.054;在Recall指標(biāo)上依次提高了0.04、0.023和0.051;在F1-measure綜合指標(biāo)上依次提高了0.037、0.025和0.053。表明本文方法在查準(zhǔn)率與查全率方面都有顯著提升,能夠更加準(zhǔn)確的對數(shù)據(jù)情感進(jìn)行分類,并且具有更高的搜索全面性。究其原因,是由于本文在密度峰值聚類的基礎(chǔ)上,利用BiLSTM-CNN提取了文本詞匯與句子特征,并采取融合處理,同時(shí)采用了局部特征糾正結(jié)果,從而保證了本文方法在上下文與局部特征方面的處理都更為合理準(zhǔn)確。

        圖2 性能指標(biāo)對比

        為驗(yàn)證本文方法在大數(shù)據(jù)情感分類方面的實(shí)時(shí)性,實(shí)驗(yàn)過程中依次增加數(shù)據(jù)規(guī)模,統(tǒng)計(jì)得到不同數(shù)據(jù)規(guī)模下方法的分析時(shí)間,結(jié)果如圖3所示。根據(jù)曲線可知,在數(shù)據(jù)規(guī)模增長過程中,分析時(shí)間的增長速度比較緩慢且線性。表明本文方法的處理效率較高,適用于大數(shù)據(jù)場景的情感分析。這是由于本文方法在前期的聚類階段采用了區(qū)域劃分策略,便于大數(shù)據(jù)任務(wù)的拆分并發(fā)處理,同時(shí)前期聚類能夠大大降低后期特征分類操作的復(fù)雜度。

        圖3 大數(shù)據(jù)情感分析時(shí)間

        5 結(jié)束語

        為了改善文本大數(shù)據(jù)情感分析性能,本文采用了分層處理策略。首先在底層設(shè)計(jì)了改進(jìn)DPC算法,使其能夠通過區(qū)域劃分更快更準(zhǔn)確的達(dá)到聚類要求,對文本大數(shù)據(jù)進(jìn)行粗粒度的分類,降低后期處理的數(shù)據(jù)規(guī)模和難度。然后在上層設(shè)計(jì)了局部優(yōu)化文本特征提取方法,通過詞匯與句子特征融合,以及局部特征修正,完成情感分類。仿真結(jié)果表明,密度峰值優(yōu)化算法具有更好的聚類效果,融合密度峰值與局部特征的大數(shù)據(jù)情感分析方法具有更好的準(zhǔn)確度與實(shí)時(shí)性。

        猜你喜歡
        聚類向量詞匯
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        本刊可直接用縮寫的常用詞匯
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        向量垂直在解析幾何中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        久久日本视频在线观看| 国产成人国产在线观看入口| 伊香蕉大综综综合久久| 男女搞黄在线观看视频| 免费视频无打码一区二区三区| av国产传媒精品免费| 日本精品人妻无码77777| 久久久精品456亚洲影院| 精品国产日产av在线| 午夜人妻久久久久久久久| 看全色黄大色大片免费久久| 一本到无码AV专区无码| 亚洲一区二区丝袜美腿| 国产视频自拍一区在线观看| 亚洲日本va中文字幕| 99热成人精品免费久久| 韩国日本在线观看一区二区| 亚洲一区二区三区,日本| 国产精品制服| 国产人成亚洲第一网站在线播放 | 激情综合网缴情五月天| 草逼视频免费观看网站| 国产成人综合亚洲看片| 91久久青青草原线免费| 精品日本一区二区视频| 国产亚洲自拍日本亚洲 | 欧美午夜一区二区福利视频| 精品国产日韩无 影视| 风骚人妻一区二区三区| 免费无码又黄又爽又刺激| 欧美国产高清| 免费人成网站在线观看| 狠狠色噜噜狠狠狠777米奇| 一个人在线观看免费视频www| 国产日韩AV无码免费一区二区| 国产三级黄色大片在线免费看| 人妻少妇不满足中文字幕| 91精品国产91久久久无码95| 亚洲视频在线免费观看一区二区| 午夜爽爽爽男女免费观看影院| 欧美婷婷六月丁香综合色|