亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        社交網(wǎng)絡(luò)中意見領(lǐng)袖的敏感輿論傾向識(shí)別

        2021-11-20 01:57:28徐雅斌
        關(guān)鍵詞:多任務(wù)指紋輿論

        宋 振,徐雅斌

        (1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101;2.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)

        0 引 言

        針對(duì)意見領(lǐng)袖對(duì)于敏感輿論傳播舉足輕重的作用,設(shè)計(jì)了基于多任務(wù)學(xué)習(xí)方法并結(jié)合自注意力機(jī)制的意見領(lǐng)袖敏感輿論傾向識(shí)別方案,方案的整體架構(gòu)如圖1所示。

        圖1 意見領(lǐng)袖的敏感輿論傾向識(shí)別框架

        (1)篩選涉及敏感詞的文本:首先對(duì)意見領(lǐng)袖歷史文本進(jìn)行預(yù)處理;然后對(duì)文本中的敏感詞和變形詞進(jìn)行識(shí)別;利用設(shè)計(jì)的識(shí)別規(guī)則來(lái)識(shí)別變形敏感詞,并對(duì)識(shí)別出來(lái)的變形敏感詞,采用“指紋匯聚”技術(shù)打上與原始敏感詞相同的指紋值。

        (2)語(yǔ)義指紋技術(shù)快速識(shí)別文本輿論傾向:首先篩選出包含敏感詞的文本,根據(jù)語(yǔ)義生成算法計(jì)算其語(yǔ)義指紋,然后與事先建立的語(yǔ)義指紋庫(kù)(D_tof)中的文本計(jì)算語(yǔ)義相似距離,對(duì)于語(yǔ)義相似距離小于設(shè)定閾值的文本,直接從指紋庫(kù)獲取其敏感輿論傾向。

        (3)MTL-SA-LSTM模型識(shí)別文本輿論傾向:對(duì)上一步匹配失敗的文本,利用MTL-SA-LSTM模型識(shí)別其敏感輿論傾向。對(duì)于識(shí)別結(jié)果,計(jì)算其語(yǔ)義指紋值并添加到語(yǔ)義指紋庫(kù)中,實(shí)現(xiàn)語(yǔ)義指紋庫(kù)的自動(dòng)擴(kuò)充,以便后續(xù)相似文本的快速識(shí)別。

        本文創(chuàng)新點(diǎn)如下:

        (1)采用多任務(wù)學(xué)習(xí)方法,同時(shí)對(duì)敏感輿論和輿論傾向進(jìn)行識(shí)別;通過(guò)任務(wù)間的相互支持,有效提高識(shí)別效果;此外,通過(guò)增加自注意力機(jī)制,提取任務(wù)的主要特征,進(jìn)一步提升識(shí)別準(zhǔn)確率。

        (2)采用指紋匯聚技術(shù)關(guān)聯(lián)敏感詞和變形詞,實(shí)現(xiàn)敏感詞的快速識(shí)別;采用語(yǔ)義指紋技術(shù)建立語(yǔ)義指紋庫(kù),實(shí)現(xiàn)對(duì)重復(fù)或相似文本敏感輿論傾向的快速精準(zhǔn)檢測(cè),提升識(shí)別效率。

        1 相關(guān)工作

        為了識(shí)別意見領(lǐng)袖的輿論傾向,國(guó)內(nèi)外學(xué)者針對(duì)微博等社交網(wǎng)絡(luò)開展了識(shí)別方法研究。針對(duì)教育網(wǎng)絡(luò)數(shù)據(jù),通過(guò)聚類獲取同一個(gè)教育網(wǎng)絡(luò)輿情數(shù)據(jù),然后擴(kuò)充情緒詞典,增加教育相關(guān)名詞情緒值,通過(guò)分析評(píng)論文本表達(dá)的情緒來(lái)識(shí)別其輿論傾向[1]。針對(duì)彈幕數(shù)據(jù)特點(diǎn),構(gòu)建了彈幕數(shù)據(jù)的停用詞表和彈幕情感詞典,在此基礎(chǔ)上利用卷積神經(jīng)網(wǎng)絡(luò)分析彈幕數(shù)據(jù)的情感傾向來(lái)識(shí)別輿論傾向[2]。從涉及新疆暴亂的新聞入手,通過(guò)兩次非負(fù)矩陣分解生成窗口主題和動(dòng)態(tài)主題,然后對(duì)主題熱度、關(guān)鍵詞、內(nèi)容變化進(jìn)行分析,通過(guò)內(nèi)容情感極性的變化來(lái)分析輿論傾向的變化情況[3]。通過(guò)話題快速聚類收集相關(guān)話題博文,然后對(duì)博文的情感強(qiáng)度進(jìn)行量化計(jì)算,通過(guò)時(shí)序回歸分析追蹤熱點(diǎn)話題的情感變化來(lái)預(yù)測(cè)公眾的輿論傾向[4]。針對(duì)傳統(tǒng)文本表示模型在小數(shù)據(jù)集下效果不好及易過(guò)擬合的問(wèn)題,通過(guò)雙向表示來(lái)提取特征,提出了一種深度雙向自編碼的輿論傾向識(shí)別模型,提高了模型的泛化能力[5]。針對(duì)關(guān)鍵詞分析熱點(diǎn)話題,然后根據(jù)粉絲數(shù)、關(guān)注關(guān)系、信息傳播等特征挖掘出關(guān)鍵用戶和事件,分析熱點(diǎn)話題文本的情感傾向來(lái)預(yù)測(cè)該話題的輿論傾向[6]。以上研究方法基本都是基于情感分析來(lái)實(shí)現(xiàn)輿論傾向的識(shí)別工作,但是單純的情感分析容易誤判,比如對(duì)負(fù)向敏感輿論的負(fù)向傾向其結(jié)果為正向敏感輿論傾向。

        為了解決現(xiàn)有敏感詞檢測(cè)算法不能準(zhǔn)確識(shí)別讀音和字形相似的變形詞問(wèn)題,綜合考慮敏感詞讀音和字形進(jìn)行特殊編碼,提出了模糊匹配的敏感詞相似度對(duì)比算法[7]。首先構(gòu)建不文明語(yǔ)言數(shù)據(jù)集,然后將變壓器的雙向編碼器表示與雙向長(zhǎng)期內(nèi)存網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合來(lái)識(shí)別敏感詞,以此來(lái)檢測(cè)敏感信息[8]。針對(duì)粗粒度情感分析不能準(zhǔn)確提取對(duì)敏感詞的情感傾向問(wèn)題,通過(guò)提取評(píng)價(jià)詞和評(píng)價(jià)對(duì)象對(duì)文本進(jìn)行細(xì)粒度情感分析,提高了敏感情感傾向識(shí)別的準(zhǔn)確性[9]。采用貝葉斯濾波技術(shù)來(lái)檢測(cè)敏感內(nèi)容,通過(guò)字符串近似匹配技術(shù)來(lái)提高檢測(cè)性能[10]。通過(guò)制定規(guī)則提取敏感詞短語(yǔ)結(jié)合情感詞典,分析發(fā)文者對(duì)敏感詞的情感來(lái)分析文本的敏感性,解決了傳統(tǒng)關(guān)鍵詞匹配忽視上下文信息導(dǎo)致誤報(bào)的問(wèn)題[11]。通過(guò)敏感事件觸發(fā)抽取敏感事件序列,根據(jù)敏感事件、文本信息、構(gòu)建的敏感詞典進(jìn)行相似度計(jì)算,綜合各個(gè)信息的權(quán)重來(lái)識(shí)別文本的敏感性[12]。針對(duì)敏感詞的變形特點(diǎn)設(shè)計(jì)相應(yīng)的識(shí)別規(guī)則,然后利用指紋匯聚技術(shù)將變形詞與原詞進(jìn)行關(guān)聯(lián),較好解決了敏感詞的識(shí)別問(wèn)題[13]。以上研究大多都是基于敏感關(guān)鍵詞實(shí)現(xiàn)對(duì)敏感文本的識(shí)別,方法簡(jiǎn)單有效,但是缺乏靈活性,并且過(guò)于依賴關(guān)鍵詞庫(kù)。

        涉及敏感輿論的文本往往具有一定的語(yǔ)義傾向,但是包含敏感詞匯的文本不一定具有輿論傾向。所以識(shí)別敏感輿論傾向時(shí),需要從語(yǔ)義角度對(duì)文本中的敏感輿論及對(duì)該輿論表達(dá)的態(tài)度進(jìn)行聯(lián)合識(shí)別,才能得出最準(zhǔn)確的意見領(lǐng)袖的敏感輿論傾向。

        通過(guò)對(duì)語(yǔ)義分析技術(shù)在反恐領(lǐng)域中應(yīng)用現(xiàn)狀的分析,表明語(yǔ)義對(duì)于其研究的重要性[14]。定量分析了敏感輿論與其情感極性之間的關(guān)系,并提出了敏感關(guān)鍵詞與情感極性協(xié)同分析的敏感信息識(shí)別方法[15]。通過(guò)HotNet情感詞典與中國(guó)情感詞匯本體論構(gòu)建情感詞典,根據(jù)輿論時(shí)序狀態(tài)下的情感變化,來(lái)分析民眾的輿論傾向[16]。以上研究表明,在敏感主題的基礎(chǔ)上考慮情感傾向因素具有一定的合理性并且能在很大程度上提高敏感輿論傾向識(shí)別的準(zhǔn)確率。

        近年來(lái),深度學(xué)習(xí)發(fā)展迅速,通過(guò)標(biāo)注大規(guī)模語(yǔ)料,利用深度學(xué)習(xí)技術(shù)去學(xué)習(xí)文本潛在的語(yǔ)法和語(yǔ)義特征,有效彌補(bǔ)了人工提取特征的不足,具有更好的靈活性和魯棒性[17]。提出基于自注意力機(jī)制的情感分類方法,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)上下文信息,然后利用自注意力學(xué)習(xí)詞語(yǔ)的權(quán)重信息,提高了情感分類的準(zhǔn)確性[18]。提出基于魯棒多任務(wù)學(xué)習(xí)模型,對(duì)微博用戶進(jìn)行大五人格預(yù)測(cè),既共享多個(gè)任務(wù)之間的關(guān)聯(lián)信息,又能識(shí)別出不相關(guān)任務(wù),增強(qiáng)了模型的魯棒性,取得了較好的效果[19]。對(duì)多標(biāo)簽病例進(jìn)行建模分析,構(gòu)建基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的疾病預(yù)測(cè)模型,充分考慮病人醫(yī)學(xué)特征變化規(guī)律[20]。采用分類訓(xùn)練解決事件多標(biāo)簽的問(wèn)題,采用多任務(wù)學(xué)習(xí)方法對(duì)各事件子類進(jìn)行相互增強(qiáng)的聯(lián)合學(xué)習(xí),進(jìn)而有效緩解分類訓(xùn)練后的語(yǔ)料稀疏問(wèn)題[21]。提出一種多任務(wù)學(xué)習(xí)模型對(duì)罪名預(yù)測(cè)和法條推薦兩個(gè)任務(wù)進(jìn)行聯(lián)合建模同時(shí)采用統(tǒng)計(jì)方法從案情描述中抽取有助于區(qū)分易混淆罪名的指示性罪名關(guān)鍵詞,并將它們?nèi)谌氲蕉嗳蝿?wù)學(xué)習(xí)模型中[22]。

        以上研究可以看出深度多任務(wù)學(xué)習(xí)可以有效緩解數(shù)據(jù)不足及不均衡的問(wèn)題,并且利用任務(wù)間的特征共享進(jìn)一步提升識(shí)別效果。

        2 敏感輿論傾向的快速識(shí)別

        2.1 敏感詞識(shí)別

        意見領(lǐng)袖在發(fā)布敏感輿論時(shí),為了逃避檢測(cè),往往會(huì)對(duì)敏感詞進(jìn)行變形處理,例如字詞拆分、夾雜特殊符號(hào)等。雖然敏感詞進(jìn)行變形偽裝之后與原敏感詞形式不同,但是其詞義并沒有發(fā)生改變。

        針對(duì)這種情況,我們采用指紋匯聚技術(shù),通過(guò)將變形敏感詞與原始敏感詞打上相同的指紋進(jìn)行關(guān)聯(lián),保證變形詞與敏感詞詞義上的一致性。

        指紋匯聚過(guò)程如下所示:

        敏感詞搜集,建立敏感詞庫(kù);

        敏感詞指紋值獲?。豪肑enKins Hash函數(shù)對(duì)原始敏感詞進(jìn)行哈希處理,得到一個(gè)唯一的哈希值作為其指紋值,寫入敏感詞庫(kù)。

        變形敏感詞識(shí)別:針對(duì)敏感詞變形的特點(diǎn)設(shè)計(jì)了如下變形詞識(shí)別規(guī)則。

        規(guī)則1:繁體字轉(zhuǎn)化為簡(jiǎn)體字,去除文本中的特殊符號(hào);

        規(guī)則2:分詞結(jié)果存在拼音或拼音首字母,以字母為中心,將前后4個(gè)字化為拼音或首字母;

        規(guī)則3:分詞結(jié)果存在3個(gè)或以上連續(xù)單字,將單字轉(zhuǎn)化為對(duì)應(yīng)的拼音;

        將規(guī)則2、規(guī)則3得到的拼音或拼音首字母與敏感詞庫(kù)中的敏感詞的拼音及首字母進(jìn)行比對(duì),比對(duì)成功則視為敏感變形詞。

        例如:原始敏感詞wi=“國(guó)慶”, 首先利用JenKins函數(shù)對(duì)其進(jìn)行哈希處理,得到一個(gè)唯一的hash值:101001,即敏感詞wi的指紋值fi=“101001”。 (文中為了便于說(shuō)明問(wèn)題,采用6位的指紋值,但實(shí)際上采用的是64位指紋值)。然后將識(shí)別出的每一個(gè)對(duì)應(yīng)該敏感詞的變形詞(如“guo慶”、“過(guò)慶”、“G慶”)都映射到同一個(gè)指紋值上,這樣所有的變形詞,最終在文中所代表的都是該原始敏感詞。指紋匯聚過(guò)程如圖2所示。

        圖2 敏感詞指紋匯聚

        收集到敏感詞3844個(gè),通過(guò)Jenkins Hash函數(shù)計(jì)算出每一個(gè)敏感詞的指紋值,同時(shí)對(duì)識(shí)別出的每個(gè)變形詞,打上與其原始敏感詞相同的指紋值。

        2.2 敏感文本語(yǔ)義計(jì)算

        在對(duì)涉及敏感輿論文本進(jìn)行分析時(shí),發(fā)現(xiàn)存在很多相似度很高或重復(fù)的文本內(nèi)容,針對(duì)此類文本,若是逐條利用MTL-SA-LSTM模型進(jìn)行識(shí)別,勢(shì)必會(huì)產(chǎn)生很大的時(shí)間開銷,并造成不必要的系統(tǒng)資源浪費(fèi)。為了進(jìn)一步提高模型的識(shí)別效率,對(duì)于相似度較高的文本,利用語(yǔ)義指紋技術(shù)對(duì)其進(jìn)行快速識(shí)別。采用SWFG-SFG語(yǔ)義生成算法來(lái)計(jì)算文本的語(yǔ)義指紋,該算法步驟如下:

        輸入:識(shí)別文本S。

        輸出:待識(shí)別文本的語(yǔ)義指紋值F。

        (1)對(duì)文本進(jìn)行分詞得到詞集合;

        (2)識(shí)別敏感詞及其變形詞,并從D_po指紋庫(kù)獲取其指紋值;

        (3)對(duì)第一步得到的詞集合進(jìn)行哈希處理,得到其二進(jìn)制哈希值,將詞頻當(dāng)作該詞的權(quán)重,然后調(diào)整各詞語(yǔ)的hash值:若hash值第i位是1置為其權(quán)值,為0置為負(fù)權(quán)值;

        (4)對(duì)上一步得到的hash值集合,進(jìn)行按位求和,得到序列值。第i位為正則置為1,為負(fù)則置為0,由此得到最終文本的語(yǔ)義指紋值。

        (5)循環(huán)處理從意見領(lǐng)袖歷史文本中篩選出的每一條文本。

        下面以實(shí)例來(lái)解釋語(yǔ)義指紋的生成過(guò)程:

        待識(shí)別文本S: 歡度國(guó)慶,我們一起助力guo慶。

        在進(jìn)行分詞、去除停用詞后,識(shí)別敏感詞及其變形詞并進(jìn)行指紋匯聚,得到如下結(jié)果: {“歡度”,“國(guó)慶”(101001),“我們”,“一起”,“助力”,“guo慶”(101001)}。

        各元素詞頻統(tǒng)計(jì): {“國(guó)慶”(2),“歡度”(1),“我們”(1),“一起”(1),“助力”(1)}。

        接下來(lái)計(jì)算各元素hash值: {101001,“111011”,“101100”,“100100”,“001001”}。

        根據(jù)詞頻調(diào)整各位元素的hash值: {2-22-2-22,“111-111”,“1-111-1-1”,“1-1-11-1-1”,“-1-11-1-11”}。

        對(duì)獲得的詞語(yǔ)hash值集合,進(jìn)行按位求和,得F′={4-44-2-42}。 根據(jù)每一位的符號(hào)(正為1,負(fù)為0)得到文本S的語(yǔ)義指F={101001}。

        2.3 敏感輿論傾向快速識(shí)別

        根據(jù)上一節(jié)生成的語(yǔ)義指紋,可以對(duì)重復(fù)的或相似度較高的文本進(jìn)行快速識(shí)別。通過(guò)與事先建立的語(yǔ)義指紋庫(kù)D_tof進(jìn)行對(duì)比,計(jì)算其漢明距離,當(dāng)兩者漢明距離小于設(shè)置的閾值,就認(rèn)為兩文本重復(fù),具有相同的輿論傾向。當(dāng)兩者漢明距離大于設(shè)定的閾值,則通過(guò)設(shè)計(jì)的模型進(jìn)行識(shí)別其輿論傾向。對(duì)識(shí)別出來(lái)的結(jié)果,將對(duì)應(yīng)文本及其語(yǔ)義指紋存入到語(yǔ)義指紋庫(kù)中,實(shí)現(xiàn)指紋庫(kù)的自動(dòng)擴(kuò)充,以便后續(xù)對(duì)相似文本進(jìn)行快速識(shí)別。

        識(shí)別過(guò)程如下所示:

        對(duì)待識(shí)別文本,通過(guò)SWFG-SFG算法計(jì)算其語(yǔ)義指紋Fi。

        將上一步得到的指紋值與語(yǔ)義指紋庫(kù)D_tof中的指紋值計(jì)算漢明距離,若存在小于設(shè)置閾值的語(yǔ)義指紋值,就認(rèn)為其為重復(fù)文本,直接從指紋庫(kù)獲取其輿論傾向。

        漢明距離值計(jì)算如下

        dh=numof1(Fi⊕Fj)

        (1)

        式中:dh為求得的漢明距離,⊕表示異或運(yùn)算, numof1() 函數(shù)用于計(jì)算1的個(gè)數(shù),F(xiàn)i和Fj為兩個(gè)語(yǔ)義指紋的二進(jìn)制字符串。

        3 基于深度學(xué)習(xí)的敏感輿論傾向識(shí)別

        針對(duì)敏感輿論傾向識(shí)別的問(wèn)題,目前研究較少。已有的方法是通過(guò)分析文本中敏感詞的情感極性來(lái)識(shí)別輿論傾向,但是由于中文博大精深,語(yǔ)義表達(dá)形式多樣化,有些文本的語(yǔ)義比較復(fù)雜,理解難度很大。僅僅包含敏感詞的文本未必是敏感輿論,而且情感詞對(duì)敏感輿論的修飾關(guān)系難以判斷準(zhǔn)確,因此容易出現(xiàn)錯(cuò)判的情況,導(dǎo)致識(shí)別準(zhǔn)確率不高。為此,本文采用深度學(xué)習(xí)的方式解決語(yǔ)義理解的難題。通過(guò)對(duì)大量標(biāo)注的文本進(jìn)行訓(xùn)練得到模型。但是針對(duì)我們的需求,需要解決敏感輿論的識(shí)別和敏感輿論傾向的識(shí)別這兩個(gè)問(wèn)題,而且這兩個(gè)問(wèn)題密切相關(guān)。如果單獨(dú)對(duì)每個(gè)任務(wù)分別進(jìn)行識(shí)別,則割裂了兩個(gè)任務(wù)之間的關(guān)聯(lián)性。因此我們采用多任務(wù)學(xué)習(xí)機(jī)制來(lái)同時(shí)進(jìn)行兩個(gè)任務(wù)的識(shí)別工作,通過(guò)共享參數(shù)來(lái)獲取兩個(gè)任務(wù)間的共享特征,兩個(gè)任務(wù)相互促進(jìn),提升識(shí)別準(zhǔn)確率。

        由于每個(gè)詞對(duì)于文本分類結(jié)果的重要程度有所不同。因此,我們引入自注意力機(jī)制,學(xué)習(xí)詞語(yǔ)在句子中的權(quán)重值,句子中重要程度高的詞具有較高的權(quán)值,突顯出重要詞對(duì)分類結(jié)果的影響,進(jìn)一步提升模型的識(shí)別準(zhǔn)確率。

        相對(duì)于CNN等深度學(xué)習(xí)模型來(lái)說(shuō),基于長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的方法可以有效利用文本間的時(shí)序關(guān)系和文本內(nèi)長(zhǎng)間距詞語(yǔ)間的依賴關(guān)系,并且長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)具有較好的特征抽取性能及較高的文本分類性能。

        因此我們將敏感輿論識(shí)別和敏感輿論傾向識(shí)別兩個(gè)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),同時(shí)在神經(jīng)網(wǎng)絡(luò)中增加自注意力層,構(gòu)建基于多任務(wù)學(xué)習(xí)的輿論傾向識(shí)別長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)模型(long-short-term memory based on multi-task and self-attention,MTL-SA-LSTM),來(lái)進(jìn)行意見領(lǐng)袖的敏感輿論傾向識(shí)別工作。

        我們?cè)O(shè)計(jì)的基于多任務(wù)學(xué)習(xí)的輿論傾向識(shí)別長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)識(shí)別模型(MTL-SA-LSTM)如圖3所示。

        圖3 基于多任務(wù)學(xué)習(xí)的輿論傾向識(shí)別長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)模型

        MTL-SA-LSTM模型包括以下4個(gè)主要的部分:

        (1)數(shù)據(jù)預(yù)處理層

        主要是對(duì)文本進(jìn)行分詞、去除停用詞、根據(jù)word2vec訓(xùn)練的skip gram模型將文本切分結(jié)果轉(zhuǎn)化為詞向量的表示。

        假設(shè)文本S包含k個(gè)詞,則有S=s1⊕s2…⊕si⊕sk, 其中si表示文本的第i個(gè)詞,⊕表示拼接。對(duì)不同長(zhǎng)度的文本進(jìn)行長(zhǎng)度補(bǔ)齊,給定一個(gè)閾值n, 超過(guò)指定長(zhǎng)度的文本截取前n個(gè)詞,不足長(zhǎng)度的文本采用特定標(biāo)志補(bǔ)齊。以文本S為例

        (2)

        將文本中的每個(gè)詞都映射為一個(gè)低維稠密向量,在詞向量表中詞語(yǔ)所在位置為1,其余的位置全部置0,得到初始化詞向量表E,vsi為第i個(gè)詞在詞向量表的位置。通過(guò)式(3)將文本轉(zhuǎn)化為n×d維的詞向量矩陣

        (3)

        (2)特征學(xué)習(xí)層

        通過(guò)LSTM神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行編碼,并且學(xué)習(xí)文本中上下文的依賴關(guān)系。LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

        圖4 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        (4)

        其中,it為相應(yīng)時(shí)刻輸入詞語(yǔ)需要記憶的信息,ft表示需要丟棄的信息,wi、wf、wc、wo、ui、uf、uc、uo為L(zhǎng)STM模型的權(quán)重矩陣,bi,bc,bf,bo為偏置向量。

        (3)自注意力權(quán)重調(diào)整層

        自注意力層的主要目的是學(xué)習(xí)每個(gè)位置上詞語(yǔ)的權(quán)重值,使得任務(wù)學(xué)習(xí)時(shí)將注意力轉(zhuǎn)移到在句子里占據(jù)重要作用的詞語(yǔ)上,由于多任務(wù)學(xué)習(xí)具有相同的輸入,但是每個(gè)詞語(yǔ)在兩個(gè)任務(wù)中起到的重要性是不同的,因此,在自注意力層對(duì)詞語(yǔ)的權(quán)重進(jìn)行調(diào)整,對(duì)于本任務(wù)起到重要作用的詞語(yǔ)賦予更大的權(quán)值。

        以敏感輿論識(shí)別為例,htask1為特征學(xué)習(xí)層輸出的n維向量,注意力向量α={αt}1≤t≤n, 則句子的語(yǔ)義表示計(jì)算過(guò)程如式(5)所示

        (5)

        其中,符號(hào)含義:wt∈Rn×r,wn∈Rn×r,wa∈Rr×r為權(quán)重矩陣,ba∈Rr是偏置向量。αt∈Rn是特征學(xué)習(xí)層輸出序列中第t個(gè)位置的注意力權(quán)重進(jìn)行歸一化的結(jié)果。et∈Rn由隱藏層前向連接網(wǎng)絡(luò)計(jì)算注意力分配,通過(guò)激活函數(shù)將其約束在[-1,1]之間,隨后利用矩陣M∈R1×r進(jìn)一步提取特征。10-8是為了避免歸一化過(guò)程出現(xiàn)分母為0的問(wèn)題加入的一個(gè)極小非0值,h′∈Rr是利用注意力向量對(duì)特征學(xué)習(xí)層輸出序列進(jìn)行加權(quán)平均得到的向量。

        (4)全連接分類層

        分類層對(duì)最終學(xué)習(xí)到的特征矩陣h′進(jìn)行分類預(yù)測(cè),通過(guò)計(jì)算其在每一個(gè)類別上的似然概率分布,然后對(duì)概率值進(jìn)行歸一化,取歸一化后的m維向量中最大的值對(duì)應(yīng)的類別作為其分類結(jié)果。

        概率分布計(jì)算公式如式(6)所示

        f∶s→y={y1,y2,…,ym}

        (6)

        最后采用交叉熵作為損失函數(shù),對(duì)模型進(jìn)行優(yōu)化,任務(wù)的損失函數(shù)如下所示:

        任務(wù)1,敏感輿論識(shí)別的損失函數(shù)

        (7)

        任務(wù)2,對(duì)敏感輿論的態(tài)度識(shí)別的損失函數(shù)

        (8)

        總的損失函數(shù)

        Lloss=λLtask1+Ltask2

        (9)

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

        4.1.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

        本文實(shí)驗(yàn)所用的數(shù)據(jù)包括爬取的新浪微博數(shù)據(jù)集以及網(wǎng)上收集的現(xiàn)有新浪微博數(shù)據(jù)集,數(shù)據(jù)涉及用戶表和文本表兩個(gè)部分,原始數(shù)據(jù)集總共3 542 164條文本數(shù)據(jù)。本文基于項(xiàng)目中意見領(lǐng)袖識(shí)別研究成果,獲得意見領(lǐng)袖225位,針對(duì)意見領(lǐng)袖的歷史文本數(shù)據(jù)進(jìn)行分析其敏感輿論傾向。為了進(jìn)行意見領(lǐng)袖敏感輿論傾向的識(shí)別,本文收集敏感詞3844個(gè),從數(shù)據(jù)集中篩選出包含敏感輿論的文本13 803條,最終正向文本5525條、負(fù)向文本1306條、中性文本6972條,組成實(shí)驗(yàn)數(shù)據(jù)集。

        為確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,本文對(duì)所用數(shù)據(jù)采用人工標(biāo)注,主要包含兩個(gè)標(biāo)簽:

        lable1:文本是否涉及敏感輿論(是、否);

        lable2:敏感輿論傾向(正向、負(fù)向、中性);

        例如:香港暴亂嚴(yán)重影響了香港的發(fā)展,對(duì)此感到痛心疾首。(香港暴亂:敏感輿論;對(duì)此感到痛心疾首:正向敏感輿論傾向。)

        數(shù)據(jù)預(yù)處理的目的是為了獲取更規(guī)范的數(shù)據(jù)集,剔除一些與實(shí)驗(yàn)類別無(wú)關(guān)甚至帶來(lái)噪聲的數(shù)據(jù)。由于新浪微博的文本內(nèi)容比較口語(yǔ)化,表達(dá)形式比較多樣,文本中經(jīng)常包含鏈接、表情符號(hào)、圖片及其它無(wú)意義的特殊符號(hào),因此需要對(duì)這些特殊的表示進(jìn)行替換處理,否則將會(huì)對(duì)后續(xù)的特征學(xué)習(xí)產(chǎn)生干擾。替換處理情況見表1。

        表1 替換處理

        4.1.2 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)參數(shù)設(shè)置

        本文的實(shí)驗(yàn)環(huán)境見表2。

        表2 相關(guān)實(shí)驗(yàn)環(huán)境

        在進(jìn)行基于多任務(wù)學(xué)習(xí)的輿論傾向識(shí)別長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)模型分類前,本文選取了中科院漢語(yǔ)分詞工具NLPIR/ICTCLAS進(jìn)行分詞處理,然后將分詞結(jié)果合并成詞語(yǔ)級(jí)別的訓(xùn)練數(shù)據(jù),選取gensim的word2vec工具對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,獲取其詞向量空間。

        本文對(duì)詞向量進(jìn)行訓(xùn)練時(shí)采用的訓(xùn)練參數(shù)如下:

        (1)選用skip gram模型;

        (2)上下文滑動(dòng)窗口大小為6;

        (3)單詞向量維度設(shè)為300。

        對(duì)于語(yǔ)料庫(kù)中沒有出現(xiàn)過(guò)的詞語(yǔ),進(jìn)行隨機(jī)初始化處理。

        基于多任務(wù)學(xué)習(xí)的長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)識(shí)別模型,損失函數(shù)中λ的取值,通過(guò)在模型訓(xùn)練時(shí)設(shè)置不同的取值,比較在測(cè)試集中的各個(gè)評(píng)價(jià)指標(biāo),來(lái)選取合適的值。本文通過(guò)對(duì)比測(cè)試集的評(píng)價(jià)指標(biāo),選取經(jīng)驗(yàn)值λ=0.05。 模型其它參數(shù)設(shè)置見表3。

        表3 模型參數(shù)設(shè)置

        4.2 實(shí)驗(yàn)及結(jié)果分析

        4.2.1 基于指紋相似度的輿論傾向識(shí)別實(shí)驗(yàn)

        針對(duì)語(yǔ)義指紋閾值選取實(shí)驗(yàn),首先選取一個(gè)容量在2000條文本的實(shí)驗(yàn)數(shù)據(jù)集,其中包含200條重復(fù)或相似度較高的文本;采用SWFC-SFG文本語(yǔ)義指紋計(jì)算方法,然后計(jì)算文本語(yǔ)義指紋的漢明距離來(lái)計(jì)算文本間的語(yǔ)義相似距離,針對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),觀察在不同閾值下的相似內(nèi)容檢測(cè)的查全率和查準(zhǔn)率變化,以確定最佳語(yǔ)義相似度距離值。

        針對(duì)本實(shí)驗(yàn),本文選取1~8共8個(gè)距離閾值進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 不同閾值下的查準(zhǔn)率及查全率

        文本相似度的判定是為了在遇到與語(yǔ)義指紋庫(kù)中重復(fù)或相似度較高的文本時(shí)可以直接從指紋庫(kù)中獲取該文本的輿論傾向,因此該實(shí)驗(yàn)中查準(zhǔn)率格外重要。由圖5可以看出,當(dāng)閾值大于4之后,查準(zhǔn)率開始下降,將會(huì)導(dǎo)致誤判現(xiàn)象的發(fā)生。

        為了保證查準(zhǔn)率為1,根據(jù)圖5的實(shí)驗(yàn)結(jié)果可以確定最佳的閾值距離為4,即當(dāng)待測(cè)文本與語(yǔ)義指紋庫(kù)中存在語(yǔ)義距離小于5時(shí),就可以判斷兩文本具有相同的敏感輿論傾向,因而就可以直接從指紋庫(kù)中獲取其輿論傾向,以減少不必要的預(yù)測(cè)時(shí)間開銷。

        4.2.2 輿論傾向識(shí)別效率對(duì)比實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文方法的高效性,將本文方法MTL-SA-LSTM、本文方法結(jié)合語(yǔ)義指紋+MTL-SA-LSTM、文獻(xiàn)[15]的方法在不同數(shù)據(jù)量下的檢測(cè)耗時(shí)進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 不同方法檢測(cè)耗時(shí)對(duì)比

        從圖6可以看出,本文方法相對(duì)于文獻(xiàn)[15]在相同數(shù)據(jù)量下檢測(cè)耗時(shí)較小。文獻(xiàn)[15]將敏感輿論傾向識(shí)別割裂成兩個(gè)任務(wù),先進(jìn)行敏感輿論的識(shí)別,在此基礎(chǔ)上進(jìn)行輿論傾向的識(shí)別工作,不僅需要訓(xùn)練兩個(gè)分類器,而且分成兩步進(jìn)行,對(duì)于涉及敏感輿論的文本需要經(jīng)過(guò)兩個(gè)分類器進(jìn)行識(shí)別;而本文方法訓(xùn)練一個(gè)模型,同時(shí)識(shí)別敏感輿論的輿論傾向,進(jìn)一步節(jié)省時(shí)間,說(shuō)明多任務(wù)學(xué)習(xí)有助于提高敏感輿論傾向的識(shí)別效率。

        并且從圖6可以看出本文方法結(jié)合語(yǔ)義指紋又進(jìn)一步減小了檢測(cè)時(shí)間開銷,對(duì)于敏感輿論傾向數(shù)據(jù)集進(jìn)行分析,其中包含很多重復(fù)或相似度較高的文本,因此利用語(yǔ)義指紋技術(shù)快速識(shí)別此類文本,避免了模型識(shí)別時(shí)間開銷。圖6可以說(shuō)明多任務(wù)學(xué)習(xí)和語(yǔ)義指紋技術(shù)都有助于提高敏感輿論傾向的識(shí)別效率。

        4.2.3 基于深度學(xué)習(xí)的輿論傾向識(shí)別實(shí)驗(yàn)

        為了驗(yàn)證本文方案的準(zhǔn)確性,將本文方法與樸素貝葉斯、SVM、KNN等傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,實(shí)驗(yàn)的結(jié)果如圖7所示。

        圖7 本文方法與傳統(tǒng)機(jī)器學(xué)習(xí)分類算法實(shí)驗(yàn)對(duì)比

        通過(guò)對(duì)比其查準(zhǔn)率、查全率及F值作為不同方法性能的評(píng)價(jià)指標(biāo)。查準(zhǔn)率即在所有我們預(yù)測(cè)為正向敏感輿論傾向文本中,實(shí)際上確實(shí)為正向敏感輿論傾向的百分比,越高越好。查全率即在所有實(shí)際上為準(zhǔn)確正向敏感輿論傾向文本中,成功預(yù)測(cè)為正向敏感輿論傾向的百分比,越高越好。從圖7不難看出,在相同的數(shù)據(jù)集下,本文方法在各方面都要優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法。

        為了進(jìn)一步驗(yàn)證本文方法的有效性,將本文方案與單任務(wù)神經(jīng)網(wǎng)絡(luò)LSTM、文獻(xiàn)[15](順序識(shí)別兩個(gè)任務(wù))、文獻(xiàn)[18](LSTM-attention)等深度學(xué)習(xí)分類方法在相同的數(shù)據(jù)集下進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)比較其查全率、查全率和F值來(lái)進(jìn)一步說(shuō)明本文方法的有效性。實(shí)驗(yàn)結(jié)果如圖8所示。

        圖8 本文方法與深度學(xué)習(xí)分類算法實(shí)驗(yàn)對(duì)比

        從圖8可以看出結(jié)合自注意力機(jī)制的文獻(xiàn)[18]的方法識(shí)別效果優(yōu)于傳統(tǒng)長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)模型;本文基于多任務(wù)學(xué)習(xí)結(jié)合注意力機(jī)制的方法識(shí)別效果優(yōu)于文獻(xiàn)[18]的單任務(wù)學(xué)習(xí)結(jié)合注意力機(jī)制的方法,且優(yōu)于文獻(xiàn)[15]的分兩步識(shí)別敏感輿論傾向的方法。從圖8可以看出,自注意力機(jī)制和多任務(wù)學(xué)習(xí)方法都有助于提高敏感輿論傾向識(shí)別的準(zhǔn)確性。

        5 結(jié)束語(yǔ)

        為了對(duì)意見領(lǐng)袖的輿論傾向進(jìn)行快速精準(zhǔn)的檢測(cè),本文提出了采用多任務(wù)學(xué)習(xí)方法,同時(shí)對(duì)敏感輿論和意見領(lǐng)袖的敏感輿論傾向進(jìn)行識(shí)別,在實(shí)現(xiàn)“一箭雙雕”的同時(shí),通過(guò)任務(wù)間的相互支持有效提高識(shí)別效果,同時(shí)提升敏感輿論傾向的識(shí)別效率;并且在神經(jīng)網(wǎng)絡(luò)中增加自注意力層,學(xué)習(xí)不同位置詞語(yǔ)對(duì)于敏感輿論傾向識(shí)別的重要程度,突顯出其中主要詞語(yǔ)對(duì)識(shí)別結(jié)果的影響,進(jìn)一步提升識(shí)別準(zhǔn)確率;同時(shí)本文采用了語(yǔ)義指紋技術(shù),通過(guò)語(yǔ)義指紋技術(shù)可以快速識(shí)別高度相似或重復(fù)的文本,進(jìn)一步提高了識(shí)別效率。實(shí)驗(yàn)結(jié)果表明,本文提出的方法不僅提高了識(shí)別準(zhǔn)確率,而且識(shí)別效率也有了很大的提升。

        由于敏感輿論傾向涉及領(lǐng)域比較廣,模型的效果比較依賴數(shù)據(jù)集,因此更加全面地收集相關(guān)敏感詞及擴(kuò)充訓(xùn)練數(shù)據(jù)集是進(jìn)一步提高識(shí)別效果的有效方法。

        猜你喜歡
        多任務(wù)指紋輿論
        像偵探一樣提取指紋
        為什么每個(gè)人的指紋都不一樣
        基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
        阿桑奇突然被捕引爆輿論
        基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
        突發(fā)事件的輿論引導(dǎo)
        電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
        基于自適應(yīng)稀疏變換的指紋圖像壓縮
        可疑的指紋
        誰(shuí)能引領(lǐng)現(xiàn)代輿論場(chǎng)?
        国产精品人成在线765| 亚洲国产精品久久亚洲精品| 黄色毛片在线看| 国产一区二区丁香婷婷| 久久免费视频国产| 国产亚洲曝欧美不卡精品| av在线免费观看麻豆| 国产精品无码无卡无需播放器| 日韩精品无码一本二本三本色| 欧美xxxx黑人又粗又长精品| 亚洲色图视频在线 | 国产亚洲精品久久久闺蜜| 岳毛多又紧做起爽| 美丽的熟妇中文字幕| 好吊妞人成免费视频观看| 日韩精品极品免费观看| 口爆吞精美臀国产在线| 男奸女永久免费视频网站| 无码日韩精品一区二区免费暖暖 | 精品国产av一区二区三区四区| 99久久国产综合精品五月天| 亚洲 欧美 激情 小说 另类| 无码人妻AⅤ一区 二区 三区| 一区二区三区在线日本| 亚洲精品在线视频一区二区| 亚洲线精品一区二区三区| 狼人青草久久网伊人| 大地资源在线播放观看mv| 98在线视频噜噜噜国产| 狼人综合干伊人网在线观看| 久久熟妇少妇亚洲精品| 日韩一区国产二区欧美三区 | 真实国产老熟女无套中出| 亚洲欧美偷拍视频| 精品亚洲视频免费观看网站| 97精品人妻一区二区三区蜜桃| 人妻暴雨中被强制侵犯在线| 亚洲第一网站免费视频| 女同av免费在线播放| 久久这里都是精品99| 无码国产精品一区二区免费式直播|