亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用情緒向量的相似性預(yù)測新聞點擊量

        2022-01-07 01:23:08畢陽陽
        軟件導(dǎo)刊 2021年12期
        關(guān)鍵詞:新聞標(biāo)題相似性向量

        艾 均,畢陽陽,蘇 湛

        (上海理工大學(xué)光電信息與計算機工程學(xué)院,上海 200093)

        0 引言

        隨著移動互聯(lián)網(wǎng)的發(fā)展,智能終端已經(jīng)普及,中國網(wǎng)民規(guī)模達8.54 億,網(wǎng)民使用手機上網(wǎng)的比例達99.1%[1],互聯(lián)網(wǎng)成為大眾獲取信息的重要渠道。自媒體等新興形式使普通公眾關(guān)注及參與公共事務(wù),對政府動態(tài)、國際關(guān)系的關(guān)注遠遠高于傳統(tǒng)媒體時代。普通民眾參與度提高,而網(wǎng)絡(luò)信息良莠不齊,不法分子利用網(wǎng)絡(luò)輿情夸大新聞事實,使用夸張的表達吸引讀者,謀取自身特殊利益。因此,把握網(wǎng)絡(luò)輿情、理解用戶群體偏好,預(yù)測用戶群體對新聞可能出現(xiàn)的關(guān)注度,具有重要的理論及現(xiàn)實意義。

        目前對互聯(lián)網(wǎng)新聞的熱度預(yù)測主要集中在兩個方面[2]:①跟蹤研究新聞在互聯(lián)網(wǎng)的早期傳播,以及用戶點贊和評論等行為,預(yù)測其未來流行度;如文獻[3]研究Twitter新聞傳播,提出了基于新聞傳播過程的新聞流行度預(yù)測模型;文獻[4]則通過對評論數(shù)、用戶數(shù)量、投票得分和爭議程度等挖掘預(yù)測新聞受歡迎程度。新聞在發(fā)布后預(yù)測效果會更好,但具有一定的時間滯后性,需要對研究主體跟蹤觀測;②不使用早期的流行度或普及度指標(biāo),僅考慮文本本身的特征,如文獻[5]考慮新聞來源、新聞類別、文本語言的主觀性、文本提到的實體等特征用于新聞報道傳播預(yù)測;文獻[6]則通過關(guān)鍵字、發(fā)布日期和數(shù)據(jù)渠道提取特征用于流行度預(yù)測;文獻[7]提出一個命名實體主題模型,以提取推動人氣增長的文字因素。這種預(yù)測方式雖然在準(zhǔn)確度上相對較低[8],但預(yù)測結(jié)果可取,因為它可在發(fā)布前進行自定義修改內(nèi)容,靈活性更強。但是,這些基于文本特征的預(yù)測方法側(cè)重于文本本身的含義和內(nèi)容特征,極少考慮文本信息的情感特征。針對這一不足,本文從文本信息特征出發(fā),基于情感特征度量來研究熱點新聞的預(yù)測問題。

        互聯(lián)網(wǎng)上大量的文本信息往往蘊含情感色彩。情感分析又稱為意見挖掘、情感挖掘,是對帶有主觀情感色彩的文本進行分析歸納,是人工智能的熱門研究領(lǐng)域[9]。文獻[10]提出將隱藏主題—情感轉(zhuǎn)換模型用于檢測文檔級及句子級情感;文獻[11]提出多標(biāo)簽分類的情感分析方法用于微博的情感分類工作,比較了3 種情感詞典對多標(biāo)簽分類的影響,結(jié)果表明大連理工大學(xué)情感詞典表現(xiàn)最佳;文獻[12]關(guān)注在線用戶社交情感挖掘,從用戶角度分析社交媒體中的情感因素。挖掘文本的情感因素有助于分析文本中的立場和觀點[13],并應(yīng)用于輿情管控、觀點分析、商業(yè)決策、信息預(yù)測等場景。文獻[14]考慮情感信息的大小和極性用于自動檢測有爭議的新聞文章;文獻[15]融合單詞和句子級別的情感特征到人機對話模型中,生成與原始情感一致的對話文本;文獻[16]通過分析Twitter 中情感指數(shù),發(fā)現(xiàn)其可在一定程度上預(yù)測3、4 天后的股市變化。但這些研究中,未見應(yīng)用情感分析對新聞點擊量進行預(yù)測的相關(guān)工作。

        針對上述問題,本文通過構(gòu)建文本的情緒向量度量方法,分析新聞標(biāo)題中的情感因素,計算新聞情緒向量之間的相似性;基于情緒向量的相似性以及基于相似性的鄰居選擇,采用協(xié)同過濾算法預(yù)測熱點新聞的時均點擊量;針對新聞點擊量實際波動范圍較大的特點設(shè)計了平均絕對比例誤差和均方根比例誤差兩種誤差度量方法。

        1 熱點新聞點擊量預(yù)測模型

        本文基于情緒內(nèi)容分析文本的情感因素并用于熱點新聞的點擊量預(yù)測,算法整體結(jié)構(gòu)如圖1 所示。

        Fig.1 Algorithm general steps圖1 算法一般步驟

        1.1 使用情感詞典分析并構(gòu)建情緒向量

        本文使用情感詞典[17]方法分析新聞標(biāo)題的情感因素。在比較了情感分析詞語集(HowNet)[18]、中文情感極性詞典(NTUSD)[19]、情感詞匯本體庫[20](DUTIR)等國內(nèi)流行的中文情感詞典后,最終選擇使用大連理工大學(xué)的情感詞匯本體。DUTIR 是在國外比較有影響的Ekman[21]情感分類基礎(chǔ)上構(gòu)建的,標(biāo)注了常用詞語的情感極性和情感強度。最終的詞匯本體將情感分為7 大類21 小類,細粒度比較高。本文使用DUTIR 分別建立基于詞的情緒向量(Word-based emotion vector,WBEV)和基于字的情緒向量(Characterbased emotion vector,CBEV)。

        建立基于詞的情緒向量需要對原有文本進行切割,本文采用目前比較流行的文本切割工具Jieba 分詞,并使用精確模式,該模式下試圖將句子最精確地切開,適合進行文本分析[22]。

        將DUTIR 中的情感詞匯定義為二元組w,t代表詞的情感類別,s代表情感強度且0≤s≤7,全部情感詞匯定義為集合W={w1,w2,w3,...,wn};新聞標(biāo)題中所有的詞匯定義為集合O={o1,o2,o3,...,on},其中詞匯使用Jieba 分詞工具對新聞標(biāo)題分詞得到;情緒向量定義為E=[t1,t2,t3,…,tn],其中n=21,ti表示詞庫某一小類的情感類別,ti表示該類別的情感強度,0 表示不含有此類情感。

        新聞標(biāo)題基于詞的情緒向量構(gòu)建過程可以表示為:

        基于詞的情緒向量流程如圖2 所示。

        Fig.2 Word-based emotion vector flow圖2 基于詞的情緒向量流程

        情感詞典是以詞為單位,只能識別帶有情緒詞的句子,并且在新聞標(biāo)題中經(jīng)常出現(xiàn)表達情感的單個字,例如“爆!”“驚!”等。因此,本文除了上述基于詞的情感建立的情緒向量外,也將基于字的情感建立情緒向量。

        首先要得到字的情感強度和大小。定義字的集合C={c1,c2,c3,...,cn},其中cj∈wi,即ci是DUTIR 中組成情感詞匯的字。定義字的情緒向量EC=[t1,t2,t3,…,tn],此時,該向量代表字的情感。借助DUTIR 詞庫,采用復(fù)雜網(wǎng)絡(luò)中二部圖模型,將詞和字看作兩種不同類型的節(jié)點,詞與字的包含關(guān)系作為連邊的依據(jù),如圖3 所示。

        Fig.3 Character-word bipartite graph圖3 字—詞二部

        通過情緒從詞擴散[23]到字,得到字的情感,具體步驟如下:

        初始階段,對于wi,把情感和強度分配給組成該詞的字cj,其中,l是詞w的長度:

        在二部圖中字cj的情緒向量為:

        其中,d(cj)是cj在網(wǎng)絡(luò)中的度值。

        由此得到詞庫中每個字的情緒向量,代表這個字的情感傾向,由此構(gòu)建新聞標(biāo)題的情緒向量。

        基于字的情緒向量流程如圖4 所示。

        Fig.4 Character-based emotion vector flow圖4 基于字的情緒向量流程

        1.2 基于相似性的協(xié)同過濾點擊量預(yù)測

        利用相似性進行預(yù)測,一個基本假設(shè)是相似性越高,他們之間具有聯(lián)系的可能性越大。在本文模型中,假設(shè)熱點新聞標(biāo)題之間包含相似的情感和強度,那他們在用戶之間的傳播和影響是相似的[24],這種傳播和影響則會反映在新聞的熱度或者點擊量上。因此,根據(jù)上述方法構(gòu)建的代表新聞標(biāo)題情感特性的情緒向量EWBEV和ECBEV,使用相似度的度量方法分別計算新聞節(jié)點兩兩之間EWBEV和ECBEV的相似性,得到相似性列表,然后根據(jù)相似性進行節(jié)點選擇和預(yù)測。本文使用根據(jù)情緒向量設(shè)計的相似度度量方法,其中X,Y代表新聞的情緒向量,xi,yi是情緒向量X,Y對應(yīng)維度的值,公式如下:

        協(xié)同過濾算法(Collaborative filtering,CF)[25]廣泛應(yīng)用于預(yù)測和推薦,該方法通過對用戶歷史行為的挖掘來預(yù)測用戶未來的行為。一條新聞的點擊量可以看作全體用戶對該新聞的評分,對點擊量的預(yù)測問題就可以轉(zhuǎn)化為預(yù)測全體用戶對該新聞的評分問題,這樣就可利用協(xié)同過濾算法實現(xiàn)對熱點新聞點擊量的預(yù)測。在EWBEV相似度列表和ECBEV相似度列表基礎(chǔ)上,選擇待預(yù)測新聞相似度最高的m個節(jié)點作為鄰居集合,使用如下評分預(yù)測公式:

        其中,ri為預(yù)測值,rj為選擇的鄰居,為平均值,Sji是ri,rj之間的相似度,即在預(yù)測時相似度越高對預(yù)測時的影響越大[26]。在基于詞的情緒向量并使用協(xié)同過濾算法預(yù)測(WBEV-CF)和基于詞的情緒向量并使用協(xié)同過濾算法預(yù)測(CBEV-CF)中,ri為熱點新聞點擊量的預(yù)測值。

        2 實驗結(jié)果與分析

        2.1 實驗數(shù)據(jù)

        在網(wǎng)易24 小時熱點新聞上爬取數(shù)據(jù),從2019 年11 月到2020 年1 月共3 個月。數(shù)據(jù)內(nèi)容包括新聞標(biāo)題、新聞?wù)?、新聞發(fā)布時間和爬取時間、點擊量等信息;通過去除不完整及無效數(shù)據(jù),共得到4 927 條有效數(shù)據(jù)。

        由于點擊量隨時間變化,為簡化討論,采用時均點擊量衡量新聞熱點,即:

        同時,不同新聞的熱度持續(xù)時間不同。為討論新聞熱度問題,以每條新聞的最大時均點擊量為代表,其分布如圖5 所示。

        Fig.5 Distribution of the average hourly maximum hits圖5 時均最大點擊量分布

        實驗采用折十驗證的方式,所有新聞數(shù)據(jù)隨機平均分為10 組,每組依次作為驗證集,其余9 組作為訓(xùn)練集,取10次的結(jié)果平均值作為最終結(jié)果。同時,在每個實驗組中,分別依次取相似性鄰居數(shù)為1,3,5,10,20,…,200 進行實驗。為驗證本文提出的基于相似性和情緒向量算法的有效性,實驗除了使用本文WBEV-CF 和CBEV-CF 算法,也使用傳統(tǒng)的基于字頻方式作為對比。使用新聞標(biāo)題之間的統(tǒng)計字頻作為相似度依據(jù),并使用協(xié)同過濾用于點擊量預(yù)測(Frequency-CF)。

        2.2 評價指標(biāo)

        評價指標(biāo)有平均絕對誤差(mean absolute error,MAE)[27]和均方根誤差(root mean squared error,RMSE)[28]。MAE 反映的是真實誤差,RMSR 則放大了預(yù)測誤差,對預(yù)測誤差較大的懲罰更重,對算法的要求更嚴苛。誤差值越小說明算法越準(zhǔn)確。

        其中,T是測試集,ri為測試集中的真實值,為使用本文預(yù)測方法得到的預(yù)測值。

        實際上,MAE 和RMSE 都是計算的誤差平均值,這在評價點擊量預(yù)測誤差時具有一定的局限性。如預(yù)測誤差值都為100 的兩條新聞:一條新聞?wù)鎸嵉狞c擊量為1 000,而另一條為100,這個誤差可能對于前者可以接受,但對于后者來說,由于本身點擊量相對較小,這個誤差就是不能接受的。因此,基于以上原因本文設(shè)計了平均絕對比例誤差(Mean absolute proportional error,MAPE)和均方根比例誤差(root mean squared proportional error,RMSPE)來反映相對于真實值的誤差。

        2.3 結(jié)果分析

        本文使用情感字典構(gòu)建出代表每條新聞的情緒向量,通過協(xié)同過濾算法預(yù)測新聞點擊量。根據(jù)選取鄰居節(jié)點數(shù)量的不同得出如圖6、圖7 所示結(jié)果,其中WBEV-CF 和CBEV-CF 是本文設(shè)計的方法,F(xiàn)requency-CF 作為對比。

        Fig.6 MAE values of different neighbor numbers圖6 不同鄰居數(shù)的MAE 值

        Fig.7 RMSE values of different neighbor numbers圖7 不同鄰居數(shù)的RMSE 值

        隨著點擊量預(yù)測過程中選用鄰居數(shù)量的不斷增大,本文基于情緒向量的預(yù)測方法所產(chǎn)生的誤差不斷降低,直至鄰居數(shù)量為200。在設(shè)計的兩種方法中,WBEV-CF 預(yù)測誤差明顯低于CBEV-CF 的預(yù)測誤差,與之相對的,F(xiàn)requency-CF 的預(yù)測方法作為對照方法在鄰居數(shù)大于70 之后誤差便不再下降。

        WBEV-CF 預(yù)測方法比Frequency-CF 方法更加準(zhǔn)確?;贛AE 進行分析,在選擇鄰居數(shù)大于10 之后,預(yù)測誤差平均降低3.7%,最小誤差降低4.3%。幾種算法的RMSE 誤差結(jié)果相近,在選擇的鄰居數(shù)大于10 之后,平均相差2.8%。RMSE 結(jié)果相似,且Frequency-CF 的RMSE 值較低,意味著基于情緒向量的預(yù)測會產(chǎn)生較大誤差。但MAE 顯示的預(yù)測誤差揭示了情緒向量整體上對點擊量的預(yù)測更為準(zhǔn)確。本文同樣給出了MAPE 和RMSPE 曲線,反映了相對于真實值的誤差。

        由圖8、圖9 可知,MAPE 曲線中的WBEV-CF 依然遠好于其他兩種方式。與Frequency-CF 相比,當(dāng)鄰居數(shù)大于5之后,預(yù)測誤差比例平均降低23.5%,最小誤差比例降低25.5%。而在RMSPE 曲線中,不同于RMSE,WBEV-CF 反而優(yōu)于Frequency-CF。當(dāng)鄰居數(shù)大于10 之后,RMSPE 預(yù)測誤差比例平均降低22.6%,最小誤差比例降低22.2%。

        通過以上分析發(fā)現(xiàn),在新聞標(biāo)題點擊量預(yù)測過程中,無論是平均絕對誤差MAE,還是平均比例誤差MAPE 和均方根比例誤差RMSPE,本文提出的基于相似性和情緒向量的算法都取得了較好效果,算法整體上更準(zhǔn)確;但均方根誤差RMSE 差別不大甚至稍差一些,說明有一些點擊數(shù)量較高的標(biāo)題在非比例情況下會產(chǎn)生較大誤差,但在比例上這些誤差相對于真實點擊量是較小的,因此本文提出的基于相似性與情緒向量的方法取得了較好效果。

        Fig.8 MAPE values of different neighbor numbers圖8 不同鄰居數(shù)的MAPE 值

        Fig.9 RMSPE values of different neighbor numbers圖9 不同鄰居數(shù)的RMSPE 值

        3 結(jié)語

        針對熱點新聞點擊量預(yù)測研究沒有考慮情緒特征這一問題,本文從文本內(nèi)容分析出發(fā),利用分詞方法對新聞標(biāo)題進行分析并設(shè)計了情緒向量計算方法,以此建立各種情緒傾向和強度的情緒向量。通過計算新聞標(biāo)題情緒向量之間的相似性,并基于相似性采用協(xié)同過濾方法預(yù)測熱點新聞的時均點擊量。實驗結(jié)果表明,新聞標(biāo)題中的情緒因素與其時均點擊量相關(guān),基于情緒向量的點擊量預(yù)測方法在預(yù)測準(zhǔn)確度上明顯優(yōu)于基于詞頻的預(yù)測方法。研究結(jié)果揭示了大眾對新聞的反應(yīng)中新聞標(biāo)題的情緒起到重要的影響作用。新聞標(biāo)題中的情緒一定程度上包含了作者的觀點、立場和態(tài)度,這些信息通過情緒化的表達影響到讀者的點擊行為。此外,在對新聞熱點的點擊量預(yù)測中,將情緒因素和其他因素相結(jié)合進行預(yù)測,可進一步提高預(yù)測準(zhǔn)確度。

        猜你喜歡
        新聞標(biāo)題相似性向量
        一類上三角算子矩陣的相似性與酉相似性
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        談新聞標(biāo)題的現(xiàn)實性
        活力(2019年22期)2019-03-16 12:49:06
        網(wǎng)絡(luò)新聞標(biāo)題與報紙新聞標(biāo)題的對比
        活力(2019年22期)2019-03-16 12:48:00
        無意間擊中幽默的新聞標(biāo)題
        喜劇世界(2016年9期)2016-08-24 06:17:26
        低滲透黏土中氯離子彌散作用離心模擬相似性
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        日韩在线一区二区三区免费视频| 丝袜美足在线视频国产在线看| 嗯啊好爽高潮了在线观看| 久久久久久人妻一区精品| 在线综合网| 亚洲色欲久久久久综合网| 久久国产精品视频影院| 亚洲av乱码国产精品观看麻豆| 最近中文字幕精品在线| 亚洲国产av一区二区三区精品| 女的扒开尿口让男人桶30分钟| 国产人妻久久精品二区三区老狼| 99爱这里只有精品| 久久久精品亚洲懂色av| 精品少妇一区二区三区免费 | 美女网站免费观看视频| 国产精品9999久久久久仙踪林| 少妇人妻陈艳和黑人教练| 天天躁日日躁狠狠躁人妻| 久久99亚洲综合精品首页| 日韩精品中文字幕人妻中出| 亚洲永久国产中文字幕| 内射少妇36p亚洲区| 少妇太爽了在线观看| 国产精品三级一区二区按摩| 日本精品熟妇一区二区三区 | 久久国产精品男人的天堂av| 亚洲av成熟国产一区二区| 护士的小嫩嫩好紧好爽| 日日噜噜夜夜狠狠久久无码区 | 国产高清在线精品一区| 国产精品综合久久久久久久免费| 永久免费看黄网站性色| 91在线视频在线视频| 亚洲色欲色欲www| 日韩黑人欧美在线视频观看| 被驯服人妻中文字幕日本| 国产精品黄色在线观看| 精品露脸熟女区一粉嫩av| 国产女主播精品大秀系列| 亚洲AV无码成人精品区网页|