亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引入用戶情感的高階奇異值分解推薦算法研究

        2018-03-26 09:19:12李仁德劉建國
        關(guān)鍵詞:社刊三階張量

        郭 強(qiáng),岳 強(qiáng),李仁德,劉建國

        (1.上海理工大學(xué)復(fù)雜系統(tǒng)科學(xué)研究中心,上海 200093;2.上海財(cái)經(jīng)大學(xué)金融科技研究院,上海 200433)

        0 引言

        1 情感計(jì)算

        本文使用某在線互聯(lián)網(wǎng)教育中用戶評論的數(shù)據(jù)集來評估所提出算法的性能。該數(shù)據(jù)集包含2017年1月至3月間的一共1 324 501條用戶評論記錄,其中用戶評論是指用戶在選擇過的某一社團(tuán)刊物(下文簡稱為社刊)上發(fā)表評論,一個(gè)用戶可以對某一社刊進(jìn)行多次評論。本文定義上述實(shí)證數(shù)據(jù)為原始數(shù)據(jù),在原始數(shù)據(jù)中不難發(fā)現(xiàn)用戶會(huì)在社刊上發(fā)表帶有emoji表情的評論,其中單個(gè)社刊中含有emoji表情的評論記錄數(shù)的概率分布如圖1所示,其中表示單個(gè)社刊中含有emoji表情的評論記錄的數(shù)量,表示的概率分布函數(shù)。

        圖1 社刊-emoji表情概率分布圖

        結(jié)合圖1,經(jīng)統(tǒng)計(jì)可知,即有emoji表情評論記錄的社刊占所有全部社刊數(shù)量的89%,也就是絕大部分社刊中都有用戶發(fā)表包含emoji表情的評論記錄。

        1.1 emoji表情提取

        在計(jì)算用戶情感之前,需要對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和emoji表情提取。首先刪除不含emoji表情的評論記錄。其次,結(jié)合圖2主圖可知,用戶通常在評論中發(fā)表的不同的emoji表情的數(shù)量不大于3種,為了防止用戶灌水即在一條評論中發(fā)很多不同的emoji表情,刪除表情種類數(shù)大于3種的記錄。接下來,結(jié)合圖2子圖可知,極小部分的社刊擁有的用戶數(shù)小于3個(gè),其中擁有用戶數(shù)為1的社刊,那唯一一個(gè)用戶是社刊的創(chuàng)刊者,故考慮到社刊的品質(zhì),刪除擁有用戶數(shù)小于3個(gè)的社刊記錄。

        圖2 原始數(shù)據(jù)統(tǒng)計(jì)直方圖

        本文定義原始數(shù)據(jù)在經(jīng)過上述3個(gè)步驟后,保留下來的數(shù)據(jù)稱為篩選數(shù)據(jù)。為了獲得更稠密的數(shù)據(jù),本文在篩選數(shù)據(jù)上構(gòu)造了如圖3所示的投影網(wǎng)絡(luò)[22],即把某一用戶評論過某一社刊視作一個(gè)新單元節(jié)點(diǎn),若與其他單元節(jié)點(diǎn)存在相同的用戶或者社刊則產(chǎn)生連邊。

        如圖3所示,用戶a在社刊1上評論過,將這條記錄看作一個(gè)單元節(jié)點(diǎn),用A表示,即A中既包含用戶也包含社刊信息。相應(yīng)的,將用戶b和社刊1看作一個(gè)單元節(jié)點(diǎn)B。因?yàn)閱卧?jié)點(diǎn)A和B中包含同樣的社刊1,則A與B之間存在一條連邊。以此類推,單元節(jié)點(diǎn)之間依靠是否擁有同樣的用戶或者社刊信息而建立連邊,這樣便構(gòu)成了本文使用的投影網(wǎng)絡(luò)。最后,在投影網(wǎng)絡(luò)上應(yīng)用k核分解[23]。實(shí)驗(yàn)中k取最大值3 442,便可得到最核心的單元節(jié)點(diǎn)。

        圖3 投影網(wǎng)絡(luò)構(gòu)建示意圖

        圖4 數(shù)據(jù)清洗流程圖

        表1 實(shí)驗(yàn)數(shù)據(jù)與原始數(shù)據(jù)對照表

        從上述k值最大所對應(yīng)的單元節(jié)點(diǎn)中,保留用戶和社刊信息,并定義這部分用戶與社刊為核心用戶與社刊。再從篩選數(shù)據(jù)中篩選出包含這部分核心用戶與社刊的評論數(shù)據(jù)即篩選后的評論數(shù)據(jù)是由核心用戶對核心社刊所發(fā)表的包含emoji表情的評論數(shù)據(jù),本文定義這部分篩選后的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)。至此,數(shù)據(jù)清洗及emoji表情提取工作全部結(jié)束,總體流程圖如圖4所示,其中原始數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)兩者的核心字段變化對比如表1所示。

        1.2 情感計(jì)算

        在本文中,根據(jù)用戶在相應(yīng)社刊評論中emoji表情數(shù)據(jù)提煉出用戶情感。大致過程為:首先將emoji表情分成3類,分別是:積極、中立和消極;檢驗(yàn)分類結(jié)果的一致性;之后給積極、中立和消極分別賦值權(quán)重為:1、0和-1,再結(jié)合每條記錄中3類表情各自出現(xiàn)的頻次,如此便可得到某個(gè)用戶對其選擇過的某個(gè)社刊的情感。詳細(xì)用戶情感計(jì)算過程如下:

        經(jīng)過數(shù)據(jù)清洗,得到15 370條記錄的數(shù)據(jù)。在這些記錄中一共提取出126種emoji表情,并由7名志愿者主觀的對這126種emoji表情分成3類,分別是:積極、中立和消極。為了檢驗(yàn)志愿者主觀分類的結(jié)果的一致性,避免出現(xiàn)某個(gè)志愿者胡亂分類的情況,本文對分類結(jié)果進(jìn)行了Krippendorff’s alpha檢驗(yàn)[24],檢驗(yàn)結(jié)果如表2所示。

        表2 emoji表情分類部分結(jié)果

        當(dāng)Alpha值大于基準(zhǔn)值0.6時(shí),則表明不同志愿者的分類結(jié)果之間的差異是可以被接受的[24]。文中實(shí)驗(yàn)的Alpha值為0.706 9大于基準(zhǔn)值0.6,所以志愿者的分類結(jié)果是可取的。之后,對7名志愿者的分類結(jié)果取眾數(shù)即獲得相應(yīng)emoji表情的所屬分類。部分emoji表情分類結(jié)果如表2所示。

        表情分類結(jié)束后,本文根據(jù)式(1)來計(jì)算用戶在某條記錄表達(dá)對社刊的情感:

        (1)

        綜合某一用戶對某一社刊的所有記錄,根據(jù)式(2)即可得到,總體上用戶對社刊的情感:

        (2)

        其中,n2為用戶u對社刊m的所有評論記錄數(shù)。由式(1)和式(2)可知,用戶u對社刊m的情感eum的取值范圍是(-1,1),其中eum=1,即表示用戶u對社刊m的評論中全部是積極的emoji表情,透露出用戶u對社刊m的稱贊、喜愛的情感;反之,eum=-1即表示用戶u對社刊m的厭惡的情感。

        2 引入用戶情感的三階HOSVD分解算法

        本節(jié)通過一個(gè)實(shí)例闡述整個(gè)引入用戶情感的三階HOSVD分解算法(下文簡稱HOSVD(uem)分解算法)流程。實(shí)例中用戶、社刊以及用戶對社刊的情感三者之間的關(guān)系如圖5所示,其中用戶u1和u2對社刊m1的情感為e1,用戶u2對社刊m2的情感為e2,用戶u3對社刊m2和社刊m3的情感為e3。

        2.1 構(gòu)造初始張量

        通過實(shí)例中用戶、社刊以及用戶對社刊的情感三者關(guān)系來構(gòu)造一個(gè)三階張量A∈R3×3×3,并將某個(gè)用戶對某個(gè)社刊的情感這一條記錄出現(xiàn)的權(quán)重作為張量A的元素。為了避免高維張量導(dǎo)致算法具有高階時(shí)間復(fù)雜度,Symeonidis[14]定義了一個(gè)稀疏張量即將圖5中出現(xiàn)的5條記錄的權(quán)重全部初始化為1,如表3所示。相應(yīng)地,圖5中沒出現(xiàn)的記錄的權(quán)重全部為0。

        圖5 實(shí)例數(shù)據(jù)關(guān)系圖

        表3 通過實(shí)例中數(shù)據(jù)構(gòu)造的初始張量A

        圖6 實(shí)例中的初始張量AFig.6 Original tensor A of instance data

        由表3可知,初始張量A中的元素分別是:a111=a211=a222=a332=a333,其余元素的值全部為0。其中,a111=1對應(yīng)表3中的第一條記錄,即u1用戶對社刊m1的情感為e1;相反的,以a112=0為例,a112表示用戶u1對社刊m2的情感為e1,而這條記錄并沒有出現(xiàn)在表3中,則a112=0。為了更形象的表示三階張量A,將張量A寫成三維矩陣的形式,如圖6所示。

        2.2 初始張量n-模展開

        為了在三階張量A上應(yīng)用奇異值分解(下文簡稱SVD分解),首先需要將張量A進(jìn)行矩陣展開,即將張量A按照n-模重新排列成一個(gè)矩陣。三階張量A的n-模展開示意圖如圖7所示,其中I1、I2、I3表示三階張量的三個(gè)維度,并且A1∈RI1×I2I3,A2∈RI2×I1I3,A3∈RI1I2×I3。

        實(shí)例中初始張量A的1-模、2-模和3-模展開的矩陣A1、A2、A3分別表示為

        圖7 三階張量A的n-模展開示意圖Fig.7 n-mode unfolding of 3rd-tensor

        2.3 SVD分解

        (3)

        SVD分解過程中需要對S矩陣進(jìn)行調(diào)整,以便于過濾掉原始矩陣中的噪聲信息。在本文中,將保留原始矩陣中信息量多少定義為信息量閾值σ,即信息量閾值不大于為對角矩陣S中前k大奇異值的和與所有奇異值和的比例。設(shè)對角矩陣前k大奇異值的和為pk,所有奇異值和為p,則信息量閾值計(jì)算如式(4)所示。

        (4)

        本文中,為了取得最佳的實(shí)驗(yàn)結(jié)果,經(jīng)過多次實(shí)驗(yàn),最終確定在A1、A2、A3上進(jìn)行SVD分解所取的信息量閾值σ分別是:0.5,0.9,0.5。信息量閾值確定后就可以求k的值。k是滿足式(4)的最小整數(shù)值。當(dāng)k值確定后,從對角矩陣S中取出前k大奇異值組建成新的對角矩陣Sk;從U和V中選取相應(yīng)的前k個(gè)左右奇異向量,分別組建成新的Uk和Vk,則降噪后的A1、A2、A3如式(5)所示。

        (5)

        2.4 計(jì)算核心張量

        (6)

        圖8 實(shí)例中近似核心張量

        2.5 計(jì)算近似張量

        (7)

        為了方便生成推薦列表,將圖9中的三維矩陣寫成表4的形式。

        圖9 實(shí)例中近似張量

        表4 實(shí)例中計(jì)算出的近似張量

        2.6 生成推薦列表

        3 實(shí)驗(yàn)設(shè)置與結(jié)果

        3.1 實(shí)驗(yàn)設(shè)置

        (8)

        其中,di(k)表示用戶ui在測試集中記錄同時(shí)出現(xiàn)在推薦列表中前k個(gè)位置的記錄個(gè)數(shù);召回率是出現(xiàn)在在測試集中記錄的同時(shí)也位于推薦列表前k個(gè)位置的記錄個(gè)數(shù)與測試集中所有記錄個(gè)數(shù)Ci的比值。平均所有用戶的召回率,得到數(shù)據(jù)集上所有用戶的平均召回率,即為:

        (9)

        F1值是一種統(tǒng)一準(zhǔn)確率和召回率的系統(tǒng)性能評估標(biāo)準(zhǔn),定義為

        (10)

        3.2 實(shí)驗(yàn)結(jié)果

        圖10 各算法F1值、準(zhǔn)確率和召回率結(jié)果對比圖

        表5 各算法F1值的Top1~5的平均值

        4 結(jié)語

        emoji表情已經(jīng)成為互聯(lián)網(wǎng)時(shí)代必不可少的元素之一,是人們表達(dá)情感的重要載體。通過分析海量的emoji表情信息,可以了解用戶的情緒狀況、對某個(gè)社會(huì)的現(xiàn)象的觀點(diǎn)、對某款產(chǎn)品的喜好等,意義非凡。目前國內(nèi)外學(xué)術(shù)界關(guān)于emoji表情的研究尚處于起步階段,但隨著emoji表情的蔓延式發(fā)展,可以肯定的是對emoji表情的分析與研究是未來的大趨勢。對emoji表情的分析不僅可以對人機(jī)交互、市場營銷等領(lǐng)域產(chǎn)生重要影響,具有十分可觀的商業(yè)價(jià)值;還可以用來分析用戶心理、態(tài)度等,對維護(hù)社會(huì)穩(wěn)定有所幫助。本文只是從用戶情感的角度入手,將emoji表情引入到推薦算法中。但因涉及到三階張量,本文提出的算法的時(shí)間復(fù)雜度較高,不適用于大規(guī)模網(wǎng)絡(luò)。同時(shí)該方法推薦效果依賴評論中emoji表情轉(zhuǎn)化成用戶情感的準(zhǔn)確性,因此未來的工作可以進(jìn)一步將文中emoji表情的分類分的更細(xì)致,使提煉出的用戶情感更精確,從而提高推薦的效果。

        猜你喜歡
        社刊三階張量
        花雨文學(xué)社
        美文(2023年8期)2023-04-26 03:22:42
        三階非線性微分方程周期解的非退化和存在唯一性
        杭州師范大學(xué)名賢篆刻錄:樂石社社刊《樂石第二集》篆刻選刊:陳兼善/邱志貞/陳偉(1914年)
        偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
        四元數(shù)張量方程A*NX=B 的通解
        高校文學(xué)社團(tuán)生存現(xiàn)狀調(diào)研
        擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
        二月文學(xué)社簡介
        三類可降階的三階非線性微分方程
        三階微分方程理論
        中文日本强暴人妻另类视频| 精品无码久久久久久久动漫| 欧美成人精品三级在线观看| 99久久免费中文字幕精品| 激情久久黄色免费网站| 久久天天躁狠狠躁夜夜不卡| 欧美国产日韩a在线视频| 亚洲色欲色欲www成人网| av在线播放免费观看| 天堂国产一区二区三区| 精品+无码+在线观看| 日韩伦理av一区二区三区| 国产精品久久婷婷六月丁香| 厨房人妻hd中文字幕| 午夜不卡久久精品无码免费| 亚洲精品成人av一区二区| 国产一区二区三区在线影院| 人妻 丝袜美腿 中文字幕| 久久久久国产精品熟女影院 | 乌克兰少妇xxxx做受6| 最新永久免费AV网站| 在线观看国产白浆一区三区| 亚洲精品无码久久久影院相关影片| 国产最新网站| 丰满少妇又紧又爽视频| 亚洲一区久久蜜臀av| 无码人妻一区二区三区在线| 久草热8精品视频在线观看| 成人自拍视频国产一区| 亚洲香蕉av一区二区三区| 超碰97资源站| 久久精品—区二区三区无码伊人色| 亚洲av色香蕉一区二区三区软件| 免费在线黄色电影| 中文字幕无码不卡免费视频| 亚洲精品无人区一区二区三区| 日韩亚洲无吗av一区二区| 无码午夜成人1000部免费视频| 国产精品一区二区三区精品| 国产人妖视频一区二区| 日韩精品久久久久久久电影蜜臀|