亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于用戶點(diǎn)擊的線性回歸在內(nèi)容推薦中的應(yīng)用研究

2017-09-08 00:00:56石方夏

現(xiàn)代電子技術(shù) 2017年17期

石方夏

摘要：在內(nèi)容推薦中根據(jù)用戶的瀏覽偏好進(jìn)行內(nèi)容排序?qū)μ岣哂脩舻狞c(diǎn)擊率具有至關(guān)重要的作用。推薦流中內(nèi)容隨著時(shí)間變化呈現(xiàn)出流動(dòng)性，分析歷史數(shù)據(jù)中用戶和推薦內(nèi)容的點(diǎn)擊信息進(jìn)行回歸分析，提取用戶在內(nèi)容點(diǎn)擊時(shí)特征的相關(guān)性，并對(duì)特征進(jìn)行歸一化，擬合出在當(dāng)前特征分布下的點(diǎn)擊率，以線性回歸作為擬合模型進(jìn)行用戶點(diǎn)擊率預(yù)測(cè)。實(shí)驗(yàn)以今日頭條中用戶瀏覽點(diǎn)擊日志為測(cè)試數(shù)據(jù)集，采用改進(jìn)算法進(jìn)行內(nèi)容排序時(shí)截取單領(lǐng)域下用戶點(diǎn)擊內(nèi)容作為點(diǎn)擊率進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果表明，改進(jìn)算法能夠較為準(zhǔn)確地推薦用戶傾向點(diǎn)擊的內(nèi)容。

關(guān)鍵詞：用戶點(diǎn)擊率；線性回歸； AUC；特征抽取；回歸分析

中圖分類號(hào)： TN911?34； TP391 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2017）17?0135?03

Application of linear regression based on user clicks rate in content recommendation

SHI Fangxia

（School of Information Engineering， Xizang Minzu University， Xianyang 712082， China）

Abstract： The content ranking according to users′ browsing preference in content recommendation plays an important role in improvement of the user clicks rate. The content in recommendation flow changes with time. The clicks information of user and recommendation content in historical data is analyzed for regression analysis. The feature correlation while user clicks the content is extracted. The features are normalized to fit the clicks rate of current features distribution. The linear regression is used as the fitting model to predict user clicks rate. The logs browsed and clicked by users are taken as the test dataset in the experiment. The content clicked by users in the single field is cut out with the improved algorithm as the clicks rate for verification. The experimental results show that the improved algorithm can recommend clicks content of user preference accurately.

Keywords： user clicks rate； linear regression； AUC； feature extraction； regression analysis

0 引言

目前，國(guó)內(nèi)新聞?lì)惍a(chǎn)品如今日頭條、一點(diǎn)資訊和微博頭條等都以內(nèi)容推薦為主，如何提高內(nèi)容推薦的準(zhǔn)確性，從而提升用戶對(duì)推薦內(nèi)容的點(diǎn)擊率，提升用戶對(duì)平臺(tái)的粘性，對(duì)提升平臺(tái)的用戶留存具有非常重要的意義。

用戶在內(nèi)容瀏覽時(shí)的用戶行為至關(guān)重要，用戶對(duì)內(nèi)容的點(diǎn)擊、評(píng)論和轉(zhuǎn)發(fā)等行為都能很明顯地反映用戶對(duì)內(nèi)容的偏好程度，分析抽取用戶在內(nèi)容瀏覽時(shí)的反饋行為能夠很好地幫助提升平臺(tái)內(nèi)容排序的準(zhǔn)確性。本文嘗試以用戶在內(nèi)容瀏覽時(shí)對(duì)各個(gè)領(lǐng)域點(diǎn)擊分布為出發(fā)點(diǎn)，抽象出用戶對(duì)各個(gè)領(lǐng)域的興趣度，進(jìn)而分析提取用戶對(duì)各個(gè)領(lǐng)域的點(diǎn)擊傾向性，并結(jié)合內(nèi)容的時(shí)間因素和熱度因素進(jìn)行綜合回歸分析，基于線性回歸中各個(gè)特征的強(qiáng)解釋性，采用線性回歸進(jìn)行各個(gè)特征的回歸系數(shù)擬合。

1 線性回歸

線性回歸模型作為業(yè)界的常用模型，對(duì)于趨勢(shì)分析有非常好的效果。因其模型簡(jiǎn)單并且對(duì)特征可解釋性強(qiáng)，因此在工業(yè)界得到了廣泛應(yīng)用。線性回歸可描述為：對(duì)于一系列的給定特征，分析給定特征和實(shí)際值之間的一種組合關(guān)系，假設(shè)實(shí)際值總能夠根據(jù)一定的組合方式由給定的一系列特征擬合得到，稱這種組合方式為線性回歸。實(shí)際值和特征之間的組合關(guān)系可表示為：

（1）

式中：表示實(shí)際值；表示給定的各個(gè)特征值；表示組合方式，組合方式可以表示為向量形式的回歸系數(shù)。回歸分析是一種近似的分析，通過(guò)大量的數(shù)據(jù)訓(xùn)練，不斷地對(duì)當(dāng)前最優(yōu)的回歸系數(shù)進(jìn)行再調(diào)整，以一種迭代收斂的方式最小化損失函數(shù)，從而獲得最優(yōu)解，損失函數(shù)表示如下：

（2）

2 用戶點(diǎn)擊率回歸擬合

用戶的點(diǎn)擊具有一定的局部性，即用戶在一段時(shí)間內(nèi)瀏覽的內(nèi)容主題是相對(duì)固定的，通過(guò)截取分析用戶一段時(shí)間的點(diǎn)擊日志進(jìn)行回歸分析，擬合最佳的回歸系數(shù)，從而提高內(nèi)容排序的準(zhǔn)確性，提升用戶的點(diǎn)擊欲望。

假設(shè)截取時(shí)間段為對(duì)于用戶，用戶歷史推薦的內(nèi)容為，表示給用戶推薦的第條內(nèi)容，從內(nèi)容角度可以劃分的領(lǐng)域集合為，對(duì)于用戶假設(shè)給用戶總共推薦條內(nèi)容，用戶共點(diǎn)擊條內(nèi)容，則認(rèn)為用戶在時(shí)間段內(nèi)對(duì)內(nèi)容集合的點(diǎn)擊率為記為對(duì)于領(lǐng)域而言，同理，根據(jù)點(diǎn)擊次數(shù)和總推薦次數(shù)比值得到對(duì)于領(lǐng)域的點(diǎn)擊傾向性對(duì)于時(shí)間特征和內(nèi)容本身的熱度特征，取平均值后進(jìn)行歸一化。假設(shè)在線性回歸時(shí)選取各個(gè)領(lǐng)域、時(shí)間和內(nèi)容熱度三個(gè)維度的特征，用戶的點(diǎn)擊率作為實(shí)際值，則可以將線性回歸公式歸納為：endprint

（3）

式中：表示各個(gè)領(lǐng)域的回歸系數(shù)；和分別表示時(shí)間衰減的回歸系數(shù)和內(nèi)容熱度的回歸系數(shù)。其中時(shí)間衰減的特征計(jì)算方式如下：

（4）

內(nèi)容熱度的計(jì)算方式采用邏輯函數(shù)進(jìn)行歸一化：

（5）

假設(shè)在時(shí)間段內(nèi)共有用戶個(gè)，則個(gè)用戶對(duì)應(yīng)會(huì)產(chǎn)生個(gè)點(diǎn)擊率以及點(diǎn)擊率對(duì)應(yīng)的各個(gè)維度特征，可表示為：

（6）

3 實(shí)驗(yàn)與分析

實(shí)驗(yàn)選取今日頭條中用戶瀏覽和點(diǎn)擊的測(cè)試數(shù)據(jù)集，測(cè)試數(shù)據(jù)集截取時(shí)間段為2016年3月10日上午8：00—22：00之間14個(gè)小時(shí)共計(jì)1億條瀏覽記錄，對(duì)該1億條記錄進(jìn)行分析處理，根據(jù)內(nèi)容信息提取內(nèi)容從屬的領(lǐng)域信息，領(lǐng)域列表采用今日頭條公開(kāi)的領(lǐng)域分類集合，內(nèi)容的領(lǐng)域提取策略采用文本匹配的方式，即內(nèi)容中有文本能夠和領(lǐng)域相匹配，則該內(nèi)容從屬于該領(lǐng)域，可能存在當(dāng)前內(nèi)容從屬于多個(gè)領(lǐng)域的情況。與此同時(shí)，可以獲得內(nèi)容的熱度信息（即該條內(nèi)容的評(píng)論數(shù)）、內(nèi)容的時(shí)間特性。測(cè)試數(shù)據(jù)集的樣例格式如表1所示。

在表1中，第一列表示用戶是否點(diǎn)擊該條內(nèi)容，第二列表示用戶設(shè)備號(hào)，第三列表示推薦內(nèi)容，第四列表示時(shí)間。今日頭條對(duì)內(nèi)容領(lǐng)域的分類包括財(cái)經(jīng)、軍事、國(guó)際、時(shí)尚、游戲等不到100個(gè)領(lǐng)域的分類。

3.1 評(píng)價(jià)指標(biāo)

ROC和AUC是評(píng)價(jià)分類器的指標(biāo)。ROC是受試者工作特征曲線（Receiver Operating Characteristic Curve）的簡(jiǎn)寫(xiě)，又稱為感受性曲線（Sensitivity Curve）。得此名的原因在于曲線上各點(diǎn)反映著相同的感受性，它們都是對(duì)同一信號(hào)刺激的反應(yīng)，只不過(guò)是在幾種不同的判定標(biāo)準(zhǔn)下所得的結(jié)果而已。ROC是反映敏感性和特異性連續(xù)變量的綜合指標(biāo)，用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系，它通過(guò)將連續(xù)變量設(shè)定出多個(gè)不同的臨界值，從而計(jì)算出一系列敏感性和特異性，再以敏感性為縱坐標(biāo)、（1?特異性）為橫坐標(biāo)繪制成曲線。AUC是ROC曲線下面積（Area Under ROC Curve）的簡(jiǎn)稱，顧名思義，AUC的值就是處于ROC Curve下方的那部分面積的大小。通常，AUC的值介于0.5～1.0之間，AUC越大，診斷準(zhǔn)確性越高。在ROC曲線上，最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。

AUC計(jì)算常用方式是統(tǒng)計(jì)所有的（為正類樣本的數(shù)目，為負(fù)類樣本的數(shù)目）個(gè)正負(fù)樣本對(duì)中有多少個(gè)組中的正樣本的score大于負(fù)樣本的score。當(dāng)二元組中正負(fù)樣本的score相等時(shí)，按照0.5計(jì)算，然后除以計(jì)算公式如下：

（7）

回歸的一個(gè)重要特性是提高用戶預(yù)測(cè)的準(zhǔn)確性，因此采用訓(xùn)練之后的模型進(jìn)行回歸預(yù)測(cè)時(shí)，一個(gè)重要的指標(biāo)是評(píng)判模型的預(yù)測(cè)是否能夠提高用戶的點(diǎn)擊率，即是否能夠?qū)⒂脩魞A向點(diǎn)擊的內(nèi)容挑選出來(lái)。此處的點(diǎn)擊率驗(yàn)證可以轉(zhuǎn)化為用戶推薦的準(zhǔn)確率，即給用戶推薦的條內(nèi)容中，用戶點(diǎn)擊的條數(shù)量，則推薦準(zhǔn)確率可以表示為：

（8）

3.2 實(shí)驗(yàn)分析

實(shí)驗(yàn)選取測(cè)試數(shù)據(jù)集的1億條數(shù)據(jù)，其中70%作為模型的訓(xùn)練數(shù)據(jù)，30%作為測(cè)試數(shù)據(jù)，其中30%的測(cè)試數(shù)據(jù)可以用于驗(yàn)證模型的AUC和準(zhǔn)確率。準(zhǔn)確率的驗(yàn)證方式采用單領(lǐng)域按小時(shí)進(jìn)行時(shí)間切分，具體見(jiàn)實(shí)驗(yàn)對(duì)比部分。

為了對(duì)比不同方式下在測(cè)試數(shù)據(jù)集上的AUC表現(xiàn)，分別選取本文的線性回歸模型、基于時(shí)間和熱度序的模型以及純熱度序的模型，采用三種方式分別計(jì)算在測(cè)試數(shù)據(jù)集上的AUC體現(xiàn)，如圖1所示。

從圖1可以看出，本文的點(diǎn)擊回歸模型在AUC上表現(xiàn)良好，均值都保持在0.7以上，相對(duì)于時(shí)間熱度模型和純熱度模型，本文的模型在AUC上有較為明顯的提升。同時(shí)，將數(shù)據(jù)分布的14個(gè)時(shí)間段以兩個(gè)小時(shí)為間隔進(jìn)行AUC對(duì)比，可見(jiàn)，本文模型在AUC上的表現(xiàn)也較為穩(wěn)定。

如前所述，采用訓(xùn)練模型對(duì)比用戶在數(shù)據(jù)集上的準(zhǔn)確率（點(diǎn)擊率）表現(xiàn)。采用單領(lǐng)域下分時(shí)段的準(zhǔn)確率分析。具體做法為：以領(lǐng)域和時(shí)間片為劃分，時(shí)間片的分割單位為h，選取單領(lǐng)域下時(shí)間片為某1 h內(nèi)的30%測(cè)試數(shù)據(jù)，用三種模型（點(diǎn)擊回歸模型、時(shí)間熱度模型和純熱度模型）分別計(jì)算得分排名Top100的內(nèi)容，根據(jù)實(shí)際情況下Top100中用戶點(diǎn)擊內(nèi)容的占比來(lái)定義準(zhǔn)確率。具體的數(shù)據(jù)表現(xiàn)如圖2所示。

從圖2可以看出，本文的點(diǎn)擊回歸模型在點(diǎn)擊準(zhǔn)確率上同樣表現(xiàn)良好，在某些峰值點(diǎn)，點(diǎn)擊率能達(dá)到60%以上，這在內(nèi)容推薦流中對(duì)提高用戶的點(diǎn)擊率是非常有效的?；跁r(shí)間熱度序和純熱度序的模型則相對(duì)較為欠缺，熱度序在某些點(diǎn)會(huì)和時(shí)間熱度序持平，這可以解釋為熱度序在一定程度上能夠反映用戶的點(diǎn)擊傾向性受到群體的影響。

4 結(jié) 語(yǔ)

本文通過(guò)在內(nèi)容推薦流中擬合用戶的點(diǎn)擊信息進(jìn)行回歸分析，通過(guò)提取用戶歷史的點(diǎn)擊領(lǐng)域信息以及推薦內(nèi)容本身的時(shí)間信息和熱度信息，并對(duì)測(cè)試數(shù)據(jù)集以AUC和點(diǎn)擊率進(jìn)行指標(biāo)評(píng)估。實(shí)驗(yàn)結(jié)果表明，本文的模型相比于時(shí)間熱度序和純熱度序能較為明顯地提升用戶的點(diǎn)擊欲望。下一步的工作應(yīng)當(dāng)是考慮提取深層次的信息進(jìn)行補(bǔ)充，同時(shí)，基于用戶協(xié)同過(guò)濾的思想，提升群體智慧。

參考文獻(xiàn)

[1] 黃斌，彭志平.基于級(jí)聯(lián)過(guò)濾的多模型融合的推薦方法[J].小型微型計(jì)算機(jī)系統(tǒng)，2016（1）：33?37.

[2] 余永紅，陳興國(guó)，高陽(yáng).一種基于耦合對(duì)象相似度的項(xiàng)目推薦算法[J].計(jì)算機(jī)科學(xué)，2014（2）：33?35.

[3] 陳珂，鄒權(quán)，彭志平，等.異質(zhì)社交網(wǎng)絡(luò)中協(xié)同排序的好友推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng)，2014（6）：1270?1274.

[4] 朱亮，陸靜雅，左萬(wàn)利.基于用戶搜索行為的query?doc關(guān)聯(lián)挖掘[J].自動(dòng)化學(xué)報(bào)，2014（8）：1654?1666.

[5] 華曉芳，楊緒兵.隱目標(biāo)回歸算法設(shè)計(jì)研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2014（9）：3113?3118.

[6] 聶卉.基于內(nèi)容分析的用戶評(píng)論質(zhì)量的評(píng)價(jià)與預(yù)測(cè)[J].圖書(shū)情報(bào)工作，2014（13）：83?89.

[7] 王萍，王毅，文麗.優(yōu)化用戶滿意體驗(yàn)的數(shù)字資源建設(shè)探究[J].中國(guó)圖書(shū)館學(xué)報(bào)，2014（5）：98?109.

[8] 陳潔敏，湯庸，李建國(guó)，等.個(gè)性化推薦算法研究[J].華南師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2014（5）：8?15.

[9] 李廣利.科技查新用戶滿意度影響因素分析[J].現(xiàn)代情報(bào)，2014（10）：162?165.

[10] 李忠俊，周啟海，帥青紅.一種基于內(nèi)容和協(xié)同過(guò)濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué)，2009（12）：142?145.endprint