亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容和背景的微博問答問題推薦

        2018-06-11 11:06:04歐陽龍彭艷兵
        電子設(shè)計工程 2018年11期
        關(guān)鍵詞:背景內(nèi)容用戶

        歐陽龍,盧 琪,彭艷兵

        (1.武漢郵電科學研究院湖北武漢430000;2.南京烽火星空通信發(fā)展有限公司江蘇南京210000)

        免費一直被國內(nèi)的互聯(lián)網(wǎng)界奉為圭臬,但是,內(nèi)容付費卻偏偏在其中獨樹一幟的發(fā)展了起來。2016年底,新浪微博推出微博問答這一新功能,很快就占領(lǐng)了內(nèi)容付費市場的半壁江山。

        微博問答的應(yīng)用場景是:用戶群A付費對用戶B提出問題,用戶B從問題中選擇問題進行作答,作答后,用戶A提問所付的費用進入用戶B的錢包,問題和答案會以微博問答的形式被用戶B自動轉(zhuǎn)發(fā),其他用戶可以付費1元進行圍觀,圍觀的費用一半進入用戶A的錢包,另一半進入用戶B的錢包。有一些好問題甚至能以幾十元的問題價格吸引數(shù)萬的圍觀量,其中的商機不言而喻。本文研究的目的在于針對特定的微博問答用戶,提出更容易被回答且收益率更高的問題。

        需要解決的關(guān)鍵問題是對用戶的關(guān)鍵詞挖掘,也可以說是對用戶興趣的挖掘。對微博用戶興趣的挖掘一般分為兩類:1)基于背景挖掘用戶興趣;2)基于內(nèi)容挖掘用戶興趣。

        基于背景的用戶興趣挖掘通過微博平臺的個人簡介、職業(yè)、標簽、畢業(yè)院校、生日、性別等信息對不同的用戶進行分類[1],針對某些平臺用戶背景信息較少的問題,可以使用多平臺分析的方法[2],也可以利用朋友的信息[3],但是只有背景相似的朋友的信息才有效[4],甚至可以以朋友的背景為基礎(chǔ)推斷出用戶的背景信息[5],使用其他用戶對該用戶的分組描述作為用戶的背景[6]也是一種不錯的方法。

        基于背景的用戶興趣挖掘存在的主要問題:用戶背景數(shù)據(jù)不完善,在對新浪微博1.4億用戶的統(tǒng)計中,添加了標簽的用戶只占21.8%,標簽個數(shù)大于5的用戶只占6.2%[7]。

        基于內(nèi)容的用戶興趣挖掘可以看作文本主題或關(guān)鍵詞提取問題。由于微博一般比較短小,可以從每一條微博中提取一個主題[8],或者將一個用戶的所有微博合并成一個大文本之后再進行主題提取[9],當用戶的微博內(nèi)容比較少時,可以用該用戶多個朋友的共同興趣推出該用戶的興趣[10],AT模型可以用于發(fā)現(xiàn)用戶和主題的關(guān)系[11],針對微博的特性,MBLDA模型也能進行微博主題挖掘[12]。

        基于內(nèi)容的用戶興趣挖掘存在的主要問題:1)沒有考慮到博主與粉絲的交互,2)缺少一種對關(guān)鍵詞進行推薦的方法。

        本文在針對博主與粉絲的交互提出了基于微博轉(zhuǎn)發(fā)、評論、點贊和詞頻的詞語權(quán)重計算方法,針對背景數(shù)據(jù)不全,提出了基于背景和內(nèi)容的AW-LDA用戶關(guān)鍵詞挖掘方法,并結(jié)合背景和內(nèi)容分析用戶之間相似度,進而達到推薦問題關(guān)鍵詞的目的。

        1 理論基礎(chǔ)

        1.1 LDA主題模型

        LDA的模型結(jié)構(gòu)如圖1所示。

        圖1 LDA模型圖

        在LDA模型中,一篇文檔的生成方式如下:

        1)對于一篇文檔di,從狄利克雷分布(即Dirichlet分布)α中取樣生成文檔di的主題分布θi,即主題分布θi由參數(shù)為α的Dirichlet分布生成;

        2)從主題的多項式分布θi中取樣生成文檔di的第j個詞的主題zij;

        3)從狄利克雷分布ε中取樣生成主題zij對應(yīng)的詞語分布βij,即詞語分布βij由參數(shù)為ε的Dirichlet分布生成;

        4)從詞語的多項式分布β中采樣最終生成詞語wij。

        即每個詞語出現(xiàn)的概率為:

        1.2 EM算法

        LDA原始論文中采用變分-EM算法估計未知參數(shù)[13]。EM算法,即期望最大算法,其基本思想是:首先隨機選取一個值去初始化估計值θ(0),然后不斷迭代尋找更優(yōu)的θ(n+1)使得其似然函數(shù)比原來的要大??梢杂脕斫oLDA模型求解。

        EM算法的關(guān)鍵便是要找到L(θ)的一個下界,然后不斷最大化這個下界。從而逼近要求解的似然函數(shù)算法的一般步驟為:

        3)重新估計參數(shù)θ,即求,使得

        4)如果L(θ)收斂,即Q(Q;Qn)收斂,則算法完成,否則回到步驟2[15]。

        這樣就能求得LDA模型中的主題分布和詞分布。

        1.3 Gibbs采樣算法

        LDA原始論文中采用變分-EM算法估計未知參數(shù),后來發(fā)現(xiàn)另一種估計LDA未知參數(shù)的方法更好,這種方法就是:Gibbs Sampling,有時叫Gibbs采樣或Gibbs抽樣[16]。Gibbs抽樣是馬爾可夫鏈蒙特卡爾理論(MCMC)中用來獲取一系列近似等于指定多維概率分布(比如2個或者多個隨機變量的聯(lián)合概率分布)觀察樣本的算法[17]。通過求解出主題分布和詞分布的后驗分布,從而成功解決主題分布和詞分布這兩參數(shù)未知的問題。

        Gibbs采樣算法的步驟為:

        表示對z(t+1)中的第i個參數(shù)進行抽樣,對于包含隱變量的LDA模型來說,抽樣公式為:

        2 基于內(nèi)容和背景的微博問答問題推薦

        2.1 數(shù)據(jù)采集

        本文的數(shù)據(jù)來自于新浪微博的微博問答模塊中系統(tǒng)推薦的前5000個用戶,都是業(yè)內(nèi)專家或者名人,他們在各自的微博問答主頁上都有各自擅長回答的問題等標簽,將這些標簽作為用戶的背景信息;另外采集這5000個用戶發(fā)布的微博文本信息,包括原創(chuàng)微博內(nèi)容和轉(zhuǎn)發(fā)微博內(nèi)容以及本條微博轉(zhuǎn)發(fā)、評論、點贊的數(shù)量,將這些文本信息作為內(nèi)容分析用戶的興趣;采集這5000個用戶的所有微博問答內(nèi)容,包括問題內(nèi)容、問題價值、圍觀數(shù)量,將這些文本作為內(nèi)容分析用戶的答題興趣。

        2.2 數(shù)據(jù)處理

        由于采用的數(shù)據(jù)集是微博原始文本,所以需要對數(shù)據(jù)進行一定的處理[19]。第一步是對文本進行切詞處理。文中采用的是python第三方庫jieba分詞,其精確模式可以將句子以精確的方式切開,消除歧義。

        第二步去除文本中的停用詞(代詞和語氣詞)[20],這類詞一般在文本中很常見,但是對用戶興趣挖掘沒有用處。本文使用的是Github上的中文停用詞詞表,共1598個詞,并且在處理文本的過程中根據(jù)文本的內(nèi)容和語義不斷添加停用詞,最后將停用詞個數(shù)擴充到1912個。

        第三步是對詞頻進行統(tǒng)計。針對用戶的微博內(nèi)容,由于微博是用戶與用戶之間的交流,所以關(guān)注者對被關(guān)注者的反饋信息比如轉(zhuǎn)發(fā)、評論、點贊都會影響到被關(guān)注者,比如某個話題的微博受到了大量的轉(zhuǎn)發(fā)、評論、點贊,那么被關(guān)注者可能會更傾向于喜歡個話題,在微博問答中回答這類問題的可能性也會比較高,關(guān)注者的圍觀人數(shù)也可能會很多。所以本文在進行詞頻統(tǒng)計的時候并不是簡單的只統(tǒng)計詞出現(xiàn)的次數(shù),而是結(jié)合各條微博被轉(zhuǎn)發(fā)、評論、點贊的次數(shù)對該條微博中出現(xiàn)的詞的詞頻進行加成,微博被轉(zhuǎn)發(fā)、評論、點贊的次數(shù)越多,詞的詞頻加成也越多,即

        其中WTwi表示詞wi的詞頻,Tij表示詞wi在微博j中出現(xiàn)的次數(shù),repj表示微博j被轉(zhuǎn)發(fā)的次數(shù),comj表示微博j被評論的次數(shù),likj表示微博j被評論的次數(shù)。針對用戶的微博問答內(nèi)容,關(guān)鍵詞的推薦需要與問題的收益率掛鉤才能正確反映基于微博內(nèi)容的關(guān)鍵詞推薦的正確性,所以在對微博問答問題內(nèi)容進行詞頻統(tǒng)計時,不僅要統(tǒng)計詞出現(xiàn)的次數(shù),還要統(tǒng)計問題的收益率

        其中WTwi表示詞wi的詞頻,Tij表示詞wi在微博j中出現(xiàn)的次數(shù),REij表示問題的收益率。

        2.3 AW-LDA模型

        由于本文的目的是對微博問答的問題作出推薦,所以對于微博內(nèi)容來說,關(guān)注的重點不是主題,而是主題中的詞,即對問題的關(guān)鍵詞作出推薦。傳統(tǒng)的LDA模型采用的是“用戶-主題-詞袋”的模式[21],即用戶以一定的概率分布選擇主題,主題以一定的概率分布選擇詞袋中的詞,最終構(gòu)成文檔。但是傳統(tǒng)的LDA模型對于關(guān)鍵詞的推薦并不合適,我們需要的是“用戶-詞袋”的概率分布,主題層對于問題的關(guān)鍵詞推薦來說沒有意義。所以本文基于傳統(tǒng)的LDA模型提出了AW-LDA模型,重點分析用戶(author)與詞袋(words)的概率分布關(guān)系。AW-LDA模型如圖2所示。

        對于一個用戶的微博內(nèi)容或者背景文檔di,從

        圖2 AW-LDA模型

        其中REij表示問題的收益率,Gij表示問題的圍觀人數(shù),PAij表示問題價值,i表示用戶編號,j表示問題編號。根據(jù)問題的收益率對問題中出現(xiàn)的關(guān)鍵詞的詞頻進行加成,收益率越高,詞的詞頻加成也越多。即狄利克雷分布(即Dirichlet分布)ε中取樣生成文檔di的詞分布βi,即詞分布βi由參數(shù)為ε的Dirichlet分布生成,對于文檔di中的第j個詞語wij,從詞語的多項式分布β中采樣最終生成詞語wij。

        采用Gibbs采樣算法對AW-LDA模型進行求解,首先用歐拉公式將P(w|ε)展開:

        然后用Gibbs算法對如下后驗分布進行抽樣:

        對上式進行反復(fù)迭代,并對所有詞進行抽樣,抽樣結(jié)果穩(wěn)定時,結(jié)果為

        這樣,AW-LDA模型就使用Gibbs抽樣解出了微博內(nèi)容在詞語上的概率分布βw。

        使用AW-LDA模型分別對用戶的微博內(nèi)容和背景進行分析,得到針對用戶微博內(nèi)容的推薦詞集WCi及其概率分布PCi和針對用戶微博背景的推薦詞集WBi及其概率分布PBi,其中i表示用戶編號。

        2.4 基于用戶微博內(nèi)容和背景的相似度分析

        得到用戶的推薦詞集及其概率分布后,采用余弦相似度算法計算用戶之間的相似度,具體實現(xiàn)為:先將兩個用戶的推薦詞集合并,組成一個新的含有N個詞的詞集WN,可以通過補零的方式根據(jù)用戶對推薦詞集WCi的概率分布PCi求得用戶對詞集WN的概率分布PWi,其中i表示用戶編號,這樣就能得到兩個用戶對詞集WN的概率分布PWi和PWj,可以看作是兩個N維向量,然后采用余弦相似度算法

        計算兩個向量的余弦值,結(jié)果可以表示兩個用戶的內(nèi)容相似度sim(Cij),其中xi、yi分別表示概率分布PWi和PWj中的元素。用相同的方法可以求出兩個用戶的背景相似度sim(Bij)。將兩個相似度結(jié)合起來,令兩個用戶的相似度

        其中a表示微博內(nèi)容相似度所占的權(quán)重。

        2.5 基于樣本進行關(guān)鍵詞推薦

        在對訓(xùn)練集中的用戶A進行關(guān)鍵詞推薦時,根據(jù)simij在樣本集中找到與用戶A相似度最高的用戶B,并將用戶B的問答關(guān)鍵詞中權(quán)重最高的10個詞推薦為用戶A的問答關(guān)鍵詞。實驗結(jié)果表明當a取值為0.79時,推薦的關(guān)鍵詞所包含的問題的價值總和占所有問題價值總和的比例最大,為92.56%;當a取值為0.84時,推薦的關(guān)鍵詞所包含的問題個數(shù)占所有問題總量的比例最大,為83.73%。

        3 微博問答問題推薦效果及分析

        文中采用perlexity指標對模型的優(yōu)劣進行衡量。Perlexity指標通常用來衡量一個概率模型的好壞,在主題模型領(lǐng)域也是比較常見的衡量指標,perlexity指數(shù)越低表示模型的性能越好。Perlexity定義為:

        其中W為測試集,wm為測試集中的單詞,Nm為測試集中的單詞數(shù)。LDA模型與AW-LDA模型的perlexity指數(shù)對比如表1所示。

        表1 LDA模型與AW-LDA模型對比

        由表1可以看出隨著迭代次數(shù)的增加,LDA模型的Perlexity指數(shù)越來越低,模型性能越來越好,且變化率越來越低,表示模型趨于穩(wěn)定;AW-LDA模型的Perlexity指數(shù)不隨迭代次數(shù)變化是因為指定了每個用戶的文本主題數(shù)為1,即用戶選擇詞的概率已經(jīng)確定,迭代不會影響用戶選擇詞的概率;在LDA模型收斂的過程中,AW-LDA模型的Perlexity指數(shù)一直比LDA模型低,表明使用AW-LDA模型對微博用戶的微博文本和背景進行分析,的確能提升模型的性能。

        本文采用文本內(nèi)容關(guān)鍵詞與背景關(guān)鍵詞結(jié)合的方式計算測試集與樣本集中的用戶相似度,并推薦問答關(guān)鍵詞。推薦效果如圖3所示。

        圖3 問題數(shù)量推薦效果

        由圖3可以看出,當基于微博內(nèi)容和背景進行關(guān)鍵詞推薦時,隨著微博內(nèi)容所占的權(quán)重不斷增加,推薦的關(guān)鍵詞命中的問題個數(shù)比例先增加后減少,且當微博內(nèi)容所占的權(quán)重為0.84時,推薦的關(guān)鍵詞命中的問題個數(shù)比例達到最高,為83.73%;只基于微博內(nèi)容進行關(guān)鍵詞推薦時,關(guān)鍵詞命中的問題個數(shù)比例為74.58%;只基于背景進行關(guān)鍵詞推薦時關(guān)鍵詞命中的問題個數(shù)比例為16.33%。都低于將微博內(nèi)容和背景以最優(yōu)的方式結(jié)合后的問題關(guān)鍵詞推薦命中率,表明改進后的關(guān)鍵詞推薦方法能使問題更容易被回答。

        圖4 問題價值推薦效果

        由圖4可以看出,當基于微博內(nèi)容和背景進行關(guān)鍵詞推薦時,隨著微博內(nèi)容所占的權(quán)重不斷增加,推薦的關(guān)鍵詞命中的問題價值比例先增加后減少,且當微博內(nèi)容所占的權(quán)重為0.79時,推薦的關(guān)鍵詞命中的問題價值比例達到最高,為92.56%;只基于微博內(nèi)容進行關(guān)鍵詞推薦時,關(guān)鍵詞命中的問題價值比例為77.03%;只基于背景進行關(guān)鍵詞推薦時關(guān)鍵詞命中的問題價值比例為23.95%。都低于將微博內(nèi)容和背景以最優(yōu)的方式結(jié)合后的問題關(guān)鍵詞推薦命中率,表明改進后的關(guān)鍵詞推薦方法能在問題的價值方面做出有效的推薦。

        4 結(jié)束語

        文中針對微博的用戶關(guān)系,改進了詞頻統(tǒng)計方法;針對微博文本的特殊結(jié)構(gòu),提出了一個適合提取微博用戶關(guān)鍵詞的模型AW-LDA,并針對微博文本內(nèi)容和用戶背景共存的特點,提出了將內(nèi)容和背景結(jié)合起來進行關(guān)鍵詞推薦的方法,實驗表明該方法能從問題個數(shù)和問題價值方面做出有效的關(guān)鍵詞推薦。

        今后的研究工作中將繼續(xù)優(yōu)化AW-LDA模型的效率,探索微博文本內(nèi)容和用戶背景結(jié)合的更好方法,并在詞頻統(tǒng)計環(huán)節(jié)加入對原創(chuàng)微博和轉(zhuǎn)發(fā)微博的考慮。

        猜你喜歡
        背景內(nèi)容用戶
        內(nèi)容回顧溫故知新
        科學大眾(2022年11期)2022-06-21 09:20:52
        “新四化”背景下汽車NVH的發(fā)展趨勢
        《論持久戰(zhàn)》的寫作背景
        當代陜西(2020年14期)2021-01-08 09:30:42
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        晚清外語翻譯人才培養(yǎng)的背景
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        免费人成网ww555kkk在线| 国产精品国产三级在线专区| 青青草视频在线观看精品在线| 成年美女黄网站色大免费视频| 亚洲女初尝黑人巨高清| 四虎影视国产在线观看精品| 国产颜射视频在线播放| 亚洲国产人成综合网站| 99久久婷婷国产综合亚洲| 一本大道色婷婷在线| 99riav精品国产| 亚洲av天堂一区二区| 疯狂三人交性欧美| 亚洲精品成人网站在线观看| www.久久av.com| 视频一区精品中文字幕| 久久99国产精品久久99| 国产乱人伦偷精品视频| 99RE6在线观看国产精品| 日本一区二区三区不卡在线| 精品视频无码一区二区三区| 这里有精品可以观看| 国产主播一区二区在线观看| 国内偷拍国内精品多白86| 激烈的性高湖波多野结衣| 91av小视频| 亚洲精品二区三区在线观看| 音影先锋中文字幕在线| 伊人久久精品久久亚洲一区| 亚洲av日韩av综合aⅴxxx| 日本一区二区三区免费| 国产精品一区二区av麻豆| 人妻被黑人粗大的猛烈进出 | 91成人午夜性a一级毛片| 成人影院视频在线播放| 内射口爆少妇麻豆| 亚洲日韩欧美国产高清αv| 国产精品一区二区久久精品蜜臀| 中文字幕一区二区中出后入| 欧美日韩色另类综合| 国产午夜视频免费观看|