亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVMs的微博信息推送系統(tǒng)用戶興趣模型

        2013-09-08 02:13:24陳盛雙何云麗
        關(guān)鍵詞:博文類別個(gè)性化

        繆 平,陳盛雙,何云麗

        (武漢理工大學(xué)理學(xué)院,湖北武漢 430070)

        1 研究背景

        在傳統(tǒng)的網(wǎng)絡(luò)時(shí)代,信息的創(chuàng)造者更多的是一些權(quán)威的新聞機(jī)構(gòu),而普通的互聯(lián)網(wǎng)用戶只能是信息的使用者。隨著 Web 2.0的興起,這種格局發(fā)生了變化,普通的互聯(lián)網(wǎng)用戶不再僅僅是信息的使用者,一些新興應(yīng)用的出現(xiàn)使得他們也有機(jī)會(huì)成為信息的發(fā)布者,而他們所發(fā)布的信息,特別是在一些個(gè)人信息平臺(tái)上發(fā)布的公開信息,是獲取他們作為信息發(fā)布者時(shí)發(fā)布的個(gè)性化信息的一個(gè)有效途徑[1]。在眾多的互聯(lián)網(wǎng)新興應(yīng)用中,微博就是一個(gè)非常典型的個(gè)性化信息發(fā)布平臺(tái)。因此,對于作為信息發(fā)布者的互聯(lián)網(wǎng)用戶,筆者以微博為研究環(huán)境,探討以微博用戶為個(gè)性化信息來源的面向信息發(fā)布者的自適應(yīng)信息推送技術(shù)。

        對于信息瀏覽者,由于其行為難以捕捉,其個(gè)性化信息往往很難獲得。與信息發(fā)布者在互聯(lián)網(wǎng)上顯式地發(fā)布與自己興趣相關(guān)的文章等個(gè)性化信息不同,信息瀏覽者在互聯(lián)網(wǎng)活動(dòng)中所留下的信息非常少(對于搜索引擎用戶而言,其查詢歷史等可以作為個(gè)性化信息,但是對于普通的網(wǎng)頁瀏覽者,這樣的信息難以獲得),因此,對信息瀏覽者建立個(gè)性化模型顯得尤為困難。用戶當(dāng)前瀏覽內(nèi)容可以在一定程度上反映他們的興趣,如一個(gè)正在瀏覽體育主題博文的用戶對體育會(huì)有一定的興趣,在這種情況下反映出的興趣是一種即時(shí)、短暫類的興趣。盡管這類興趣與用戶長期穩(wěn)定的興趣會(huì)有所不同,但筆者認(rèn)為,對于信息推送系統(tǒng)而言,滿足用戶即時(shí)的需求也可理解為一種個(gè)性化的推送方式。因此,對于信息瀏覽者,筆者以他們當(dāng)前正在瀏覽的信息(即上下文信息)為反映他們興趣的有效渠道,探討了基于上下文分析的自適應(yīng)信息推送技術(shù),為當(dāng)前網(wǎng)頁的瀏覽用戶提供與網(wǎng)頁內(nèi)容相關(guān)的信息。

        2 博客用戶個(gè)性化建模

        博客用戶個(gè)性化建模是獲知博客用戶信息、捕捉其興趣的有效方法。與普通搜索引擎用戶的個(gè)性化建模不同,在微博中通??梢苑奖愕孬@取大量用戶發(fā)表的文本以及圖片信息,它們直接反映了用戶的興趣等個(gè)性化信息,為博客用戶的個(gè)性化建模工作提供了豐富的資源。同時(shí),博文中還包含了大量的時(shí)間信息,可通過在個(gè)性化模型中加入時(shí)間維度,模擬用戶的興趣漂移,捕捉用戶的長期興趣和在一段時(shí)間內(nèi)的短期興趣。

        基于以上考慮,通過對博文的分析,獲取用戶在長時(shí)間內(nèi)逐步形成的長期興趣和短期內(nèi)的興趣,引入衰減因子的概念,模擬人在實(shí)際生活中的興趣衰減規(guī)律,對通過文章分析得到的用戶個(gè)性化模型進(jìn)行演化。目前,針對博客用戶的個(gè)性化建模的研究工作還較少,以往針對微博的研究主要集中于博文內(nèi)容分析及用戶社區(qū)分析上。其中的內(nèi)容分析主要包括微博用戶的心情分析[2-3]、微博內(nèi)容分類[4-5]與微博的主題抽?。?]等。

        2.1 個(gè)性化建模的核心思想

        用戶的興趣可以分為長期和短期興趣。長期興趣代表用戶的總體偏好,是經(jīng)過長時(shí)間積累形成的,并且十分穩(wěn)定。因此,該類興趣存在一定的惰性,改變它所需要的時(shí)間和形成它所需要的時(shí)間成正比,而短期興趣則相對不穩(wěn)定,會(huì)不定期地變化。例如,在世界杯期間,用戶可能會(huì)把注意力集中在世界杯上,而世界杯結(jié)束后,他們對足球比賽的興趣便會(huì)降低。

        在微博環(huán)境中可以通過分析這些微博內(nèi)容來獲取微博用戶的短期興趣。目前,利用現(xiàn)有技術(shù)了解用戶細(xì)粒度的興趣是比較困難的。筆者通過使用文本分類方法從博文級(jí)別分析微博用戶的興趣,并在某段短時(shí)間內(nèi)從每條博文中獲取用戶的短期興趣。而用戶興趣可能會(huì)由于時(shí)間的流逝而降低甚至消失,因此,筆者引入興趣衰減算法來模擬這一現(xiàn)象。

        長期興趣通過分析用戶長時(shí)期內(nèi)的注冊信息、反饋信息和博文等獲得,同時(shí)短期興趣也有可能轉(zhuǎn)化為長期興趣。由于注冊信息等較難獲得,筆者根據(jù)短期興趣來對長期興趣進(jìn)行建模。

        2.2 從博客文章中獲取用戶興趣

        筆者采用了文本分類的方法利用博客文章獲取用戶興趣。目前已有大量的基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用于文本分類,筆者用支持向量機(jī)(SVM)作為分類算法[7],對博文進(jìn)行分類。

        在分類原始的博文之前,首先進(jìn)行停用詞消除、降維處理等預(yù)處理操作。利用博文內(nèi)容獲取用戶興趣的基本思想是:由于每條博文與一個(gè)具體的時(shí)間戳相結(jié)合,為獲得t時(shí)刻用戶的興趣,可將該時(shí)刻的博文通過分類分配到預(yù)先規(guī)定的類別中,可以是一個(gè)也可以是多個(gè),類別的分配情況即描述了用戶該時(shí)刻的興趣情況。整個(gè)過程可形式化為:給定某人微博條數(shù)m,所有微博內(nèi)容的集合 D=(d1,d2,…,dm) ,與 D 相對應(yīng)的時(shí)間戳T=(t1,t2,…,tm) ,即每條博文 di都對應(yīng)于其發(fā)布的時(shí)間ti。預(yù)先設(shè)定的類別定義為C=(c1,c2,…,cn),通過SVM,將每條博文di分配到類別cj中,wij≥0是一個(gè)與di有關(guān)的數(shù)值,它代表文章di屬于類別cj的概率值。最終,ti時(shí)刻用戶的興趣可表示為 Ui=(wi1,wi2,…,win) 。

        2.3 用戶長短期興趣建模

        引入了衰減因子,用戶在ti時(shí)刻發(fā)布的博文di在當(dāng)前時(shí)間下表現(xiàn)出來的興趣可形式化為:

        在當(dāng)前時(shí)間tcurrent,用戶對類別cj所表現(xiàn)出的興趣為:

        對當(dāng)前時(shí)間tcurrent前發(fā)表的每條微博所表現(xiàn)出的對類別cj的用戶興趣進(jìn)行累加。用戶總的興趣建模如下:

        從直觀上來講,長期興趣比較穩(wěn)定,而短期興趣容易隨時(shí)間、環(huán)境等的變化而改變,因此長期興趣的衰減周期是長于短期興趣的,分別定義hflong和hfshort為長期衰減因子和短期衰減因子,hflong大于 hfshort。

        利用所有的微博內(nèi)容來獲取用戶興趣不僅費(fèi)時(shí),同時(shí)也不能精確地模擬出用戶的興趣變化,尤其是用戶的短期興趣。筆者定義兩個(gè)閾值Tth和Nth,只有發(fā)布在Tth時(shí)刻之后的微博才被納入考慮范圍;假如在一段時(shí)間間隔內(nèi),博文數(shù)超過了Nth,那就隨機(jī)抽取其中的Nth篇博文納入考慮范圍。給定t為滿足上述條件的最早時(shí)間戳,則當(dāng)前時(shí)間下用戶在類別cj上的短期興趣為:

        短期興趣受用戶當(dāng)前偏好影響,不穩(wěn)定且變化快。但是也有一些穩(wěn)定的長期興趣包含在短期興趣中。用戶的長期興趣是基于短期興趣產(chǎn)生的,即當(dāng)短期興趣積累到一定程度就可以轉(zhuǎn)化成為長期興趣。

        用戶的長期興趣建模如下:

        設(shè)置閾值k,以限制某個(gè)時(shí)間段內(nèi)短期興趣模型的數(shù)量。

        3 實(shí)驗(yàn)與結(jié)果討論

        為驗(yàn)證以上模型的合理性,筆者設(shè)計(jì)了相應(yīng)的實(shí)驗(yàn)。利用SogouC數(shù)據(jù)集作為分類訓(xùn)練庫,對分類算法進(jìn)行訓(xùn)練。

        在訓(xùn)練之前,對所有的文本文件進(jìn)行預(yù)處理,使用ICTCLAS中文自然語言處理工具對樣本進(jìn)行中文分詞處理和詞性標(biāo)注。試驗(yàn)中為了簡單,把長度超過20字節(jié)的詞都過濾掉,之后再用信息增益關(guān)鍵詞特征提取方法[8]計(jì)算詞的信息增益值,除去低于閾值的詞從而實(shí)現(xiàn)降維。

        利用SVM分類器中的rainbow工具包[9],對SogouC中的訓(xùn)練集進(jìn)行訓(xùn)練。分類器的性能用傳統(tǒng)的分類衡量辦法查準(zhǔn)率,召回率和F1進(jìn)行評估。表1為分類器的分類結(jié)果,數(shù)據(jù)表明,SVM有較高的文本分類性能。

        表1 查準(zhǔn)率,召回率和F1的結(jié)果 %

        衡量整體建模結(jié)果,根據(jù)經(jīng)驗(yàn),取hfshort=10天,hflong=30天,Tth=10天,Nth=20篇,k=3。在初始收集的微博用戶及他們發(fā)布的微博中,只考慮那些每月發(fā)表多于10篇的微博用戶。對于過濾后的用戶,用興趣模型進(jìn)行分析建模,結(jié)果表明,用戶興趣能用長短期興趣模型進(jìn)行較好的建模。

        此外,在對兩類不同類型的用戶,用戶A和用戶B,特別選取A為興趣較為穩(wěn)定的用戶類型而B為興趣不穩(wěn)定、變化較快的用戶類型。該實(shí)驗(yàn)將10次測試的結(jié)果記錄下來,結(jié)果分別如表2和表3所示。

        表2 用戶A測試結(jié)果統(tǒng)計(jì)表

        表2和表3中,系統(tǒng)推送的微博數(shù)是系統(tǒng)主動(dòng)根據(jù)用戶的興趣推送給用戶的微博數(shù),用戶感興趣的微博數(shù)是用戶對系統(tǒng)推送來的消息感興趣的條數(shù),實(shí)際感興趣的所有微博數(shù)是指實(shí)際上用戶在測試中所有感興趣的微博數(shù)。

        表3 用戶B測試結(jié)果統(tǒng)計(jì)表

        將兩個(gè)類別的用戶統(tǒng)計(jì)出來的結(jié)果進(jìn)行查準(zhǔn)率、召回率及F1值的計(jì)算,結(jié)果如圖1~圖3所示。

        圖1 系統(tǒng)查準(zhǔn)率的結(jié)果

        圖2 系統(tǒng)召回率的結(jié)果

        圖3 系統(tǒng)F1的結(jié)果

        由圖1可以看出,由于A用戶的興趣相對穩(wěn)定,用戶興趣模型在更新和學(xué)習(xí)的過程中也是趨于穩(wěn)定的,而B用戶由于興趣變化較快,這樣對用戶興趣模型的更新會(huì)帶來很多噪音數(shù)據(jù),不能很好地表現(xiàn)用戶的真實(shí)興趣。

        由圖2可以看出,由于A用戶的興趣相對穩(wěn)定,其召回率也是趨于穩(wěn)定的,而B用戶的召回率波動(dòng)幅度相對較大。

        由圖3可以看出,A和B用戶的F1平均值基本都在70%以上且大小都很接近,這說明系統(tǒng)對興趣變化不管是快還是慢的用戶都顯現(xiàn)了較好的性能,較好地實(shí)現(xiàn)了信息推送服務(wù),也說明了筆者提出的用戶興趣模型在構(gòu)造、更新及學(xué)習(xí)上都有較好的可行性和高效性。

        [1]BELKIN N,CROFT B.Information filtering and information retrieval:two sides of the same coin[J].Communications of ACM,1992,35(12):29-38.

        [2]BHARGAVE H K.Paid placement strategies for internet search engines[C]//Proceedings of the 11th International Conference on World Wide Web.[S.l.]:[s.n.],2002:117-123.

        [3]FENG J,BHARGAVA H K.Comparison of allocation rules for paid placement advertising in search engines[C]//Proceedings of the 5th International Conference[S.l.]: [s.n.],2003:294-299.

        [4]MCCOY S,EVERARD A.The effects of online advertising[J].Communications of the ACM,2007,50(3):84-88.

        [5]BRODER A,F(xiàn)ONTOURA M.A semantic approach to contextual advertising[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.],2007:559-566.

        [6]QAMRA A,TSENG B,CHANG E Y.Mining blog stories using community-based and temporal clustering[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.[S.l.]:[s.n.],2006:58-67.

        [7]MISHNE G,RIJKE M D.Language model mixtures for contextual Ad placement in personal blogs[C]//Proceedings of 5th International Conference on NLP(Fin-TAL).[S.l.]:[s.n.],2006:435-446.

        [8]DING X W,LIU B.The utility of linguistic rules in opinion mining[C]//Proceedings of the 30th Annual International ACM SIGIR Confernce on Research and Developmentin Information Retrieval. [S.l.]:[s.n.],2007:811-212.

        [9]ZHOU M,HUANG C N.An efficient syntactic tagging toll for corpora[C]//Proceedings of the 15th Conference on Computational Linguistics.[S.l.]:[s.n.],1994:949-955.

        猜你喜歡
        博文類別個(gè)性化
        第一次掙錢
        堅(jiān)持個(gè)性化的寫作
        文苑(2020年4期)2020-05-30 12:35:12
        新聞的個(gè)性化寫作
        新聞傳播(2018年12期)2018-09-19 06:27:10
        誰和誰好
        上汽大通:C2B個(gè)性化定制未來
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        滿足群眾的個(gè)性化需求
        打電話2
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        国产小视频网址| 国产色婷亚洲99精品av网站| 一区二区三区日本高清| 真实国产乱子伦精品视频 | 国产福利97精品一区二区| 亚洲熟女天堂av一区二区三区| 久久亚洲中文字幕精品一区| 国产男女猛烈视频在线观看| 亚洲不卡电影| 人妻少妇中文字幕专区| 亚洲乱码中文字幕视频| 无码精品国产一区二区三区免费 | 亚洲国产av导航第一福利网| 色综合久久精品中文字幕| aa日韩免费精品视频一| 日本一二三区视频在线| 最新亚洲人成无码网www电影| 亚洲AⅤ乱码一区二区三区| 日本亚洲系列中文字幕| 屁屁影院ccyy备用地址| 亚洲无码一二专区| 国产自拍伦理在线观看| 日本高清在线一区二区三区| 国产剧情麻豆女教师在线观看| 久久久国产不卡一区二区| 亚洲国产区中文在线观看| aⅴ精品无码无卡在线观看| 国产精品一区二区电影| 日本人妖一区二区三区| 亚洲av丰满熟妇在线播放| 波多野结衣一区二区三区高清| 在线偷窥制服另类| 中文字幕精品亚洲字幕| 大肉大捧一进一出好爽视频| 亚洲精品黄网在线观看| 粉色蜜桃视频完整版免费观看在线 | 不卡av网站一区二区三区| 女邻居的大乳中文字幕| 婷婷色国产精品视频一区| 一级一片内射视频网址| 18禁无遮拦无码国产在线播放|