◎劉亞卓 劉海燕 鄭斯文
新聞個(gè)性化推薦的模型設(shè)計(jì)
◎劉亞卓 劉海燕 鄭斯文
用戶(hù)在面對(duì)海量新聞時(shí),個(gè)性化的推薦系統(tǒng)可以通過(guò)分析用戶(hù)行為來(lái)預(yù)測(cè)用戶(hù)的閱讀偏好,使其能夠盡快地找到用戶(hù)可能感興趣的信息。本文圍繞新聞推薦系統(tǒng)中文本內(nèi)容挖掘和用戶(hù)興趣表達(dá)的問(wèn)題,應(yīng)用混合模型對(duì)新聞個(gè)性化推薦的模型設(shè)計(jì)進(jìn)行了研究。
隨著網(wǎng)絡(luò)信息化的飛速發(fā)展,信息的數(shù)量和種類(lèi)均呈爆炸式增長(zhǎng),逐步出現(xiàn)信息過(guò)載和泛濫的現(xiàn)象,用戶(hù)難以從海量信息中及時(shí)找到自己關(guān)注的內(nèi)容。個(gè)性化推薦理論和技術(shù)的誕生,為解決該問(wèn)題提出了很好的解決辦法,它是一種嶄新的智能﹑高效的信息服務(wù)方式,通過(guò)分析用戶(hù)的歷史行為數(shù)據(jù),預(yù)測(cè)用戶(hù)可能感興趣的需求,準(zhǔn)確為用戶(hù)提供個(gè)性化的信息推薦服務(wù)。
新聞的文本特征可以通過(guò)新聞隱藏的主題﹑關(guān)鍵詞﹑標(biāo)簽來(lái)表示,新聞主題聚類(lèi)通過(guò)LDA挖掘得到。通過(guò)LDA主題模型訓(xùn)練出新聞主題分類(lèi),以及每篇文本的主題分布和主題的詞分布。實(shí)現(xiàn)步驟為先做分詞處理,然后生成向量,根據(jù)向量去做主題聚類(lèi)。
數(shù)據(jù)預(yù)處理。新聞文本是以網(wǎng)頁(yè)html標(biāo)簽的形式存在的,由于格式﹑規(guī)范等各種不一致,通過(guò)文本預(yù)處理,轉(zhuǎn)化為計(jì)算機(jī)可直接處理的規(guī)范化格式。最關(guān)鍵的步驟就是分詞,提取有價(jià)值的詞,去除停用詞,降低數(shù)據(jù)維度,為后續(xù)的文本分類(lèi)工作減輕壓力,提高效率。中文分詞相對(duì)英文分詞要復(fù)雜,本文通過(guò)現(xiàn)有CJK規(guī)范為每個(gè)詞之間插入空格,然后通過(guò)Mahout自帶英文分詞技術(shù)完成該過(guò)程。
LDA主題聚類(lèi)模型。LDA是一個(gè)三層貝葉斯模型,主題的分布和詞的分布不是確定的,是一種對(duì)文本進(jìn)行無(wú)監(jiān)督聚類(lèi)的方法。假設(shè)文本是由一系列潛在主題隨機(jī)混合而成,主題是由詞匯表中所有的詞混合而成,不同文本的主要區(qū)別在于其主題混合比例不同 。在訓(xùn)練集合中,通過(guò)LDA模型計(jì)算每個(gè)文本都包含一個(gè)主題數(shù)維度的向量,這個(gè)向量表示每個(gè)主題在該篇文章中的出現(xiàn)概率,概率越高,這個(gè)主題在該文章中的權(quán)重就越大。并通過(guò)對(duì)每個(gè)詞在主題中的概率計(jì)算,完成關(guān)鍵詞的概率分布。根據(jù)以上原理計(jì)算入庫(kù)新聞的主題分布,表示為:z={(主題1,概率1),(主題2,概率2),…,(主題p,概率p)}
混合模型生成。為了更準(zhǔn)確計(jì)算新聞的相似性,引入關(guān)鍵詞和標(biāo)簽屬性生成向量。關(guān)鍵詞可以通過(guò)TF-IDF(詞頻-逆向文檔頻率)的方法,計(jì)算特征詞權(quán)重,表示為:d={(關(guān)鍵詞1,概率1),(關(guān)鍵詞2,概率2),…, (關(guān)鍵詞n,概率n)} ,n代表所有關(guān)鍵詞的個(gè)數(shù)。標(biāo)簽屬性按照欄目類(lèi)別劃分,欄目的新聞內(nèi)容具有一定的相似性,標(biāo)簽向量表示為:t={標(biāo)簽1,標(biāo)簽2,…,標(biāo)簽m} ,m代表所有標(biāo)簽的個(gè)數(shù)。
結(jié)合以上內(nèi)容設(shè)計(jì)新聞內(nèi)容的混合模型如下所示:M=k1zi+ k2dj+ k3tm(1)其中,k1代表主題模型計(jì)算得信息主題特征的權(quán)值,k2代表關(guān)鍵詞特征的權(quán)值,k3代表標(biāo)簽的權(quán)值。
將用戶(hù)的隱含主題偏好與關(guān)鍵詞興趣相結(jié)合,考慮新聞的時(shí)效性,構(gòu)建完整的個(gè)性化興趣偏好的用戶(hù)興趣模型,準(zhǔn)確﹑完整的用戶(hù)興趣模型可以很好的提高推薦準(zhǔn)確性。用戶(hù)興趣模型表示方式為:F={Z,K,T }(2)其中,Z﹑K﹑T分別表示用戶(hù)主題偏好向量﹑關(guān)鍵詞權(quán)值序列和新聞標(biāo)簽關(guān)注程度,取值范圍為0到1的實(shí)數(shù)。下面對(duì)模型的主要內(nèi)容進(jìn)行介紹:
(1)用戶(hù)主題偏好。用戶(hù)主題偏好通過(guò)訪問(wèn)過(guò)的新聞主題聚類(lèi)得出,由一組向量表示:Z={主題1,主題2,…,主題y},其中,y代表所有主題的個(gè)數(shù),屬性值代表用戶(hù)對(duì)各主題的偏好程度。
(2)關(guān)鍵詞權(quán)值序列。用戶(hù)在瀏覽新聞的過(guò)程中,會(huì)對(duì)含有某些關(guān)鍵詞的新聞感興趣,通過(guò)向量空間和TF-IDF計(jì)算關(guān)鍵詞的序列及其權(quán)值,表示為:
K={(關(guān)鍵詞1,概率1),( 關(guān)鍵詞2,概率2),…,( 關(guān)鍵詞j,概率j)}
其中,j代表用戶(hù)感興趣的關(guān)鍵詞的個(gè)數(shù),并用權(quán)值表示用戶(hù)對(duì)各關(guān)鍵詞的感興趣的程度。
(3)新聞標(biāo)簽關(guān)注程度。用戶(hù)對(duì)新聞標(biāo)簽的關(guān)注程度由一組向量表示:T={標(biāo)簽1,標(biāo)簽2,…標(biāo)簽q},其中,q代表所有標(biāo)簽的個(gè)數(shù),Tc代表用戶(hù)對(duì)第c個(gè)標(biāo)簽的關(guān)注程度,是一個(gè)權(quán)值,計(jì)算公式表示為:Tc=,So表示用戶(hù)對(duì)該標(biāo)簽下新聞的閱讀量,S表示用戶(hù)全部的閱讀量。
(4)用戶(hù)興趣度更新。用戶(hù)瀏覽網(wǎng)頁(yè)的行為和習(xí)慣反映了用戶(hù)的興趣特征,興趣偏好是一個(gè)逐漸變化的過(guò)程,當(dāng)某一個(gè)興趣得不到加強(qiáng),隨著時(shí)間的推移興趣會(huì)逐漸減弱,而且很難與用戶(hù)偶然性的瀏覽相區(qū)分,通過(guò)添加衰減因子更新新聞興趣主題特征權(quán)重的方法更新用戶(hù)對(duì)新聞主題的新鮮度,公式如下所示:Zi=λ(t)Z′i其中,Zi表示主題i新的權(quán)值;λ(t)為時(shí)間衰減因子;Z′i表示其原有權(quán)值。定義用戶(hù)的興趣衰減系數(shù)如下公式所示:λ(t)=ek(t-t0)(0<k<1)
k值的大小決定了特征值權(quán)重的衰減速度。k值越大,衰減速度越快。t表示現(xiàn)在訪問(wèn)時(shí)間,t0表示上次訪問(wèn)時(shí)間。
用戶(hù)推薦新聞列表由新聞內(nèi)容模型與用戶(hù)興趣模型計(jì)算向量相似性,通過(guò)余弦相似度方法實(shí)現(xiàn),計(jì)算結(jié)果在0~1之間,結(jié)果越接近1,相似度越大,通過(guò)定義一個(gè)閾值判斷新聞的推薦結(jié)果。本文定義閾值為0.7,通過(guò)有效新聞的推薦效果來(lái)驗(yàn)證閾值是否正確,如果對(duì)用戶(hù)推薦新聞篇數(shù)過(guò)少或者推薦用戶(hù)范圍過(guò)小,將值調(diào)整為0.6,以此類(lèi)推進(jìn)行判斷。
另外,在新聞推薦中,為用戶(hù)推薦還未產(chǎn)生興趣偏好的新聞(未通過(guò)主題模型計(jì)算出的新聞),防止推薦主題過(guò)分收斂,增加推薦的多樣性和新穎性?;贗temCF的關(guān)鍵是找到與被訪問(wèn)新聞a“最近鄰”的相似的新聞b。相似度的值越大,則新聞a與新聞b就越相似,那么在預(yù)測(cè)的新聞推薦的過(guò)程中,新聞b的評(píng)分的權(quán)重值就越大。同樣采用余弦相似度算法來(lái)計(jì)算新聞之間的相似度。計(jì)算結(jié)果按權(quán)值從高到低排序,推薦其中的前3個(gè)插入新聞興趣推薦列表中一同給用戶(hù)。如果用戶(hù)對(duì)這類(lèi)新聞非常感興趣,會(huì)隨著用戶(hù)的訪問(wèn)行為改變用戶(hù)的主題偏好。
文章簡(jiǎn)要描述了一個(gè)新聞推薦系統(tǒng)的主要架構(gòu)和模塊,新聞文本特征模型﹑用戶(hù)興趣模型和新聞推薦的生成。本文所做的工作十分有限,要進(jìn)一步完善用戶(hù)興趣表達(dá),提高新聞文本主題隱形含義的更精準(zhǔn)表達(dá),滿(mǎn)足用戶(hù)對(duì)新聞推薦服務(wù)的差異化需求,提高個(gè)性化新聞推薦的準(zhǔn)確率及用戶(hù)滿(mǎn)意度,還有很多問(wèn)題有待研究。
陸軍裝甲兵學(xué)院信息管理中心)