摘要:信息過(guò)載是目前互聯(lián)網(wǎng)及電子商務(wù)發(fā)展的嚴(yán)重障礙。個(gè)性化推薦技術(shù),尤其是基于內(nèi)容的推薦技術(shù)可以很好地解決信息過(guò)載,受到了各界的關(guān)注。本文首先介紹了基于內(nèi)容的推薦技術(shù)的背景,闡述了其基本思想和方法,并分析了基于內(nèi)容的推薦技術(shù)的優(yōu)缺點(diǎn),總結(jié)了基于內(nèi)容的推薦系統(tǒng)的性能評(píng)價(jià)指標(biāo),并就其未來(lái)的研究方向提出了自己的見(jiàn)解。
關(guān)鍵詞:推薦技術(shù);內(nèi)容;信息過(guò)載
21世紀(jì)以來(lái),隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)正在深刻地影響大眾的生活方式。人們通過(guò)互聯(lián)網(wǎng)獲取到越來(lái)越豐富而全面的信息,為日常生活帶來(lái)了便利。然而,在海量信息帶給人們多樣的選擇的同時(shí),也增加了獲取所需信息的難度,無(wú)法準(zhǔn)確的選擇需要的信息。人們已經(jīng)從信息匱乏時(shí)代邁入信息過(guò)載時(shí)代。
信息過(guò)載現(xiàn)象的出現(xiàn),為信息的使用者帶來(lái)了極大的影響。面對(duì)目前大量的信息資源,如何精確、高效地幫助用戶獲取需要的信息資源,已經(jīng)成為目前網(wǎng)絡(luò)技術(shù)發(fā)展的首要任務(wù)。推薦系統(tǒng)通過(guò)隱式或顯式的方式搜集用戶的行為信息來(lái)向其推薦信息或者商品,已經(jīng)成為應(yīng)對(duì)信息過(guò)載的有效工具。目前主流的推薦技術(shù)包括協(xié)同過(guò)濾推薦技術(shù)和基于內(nèi)容的推薦技術(shù)。基于內(nèi)容的推薦技術(shù),是來(lái)源自信息檢索領(lǐng)域,主要是對(duì)產(chǎn)品的內(nèi)容等信息進(jìn)行特征提取,而不是依賴(lài)于用戶的評(píng)分信息。近年來(lái),針對(duì)基于內(nèi)容的推薦系統(tǒng)的改進(jìn)也越來(lái)越多,如Zenebe在基于內(nèi)容的推薦算法中加入了模糊的有關(guān)方法。Mostafa將神經(jīng)網(wǎng)絡(luò)引入到了基于內(nèi)容的推薦算法中,進(jìn)而改善了推薦的效果。
1.基于內(nèi)容的推薦算法
基于內(nèi)容的推薦算法可以應(yīng)用項(xiàng)目的特性和用戶的偏好,從而直觀地為用戶進(jìn)行推薦?;趦?nèi)容的推薦算法的基本思想是計(jì)算用戶還沒(méi)購(gòu)買(mǎi)的項(xiàng)目和當(dāng)前用戶過(guò)去選擇的項(xiàng)目的相似度。首先根據(jù)產(chǎn)品信息構(gòu)造產(chǎn)品配置文件,其次根據(jù)用戶之前的評(píng)分、收藏、評(píng)論等用戶交互信息構(gòu)造用戶偏好配置文件。最后通過(guò)方法比較用戶與產(chǎn)品的相似度,為目標(biāo)用戶提供與其過(guò)去的行為偏好相似的項(xiàng)目。
1.1產(chǎn)品描述模型
基于內(nèi)容的推薦算法的重點(diǎn)是為產(chǎn)品建立描述模型。對(duì)產(chǎn)品信息的提取包括結(jié)構(gòu)化的數(shù)據(jù),比如現(xiàn)有的項(xiàng)目屬性或標(biāo)簽;也包括非結(jié)構(gòu)化的數(shù)據(jù),例如對(duì)新聞文章的評(píng)價(jià)或其本身的內(nèi)容。對(duì)于項(xiàng)目的非結(jié)構(gòu)化數(shù)據(jù)的提取可以利用TF-IDF方法來(lái)確定項(xiàng)目的關(guān)鍵詞。TF代表詞頻率,IDF代表逆向文件頻率。文本文檔可以通過(guò)分詞和TF-IDF來(lái)轉(zhuǎn)換成空間中的向量,空間維度對(duì)應(yīng)文檔分詞結(jié)果。
1.2用戶配置文件
利用目標(biāo)用戶過(guò)去的評(píng)論、收藏、需求等行為信息構(gòu)造用戶的偏好模型。利用樸素貝葉斯分類(lèi)器、聚類(lèi)分析、支持向量機(jī)等統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù)分析對(duì)數(shù)據(jù)經(jīng)過(guò)訓(xùn)練得到模型。在基于內(nèi)容的推薦算法中,如何實(shí)時(shí)更新用戶的偏好描述模型是較為困難的步驟,是目前重點(diǎn)研究的方向。
計(jì)算用戶偏好模型和產(chǎn)品的內(nèi)容特征模型的相似度是基于內(nèi)容的推薦算法中重要的步驟。計(jì)算相似度的方法眾多,例如向量夾角余弦方法是最為普及的方法之一。
2.基于內(nèi)容的推薦算法的優(yōu)缺點(diǎn)
2.1基于內(nèi)容的推薦算法的優(yōu)點(diǎn)是:
2.1.1推薦較為準(zhǔn)確,思路簡(jiǎn)單,容易理解。
2.1.2不需要用戶評(píng)分?jǐn)?shù)據(jù),沒(méi)有數(shù)據(jù)稀疏影響推薦結(jié)果的問(wèn)題。
2.1.3目前有較為成熟的機(jī)器學(xué)習(xí)技術(shù)提供模型的構(gòu)建和分析。
2.2基于內(nèi)容的推薦算法的缺點(diǎn)是:
2.2.1存在新用戶冷啟動(dòng)問(wèn)題。由于新用戶進(jìn)入時(shí),不能獲取到用戶的偏好信息,無(wú)法構(gòu)建用戶偏好模型。
2.2.2雖然目前文本提取技術(shù)較為成熟,但是對(duì)于多媒體資源如視頻、音樂(lè)的特征提取目前尚無(wú)較為深入的研究。
3.推薦系統(tǒng)的評(píng)價(jià)指標(biāo)
如何評(píng)估一個(gè)推薦系統(tǒng)的性能至關(guān)重要。若推薦系統(tǒng)的性能可以滿足用戶的需求,就會(huì)吸引用戶的進(jìn)入,從而進(jìn)一步優(yōu)化推薦效果,形成良性的循環(huán)。目前評(píng)價(jià)推薦系統(tǒng)有準(zhǔn)確率和召回率、實(shí)時(shí)性等多種指標(biāo)。
3.1準(zhǔn)確率和召回率。對(duì)于推薦結(jié)果為T(mén)opN列表的推薦系統(tǒng),衡量指標(biāo)大多是利用準(zhǔn)確率和召回率指標(biāo)。準(zhǔn)確率衡量指標(biāo)是代表推薦正確的數(shù)量占推薦物品總量的比例。召回率衡量指標(biāo)是指推薦正確的物品數(shù)量占推薦列表中物品數(shù)量的比例。
3.2實(shí)時(shí)性。在目前的推薦系統(tǒng)中,系統(tǒng)實(shí)時(shí)性是最為重要的評(píng)價(jià)指標(biāo)之一。推薦系統(tǒng)必須以相對(duì)較快的速度更新為用戶推薦的物品列表來(lái)滿足用戶的需求。因此系統(tǒng)實(shí)時(shí)性在很大程度上對(duì)用戶的使用體驗(yàn)存在影響。
4.基于內(nèi)容的推薦技術(shù)未來(lái)的發(fā)展方向
基于內(nèi)容的推薦技術(shù)從上世紀(jì)八九十年代至今經(jīng)歷了快速的發(fā)展,日漸成熟和完善。但在發(fā)展過(guò)程中,也出現(xiàn)了一些難點(diǎn)正待解決。這些難點(diǎn)都將是未來(lái)研究的重點(diǎn)問(wèn)題。
4.1用戶偏好的獲取和項(xiàng)目特征提取。目前基于內(nèi)容的推薦算法使用的用戶行為信息和項(xiàng)目相關(guān)信息較少。對(duì)于多媒體信息、輔助信息、真實(shí)語(yǔ)義等信息的提取還需要不斷地研究完善。
4.2推薦安全性。基于內(nèi)容的推薦系統(tǒng)進(jìn)行推薦時(shí)需要調(diào)用大量用戶及項(xiàng)目信息,而在個(gè)人隱私引起大家廣泛關(guān)注的今日,大量用戶并不愿意主動(dòng)提供過(guò)多個(gè)人信息。因此如何得到大量用戶的行為數(shù)據(jù)用來(lái)提高推薦系統(tǒng)的效果,同時(shí)保證不被不法分子利用是未來(lái)基于內(nèi)容的推薦系統(tǒng)的研究方向之一。
4.3冷啟動(dòng)問(wèn)題。由于新用戶并沒(méi)有歷史偏好信息,基于內(nèi)容的推薦系統(tǒng)無(wú)法為用戶建立偏好模型。因此用戶的冷啟動(dòng)問(wèn)題嚴(yán)重影響著目前基于內(nèi)容的推薦系統(tǒng)的性能。雖然目前對(duì)于冷啟動(dòng)有很多相關(guān)的研究,但是問(wèn)題依然沒(méi)有得到解決。冷啟動(dòng)問(wèn)題依然需要進(jìn)一步的研究改善。
參考文獻(xiàn):
[1]劉瑋.電子商務(wù)系統(tǒng)中的信息推薦方法研究[J].情報(bào)科學(xué),2006,24(2):300-303.
[2]Balabanovi,Marko.Fab:content-based,collaborative recommendation[J]. Communications of the Acm,1997,40(3):66-72.
[3]蒲國(guó)林.基于內(nèi)容的個(gè)性化新聞推薦[J].四川文理學(xué)院學(xué)報(bào),2013,9:57-60.
作者簡(jiǎn)介:
劉明昌(1991.12- ),男,漢族,河北保定人,碩士研究生在讀,現(xiàn)就讀于河北大學(xué)管理學(xué)院,管理科學(xué)與工程專(zhuān)業(yè)。