張宇航 姚文娟 姜姍
摘要:隨著信息時(shí)代的不斷發(fā)展,信息過載是目前互聯(lián)網(wǎng)用戶面臨的一個(gè)嚴(yán)重問題,個(gè)性化推薦系統(tǒng)就是解決這一問題的重要工具。為了解國(guó)內(nèi)對(duì)個(gè)性化推薦領(lǐng)域的研究現(xiàn)狀與發(fā)展趨勢(shì),通過對(duì)相關(guān)文獻(xiàn)進(jìn)行收集處理并借用VOSviewer、Excel對(duì)發(fā)文量、發(fā)文期刊、發(fā)文作者、關(guān)鍵詞進(jìn)行現(xiàn)狀分析,同時(shí)對(duì)個(gè)性化推薦系統(tǒng)的關(guān)鍵技術(shù)用戶興趣模型和推薦算法進(jìn)行闡述介紹。最后指出了未來個(gè)性化推薦系統(tǒng)的挑戰(zhàn)與研究重點(diǎn)。
Abstract: With the continuous development of the information age, information overload is a serious problem faced by Internet users. The personalized recommendation system is an important tool to solve this problem. In order to understand the research status and development trend of the domestic personalized recommendation field, through the collection and processing of related documents and borrowing VOSviewer and Excel to analyze the current situation of the volume of publications, publications, authors and keywords, and at the same time, the personalized recommendation system key technology user interest models and recommendation algorithms are presented. Finally, the challenges and research priorities of the personalized recommendation system in the future are pointed out.
關(guān)鍵詞:個(gè)性化推薦;用戶興趣;推薦算法
Key words: personalized recommendation;user interest;recommendation algorithm
中圖分類號(hào):TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2020)02-0287-06
0? 引言
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代走入了信息過載的時(shí)代。在這個(gè)時(shí)代,無(wú)論是信息消費(fèi)者還是信息生產(chǎn)者都遇到了很大的挑戰(zhàn):信息消費(fèi)者,從大量信息中找到自己感興趣的信息是一件非常困難的事情;對(duì)于信息生產(chǎn)者,讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關(guān)注,也是一件非常困難的事情。推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)的任務(wù)就是聯(lián)系用戶和信息,一方面幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的信息,另一方面讓信息能夠展現(xiàn)對(duì)它感興趣的用戶面前,從而實(shí)現(xiàn)信息消費(fèi)者和信息生產(chǎn)者的雙贏[1]。文章對(duì)國(guó)內(nèi)個(gè)性化推薦領(lǐng)域的發(fā)展進(jìn)行闡述,幫助讀者了解個(gè)性化推薦的研究現(xiàn)狀及發(fā)展趨勢(shì)。
1? 相關(guān)研究
一個(gè)完整的推薦系統(tǒng)主要由三個(gè)模塊組成:用戶建模模塊,推薦對(duì)象建模模塊和推薦算法模塊[2]。其中推薦算法是整個(gè)系統(tǒng)的核心部分。
對(duì)于個(gè)性化推薦研究最早開始于上個(gè)世紀(jì)90年代,隨著互聯(lián)網(wǎng)發(fā)展,該項(xiàng)技術(shù)被逐步應(yīng)用于不同行業(yè)。當(dāng)簡(jiǎn)單引擎搜索結(jié)果并不能夠滿足用戶對(duì)信息的需求時(shí),路海明等人提出一種基于Agent技術(shù)的web主動(dòng)信息服務(wù)的研究應(yīng)用,利用bookmark中的信息,建立用戶agent,實(shí)時(shí)跟蹤用戶興趣改變,及時(shí)將用戶潛在感興趣的內(nèi)容進(jìn)行推薦[3]。這一類方法在一定程度上依賴與用戶互動(dòng),如果用戶沒有添加url進(jìn)入bookmark或者對(duì)于agent推薦的url不做評(píng)價(jià),對(duì)其推薦精度有一定影響。
在電子商務(wù)中,個(gè)性化推薦幫助解決用戶選購(gòu)問題,大大推進(jìn)電子商務(wù)進(jìn)一步發(fā)展,這也對(duì)于推薦系統(tǒng)的推薦精度以及實(shí)時(shí)性造成一定影響。鄧愛林通過改進(jìn)推薦算法,提出了基于項(xiàng)目評(píng)分的預(yù)測(cè)IRPRec的協(xié)同過濾算法和基于項(xiàng)聚類的ICRec協(xié)同過濾推薦算法,有效緩解上述問題[4]。
近年來,上下文感知推薦系統(tǒng)成為新的研究領(lǐng)域,不同于一般的推薦系統(tǒng),僅在基于用戶-項(xiàng)目二元關(guān)系基礎(chǔ)上進(jìn)行推薦,而是考慮到上下文信息(如時(shí)間、位置、周圍人員、情緒、活動(dòng)狀態(tài)、網(wǎng)絡(luò)條件等等),在環(huán)境因素下,生成推薦,大大提高推薦的準(zhǔn)確性[5]。
為了緩解推薦系統(tǒng)中的冷啟動(dòng)和稀疏性問題,一種社會(huì)化推薦方法被提出[6]。建立用戶的社會(huì)關(guān)系網(wǎng)絡(luò)圖,通過用戶之間的信任度,根據(jù)已有的興趣模型,對(duì)新用戶進(jìn)行推薦。
2? 數(shù)據(jù)來源與處理
2.1 數(shù)據(jù)來源
《中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版)》是世界上最大的連續(xù)動(dòng)態(tài)更新的中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)。文章以中國(guó)知網(wǎng)(CNKI)的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)為數(shù)據(jù)源。以“個(gè)性化推薦”為主題,時(shí)間范圍設(shè)置為2000年1月1日-2018年12月31日,剔除無(wú)關(guān)文獻(xiàn),共檢索得到相關(guān)文獻(xiàn)2604篇。
2.2 數(shù)據(jù)處理
VOS(visualization of similarities)viewer是在CWTS資助下開發(fā)完成的科學(xué)圖譜工具,支持大規(guī)模數(shù)據(jù)處理。VOSviewer可以用于生成多種基于文獻(xiàn)計(jì)量關(guān)系的圖譜:如作者或期刊的共引關(guān)系圖,關(guān)鍵詞共現(xiàn)關(guān)系圖。與其它可視化軟件相比,其主要特點(diǎn)為圖形化展現(xiàn)的方式較為豐富,顯示清晰,使得文獻(xiàn)計(jì)量學(xué)的分析結(jié)果易于解釋。文章利用VOSviewer可形象地對(duì)個(gè)性化推薦發(fā)展現(xiàn)狀進(jìn)行分析展示,以便得出有用結(jié)論供讀者參考。數(shù)據(jù)處理具體操作步驟如下:①將在數(shù)據(jù)庫(kù)中檢索得到的文獻(xiàn)以EndNote格式導(dǎo)出,由于VOSviewer無(wú)法識(shí)別由CNKI直接獲取的所有文件格式,所以要將導(dǎo)出的.txt文件進(jìn)行轉(zhuǎn)換。②將得到的.txt文件導(dǎo)入到文獻(xiàn)管理工具EndNote中,對(duì)文獻(xiàn)進(jìn)行粗略篩選,刪去重復(fù)文章,將篩選后的文獻(xiàn)選中以RIS格式導(dǎo)出,此時(shí)則變成VOSviewer可識(shí)別的文件格式。③將得到的RIS文獻(xiàn)導(dǎo)入VOSviewer中,統(tǒng)計(jì)作者發(fā)文數(shù)和關(guān)鍵詞數(shù)并進(jìn)行相應(yīng)的圖形繪制得到可視化圖譜。④借用Python程序,將得到的.txt文件轉(zhuǎn)換為.xls文件,使用Excel對(duì)發(fā)文量和發(fā)文機(jī)構(gòu)進(jìn)行相關(guān)分析。
3? 研究現(xiàn)狀
3.1 發(fā)文量分析
2000年至2018年,在CNKI的中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)中,關(guān)于個(gè)性化推薦的文獻(xiàn)總量為2064篇(年度分布和變化趨勢(shì)如圖1所示)。如圖所示,2000年~2018年,在個(gè)性化推薦領(lǐng)域發(fā)表論文數(shù)量逐年增高,大致呈現(xiàn)線性上升趨勢(shì)。其中,自2009年后,年發(fā)文量均在100篇以上,2009年至2018年的發(fā)文總量是2000年至2008年發(fā)文總量的6.8倍。這種現(xiàn)象的出現(xiàn),與2009年7月,我國(guó)首個(gè)個(gè)性化推薦系統(tǒng)科研團(tuán)隊(duì)北京百分點(diǎn)信息科技有限公司成立密不可分。在標(biāo)榜著多人貢獻(xiàn)的Web2.0時(shí)代,信息過載尤其明顯,于是催生了一系列解決方法,人們對(duì)于個(gè)性化推薦的研究論文數(shù)量的逐年遞增,也正說明國(guó)內(nèi)對(duì)于信息過載解決方法的不斷探索,個(gè)性化推薦系統(tǒng)受到了越來越多的關(guān)注和研究。
3.2 發(fā)文期刊分析
分析文獻(xiàn)期刊來源可以了解到一個(gè)研究領(lǐng)域的核心關(guān)注群體所在。由分析結(jié)果可知,到目前為止,共有749種期刊發(fā)表了個(gè)性化推薦的相關(guān)論文。期刊種類大致屬于計(jì)算機(jī)技術(shù)領(lǐng)域,占到了總體的90%以上。由表1可知《電腦知識(shí)與技術(shù)》、《計(jì)算機(jī)科學(xué)》、《計(jì)算機(jī)工程》、《圖書情報(bào)工作》、《計(jì)算機(jī)應(yīng)用研究》等為個(gè)性化推薦研究的熱門期刊。在個(gè)性化推薦領(lǐng)域,國(guó)內(nèi)發(fā)文高產(chǎn)前三名分別為:《電腦知識(shí)與技術(shù)》、《計(jì)算機(jī)科學(xué)》、《計(jì)算機(jī)工程》。其中計(jì)算機(jī)科學(xué)與計(jì)算機(jī)工程期刊均為核心期刊,在計(jì)算機(jī)中文核心期刊的影響因子分別為:0.61和0.492。由此可見,國(guó)內(nèi)不少研究者一直都在關(guān)注著個(gè)性化推薦給信息過載帶來的契機(jī)與變革。
3.3 作者分析
由圖2可看出作者群呈現(xiàn)的一種分布狀態(tài),高發(fā)文作者之間具有強(qiáng)合作關(guān)系,合作群中的作者人數(shù)多且發(fā)文量多。代表作者是劉建國(guó)(12篇)和郭強(qiáng)(7篇),這兩位作者不僅發(fā)文量多,并且由他們構(gòu)成的群體也有著密切的聯(lián)系。雖然在網(wǎng)絡(luò)中,周濤、程學(xué)旗、張亮等人的發(fā)文量少,但他們所在的小群體通過他們與高發(fā)文作者所組成的合作群建立了間接的關(guān)聯(lián)。以高發(fā)文作者為核心,合作群眾作者人數(shù)少,在網(wǎng)絡(luò)中不與其他作者群相連,代表作者有田偉(12篇)和韓海濤(9篇)。此外,分析可以發(fā)現(xiàn),高產(chǎn)作者如:劉建國(guó)、李樹青、田偉、武慧娟、韓海濤等人文獻(xiàn)的主要產(chǎn)出重要集中在2015年以前。因此,除了繼續(xù)支持關(guān)注他們的作品外,亦可以關(guān)注近幾年來在個(gè)性化推薦研究領(lǐng)域新生的作者群體,這樣更有利于推動(dòng)個(gè)性化推薦研究的發(fā)展。
3.4 關(guān)鍵詞分析
利用VOSviewer軟件統(tǒng)計(jì)2000年至2018年刊發(fā)的2064篇文獻(xiàn),關(guān)鍵詞出現(xiàn)總頻次為3850次(詞頻在100次以上的見表3),關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)如圖3所示。
從整體上看,關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)構(gòu)成的詞簇十分集中,大多數(shù)節(jié)點(diǎn)之間都存在直接的關(guān)聯(lián)關(guān)系,這表明個(gè)性化推薦領(lǐng)域的相關(guān)論文關(guān)注的研究熱點(diǎn)之間聯(lián)系緊密,研究的系統(tǒng)性與集中度較高。個(gè)性化推薦首次出現(xiàn)在期刊中是2000年路海明、盧增祥和李衍達(dá)在《計(jì)算機(jī)科學(xué)》雜志上刊登的《基于多Agent混合智能實(shí)現(xiàn)個(gè)性化網(wǎng)絡(luò)信息推薦》他們提出將單信息Agent的智能與多信息Agent合作形成的智能進(jìn)行結(jié)合,形成混合智能,將有利于信息Agent智能水平的提高,提高個(gè)性化服務(wù)質(zhì)量[7]。到2018年的2064篇文獻(xiàn),研究關(guān)注內(nèi)容仍以個(gè)性化推薦的技術(shù)優(yōu)化與實(shí)現(xiàn)為主,個(gè)性化推薦系統(tǒng)的推薦算法模塊依舊是個(gè)性化領(lǐng)域的研究重點(diǎn)和熱點(diǎn)。
4? 用戶興趣模型
用戶興趣模型的準(zhǔn)確性直接影響了個(gè)性化推薦結(jié)果的精確度,因此用戶興趣模型的優(yōu)劣對(duì)個(gè)性化推薦至關(guān)重要。通過對(duì)相關(guān)文獻(xiàn)的篩選,最終選取了81篇具有代表性的重點(diǎn)文獻(xiàn),并對(duì)這些文獻(xiàn)進(jìn)行系統(tǒng)梳理。文章將從獲取用戶偏好信息和用戶興趣建模兩方面進(jìn)行梳理和總結(jié)。
4.1 獲取用戶偏好信息
用戶的偏好信息的獲取方式主要有兩種:顯式獲取和隱式獲取。
顯式獲?。猴@式獲取主要通過獲取用戶注冊(cè)時(shí)主動(dòng)填寫的信息或者是用戶對(duì)于特定網(wǎng)絡(luò)資源的顯式反饋;顯式獲取的用戶偏好信息直接反應(yīng)了用戶對(duì)特定網(wǎng)絡(luò)資源的興趣描述,這種獲取方法直接、簡(jiǎn)單,用戶偏好信息的準(zhǔn)確率和可用率較高。但這也增加了用戶的負(fù)擔(dān),用戶也有可能為保護(hù)個(gè)人隱私而不選擇填寫或填寫虛假信息。用戶的興趣可能隨著時(shí)間的推移發(fā)生改變,此時(shí)用戶偏好信息需要手動(dòng)更改,因此這一方法的準(zhǔn)確性和及時(shí)性難以保證。
隱式獲?。弘[式獲取主要利用web數(shù)據(jù)挖掘和其他數(shù)據(jù)挖掘技術(shù)用來獲取用戶的隱式反饋信息,例如用戶頁(yè)面瀏覽行為、內(nèi)容,用戶的眼動(dòng)跟蹤數(shù)據(jù)。隱式獲取不需要用戶參與,可以減少由用戶參與帶來的系統(tǒng)噪聲,能夠獲得更多用戶偏好信息。但因?yàn)椴皇怯脩糁鲃?dòng)填寫的信息,這會(huì)導(dǎo)致得到的用戶信息存在一定隨機(jī)性和不確定性,造成用戶偏好信息收集出現(xiàn)誤差,而且隱式獲取需要進(jìn)行大量計(jì)算。
兩種獲取方式各有利弊,若兩種獲取方式綜合應(yīng)用能夠得到更加準(zhǔn)確、可用的用戶興趣偏好信息。因此一般情況下研究人員會(huì)選擇同時(shí)應(yīng)用兩種方法。
4.2 用戶興趣建模
用戶興趣建模是進(jìn)行個(gè)性化推薦的重要組成部分,用戶興趣模型的建模過程分為興趣模型的建立和更新。
4.2.1 用戶興趣模型的表示
比較常用的用戶興趣模型的表示方法包括關(guān)鍵詞列表法,主題法、基于本體論表示方法和基于向量空間模型表示法。其中基于向量空間模型表示方法是該領(lǐng)域經(jīng)典和廣泛應(yīng)用的計(jì)算模型。關(guān)鍵詞列表法是通過提取用戶對(duì)資源的興趣偏好的關(guān)鍵詞來描述用戶興趣的模型。主題表示法只是以用戶偏好信息的相關(guān)主題來表示用戶興趣模型?;诒倔w論表示方法是通過對(duì)本體的描述來表示用戶的興趣喜好的領(lǐng)域;基于向量空間模型表示方法是以文本內(nèi)容中的關(guān)鍵字或主題作為向量,加權(quán)計(jì)算得出頻率,選定權(quán)值高的前幾個(gè)關(guān)鍵字或主題作為空間向量。
4.2.2 用戶興趣模型的建立
用戶興趣模型的建立是對(duì)面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)進(jìn)行的形式化描述[8]。國(guó)內(nèi)外傳統(tǒng)常用的建立用戶興趣模型方法包括加權(quán)矢量模型,層次結(jié)構(gòu)模型、基于本體論和基于向量空間模型。其中最為廣泛應(yīng)用,最受歡迎是基于向量空間模型表示法,基于本體論的用戶模型也被廣泛應(yīng)用?;诒倔w論的用戶模型是基于向量空間模型的一種完善和擴(kuò)充,這種用戶模型相對(duì)于基于向量空間的用戶模型能夠獲得用戶更準(zhǔn)確的偏好信息。以基于標(biāo)簽向量空間模型為基礎(chǔ),構(gòu)建用戶層次興趣模型,首先根據(jù)用戶的標(biāo)簽頻率和其他相關(guān)數(shù)據(jù),將用戶興趣分為具有兩個(gè)層次的標(biāo)簽樹形結(jié)構(gòu),分別為興趣主題層,興趣標(biāo)簽層[9]。這種模型不僅可以準(zhǔn)確地反映各標(biāo)簽之間,標(biāo)簽用戶之間的關(guān)系,也可以從中看出用戶對(duì)于各主題的偏好。
4.2.3 用戶興趣模型的更新
由于用戶興趣并不是一直不變的,隨著時(shí)間推移,用戶興趣會(huì)發(fā)生改變。例如產(chǎn)生新的興趣,對(duì)原來的興趣加強(qiáng)或減少,用戶的某些興趣會(huì)從最初的興趣模型里剔除。同時(shí)有可能在獲取用戶初始偏好信息時(shí)因某些原因?qū)е滦畔⒉杉粶?zhǔn)確。因此用戶的興趣模型需要在一定的時(shí)間周期內(nèi)進(jìn)行更新以保證個(gè)性化推薦的有效。目前比較常用的幾種更新方法有:窗口控制法、信息增補(bǔ)法、遺傳控制法、神經(jīng)網(wǎng)絡(luò)法[10]。
興趣模型的更新可分為顯式更新和隱式更新。顯式更新會(huì)強(qiáng)制用戶對(duì)目前的興趣信息進(jìn)行反饋,這種更新方式最為有效、直接,但由于會(huì)影響用戶的一些正常瀏覽行為,因此使用范圍很小。隱式更新通過跟蹤用戶瀏覽行為,搜索詞和操作行為來獲取用戶興趣。通過這些來獲取最新的用戶偏好信息來不斷更新用戶興趣模型。這兩種更新方式主要是根據(jù)用戶偏好信息獲取的不同方式進(jìn)行區(qū)分。
以上是關(guān)于用戶興趣模型各個(gè)部分的簡(jiǎn)單介紹,上面介紹的用戶興趣模型并未考慮多個(gè)社交網(wǎng)站的信息整合和社交網(wǎng)路中其他中有用的知識(shí)源[11]。
5? 推薦算法
在個(gè)性化推薦系統(tǒng)平臺(tái)中,對(duì)相關(guān)推薦算法的挑選十分的重要通過閱讀相關(guān)資料對(duì)下列四種個(gè)性化推薦算法進(jìn)行分析:基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法、基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法、混合型推薦算法。
5.1 基于內(nèi)容的推薦算法
基于內(nèi)容推薦算法主要應(yīng)用于文本推薦,最初應(yīng)用在Fab系統(tǒng)中解決個(gè)性化推薦問題;而后逐步應(yīng)用于音樂推薦系統(tǒng),電子商務(wù)推薦系統(tǒng)、新聞推薦系統(tǒng)等,但僅從文本內(nèi)容考慮個(gè)性化推薦,并不適用于圖片、音頻、視頻等多媒體數(shù)據(jù)進(jìn)行推薦。王嫣然等人將基于內(nèi)容的推薦算法中應(yīng)用在科技文獻(xiàn)的推薦系統(tǒng)中,在傳統(tǒng)的基于內(nèi)容的推薦算法中,引入時(shí)間的權(quán)重函數(shù)和文獻(xiàn)重要度的方法,解決了傳統(tǒng)推薦算法無(wú)法考慮用戶信息動(dòng)態(tài)變化的問題,并且在一定程度上對(duì)于文獻(xiàn)的質(zhì)量進(jìn)行區(qū)分[12]。利用用戶瀏覽記錄和購(gòu)買的產(chǎn)品,不能給出較為明顯項(xiàng)目分類時(shí),容易導(dǎo)致預(yù)測(cè)推薦結(jié)果不能達(dá)到理想的目標(biāo),閆東東等人在傳統(tǒng)的個(gè)性化推薦系統(tǒng)中,加入用戶的特征文件,根據(jù)最終目標(biāo)用戶與項(xiàng)目間相似性進(jìn)行推薦[13]。耿立校等人利用余弦值和匹配度值改進(jìn)原有的內(nèi)容過濾模型,進(jìn)行推薦,能夠有效提高運(yùn)算效率和推薦精度[14]。
5.2 基于協(xié)同過濾的算法
協(xié)同過濾算法主要分為兩類,一類是基于用戶的協(xié)同過濾算法,另一類是基于項(xiàng)目的協(xié)同過濾算法。即使協(xié)同過濾算法目前被廣泛應(yīng)用于圖片、音頻、視頻等數(shù)據(jù)來源的個(gè)性化推薦系統(tǒng),但是仍然存在一些不可避免的問題,使其推薦準(zhǔn)確度有待于進(jìn)一步提高,如以下幾點(diǎn):
5.2.1 數(shù)據(jù)稀疏性
2018年零售商銷售業(yè)績(jī)63%的交易均來自于線上購(gòu)物。在一些大型購(gòu)物網(wǎng)站,例如淘寶在2018年雙十一成交額就有2135億元,而用戶評(píng)價(jià)數(shù)目卻遠(yuǎn)小于項(xiàng)目成交數(shù)目。缺少用戶評(píng)價(jià),容易導(dǎo)致用戶-項(xiàng)目評(píng)分矩陣極度稀疏,進(jìn)而影響推薦系統(tǒng)的質(zhì)量。針對(duì)這一問題,解決方法有多種,最簡(jiǎn)單的是將一個(gè)固定的數(shù)值填入評(píng)分矩陣的為評(píng)分項(xiàng),數(shù)值可以是評(píng)分均值或者眾數(shù)[14]。在大規(guī)模數(shù)據(jù)庫(kù),這種方法就存在一定缺陷,容易使用戶或者項(xiàng)目失去特性。鄧愛林等人通過項(xiàng)目間相似性,預(yù)測(cè)未評(píng)分項(xiàng)目評(píng)分,計(jì)算用戶間相似性[15]。周軍鋒等人利用條件概率提出一種優(yōu)化算法,求解top-n集[14,16]。徐德智等人利用云模型的相似性度量方法,預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,解決數(shù)據(jù)稀疏條件下,用戶之間共同評(píng)分項(xiàng)目少的問題[17]。賀懷清等人將Support Vector Regression與IBCF算法結(jié)合解決評(píng)分項(xiàng)目缺失的問題[18]。李遠(yuǎn)博等人依據(jù)主成分分析法本質(zhì)是保留大部分方差的維度特征,去除項(xiàng)目空間中不明顯的特征,從而實(shí)現(xiàn)降維[19]。
5.2.2 冷啟動(dòng)
當(dāng)項(xiàng)目進(jìn)入系統(tǒng)獲得較少評(píng)價(jià)或從來沒有被評(píng)價(jià)過,由于缺乏有效信息,而不能精確的推薦給某類用戶,就屬于新項(xiàng)目問題。當(dāng)用戶第一次進(jìn)入某個(gè)社交媒體軟件,系統(tǒng)沒有記錄過用戶任何一次評(píng)價(jià)信息,缺少足夠的信息去獲取用戶的興趣愛好,則無(wú)法將用戶劃分到某一類中,就屬于新用戶問題。新項(xiàng)目和新用戶問題,均屬于冷啟動(dòng)問題。目前大部分系統(tǒng)通過讓新用戶注冊(cè)時(shí),在指定的類別范圍中選取感興趣的項(xiàng)目,將用戶歸分到某一類并進(jìn)行推薦,這種方法對(duì)于用戶可選擇數(shù)目是有一定限制,并且只是一定程度上解決新用戶問題,并沒有解決新項(xiàng)目問題。孫小華利用平均數(shù)、眾數(shù)和信息熵分別代替新項(xiàng)目預(yù)測(cè)值進(jìn)行推薦[20]。郭艷紅等人提出基于內(nèi)容預(yù)測(cè)未被用戶評(píng)價(jià)過的項(xiàng)目評(píng)分,過濾掉不準(zhǔn)確的數(shù)據(jù)并產(chǎn)生推薦[21]。李改等人考慮項(xiàng)目特征與用戶屬性,從特征向量角度出發(fā),運(yùn)用基于矩陣分解的ALS-WR協(xié)同過濾算法解決冷啟動(dòng)問題[22]。上述幾種方法,都是建立在擁有一些用戶對(duì)項(xiàng)目的評(píng)分信息基礎(chǔ)上優(yōu)化算法,并不是完全針對(duì)一個(gè)全新項(xiàng)目(不存在任何一個(gè)用戶對(duì)項(xiàng)目進(jìn)行過評(píng)價(jià)),于洪等人結(jié)合項(xiàng)目屬性和用戶評(píng)價(jià)時(shí)間信息提出解決新項(xiàng)目冷啟動(dòng)問題的CUTATime個(gè)性化推薦算法[23]。隨著技術(shù)革新,機(jī)器學(xué)習(xí)也逐步被運(yùn)用于改進(jìn)協(xié)同過濾算法,解決新用戶和新項(xiàng)目推薦問題,肖文杰利用k-modes聚類算法將用戶進(jìn)行分類,根據(jù)新用戶注冊(cè)信息判斷其所屬類別,基于同類用戶的評(píng)分信息對(duì)其進(jìn)行推薦[24]。
5.2.3 實(shí)時(shí)性(一種對(duì)軟件系統(tǒng)計(jì)算處理能力的設(shè)計(jì)指標(biāo))
大數(shù)據(jù)時(shí)代下信息爆發(fā),用戶和項(xiàng)目數(shù)據(jù)激增并且一直處于動(dòng)態(tài)變化狀態(tài)。傳統(tǒng)的個(gè)性化推薦系統(tǒng)面對(duì)海量數(shù)據(jù)處理,運(yùn)用knn在用戶空間尋找目標(biāo)用戶最近鄰居集是一個(gè)大工程,其運(yùn)行效率也會(huì)大大降低。如何提高算法運(yùn)行效率,是個(gè)性化推薦算法目前主要問題之一。目前,最常用的解決方案是利用聚類算法優(yōu)化協(xié)同過濾算法,大部分聚類算法具有伸縮性較高,適用于數(shù)值型或混合型數(shù)據(jù),時(shí)間復(fù)雜度較低等優(yōu)點(diǎn),能夠在一定程度上提高推薦的效率。鄧愛林等人運(yùn)用K-Means聚類算法將項(xiàng)目按照相似性進(jìn)行聚類,依據(jù)聚類結(jié)果中與目標(biāo)項(xiàng)目最相似的聚類,產(chǎn)生top-n集[25]。張海燕等人基于項(xiàng)目的屬性特征利用模糊聚類算法的等價(jià)關(guān)系產(chǎn)生模糊相似矩陣,對(duì)項(xiàng)目進(jìn)行分類,然后與用戶項(xiàng)目評(píng)分空間結(jié)合為目標(biāo)用戶推薦項(xiàng)目[26]。李濤等人提出一種基于用戶聚類的協(xié)同過濾推薦算法,首先在離線時(shí),根據(jù)已有用戶數(shù)據(jù)信息處理后,得到用戶之間相似性,運(yùn)用聚類算法將其分類,然后,根據(jù)已有類別通過KNN尋找目標(biāo)用戶最近鄰居集產(chǎn)生推薦[27]。上述方法均是基于項(xiàng)目或者用戶間相似性進(jìn)行聚類,沒有將項(xiàng)目和用戶結(jié)合聚類產(chǎn)生產(chǎn)生推薦。何建民根據(jù)用戶和項(xiàng)目相似性利用K-Means聚類算法,將用戶和項(xiàng)目分別進(jìn)行聚類產(chǎn)生推薦[28]。關(guān)志芳等人利用加權(quán) Slope One 算法對(duì)項(xiàng)目和用戶聚類結(jié)果產(chǎn)生的類別進(jìn)行預(yù)測(cè)產(chǎn)生推薦[29]。除了聚類算法,分布式算法也被逐步用于優(yōu)化推薦算法,不僅在模型預(yù)測(cè)精度取得一定成效,也進(jìn)一步提高推薦的實(shí)時(shí)性。李文海等人將分布式平臺(tái)應(yīng)用在電子商務(wù)的個(gè)性化推薦,設(shè)計(jì)出一種融合MapReduce和多種推薦技術(shù)的推薦模型,提高推薦系統(tǒng)運(yùn)行效率[30]。
5.3 基于網(wǎng)絡(luò)結(jié)構(gòu)的算法
近年來,將網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法應(yīng)用于個(gè)性化推薦系統(tǒng)成為一個(gè)新的研究方向。這類算法優(yōu)點(diǎn)是無(wú)需考慮用戶和內(nèi)容的屬性特征,而把它們看成抽象的節(jié)點(diǎn),利用其關(guān)系中所包含的信息。但是該算法在一定程度上仍無(wú)法解決冷啟動(dòng)問題。對(duì)于該領(lǐng)域研究,周濤等人基于用戶-項(xiàng)目二分圖提出一種資源分配的算法,本質(zhì)是將目標(biāo)用戶沒有選擇過的項(xiàng)目按照其喜歡的程度進(jìn)行排序并且把排名靠前的那些項(xiàng)目推薦給目標(biāo)用戶,該算法并沒有有效解決冷啟動(dòng)問題[31]。吳效葵等人加入項(xiàng)目特征屬性,通過項(xiàng)目間的相似性計(jì)算資源配額矩陣,與改進(jìn)后的初始資源向量結(jié)合,形成最終的資源分配向量并進(jìn)行推薦,在一定程度上解決新項(xiàng)目推薦的問題[32]。肖揚(yáng)等利用加權(quán)的項(xiàng)目-用戶-標(biāo)簽三部圖,在三部圖網(wǎng)絡(luò)模型基礎(chǔ)上提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[33]。隨著推薦系統(tǒng)研究深入,物理學(xué)逐步應(yīng)用于推薦算法中,張子柯等人基于熱傳導(dǎo)的原理,將目標(biāo)用戶比較喜歡的項(xiàng)目看做溫度較高的點(diǎn),不喜愛的項(xiàng)目看做溫度較低的點(diǎn),推薦過程的本質(zhì)就是平衡節(jié)點(diǎn)間的溫度[34]。胡吉明等人在熱傳導(dǎo)算法基礎(chǔ)上,提出一種與物質(zhì)擴(kuò)散通過加權(quán)方式結(jié)合的推薦算法[35]。不同于大部分算法推薦較為熱門項(xiàng)目,張子柯,胡吉明等人的算法能適當(dāng)?shù)叵蛴脩敉扑]不夠熱門的項(xiàng)目[34-35]。
5.4 基于混合型推薦的算法
單一推薦算法有各自的優(yōu)點(diǎn),但也存在一定缺陷?;趦?nèi)容推薦算法利用產(chǎn)品內(nèi)容信息進(jìn)行推薦,對(duì)大量信息處理,容易降低推薦的實(shí)時(shí)性,而協(xié)同過濾算法長(zhǎng)期以來存在稀疏性、冷啟動(dòng)等問題。為了更好解決上述問題,一種混合型推薦的算法成為新的研究方向,將不同算法結(jié)合,優(yōu)勢(shì)互補(bǔ),避免缺點(diǎn)存在?;旌闲屯扑]算法,可以通過以下方式結(jié)合:加權(quán)、場(chǎng)景切換、結(jié)果混合與重排序、特征組合等等。具體混合模型如下:
①獨(dú)立算法相互結(jié)合的推薦系統(tǒng),分別單獨(dú)使用協(xié)同過濾算法、基于內(nèi)容或基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法,再將幾個(gè)算法的預(yù)測(cè)結(jié)果混合進(jìn)行推薦?;旌戏椒ㄖ饕譃閮煞N,一是將預(yù)測(cè)結(jié)果線性組合,二是設(shè)定標(biāo)準(zhǔn),將推薦結(jié)果進(jìn)行對(duì)比,選擇評(píng)價(jià)較高算法下的推薦結(jié)果。曹毅等人分別利用內(nèi)容過濾和協(xié)同過濾算法得出的預(yù)測(cè)推薦結(jié)果,進(jìn)行加權(quán)求和,形成最終的推薦[36]。DailyLearner系統(tǒng)依據(jù)算法可信度,對(duì)預(yù)測(cè)結(jié)果進(jìn)行選擇。
②基于一種推薦算法,將用戶-項(xiàng)目評(píng)分空間未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè),在新的評(píng)分矩陣上使用另外一種推薦算法,產(chǎn)生推薦結(jié)果。郭艷紅和曾艷等人,基于內(nèi)容推薦算法,對(duì)用戶-項(xiàng)目未評(píng)分項(xiàng)目進(jìn)行填充,在修改后的評(píng)分矩陣上,運(yùn)用協(xié)同過濾算法產(chǎn)生推薦[21,37]。
③獨(dú)立推薦算法中,融入其它的推薦算法。李忠俊等人通過協(xié)同同過濾算法求出目標(biāo)用戶最近鄰居集,再利用內(nèi)容過濾算法濾去可信度低的鄰居進(jìn)行推薦[38]。覃容等人提出一種基于協(xié)同過濾和內(nèi)容的用戶需求混合推薦算法,利用用戶的特征,通過內(nèi)容過濾算法尋找目標(biāo)用戶相似性最高鄰居集,運(yùn)用協(xié)同過濾算法產(chǎn)生推薦結(jié)果[39]。
6? 結(jié)束語(yǔ)
個(gè)性化推薦技術(shù)雖已進(jìn)入了成熟階段,但依舊面臨著很大的挑戰(zhàn),如:數(shù)據(jù)稀疏性、冷啟動(dòng)問題、大數(shù)據(jù)處理實(shí)時(shí)性問題、多樣性問題、推薦系統(tǒng)效果評(píng)估等,如何解決這些問題是研究者需要關(guān)注的熱點(diǎn)。隨著互聯(lián)網(wǎng)發(fā)展,近年來,人們對(duì)于推薦系統(tǒng)研究熱情更加高漲。人工智能時(shí)代,深度學(xué)習(xí)的應(yīng)用、知識(shí)圖譜的應(yīng)用、強(qiáng)化學(xué)習(xí)的應(yīng)用、用戶畫像和可解釋推薦將會(huì)成為如何搭建推薦系統(tǒng)未來研究熱點(diǎn)和方向。
參考文獻(xiàn):
[1]戴世超.基于圖計(jì)算模型的矩陣分解并行化研究[D].浙江理工大學(xué),2016.
[2]蔣新宇.基于Spark平臺(tái)分層協(xié)同過濾算法研究[D].河北工業(yè)大學(xué),2016.
[3]路海明,盧增祥,徐晉暉,等.基于Agent技術(shù)的個(gè)性化主動(dòng)信息服務(wù)[J].計(jì)算機(jī)工程與應(yīng)用,1999(6):12-15.
[4]鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].復(fù)旦大學(xué),2003.
[5]王立才.上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2012.
[6]孟祥武,劉樹棟,張玉潔,等.社會(huì)化推薦系統(tǒng)研究[J].軟件學(xué)報(bào),2015,26(6):1356-1372.
[7]路海明,盧增祥,李衍達(dá).基于多Agent混合智能實(shí)現(xiàn)個(gè)性化網(wǎng)絡(luò)信息推薦[J].計(jì)算機(jī)科學(xué),2000(7):32-34.
[8]周雪芳.個(gè)性化推薦系統(tǒng)用戶偏好獲取及興趣建模[J].知識(shí)經(jīng)濟(jì),2012(18):106.
[9]秦勤.基于用戶標(biāo)注興趣模型的個(gè)性化信息推薦研究[D].山西醫(yī)科大學(xué),2018.
[10]熊回香,楊雪萍,高連花.基于用戶興趣主題模型的個(gè)性化推薦研究[J].情報(bào)學(xué)報(bào),2017,36(9):916-929.
[11]張玨,楊振華,王世琪,等.社交網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下的用戶興趣層次化模型研究[J].教育觀察(上半月),2016,5(8):127-129,132.
[12]王嫣然,陳梅,王翰虎,等.一種基于內(nèi)容過濾的科技文獻(xiàn)推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(2):66-69.
[13]閆東東,李紅強(qiáng).一種改進(jìn)的基于內(nèi)容的個(gè)性化推薦模型[J].軟件導(dǎo)刊,2016,15(4):11-13.
[14]耿立校,晉高杰,李亞函,等.基于改進(jìn)內(nèi)容過濾算法的高校圖書館文獻(xiàn)資源個(gè)性化推薦研究[J].圖書情報(bào)工作,2018,62(21):112-117.
[15]鄧愛林,朱揚(yáng)勇,施伯樂.基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2003(9):1621-1628.
[16]周軍鋒,湯顯,郭景峰.一種優(yōu)化的協(xié)同過濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2004(10):1842-1847.
[17]徐德智,李小慧.基于云模型的項(xiàng)目評(píng)分預(yù)測(cè)推薦算法[J].計(jì)算機(jī)工程,2010,36(17):48-50.
[18]賀懷清,計(jì)瑜,惠康華,等.一種基于稀疏分段的協(xié)同過濾推薦算法[J].現(xiàn)代電子技術(shù),2019,42(9):90-94.
[19]李遠(yuǎn)博,曹菡.基于PCA降維的協(xié)同過濾推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(2):26-30.
[20]孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D].浙江大學(xué),2005.
[21]郭艷紅,鄧貴仕.協(xié)同過濾系統(tǒng)項(xiàng)目冷啟動(dòng)的混合推薦算法[J].計(jì)算機(jī)工程,2008,34(23):11-13.
[22]李改,李磊.一種解決協(xié)同過濾系統(tǒng)冷啟動(dòng)問題的新算法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2012,42(2):11-17,44.
[23]于洪,李俊華.一種解決新項(xiàng)目冷啟動(dòng)問題的推薦算法[J].軟件學(xué)報(bào),2015,26(6):1395-1408.
[24]肖文杰.一種基于k-modes的冷啟動(dòng)問題解決算法[J].福建電腦,2018,34(8):28-29,78.
[25]鄧愛林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004(9):1665-1670.
[26]張海燕,丁峰,姜麗紅.基于模糊聚類的協(xié)同過濾推薦方法[J].計(jì)算機(jī)仿真,2005(8):144-147.
[27]李濤,王建東,葉飛躍,等.一種基于用戶聚類的協(xié)同過濾推薦算法[J].系統(tǒng)工程與電子技術(shù),2007(7):1178-1182.
[28]張娜,何建民.基于項(xiàng)目與客戶聚類的協(xié)同過濾推薦方法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(9):1159-1162.
[29]關(guān)志芳,孟海東.融合用戶聚類與項(xiàng)目聚類的加權(quán)SlopeOne算法[J].控制工程,2018,25(7):1297-1302.
[30]李文海,許舒人.基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(1):130-136,143.
[31]Zhou T, Ren J , Medo, Matú?, et al. Bipartite network projection and personal recommendation[J]. PHYSICAL REVIEW E, 2007, 76(4):46115-0.
[32]呂善國(guó),吳效葵,曹義親.基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J].實(shí)驗(yàn)室研究與探索,2012,31(7):278-280,368.
[33]肖揚(yáng),王道平,楊岑.基于三部圖網(wǎng)絡(luò)結(jié)構(gòu)的知識(shí)推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(2):386-390.
[34]張子柯,周濤,張翼成.Tag-aware Recommender Systems: a State-of-the-art Survey[J]. Journal of Computer Science & Technology, 2011, 26(5): 767-777.
[35]胡吉明,林鑫.基于熱傳導(dǎo)能量擴(kuò)散的社會(huì)化小眾推薦融合算法設(shè)計(jì)[J].情報(bào)理論與實(shí)踐,2016,39(4):119-123.
[36]曹毅,賀衛(wèi)紅.基于用戶興趣的混合推薦模型[J].系統(tǒng)工程,2009,27(6):68-72.
[37]曾艷,麥永浩.基于內(nèi)容預(yù)測(cè)和項(xiàng)目評(píng)分的協(xié)同過濾推薦[J].計(jì)算機(jī)應(yīng)用,2004(1):111-113.
[38]李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué),2009,36(12):142-145.
[39]覃容,陳建峽.基于協(xié)同過濾和內(nèi)容的用戶需求混合推薦算法[J].企業(yè)技術(shù)開發(fā),2018,37(2):67-69.