白 玉 馬 然
(北京物資學(xué)院 北京 101149)
面對互聯(lián)網(wǎng)上眼花繚亂的海量信息,通常會讓用戶感到無所適從,每個用戶都希望通過互聯(lián)網(wǎng)快速的得到有用的信息?;谑袌龅男枨?,許多算法都被采用。比如深度學(xué)習(xí)以及隱語義方法[1]。但傳統(tǒng)的推薦算法有許多缺點,比如內(nèi)容過于相似等等。因此,為了解決此類問題,產(chǎn)生了強(qiáng)化學(xué)習(xí)算法。
在中國有句古話叫“物以類聚,人以群分”,就很好的詮釋了協(xié)同過濾[2-3]的基本思想。比如,你現(xiàn)在想買一本書,但你不知道買哪一本,你就會去問和你興趣類似的人,將他喜歡的書籍推薦給你。
基于內(nèi)容的算法[4-5]應(yīng)用的時間最早。從字面理解就是,依照用戶的喜好來尋找興趣相似的用戶,將物品作為推薦。例如:在京東購物的小伙伴都知道,每當(dāng)你瀏覽完一個界面時,重新在打開瀏覽時,都會出現(xiàn)“猜你喜歡”欄目。它會根據(jù)你之前購買的物品,來為你推薦你可能喜歡的物品。
強(qiáng)化學(xué)習(xí)[6-7]與監(jiān)督學(xué)習(xí)的區(qū)別是,沒有已經(jīng)準(zhǔn)備好的訓(xùn)練數(shù)據(jù)輸出值,強(qiáng)化學(xué)習(xí)只有獎勵值。與非監(jiān)督學(xué)習(xí)的區(qū)別,在非監(jiān)督學(xué)習(xí)中即沒有輸出值也沒有獎勵值,只有數(shù)據(jù)特征,而強(qiáng)化學(xué)習(xí)有獎勵值。強(qiáng)化學(xué)習(xí)的特點是沒有監(jiān)督數(shù)據(jù),只有獎勵信號、獎勵信號不一定是實時的、時間序列是一個很重要的因素。強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的算法有DQN算法、A2C算法以及DDPG和PPO算法。
當(dāng)今時代,面對海量的信息,人們要想快速找到自己所需要的信息,是離不開推薦算法的。基于本文,主要講述了傳統(tǒng)的推薦算法以及新興的強(qiáng)化學(xué)習(xí)算法。無論哪一種,都有自己的優(yōu)點以及缺點。在合適的應(yīng)用場景選擇合適的推薦算法尤為重要。