顧徐斌
(上海市行知中學(xué),上海 200431)
隨著后電商時(shí)代的到來,電商巨頭將競爭火力集中于下沉市場,網(wǎng)絡(luò)購物的普及率大大提升,成為了千家萬戶日常消費(fèi)生活的標(biāo)配。從數(shù)據(jù)來看,天貓“雙11”活動(dòng)銷售額從2009年的5200萬元增長到了2020年的4982億元,增長了9581倍。2020年中國網(wǎng)民數(shù)量約為9.5億,故僅考慮天貓這一家電商平臺(tái),網(wǎng)民人均消費(fèi)就達(dá)到了524.42元,足以看出該市場的廣闊。在供給側(cè)改革的時(shí)代背景下,生產(chǎn)力已經(jīng)不再是限制人們消費(fèi)的關(guān)鍵因素。電商平臺(tái)的消費(fèi)者在產(chǎn)生購物需求時(shí),面臨的選擇過多,反而難以尋找到自己需要的適合的商品,即產(chǎn)生了信息過載問題。
為了解決信息過載問題,提升用戶的購物效率,電商平臺(tái)均大力開發(fā)與迭代個(gè)性化推薦系統(tǒng)。電子商務(wù)個(gè)性化推薦系統(tǒng)就是根據(jù)用戶的行為數(shù)據(jù)和興趣模型,為用戶提供可能符合他們需求的特定商品信息,提升用戶購物體驗(yàn)的同時(shí)促進(jìn)消費(fèi),為平臺(tái)帶來更大的經(jīng)濟(jì)效益。如果說,用戶搜索商品是一種主動(dòng)行為,那用戶接受個(gè)性化推薦則是一種被動(dòng)化的行為,源于用戶被激發(fā)了弱化的、潛在的需求。需要關(guān)注的是,互聯(lián)網(wǎng)雖然在技術(shù)上能夠?qū)崿F(xiàn)去中心化,然而電商巨頭對流量入口的把持又重新塑造了一個(gè)中心化的世界,個(gè)性化推薦系統(tǒng)能夠推動(dòng)多樣化的實(shí)現(xiàn),使得更多小而美的商家能夠被看見??偟膩碚f,個(gè)性化推薦系統(tǒng)無論對消費(fèi)者還是商家,都是有一定的積極意義和現(xiàn)實(shí)價(jià)值,故本文重點(diǎn)研究不同電子商務(wù)平臺(tái)應(yīng)用個(gè)性化推薦系統(tǒng)的現(xiàn)狀以及異同點(diǎn),試圖挖掘出個(gè)性化系統(tǒng)還有待改進(jìn)的部分,希望能夠?yàn)閭€(gè)性化推薦系統(tǒng)的完善提出建議。
20世紀(jì)末Tapestry作為第一個(gè)推薦系統(tǒng)誕生,隨著時(shí)代的飛速發(fā)展,現(xiàn)如今個(gè)性化推薦系統(tǒng)已經(jīng)滲入到人們生活的點(diǎn)點(diǎn)滴滴,如短視頻、電商平臺(tái)等。不同的學(xué)術(shù)研究者也就個(gè)性化推薦系統(tǒng)給出了自己的看法。Resnick(1997)認(rèn)為個(gè)性化推薦系統(tǒng)就是為網(wǎng)購平臺(tái)上的消費(fèi)者推薦適合他們的產(chǎn)品。朱巖(2009)認(rèn)為個(gè)性化推薦系統(tǒng)是一種輔助工具,它幫助消費(fèi)者減少檢索所耗費(fèi)的時(shí)間,以及幫助消費(fèi)者更快地做出決定。蒲彬(2016)則認(rèn)為個(gè)性化推薦系統(tǒng)是平臺(tái)根據(jù)消費(fèi)者的消費(fèi)習(xí)慣、數(shù)據(jù)所得出的信息,再將此信息主動(dòng)推送給消費(fèi)者,幫助他們選取合適的商品。綜上所述,目前學(xué)界并沒有一個(gè)統(tǒng)一的定義,本文認(rèn)為個(gè)性化推薦系統(tǒng)是基于消費(fèi)者過往的消費(fèi)記錄、個(gè)人數(shù)據(jù)等,利用多種算法構(gòu)建信息處理模型,從而主動(dòng)為消費(fèi)者提供符合他們需求的商品的一種系統(tǒng)。
個(gè)性化推薦系統(tǒng)是互聯(lián)網(wǎng)和電子商務(wù)發(fā)展的產(chǎn)物,最早在1995年3月,卡耐基梅隆大學(xué)的Robert Armstrong等學(xué)者在美國人工智能協(xié)會(huì)上提出了個(gè)性化導(dǎo)航系統(tǒng)Web Watcher,但受限于技術(shù),該系統(tǒng)的理論意義強(qiáng)于實(shí)踐價(jià)值。由于技術(shù)的限制,主要還是停留在理論探討階段。21世紀(jì)初,Google創(chuàng)新性地提出了個(gè)性化元素,不再單一分析用戶的搜索關(guān)鍵詞,而是利用用戶的瀏覽記錄開展更加精確的分析。此后,個(gè)性化推薦系統(tǒng)逐漸成為業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。2009年7月,北京百分點(diǎn)信息科技有限公司成立,其作為國內(nèi)首個(gè)個(gè)性化推薦系統(tǒng)科研團(tuán)隊(duì),構(gòu)建了個(gè)性化推薦引擎技術(shù)與數(shù)據(jù)平臺(tái),匯聚一百多家知名電商及資訊類網(wǎng)站的信息,嘗試為消費(fèi)者提供實(shí)時(shí)的商品推薦服務(wù)。2011年9月,百度將推薦引擎與云計(jì)算共同作為互聯(lián)網(wǎng)未來發(fā)展重要戰(zhàn)略,強(qiáng)調(diào)個(gè)性化,此后個(gè)性化推薦系統(tǒng)才真正成為電商平臺(tái)技術(shù)中的重要構(gòu)成。淘寶、天貓、京東、小紅書、蘇寧易購、唯品會(huì)等電商平臺(tái),均推出自己的個(gè)性化推薦系統(tǒng),并不斷迭代發(fā)展。
(1)基于內(nèi)容的推薦
想要基于內(nèi)容來推薦商品,首先給商品劃分屬性,然后根據(jù)消費(fèi)者可能感興趣的物品的屬性特征,給消費(fèi)者推薦同一類別的商品。從現(xiàn)實(shí)場景來看,當(dāng)用戶瀏覽了某一件休閑類女裝,那么可以向其推薦其他的休閑類女裝。當(dāng)然在實(shí)際應(yīng)用中,只根據(jù)內(nèi)容類型進(jìn)行推薦,會(huì)有一些片面與不妥,比如未考慮用戶對于價(jià)格的敏感性、圖像中的顏色等信息,無法對其進(jìn)行詳細(xì)地分類,有著很大的局限性,但基于內(nèi)容的推薦仍然是一種基礎(chǔ)且可靠的算法。
(2)協(xié)同過濾
協(xié)同過濾則是通過利用消費(fèi)者的搜索記錄,以及相似消費(fèi)者的記錄來向該用戶推薦可能所需求的商品。協(xié)同過濾的核心是根據(jù)用戶及相似用戶喜好來推薦該消費(fèi)者可能感興趣的商品。對于同一類型的商品,不同消費(fèi)者對其評價(jià)相一致,則被定為相似消費(fèi)者,然后根據(jù)相似消費(fèi)者對該商品評價(jià)的高低,從而決定是否推薦此商品給該消費(fèi)者。協(xié)同過濾的優(yōu)勢在于當(dāng)被分析及推薦的商品不存在明顯的基于內(nèi)容的分類、或者沒有固定的評判標(biāo)準(zhǔn)時(shí),能發(fā)揮出較好的推薦效果。同時(shí),來自于相似用戶群體的類似偏好時(shí)常在空間上具有聚集性特征,故也存在較為明顯的即時(shí)性特征。其不足之處在于,若某個(gè)產(chǎn)品是最新上架的、沒有積累足夠的評論數(shù)據(jù)時(shí),其初期的推薦效果就會(huì)存在較大的偏差[5]。此外,當(dāng)某一產(chǎn)品的用戶規(guī)模逐漸變大時(shí),用戶的成分越來越駁雜,衡量用戶偏好的影響因素越來越多,反過來影響了面向最初精準(zhǔn)定位用戶的推薦精度,降低了用戶體驗(yàn)。
(3)混合過濾
在個(gè)性化推薦技術(shù)騰躍式發(fā)展的十多年之間,不論是基于內(nèi)容的推薦還是協(xié)同推薦算法,都存在各自的優(yōu)勢與局限性。尤其是當(dāng)電商領(lǐng)域巨頭的用戶量達(dá)到了數(shù)億的規(guī)模后,其面臨的場景紛繁復(fù)雜,僅靠單一的推薦算法難以一次性解決所有的問題。因此,技術(shù)人員考慮將不同的算法組合起來,發(fā)揮不同算法各自的優(yōu)勢[2]。組合的基本思想分成3種:在協(xié)同過濾中加入基于內(nèi)容的過濾,在基于內(nèi)容的過濾中加入?yún)f(xié)同過濾,或者將兩者整合到一個(gè)推薦系統(tǒng)中。實(shí)踐當(dāng)中,混合過濾大致可以分成加權(quán)式、切換式、級聯(lián)式、合并式、特征組合、特征遞增、元層混合等。目前各大電商平臺(tái)的個(gè)性化推薦算法都是不同形式的混合算法,且隨著用戶反饋不斷迭代更新。
個(gè)性化推薦系統(tǒng)的價(jià)值可以從用戶維度、產(chǎn)品維度和企業(yè)維度等多個(gè)角度來衡量。從用戶維度,個(gè)性化推薦系統(tǒng)可以提高購物效率,幫助用戶更快地找到自己感興趣的商品;從產(chǎn)品維度,更好的用戶體驗(yàn)則會(huì)帶來更高的用戶粘性,提升產(chǎn)品的活躍度和整體流量;從企業(yè)角度,用戶的活躍度提升能夠吸引更多賣家入駐,從而提升廣告和傭金的收入。
拼多多是一個(gè)以“電商+平臺(tái)”為屬性的平臺(tái),其挖掘出了下沉市場的巨大消費(fèi)潛力,而從電商市場白熱化的競爭中脫穎而出,躋身電商三大巨頭之一。就其在個(gè)性化推薦領(lǐng)域的探索,其推出了所謂的“千人千面”,該系統(tǒng)大致經(jīng)歷了3個(gè)發(fā)展歷程。第一階段,“千人千面”考慮的因素包括商品類目和標(biāo)題以及買家瀏覽記錄,用以定向推薦和做重定向標(biāo)簽。第二階段,在原先基礎(chǔ)上增加了商品屬性和用戶興趣點(diǎn),表現(xiàn)在系統(tǒng)加強(qiáng)相似商品的推薦,此外從買家行為中提取興趣點(diǎn),定向推薦符合興趣點(diǎn)的商品。第三階段,拼多多全量開放最新客戶標(biāo)簽庫構(gòu)成的DMP系統(tǒng),目前人群常見標(biāo)簽包括人群屬性、行業(yè)偏好、消費(fèi)能力以及用戶軌跡,并利用這些標(biāo)簽設(shè)置更加精細(xì)的價(jià)格段。此外,拼多多給了用戶瀏覽、收藏、下單記錄等動(dòng)態(tài)標(biāo)簽更多的權(quán)重,而非不常改變的用戶信息等靜態(tài)標(biāo)簽,故其推薦系統(tǒng)能夠保持較高的即時(shí)性特征。
小紅書是由毛文超和瞿芳所創(chuàng)立的一個(gè)以記錄生活方式為切入口的社交電商平臺(tái)。由于其吸引了大量年輕人,成為一大流量入口,故啟動(dòng)電商模式僅僅五個(gè)月就突破了2億元營業(yè)額,到2017年5月,達(dá)成了近2000億元的驚人營收。在快速發(fā)展的過程中,小紅書的個(gè)性化推薦系統(tǒng)也經(jīng)歷了不斷的迭代過程,從最簡單的GBDT模型演進(jìn)到了包含了千億參數(shù)的稀疏離散模型,包括GBDT+LR、GBDT+Deep&Wide等。同時(shí)小紅書的瀑布流頁面背后進(jìn)行的是實(shí)時(shí)流計(jì)算,即根據(jù)用戶對已曝光的筆記是否點(diǎn)擊、是否點(diǎn)贊以及在該筆記頁面的停留時(shí)長記錄,反饋給LogServer(即日志服務(wù)器)系統(tǒng),接著將數(shù)據(jù)接入到Kafka系統(tǒng),隨之展開數(shù)據(jù)計(jì)算,系統(tǒng)構(gòu)建實(shí)時(shí)的初步用戶/筆記畫像,同時(shí)實(shí)時(shí)歸因,再次導(dǎo)入LogServer系統(tǒng)進(jìn)行分析,根據(jù)訓(xùn)練樣本導(dǎo)入Hive系統(tǒng)所得出的模型訓(xùn)練作為參照,分析儲(chǔ)存實(shí)時(shí)指標(biāo),在Clickllouse系統(tǒng)進(jìn)行數(shù)據(jù)落地,畫出最終的用戶畫像。因此,小紅書的算法推薦以用戶對筆記的消費(fèi)行為為輸入,再將計(jì)算結(jié)果輸出,實(shí)時(shí)更新用戶標(biāo)簽,為其推薦個(gè)性化的筆記。同時(shí),預(yù)期模型與策略也包含在龐大的個(gè)性化推薦系統(tǒng)之中。當(dāng)模型對象愈發(fā)龐雜時(shí),小紅書將線上服務(wù)器拆分成獨(dú)立的集群,線下數(shù)據(jù)則通過Flink做實(shí)時(shí)的行為歸因,從而使得運(yùn)營成本和系統(tǒng)復(fù)雜度隨之有所下降。
京東的個(gè)性化推薦系統(tǒng)起源于2012年,開發(fā)了“看了還看” “買了還買”等版塊,底層邏輯是簡單的關(guān)聯(lián)推薦,其準(zhǔn)確程度并不是很高。到了2014年,京東順應(yīng)國內(nèi)大數(shù)據(jù)的潮流,著手研發(fā)首頁猜你喜歡、購物車猜你喜歡、免運(yùn)費(fèi)湊單等個(gè)性化推薦版塊,在算法邏輯上逐漸向場景智能推薦過渡。從2016年至2017年,京東又推出了京東秒殺、智能賣場、陪伴計(jì)劃、我的618好貨、東家小院等多個(gè)類型的推薦,即不僅僅局限于商品,而是將其擴(kuò)展到如活動(dòng)、文章、清單等其他類型的個(gè)性化推薦。此外,京東還推出了所謂的多屏場景,以用戶興趣偏好為出發(fā)點(diǎn),將推薦結(jié)果重新排序,便于用戶使用。即使是看似簡單的多屏整合,其背后涉及到了多種技術(shù)和復(fù)雜的計(jì)算能力,包括前端埋點(diǎn)、打造點(diǎn)擊流系統(tǒng)、多屏行為信息手機(jī)、實(shí)時(shí)流計(jì)算等。經(jīng)過了一系列整合和迭代之后,京東平臺(tái)推薦系統(tǒng)業(yè)務(wù)架構(gòu)包含系統(tǒng)架構(gòu)、模型服務(wù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)平臺(tái)共4個(gè)部分。對于數(shù)據(jù)處理部分,包括離線數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)模型訓(xùn)練,以及在線實(shí)時(shí)行為的接入、實(shí)時(shí)特征計(jì)算;對于推薦平臺(tái),它是用戶和平臺(tái)所推薦的個(gè)性化商品之間的交互,也是整個(gè)個(gè)性化推薦流程中的核心模塊;在模型服務(wù)層面,其主要通過線下的算法訓(xùn)練,達(dá)到精確尋找個(gè)性化商品的目的;對于特征服務(wù)平臺(tái),通過提取用戶與商品交互的場景特征,從而給推薦給該用戶的個(gè)性化商品進(jìn)行排序;而在線學(xué)習(xí)功能則是即時(shí)性更強(qiáng)的深度學(xué)習(xí),是大規(guī)模的個(gè)性化推薦平臺(tái)進(jìn)行改進(jìn)的主要方式。
盡管個(gè)性化推薦系統(tǒng)正在快速地發(fā)展,但整個(gè)行業(yè)也面臨著一定的瓶頸,其推薦效率和精度難以取得突破性的提升。該領(lǐng)域目前的主要挑戰(zhàn)在于數(shù)據(jù)稀疏性、冷啟動(dòng)、大數(shù)據(jù)處理、社會(huì)化推薦等。
(1)數(shù)據(jù)稀疏性問題
隨著時(shí)間推移,個(gè)性化推薦系統(tǒng)的規(guī)模也是越來越大,變量甚至達(dá)到數(shù)千億的規(guī)模,但是用戶與用戶之間選擇的重疊非常少。用戶和商品關(guān)系之間可能存在的比例關(guān)系,也被稱為稀疏度,其實(shí)是非常疏松的,因?yàn)閱我挥脩粼诮^大多數(shù)變量上的取值均為0,只有購買過的商品才會(huì)取值為1,這也使得個(gè)性化推薦系統(tǒng)需要處理的數(shù)據(jù)矩陣是高階稀疏矩陣。一般而言,數(shù)據(jù)的規(guī)模越大,商品稀疏度就越低,過濾便越來越困難。由此,絕大部分基于關(guān)聯(lián)分析的算法的效果并不好。
(2)冷啟動(dòng)問題
對于任何個(gè)性化推薦系統(tǒng)來說,冷啟動(dòng)階段都難以有很好的推薦精度。因?yàn)樾掠脩艉庇杏袃r(jià)值的數(shù)據(jù)或行為信息,所以個(gè)性化推薦平臺(tái)只能通過注冊時(shí)填寫的用戶基本信息,如年齡、性別、居住城市、職業(yè)等,給出精確度較低的基本的商品推薦。然而,大多數(shù)新用戶能給一個(gè)電商APP的時(shí)間是比較有限的,如果使用效果不達(dá)預(yù)期,則留存率會(huì)隨之大大降低。
(3)大數(shù)據(jù)處理與增量計(jì)算
如今,一個(gè)電商平臺(tái)能夠提供的商品總數(shù)動(dòng)輒幾千萬,乃至上億。當(dāng)涉及到如此大規(guī)模的商品、商品標(biāo)簽以及同樣龐大的用戶規(guī)模和實(shí)時(shí)產(chǎn)生的各類用戶數(shù)據(jù),如何在短時(shí)間內(nèi)高效地處理這些信息成為了一個(gè)難題。一個(gè)可能的解決方案是設(shè)計(jì)增量算法,即當(dāng)產(chǎn)生新用戶、新商品和新的連接關(guān)系時(shí),算法不再從整體上采集信息,而是從相連局部進(jìn)行數(shù)據(jù)采樣,從而降低計(jì)算量。
(4)有關(guān)社會(huì)化推薦
由大數(shù)據(jù)分析可知,大部分消費(fèi)者相較于電商平臺(tái)給出的個(gè)性化推薦商品,更希望聽取并采納來自好友的商品推薦。如果個(gè)性化推薦系統(tǒng)能夠?qū)⑸鐣?huì)關(guān)系考慮在內(nèi)[6],能夠大幅度提高推薦的精確度。目前社會(huì)化推薦的發(fā)展方向也存在三種挑戰(zhàn):一是如何利用社會(huì)化推薦給出精確的商品推薦,二是如何在社交網(wǎng)絡(luò)與個(gè)性化推薦系統(tǒng)之間建立更加有機(jī)的聯(lián)系,三是道德風(fēng)險(xiǎn)。根據(jù)技術(shù)接受理論,部分消費(fèi)者可能認(rèn)為過于精確的個(gè)性化推薦涉及侵犯到自己的隱私,反而引發(fā)用戶的抵觸心理。
大數(shù)據(jù)推薦及算法是有可拓展性的。目前各大電商平臺(tái)的個(gè)性化推薦系統(tǒng)不僅數(shù)據(jù)量大,而且新用戶新產(chǎn)品會(huì)不斷進(jìn)入系統(tǒng),用戶也會(huì)生產(chǎn)出新的瀏覽、收藏、下單、評論等動(dòng)態(tài)行為數(shù)據(jù)。此外,用戶除了會(huì)在購物環(huán)節(jié)有檢索需求外,在金融理財(cái)、休閑娛樂等不同領(lǐng)域也有同樣的個(gè)性化需求,因此在互聯(lián)網(wǎng)世界的探索過程中會(huì)積累形成其他能夠互補(bǔ)的數(shù)據(jù)信息[7]。電商平臺(tái)數(shù)據(jù)有望和其他領(lǐng)域的數(shù)據(jù)進(jìn)行整合,形成跨領(lǐng)域推薦,實(shí)現(xiàn)更完善的個(gè)性化推薦,故跨領(lǐng)域推薦成為個(gè)性化推薦系統(tǒng)的一大發(fā)展趨勢。
在流量時(shí)代,用戶注意力是最為稀缺的資源,也是各大電商平臺(tái)所爭奪的重點(diǎn)。個(gè)性化推薦系統(tǒng),通過給用戶提供有可能感興趣的商品,來實(shí)現(xiàn)提高用戶留存率、活躍時(shí)間、下單金額的目的,因此受到了電商平臺(tái)的廣泛關(guān)注和更新迭代。當(dāng)下商品規(guī)模,即使是同一類目的商品也有成千上萬種,做到精確的個(gè)性化推薦難度不言而喻,未來個(gè)性化推薦系統(tǒng)可能會(huì)以更高頻率的數(shù)據(jù)采集速度、更高效的算法模型、更多的數(shù)據(jù)來源,從而為用戶提供更加精準(zhǔn)的個(gè)性化推薦。