孟秋晴,童兆莉,丁紅發(fā)
(1.華中師范大學(xué)信息管理學(xué)院,武漢403792;2.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽550025;3.湖北交通職業(yè)技術(shù)學(xué)院圖書館,武漢430079)
農(nóng)產(chǎn)品電商繼圖書、服裝、3C 三大電商熱潮后,成為第四輪電商熱潮,標(biāo)志著我國農(nóng)產(chǎn)品互聯(lián)網(wǎng)化進(jìn)入高速成長階段[1]。農(nóng)產(chǎn)品的季節(jié)地域性、易腐性、數(shù)量大等特殊性質(zhì)對(duì)農(nóng)產(chǎn)品交易要求苛刻,讓傳統(tǒng)的線下交易面臨巨大的阻力,而農(nóng)產(chǎn)品電商的發(fā)展則讓農(nóng)產(chǎn)品交易煥發(fā)了新的活力。如今各種農(nóng)產(chǎn)品網(wǎng)站層出不窮,大規(guī)模的農(nóng)產(chǎn)品信息給人們的購物帶來了便利,與此同時(shí),也增加了用戶的信息負(fù)載。個(gè)性化推薦技術(shù)主要依據(jù)用戶的歷史行為數(shù)據(jù),挖掘出用戶感興趣的內(nèi)容,并自動(dòng)推送給用戶,減少了用戶的人工搜索量,提高檢索效率。將個(gè)性化推薦算法[2]應(yīng)用到農(nóng)產(chǎn)品電商領(lǐng)域,能夠挖掘用戶興趣,使用戶快速找到符合自己需求的農(nóng)產(chǎn)品信息,降低了購物的盲目性,促進(jìn)農(nóng)產(chǎn)品的銷售,對(duì)農(nóng)村電商的發(fā)展有著重要意義。
目前,個(gè)性化推薦算法雖然已經(jīng)應(yīng)用到農(nóng)產(chǎn)品電商中,但相關(guān)研究才剛剛起步,并不成熟。農(nóng)產(chǎn)品電商中推薦算法的分類、模型、適用場(chǎng)景等都沒有系統(tǒng)的研究成果,無法較好地支持推薦算法在農(nóng)產(chǎn)品電商中的應(yīng)用研究?;诖爽F(xiàn)狀,本文對(duì)個(gè)性化推薦算法在農(nóng)產(chǎn)品電商中的應(yīng)用研究進(jìn)行了梳理和總結(jié),分類闡述了個(gè)性化推薦算法的模型、特征和應(yīng)用優(yōu)勢(shì),分析了推薦算法在農(nóng)產(chǎn)品電商中的應(yīng)用研究及其評(píng)價(jià)指標(biāo),并進(jìn)一步梳理分析了面向農(nóng)產(chǎn)品的推薦算法應(yīng)用所存在的問題,提出了進(jìn)一步的研究方向,以期為個(gè)性化推薦算法在農(nóng)產(chǎn)品電商的深入應(yīng)用和普及提供有力支持。
20 世紀(jì)90 年代中期,在美國人工智能協(xié)會(huì)上,“Web Watcher”和“LIRA”兩個(gè)個(gè)性化推薦系統(tǒng)[3]的出現(xiàn)標(biāo)志著個(gè)性化推薦技術(shù)的研究正式開始。Resnick 等人[4]在1997 年針對(duì)個(gè)性化推薦系統(tǒng)首次給出了定義,認(rèn)為完整的推存系統(tǒng)具體包括三個(gè)構(gòu)成要素,即用戶模型、產(chǎn)品模型以及推薦算法。其中,用戶模型主要是用于儲(chǔ)存用戶的歷史行為信息,信息獲取方式一般分為顯示獲取和隱式獲取兩種。顯式獲取采用用戶的評(píng)分來衡量用戶對(duì)產(chǎn)品的偏好程度,隱式獲取是通過用戶的網(wǎng)頁瀏覽信息,購買日志等隱式信息獲取用戶的偏好。產(chǎn)品模型主要用于表示產(chǎn)品的特征信息。個(gè)性化推薦系統(tǒng)流程如圖1 所示,包括數(shù)據(jù)輸入、個(gè)性化推薦算法和生成推薦列表三個(gè)步驟[5]。其中,個(gè)性化推薦算法是推薦系統(tǒng)的核心環(huán)節(jié),主要通過對(duì)用戶歷史行為數(shù)據(jù)進(jìn)行挖掘,揭示用戶的消費(fèi)習(xí)慣以及興趣偏好,從而進(jìn)行個(gè)性化推薦。
圖1 個(gè)性化推薦系統(tǒng)流程
目前,個(gè)性化推薦已廣泛應(yīng)用于電子商務(wù)、廣告服務(wù)以及社交媒體等領(lǐng)域當(dāng)中。其中,以在電商中的應(yīng)用最為成熟,如在亞馬遜、eBay、淘寶網(wǎng)、當(dāng)當(dāng)網(wǎng)等電商網(wǎng)站中,個(gè)性化推薦技術(shù)的使用已經(jīng)產(chǎn)生了巨大的商業(yè)價(jià)值。盡管不同的應(yīng)用領(lǐng)域使用到了不同的推薦算法,從推薦策略的角度,可將推薦算法分為協(xié)同過濾推薦、基于內(nèi)容的推薦、基于知識(shí)的推薦以及混合推薦等不同的推薦方案[6]。
協(xié)同過濾的概念最先由Goldberg 等人在1992 年提出[7],最初應(yīng)用于過濾電子郵件,目前在推薦領(lǐng)域中應(yīng)用最為廣泛。協(xié)同過濾算法由三個(gè)步驟組成:第一步,獲取“用戶-項(xiàng)目”評(píng)分矩陣;第二步,通過相似度計(jì)算得到目標(biāo)用戶的最近鄰用戶集合或目標(biāo)項(xiàng)目的最近鄰項(xiàng)目集合;最后,通過上一個(gè)步驟得到的最近鄰集合,計(jì)算目標(biāo)用戶對(duì)目標(biāo)項(xiàng)目的預(yù)測(cè)評(píng)分,根據(jù)評(píng)分生成最終推薦結(jié)果,如圖2 所示。協(xié)同過濾算法主要分為基于用戶的協(xié)同過濾推薦、基于項(xiàng)目的協(xié)同過濾推薦、基于模型的協(xié)同過濾推薦三種。
圖2 協(xié)同過濾推薦算法流程
基于用戶的協(xié)同過濾要找出與當(dāng)前用戶過去有相似偏好的其他用戶群體,將該用戶群體感興趣且當(dāng)前用戶沒有見過的內(nèi)容推薦給當(dāng)前用戶;基于項(xiàng)目的協(xié)同過濾推薦是要找出跟當(dāng)前用戶感興趣的項(xiàng)目相似度較高的項(xiàng)目,把這些項(xiàng)目作為推薦?;谀P偷膮f(xié)同過濾推薦則是基于各種機(jī)器學(xué)習(xí)的方法離線建立模型,然后根據(jù)用戶興趣模型,計(jì)算用戶對(duì)產(chǎn)品的預(yù)測(cè)評(píng)分,從而進(jìn)行推薦。相似度的計(jì)算主要的方法有Pearson 相似度計(jì)算,修正的余弦相似度計(jì)算、歐幾里得距離法等[8]。
利用協(xié)同過濾算法,可以借助用戶評(píng)分矩陣R,計(jì)算得到用戶a 和用戶b 的相似度sim(a,b),可利用Pearson 相似度計(jì)算得出,如公式(1)所示:
其中,P 代表產(chǎn)品集,ri,j表示評(píng)分矩陣R 中的評(píng)分項(xiàng),表示用戶i 的平均評(píng)分。目標(biāo)用戶a 對(duì)目標(biāo)產(chǎn)品p 的預(yù)測(cè)評(píng)分pred(a,p)可由公式(2)得到:
其中,N 為目標(biāo)用戶a 的最相似的用戶集。該預(yù)測(cè)評(píng)分是基于目標(biāo)用戶a 的最相似的N 個(gè)近鄰用戶得到的。計(jì)算出目標(biāo)用戶a 對(duì)所有目標(biāo)產(chǎn)品的預(yù)測(cè)評(píng)分,最后將預(yù)測(cè)評(píng)分排序后生成最終的推薦列表。
協(xié)同過濾算法最顯著的問題是其計(jì)算復(fù)雜度會(huì)隨著用戶和商品規(guī)模的增加而急速增加。近年來,深度學(xué)習(xí)[9]因?yàn)樵诖笠?guī)模數(shù)據(jù)處理方面具有突出表現(xiàn),目前被廣泛應(yīng)用于協(xié)同過濾推薦領(lǐng)域當(dāng)中[10,11],采用深度學(xué)習(xí)方法通過學(xué)習(xí)用戶或項(xiàng)目的隱向量,基于隱向量預(yù)測(cè)用戶對(duì)項(xiàng)目的評(píng)分或偏好,成為協(xié)同過濾算法的一大研究熱點(diǎn)。
協(xié)同過濾算法主要以“用戶-項(xiàng)目”評(píng)分矩陣作為用戶興趣偏好,但沒有考慮到諸如用戶的年齡、職業(yè)、社會(huì)地位等用戶特征信息,以及項(xiàng)目的類別、生產(chǎn)時(shí)間、價(jià)格等項(xiàng)目特征信息?;趦?nèi)容的推薦需要依賴對(duì)用戶或項(xiàng)目的特征描述,在這里把對(duì)用戶或項(xiàng)目的特征描述稱為“內(nèi)容”?;趦?nèi)容的推薦能夠自動(dòng)從項(xiàng)目的文本描述中抽取特征關(guān)鍵詞,生成與項(xiàng)目?jī)?nèi)容相關(guān)的特征描述,根據(jù)特征描述對(duì)當(dāng)前用戶過去感興趣的項(xiàng)目和還沒有看到的項(xiàng)目之間的相似度做出評(píng)估,借助相似度計(jì)算得出最近鄰集合,從而生成推薦列表。
在文本信息推薦中,基于內(nèi)容的推薦算法應(yīng)用較多。其中,最常使用到的特征描述方式有空間向量模型和TF-IDF 技術(shù)[12],即詞頻和反文檔頻率。通過TFIDF 值表征向量模型中的特征值。詞頻是表示一個(gè)詞在一篇文檔中出現(xiàn)的頻繁程度,文檔j 中關(guān)鍵詞i 的歸一化詞頻值TF(i,j)可由公式(3)得到:
其中,freq(i,j)表示i 在j 中出現(xiàn)的絕對(duì)頻率,maxOthers(i,j)為最大頻率。關(guān)鍵詞i 的反文檔頻率IDF(i)可由公式(4)得到:
其中,N 為所有可推薦文檔的數(shù)量,n(i)表示的是N 中關(guān)鍵詞i 出現(xiàn)過文檔的數(shù)量。反文檔頻率的設(shè)定是為了降低在所有文檔中都會(huì)出現(xiàn)的關(guān)鍵詞的權(quán)重,增大出現(xiàn)在較少文檔中的關(guān)鍵詞的權(quán)重。
文檔j 中關(guān)鍵詞i 的組合TF-IDF 值可表示為:
目前,基于內(nèi)容的推薦多應(yīng)用于社會(huì)化推薦[13]領(lǐng)域,即立足于傳統(tǒng)推薦算法,將用戶或是項(xiàng)目所具備的社會(huì)化屬性信息(如標(biāo)簽信息和信任關(guān)系等)當(dāng)成關(guān)鍵影響因素,并融入推薦算法里,從而達(dá)到提高推薦系統(tǒng)性能與精度的目的[14]。
基于知識(shí)的推薦算法與其他推薦算法存在的最大差異在于,其需要利用特定領(lǐng)域當(dāng)中的專業(yè)知識(shí)以及規(guī)則約束?;谥R(shí)的推薦算法不需要考慮用戶評(píng)分以及興趣偏好等因素,因此不會(huì)出現(xiàn)數(shù)據(jù)稀疏性以及冷啟動(dòng)等問題。該算法通常依賴用戶的特定需求,或者明確給定的推薦規(guī)則。其可以看作是語義推理技術(shù)的一種形式,在實(shí)際應(yīng)用中依據(jù)知識(shí)架構(gòu)體系實(shí)現(xiàn)個(gè)性化推薦,因此一般需要針對(duì)特定領(lǐng)域建立專業(yè)知識(shí)庫。
目前,基于知識(shí)的推薦方法的研究熱點(diǎn)是基于本體[15]理論構(gòu)建模型的方法。
個(gè)性化推薦算法存在的問題主要包括用戶評(píng)分矩陣的稀疏性、可擴(kuò)展性以及冷啟動(dòng)等[16]。用戶評(píng)分矩陣的稀疏性問題主要是因?yàn)橛脩魧?duì)物品進(jìn)行的評(píng)分會(huì)存在大量的數(shù)據(jù)缺失,所以用戶評(píng)分矩陣是一個(gè)稀疏矩陣。冷啟動(dòng)問題指的是當(dāng)新用戶剛進(jìn)入系統(tǒng)時(shí),由于還沒有任何購買行為,因此缺乏相應(yīng)的評(píng)分?jǐn)?shù)據(jù)。可擴(kuò)展性是指隨著數(shù)據(jù)量及數(shù)據(jù)結(jié)構(gòu)的擴(kuò)展,構(gòu)造適應(yīng)的訓(xùn)練模型的能力。
每一種個(gè)性化推薦算法都會(huì)存在自身獨(dú)有的優(yōu)點(diǎn)和缺點(diǎn),以上幾種形式的推薦算法對(duì)比如表1 所示,因此在解決實(shí)際問題的時(shí)候,多會(huì)采用多種推薦算法相互融合的方式以達(dá)到更好的推薦效果,也即是混合推薦算法?;旌贤扑]方案通常有三種:整體混合、并行混合以及流水線混合。其中,整體混合是把多種推薦策略納入到一個(gè)算法中的混合設(shè)計(jì)方案,這種算法設(shè)計(jì)是通過對(duì)算法進(jìn)行內(nèi)部組合調(diào)整,從而能夠利用不同類型的輸入數(shù)據(jù)進(jìn)行推薦;并行混合是指同時(shí)用到幾個(gè)推薦算法的結(jié)果,利用加權(quán)或其他特殊的混合機(jī)制將他們的輸出結(jié)果整合起來做出最后的推薦;流水線混合具體是把推薦過程劃分成多個(gè)階段,多種技術(shù)順序作用,上一個(gè)階段推薦算法的輸出作為下一個(gè)階段推薦算法的輸入,直到產(chǎn)生最后的推薦結(jié)果。
表1 主流推薦算法對(duì)比
面向農(nóng)產(chǎn)品的推薦主要是在傳統(tǒng)推薦算法的基礎(chǔ)上,結(jié)合農(nóng)產(chǎn)品電商的特征來進(jìn)行推薦算法的選擇和優(yōu)化設(shè)計(jì)。以下從協(xié)同過濾、基于內(nèi)容的推薦、基于知識(shí)的推薦和其他推薦四個(gè)角度詳細(xì)介紹面向農(nóng)產(chǎn)品的推薦算法應(yīng)用。
目前,國內(nèi)外基于農(nóng)產(chǎn)品的推薦算法應(yīng)用最廣泛的是協(xié)同過濾算法以及對(duì)其的改進(jìn)算法。李寧[17]、鄭云飛等人[18]都選取基于項(xiàng)目的協(xié)同過濾推薦算法設(shè)計(jì)并實(shí)現(xiàn)了農(nóng)產(chǎn)品推薦系統(tǒng)。于金明[16]通過分析農(nóng)產(chǎn)品和其他產(chǎn)品的特征差別,通過ICP-IPSS 方法改進(jìn)了項(xiàng)目間的相似性度量,設(shè)計(jì)了基于項(xiàng)目譜聚類的優(yōu)化協(xié)同過濾推薦算法。李圣秋[19]提出了農(nóng)產(chǎn)品商城系統(tǒng)中的整體式混合推薦模式。其中,針對(duì)用戶在不同時(shí)期做出的評(píng)分進(jìn)行不同的權(quán)重設(shè)置,設(shè)計(jì)了一個(gè)引入時(shí)間因子的協(xié)同過濾算法,這種算法優(yōu)化了傳統(tǒng)算法沒有考慮特征的問題,降低了推薦算法的平均絕對(duì)誤差。郭安邦[20]使用Item CF-Time Grade 協(xié)同過濾推薦算法構(gòu)建了Grecs 農(nóng)產(chǎn)品電商系統(tǒng),該算法在基于項(xiàng)目的協(xié)同過濾算法基礎(chǔ)上增加了時(shí)間和評(píng)分因子兩個(gè)影響因素,該算法生成的基于物品相似度的推薦結(jié)果具有更快的物品更新速度,取得了較好的用戶反饋。裘進(jìn)[21]同樣將原有計(jì)算物品間相似度的余弦相似度公式加入時(shí)間、用戶評(píng)分等內(nèi)容,從而調(diào)整預(yù)測(cè)權(quán)重值得到較好的推薦結(jié)果。
在面向農(nóng)產(chǎn)品的協(xié)同過濾推薦中,大部分研究是對(duì)協(xié)同過濾算法中相似度計(jì)算的部分進(jìn)行改進(jìn),根據(jù)農(nóng)產(chǎn)品具有的特性,針對(duì)評(píng)分矩陣的稀疏性等問題優(yōu)化協(xié)同過濾推薦算法。但現(xiàn)有算法中并沒有采用深度學(xué)習(xí)等目前協(xié)同過濾算法中的最新研究成果,使得在農(nóng)產(chǎn)品及其用戶規(guī)模異常龐大的電商環(huán)境下,推薦效果并不理想。
管慶超[22]進(jìn)行了農(nóng)產(chǎn)品電商推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。其根據(jù)線上農(nóng)產(chǎn)品交易的特點(diǎn),構(gòu)建了基于農(nóng)產(chǎn)品屬性和類別的農(nóng)產(chǎn)品推薦模型,該模型對(duì)農(nóng)產(chǎn)品屬性相似度的計(jì)算使用了一種融合信息熵的加權(quán)Jaccard系數(shù)[23]的相似度改進(jìn)算法,對(duì)農(nóng)產(chǎn)品類別的相似性計(jì)算引入了用戶偏好度因子,將計(jì)算的結(jié)果作為權(quán)值來調(diào)整最后的計(jì)算結(jié)果,由此能夠有效解決數(shù)據(jù)稀疏方面的問題。彭潔[24]提出一種基于潛在類回歸模型(LCRM)的農(nóng)產(chǎn)品推薦方案,從用戶評(píng)價(jià)的角度,通過LCRM 將具有相同興趣愛好的用戶劃分為一個(gè)組群,構(gòu)建組群偏好,再通過與目標(biāo)用戶的相似度計(jì)算來定位組群和定位農(nóng)產(chǎn)品,實(shí)現(xiàn)較為準(zhǔn)確的農(nóng)產(chǎn)品推薦,并且具有較低的計(jì)算復(fù)雜度。
面向農(nóng)產(chǎn)品的基于內(nèi)容的推薦中,需要進(jìn)行文本分析,以及對(duì)推薦對(duì)象的特征描述等工作。目前,該方面研究成果較少,主要研究著重于特征相似度計(jì)算的改進(jìn),對(duì)農(nóng)產(chǎn)品的特征描述、特征表示、特征存儲(chǔ)等并沒有形成成熟的方法與思路。
魏同[25]設(shè)計(jì)并實(shí)現(xiàn)了大別山農(nóng)產(chǎn)品電商語義推薦系統(tǒng)。其工作以大別山茶葉產(chǎn)品作為研究對(duì)象,通過構(gòu)建茶葉領(lǐng)域本體,并挖掘用戶興趣,經(jīng)過本體投影算法形成用戶興趣本體,完成基于茶葉領(lǐng)域本體的用戶建模,并基于語義相似度和相關(guān)度進(jìn)行語義推薦。秦志遠(yuǎn)[26]根據(jù)農(nóng)產(chǎn)品目錄信息以及農(nóng)業(yè)物聯(lián)網(wǎng)感知信息分別構(gòu)建了農(nóng)產(chǎn)品上層本體和下層本體,然后依據(jù)消費(fèi)者信息建立消費(fèi)者興趣本體,并將消費(fèi)者興趣本體和農(nóng)產(chǎn)品上層本體進(jìn)行概念語義相似度計(jì)算,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦。郭安邦[20]設(shè)計(jì)和構(gòu)建了基于本體的Greenhouse-Expert 農(nóng)產(chǎn)品專家系統(tǒng)。通過分析基于本體的專家系統(tǒng)設(shè)計(jì)方法,并結(jié)合農(nóng)產(chǎn)品的類別特征,提出了Greenhouse-Expert 推薦算法,該算法能夠較好地解決推薦系統(tǒng)的冷啟動(dòng)問題,提供更為專業(yè)、精準(zhǔn)的推薦結(jié)果。
當(dāng)前基于知識(shí)的農(nóng)產(chǎn)品推薦的研究熱點(diǎn)是基于本體理論構(gòu)建模型的方法?;诒倔w的推薦一方面需要對(duì)本體所在的領(lǐng)域和范圍進(jìn)行確定,然后在此基礎(chǔ)上構(gòu)建領(lǐng)域內(nèi)的物品本體和用戶興趣本體,對(duì)其進(jìn)行相似度計(jì)算從而生成推薦?;谥R(shí)的農(nóng)產(chǎn)品推薦研究目前相對(duì)較少,主要是目前對(duì)基于本體的研究還存在一些問題,如還沒有形成統(tǒng)一的構(gòu)建本體模型的標(biāo)準(zhǔn);領(lǐng)域本體構(gòu)建過程中需要一定的領(lǐng)域知識(shí),并且不能實(shí)現(xiàn)本體的自動(dòng)構(gòu)建,需要大量的人工干預(yù)等。
除了上述應(yīng)用,丁昭巧[27]通過分析農(nóng)產(chǎn)品購買者偏好,設(shè)計(jì)了多Agent 策略下的農(nóng)業(yè)電商個(gè)性化推薦整體和各部分架構(gòu),采用協(xié)作過濾完成推薦數(shù)據(jù)和隱性反饋分析。
目前,對(duì)于農(nóng)產(chǎn)品電商的推薦算法,最常用的評(píng)價(jià)指標(biāo)為預(yù)測(cè)準(zhǔn)確率和分類準(zhǔn)確率[7]。預(yù)測(cè)準(zhǔn)確率主要由平均絕對(duì)誤差(MAE)來評(píng)估,公式如下:
MAE 對(duì)所有評(píng)估用戶u ∈U 和測(cè)試集(testsetu)的所有物品,計(jì)算推薦得分rec(u,i)與實(shí)際得分ru,i的平均偏差。預(yù)測(cè)準(zhǔn)確率還可以由在評(píng)分值的范圍內(nèi)歸一化后的MAE 或NMAE 和平方根誤差(RMSE)來評(píng)估。
分類準(zhǔn)確率主要有準(zhǔn)確率和召回率兩個(gè)指標(biāo)來衡量,分類準(zhǔn)確率通常也用于衡量信息檢索任務(wù)的質(zhì)量。準(zhǔn)確率(P)是指命中物品數(shù)占推薦物品總數(shù)|recsetu|的比例,公式如下:
召回率(R)是指命中物品數(shù)在理論上最大的命中數(shù)量|testsetu|中所占的比例,公式如下:
在本文第2 節(jié)面向農(nóng)產(chǎn)品的推薦算法應(yīng)用中,大多數(shù)學(xué)者都選用了平均絕對(duì)誤差、準(zhǔn)確率或者召回率的全部或部分指標(biāo)來對(duì)推薦算法進(jìn)行評(píng)價(jià)。
目前,個(gè)性化推薦算法在電商中的應(yīng)用已經(jīng)非常廣泛,但針對(duì)農(nóng)產(chǎn)品電商的應(yīng)用研究相對(duì)較少。在農(nóng)產(chǎn)品電商領(lǐng)域,農(nóng)產(chǎn)品推薦的效果直接影響了農(nóng)產(chǎn)品的銷售和用戶體驗(yàn),而農(nóng)產(chǎn)品推薦效果的好壞主要是由其推薦算法所決定。從相關(guān)文獻(xiàn)的發(fā)表時(shí)間和數(shù)量可以看出,面向農(nóng)產(chǎn)品電商的推薦算法研究相對(duì)較少,且是從近幾年才開始逐步增多。同時(shí),將推薦算法應(yīng)用于農(nóng)產(chǎn)品電商的關(guān)注度正日益增多,還有很大的發(fā)展空間,但仍存在著一些問題,需要不斷的改進(jìn)與擴(kuò)展。
上述基于推薦算法在農(nóng)產(chǎn)品電商的應(yīng)用研究中,由于農(nóng)產(chǎn)品電商數(shù)據(jù)的獲取難度較大,只有少數(shù)的研究者使用的是農(nóng)產(chǎn)品電商真實(shí)數(shù)據(jù)來進(jìn)行推薦算法的測(cè)試與評(píng)估,大多數(shù)研究者使用的實(shí)驗(yàn)數(shù)據(jù)質(zhì)量參差不齊,甚至有部分學(xué)者使用的是其他領(lǐng)域內(nèi)的電商數(shù)據(jù)(如MovieLens、Jester 數(shù)據(jù)集)來進(jìn)行評(píng)估測(cè)試,無法良好達(dá)到針對(duì)農(nóng)產(chǎn)品進(jìn)行推薦的目的。電商平臺(tái)中用戶行為數(shù)據(jù)的獲取難度最大,因涉及用戶隱私問題往往不作公開,極大制約了學(xué)者們的研究。因此,學(xué)者們應(yīng)高度關(guān)注農(nóng)產(chǎn)品電商領(lǐng)域內(nèi)的商品信息以及用戶行為信息采集問題。可以通過跟農(nóng)產(chǎn)品機(jī)構(gòu)合作構(gòu)建農(nóng)產(chǎn)品電商推薦系統(tǒng),基于系統(tǒng)的運(yùn)行搜集真實(shí)的商品及用戶行為數(shù)據(jù),以支持面向農(nóng)產(chǎn)品推薦的研究。
目前的研究成果大部分都集中在基于協(xié)同過濾的農(nóng)產(chǎn)品推薦方面,旨在解決傳統(tǒng)算法中存在的冷啟動(dòng),評(píng)分矩陣稀疏性等問題,且大量研究人員都只關(guān)注于對(duì)其相似度計(jì)算的改進(jìn)。但是基于協(xié)同過濾的推薦算法的最大問題是不能準(zhǔn)確揭示用戶和項(xiàng)目的語義信息,因此無法揭示其之間的語義關(guān)系,無法進(jìn)一步對(duì)用戶和項(xiàng)目的關(guān)系特征信息進(jìn)行深入挖掘,因此推薦效果并不理想。面向農(nóng)產(chǎn)品的推薦算法的研究應(yīng)該更多的考慮農(nóng)產(chǎn)品的特征,以及領(lǐng)域知識(shí),從而挖掘他們之間的語義關(guān)系。目前基于內(nèi)容的農(nóng)產(chǎn)品推薦和基于知識(shí)的農(nóng)產(chǎn)品推薦研究較少,可以作為今后重點(diǎn)關(guān)注的研究方向。
農(nóng)產(chǎn)品最終推薦效果是由推薦算法評(píng)估策略判定,而評(píng)估策略的優(yōu)劣決定著推薦算法的發(fā)展方向,從上述研究中可以看出目前評(píng)價(jià)指標(biāo)主要采用預(yù)測(cè)準(zhǔn)確率(如:MAE、RMSE)和分類準(zhǔn)確率(如:precision、recall)。由于大數(shù)據(jù)環(huán)境下農(nóng)產(chǎn)品推薦系統(tǒng)的復(fù)雜性,使得推薦算法的推薦評(píng)估成為一個(gè)難題。僅僅靠平均絕對(duì)誤差、分類準(zhǔn)確率和召回率來衡量推薦結(jié)果的好壞顯然是不夠的,因此推薦算法的效果評(píng)估仍然是研究領(lǐng)域面臨的一個(gè)重要的問題,也是學(xué)者們需要繼續(xù)研究的方向。
在當(dāng)今大數(shù)據(jù)時(shí)代的背景下,伴隨系統(tǒng)規(guī)模的持續(xù)拓展以及農(nóng)產(chǎn)品數(shù)量和用戶的指數(shù)級(jí)增長,導(dǎo)致用戶對(duì)農(nóng)產(chǎn)品的評(píng)分?jǐn)?shù)據(jù)更為稀疏,同時(shí),系統(tǒng)的計(jì)算開銷龐大,算法的實(shí)時(shí)性難以保證,相應(yīng)的推薦系統(tǒng)所面臨的算法擴(kuò)展性問題也更加嚴(yán)峻。諸多學(xué)者提出的改進(jìn)算法都在致力于緩解矩陣稀疏性問題和擴(kuò)展性問題,但大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的稀疏性問題和擴(kuò)展性問題依然是推薦面臨的一個(gè)嚴(yán)峻挑戰(zhàn),學(xué)者們有待繼續(xù)深入研究。同時(shí),大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來源的多樣性,數(shù)據(jù)的非結(jié)構(gòu)化等特征,需要對(duì)農(nóng)產(chǎn)品電商信息進(jìn)行信息融合處理以及相應(yīng)的預(yù)處理,融合多源異構(gòu)數(shù)據(jù)[28]的混合推薦方法研究是今后學(xué)者們要注意的工作。
另外值得注意的是,立足于大數(shù)據(jù)環(huán)境,未來可以基于大數(shù)據(jù)技術(shù)設(shè)計(jì)分布式并行計(jì)算的農(nóng)產(chǎn)品推薦算法,已經(jīng)有學(xué)者基于分布式工作原理,將推薦算法引入到Hadoop 平臺(tái)和Apache Spark 平臺(tái)進(jìn)行并行化處理[29-31]。通過并行處理,數(shù)據(jù)能夠有效提高推薦系統(tǒng)的響應(yīng)時(shí)間,大大增強(qiáng)推薦系統(tǒng)的性能,生成優(yōu)化推薦結(jié)果,但該方面研究才剛剛起步,并不成熟??梢酝茰y(cè)分布式并行計(jì)算會(huì)是農(nóng)產(chǎn)品電商推薦系統(tǒng)中應(yīng)用研究的新方向。
推薦算法在農(nóng)產(chǎn)品電商中的應(yīng)用意義重大,能夠幫助消費(fèi)者快速識(shí)別出自己感興趣的農(nóng)產(chǎn)品,提高了購物效率。目前已能夠?qū)崿F(xiàn)基于農(nóng)產(chǎn)品的推薦系統(tǒng),現(xiàn)有研究多是對(duì)推薦算法中基于協(xié)同過濾算法的改進(jìn),以及對(duì)相似度的計(jì)算提出不同優(yōu)化策略;也有少數(shù)學(xué)者從語義相似度的角度來進(jìn)行研究,從而基于語義相似度進(jìn)行推薦;還有學(xué)者基于本體理論進(jìn)行推薦?,F(xiàn)有研究已經(jīng)能夠?qū)崿F(xiàn)電商領(lǐng)域中農(nóng)產(chǎn)品的常規(guī)推薦,但也存在一些問題,如針對(duì)評(píng)分矩陣的稀疏性等推薦算法問題依然沒有得到較好解決,且研究數(shù)據(jù)質(zhì)量參差不齊,推薦算法研究范圍較為局限。未來可著眼于大數(shù)據(jù)環(huán)境下數(shù)據(jù)多源異構(gòu)的特征,以及基于分布式原理優(yōu)化推薦算法??梢钥闯鐾扑]算法在農(nóng)產(chǎn)品電商中的應(yīng)用還有待更深入地研究,且還有較大的發(fā)展空間。