亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        眾籌項目的個性化推薦:考慮本地偏好的協(xié)同過濾算法

        2022-03-15 10:39:14郭麗環(huán)KevinZhu王洪偉
        管理工程學(xué)報 2022年2期
        關(guān)鍵詞:懲罰用戶

        王 偉 郭麗環(huán) 何 翎 Kevin Zhu 王洪偉

        (1.華僑大學(xué) 工商管理學(xué)院, 福建 泉州 362021; 2.泉州師范學(xué)院 陳守仁商學(xué)院, 福建 泉州 362000;3.加利福尼亞大學(xué)圣迭戈分校 雷迪管理學(xué)院, 美國 圣迭戈 92093; 4.同濟大學(xué) 經(jīng)濟與管理學(xué)院, 上海 200092)

        0 引言

        盡管互聯(lián)網(wǎng)打破了傳統(tǒng)市場的各種限制,但是在線交易中用戶行為仍然呈現(xiàn)本地偏好趨勢,即交易雙方的地理位置會趨近而不是擴散到廣泛的地理范圍內(nèi)。這種典型的用戶行為模式已經(jīng)在線下交易中得到廣泛證實[1],用戶對本地資源的偏好反映了用戶行為模式。從心理角度上分析,以食品類項目作為例子,這類項目屬于線上交易,線下消費的場景,因此,眾籌項目在線融資過程中,項目的地理位置代表了該項目包含的文化、習(xí)慣、傳統(tǒng)、風(fēng)俗、語言等豐富信息。距離越近,意味著文化、習(xí)慣、傳統(tǒng)、風(fēng)俗、語言越相似,也就意味著對項目背景越熟悉。由于文化和習(xí)慣的差異,對事物越熟悉意味著投資者越容易產(chǎn)生心理信賴[1]。從這個角度上看,食品類眾籌項目由于其產(chǎn)品屬性,難以獲得廣泛的地理位置的投資者支持[2],因此吸引距離較近的投資者具有更高的成功率。從消費成本的角度上看,由于不可避免的距離成本,導(dǎo)致投資者在投資眾籌項目時,會把項目地理位置納入考慮范疇,例如:對于風(fēng)險投資,投融資雙方的平均距離僅為70英里;而50%的天使投資與目標(biāo)企業(yè)的距離也在半天行程范圍內(nèi)[3];從用戶的活動軌跡上看,Foursquare的調(diào)查數(shù)據(jù)顯示,45%的用戶日?;顒影霃讲怀^10英里,而75%的用戶日常活動半徑不超過50英里[4]。以戲劇類眾籌項目為例,在北京舉行的戲劇類項目能夠吸引的投資者大多來自北京以及周邊地區(qū),其他地區(qū)的用戶參與這類項目將會極大增加消費成本(包括交通成本、時間成本等)[5]。所以,在這些類別的眾籌項目中,投資者偏好距離較近的項目。借助本地偏好,能夠得到更準(zhǔn)確的用戶畫像,進而提供更為有效的個性化推薦列表。

        近年來,有學(xué)者嘗試將地理位置與個性化推薦相結(jié)合,提高了用戶偏好識別的準(zhǔn)確率,進而提高了個性化推薦的成功率,但是其應(yīng)用場景與在線眾籌項目的個性化推薦存在較大差異。已有研究中,基于地理位置的推薦一般是根據(jù)用戶需求選擇就近的產(chǎn)品。一個典型的場景是:給用戶推薦附近的電影院、咖啡館或餐廳等。顯然,在這種情景下,優(yōu)先推薦就近產(chǎn)品會獲得較高的準(zhǔn)確率。這種推薦算法優(yōu)先考慮了地理位置的影響,但并沒有考慮用戶之間的興趣相似性,完全擺脫了個性化偏好對于用戶選擇的影響。在眾籌平臺上,這種場景將不復(fù)存在,互聯(lián)網(wǎng)打破了地理位置的局限,投資者既可以選擇距離近的項目,也可以選擇距離遠(yuǎn)的項目。

        也有研究嘗試同時考慮用戶興趣相似度和地理屬性兩個維度,并采用匹配質(zhì)量作為模型的核心函數(shù)[6]。這類算法的本質(zhì)是把用戶行為分為兩個階段,第一階段識別用戶偏好,采用余弦函數(shù)進行相似度度量;第二階段在第一階段的基礎(chǔ)上,加上距離因素,并通過優(yōu)化模型得到帕累托均衡點。其研究結(jié)果證實了在社交網(wǎng)絡(luò)好友推薦中的有用性,但是在線融資的應(yīng)用場景顯然不同于好友推薦,參與投資的影響因素更加復(fù)雜。

        現(xiàn)有研究很少考慮在線金融產(chǎn)品(如眾籌)的個性化推薦問題?;谖恢玫耐扑]算法通常采用距離排序,這與線下消費行為密切相連。因此,現(xiàn)有的基于位置的推薦一般是先選擇距離用戶最近的N個項目作為待推薦列表,再采用排序算法進行推薦(例如協(xié)同過濾)。然而,很多眾籌項目不依賴于線下消費,例如,項目展示、項目投資、進度公告、投融雙方的溝通都是在線完成的。利用投資者的本地偏好,重新設(shè)計用戶相似度函數(shù),能夠得到更加細(xì)致的投資者偏好模型,進而提升推薦系統(tǒng)的性能。另外,眾籌數(shù)據(jù)的稀疏度大于99%[7],將影響個性化推薦的效果。充分利用用戶行為多維數(shù)據(jù)能夠在一定程度上解決稀疏數(shù)據(jù)的個性化推薦問題。

        1 相關(guān)文獻(xiàn)

        1.1 基于地理位置的推薦算法

        隨著移動定位技術(shù)的發(fā)展,基于位置的推薦吸引了越來越多的關(guān)注[8],它能幫助人們發(fā)現(xiàn)有吸引力的地點,或者推薦在一定距離內(nèi)用戶可能感興趣的消費場所。通常,用戶移動性數(shù)據(jù)和空間位置信息有助于識別用戶偏好,考慮地理位置的推薦能提升推薦性能,并對數(shù)據(jù)規(guī)模和潛在空間維數(shù)的增加提供了較好的擴展性[9,10]。一般來說,用戶的行為都在一定范圍內(nèi),例如:大多數(shù)用戶在離線消費時,會選擇50英里以內(nèi)的酒店[4],這表明用戶行為模式受到較強的地理位置的影響,考慮用戶的地理位置可以更準(zhǔn)確的進行用戶畫像,進而識別用戶偏好。

        很大程度上,場地推薦的性能取決于如何捕捉用戶的環(huán)境或偏好。然而,很難捕獲用戶偏好的全部信息;此外,用戶偏好往往是異構(gòu)的(即某些偏好對所有用戶通用;而有些偏好是動態(tài)和多樣的)。基于場地的推薦算法經(jīng)常推薦基于簡單上下文的最受歡迎、最便宜或最接近的場館[11]。在考慮用戶位置之外,不能忽略用戶的其他興趣偏好。用戶偏好受到多方面因素影響,如興趣相似性、距離和熟識度等,因此,在眾籌項目的個性化推薦中,有必要同時考慮距離因素和其他多維興趣因素。

        1.2 有關(guān)互聯(lián)網(wǎng)金融產(chǎn)品的個性化推薦

        推薦系統(tǒng)中的用戶和項目都具有多維特征[12],多特征相似度能夠提高項目和用戶的匹配度,提升推薦效果。因此,對于互聯(lián)網(wǎng)金融項目,同時考慮項目和用戶的多維特征并進行匹配,能夠顯著改善用戶偏好識別[13]。已有研究已經(jīng)證明在線投資行為中存在本地偏好,即投資者偏好距離較近的項目[14]。投資者的這種偏好打破了地理位置的局限,與場地類項目的推薦是一種截然不同的情景,需要重新構(gòu)筑基于本地偏好的推薦系統(tǒng)。

        大多數(shù)用戶只對少數(shù)商品有購買行為,因此存在數(shù)據(jù)稀疏問題。一種解決思路是采用多類型隱式反饋數(shù)據(jù)[15],例如將消費者在線評論作為一種反饋數(shù)據(jù)[16]。另一個思路是,采用網(wǎng)絡(luò)圖計算用戶和項目的全局相似度。將二分圖模型應(yīng)用于眾籌項目推薦,使用PersonalRank算法迭代計算網(wǎng)絡(luò)節(jié)點的全局關(guān)聯(lián)度,并將二分圖模型與協(xié)同過濾算法相結(jié)合,一定程度上解決數(shù)據(jù)稀疏問題[7]。

        用戶特征具有多樣性,位置是其中一項基礎(chǔ)特征[17]。近年來,推薦系統(tǒng)較多考慮用戶的多維度特征,例如在眾籌項目的推薦中,依據(jù)投資者的位置和相關(guān)特征進行聚類,再進行用戶群體推薦,在Kickstarter平臺上,取得了較好的推薦性能[18]。但是,這種群體推薦把同一群體視為同質(zhì)用戶,缺乏個性化,而且推薦性能受制于聚類的準(zhǔn)確率。

        2 研究差距以及問題定義

        2.1 研究差距

        當(dāng)前有關(guān)眾籌推薦的研究還很少,對投資者本地偏好的應(yīng)用更是鮮有考慮。離線消費的推薦與眾籌場景差異較大,前者與用戶的線下消費相關(guān),地理位置轉(zhuǎn)移的時間消耗和交通成本是決定推薦效果的主要因素[19]。離線消費場景下的推薦算法不能直接應(yīng)用于眾籌項目的個性化推薦。本質(zhì)上,考慮位置的推薦是一種基于多維特征的推薦。用戶具有多種興趣偏好[20],推薦算法的核心是識別用戶興趣,在度量用戶距離偏好基礎(chǔ)上,包含地理位置的多維特征推薦算法可以用于眾籌項目的個性化推薦。表1歸納了與本文相關(guān)的研究進展。

        表1 與本研究相關(guān)的主要研究進展Table 1Main research progress related to this study

        歸納已有研究,仍有提升空間:(1)眾籌項目的在線投資行為打破了地理位置的限制,但已有的考慮位置的推薦算法難以應(yīng)用到眾籌項目的推薦。離線消費場景不同于在線消費場景,北京王府井附近的用戶很可能選擇在其周邊用餐,而不可能去上海用餐;而對于眾籌模式而言,遠(yuǎn)距離的投資者能無限制地投資任何位置的項目,因此,已有的基于位置的推薦效果較差;(2)現(xiàn)有研究大都基于單邊位置數(shù)據(jù),只有用戶或項目的位置數(shù)據(jù)。例如(用戶、物品、物品位置、評分)數(shù)據(jù)結(jié)構(gòu)[4];或(用戶、用戶位置、物品、評分)數(shù)據(jù)結(jié)構(gòu)[24]。盡管可以從用戶經(jīng)?;顒拥奈恢猛茢嘤脩艋蛘唔椖康奈恢?但是與眾籌項目的數(shù)據(jù)存在本質(zhì)的差異。眾籌項目的數(shù)據(jù)結(jié)構(gòu)是多種結(jié)構(gòu)的混合,即部分投資者和融資者會選擇隱藏地理位置,這增加了模型的難度,眾籌項目的數(shù)據(jù)結(jié)構(gòu)包括(用戶、用戶位置、項目、項目位置、投資行為),(用戶、用戶位置、項目、投資行為),(用戶、項目、項目位置、投資行為),(用戶、項目、投資行為)等結(jié)構(gòu);(3)用戶偏好具有多樣性[25],用戶可能對位置近的項目感興趣,同時又期望投資“科技類”項目。而已有研究很少同時關(guān)注位置偏好和其他偏好,例如:對臨近位置項目的推薦,有研究直接按照距離進行排序。顯然,由于用戶偏好的多樣性,以及在線投資的便捷性,單純按照距離進行排序是不合適的。

        2.2 研究問題定義

        以Kickstarter為代表的眾籌平臺采用Nothing-or-More模式,融資成功率不足40%[26]。調(diào)查發(fā)現(xiàn),融資者花費大量精力維護項目,而一旦籌資失敗,融資者將一無所獲。融資失敗可能是因為項目質(zhì)量較低,也可能是沒有找到合適的投資者。針對后者,個性化推薦將有助于提高融資成功率。本文以位置作為切入點,改進推薦效果,為此,提出以下研究問題。

        (1) 基于距離的本地偏好分析:依據(jù)投資者和融資者的地理位置,轉(zhuǎn)化為用戶(項目)之間的距離,進而分析用戶的本地偏好。

        (2) 考慮本地偏好的用戶興趣建模:依據(jù)用戶的本地偏好模型,在推薦系統(tǒng)中整合地理位置的影響,改進用戶興趣模型。

        (3) 基于本地偏好的協(xié)同過濾算法設(shè)計:采用基于本地偏好的用戶興趣模型,設(shè)計并驗證眾籌項目的個性化推薦算法,并比較算法之間的差異。

        3 研究模型

        3.1 研究框架

        圖1展示了本文的研究框架。首先,爬取用戶行為數(shù)據(jù),根據(jù)眾籌項目的特點,構(gòu)建用戶行為數(shù)據(jù)。然后,對原始數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理、關(guān)鍵數(shù)據(jù)抽取,其中地理位置與經(jīng)緯度的轉(zhuǎn)化是關(guān)鍵點。接下來,采用交叉驗證的方式對數(shù)據(jù)進行分組,分為訓(xùn)練集和測試集。在訓(xùn)練集上建立用戶偏好模型,該偏好模型考慮了用戶對地理位置的偏好。對用戶(項目)的相似度距離進行歸一化處理。在相似度距離基礎(chǔ)上,為了消除熱門項目對推薦性能的影響,對熱門項目進行降權(quán)。最后得到個性化推薦列表,并采用準(zhǔn)確率、召回率、流行度和覆蓋率等指標(biāo)綜合評估推薦性能。

        圖1 研究框架示意圖Figure 1Research framework of the study

        3.2 距離度量

        依據(jù)Kickstarter提供的位置信息,調(diào)用Google地圖API,得到用戶的經(jīng)緯度,例如“SanDiego,CA”的經(jīng)緯度分別為32.7157380和-117.1610840。得到項目與投資者的位置數(shù)據(jù)后,采用球體計算公式計算任意兩點的距離。投融雙方的距離以球面進行計算,計算如公式(1)和公式(2)所示。

        其中,點A的經(jīng)緯度為(LngA,LatA),點B的經(jīng)緯度為(LngB,LatB),按照0度經(jīng)線作為基準(zhǔn)。Distance()以反余弦函數(shù)進行度量,R為地球半徑,取值6371.004公里,計算結(jié)果以公里為單位,Pi代表圓周率。

        3.3 匿名位置用戶的處理

        出于隱私方面的考慮,一部分用戶不愿意暴露自身的位置。對于這類用戶,其地理位置需要單獨處理,因為如果懲罰太大就減少了用戶之間的興趣相似度;懲罰太小就忽略了投資者可能存在的本地偏好。采用公式(3)所示的方法對匿名位置的用戶進行處理。

        即如果投資者與項目都有位置信息,則按照經(jīng)緯度計算距離。如果投資者匿藏位置,采用該項目投資者的平均距離di作為匿名位置投資者與融資者之間的距離,即用第i個項目的平均距離作為投資第i個項目的匿名投資者的距離。這樣處理的原因在于不同項目類別之間存在不同的本地偏好,一些項目類別能夠吸引較遠(yuǎn)距離的投資者,例如:科技類項目;而另外一些項目只能吸引距離較近的投資者,例如:戲劇類項目。因此,依據(jù)已經(jīng)公開地理位置的用戶之間的距離均值來近似衡量匿名位置用戶是對不同屬性項目偏好的合理度量,充分考慮了項目特征。

        3.4 改進的余弦相似度算法

        協(xié)同過濾的思想就是計算用戶或者項目之間的相似度,通常采用余弦相似度進行計算,如公式(4)所示。

        如果考慮本地偏好,公式(4)可以修改為公式(5)。

        3.5 距離懲罰因子

        若不考慮投融雙方之間的距離,公式(6)可用于計算用戶對項目的興趣度。

        其中,p(u,i)表示用戶u對項目i的興趣度,S(u,K)表示與用戶u興趣最接近的K個用戶,可以采用余弦公式計算用戶之間的興趣相似度,N(i)表示對項目i有過行為的用戶集合。wuv表示用戶u和用戶v的興趣相似度,rvi表示用戶v對項目i的興趣,在單一行為的反饋數(shù)據(jù)中,rvi一般設(shè)置為1。

        若考慮投資者的本地偏好,可將公式(6)改進為公式(7),公式(7)引入了懲罰因子。本文模型對距離進行了兩個維度的度量:一是用戶之間的距離;二是用戶與項目之間的距離。對于Kickstarter這樣一個國際性眾籌網(wǎng)站,一旦一個項目同時獲得了外國用戶與一些美國國內(nèi)投資者的投資,可能會因為這些項目與外國用戶之間的距離較大而導(dǎo)致不會將這些項目推薦給外國用戶。這是引入距離懲罰因子的原因,距離懲罰因子允許我們手動在訓(xùn)練數(shù)據(jù)上進行調(diào)整,以保證用戶興趣模型(協(xié)同過濾)和用戶本地偏好(距離因素)同時在模型中得到均衡的度量,最大程度提高推薦準(zhǔn)確率。

        其中,dp(u,i)表示項目i對于用戶u在地理位置上的懲罰,項目i距離用戶u的位置越遠(yuǎn),其懲罰系數(shù)越大。α表示距離懲罰因子,α越大表明對距離的懲罰越大。采用歐氏距離計算地圖上任意兩點的距離,如公式(8)所示。

        3.6 距離懲罰因子的歸一化處理

        使用經(jīng)緯度來計算用戶之間的相似度距離具有較大的范圍,因為經(jīng)度的范圍介于[-180,180]之間,而緯度的范圍介于[-90,90]之間。如果不對距離進行規(guī)范化的話,投資者之間的距離就會出現(xiàn)極大的值域,距離懲罰因子因此很可能大于1,得到的推薦效果較差。

        公式(9)對距離懲罰因子進行歸一化。其中,dp′ui是歸一化后的距離懲罰因子,dpui是原始的距離懲罰因子。

        3.7 相似度的歸一化處理

        眾籌項目包含不同的類別,同類別項目之間的相似度通常大于不同類別項目之間的相似度,這是由于作為相同的項目類別,用戶對其行為的子集一般大于跨產(chǎn)品類別的子集。在這種情況下,把項目之間的相似度矩陣進行歸一化處理,不但可以提高推薦的準(zhǔn)確度,還可以提高推薦的覆蓋率和多樣性[27]。例如,推薦系統(tǒng)要在食品類項目(記為F)和科技類項目(記為T)之間選擇并推薦給用戶,F內(nèi)部項目之間的相似度為0.5,T內(nèi)部項目之間的相似度為0.4,而F和T之間的相似度為0.2。如果某用戶的歷史投資行為是均衡的(即投資F的次數(shù)和投資T的次數(shù)相當(dāng)),那么基于項目的推薦算法會給用戶推薦F,而不會推薦T,因為F內(nèi)部項目之間的影響力更大。而一旦把F和T都?xì)w一化到相同的比較基準(zhǔn)內(nèi),則推薦列表中同時出現(xiàn)F和T的概率就會大幅增加。另外,歸一化也能降低熱門項目對于計算用戶之間相似度的影響。對于冷門商品來說,盡管銷量少,但是對其有過行為交集的用戶的相似度應(yīng)該更大。

        鑒于此,采用公式(10)對項目相似度進行歸一化處理。其中,wij是原始相似度,w′ij是歸一化的相似度。

        4 研究數(shù)據(jù)以及實驗設(shè)置

        4.1 研究數(shù)據(jù)

        在眾籌平臺上,融資者和投資者通常會標(biāo)注自己的位置。圖2展示了Kickstarter上的一個項目主頁,該項目已經(jīng)有111位投資者,地理位置為“Bedford-Stuyvesant,Brooklyn,NY”。同理,在用戶主頁上,也能看到用戶標(biāo)注的位置,據(jù)此計算投資者與項目之間的距離。

        圖2 Kickstarter上一個典型的項目主頁Figure 2A snapshot of a project′s home page on Kickstarter

        圖3展示了本文樣本數(shù)據(jù)中投資者的本地偏好趨勢統(tǒng)計。其中,具有本地偏好的實際值表示基于Kickstarter真實數(shù)據(jù)的距離計算值,而無本地偏好的理論均值是指剝離用戶本地偏好后的距離分布,即所有投資者與融資者的平均距離[14]。顯然,投資者更傾向于投資距離近的項目。以投融雙方來自同一國家的情形為例,由于Kickstarter上的投資者與融資者來自100多個國家和地區(qū),理論上,如果不存在本地偏好,投資者選擇來自同一國家項目的概率約為6%,但是實際值約為63%。由于Kickstarter平臺位于美國,投融雙方大都來自美國,因此,以國家為單位存在數(shù)據(jù)不均衡。以美國的州和城市進行計算,仍然顯示了顯著的本地偏好趨勢。投融雙方之間的距離更能衡量本地偏好,Kickstarter上投融雙方之間的平均距離是3911公里;而如果不存在本地偏好,雙方之間的平均距離理論值為8611公里。

        圖3 在線投資者的本地偏好實際值與真實值對比Figure 3Actual value vs.real value for investor′s home preference

        4.2 研究數(shù)據(jù)匯總

        圖4展示了數(shù)據(jù)的統(tǒng)計結(jié)果。實驗數(shù)據(jù)包括4340個用戶對275個項目的37018次投資行為,稀疏度為96.90%。就投資者來說,絕大多數(shù)參與投資的項目數(shù)量都較少,投資超過10個項目的投資者占28.16%;而投資超過20個項目的投資者占5.41%,也就是說,絕大多數(shù)用戶不活躍,因而導(dǎo)致數(shù)據(jù)較稀疏。就項目而言,投資者小于100人的項目較多,占26.91%;投資者大于150人的項目占24.36%,即約50%的項目能夠吸引到100~150位投資者參與。

        圖4 數(shù)據(jù)統(tǒng)計展示Figure 4Statistics results

        4.3 實驗設(shè)置

        本文采用基于項目的推薦算法,首先計算項目之間的相似度,然后依據(jù)該相似度推薦用戶列表給目標(biāo)項目。為了比較算法的性能,采用Top-N推薦,分別測試推薦列表數(shù)為5個和10個的情形。同時,測試協(xié)同過濾算法鄰域數(shù)量對推薦性能的影響。

        PersonalRank推薦算法、基于二分圖的CF分別以PersonalRank構(gòu)建二分圖模型進行推薦[7]?;趦?nèi)容的推薦表示推薦用戶曾經(jīng)支持過的相似項目給目標(biāo)用戶,例如某用戶曾經(jīng)支持過電影類項目,那么就認(rèn)為該用戶對電影具有一定的偏好。在對比實驗中,我們選擇的項目相似度指標(biāo)包括:項目類別、籌資者的社會化網(wǎng)絡(luò)、項目融資狀態(tài)、參與等級數(shù)量、最低參與金額以及平均籌資金額等6項指標(biāo)?;跓岫鹊耐扑]是指直接推薦最熱門的項目給用戶?;跓岫鹊耐扑]與鄰域無關(guān),即對任何用戶來說,得到的推薦列表都是相同的[7]。協(xié)同過濾算法采用余弦函數(shù)計算項目(用戶)之間的相似度,這種算法是較早采用的相似度算法[28]。

        距離推薦算法采用距離進行升序排列,然后推薦前N個用戶(項目)給項目(用戶)。距離推薦算法在線下場景中常常非常有效,因為用戶常常選擇距離最近的項目(電影院、餐廳、酒店、咖啡館等),但這種算法在眾籌項目推薦中是否有效懸而未決。距離過濾+協(xié)同過濾是一種首先按照投資者與項目之間的距離進行排序,然后選擇前N項作為推薦的候選列表,再在候選列表中采用協(xié)同過濾算法進行推薦[19]。這種方法在一些特定領(lǐng)域取得了不錯的效果,我們試圖比較這種算法對在線眾籌項目推薦的性能差異。基于本地偏好的協(xié)同過濾算法是本文提出的對距離的懲罰方法,目的是在計算用戶(項目)相似度時考慮距離指標(biāo)對相似度的影響,在推薦時對距離因素進行懲罰。當(dāng)項目與用戶的位置較近時,懲罰因子小;反之,對興趣度進行較大的懲罰。表2歸納了本文的比較算法以及說明。

        表2 比較算法以及說明Table 2Comparative algorithms and descriptions

        4.4 個性化推薦的評價標(biāo)準(zhǔn)

        早期推薦系統(tǒng)評價標(biāo)準(zhǔn)通常是預(yù)測用戶是否會購買某物品,因此準(zhǔn)確率成為重要指標(biāo)。后來發(fā)現(xiàn),單純依靠準(zhǔn)確率會誤導(dǎo)推薦系統(tǒng)的發(fā)展[29]。例如:對于熱門商品的推薦,準(zhǔn)確率會很高。但即使不推薦這類商品,用戶依然會購買。相反,當(dāng)推薦用戶不熟悉卻有興趣的商品時,用戶會更加滿意[30]。同時,實踐顯示,大量的長尾商品匯集起來,會對銷量產(chǎn)生很大的影響。鑒于此,長尾商品的推薦成為商界的關(guān)注點[31]。如果忽視產(chǎn)品覆蓋率,而片面追求準(zhǔn)確率和召回率,推薦系統(tǒng)會逐漸推薦更加熱門的商品,“馬太效應(yīng)”愈加明顯[32]。為此,把推薦系統(tǒng)的評價標(biāo)準(zhǔn)歸為4類:準(zhǔn)確率、召回率、覆蓋率和流行度。公式(11)到公式(14)分別給出4類指標(biāo)的計算方法。

        其中,Ru是推薦系統(tǒng)產(chǎn)生的推薦列表,Tu是用戶實際喜歡的項目列表,代表所有產(chǎn)品數(shù)量,RecommendListu為給用戶u的推薦列表,U為用戶集合,I為項目集合,代表項目i被推薦的次數(shù)。值得注意的是,推薦列表的長度會對準(zhǔn)確率和召回率產(chǎn)生影響。如果長度為1,即當(dāng)只有1個推薦產(chǎn)品,如果這個推薦正確,那么準(zhǔn)確率為100%,否則為0%;當(dāng)推薦列表為全部商品時,召回率恒為1。我們在實驗中選擇在實際應(yīng)用中常用的列表長度(N=5以及N=10)。

        5 研究結(jié)果與討論

        5.1 距離懲罰系數(shù)的確定

        對于距離懲罰因子而言,如果太小,不能對推薦的性能產(chǎn)生足夠影響;如果太大,則不能準(zhǔn)確衡量用戶偏好的相似度。為此,先在較小的數(shù)據(jù)集上進行實驗,以確定距離懲罰系數(shù)對個性化推薦性能的影響。圖5展示了距離懲罰因子的對比,采用TOP-N進行測試(N=10)。顯然,距離懲罰因子對于覆蓋率和流行度的影響極小。但距離懲罰因子提升了推薦的準(zhǔn)確率和召回率。以準(zhǔn)確率為例,當(dāng)距離懲罰系數(shù)為0時,準(zhǔn)確率最低;取值0.3時準(zhǔn)確率最高。召回率呈現(xiàn)了類似的趨勢。這種趨勢在鄰域數(shù)量K≤75時尤其明顯;而在K>75時,懲罰系數(shù)不存在顯著影響,但是當(dāng)K>75時,準(zhǔn)確率和召回率都極低。因此,在基于距離的推薦算法中,歸一化后的距離懲罰因子設(shè)置為0.3是比較合理的系數(shù)。

        圖5 距離懲罰系數(shù)的對比(N=10)Figure 5Comparison of distance penalty coefficients (N=10)

        5.2 距離推薦算法

        基于距離的推薦參照用戶之間的地理位置衡量興趣相似度。該算法不同于協(xié)同過濾算法,是一種只推薦距離最近的項目(用戶)給目標(biāo)用戶(項目)的方法。換句話說,兩個地理位置相同的用戶得到的推薦列表是相同的,這種推薦算法在離線消費場景中常常非常有效,因為離線消費受距離的約束較大,用戶很難選擇距離較遠(yuǎn)的場所。表3展示了距離推薦算法的推薦結(jié)果,顯然,距離推薦算法效果并不好,準(zhǔn)確率和召回率都極低,具有較大的提升空間;而覆蓋率較高,同時流行度較低。這表明該算法能夠覆蓋更寬廣的用戶群體,同時降低熱門商品對推薦算法的影響。

        表3 距離推薦算法的推薦結(jié)果Table 3Recommendation results of the distance recommendation

        5.3 距離過濾+協(xié)同過濾

        該算法將協(xié)同過濾和基于地理位置的推薦相結(jié)合,即從臨近的地理距離中選擇M個項目作為候選集,然后依據(jù)協(xié)同過濾算法推薦M個候選集中用戶興趣度最大的N個項目給目標(biāo)用戶[19]。本實驗中,選擇10倍推薦數(shù)量的候選用戶作為候選集,然后在候選集上進行協(xié)同過濾推薦。

        表4展示了距離過濾+協(xié)同過濾的推薦結(jié)果。列表長度N=5時,各項指標(biāo)均高于距離推薦算法。當(dāng)鄰域數(shù)為10時,綜合性能最佳。召回率和準(zhǔn)確率分別為4.86%和16.21%,而覆蓋率和流行度分別是13.57%和2.969。而當(dāng)列表長度N=10時,鄰域數(shù)為15時推薦性能最佳。盡管推薦性能得到了一定程度的提升,但是較難解釋這種推薦結(jié)果,因為該算法首先排除距離較遠(yuǎn)的投資者,實質(zhì)上是只將一定距離內(nèi)(距離較近)的用戶推薦給項目,而沒有考慮較遠(yuǎn)距離的用戶也可能對項目感興趣。在對推薦結(jié)果的解釋上,忽略遠(yuǎn)距離的投資者顯然是不合理的。此算法受限于推薦場景,線下消費場景適宜采用此類算法。但是,在眾籌領(lǐng)域,投資者與融資者的平均距離為3911公里。顯然,不能把較遠(yuǎn)距離的潛在投資者排除在推薦列表外。

        表4 距離過濾+協(xié)同過濾的推薦結(jié)果Table 4Recommendation results for distance filtering + collaborative filtering

        5.4 對距離的懲罰算法

        對距離的懲罰算法是在協(xié)同過濾算法基礎(chǔ)上,對用戶和項目之間距離實施懲罰。距離懲罰因子和相似度因子都采用歸一化計算。表5展示了距離懲罰算法的推薦結(jié)果。當(dāng)列表長度N=5時,鄰域數(shù)為10時,推薦性能最佳,召回率、準(zhǔn)確率、覆蓋率和流行度分別為4.87%、16.24%、13.62%和2.967。

        表5 對距離的懲罰算法的推薦結(jié)果Table 5Recommendation results for home bias-based CF with penalty

        當(dāng)列表長度N=10時,相對于推薦列表為5(N=5)的推薦性能,該結(jié)果在召回率、覆蓋率和流行度上有所提高;但降低了推薦的準(zhǔn)確率。換句話說,當(dāng)推薦的列表長度為10時,以降低準(zhǔn)確率的代價,提升了推薦的召回率、覆蓋率和流行度。

        5.5 算法的綜合比較

        表6對各種算法進行了綜合對比??傮w上看,基于熱度的推薦算法性能最差。因為基于熱度的推薦是一種不考慮鄰域的推薦算法,把所有用戶和項目視為同質(zhì),向所有用戶(項目)推薦相同的項目(用戶)。而在眾籌社區(qū)中,每個投資者的特征不一樣,不能以相同的項目列表推薦給所有用戶,因此,這類算法在眾籌項目推薦中性能極差?;诰嚯x的推薦比基于熱度的推薦性能更好,這可能是因為,眾籌參與者大多青睞距離較近的項目,他們通常是融資者的親朋好友[33]。由于這部分投資者的大量參與(尤其是在融資初期),投融雙方之間的距離較近?;诰嚯x的推薦會優(yōu)先推薦這部分投資者,但是這種推薦存在以下問題:(1)距離較近的投資者有很多,并不意味著近距離的投資者都對項目感興趣;(2)只考慮了投資者的距離偏好,而沒有考慮投資者的其他偏好?;趦?nèi)容的推薦算法改進了基于熱度和基于距離推薦算法的缺陷,以項目的內(nèi)容作為衡量投資者興趣的指標(biāo),一定程度上提升了推薦性能,但仍有較大的提升空間。

        表6 各類算法綜合對比結(jié)果Table 6Comprehensive comparison results of various algorithms

        選取兩類網(wǎng)絡(luò)推薦算法進行比較:PersonalRank和基于二分圖的CF,網(wǎng)絡(luò)推薦算法適合對極端稀疏數(shù)據(jù)的處理[7]。本文數(shù)據(jù)稀疏度為96.90%,即在用戶行為矩陣中,約有97%的矩陣元素為空。數(shù)據(jù)集相對稠密,在Kickstarter上全部數(shù)據(jù)的稀疏度約為99.99%[7],數(shù)據(jù)極端稀疏。網(wǎng)絡(luò)推薦算法對極端稀疏數(shù)據(jù)推薦具有一定的效果,但是不適合對較稠密數(shù)據(jù)的處理。

        基于余弦函數(shù)的CF極大提高了推薦性能。例如:當(dāng)列表長度為5時,準(zhǔn)確率達(dá)16.11%,覆蓋率為13.73%,召回率和流行度分別為4.83%和2.971。而當(dāng)列表長度為10時,鄰域數(shù)K=10時,準(zhǔn)確率達(dá)到13.21%。這表明了協(xié)同過濾算法在眾籌項目推薦的優(yōu)勢。當(dāng)采用距離過濾+協(xié)同過濾時,推薦性能進一步提升,召回率和準(zhǔn)確率分別為4.86%和16.21%,這表明考慮項目和投資者之間的距離有利于更加準(zhǔn)確的識別用戶偏好,并準(zhǔn)確推薦眾籌項目。在對距離變量的處理上,采用距離懲罰因子的CF推薦性能最佳,召回率、準(zhǔn)確率、覆蓋率和流行度分別為4.87%、16.24%、13.62%和2.967。因此,在基于本地偏好的眾籌項目個性化推薦中,采用距離懲罰因子的本地偏好算法值得推廣。基于本地偏好的協(xié)同過濾算法在各項指標(biāo)上均優(yōu)于基于位置的推薦、協(xié)同過濾算法、基于內(nèi)容的推薦和網(wǎng)絡(luò)推薦算法,表明了本文提出的方法具有理論價值和實踐意義。

        6 結(jié)論和展望

        本文提出基于本地偏好的協(xié)同過濾算法,并應(yīng)用于眾籌項目的個性化推薦。理論上,改進了互聯(lián)網(wǎng)金融的投資者偏好識別并提升了推薦系統(tǒng)的性能。本文首先識別項目和投資者的地理位置,并轉(zhuǎn)化為經(jīng)緯度,依此計算項目與投資者之間的地理距離。然后,把項目與投資者之間的距離作為計算用戶相似度的一個指標(biāo)。把用戶本地偏好分別用于以下兩種推薦方法:(1)先對用戶進行距離過濾,然后采用協(xié)同過濾算法進行推薦;(2)具有距離懲罰因子的協(xié)同過濾算法。研究表明,考慮本地偏好的推薦算法能提升推薦性能。更進一步,歸一化后的距離懲罰因子設(shè)為0.3時,具有距離懲罰因子的協(xié)同過濾算法能夠獲得最佳推薦性能,超越距離過濾+協(xié)同過濾算法。

        實踐上,眾籌市場空間極大,據(jù)調(diào)查2014年眾籌市場規(guī)模達(dá)到162億美元;2015 年超過340億美元;2016年達(dá)到500億美元[34]。面對如此巨大的市場規(guī)模,準(zhǔn)確把握用戶需求將是促進這一商業(yè)模式可持續(xù)發(fā)展的重要手段。眾籌推薦不同于線下環(huán)境的電影院、咖啡館、餐館等的推薦,因為用戶難以物理地消費遠(yuǎn)距離項目,已有的基于距離的推薦并不適合眾籌融資模式。創(chuàng)業(yè)者在融資階段最大的擔(dān)心來自融資失敗,因為一旦項目融資失敗,創(chuàng)業(yè)者將一無所獲,項目因此不能繼續(xù)下去[35]。對本地資源的偏好是由于經(jīng)濟、文化、傳統(tǒng)、習(xí)俗等多方面因素導(dǎo)致的,創(chuàng)業(yè)者在考慮項目推介時有必要深入分析本地偏好產(chǎn)生的原因,例如:對于食品類眾籌項目的本地偏好可以理解為飲食習(xí)慣的相似性,因此,在項目的推廣階段,對具有相似飲食習(xí)慣的潛在投資者需要重點關(guān)注,考慮本地偏好的協(xié)同過濾算法為提升融資成功率提供了一種手段。

        未來的研究方向有:(1)本文采用球面距離度量用戶距離,事實上,投資者與項目之間的距離分為若干層次,例如:國家級偏好、州省級偏好以及城市級別偏好等,這種層次可以采用“金字塔”模型進行建模[36],從而得到更加細(xì)致的用戶偏好模型;(2)眾籌項目都設(shè)有投資期限,通常是30~60天[37]。在此期限內(nèi),投資者的來源呈現(xiàn)顯著性差異,早期投資者一般是融資者的親朋好友,一方面是因為社會關(guān)系促使這部分投資者在項目初期參與項目投資;另一方面是因為距離較近,投資者更能了解融資者的能力和信用。鑒于投資者參與行為受到時間因素的影響[38],推薦系統(tǒng)可以嘗試考慮這種動態(tài)地理位置變化對推薦性能的影響;(3)眾籌項目分為若干類別,投資者對每個類別的評價標(biāo)準(zhǔn)存在較大的差異。投資者對某些類別(如科技類)的地理位置不敏感;而對另一些類別(如食品類)的地理位置極其敏感。因此,考慮不同項目類別之間的差異在理論上可以提高推薦的準(zhǔn)確率,未來計劃嘗試對不同項目類別進行分組,并比較不同類別下本地偏好對推薦性能的影響。

        猜你喜歡
        懲罰用戶
        神的懲罰
        小讀者(2020年2期)2020-03-12 10:34:06
        懲罰
        趣味(語文)(2018年1期)2018-05-25 03:09:58
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        真正的懲罰等
        Camera360:拍出5億用戶
        100萬用戶
        如何獲取一億海外用戶
        如此懲罰
        久久综合国产乱子伦精品免费| 亚洲熟女熟妇另类中文| 新中文字幕一区二区三区| 末成年女a∨片一区二区| 日本一区二区在线播放| 激性欧美激情在线| 91av手机在线观看| 真人在线射美女视频在线观看| 亚洲香蕉久久一区二区| 久久精品网站免费观看| 国产熟妇另类久久久久| 亚洲男人天堂2019| 中日韩字幕中文字幕一区| 在教室轮流澡到高潮h免费视| 性无码专区无码| 国产啪精品视频网站| 久久99精品中文字幕在| 少妇人妻av一区二区三区| 日本久久精品中文字幕| 中国女人内谢69xxxx免费视频| 99精品视频在线观看免费 | 国产人妻熟女高跟丝袜图片| 日本xxxx色视频在线播放| 久久久久99精品成人片试看| av天堂吧手机版在线观看| 一区二区三区日韩蜜桃| 亚洲 欧美 日韩 国产综合 在线| 欧美婷婷六月丁香综合色| 成人午夜无人区一区二区| 国产亚洲精品视频网站| 欧美肥婆性猛交xxxx| 久久综合精品国产一区二区三区无码| 欧美精品AⅤ在线视频| 在线观看av不卡 一区二区三区| 小说区激情另类春色| 国产精品成人av在线观看| 亚洲av午夜福利精品一区二区| 蜜桃传媒一区二区亚洲av婷婷| 亚洲av成人一区二区三区| 99久久99久久精品免观看| 东风日产车是不是国产的|