亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多子域隨機森林在情境感知推薦中的應(yīng)用研究

        2020-11-18 09:14:50顧曉梅劉子豪
        計算機工程與應(yīng)用 2020年22期
        關(guān)鍵詞:特征情境用戶

        李 凌,顧曉梅,劉子豪

        1.河海大學(xué) 計算機與信息學(xué)院,南京211100

        2.南京師范大學(xué) 外國語學(xué)院,南京210097

        3.江蘇科技大學(xué) 計算機學(xué)院,江蘇 鎮(zhèn)江212003

        1 引言

        移動互聯(lián)網(wǎng)(Mobile Internet)、物聯(lián)網(wǎng)(Internet of Things,IoT)和全球定位系統(tǒng)(Global Positioning System,GPS)等技術(shù)的普及,極大地促進(jìn)了基于位置服務(wù)(Location Based Service,LBS)的發(fā)展,并產(chǎn)生了海量的情境大數(shù)據(jù)[1]。用戶所處的時空信息(Spatio-Temporal Information)中包含了大量的用戶行為習(xí)慣和生活情境信息[2]。因此,人們可以使用數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)從情境信息數(shù)據(jù)中提取出潛在的、有效的、新穎的知識和價值。

        冷啟動和數(shù)據(jù)稀疏是影響推薦系統(tǒng)預(yù)測精度的兩個主要問題,其中冷啟動問題又包括用戶冷啟動、項目冷啟動和系統(tǒng)冷啟動[3]。一方面,情境感知技術(shù)可以改進(jìn)用戶冷啟動問題。用戶冷啟動問題是指新用戶剛進(jìn)入系統(tǒng)的時候,系統(tǒng)內(nèi)沒有該用戶的歷史行為數(shù)據(jù),很難向此用戶推薦偏好的項目[4]。解決用戶冷啟動問題的有效方案之一是將用戶情境信息加入推薦模型中。以物流車輛和貨物之間信息推薦為例,當(dāng)新的司機完成注冊并進(jìn)入系統(tǒng)時,系統(tǒng)沒有該司機的歷史行為數(shù)據(jù),不能根據(jù)歷史數(shù)據(jù)向該司機進(jìn)行貨物推薦。此時,可以根據(jù)物流司機當(dāng)前所處的情境信息進(jìn)行推薦,比如以該司機所在位置為圓點,向他推薦半徑40 km圓內(nèi)的有運輸需求的貨物。另一方面,情境感知也可以改進(jìn)數(shù)據(jù)類別稀疏問題。通過引入情境感知技術(shù)主動獲取用戶與系統(tǒng)交互行為的情境信息,不僅能夠使獲取的用戶信息數(shù)大幅增加,而且使獲取的用戶信息時間分布更合理[5]。用戶信息的獲取和用戶與系統(tǒng)的交互行為直接相關(guān),系統(tǒng)可以實時獲取用戶的當(dāng)前情況,使推薦服務(wù)能夠動態(tài)反映用戶需求的變化情況,改善數(shù)據(jù)稀疏問題。因此,在推薦系統(tǒng)中應(yīng)用情境感知技術(shù)非常必要。

        本文提出一種基于多子域隨機森林算法的情境感知推薦方法。該方法首先對特征重要性按權(quán)值大小進(jìn)行排序,將權(quán)值的取值區(qū)域分為多個大小相等的子區(qū)域,在這些子區(qū)域中隨機選擇特征,構(gòu)造特征子空間來改進(jìn)隨機森林算法;然后通過改進(jìn)的隨機森林算法來分解并降低用戶、項目和情境的特征維度;最后使用協(xié)同過濾推薦算法來進(jìn)行冷鏈物流配載個性化推薦。對LDOS-CoMoDa 和Cycle Share 兩個數(shù)據(jù)集進(jìn)行仿真實驗,結(jié)果表明該方法相比傳統(tǒng)方法平均絕對誤差減少近10%,有效地提高了推薦系統(tǒng)的預(yù)測精度,為情境感知推薦的應(yīng)用提供借鑒。

        2 相關(guān)工作

        目前情境感知推薦方法主要有三類:基于內(nèi)容的情境感知推薦,基于協(xié)同過濾的情境感知推薦,混合式情境感知推薦[6-7]。基于協(xié)同過濾的情境感知推薦將情境信息融入到用戶相似性、項目相似性和模型計算上,以提高推薦精度[8-9]?;趦?nèi)容的情境感知推薦重點考慮用戶偏好、情境信息與項目屬性的匹配度,挖掘用戶在不同情境下對不同項目屬性的偏好,并結(jié)合每個具體項目的屬性描述,發(fā)現(xiàn)用戶、項目、情境之間的匹配程度,從而預(yù)測潛在的情境用戶偏好,最后結(jié)合用戶當(dāng)前情境生成推薦[9]?;旌鲜角榫掣兄扑]將上述多種單一推薦方法混合進(jìn)行推薦,混合的策略主要有加權(quán)、串聯(lián)、混合呈現(xiàn)、特征組合等[10]。上述三類情境感知推薦方法有效地將情境信息應(yīng)用到推薦系統(tǒng),取得了廣泛應(yīng)用,但也存在一些不足,主要體現(xiàn)在:

        (1)目前的研究主要是基于用戶位置的信息推薦,較少有將地理位置與用戶所從事的活動類型這兩方面綜合起來描述情境的特征。

        (2)目前的研究主要將情境感知與個性化推薦結(jié)合時都賦予了情境因素相同的權(quán)重,忽略了用戶在不同的情境下所偏好項目的不同,以及情境因素在推薦過程中所起的影響作用不同。

        近年來,多種包含情境信息的推薦方法被提出,有效地提高了推薦結(jié)果。Wang等人考慮了利用層次結(jié)構(gòu)提高推薦質(zhì)量的問題,提出了一種新的兩階段推薦模型,稱為層次分解機(Hierarchical Factorization Machines,HFM)[11]。Zheng等人[12]提出了屬性和全局增強(Attribute and Global Boosting,AGB)模型來完成情境感知推薦中的評分預(yù)測任務(wù)。該研究的主要結(jié)論是,屬性可以通過局部優(yōu)化和全局優(yōu)化來充分利用。Ren等人[13]提出了一種稱為TGSC-PMF的情境感知概率矩陣分解方法,用于POI(Point-of-Interest)推薦。TGSC-PMF模型利用了文本信息、地理信息、社會信息、分類信息和流行信息,并有效地結(jié)合了這些因素。Hidasi等人[14]提出了一個通用分解框架(General Factorization Framework,GFF),GFF是一種單一的靈活算法,將偏好模型作為輸入維度的輸入和計算的潛在特征矩陣。GFF 無論是對顯式反饋還是隱式反饋,均允許在情境感知的推薦任務(wù)中使用多種線性模型。Alhamid等人[15]提出一種新模型來幫助推薦系統(tǒng)通過整合情境參數(shù)來選擇最適合、最喜歡的或相關(guān)的內(nèi)容。該模型利用社交標(biāo)簽,計算用戶對來自其他相似情境的潛在偏好,以及計算項目來自其他相似情境的潛在偏好。Unger等人[16]提出了一種以環(huán)境特征表示低維無監(jiān)督潛在情境為中心的新方法。他們從移動傳感器中提取大量數(shù)據(jù),以無監(jiān)督的方式推斷用戶的情境。潛在情境被建模為從原始傳感器數(shù)據(jù)有效提取的數(shù)字向量的隱藏情境模式。使用無監(jiān)督深度學(xué)習(xí)和主成分分析(Principal Component Analysis,PCA)技術(shù)從用戶手機收集的數(shù)據(jù)中,為每個用戶自動學(xué)習(xí)潛在情境。候營輝等人[17]將情境感知思想加入到流式應(yīng)用分發(fā)系統(tǒng)中,實現(xiàn)為用戶在不同的情境下提供個性化應(yīng)用推薦。該方法通過采集流式應(yīng)用場景下用戶的情境信息數(shù)據(jù),利用機器學(xué)習(xí)Xgboost算法識別用戶情境活動,并根據(jù)識別的用戶情境來為用戶推薦應(yīng)用。

        3 關(guān)鍵實現(xiàn)

        3.1 基于多子域隨機森林算法

        隨機森林是一種基于隨機決策樹的集成學(xué)習(xí)方式,已被用于處理多種學(xué)習(xí)任務(wù),并取得了很好的效果[18]。隨機森林的總體思想是以隨機的方式建立一個森林,森林里面包含多個決策樹,每一棵決策樹之間沒有關(guān)聯(lián)性。在隨機森林生成后,當(dāng)新的樣本輸入進(jìn)來時,隨機森林讓每一棵決策樹分別對樣本進(jìn)行預(yù)測,然后選擇所有決策樹預(yù)測最多的類別作為新樣本的類別。

        隨機森林的分類準(zhǔn)確率受到?jīng)Q策樹數(shù)目的影響較大,而實際應(yīng)用中考慮到計算代價,樣本集數(shù)目又不宜設(shè)置過大[16]。如果要改善隨機森林在高維數(shù)據(jù)中的問題,需要在樣本集數(shù)目一定的情況下,盡量減少冗余特征帶來的干擾,降低特征子空間的不確定性,讓隨機選取的特征具有更高的代表性。

        標(biāo)準(zhǔn)隨機森林算法通過隨機方法選取特征屬性,在這種情況下,每一個特征被選中的概率是一樣的。而在現(xiàn)實情況中,每一個特征的重要程度并不一樣,對節(jié)點分裂影響也不一樣。如果所有樹均以特征相關(guān)性大小作為參考進(jìn)行特征子空間選取,會出現(xiàn)權(quán)值大的特征總被選中的情況,降低了特征子空間的多樣性,使得被選中的樹具有較高的相關(guān)性,反而降低了模型的泛化能力。為了既能體現(xiàn)被選中樹的特征重要程度,又能保持被選中樹的多樣性,本文提出了一種基于多子域隨機森林算法,總體思路如下:首先選定特征子空間個數(shù)g,不同的數(shù)據(jù)集可以通過實驗確定最優(yōu)的g 值,g 值建議取值范圍是2 ≤g ≤10,較大的g 值表示劃分的特征子空間個數(shù)較多,反而會降低模型精度;然后對特征的重要性進(jìn)行評估,根據(jù)計算的權(quán)值大小重新排序;接著將重新排序后的權(quán)值區(qū)間分為g 個子區(qū)域;最后根據(jù)劃分的子區(qū)域,分別從每個區(qū)域隨機選取特征,構(gòu)造g 個特征子空間。標(biāo)準(zhǔn)隨機森林算法的每棵決策樹的每個節(jié)點分裂依據(jù)是從f 個輸入特征中,隨機挑選fsub個特征(fsub<<f),按照節(jié)點不純度(如Gini不純度)最小原則,從這fsub個特征中選出一個特征作為該節(jié)點的分裂屬性。本文提出的改進(jìn)隨機森林算法中節(jié)點分裂方法與標(biāo)準(zhǔn)隨機森林算法的分裂方法基本原理相同,只是特征選取范圍原來是“從所有輸入特征中隨機選取fsub個特征”改變?yōu)椤皬母鱾€子區(qū)域內(nèi)的多次循環(huán)隨機選取個特征”。

        詳細(xì)的改進(jìn)隨機森林算法步驟如下:

        輸入:包含k 個樣本的原始訓(xùn)練集H ,訓(xùn)練集特征為f 。

        輸出:包含z 棵決策樹的隨機森林。

        步驟1 選取特征子空間個數(shù)g。

        步驟2 對包含k 個樣本的原始訓(xùn)練集H 中的數(shù)據(jù),采取隨機有放回抽樣(Bootstrap 抽樣)抽取樣本,重復(fù)抽樣k 次后形成一個大小相同的新的訓(xùn)練數(shù)據(jù)集(有可能出現(xiàn)重復(fù)的樣本)。

        步驟3 重復(fù)步驟2共z 次,最終形成z 個訓(xùn)練數(shù)據(jù)集。

        步驟4 從z 個訓(xùn)練數(shù)據(jù)集中選取一個數(shù)據(jù)集,以此生成一棵決策樹,該數(shù)據(jù)集將是這棵決策樹的全部訓(xùn)練數(shù)據(jù)。

        步驟5 使用PCA計算各個特征的權(quán)值Fl。

        步驟6 將Fl降序排列,以為邊界,劃分出g 個子區(qū)域分別如式(1)、式(2)和式(3)所示。

        步驟7 按照步驟6 的節(jié)點分裂方法生成整個決策樹。如果某一節(jié)點選出的分裂屬性是剛剛其父節(jié)點分裂時用過的屬性,則該節(jié)點已經(jīng)達(dá)到葉子節(jié)點,無須繼續(xù)分裂了。整個決策樹的形成過程中不進(jìn)行剪枝。

        步驟8 重復(fù)步驟4~步驟7,直到完成對全部z 個訓(xùn)練數(shù)據(jù)集的訓(xùn)練后停止。

        步驟9 輸出包含z 棵決策樹的隨機森林,使用隨機森林對新的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果按照z 棵決策樹的投票結(jié)果決定。

        在標(biāo)準(zhǔn)隨機森林中每一棵決策樹模型的訓(xùn)練均是采用隨機有放回抽樣方法(Bootstrap抽樣)抽取樣本,這樣使得每一棵決策樹模型的訓(xùn)練樣本不完全相同,每一棵決策樹模型都存在一些樣本不在該模型的訓(xùn)練集中的情況,這些沒有被抽中的樣本可以作為該決策樹模型的測試集樣本。在構(gòu)造每一棵決策樹模型的過程中并沒有使用全部的特征變量,而是隨機地從全部特征中抽取一個子集來訓(xùn)練模型,從而使得每一棵決策樹的訓(xùn)練選取的樣本不完全一樣,選取的特征變量也不完全一樣,保證了隨機森林中多棵決策樹模型的多樣性。本文提出的多子域隨機森林算法中每一棵決策樹的訓(xùn)練樣本選取與標(biāo)準(zhǔn)隨機森林中決策樹一致,也是采用Bootstrap 抽樣方法抽取樣本,使得每一棵決策樹模型的訓(xùn)練樣本不完全相同,每一棵決策樹模型都存在一些樣本不在該模型的訓(xùn)練集中的情況,那些沒有被抽中的樣本作為該決策樹模型的測試集樣本。另外,本文提出的多子域隨機森林算法中特征變量的選取方法是先計算各個特征的權(quán)值并按照權(quán)值大小排序,然后以為邊界,劃分出g 個子區(qū)域,特征選取時分別從g 個子區(qū)域內(nèi)多次循環(huán)隨機選取特征,每個特征被選中的概率也是一樣的,保證了特征的多樣性。圖1為標(biāo)準(zhǔn)隨機森林子樹選取分裂特征過程示意圖,圖2為本文提出的多子域隨機森林子樹選取分裂特征過程示意圖。

        圖1 標(biāo)準(zhǔn)隨機森林子樹選取分裂特征過程示意圖

        圖2 多子域隨機森林子樹選取分裂特征過程示意圖

        3.2 基于多子域隨機森林的情境感知推薦方法

        本文提出的基于多子域隨機森林的情境感知推薦方法模型包括三個主要過程:初始化用戶偏好,計算用戶偏好權(quán)重,預(yù)測用戶偏好。推薦過程如圖3所示。

        圖3 基于多子域隨機森林算法的情境感知推薦過程

        3.2.1 初始化用戶偏好

        流程開始時,首先輸入包含用戶、項目、情境和評分信息的歷史數(shù)據(jù)集H=(U,I,C,R) 。初始化用戶偏好時的情境可以看作是靜態(tài)變量,此時可以只考慮用戶和項目兩個維度。

        用戶可以對項目信息進(jìn)行查看、發(fā)布、轉(zhuǎn)發(fā)和點贊四種瀏覽行為。如果用戶對某一頁面查看次數(shù)較多,表示用戶對該頁面的信息內(nèi)容比較關(guān)注,即對該項目偏好度較高。用戶對某一項目的“查看”“評論”“轉(zhuǎn)發(fā)”“點贊”的單次行為可以設(shè)置為1 分;“發(fā)布”“查看+評論”“查看+轉(zhuǎn)發(fā)”“查看+點贊”可以設(shè)置為2 分;“查看+評論+轉(zhuǎn)發(fā)”“查看+評論+點贊”“查看+轉(zhuǎn)發(fā)+點贊”可以設(shè)置為3 分;“查看+評論+轉(zhuǎn)發(fā)+點贊”可以設(shè)置為4 分。使用節(jié)點中心度來衡量節(jié)點在預(yù)測模型中的重要程度,可以通過計算某節(jié)點入度數(shù)與其他節(jié)點總數(shù)的比值來進(jìn)行定義:D( u,i,c )=InD( u,i,c )/( M-1) 。綜合用戶興趣評分和節(jié)點中心度兩方面,用戶偏好初始值如式(6)所示。

        其中,P( u,i,c )為用戶對偏好項目的初始評分,L( u,i,c)為用戶在Web 頁面或者移動APP 中對項目的瀏覽行為評分,D( u,i,c )為項目在模型中的重要程度,α 為調(diào)節(jié)參數(shù)。

        3.2.2 計算用戶偏好權(quán)重

        用戶偏好權(quán)重的計算是系統(tǒng)個性化推薦過程中的重要步驟,不僅需要對傳統(tǒng)推薦系統(tǒng)中的用戶和項目進(jìn)行考慮,還需要對實時動態(tài)變化的情境信息進(jìn)行考慮。由于用戶、項目、情境這三個維度的特征較多,本文提出的方法采用改進(jìn)隨機森林算法進(jìn)行特征選擇,經(jīng)過特征選擇后的模型具有較少的計算量,可以用G′=(U′,I′,E′)表示。該方法借鑒了混合推薦的思想,使用協(xié)同過濾方法處理用戶-用戶的相似度,使用內(nèi)容過濾方法處理項目-項目的相似度。使用協(xié)同過濾方法處理用戶-用戶之間相似度的原因是根據(jù)用戶對項目的偏好,發(fā)現(xiàn)與當(dāng)前用戶偏好相似的“鄰居”用戶群,再基于這些鄰居用戶群的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。使用內(nèi)容過濾方法處理項目-項目之間相似度的原因是根據(jù)推薦項目的元數(shù)據(jù),發(fā)現(xiàn)項目之間的相關(guān)性,然后基于用戶以往的喜好記錄,推薦給用戶相似的項目。最后得到與目標(biāo)用戶相似的其他用戶偏好項的權(quán)重Wu′,i′,c′=Sim(( u′x,i′x,c′x),( u′y,i′y,c′y))。該權(quán)重可看成是空間中任意兩個小立方體之間的距離,即點A( u′x,i′x,c′x)和點B( u′y,i′y,c′y)之間的距離。權(quán)重的大小與兩個小立方體之間的距離成反比,同時該權(quán)重在推薦系統(tǒng)也表示用戶之間、項目之間、情境之間的相似度,因此相似度也與兩個小立方體之間的距離成反比,相似度公式如式(7)所示。

        常用的用戶偏好的權(quán)重度量方法有歐幾里德距離(Euclidean Distance)、閔科夫斯基距離(Minkowski Distance)、馬氏距離(Mahalanobis Distance)等,其中歐幾里德距離是最簡單、最易理解的度量方法[19]。本文選取歐幾里德距離測度用戶偏好的權(quán)重,歐幾里德距離如式(8)所示。

        由于向量之間距離越大表示用戶之間、項目之間或者情境之間的相似度越低,可以用余弦相似度的倒數(shù)來表達(dá)用戶之間、項目之間或者情境之間的距離:

        本章提出方法中的用戶相似度Sim(u′x,u′y)基于不同用戶對相同項目具有交叉的瀏覽行為(查看、發(fā)布、轉(zhuǎn)發(fā)和點贊),即,用戶可以用向量u′=( r′1,r′2,…,r′n)表示,其中r′n表示用戶瀏覽過的項目的得分。項目相似度Sim( i′x,i′y)是基于兩個項目存在被同一用戶瀏覽的情況,即,項目可以用向量i′=(1 ,0,1,…,q )表示,q 表示該項目是否被用戶點擊過,1表示被點擊過,0表示未被點擊過。情境相似度Sim(c′x,c′y)采用基于內(nèi)容過濾的方法,使用向量來表示情境信息的內(nèi)容,如使用c=( time,position,emotion )來表示時間、位置和情感。如果用戶情境信息相同,則直接采用傳統(tǒng)的二維推薦模型進(jìn)行推薦。最終的權(quán)重如式(10)所示。

        3.2.3 預(yù)測用戶偏好

        對于由用戶、項目、情境組成的記錄,偏好信息的預(yù)測如式(11)所示。

        給定目標(biāo)用戶u′ ,向u′ 推薦的項目評分如式(12)所示。

        采用協(xié)同過濾推薦的思想,向目標(biāo)用戶推薦與其情境相似的其他用戶偏好的項目,可以將式(12)轉(zhuǎn)換為式(13)。

        式(13)中的ru′x,i′x,c′x為在c′x情境下,用戶u′x對項目i′x的評分。如式(10)所示。k 為調(diào)節(jié)因子,一般k 的取值為:

        由上文可知

        與相似度成正比例。最后,將預(yù)測評分較高的Top- N個項目Irec={i ′r1,i′r2,…,i′rn} 推薦給目標(biāo)用戶,其中r1>r2>…>rn。

        3.2.4 算法詳細(xì)步驟

        輸入:原始訓(xùn)練集H(包含用戶、項目、情境、評分)。

        輸出:推薦的項目Irec。

        步驟1 初始化用戶偏好模型G=(U,I,E )。

        步驟2 用戶偏好初始值:

        步驟3 使用多子域隨機森林算法對用戶特征進(jìn)行選擇,得到U′。

        步驟4 使用多子域隨機森林算法對項目特征進(jìn)行選擇,得到I′。

        步驟5 使用多子域隨機森林算法對情境特征進(jìn)行選擇,得到C′。

        步驟6 經(jīng)過特征選擇后的模型G′=(U′,I′,E′)。

        步驟7 計算兩兩用戶之間的相似度:

        步驟8 計算兩兩情境之間的相似度:

        步驟9 如果sim(u′x,u′y)>m 或者sim(c′x,c′y)>m,則G′=G′?{( u′y,c′y,i′y,ry)},否則G′=G′?φ。

        步驟10 重復(fù)步驟7~步驟10共N 次。

        步驟11 對( u′y,c′y,i′y,ry)∈G′ 中的每一個(u′y,c′y,i′y,ry),計算預(yù)測評分:

        步驟12 將預(yù)測評分較高的Top- N 個項目Irec={i ′r1,i′r2,…,i′rn} 推薦給目標(biāo)用戶,其中r1>r2>…>rn。

        4 實驗與結(jié)果分析

        4.1 實驗數(shù)據(jù)集

        本文選取LDOS-CoMoDa 數(shù)據(jù)集[20]和Cycle Share數(shù)據(jù)集[21]參與實驗。LDOS-CoMoDa數(shù)據(jù)集包含了121個用戶對1 232部電影的2 296條評分?jǐn)?shù)據(jù),評分的取值區(qū)間為1~5,5表示最喜歡,1表示最不喜歡,用戶通過評分的數(shù)值表達(dá)了自己的興趣愛好。該數(shù)據(jù)集除了用戶和項目之外,還包含30 個變量,其中有12 個是情境變量,分別為time、daytype、season、location、weather、social、end Emo、dominant Emo、mood、physical、decision、interaction。Cycle Share數(shù)據(jù)集包括了美國西雅圖市500輛共享單車在54 個站點之間的140 000 條數(shù)據(jù),每一行數(shù)據(jù)表示了某一用戶某次騎行記錄。該數(shù)據(jù)集包含了41 個變量,其中有27 個是情境變量,主要包括start time、stop time、from station name、to station name、date、min/mean/max temperature、min/mean/max dew point、min/mean/max humidity、min/mean/max sea level press、min/mean/max visibility miles、min/mean/max wind speed等。

        4.2 評價指標(biāo)

        實驗選取推薦系統(tǒng)中兩種常用的預(yù)測指標(biāo)來評估推薦模型的預(yù)測準(zhǔn)確性:平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE)。MAE通過計算推薦項目的預(yù)測評分與實際評分之間的平均絕對誤差來衡量推薦模型的預(yù)測準(zhǔn)確度,MAE 的定義如式(14)所示。MAE 值越小表示推薦系統(tǒng)的推薦精度越高,相反,MAE值越大表示推薦系統(tǒng)的推薦精度越低。RMSE 通過計算推薦項目的預(yù)測評分與實際評分之間的偏差平方和與項目數(shù)N 比值的平方根來評估推薦模型的性能,RMSE 的定義如式(15)所示。RMSE 值越小表示推薦系統(tǒng)的推薦精度越高,相反,RMSE值越大表示推薦系統(tǒng)的推薦精度越低。

        其中,r′i′表示預(yù)測評分,r′i′表示真實評分,N 表示項目數(shù)。

        4.3 實驗數(shù)據(jù)集

        實驗中選擇不同的參數(shù)會產(chǎn)生不同的實驗結(jié)果。為了取得較好的實驗結(jié)果,需要確定子區(qū)域大小g 、樣本集采樣率、特征向量維數(shù)Dim 。為了方便對比和討論,將本文所提方法簡稱為CRMMRF(Context-aware Recommendation Method based on Multi-subdomain Random Forest)。實驗中,選擇MF[22]和CRMMRF作為確定參數(shù)設(shè)置的方法。

        (1)確定特征子空間個數(shù)g。在確定LDOS-CoMoDa數(shù)據(jù)集和Cycle Share 數(shù)據(jù)集合適的特征子空間個數(shù)g前,先設(shè)定樣本集采樣率取值0.6,特征向量維度Dim取值10 和20。特征子空間個數(shù)g 分別取2,3,4,5,6。LDOS-CoMoDa 數(shù)據(jù)集和Cycle Share 數(shù)據(jù)集的子區(qū)域大小的選取如圖4和圖5所示。從圖4可以看出,LDOSCoMoDa 數(shù)據(jù)集最好的特征子空間個數(shù)g 為3,然后依次為4、2、5、6和7。從圖5可以看出,Cycle Share數(shù)據(jù)集最好的特征子空間個數(shù)g 為4,然后依次為3、5、2、6和7。

        (2)選擇樣本集采樣率。在確定LDOS-CoMoDa數(shù)據(jù)集和Cycle Share 數(shù)據(jù)集合適的樣本采樣率前,設(shè)定特征向量維度Dim 取值10 和20。樣本集采樣率分別取0.3,0.4,0.5,0.6,0.7,0.8。LDOS-CoMoDa 數(shù)據(jù)集和Cycle Share 數(shù)據(jù)集的樣本采樣率的選取如圖6 和圖7所示。從圖6 可以看出,LDOS-CoMoDa 數(shù)據(jù)集最好的樣本集采樣率為0.6,然后依次為0.7、0.5、0.8、0.4 和0.3。從圖7 可以看出,Cycle Share 數(shù)據(jù)集最好的樣本集采樣率為0.6,然后依次為0.7、0.8、0.5、0.4 和0.3。在兩個數(shù)據(jù)集中,在采樣率低于0.6 時,MAE 值和RMSE值隨采樣率增長而降低,但當(dāng)采樣率高于0.6 時,MAE值和RMSE 值隨采樣率增加而增加。這個現(xiàn)象表明了當(dāng)采樣率高于0.6時,產(chǎn)生了過擬合現(xiàn)象。

        圖4 選取LDOS-CoMoDa特征子空間個數(shù)g

        圖5 選取Cycle Share特征子空間個數(shù)g

        圖6 選取LDOS-CoMoDa樣本集采樣率

        圖7 選取Cycle Share樣本集采樣率

        (3)選擇特征向量維數(shù)Dim。LDOS-CoMoDa數(shù)據(jù)集包含30 個特征向量的維度,Cycle Share 數(shù)據(jù)集包含41個特征向量的維度。本文通過PCA來計算每個特征的貢獻(xiàn)實現(xiàn)特征向量維數(shù)的降低。選擇總貢獻(xiàn)率的80%特征向量參與實驗。圖8為LDOS-CoMoDa數(shù)據(jù)集每個特征的貢獻(xiàn)率以及總貢獻(xiàn)率為80%的特征向量,圖9 顯示了Cycle Share 數(shù)據(jù)集每個特征的貢獻(xiàn)率以及總貢獻(xiàn)率為80%的特征向量。從圖8 可以看出,LDOSCoMoDa數(shù)據(jù)集前80%貢獻(xiàn)率的12個屬性分別為country、city、budget、age、genre1、movieCountry、actor3、dominantEmo、interaction、location、social 和endEmo。從圖9可以看出,Cycle Share 數(shù)據(jù)集前80%貢獻(xiàn)率的22 個屬性分別為Max_Temperature_F、Mean_Temperature_F、Min_Temperature_F、Max_Dew_Point_F、MeanDew_Point_F、Min_Dewpoint_F、Max_Sea_Level_Pressure_In、Mean_Sea_Level_Pressure_In、Min_Sea_Level_Pressure_In、Max_Humidity、Mean_Humidity、Min_Humidity、trip_id、Precipitation_In、Mean_Wind_Speed_MPH、Max_Wind_Speed_MPH、to_latitude、to_longitude、from_latitude、Mean_Visibility_Miles、Min_Visibility_Miles 和sto_current_dockcount。

        4.4 對比實驗及結(jié)果分析

        實驗選用基于用戶最近鄰?fù)扑](User-based Nearest Neighbor Recommendation,UserNNR)[23]、基于項目最近鄰?fù)扑](Item-based Nearest Neighbor Recommendation,ItemNNR)[24]、HF[11]、GFF[14]和矩陣分解推薦(Matrix Factorization,MF)[22]作為參比方法。上述所有方法的默認(rèn)參數(shù)均設(shè)置為文獻(xiàn)中提到的最優(yōu)值。

        圖8 LDOS-CoMoDa數(shù)據(jù)集特征維度影響

        圖9 Cycle Share數(shù)據(jù)集特征維度影響

        為了使實驗具有更好的代表性,對比實驗中訓(xùn)練數(shù)據(jù)集選取0.4、0.5、0.6 和0.7 四種樣本采樣率,特征維度Dim 分別取12和22兩種維度。

        由不同參數(shù)組合構(gòu)成的實驗重復(fù)進(jìn)行5次,實驗結(jié)果取這5 次的平均值。實驗中LDOS-CoMoDa 數(shù)據(jù)集的比較實驗如圖10 所示,具體數(shù)值如表1 所示。Cycle Share 數(shù)據(jù)集的比較實驗如圖11 所示,具體數(shù)值如表2所示。表3 為CRMMRF 方法與其他5 種方法的MAE和RMSE值的平均降低百分比。

        從圖10、圖11和表1、表2中可以看出,CRMMRF在忽略條件偏好的情況下,在兩個實驗數(shù)據(jù)集中,預(yù)測結(jié)果均優(yōu)于UserNNR、ItemNNR、MF、HFM 和GFF,表現(xiàn)出較好的預(yù)測準(zhǔn)確度和泛化能力。從表3 中還可以看出,CRMMRF 與其他參比方法的MAE 和RMSE 值,在LDOS-CoMoDa數(shù)據(jù)集上平均減少了11.17%~14.29%和10.87%~18.28%,在Cycle Share 數(shù)據(jù)集上平均減少了2.48%~16.83%和1.96%~9.42%。

        圖10 LDOS-CoMoDa數(shù)據(jù)集比較實驗(Dim=12)

        表1 LDOS-CoMoDa數(shù)據(jù)集比較實驗中的MAE值和RMSE值

        圖11 Cycle Share數(shù)據(jù)集比較實驗(Dim=22)

        表2 Cycle Share數(shù)據(jù)集比較實驗中的MAE值和RMSE值

        表3 MAE和RMSE平均降低百分比 %

        5 結(jié)束語

        本文提出了一種基于多子域隨機森林算法的情境感知推薦方法。該方法首先對特征重要性按權(quán)值大小進(jìn)行排序,將權(quán)值的取值區(qū)域分為多個大小相等的子區(qū)域,在這些子區(qū)域中隨機選擇特征,構(gòu)造特征子空間來改進(jìn)隨機森林算法。然后,通過改進(jìn)隨機森林算法來分解并降低用戶、項目和情境的特征維度。最后,使用基于內(nèi)容的情境表示和協(xié)同過濾推薦的思想來預(yù)測用戶偏好,將預(yù)測評分較高的Top- N 項目推薦給用戶。實驗結(jié)果表明,該方法有效提高了推薦準(zhǔn)確度,為情境感知推薦系統(tǒng)的應(yīng)用提供借鑒。

        猜你喜歡
        特征情境用戶
        情境引領(lǐng)追問促深
        不同情境中的水
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        護(hù)患情境會話
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        特定情境,感人至深
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        国产国语按摩对白av在线观看| 无码孕妇孕交在线观看| 亚洲国产一二三精品无码| 中文无码一区二区不卡αv| 精品国产高清一区二区广区| 亚洲综合一| 亚洲av熟女少妇一区二区三区| 东北少妇不戴套对白第一次| 日日猛噜噜狠狠扒开双腿小说 | 亚洲va中文字幕欧美不卡| 97超碰国产一区二区三区| 91丝袜美腿亚洲一区二区| 色五月丁香五月综合五月| 双腿张开被9个男人调教| 国产精品乱码在线观看| 亚洲熟妇一区无码| 久久婷婷夜色精品国产| 日本精品一区二区三区二人码 | 中日韩字幕中文字幕一区| 亚洲中文字幕九色日本| 成年女人粗暴毛片免费观看| 在线免费毛片| 在线无码精品秘 在线观看| 日韩精品一区二区三区含羞含羞草| 中文字幕人妻饥渴浪妇| 激情综合一区二区三区| 亚色中文字幕| 全程国语对白资源在线观看| 国产亚洲精品美女久久久久| 欧美大黑帍在线播放| 国产三级精品美女三级| 小池里奈第一部av在线观看 | 成年女人粗暴毛片免费观看| 欧美精品久久久久久久久| 日本伦理美乳中文字幕| 国产av无码专区亚洲精品| 久久久久亚洲av无码专区体验| 国产无遮挡又黄又爽无VIP| 高清日韩av在线免费观看| 中文字幕v亚洲日本| 老熟女熟妇嗷嗷叫91|