劉平峰,朱孔真,楊 柳,李 偉
(1.武漢理工大學(xué)經(jīng)濟學(xué)院,湖北 武漢 430070;2.福建新奇特車業(yè)服務(wù)股份有限公司上海分公司,上海 201824)
近年來互聯(lián)網(wǎng)數(shù)據(jù)海量增長,個性化推薦成為當(dāng)前解決信息過載的最有效手段之一,是學(xué)術(shù)界和電子商務(wù)界關(guān)注的熱點[1]。盡管現(xiàn)有的推薦系統(tǒng)已經(jīng)在電子商務(wù)等領(lǐng)域取得了巨大的成功,但與激烈的市場競爭下企業(yè)的需求相差甚遠,如Netflix每年開出100萬美元的獎金,用以獎勵能把他們網(wǎng)上產(chǎn)品推薦精確度提高10%的人。
現(xiàn)有推薦算法研究大多是基于顧客的特征或購買記錄進行的,推薦算法仍存在冷啟動、稀疏性、精度和多樣性等問題。隨著Web2.0、社交網(wǎng)絡(luò)、大數(shù)據(jù)和云計算技術(shù)的發(fā)展,使網(wǎng)絡(luò)購物用戶能夠通過更多的渠道(包括網(wǎng)絡(luò)購物網(wǎng)站、博客、論壇等)發(fā)表有價值的評論信息[2],這些評論所表達的意見和情感,將成為潛在顧客進行購物選擇時的重要參考指標(biāo)。除此之外,用戶在網(wǎng)絡(luò)購物環(huán)境下的各種行為信息也會反映出其本身的個性化信息,對其進行正確地分析和有效地應(yīng)對,對于網(wǎng)絡(luò)購物網(wǎng)站的發(fā)展具有至關(guān)重要的意義。基于興趣圖譜的推薦理論為推薦系統(tǒng)質(zhì)的突破帶來希望,它依據(jù)用戶所關(guān)注的訂閱(如在Twitter上)、購買的商品(如在Amazon上)、評級(如在視頻網(wǎng)站Netflix上)、運行的搜索(如在Google上)或者某些口味的評論(如在Hunch上)整合生成興趣圖譜,基于用戶興趣的相似性向目標(biāo)用戶進行高效推薦,這在很大程度上可以解決其他用戶模型的數(shù)據(jù)稀疏性和冷啟動問題,更能提供多樣性推薦。因此引入用戶興趣的概念進行推薦是十分必要的[3]。
基于興趣圖譜的推薦也由此成為近年來的一個研究熱點。不同于表示人與人之間關(guān)系的社交圖譜,興趣圖譜關(guān)心的是事物而不是人,此外社交圖譜基本是靜態(tài)的(除了偶爾結(jié)交朋友和刪除朋友),而興趣圖譜對單個用戶是靈活、動態(tài)、易變的。興趣圖譜的涵義有兩點:①標(biāo)識個人身份的特定、多樣的興趣;②試圖基于這些興趣將其連接起來。艾森哲公司認為,可以通過獲取用戶在不同網(wǎng)站的興趣來進行推薦,如知道用戶愛好郊游和滑雪、偏愛勞力士手表、購買過平板電腦時,可以向其推薦豪華帶液晶屏的越野車[4]。建立用戶興趣圖譜是實現(xiàn)智能代理與主動服務(wù)的基礎(chǔ),在這之前要對用戶的閱讀興趣有相當(dāng)?shù)牧私?,并由此建立用戶的描述模型?]。加州大學(xué)東灣分校的LYNNE提出了興趣圖譜構(gòu)建方法,包括興趣選擇、興趣分類、基于社交網(wǎng)站和其他物理數(shù)據(jù)的收集以及興趣集成問題[6]。愛爾蘭國立高威大學(xué)數(shù)字企業(yè)研究中心(DERI)提出跨網(wǎng)站基于語義的用戶興趣圖譜建模設(shè)想[7],他們通過將在私有網(wǎng)站分享的用戶信息進行整合,獲取用戶完整興趣圖譜[8],并采用混合鏈路預(yù)測和基于內(nèi)容的擴散激活方法進行推薦[9]。BERKOVSKY等提出一種通用用戶興趣模型集成仲裁框架,利用從其他推薦系統(tǒng)獲取的數(shù)據(jù)構(gòu)建融合的用戶模型,即使某些源數(shù)據(jù)缺失,仍然可以實現(xiàn)較好的推薦效果[10]。企業(yè)界已開始興趣圖譜的嘗試,Gravity公司通過自己開發(fā)的興趣圖譜技術(shù),同時為多家網(wǎng)站服務(wù),它能跟蹤用戶在其所有服務(wù)網(wǎng)站的行為,通過對閱讀歷史、興趣的分析,形成一個興趣圖譜,向出版商(內(nèi)容提供商)和廣告商提供新聞個性化服務(wù)。國內(nèi)的社交網(wǎng)站如騰訊也提供了興趣圖譜的開發(fā)接口API(http://wiki.open.t.qq.com),對外提供多種興趣相關(guān)信息,如一鍵轉(zhuǎn)播熱門排行、同話題熱門轉(zhuǎn)播排行和通過標(biāo)簽搜索用戶等。
結(jié)合興趣圖譜理論、本體理論、云計算技術(shù)和電子商務(wù)推薦技術(shù),筆者設(shè)計了基于興趣圖譜的電子商務(wù)智能推薦系統(tǒng)(interest graph based recommendation system,IGRS),可以滿足海量數(shù)據(jù)環(huán)境下商品有效獲取、聚合和智能推薦要求,并提高電子商務(wù)推薦系統(tǒng)的規(guī)模、質(zhì)量和實時性。
IGRS以用戶興趣圖譜為依據(jù),先推薦商品概念,再根據(jù)用戶的偏好推薦具體的商品實例,以實現(xiàn)高效率和精確性的推薦。通過構(gòu)建含權(quán)的用戶-興趣-商品概念三部圖,計算用戶語義相似度以生成用戶候選興趣集,然后采用貝葉斯分類算法基于興趣-商品概念的二維矩陣向目標(biāo)用戶推薦商品概念集。再從用戶偏好數(shù)據(jù)庫取得用戶對該商品概念集的屬性偏好,并通過不同的推薦算法向用戶推薦符合其興趣及商品屬性偏好的商品實例。
IGRS由以下4個子系統(tǒng)和一個接口層組成,如圖1所示。
圖1 基于用戶興趣圖譜的個性化推薦系統(tǒng)結(jié)構(gòu)
(1)外部接口層。外部接口層可實現(xiàn)基于用戶興趣圖譜的個性化推薦服務(wù)器與用戶的交互;提供興趣圖譜本體庫和各數(shù)據(jù)庫的管理界面;提供與云資源調(diào)度子系統(tǒng)的接口。
(2)基于用戶興趣圖譜的個性化推薦子系統(tǒng)。該子系統(tǒng)提供用戶興趣圖譜解析器、相似度及權(quán)值計算器、三部圖構(gòu)建器、用戶偏好挖掘器、情境感知接收器、個性化推薦引擎和3個推薦模塊。用戶興趣圖譜解析器用于根據(jù)已建立的用戶興趣圖譜庫對用戶興趣圖譜進行解析;相似度及權(quán)值計算器用于計算基于興趣的用戶相似性,以及用戶、興趣和商品重要性權(quán)值;三部圖構(gòu)建器用于構(gòu)建用戶-興趣-商品概念之間的三部圖;用戶偏好挖掘器用來挖掘用戶對商品的屬性偏好,為商品實例推薦提供基礎(chǔ)數(shù)據(jù);情境感知接收器則用于感知用戶當(dāng)前所處情境,用于對推薦結(jié)果進行過濾。3個模塊包括:基于用戶興趣圖譜的商品概念推薦模塊、基于用戶偏好的商品實例推薦模塊和滿足用戶動態(tài)需求的推薦模塊。個性化推薦引擎則根據(jù)來源數(shù)據(jù),采用各種處理技術(shù)和推薦模塊功能,為用戶推薦基于其興趣圖譜的商品。
(3)用戶興趣圖譜生成子系統(tǒng)。該子系統(tǒng)負責(zé)用戶全網(wǎng)數(shù)據(jù)的獲取、用戶興趣的抽取、局部興趣圖譜的生成、全局興趣圖譜的集成,以及興趣圖譜的優(yōu)化。系統(tǒng)根據(jù)社交網(wǎng)站、社會化標(biāo)簽網(wǎng)站、購物網(wǎng)站和關(guān)聯(lián)數(shù)據(jù)云LDB等站點提供的API接口開發(fā)對應(yīng)適配器,獲取相關(guān)數(shù)據(jù)集,并從中抽取能夠表示用戶興趣的數(shù)據(jù)(如基本信息、商品、愛好、標(biāo)簽、屬性、情境感知等)。根據(jù)不同數(shù)據(jù)源生成局部興趣圖譜,并利用集成技術(shù)實現(xiàn)全局興趣圖譜的集成,形成每個用戶自己個性化的興趣圖譜。系統(tǒng)在運行過程中不斷地基于情境感知來動態(tài)獲取用戶興趣,以不斷完善用戶興趣圖譜。
(4)用戶興趣圖譜動態(tài)演化與反饋子系統(tǒng)。該子系統(tǒng)包括興趣動態(tài)演化模塊、興趣采納模塊和興趣圖譜進化模塊。興趣動態(tài)演化模塊采用基于時間序列預(yù)測、圖結(jié)構(gòu)鏈路預(yù)測和基于興趣社區(qū)的技術(shù),實現(xiàn)用戶興趣圖譜的動態(tài)演化過程;興趣采納模塊通過建立定性模擬模型來進行研究;興趣圖譜進化模塊通過基于用戶興趣采納和商品購買行為的反饋機制來進行。
(5)云計算資源調(diào)度子系統(tǒng)。該子系統(tǒng)主要執(zhí)行對混合云平臺的資源調(diào)度管理。云平臺由IaaS層和PaaS層構(gòu)成,系統(tǒng)通過對Openstack、amazon的EC2和S3、Google的GFS進行調(diào)研,選取合適方案,以Hadoop為分布式架構(gòu)基礎(chǔ)構(gòu)建混合云平臺,并開發(fā)云計算資源調(diào)度子系統(tǒng)用于資源管理、資源分配、監(jiān)控管理、備份管理和安全管理。在PaaS層設(shè)置數(shù)據(jù)云層,用于存儲社交網(wǎng)站云、交易數(shù)據(jù)云、興趣圖譜庫云和本體庫云等,為上層用戶興趣圖譜挖掘以及推薦系統(tǒng)提供基于云計算的數(shù)據(jù)。
用戶興趣圖譜生成與集成方法如圖2所示。首先建立興趣領(lǐng)域本體,通過從數(shù)據(jù)庫、結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中獲取用戶感興趣的興趣概念,包括相似、相關(guān)、上下位興趣概念識別等,實現(xiàn)用戶在興趣領(lǐng)域本體中的概念匹配與定位。興趣本體用io表示;然后,基于社交網(wǎng)站、社會化標(biāo)簽、關(guān)聯(lián)數(shù)據(jù)云LDB,以及電子商務(wù)購物網(wǎng)站中大量存在的用戶信息挖掘出用戶感興趣的興趣概念,用ic表示,將其與用戶興趣領(lǐng)域本體中的概念進行映射,并且采用語義和語法分析以及統(tǒng)計和模糊數(shù)學(xué)等方法,計算用戶對某興趣概念的感興趣程度,即興趣權(quán)重,用iw表示;集合IC={ic1,ic2,…,icn}為不同網(wǎng)站的興趣概念集成結(jié)果,IR={ir1,ir2,…,irn}為不同網(wǎng)站的興趣關(guān)系集成結(jié)果,IW={iw1,iw2,…,iwn}為與相關(guān)興趣概念對應(yīng)的興趣度權(quán)重;最終依據(jù)得到的不同網(wǎng)站的興趣概念、興趣關(guān)系、興趣度權(quán)重和規(guī)則生成全網(wǎng)數(shù)據(jù)的用戶興趣圖譜,表示為{IC,IR,IW}。
用戶興趣并不是一成不變的,針對其演化過程,提出了用戶興趣圖譜動態(tài)演化與反饋機制技術(shù)原理。首先,基于用戶興趣圖譜構(gòu)造用戶-興趣二部圖,借鑒復(fù)雜網(wǎng)絡(luò)圖結(jié)構(gòu)鏈路預(yù)測等方法,向用戶推薦或預(yù)測新的興趣icnew。然后,建立定性模擬模型研究興趣采納過程,通過反饋機制生成用戶興趣圖譜中的興趣度權(quán)重iw。最后,按照用戶-興趣-商品概念三部圖,提取用戶對預(yù)測或推薦興趣相關(guān)的商品的購買、瀏覽等行為,反映用戶對預(yù)測或推薦興趣的接納程度,即建立商品-興趣-用戶的二次反饋機制。
大數(shù)據(jù)時代的到來使得數(shù)據(jù)從一種簡單的處理對象轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,高效的電子商務(wù)推薦系統(tǒng)能夠為企業(yè)帶來客戶,實現(xiàn)利潤增長?;谟脩襞d趣圖譜的電子商務(wù)推薦系統(tǒng)能夠集成網(wǎng)絡(luò)上用戶的數(shù)據(jù),全面挖掘用戶興趣,為用戶提供個性化的推薦,解決傳統(tǒng)推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題、冷啟動問題,提高推薦系統(tǒng)的推薦質(zhì)量和精度。
圖2 用戶興趣圖譜生成與集成方法
[1]JOSEPH A K,JOHN R.Recommender systems:from algorithms to user experience[J].User Modeling and User-adapted Interaction,2012(22):101-123.
[2]CHRYSANTHOS D,GAO G D,RITU N.Are customer more likely to contribute online reviews for hit or niche products?[J].Journal of Management Information System,2010,27(2):127-158.
[3]聶規(guī)劃,徐尚英,陳冬林.基于用戶興趣度的電子目錄個性化方法[J].情報雜志,2011,30(11):146-151.
[4]YILDIZ E.Accenture an interest-based approach for content personalization[DB/OL].[2013-12-24].www.a(chǎn)ccenture.com/.../Accenture-Interestbased-Approach.
[5]馬建國,邢玲,李幼平.廣播型網(wǎng)格的用戶興趣圖譜[J].電子學(xué)報,2005,33(1):142-146.
[6]LYNNE G.The interest graph architecture-social modeling and information fusion[C]∥Proc of SPIE.[S.l.]:[s.n.],2012:1-46.
[7]FABRIZIO O.Multi-source provenance-aware user interest profiling on the social semantic Web[C]∥20th International Conference on User Modeling,Adaptation and Personalization,LNCS 7379.[S.l.]:[s.n.],2012:378-381.
[8]BENJAMIN H.An open framework for multi-source,cross-domain personalisation with semantic interest graphs[C]∥ACM Recommender Systems.Dublin:[s.n.],2012:313-316.
[9]BENJAMIN H,MACIEJ D.Personalisation of social web services in the enterprise using spreading activation for multi-source,cross-domain recommendations[C]∥Association for the Advancement of Artificial Intelligence.[S.l.]:[s.n.],2012:46-51.
[10]BERKOVSKY S,KUFLIK T,RICCI F.Mediation of user models for enhanced personalization in recommender systems[J].User Modeling and User-adapted Interaction,2008,18(3):245-286.