Longbing Cao
Advanced Analy tics Institute, University of Technology Sydney, Sydney, NSW 2007, Australia
非獨(dú)立同分布推薦系統(tǒng):推薦范式轉(zhuǎn)換的綜述和框架
Longbing Cao
Advanced Analy tics Institute, University of Technology Sydney, Sydney, NSW 2007, Australia
article info
Article history:
Received 23 December 2015
Revised 4 May 2016
Accepted 12 June 2016
Available online 30 June 2016
獨(dú)立同分布
非獨(dú)立同分布
異構(gòu)性
關(guān)系耦合
耦合學(xué)習(xí)
關(guān)系學(xué)習(xí)
獨(dú)立同分布學(xué)習(xí)
非獨(dú)立同分布學(xué)習(xí)推薦系統(tǒng)
推薦
非獨(dú)立同分布推薦
雖然推薦系統(tǒng)在我們的生活、學(xué)習(xí)、工作和娛樂(lè)中扮演著越來(lái)越重要的角色,但是很多時(shí)候我們收到的推薦都是不相關(guān)的、重復(fù)的,或者包含不感興趣的產(chǎn)品和服務(wù)。這些差的推薦系統(tǒng)產(chǎn)生的原因來(lái)源于一個(gè)本征假設(shè):傳統(tǒng)的理論和推薦系統(tǒng)認(rèn)為用戶(hù)和物品是獨(dú)立同分布的(IID)。另一個(gè)明顯的現(xiàn)象是,雖然投入了很多的精力模擬用戶(hù)或者物品的特殊屬性,但用戶(hù)和物品的總體屬性及它們之間的非獨(dú)立同分布性(non-IID)被忽略了。本文先討論了推薦系統(tǒng)的非獨(dú)立同分布性,緊接著介紹了非獨(dú)立同分布性原理,目的是從耦合和異構(gòu)性的角度來(lái)深入闡述傳統(tǒng)的推薦系統(tǒng)的固有本質(zhì)。這種非獨(dú)立同分布推薦系統(tǒng)引起了傳統(tǒng)推薦系統(tǒng)范式的轉(zhuǎn)化——從獨(dú)立同分布向非獨(dú)立同分布進(jìn)行轉(zhuǎn)化,希望能夠形成高效的、相關(guān)性高的、個(gè)人訂制和可操作的推薦系統(tǒng)。這種系統(tǒng)創(chuàng)造了令人興奮的能夠解決包含冷啟動(dòng)、以稀疏數(shù)據(jù)為基礎(chǔ)、跨域、基于群組信息和欺詐攻擊等各種復(fù)雜情況的新的研究方向和解決方案。
? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
推薦[1,2]是大數(shù)據(jù)方法的一種重要應(yīng)用[3,4]。它在核心商業(yè)和新經(jīng)濟(jì)領(lǐng)域扮演著越來(lái)越重要的角色,尤其是涉及社交媒體、手機(jī)服務(wù)、在線商業(yè)、學(xué)習(xí)和生活等方面。近年來(lái),在很多領(lǐng)域中推薦研究成為研究重點(diǎn),這些領(lǐng)域包括推薦系統(tǒng)、信息檢索、社交媒體、社交網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)工程。
高質(zhì)量的推薦服務(wù)應(yīng)該在合適的時(shí)間給合適的人群推薦最相關(guān)的產(chǎn)品。在這個(gè)方向人們投入了很多精力,尤其是在推薦和信息檢索領(lǐng)域,通過(guò)考慮特殊的因素,比如社會(huì)關(guān)系、朋友關(guān)系、用戶(hù)對(duì)所購(gòu)買(mǎi)產(chǎn)品的評(píng)價(jià)、對(duì)相似特征進(jìn)行分類(lèi)以及通過(guò)另一個(gè)領(lǐng)域推薦產(chǎn)品等方式來(lái)提高推薦水平。
然而在大多數(shù)情況下,我們通過(guò)新聞門(mén)戶(hù)網(wǎng)站、在線購(gòu)物網(wǎng)站和手機(jī)應(yīng)用等渠道得到一些并不相關(guān),甚至對(duì)品牌有所損害的推薦。比如一個(gè)著名的搜索引擎報(bào)道在希臘發(fā)生的民眾示威游行時(shí),在新聞旁邊放了一個(gè)建議去希臘海灘旅游的廣告鏈接。另一個(gè)推薦系統(tǒng)對(duì)一個(gè)對(duì)kiwis感興趣的用戶(hù)推薦了各種不同的水果,系統(tǒng)假設(shè)用戶(hù)喜歡獼猴桃(kiwi fruit)。在線書(shū)店網(wǎng)站經(jīng)常羅列一些重復(fù)的或者用戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的書(shū)或者根本不相關(guān)的書(shū)。
推薦領(lǐng)域所面臨的至關(guān)重要的問(wèn)題包括:為什么會(huì)推薦不相關(guān),或者重復(fù)的產(chǎn)品和服務(wù)?更重要的是,如何開(kāi)展下一代的推薦?為了回答這些問(wèn)題,需要研究如下這些基本問(wèn)題:
? 現(xiàn)有的推薦理論和系統(tǒng)還缺乏哪些基本的技術(shù)從而導(dǎo)致較差的推薦?
? 如何建立高效的、相關(guān)的、私人訂制的以及可操作的推薦系統(tǒng)?
? 如何提高推薦系統(tǒng)的質(zhì)量,從而把個(gè)人或者群體用戶(hù)感興趣或喜歡的產(chǎn)品推薦給他們?
? 哪種新的推薦方法可形成一個(gè)能夠抓住推薦的固
有特征以及復(fù)雜性的統(tǒng)一的理論框架?
? 推薦系統(tǒng)如何轉(zhuǎn)型,才能促成下一代推薦系統(tǒng)的研究?
? 下一代推薦系統(tǒng)形成的基礎(chǔ)是什么?
? 對(duì)于下一代的推薦理論和系統(tǒng),新的研究方向是什么?
? 哪種新的推薦理論體系能夠解決傳統(tǒng)推薦系統(tǒng)存在的冷啟動(dòng)、稀疏性、跨域、群體用戶(hù)推薦和欺詐攻擊等典型挑戰(zhàn)?
為了回答上面的問(wèn)題,有很多研究方向需要進(jìn)一步探索,本文中所感興趣的方向是進(jìn)一步了解推薦用戶(hù)和物品,以及一個(gè)用戶(hù)對(duì)于一個(gè)物品給予的評(píng)分與用戶(hù)和物品的特性之間的關(guān)系。這涉及進(jìn)一步理解推薦系統(tǒng)的固有屬性和復(fù)雜性,也就是說(shuō)評(píng)分、用戶(hù)特性和物品特性的異構(gòu)性和耦合性(也叫做非獨(dú)立同分布[5,6]),以及這三個(gè)方面之間的異構(gòu)性和耦合性。
在現(xiàn)有的推薦系統(tǒng)研究中,在宏觀方面投入了很多精力,比如用戶(hù)對(duì)于物品的評(píng)價(jià)、用戶(hù)的社會(huì)關(guān)系以及人們對(duì)物品的評(píng)價(jià)。這些工作大體上分為如下幾個(gè)方面:①基于現(xiàn)有評(píng)分預(yù)估未來(lái)評(píng)分;②把用戶(hù)對(duì)于物品的評(píng)價(jià)結(jié)合到模型中;③把用戶(hù)友好性結(jié)合到模型中;④模擬群組喜好;⑤跨領(lǐng)域進(jìn)行用戶(hù)喜好轉(zhuǎn)化。用戶(hù)對(duì)于物品的評(píng)論的喜好也輸入到模型中[7,8]。近來(lái)對(duì)于物品和用戶(hù)組的耦合關(guān)系也被考慮進(jìn)推薦系統(tǒng)模擬中[9-11],把微觀的信息作為驅(qū)動(dòng)力給動(dòng)態(tài)評(píng)分估計(jì)帶來(lái)進(jìn)一步的提升。
然而最新的推薦系統(tǒng)研究[2]基于用戶(hù)、產(chǎn)品和評(píng)分是獨(dú)立同分布這樣的假設(shè),產(chǎn)生了獨(dú)立同分布模型和方法[5]。很少有研究考慮到特定用戶(hù)和產(chǎn)品的非常微觀的非獨(dú)立同分布的信息。從這個(gè)角度來(lái)說(shuō),評(píng)分系統(tǒng)的最基礎(chǔ)的動(dòng)力被簡(jiǎn)化和忽視了,本文作者認(rèn)為正是這點(diǎn)導(dǎo)致了現(xiàn)有推薦系統(tǒng)和服務(wù)的質(zhì)量很低。比如傳統(tǒng)的矩陣解析方法是推薦模型中廣泛應(yīng)用的模型。然而,如果房子和汽車(chē)微觀的特性沒(méi)有考慮進(jìn)去的話,并且如果房子和汽車(chē)被視為獨(dú)立同分布的,這種方法會(huì)對(duì)房子和汽車(chē)產(chǎn)生類(lèi)似的結(jié)果。這會(huì)在通用的宏觀模型和與推薦的用戶(hù)和產(chǎn)品相聯(lián)系的微觀信息之間產(chǎn)生巨大的差距。
本文的研究重點(diǎn)是討論這類(lèi)信息在獲取推薦的本質(zhì)方面的驅(qū)動(dòng)作用,進(jìn)而提高推薦質(zhì)量。通過(guò)對(duì)文獻(xiàn)中關(guān)于非獨(dú)立同分布推薦理論和系統(tǒng)簡(jiǎn)單論述的擴(kuò)充[12],提出了一套了解推薦本質(zhì)的體系框架并進(jìn)行了深入的解釋。本文討論現(xiàn)有分析存在的問(wèn)題,進(jìn)而檢驗(yàn)下一代推薦理論和方法是否有必要闡述推薦體系的非獨(dú)立同分布和原則。提出了非獨(dú)立同分布的一個(gè)大致的學(xué)習(xí)框架,這個(gè)框架能夠捕捉宏觀的評(píng)分系統(tǒng)以及用戶(hù)、物品和他(它)們的非獨(dú)立同分布本質(zhì)的微觀的特殊信息。
非獨(dú)立同分布包括推薦系統(tǒng)的耦合關(guān)系以及異構(gòu)性。耦合關(guān)系包括用戶(hù)內(nèi)、用戶(hù)間、物品內(nèi)、物品間及用戶(hù)和用品間主客觀的交互關(guān)系(包括顯式和隱式的關(guān)系)。異構(gòu)性從用戶(hù)傳播到物品[包括他(它)們的性質(zhì)]。非獨(dú)立同分布包括:①推薦系統(tǒng)中所涉及的非獨(dú)立同分布用戶(hù)和物品范疇的顯式屬性;②用戶(hù)間和物品間的異構(gòu)性;③在用戶(hù)和物品間的分級(jí)耦合關(guān)系[6];④用戶(hù)和物品間潛在的關(guān)系。
這種非獨(dú)立同分布的推薦理論觀點(diǎn)開(kāi)啟了我們的思路轉(zhuǎn)換,并提供了下一代基礎(chǔ)研究和高質(zhì)量推薦研究的新方向。實(shí)際上,在大數(shù)據(jù)學(xué)習(xí)[5,6]中非獨(dú)立同分布是數(shù)據(jù)學(xué)科和大數(shù)據(jù)分析的理論基礎(chǔ)和實(shí)踐挑戰(zhàn)[3,13-15],但在相關(guān)領(lǐng)域并沒(méi)有引起足夠的重視,比如計(jì)算機(jī)、信息學(xué)和統(tǒng)計(jì)學(xué),原因是現(xiàn)有分析和學(xué)習(xí)理論體系主要基于獨(dú)立同分布的假設(shè)。希望本文有關(guān)非獨(dú)立同分布的推薦原理和體系能夠?qū)A(chǔ)研究有所啟發(fā),并期望在其他的分析學(xué)、學(xué)習(xí)和信息處理領(lǐng)域得到好的應(yīng)用。
本文內(nèi)容如下:第二部分討論推薦系統(tǒng)的固有本質(zhì),第三部分展現(xiàn)非獨(dú)立同分布系統(tǒng)理論的原則,第四部分綜述主要問(wèn)題,尤其是與現(xiàn)有推薦系統(tǒng)和理論相關(guān)的獨(dú)立同分布的假設(shè),第五部分闡述推薦領(lǐng)域中對(duì)于研究對(duì)象以及推薦結(jié)果產(chǎn)生的思維方式的轉(zhuǎn)化,第六部分介紹非獨(dú)立同分布推薦理論框架,第七部分分享一些主要的非獨(dú)立同分布推薦體系的案例,第八部分描述了非獨(dú)立同分布系統(tǒng)的前景,第九部分為結(jié)論。
如圖1所示,本文把推薦相關(guān)的各種途徑獲得的信息結(jié)合起來(lái),將推薦系統(tǒng)分為4個(gè)維度,每一維度包含4種不同的信息:
(1) 表(A)包含評(píng)分信息,由用戶(hù)對(duì)物品的評(píng)分構(gòu)成,其中表達(dá)了用戶(hù)評(píng)分偏好,表(A)反映了推薦系統(tǒng)的主觀信息和成果;
(2) 表(B)包含用戶(hù)信息,該表反映了驅(qū)動(dòng)評(píng)分偏好的用戶(hù)特征、屬性和關(guān)系;
(3) 表(C)包含吸引和影響用戶(hù)喜好和評(píng)分的物品的屬性、特性和關(guān)系;
(4) 表(D)包含隱式的用戶(hù)和物品的相互關(guān)系。這和表(A)~(C)的來(lái)源不同,表(A)~(C)的信息來(lái)源是顯式的,而表(D)的信息來(lái)源是隱式的,從用戶(hù)和物品的屬性方面反映了他(它)們之間的相互關(guān)系,表(D)既包含連接用戶(hù)和物品的主觀信息,也包含相應(yīng)的客觀信息。
如上的系統(tǒng)觀(圖1)并沒(méi)有考慮:①環(huán)境(E)(如圖中外面的邊框),需要在推薦系統(tǒng)研究中考慮環(huán)境(E);②表中(A)~(D)的內(nèi)容與環(huán)境(E)之間的交互性。為討論推薦系統(tǒng)的本質(zhì),在推薦系統(tǒng)中關(guān)注這個(gè)4個(gè)表格是至關(guān)重要的。圖1中的4個(gè)表格闡述了如下幾個(gè)方面的重要信息。
(1) 特定推薦任務(wù)中所涉及的用戶(hù)和物品。用戶(hù)和物品的信息表現(xiàn)了他(它)們的特性、屬性和相互關(guān)系。由于他(它)們各自的特性、特征值以及對(duì)象在本質(zhì)上都是不同的,因此用戶(hù)和物品是特殊和異構(gòu)的。用戶(hù)和物品是因人(物)而異,有他(它)們自己獨(dú)特的性質(zhì)和相互關(guān)系。
(2) 他(它)們彼此之間如何相互作用,影響相互的評(píng)分行為和偏好。用戶(hù)彼此耦合,并且因?yàn)橐粋€(gè)或多個(gè)原因或多或少地相互影響,物品之間也是同樣的道理。除了這種用戶(hù)群體內(nèi)或者群體(全體)間的影響,用戶(hù)和物品之間的特殊相關(guān)性在很大程度上也會(huì)相應(yīng)地受個(gè)人用戶(hù)和物品的影響。對(duì)于全局和局部特性的相互作用,偏好之間相互影響的平衡關(guān)系的建模是至關(guān)重要的。
(3) 揭示用戶(hù)和物品之間的相互影響。一個(gè)用戶(hù)喜歡一種產(chǎn)品(通過(guò)評(píng)分展現(xiàn))是因?yàn)橛脩?hù)的特性和相應(yīng)的物品之間存在著特殊的耦合關(guān)系,雖然這種耦合是復(fù)雜的和隱式的。
(4) 利用客觀和主觀信息通過(guò)評(píng)分促成最終的決策。通過(guò)連接表(A)中主觀評(píng)價(jià)和表(B)、(C)中客觀的用戶(hù)和物品的信息,以及表(D)中用戶(hù)和物品之間主客觀的關(guān)聯(lián)關(guān)系,我們能夠獲得反映推薦系統(tǒng)中的連接、驅(qū)動(dòng)因子和動(dòng)態(tài)性的完整的信息,而這些信息通常都能從評(píng)分反映出來(lái)。
這4個(gè)表格或維度的視角與傳統(tǒng)的推薦系統(tǒng)本質(zhì)上是不一樣的,傳統(tǒng)的推薦系統(tǒng)只包含表(A)~(C)。除了評(píng)分之外,也涉及用戶(hù)/物品的部分或者特殊信息。雖然對(duì)評(píng)分如何產(chǎn)生和產(chǎn)生的原因進(jìn)行深入的了解很重要,但是表(D)中所包含的潛在的用戶(hù)和物品的相互關(guān)系在相應(yīng)的領(lǐng)域還缺乏深入的研究。表(D)中的相互關(guān)系不像其他表格中的那么明顯,但是它們包含用戶(hù)屬性和物品特性之間隱式的相互關(guān)系(我們?cè)谶@里命名為耦合[6]),詳見(jiàn)6.5部分的討論。
圖1.推薦系統(tǒng)的系統(tǒng)觀。
表格(D)中復(fù)雜的隱式關(guān)系(如CP代表物品價(jià)格和用戶(hù)城市間復(fù)雜的關(guān)系)是由潛在的人口、行為、社會(huì)、經(jīng)濟(jì)或文化等方面驅(qū)動(dòng)的,這些都包含在用戶(hù)和物品的特性及他(它)們之間的耦合關(guān)系中。用戶(hù)之間和物品之間的異構(gòu)性導(dǎo)致個(gè)性化的評(píng)分行為。因此在這4個(gè)表格中存在著很強(qiáng)的非獨(dú)立同分布,這形成了表(A)中評(píng)分和偏好的潛在驅(qū)動(dòng)力。
實(shí)際上,圖1中所提出的4個(gè)維度不僅僅呈現(xiàn)了如何建立全面理解推薦問(wèn)題普適的數(shù)據(jù)結(jié)構(gòu),同時(shí)也表述了推薦系統(tǒng)驅(qū)動(dòng)因子的顯式和隱式的非獨(dú)立同分布性。
根據(jù)上文推薦系統(tǒng)的4個(gè)表格或維度的視角,這一部分著重討論推薦問(wèn)題中本質(zhì)上所存在的非獨(dú)立同分布特性。實(shí)際上,任何被推薦的物品和用戶(hù)都是非獨(dú)立同分布的,也就是說(shuō),在用戶(hù)之間、物品之間以及用戶(hù)和物品之間存在不同層次的耦合關(guān)系,異構(gòu)性存在于用戶(hù)間和物品之間。下面討論推薦系統(tǒng)所包含的這兩方面的內(nèi)容。
3.1.異構(gòu)性
在圖1的4個(gè)表格中從不同的維度展現(xiàn)了異構(gòu)性,用戶(hù)和物品都不是同分布的,下面列舉了用戶(hù)和物品的異構(gòu)性,以及用戶(hù)和物品間的異構(gòu)性的不同場(chǎng)景。
(1) 用戶(hù)的異構(gòu)性。每個(gè)用戶(hù)具有自己獨(dú)特的屬性、特征、喜好、行為以及評(píng)分的傾向。對(duì)所有用戶(hù)以同分布來(lái)理解每個(gè)用戶(hù)獨(dú)特的特性、獨(dú)特的需求和傾向就未免太簡(jiǎn)單了。
(2) 物品的異構(gòu)性。每個(gè)物品和另一個(gè)物品在類(lèi)型、屬性、類(lèi)別、應(yīng)用領(lǐng)域等方面是不同的。物品特殊的屬性對(duì)于不同的用戶(hù)和用戶(hù)評(píng)價(jià)的吸引力是不同的。
(3) 用戶(hù)或物品屬性的異構(gòu)性。每個(gè)用戶(hù)和物品的屬性是不同的,每個(gè)用戶(hù)的屬性獨(dú)特表達(dá)了用戶(hù)的人口特征、特性、喜好、行為和傾向等。同樣,每個(gè)物品的屬性表達(dá)了物品的類(lèi)別、類(lèi)型、特性、領(lǐng)域等。每一項(xiàng)用戶(hù)或物品屬性不是同分布的,他(它)有自己獨(dú)特的分布,因此需要單獨(dú)對(duì)待。
(4) 用戶(hù)和物品之間的異構(gòu)性。用戶(hù)對(duì)物品的態(tài)度是不同的,因此不能假設(shè)它們遵從同樣的分布。所以假設(shè)它們采用相似的關(guān)系矩陣或者用同樣的模型來(lái)獲取用戶(hù)和物品間的特殊屬性有些過(guò)于簡(jiǎn)單。
現(xiàn)存的很多方法,如基于分解矩陣的方法,在處理如上關(guān)于推薦系統(tǒng)中需要考慮的異構(gòu)性方面的問(wèn)題可能不會(huì)產(chǎn)生有意義的結(jié)果,甚至有可能產(chǎn)生令人誤解的推薦。當(dāng)模型中忽略了個(gè)人的特征,也可能不能提供個(gè)性化的推薦。
3.2.耦合
在推薦系統(tǒng)中考慮到異構(gòu)性是推薦系統(tǒng)的一個(gè)進(jìn)步,雖然它沒(méi)有抓住推薦系統(tǒng)的所有特征和復(fù)雜性。另一個(gè)問(wèn)題是抓住顯式和隱式的耦合關(guān)系——通常是有層次的。因此耦合指的是兩個(gè)或者更多方面之間的關(guān)系或者相關(guān)性(可以是輸入之間的,也可以是輸入、輸出之間的)[6]。
像圖1顯示的,4個(gè)表格內(nèi)含不同的耦合關(guān)系。推薦系統(tǒng)的耦合問(wèn)題代表用戶(hù)之間、物品之間,以及用戶(hù)和物品之間,無(wú)論何種原因或在任何方面存在的清晰和隱式的關(guān)系。進(jìn)一步的解釋詳見(jiàn)圖2。
(1) 用戶(hù)和用戶(hù)之間的耦合。這些指在圖2中在用戶(hù)內(nèi)部和用戶(hù)之間的耦合關(guān)系,進(jìn)一步包含:①用戶(hù)內(nèi)部屬性間的耦合,展現(xiàn)了用戶(hù)屬性?xún)r(jià)值的關(guān)系,比如用戶(hù)屬性、群體、領(lǐng)域、行為和社會(huì)關(guān)系之間的耦合;②用戶(hù)之間屬性的耦合,表現(xiàn)了用戶(hù)屬性之間的關(guān)系,比如用戶(hù)的年齡和他們的位置;③用戶(hù)和用戶(hù)群之間的用戶(hù)耦合。
圖2.推薦系統(tǒng)的非獨(dú)立同分布。
(2) 物品和物品之間的耦合,這些與用戶(hù)和用戶(hù)之間的耦合類(lèi)似,表(C)中物品內(nèi)部和物品之間的耦合包含:①物品屬性?xún)?nèi)部的耦合;②物品之間屬性的耦合;③物品和物品群之間的耦合。
(3) 用戶(hù)和物品之間的耦合。這些指的是用戶(hù)-物品組或者群內(nèi)部和之間的耦合,包含如下方面:①表(A)中用戶(hù)對(duì)于物品評(píng)分和評(píng)論體現(xiàn)的用戶(hù)和物品間的耦合;②隱式的用戶(hù)和物品間的耦合,像表(D)中所展現(xiàn)的用戶(hù)屬性對(duì)用戶(hù)相關(guān)物品屬性的影響,以及用戶(hù)屬性和用戶(hù)相關(guān)物品屬性之間的關(guān)系。
除了上述所討論的耦合,耦合經(jīng)常通過(guò)一定的層次表現(xiàn)出來(lái),比如表2中,耦合存在于屬性?xún)r(jià)值、屬性(對(duì)于用戶(hù)和物品)、目標(biāo)(用戶(hù)和群體)和目標(biāo)群(用戶(hù)群或者物品分類(lèi))。尤其是,用戶(hù)與物品的耦合會(huì)在不同的級(jí)別間出現(xiàn),比如說(shuō)從評(píng)分表格之中的耦合[表(A)]到不同用戶(hù)組評(píng)分之間的耦合關(guān)系,從用戶(hù)屬性和物品屬性之間的耦合到用戶(hù)屬性矩陣和物品屬性矩陣之間的耦合等。
基于上述關(guān)于推薦系統(tǒng)本質(zhì)的討論,本章討論現(xiàn)存推薦系統(tǒng)研究存在的問(wèn)題,以及傳統(tǒng)推薦理論和體系經(jīng)常使用的有關(guān)獨(dú)立同分布性的假設(shè)。
4.1.推薦系統(tǒng)的相關(guān)研究
現(xiàn)存的推薦系統(tǒng)的算法和矩陣大致可以分為如下四類(lèi):協(xié)同過(guò)濾推薦系統(tǒng)(CF)、基于內(nèi)容的推薦系統(tǒng)(CBF)、組合的推薦系統(tǒng)和問(wèn)題導(dǎo)向型推薦系統(tǒng)。
協(xié)同過(guò)濾矩陣[16]通過(guò)一個(gè)用戶(hù)自身或者其他用戶(hù)的評(píng)價(jià)結(jié)果來(lái)預(yù)估評(píng)價(jià)。當(dāng)其考慮到其他用戶(hù)的行為后,協(xié)同過(guò)濾矩陣引入與有關(guān)用戶(hù)或者鄰居特征相似的用戶(hù)組的行為和喜好[17]。然而,這種矩陣是基于物品的[18,19]。
基于內(nèi)容的推薦系統(tǒng)利用了用戶(hù)對(duì)物品的評(píng)價(jià)、物品的內(nèi)容、用戶(hù)閱讀到的有關(guān)物品的相關(guān)資料。這種額外的信息會(huì)被引入評(píng)價(jià)系統(tǒng)中。
通過(guò)將協(xié)同過(guò)濾矩陣和基于內(nèi)容推薦系統(tǒng)通過(guò)平行或串行的各種組合形成了一些組合推薦方法。組合可以將協(xié)同過(guò)濾矩陣推薦系統(tǒng)和內(nèi)容推薦系統(tǒng)分開(kāi),接著將它們的結(jié)果結(jié)合起來(lái)或者把基于內(nèi)容推薦的矩陣應(yīng)用于具有類(lèi)似觀點(diǎn)的用戶(hù),隨后應(yīng)用協(xié)同過(guò)濾矩陣進(jìn)行對(duì)評(píng)分的推薦。不少研究人員通過(guò)在模型中引入特殊的因子(比如協(xié)同過(guò)濾矩陣),提出了不同的方法,比如基于社交網(wǎng)絡(luò)的模型[20,21]。
耦合矩陣分解框架[22]的提出是為了用廣義線性連接函數(shù)對(duì)每個(gè)關(guān)系矩陣進(jìn)行因子化,并且無(wú)論何時(shí),一個(gè)實(shí)體模型與不止一個(gè)關(guān)系相關(guān),而且能夠?qū)⒛P椭胁煌囊蜃舆B接在一起。這個(gè)方法通過(guò)矩陣分解相關(guān)關(guān)系和矩陣來(lái)捕捉因子之間存在的簡(jiǎn)單且潛在的關(guān)系,但是它不能獲取微觀的數(shù)據(jù)特征和復(fù)雜性。
一些建模工具和評(píng)價(jià)矩陣已經(jīng)被提出來(lái)用于衡量推薦質(zhì)量,比如協(xié)同過(guò)濾矩陣通常會(huì)用皮爾遜相關(guān)系數(shù),聚類(lèi)被用來(lái)對(duì)相似的物品或用戶(hù)分組。傳統(tǒng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法比如k-均值、k-模式、隱式的C聚類(lèi)、矩陣分解模型、自適應(yīng)共振理論、概率聚類(lèi)(最大期望算法)、貝葉斯置信網(wǎng)、馬爾可夫鏈和Rocchio分類(lèi)通常被用在推薦系統(tǒng)中。
近年來(lái)特殊的推薦問(wèn)題比如冷啟動(dòng)、跨域、基于群組信息和欺詐攻擊引起越來(lái)越多的關(guān)注[23]。群組推薦從一個(gè)域中用戶(hù)對(duì)物品的評(píng)價(jià),來(lái)給其他類(lèi)別的對(duì)物品的評(píng)價(jià)提供信息[24,25]。一些研究工作[26]專(zhuān)注于特殊的數(shù)據(jù)、形成推薦的結(jié)構(gòu)和方法。
最近由于我們?cè)诜仟?dú)立同分布學(xué)習(xí)[5]和推薦系統(tǒng)的研究宣傳[12],一項(xiàng)新興起的推薦系統(tǒng)的研究方向[6]專(zhuān)注于對(duì)用戶(hù)內(nèi)部、用戶(hù)間、物品內(nèi)部、物品間、用戶(hù)和物品間的耦合關(guān)系建模,并把它們與評(píng)分系統(tǒng)結(jié)合起來(lái)。基于此做了一些基本的工作,包括基于物品耦合關(guān)系的推薦[11]、基于物品耦合關(guān)系的協(xié)同過(guò)濾推薦系統(tǒng)、具有物品耦合關(guān)系的基于用戶(hù)群的推薦[27]。本文是基于這些先前的研究和文獻(xiàn)[12]中的一些主要結(jié)論來(lái)構(gòu)成關(guān)于非獨(dú)立同分布推薦學(xué)習(xí)的一個(gè)全面的、系統(tǒng)框架的討論。
4.2.傳統(tǒng)推薦理論獨(dú)立同分布假設(shè)
大部分現(xiàn)有推薦理論和系統(tǒng)僅僅或者主要涉及表(A)中的評(píng)分信息,從評(píng)分的角度專(zhuān)注于學(xué)習(xí)用戶(hù)對(duì)于物品的喜好。典型的推薦算法(包括協(xié)同過(guò)濾推薦系統(tǒng)和矩陣分解模型)通常忽略了相關(guān)用戶(hù)喜好的潛在原因[18,28,29],這部分潛在原因大部分可從表(B)和(C)中有關(guān)用戶(hù)和物品的信息中提取出來(lái)。他們通常把用戶(hù)和物品看做獨(dú)立同分布的,不考慮用戶(hù)是誰(shuí)以及用戶(hù)能夠評(píng)價(jià)什么樣的產(chǎn)品。本文作者所了解到的信息是目前還沒(méi)有研究能夠完整地引進(jìn)像圖2中所示的評(píng)分、用戶(hù)和物品的內(nèi)部和之間及用戶(hù)和物品之間的耦合關(guān)系。
現(xiàn)對(duì)傳統(tǒng)的協(xié)同過(guò)濾推薦系統(tǒng)和矩陣分解模型假設(shè)的獨(dú)立同分布做分析[30,31]。
基本協(xié)同過(guò)濾模型建立了一個(gè)過(guò)濾過(guò)程,其中涉及對(duì)象之間的協(xié)同作用,采用了基于用戶(hù)的或是基于物品的協(xié)同過(guò)濾模型?;谟脩?hù)的協(xié)同過(guò)濾模型假設(shè)如果用戶(hù)a和用戶(hù)b對(duì)一件物品評(píng)分相同,那么用戶(hù)b對(duì)另一個(gè)物品的評(píng)分也會(huì)和用戶(hù)a對(duì)此物品的評(píng)分相似。同理,基于物品的協(xié)同過(guò)濾模型假設(shè),對(duì)于物品x感興趣的用戶(hù)也會(huì)對(duì)物品y感興趣。雖然對(duì)于相應(yīng)的問(wèn)題都已經(jīng)提出了不同的協(xié)同過(guò)濾模型,然而原始基于記憶的協(xié)同過(guò)濾模型的基本假設(shè)可以由方程(1)來(lái)表示[28]。方程(1)是基于用戶(hù)i對(duì)于物品j的評(píng)價(jià)來(lái)推測(cè)用戶(hù)a的評(píng)價(jià)ra,j, 平均評(píng)分ri衡量了用戶(hù)i和用戶(hù)a相似性的權(quán)重。
其中,wa,i假設(shè)i和a之間只有較弱的相關(guān)性。基本的協(xié)同過(guò)濾模型會(huì)有如下的假設(shè):①用戶(hù)i對(duì)所有物品進(jìn)行獨(dú)立的評(píng)價(jià),將這些物品視為獨(dú)立而且同分布的,忽略對(duì)于兩個(gè)物品j1和j2的評(píng)分ri,j1和 ri,j2之間的聯(lián)系;②兩個(gè)用戶(hù)獨(dú)立評(píng)價(jià)物品,用戶(hù)視為獨(dú)立同分布的,忽略?xún)蓚€(gè)用戶(hù)和兩個(gè)用戶(hù)評(píng)分ri1,j和ri2,j間的關(guān)系;③用戶(hù)關(guān)于物品的評(píng)價(jià)不會(huì)相互影響,也就是忽視了用戶(hù)和物品之間的聯(lián)系;④這個(gè)算法并沒(méi)有涉及用戶(hù)屬性和物品屬性,確切地說(shuō),它只使用了評(píng)分信息。
讓我們進(jìn)一步分析矩陣分解方法。矩陣分解算法假設(shè)評(píng)分R是兩個(gè)矩陣P和Q的近似因式分解,分別代表用戶(hù)和物品的潛變量矩陣。因此用戶(hù)i對(duì)物品j的評(píng)分 ?ri,j的估計(jì)可以通過(guò)如下方法實(shí)現(xiàn):
其中,向量pik和qkj抓住了用戶(hù)i對(duì)于物品j潛在的變量,同時(shí)評(píng)分會(huì)受類(lèi)似用戶(hù)k的影響。
基本矩陣分解模型做了如下方面的假設(shè):①評(píng)分估計(jì)既不取決于用戶(hù)也不取決于物品特性;②它假設(shè)評(píng)分是由用戶(hù)和物品潛在因子驅(qū)動(dòng)的,因此忽略了用戶(hù)之間、物品內(nèi)部以及用戶(hù)和物品之間的耦合(影響)關(guān)系和異構(gòu)性。
上述對(duì)于協(xié)同過(guò)濾推薦系統(tǒng)和矩陣分解模型原理的分析表明,這兩種方法假設(shè)用戶(hù)和物品是獨(dú)立而且同分布的,雖然提出了這兩種算法的變型,但在評(píng)分估計(jì)中還是缺乏對(duì)于用戶(hù)和物品屬性這些驅(qū)動(dòng)因子的考慮。如果像圖1中非獨(dú)立同分布信息沒(méi)有被考慮進(jìn)去,那么可以推斷其作出的推薦也不會(huì)表達(dá)個(gè)人的喜好。
以下討論現(xiàn)有推薦研究的特色以及提出推薦系統(tǒng)發(fā)展的四個(gè)時(shí)代。
5.1.推薦系統(tǒng)的特色
雖然推薦系統(tǒng)的發(fā)展經(jīng)歷了一些重要的時(shí)期,在這些時(shí)期關(guān)注重點(diǎn)放在了推薦系統(tǒng)研究上。根據(jù)第四部分對(duì)于已有推薦系統(tǒng)的討論,當(dāng)前推薦系統(tǒng)的典型特征可歸納為:
(1) 假設(shè)用戶(hù)和物品是非獨(dú)立分布的;
(2) 把焦點(diǎn)放在可以觀測(cè)到的因素和范疇上;
(3) 結(jié)合潛在因素但是忽略了隱式的用戶(hù)/物品變量,反之亦然;
(4) 忽略或者簡(jiǎn)化用戶(hù)和物品的顯式和隱式變量之間的關(guān)系;
(5) 缺乏對(duì)主觀因素深入的挖掘,缺乏主客觀因素的結(jié)合;
(6) 缺乏對(duì)核心動(dòng)因及用戶(hù)和物品內(nèi)部和之間隱式關(guān)系的挖掘。
5.2.推薦系統(tǒng)分類(lèi)
對(duì)于如何將推薦系統(tǒng)分類(lèi)存在很多不同的觀點(diǎn)。對(duì)于推薦系統(tǒng)具有代表性的問(wèn)卷調(diào)查大致展示了如下從不同出發(fā)點(diǎn)和不同興趣點(diǎn)出發(fā)的推薦系統(tǒng)研究的現(xiàn)狀分類(lèi)。
(1) 文獻(xiàn)[32]顯示了混合網(wǎng)絡(luò)系統(tǒng)的分類(lèi)方法,基于知識(shí)來(lái)源一共分成四類(lèi):協(xié)同過(guò)濾推薦系統(tǒng)、基于內(nèi)容的、人口統(tǒng)計(jì)的和基于知識(shí)來(lái)源的。在上述四類(lèi)中通過(guò)結(jié)合七種不同的方法結(jié)合(權(quán)重的、混合的、轉(zhuǎn)移的、融合各種特征的、串聯(lián)的、特征擴(kuò)充和元級(jí)[33]),最后產(chǎn)生了53個(gè)可能的混合方法。
(2) 文獻(xiàn)[34]中提出了一種推薦系統(tǒng)分類(lèi)方法,這個(gè)方法考慮了簡(jiǎn)明性、降低維度、擴(kuò)散、社會(huì)過(guò)濾、元方法和性能評(píng)價(jià)。
(3) 文獻(xiàn)[35]中提出的協(xié)同過(guò)濾推薦系統(tǒng)考慮到推薦系統(tǒng)從算法到對(duì)推薦系統(tǒng)用戶(hù)體驗(yàn)的相關(guān)問(wèn)題,以及有關(guān)質(zhì)量、存在潛在的危險(xiǎn)和用戶(hù)控制等開(kāi)放的問(wèn)題。
(4) 參考文獻(xiàn)[36]提供了推薦系統(tǒng)分類(lèi)方法,一共包含四個(gè)級(jí)別:基于內(nèi)存的(評(píng)分)、基于內(nèi)容的(用戶(hù)和物品的特性,對(duì)應(yīng)傳統(tǒng)網(wǎng)絡(luò))、基于社會(huì)學(xué)(關(guān)系和可靠性,對(duì)應(yīng)社交網(wǎng)絡(luò))以及基于情境的(用戶(hù)和物品的位置,對(duì)于物流網(wǎng)),這種分類(lèi)方法既考慮隱式的數(shù)據(jù),也考慮顯式的數(shù)據(jù),以及用戶(hù)和物品的數(shù)據(jù)。
(5) 從2001年到2010年相關(guān)的文獻(xiàn)分類(lèi)和進(jìn)展如文獻(xiàn)[37]中所討論的,把推薦系統(tǒng)分為8個(gè)應(yīng)用領(lǐng)域(書(shū)籍、文獻(xiàn)、圖片、電影、音樂(lè)、購(gòu)物、電視和其他)和8種數(shù)據(jù)挖掘技術(shù)(關(guān)聯(lián)規(guī)則、聚類(lèi)、決策樹(shù)、k最近鄰分類(lèi)算法、鏈分析、神經(jīng)網(wǎng)絡(luò)、回歸和其他啟發(fā)式方法)。
(6) 除了文獻(xiàn)[32]中所引用的分類(lèi)方法,文獻(xiàn)[2]中共28章分為四部分講述了分類(lèi)方法∶推薦方法、推薦系統(tǒng)評(píng)價(jià)、人機(jī)交互和更高級(jí)的題目。最近的手冊(cè)中沒(méi)有提供有關(guān)推薦系統(tǒng)有價(jià)值的分類(lèi)。
這篇文獻(xiàn)集中討論了下述七大類(lèi)推薦技術(shù):
(1) 基于記憶推薦方法,主要關(guān)注評(píng)分估計(jì),通過(guò)傳統(tǒng)的矩陣解析方法和價(jià)值分解隱式對(duì)從用戶(hù)到物品評(píng)價(jià)或?qū)ξ锲冯[式評(píng)價(jià)[36]。
(2) 協(xié)同過(guò)濾推薦系統(tǒng),主要考慮用戶(hù)與用戶(hù)之間的關(guān)系,以及圖1中表(B)中用戶(hù)信息用戶(hù)(或物品)相鄰的關(guān)系,相當(dāng)于基于相似用戶(hù)或者物品的推薦。
(3) 用戶(hù)分析推薦或者基于模型的推薦,主要考慮用戶(hù)人口信息,目的是獲得相似的用戶(hù),關(guān)于相似的人口信息,就是所說(shuō)的個(gè)性化訂制的推薦,尤其要關(guān)注于表(B)中相關(guān)用戶(hù)的信息。
(4) 基于內(nèi)容的推薦,尤其是涉及物品關(guān)鍵詞、描述、表(C)中物品信息語(yǔ)義索引。
(5) 基于群組的推薦,涉及表(B)中的社會(huì)和朋友的關(guān)系,目的是對(duì)相關(guān)的用戶(hù)組推薦物品,或者給一組用戶(hù)建議物品類(lèi)別。
(6) 基于知識(shí)的推薦,主要涉及:①領(lǐng)域知識(shí)來(lái)衡量某些物品特征如何符合用戶(hù)的需求和喜好,以及一個(gè)物品如何符合一個(gè)用戶(hù)的喜好,比如通過(guò)學(xué)習(xí)表(D)中在相關(guān)用戶(hù)的屬性和物品屬性所存在的耦合關(guān)系來(lái)達(dá)成基于案例的推薦;②將相關(guān)的用戶(hù)需求和表(D)中物品的屬性聯(lián)系起來(lái)構(gòu)成應(yīng)用規(guī)則,達(dá)成所需的推薦。
(7) 混合推薦,將上述方法結(jié)合起來(lái),比如將協(xié)同過(guò)濾推薦系統(tǒng)和基于內(nèi)容的推薦結(jié)合起來(lái)。
上述分類(lèi)方法綜合了信息驅(qū)動(dòng)的觀點(diǎn)(大部分方法都是基于信息的)及基于功能和目標(biāo)的方法。這些方法沒(méi)有解決最關(guān)鍵的挑戰(zhàn)(如以稀疏數(shù)據(jù)為基礎(chǔ)和欺詐攻擊),它們?nèi)笔Я艘恍┲匾矫娴难芯縖比如表(D)中提到的可視化和關(guān)系挖掘]。
5.3.推薦系統(tǒng)研究分類(lèi)法
推薦方法的分類(lèi)學(xué)如圖3所示,一共包含7個(gè)層次:應(yīng)用、來(lái)源、目標(biāo)、挑戰(zhàn)、技術(shù)、交付物(成果)以及推薦評(píng)價(jià)。
(1) 應(yīng)用。這是指領(lǐng)域問(wèn)題以及推薦的應(yīng)用——推薦產(chǎn)品、服務(wù)、渠道等。推薦的典型應(yīng)用包含:手機(jī)應(yīng)用和服務(wù)、社交媒體、網(wǎng)絡(luò)應(yīng)用、在線商業(yè)和服務(wù)(包括購(gòu)物、新聞、娛樂(lè)、服務(wù)、食物和飲料服務(wù))、工作流程和政策建議、健康和醫(yī)療服務(wù)推薦、旅游服務(wù)、市場(chǎng)營(yíng)銷(xiāo)和客戶(hù)服務(wù)、商業(yè)和工業(yè)服務(wù)、工業(yè)優(yōu)化、物流和運(yùn)輸服務(wù)、數(shù)字生活(包括虛擬現(xiàn)實(shí)和動(dòng)畫(huà))以及生活服務(wù)。
(2) 這個(gè)指的是推薦系統(tǒng)所涉及的數(shù)據(jù)來(lái)源,包括核心數(shù)據(jù)和輔助數(shù)據(jù),可以是主觀的,也可以是客觀的,顯式的或者隱式的。輔助數(shù)據(jù)可以包含反饋數(shù)據(jù)、場(chǎng)境(上下文)數(shù)據(jù)、外部數(shù)據(jù)、領(lǐng)域知識(shí)、系統(tǒng)數(shù)據(jù)以及從網(wǎng)絡(luò)獲得的信息。
(3) 目標(biāo)。該項(xiàng)對(duì)推薦系統(tǒng)的目的進(jìn)行歸類(lèi)。商業(yè)和科技目標(biāo)可能都和推薦系統(tǒng)有所聯(lián)系。從商業(yè)觀點(diǎn)出發(fā),推薦系統(tǒng)可以應(yīng)用于改進(jìn)營(yíng)銷(xiāo)和銷(xiāo)售額、客戶(hù)關(guān)系和使用體驗(yàn)、服務(wù)目標(biāo)、經(jīng)濟(jì)財(cái)務(wù)目標(biāo)、人機(jī)交互,以及網(wǎng)站界面設(shè)計(jì),從而激勵(lì)出新的商業(yè)機(jī)遇(如新用戶(hù)、創(chuàng)新產(chǎn)品、新服務(wù))。從科技角度出發(fā)的推薦系統(tǒng)可能集中于提升評(píng)價(jià)預(yù)測(cè)、成本效益、最優(yōu)化、創(chuàng)新性、多樣性、可預(yù)測(cè)性、穩(wěn)健性、信用、風(fēng)險(xiǎn)管理,以及建議的可實(shí)踐性。
(4) 挑戰(zhàn)。該項(xiàng)和諸多方面有關(guān),包括推薦系統(tǒng)來(lái)源的特征和復(fù)雜性(創(chuàng)新性、多樣性、領(lǐng)域交叉、團(tuán)體和社群針對(duì)性、動(dòng)態(tài)和在線性質(zhì))、用戶(hù)行為和滿意度(冷啟動(dòng)、大眾偏好、欺詐攻擊的影響、個(gè)性化滿意度、人類(lèi)智能)、環(huán)境(相互關(guān)聯(lián)、限制、社會(huì)文化議題)、基礎(chǔ)設(shè)施(可擴(kuò)展性、效率)、性能(質(zhì)量、準(zhǔn)確度、誤差率、可用性、實(shí)用性、枝節(jié)問(wèn)題、可實(shí)施性),諸如此類(lèi)。
(5) 技術(shù)。依據(jù)推薦系統(tǒng)的引擎、基礎(chǔ)設(shè)施、算法、成果以及性能優(yōu)化,跨領(lǐng)域方法和技術(shù)已經(jīng)被納入推薦系統(tǒng)的研究當(dāng)中。典型技術(shù)包括:CF、基于內(nèi)容的推薦、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)、數(shù)學(xué)和統(tǒng)計(jì)、相似學(xué)習(xí)、動(dòng)態(tài)在線學(xué)習(xí)、經(jīng)濟(jì)金融模型、社會(huì)科學(xué)方法、情境感知技術(shù)、可視化,以及多方法的結(jié)合。
(6) 成果。推薦系統(tǒng)的輸出取決于推薦系統(tǒng)的目標(biāo)和技術(shù),而這部分目標(biāo)和技術(shù)又來(lái)自于對(duì)數(shù)據(jù)和挑戰(zhàn)的認(rèn)知。從推薦系統(tǒng)所獲取的推薦成果可能包含相似的用戶(hù)或產(chǎn)品、新用戶(hù)、產(chǎn)品服務(wù)以及新應(yīng)用和新策略,提問(wèn)或是對(duì)于問(wèn)題的解答,推薦有關(guān)的團(tuán)體或社群,以及跨領(lǐng)域跨媒體的機(jī)遇和體驗(yàn),提供評(píng)價(jià)和過(guò)濾建議,從而獲取最優(yōu)結(jié)果。
圖3.推薦研究的復(fù)層次模型。
(7) 評(píng)價(jià)??梢詮纳虡I(yè)和技術(shù)的角度來(lái)評(píng)估推薦系統(tǒng)的性能。商業(yè)指標(biāo)可以包含用戶(hù)滿意度、新穎性和多樣性、覆蓋度、商業(yè)價(jià)值、可交互性和可解釋性。技術(shù)指標(biāo)可包含優(yōu)化后的誤差率、預(yù)測(cè)性能、可實(shí)現(xiàn)性、穩(wěn)健性、對(duì)新?tīng)顩r的敏感性、可靠性、置信度和統(tǒng)計(jì)測(cè)試性能、可實(shí)踐性、效率,以及可擴(kuò)展性。
一個(gè)有效的推薦系統(tǒng)必須在上述各層面間保持平衡。這種平衡是多方面的,包括:主觀和客觀、隱式和顯式、局部和全局、靜態(tài)和動(dòng)態(tài)、內(nèi)部和外部,以及7個(gè)層面的部分和整體。5.4.推薦系統(tǒng)的研發(fā)過(guò)程
該部分將針對(duì)推薦系統(tǒng)的研究歸入四個(gè)主要階段(圖4):
(1) 第一代(1st G):基于評(píng)分的推薦系統(tǒng)研究;
(2) 第二代(2nd G):基于用戶(hù)/物品的推薦系統(tǒng)研究;
(3) 第三代(3rd G):跨用戶(hù)/物品的推薦系統(tǒng)研究;
(4) 第四代(4th G):非獨(dú)立同分布的推薦系統(tǒng)研究。
第一代以基于評(píng)分的推薦系統(tǒng)研究為主,相當(dāng)于在評(píng)分表(表1)中通過(guò)直接通過(guò)模擬評(píng)分的過(guò)程(如MF法)或類(lèi)比相似的評(píng)分行為表現(xiàn)或偏好(如經(jīng)典CF法)來(lái)對(duì)評(píng)價(jià)動(dòng)向進(jìn)行建模和估算。也有一些研究關(guān)注基于記憶的方法和特定的評(píng)估特點(diǎn),如對(duì)稀疏的評(píng)價(jià)數(shù)據(jù)的建模、冷啟動(dòng)評(píng)價(jià),以及具有欺詐攻擊效果的評(píng)價(jià)。在此階段,圖1表(A)部分中的評(píng)價(jià)信息主要取決于相關(guān)的模型。
第二代為基于用戶(hù)/物品的推薦系統(tǒng)研究,相當(dāng)于對(duì)評(píng)價(jià)動(dòng)向建模,并做出基于用戶(hù)或是物品的推薦,以及通過(guò)結(jié)合圖1中表(B)、(C)中所顯示的特定用戶(hù)或物品信息建立基于內(nèi)容的模型。典型例子包括用戶(hù)間、不同類(lèi)別或物品不同子類(lèi)間(即跨領(lǐng)域或分級(jí)別推薦)的社會(huì)關(guān)系和過(guò)濾;依照評(píng)價(jià)行為或偏好對(duì)用戶(hù)進(jìn)行聚類(lèi);或?qū)ξ锲肪垲?lèi)以便推薦(即基于群體的推薦)。這類(lèi)推薦系統(tǒng)將用戶(hù)和物品信息納入評(píng)價(jià)估值和用戶(hù)/物品推薦中,進(jìn)一步探索了通常遇到的挑戰(zhàn),如冷啟動(dòng)、稀疏的評(píng)價(jià)和欺詐攻擊等,這類(lèi)推薦模型也可以通過(guò)結(jié)合其他技術(shù),諸如跨領(lǐng)域和基于群體的推薦。
第三代為跨用戶(hù)/物品的推薦系統(tǒng)研究,通過(guò)納入用戶(hù)與物品間特定交互信息,如圖1中表(B)、(C)所示,來(lái)建立評(píng)價(jià)模型并做出用戶(hù)/物品推薦,這些交互信息包括用戶(hù)對(duì)于產(chǎn)品的評(píng)價(jià)、用戶(hù)的偏好以及特定產(chǎn)品類(lèi)型或特點(diǎn)間的聯(lián)系。一些現(xiàn)有的基于內(nèi)容的模型屬于這一類(lèi)別,包括用戶(hù)和物品信息,以及用戶(hù)對(duì)于物品的評(píng)論、情緒和觀點(diǎn)。
在現(xiàn)有文獻(xiàn)中,和上述三代有關(guān)的研究都假設(shè)用戶(hù)和物品/產(chǎn)品是獨(dú)立同分布的,并沒(méi)有考慮到用戶(hù)與用戶(hù)、產(chǎn)品與產(chǎn)品、用戶(hù)與產(chǎn)品內(nèi)部及其之間的“價(jià)值-客體”非獨(dú)立同分布特征的存在[38,39]。一些方法,如基于MF的方法,日漸關(guān)注挖掘評(píng)價(jià)中的潛在變量。而當(dāng)用戶(hù)和產(chǎn)品信息結(jié)合起來(lái)時(shí),其中的異質(zhì)性和耦合關(guān)系[5]往往被忽略。
圖4.推薦系統(tǒng)研究的4個(gè)階段。
第四代為基于非獨(dú)立同分布的推薦系統(tǒng)研究,對(duì)用戶(hù)內(nèi)和用戶(hù)間[表(B)]、產(chǎn)品內(nèi)和產(chǎn)品間[表(C)]以及用戶(hù)和產(chǎn)品間[圖1中表(A)、(D)]的隱式/顯式、主觀/客觀的非獨(dú)立同分布性進(jìn)行建模和協(xié)同增效。在這一階段,我們假定用戶(hù)和產(chǎn)品都是非獨(dú)立同分布的,需要在不同的程度上從價(jià)值、屬性、實(shí)體這些方面進(jìn)行考慮,也要考慮用戶(hù)屬性和產(chǎn)品屬性之間的交互作用。本文的討論主要針對(duì)第四代推薦系統(tǒng)的研究展開(kāi)(見(jiàn)圖1中的系統(tǒng)概覽),這在已有文獻(xiàn)中還沒(méi)有被討論過(guò)。
圖4進(jìn)一步繪制了圖1內(nèi)容的系統(tǒng)視圖,涵蓋了推薦系統(tǒng)研究的四個(gè)階段。從一定的意義上而言,第四代實(shí)際上包含了前三代:①前三代理論和方法需要一個(gè)從獨(dú)立同分布到非獨(dú)立同分布的思維方式的轉(zhuǎn)換;②非獨(dú)立同分布推薦系統(tǒng)必須涵蓋四個(gè)表——表(A)~(D),以及非獨(dú)立同分布假定下的環(huán)境(E)。
這部分提出非獨(dú)立同分布推薦系統(tǒng)的理論框架,并提出用戶(hù)、物品及其顯式的和隱式的關(guān)聯(lián)關(guān)系的非獨(dú)立同分布的公式。6.1.非獨(dú)立同分布推薦系統(tǒng)框架
為了有效地獲取上述推薦系統(tǒng)問(wèn)題中非獨(dú)立同分布特征,有必要引入一個(gè)新的非獨(dú)立同分布推薦系統(tǒng)理論框架以建立非獨(dú)立同分布推薦系統(tǒng)的理論體系。該非獨(dú)立同分布系統(tǒng)框架的原則是抓取廣泛存在于用戶(hù)(物品)屬性?xún)?nèi)部及其之間、用戶(hù)內(nèi)部及其之間、物品內(nèi)部及其之間,以及用戶(hù)和物品之間的異質(zhì)性和聯(lián)系(即非獨(dú)立同分布性)。
該非獨(dú)立同分布推薦系統(tǒng)框架的目標(biāo)為以下幾點(diǎn):
(1) 整合異質(zhì)性和關(guān)聯(lián)性,即將推薦系統(tǒng)的非獨(dú)立同分布性整合進(jìn)其算法和體系;
(2) 抓取顯式的非獨(dú)立同分布性,如圖2表中(B)所示的用戶(hù)之間的聯(lián)系,以及隱式的非獨(dú)立同分布性,如圖2中表(D)所示的用戶(hù)和物品之間的聯(lián)系;
(3) 獲取主觀的非獨(dú)立同分布性,如圖2中表(A)所示的評(píng)價(jià),和客觀的非獨(dú)立同分布性,如表(B)和表(C)中所示的用戶(hù)和物品。
圖5闡明了非獨(dú)立同分布推薦系統(tǒng)的理論框架,其觀點(diǎn)為推薦系統(tǒng)的非獨(dú)立同分布性是內(nèi)嵌在這四個(gè)表格中的。
(1) 用戶(hù)的非獨(dú)立同分布性。聯(lián)系和差別共同存在于用戶(hù)內(nèi)部及其之間,具體存在于用戶(hù)的屬性、屬性值、用戶(hù)本身和他們的組群。這一點(diǎn)由圖2中的表(B)所顯示,可以用一個(gè)包含了用戶(hù)屬性和相應(yīng)值的用戶(hù)信息矩陣B來(lái)表述。
(2) 物品的獨(dú)立同分布性。聯(lián)系和差別共同存在于物品內(nèi)部及其之間,具體存在于物品的屬性、屬性值、物品本身和物品類(lèi)別中。這一點(diǎn)可由圖2中的表(C)顯示,可以用一個(gè)包含了物品屬性和相應(yīng)值 的物品信息矩陣C來(lái)表述。
(3) 顯式用戶(hù)-物品非獨(dú)立同分布性。存在于用戶(hù)-物品聯(lián)系的內(nèi)部及其之間的顯式非獨(dú)立同分布性體現(xiàn)在用戶(hù)對(duì)于物品的評(píng)價(jià)之中,如圖2中的表(A)所闡釋。然而由于基于評(píng)價(jià)的用戶(hù)-物品非獨(dú)立同分布性是主觀的,因此它也被稱(chēng)為主觀用戶(hù)-物品非獨(dú)立同分布性。用戶(hù)對(duì)物品的評(píng)價(jià)可表示為一個(gè)評(píng)價(jià)信息矩陣A。
圖5.非獨(dú)立同分布推薦系統(tǒng)框架。
(4) 隱式用戶(hù)-物品非獨(dú)立同分布性。用戶(hù)-物品聯(lián)系的內(nèi)部及其之間的隱式非獨(dú)立同分布性存在于他(它)們的隱式屬性之間的交叉,如圖2中的表(D)所示??梢杂靡粋€(gè)用戶(hù)/物品隱式信息矩陣 D來(lái)表示。由于建立在屬性交叉和個(gè)性化特征上,隱式的用戶(hù)-物品的非獨(dú)立同分布性是客觀的。因此,隱式用戶(hù)-物品非獨(dú)立同分布性也稱(chēng)為客觀的用戶(hù)-物品非獨(dú)立同分布性。
表(A)中的最終評(píng)價(jià)反映出了表(B)~(D)中所體現(xiàn)的信息、交互及其協(xié)同作用的復(fù)合效應(yīng)。
6.2.用戶(hù)的非獨(dú)立同分布性
如圖2中的表(B)所示,用戶(hù)的非獨(dú)立同分布性RSB是嵌入到用戶(hù)信息表中的。它從用戶(hù)本身、用戶(hù)屬性值、用戶(hù)屬性和用戶(hù)組群等方面抓取了用戶(hù)之間的交互、聯(lián)系和影響。例如,如表(B)所示,用戶(hù)u1和用戶(hù)u2的年齡和性別不同,但是仍然有所聯(lián)系,因?yàn)樗麄兌甲≡谙つ岫夷挲g相仿。
相應(yīng)地,表(B)的用戶(hù)信息包含:
(1) 用戶(hù)內(nèi)非獨(dú)立同分布性Ba(·),它在用戶(hù)屬性值之中抓取了非獨(dú)立同分布性的價(jià)值矩陣(類(lèi)似于耦合行為分析中的觀念內(nèi)部耦合行為[38];感興趣的讀者可以參考文獻(xiàn)[39]中所提到的屬性值及其相似矩陣之間的內(nèi)部屬性相似性);
(2) 用戶(hù)間非獨(dú)立同分布性Be(·),它表示用戶(hù)屬性的非獨(dú)立同分布矩陣(類(lèi)似于耦合行為分析中所提到的行為相互耦合的概念;感興趣的讀者可以參照文獻(xiàn)[39]中所提到的屬性值及其相似矩陣之間屬性類(lèi)似性的概念);
(3) 用戶(hù)整體非獨(dú)立同分布性B(Ba(·), Be(·)),它將用戶(hù)內(nèi)非獨(dú)立同分布性和用戶(hù)間非獨(dú)立同分布性整合在一起,此處B()表示將Ba(·)和Be(·)整合在一起的函數(shù)(感興趣的讀者可以參照文獻(xiàn)[38]中的耦合行為矩陣和文獻(xiàn)[39]中的耦合目標(biāo)相似矩陣)。
上述用戶(hù)非獨(dú)立同分布性的幾個(gè)方面在整合之后,形成表(B)所示的非獨(dú)立同分布用戶(hù)空間RSB:
6.3.物品的非獨(dú)立同分布性
物品的非獨(dú)立同分布性RSC表示在物品信息——表(C)中。它體現(xiàn)在物品、物品屬性、物品屬性值和物品類(lèi)別之間的聯(lián)系和影響之中。例如,在表(C)中,物品i2和i3盡管都屬于同一類(lèi)別C2,卻在價(jià)格和子類(lèi)別中有所差異。
同樣地,物品信息,即表(C),嵌入了物品內(nèi)非獨(dú)立同分布性Ca(·)、物品間非獨(dú)立同分布性Ce(·)以及物品整體非獨(dú)立同分布性C(Ca(·), Ce(·)),此處C()表示將Ca(·)和Ce(·) 整合在一起的函數(shù)。
物品非獨(dú)立同分布性在上述幾個(gè)方面的整合之后,形成表(C)所示的用戶(hù)非獨(dú)立同分布空間RSC:
6.4.用戶(hù)-物品顯式非獨(dú)立同分布性
表(A)用戶(hù)-物品交互作用中的用戶(hù)-物品非獨(dú)立同分布性RSA通過(guò)評(píng)價(jià)反映了用戶(hù)同物品間的顯式而主觀的相互作用的影響。表(A)中的用戶(hù)-物品評(píng)價(jià)非獨(dú)立同分布性A(·) 可以進(jìn)一步分解為用戶(hù)-用戶(hù)評(píng)價(jià)的非獨(dú)立同分布性和物品-物品評(píng)價(jià)的非獨(dú)立同分布性。例如,在表(A)中,用戶(hù)u2和u3給予物品i1和i2相同評(píng)價(jià),卻給予i3不同評(píng)價(jià)。
相應(yīng)地,可以將A(·)按類(lèi)別分為用戶(hù)內(nèi)部評(píng)價(jià)的非獨(dú)立同分布性Aa(·)、物品之間評(píng)價(jià)的非獨(dú)立同分布性Ae(·),以及整體評(píng)價(jià)的非獨(dú)立同分布性 A(Aa(·), Ae(·)),此處A()表示將Aa(·)和Ae(·)整合在一起的函數(shù)。完整的顯式非獨(dú)立同分布下的用戶(hù)-物品相似性RSA可以表示為
式中,非獨(dú)立同分布Aj1,j2代表對(duì)于物品j1和j2之間所獲評(píng)價(jià)的非獨(dú)立同分布;非獨(dú)立同分布Ai1,i2代表對(duì)于用戶(hù)i1和i2之間評(píng)價(jià)的非獨(dú)立同分布。
現(xiàn)有的研究大都忽視了評(píng)價(jià)的非獨(dú)立同分布性。因此,顯式非獨(dú)立同分布的用戶(hù)-物品相似性 RSA簡(jiǎn)化為
式中,Ai,j代表偏好評(píng)價(jià)矩陣;A(·)為總體函數(shù)。
6.5.用戶(hù)-物品隱式的非獨(dú)立同分布性
推薦系統(tǒng)中最有趣也是最復(fù)雜的非獨(dú)立同分布存在于表(D)中,即用戶(hù)-物品的隱式、客觀的非獨(dú)立同分布RSD。它體現(xiàn)了用戶(hù)屬性和物品屬性之間隱式的但是客觀的相互作用。它的復(fù)雜性在于,表(D)中可能有著層次型的非獨(dú)立同分布,它們反映著表(B)和表(C)之間的交互和影響。
在表(D)中,具有下標(biāo)的單元,如“i1j1”,稱(chēng)為一個(gè)用戶(hù)-物品耦合單元。每個(gè)單元的非獨(dú)立同分布,即Di1j1,是由矩陣Ca和矩陣Ba的積(Ca為表示某個(gè)特定物品屬性qj1的矩陣,Ba為表示某個(gè)特定用戶(hù)屬性pj1的矩陣)來(lái)表示的。表(D)闡釋了單元內(nèi)和單元間的非獨(dú)立同分布性。
用戶(hù)-物品耦合單元Di1j1的隱式非獨(dú)立同分布11ijDRS或許可以理解為一個(gè)矩陣。它由兩部分構(gòu)成:①用戶(hù)i1的特定屬性在所有具有屬性值j1的物品上的非獨(dú)立同分布,即Da(Di1j1*) (1 ≤ j1*≤J);②物品j1的特定屬性在所有具有屬性值i1的用戶(hù)上的非獨(dú)立同分布,即De(Di1*j1) (1 ≤ i1*≤I)。
例如,在圖1中,SP表示某位用戶(hù)的性別和某種物品的價(jià)格之間的隱式關(guān)聯(lián)。此外,SP也可能被表(D)中的其他關(guān)聯(lián)所影響,如SC、NP和AP。例如,這三位用戶(hù)可能來(lái)自同一家庭,其中,Cindy和John可能是夫妻因而會(huì)影響對(duì)方做出評(píng)價(jià)。Julie可能是他們的女兒,也許對(duì)價(jià)格不敏感但是會(huì)更多地受到來(lái)自母親的影響??赡躂ohn關(guān)注質(zhì)量而Cindy對(duì)價(jià)格更敏感,Julie則傾向于做出平衡二者后的決策。此外,i2和i3可能屬于同一類(lèi)別的物品。
這樣,用戶(hù)-物品耦合單元的隱式非獨(dú)立同分布性由以下表達(dá)式來(lái)度量:
最后,隱含在表(D)中的總體用戶(hù)-物品隱式非獨(dú)立同分布RSD為所有用戶(hù)-物品耦合單元的非獨(dú)立同分布的集合,可表達(dá)為
此處,(i1≠ i2) (j1≠ j2) (1 ≤ i1, i2≤ I) (1 ≤ j1, j2≤ J)。
表(D)中用戶(hù)-物品整體隱式非獨(dú)立同分布由兩部分構(gòu)成:①單個(gè)用戶(hù)i1在所有物品屬性上的非獨(dú)立同分布Da(·),代表著不同物品屬性和同一用戶(hù)屬性之間的非獨(dú)立同分布;②單個(gè)物品j1在所有用戶(hù)屬性上的非獨(dú)立同分布De(·),代表著不同用戶(hù)屬性和某一特定物品屬性之間的非獨(dú)立同分布。用 RSD來(lái)表示這兩部分的耦合性。
RSD無(wú)法像RSA、RSB和RSC一樣用一個(gè)簡(jiǎn)單的矩陣來(lái)表達(dá)。從承載量和不同屬性、層面、形式之間的交互來(lái)說(shuō),它都比后者承載了更大量的信息。到目前為止,還沒(méi)有對(duì)非獨(dú)立同分布RSD展開(kāi)研究的工作。
用一個(gè)例子來(lái)說(shuō)明表(D)中的非獨(dú)立同分布,它包含表(D)中的單元CP。CP由CPa和CPe構(gòu)成,那么CPa表示某位用戶(hù)所在城市中所有物品價(jià)格間的聯(lián)系和差異,而CPe則計(jì)算出所有用戶(hù)城市針對(duì)物品屬性-價(jià)格的聯(lián)系和差異。
6.6.推薦系統(tǒng)非獨(dú)立同分布
基于上述存在于用戶(hù)、物品,以及用戶(hù)-物品的顯式/隱式交互中的非獨(dú)立同分布,我們先通過(guò)一個(gè)總體方程RSA+D(·) 來(lái)描繪一個(gè)完整的包含所有用戶(hù)-物品的推薦系統(tǒng)非獨(dú)立同分布,以便于將顯式用戶(hù)-物品非獨(dú)立同分布RSA和隱式用戶(hù)-物品非獨(dú)立同分布RSD結(jié)合在一起:
推薦系統(tǒng)問(wèn)題中完整的非獨(dú)立同分布定義如下。
定義1(推薦系統(tǒng)非獨(dú)立同分布)。一個(gè)推薦系統(tǒng)完整的非獨(dú)立同分布,即RS,為來(lái)自于四個(gè)方面的非獨(dú)立同分布的集合:表(B)中的用戶(hù)非獨(dú)立同分布RSB、表(C)中的物品非獨(dú)立同分布RSC、表(A)中的顯式用戶(hù)-物品非獨(dú)立同分布RSA,以及表(D)中的隱式用戶(hù)-物品非獨(dú)立同分布RSD。
式中,RS(·)為總體函數(shù)。
最后,我們定義非獨(dú)立同分布推薦系統(tǒng)。
定義2(非獨(dú)立同分布推薦系統(tǒng))。給定一個(gè)推薦系統(tǒng)問(wèn)題X,包含用戶(hù)信息矩陣B、物品信息矩陣C、評(píng)價(jià)矩陣A和環(huán)境E,一個(gè)非獨(dú)立同分布推薦系統(tǒng)會(huì)做到:
(1) 學(xué)習(xí)完整的非獨(dú)立同分布RS,包括學(xué)習(xí)評(píng)價(jià)的非獨(dú)立同分布RSA(A)、用戶(hù)非獨(dú)立同分布RSB(B)、物品非獨(dú)立同分布RSC(C)、顯式用戶(hù)-物品非獨(dú)立同分布RSD(B, C),以及它們的合成方法RS(·)。
(2) 學(xué)習(xí)環(huán)境E條件下的估計(jì)函數(shù)?N(),以近似地表達(dá)在現(xiàn)實(shí)世界中推薦問(wèn)題X的內(nèi)在本質(zhì)N():
(3) 優(yōu)化目標(biāo)函數(shù)[如損耗函數(shù)L() → 0]來(lái)獲得最為合適的近似估計(jì)?N。
如在6.2部分和6.3部分中所討論的,一個(gè)非獨(dú)立同分布推薦的例子是了解用戶(hù)和物品的耦合關(guān)系。對(duì)用戶(hù)/物品耦合建模的原理是:
(1) 學(xué)習(xí)用戶(hù)的相似性,即了解用戶(hù)自身屬性值之間、各用戶(hù)屬性之間和各用戶(hù)之間的相似性,從而歸納出值的相似性、屬性的相似性和用戶(hù)的相似性;
(2) 學(xué)習(xí)物品的相似性,類(lèi)似于學(xué)習(xí)用戶(hù)的相似性,了解物品自身屬性值之間、各物品屬性之間和各物品之間的相似性,并整合出值的相似性、屬性的相似性和物品的相似性;
(3) 集成用戶(hù)/物品的相似性,通過(guò)考慮不同層次用戶(hù)的相似性和物品的相似性整合用戶(hù)/物品的相似性。
一些前期工作已經(jīng)開(kāi)始在經(jīng)典的CF之上探索對(duì)用戶(hù)/物品耦合進(jìn)行建模,特別是MF的建模。例如:
(1) 基于耦合物品相似性的協(xié)同過(guò)濾 [11],其中,耦合物品的相似性以耦合對(duì)象相似性(文獻(xiàn)[39,40])的方式建模,這里通過(guò)合并耦合物品屬性的相似性并引入耦合K-模式算法來(lái)預(yù)測(cè)評(píng)價(jià)。
(2) 基于耦合物品相似性的MF [27],根據(jù)耦合對(duì)象相似性(文獻(xiàn)[39,40])來(lái)學(xué)習(xí)耦合物品的相似性,將這種相似性加入到MF的目標(biāo)函數(shù)中,以學(xué)習(xí)潛在的用戶(hù)和物品的關(guān)系矩陣。
(3) 基于耦合的用戶(hù)/物品相似性的MF [10],根據(jù)耦合對(duì)象相似性(文獻(xiàn)[39,40])學(xué)習(xí)耦合用戶(hù)相似性與耦合物品相似性,將兩者的相似性納入MF目標(biāo)函數(shù)用以?xún)?yōu)化。
表1展示了文獻(xiàn)[10]中關(guān)于耦合矩陣分解(CMF)與兩種CF方法的比較結(jié)果:基于用戶(hù)的CF(UBCF,它首先通過(guò)在評(píng)分矩陣Pearson相關(guān)計(jì)算用戶(hù)的相似性,然后根據(jù)這些用戶(hù)建議的相關(guān)物品給定用戶(hù)誰(shuí)擁有強(qiáng)關(guān)聯(lián))[16]和基于物品的CF(IBCF,它首先通過(guò)在評(píng)分矩陣Pearson相關(guān)考慮物品相似,之后推薦與給定用戶(hù)的物品興趣有強(qiáng)關(guān)聯(lián)的物品)[19]。在CMF的潛在維度100上,Movielens結(jié)果表明,CMF獲得0.49 %和2.42 %w.r.t.的平均絕對(duì)誤差(MAE)和0.18 %和19.54 %w.r.t.的均方根誤差(RMSE)。
Bookcrossing結(jié)果表明,CMF獲得33.02 %和31.03 %的平均絕對(duì)誤差(MAE),以及24.68 %和19.04 %的均方根誤差(RMSE)。這一結(jié)果表明,考慮到用戶(hù)/物品的耦合,CMF基本上擊敗了UBCF和IBCF方法。
CMF的上述結(jié)果表明,CMF采用了微觀的用戶(hù)/物品來(lái)形成對(duì)特定推薦問(wèn)題更全面的理解,從而彌補(bǔ)主觀評(píng)價(jià)的不足。因此,CMF擁有通用的和具體的建模能力,而基本的MF只體現(xiàn)在通用方面。此外,文獻(xiàn)[10,11,27]中的結(jié)果(有興趣的讀者可以在文獻(xiàn)[10,11,27]中找到詳細(xì)信息)顯示,在推薦系統(tǒng),耦合用戶(hù)相似性和耦合物品相似性的初步應(yīng)用,揭示了通過(guò)考慮微觀的屬性信息和關(guān)系可發(fā)掘出內(nèi)在的用戶(hù)和物品之間微觀的互動(dòng)與影響。
事實(shí)上,如在文獻(xiàn)[5]中所述,這樣的耦合關(guān)系尚未在經(jīng)典CF和其他推薦算法中考慮,這些算法忽視了物品屬性、用戶(hù)屬性和物品、用戶(hù)交互等的完整參與。這就解釋了為什么這樣的算法對(duì)特定工作并不十分適用,盡管它們提供了通用的并獨(dú)立于具體應(yīng)用的解決方案。
表1 數(shù)據(jù)集Movielens、Bookcrossing的耦合矩陣分解和協(xié)同過(guò)濾結(jié)果對(duì)比
現(xiàn)階段,基于推薦系統(tǒng)的研究正面臨著重大挑戰(zhàn)。一方面,許多經(jīng)典問(wèn)題尚未得到解決;另一方面,重大研究突破與系統(tǒng)創(chuàng)新越來(lái)越少。對(duì)所研究的推薦系統(tǒng)內(nèi)在的復(fù)雜性及其本質(zhì)的深入了解顯得越發(fā)重要。為此,我們必須掌握微觀數(shù)據(jù)的特征(特別是所推薦的用戶(hù)之間以及物品之間存在的復(fù)雜的耦合和異構(gòu)關(guān)系),進(jìn)而著眼于新一代非獨(dú)立同分布推薦系統(tǒng)的研究。
基于以上觀點(diǎn),盡管推薦系統(tǒng)已有眾多深入的研究,但未來(lái)仍面臨著各類(lèi)重大挑戰(zhàn),并同時(shí)具有很多在理論上突破的機(jī)遇。以下是對(duì)非獨(dú)立同分布推薦系統(tǒng)研究的五大基本原則的簡(jiǎn)單總結(jié)。
(1) 原則1。將微觀和分層變量以及值到對(duì)象(valueto-object)的映射(如用戶(hù)、物品、環(huán)境)的耦合關(guān)系整合到基于模型的方法中,通過(guò)創(chuàng)建數(shù)據(jù)和模型驅(qū)動(dòng)的推薦系統(tǒng)獲取合理的推薦。
(2) 原則2。抓取推薦模型中顯式/隱式變量、關(guān)系以及特定的異構(gòu)性特征,以便應(yīng)對(duì)推薦系統(tǒng)問(wèn)題可能存在的各個(gè)環(huán)節(jié)、各類(lèi)特征以及復(fù)雜性。
(3) 原則3。針對(duì)用戶(hù)、物品和用戶(hù)-物品交互,對(duì)非獨(dú)立同分布性進(jìn)行學(xué)習(xí)。除了對(duì)復(fù)雜交互的耦合學(xué)習(xí)[6]之外,非獨(dú)立同分布性的學(xué)習(xí)[5]還涉及多要素、類(lèi)型、形式、層次、結(jié)構(gòu)、分布、關(guān)系及其協(xié)同(更多的相關(guān)討論請(qǐng)參考引用的文獻(xiàn)[5,6,38]),而更具有挑戰(zhàn)性的是耦合與異構(gòu)學(xué)習(xí)的融合。
(4) 原則4。對(duì)圖2中的表(D)所示的用戶(hù)-物品的非獨(dú)立同分布性的建模。表(D)所展示的非獨(dú)立同分布性尚未在相關(guān)的領(lǐng)域中得到研究。對(duì)表(D)中隱式且復(fù)雜的用戶(hù)-物品交互的學(xué)習(xí)十分重要,因?yàn)樗鼈兪窃u(píng)分行為和偏好及其整個(gè)過(guò)程的主要?jiǎng)恿?。為此,我們必須學(xué)習(xí)多個(gè)矩陣的耦合以及矩陣間耦合的層次性。
(5) 原則5。將圖2中所有表格中的非獨(dú)立同分布性進(jìn)行整合。這包括主觀與客觀的耦合以及顯式與隱式的耦合,四個(gè)表格中包含了這些耦合且表現(xiàn)形式是不同的。
第6部分提出的非獨(dú)立同分布推薦系統(tǒng)框架在理論和系統(tǒng)創(chuàng)新,解決現(xiàn)存典型難題,提供合理的、相關(guān)的、個(gè)性化的以及可執(zhí)行的推薦等方面都具有重大潛力。此外,現(xiàn)有大部分的工作[41](包括對(duì)社會(huì)關(guān)系的引入、跨域以及跨群組)只討論了一些特定的案例或僅僅解決了所述的非獨(dú)立同分布推薦系統(tǒng)框架的某些特殊的議題。
特別地,以下對(duì)非獨(dú)立同分布推薦系統(tǒng)研究的一些延伸與實(shí)例化的可能性展開(kāi)討論。
(1) 物品耦合關(guān)系建模。對(duì)物品內(nèi)部以及物品間的耦合關(guān)系進(jìn)行建模,將它們的相似性整合到已有的學(xué)習(xí)模型中,可以大幅提升基本模型的功能以滿足物品間的交互與關(guān)聯(lián)挖掘的需求。
(2) 提高對(duì)用戶(hù)的分析與建模的能力。現(xiàn)有模型往往僅側(cè)重某類(lèi)用戶(hù)信息或某方面的建模分析,如所謂的用戶(hù)本體分析、社交用戶(hù)分析、隱式分析、顯式分析、基于CF的分析以及基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用的分析等,在分析與建模過(guò)程中利用完整的用戶(hù)信息[42,43]可以有效地彌補(bǔ)現(xiàn)有模型的這些不足。
(3) 社會(huì)關(guān)系建模。把用戶(hù)耦合關(guān)系作為獨(dú)立主題(如用戶(hù)好友關(guān)系或用戶(hù)間的推特發(fā)布及轉(zhuǎn)發(fā))或多個(gè)主題(如同時(shí)模擬用戶(hù)好友關(guān)系和用戶(hù)形象)進(jìn)行建模,這類(lèi)在推薦系統(tǒng)的社交媒體中的社會(huì)關(guān)系的建模是我們所提出的非獨(dú)立同分布推薦系統(tǒng)的一個(gè)特例。事實(shí)上,針對(duì)單個(gè)用戶(hù)屬性或多個(gè)用戶(hù)屬性的用戶(hù)耦合關(guān)系的建??梢蕴岢鲈S多不同算法。這里的主要區(qū)別在于不僅對(duì)用戶(hù)內(nèi)在的屬性耦合而且對(duì)用戶(hù)之間關(guān)系屬性的耦合關(guān)系進(jìn)行建模。
(4) 處理關(guān)注度偏差。在大量長(zhǎng)尾物品中經(jīng)常只有一小部分的人氣物品,這將引起數(shù)據(jù)稀疏和覆蓋不足等問(wèn)題[44]。從非獨(dú)立同分布的視角,對(duì)較有人氣和冷門(mén)(rare)的用戶(hù)/商品的相似性進(jìn)行建模,可以補(bǔ)充有效打分信息的缺失。這就在現(xiàn)有數(shù)據(jù)降維和基于圖數(shù)據(jù)傳遞關(guān)系之上建立了一個(gè)新的視角來(lái)連接人氣物品評(píng)分和冷門(mén)商品評(píng)分。對(duì)此感興趣的讀者可以參考文獻(xiàn)[45],從文檔分析中關(guān)鍵詞的間接聯(lián)系可以得到有用的啟發(fā)。
(5) 跨域推薦建模??缬蛲扑]用來(lái)向本域的用戶(hù)推薦另一個(gè)域的物品[46]。當(dāng)關(guān)注物品的域信息(如品類(lèi)和子品類(lèi)、產(chǎn)品類(lèi)型和使用目的)時(shí),對(duì)物品耦合性的學(xué)習(xí)可被認(rèn)為特指對(duì)跨域要素的學(xué)習(xí)。與用戶(hù)耦合建模類(lèi)似,針對(duì)跨域物品耦合模型,不管是單個(gè)還是多個(gè)物品的屬性,可以提出多種不同的算法。物品內(nèi)部以及物品之間屬性的相似性都需要進(jìn)行學(xué)習(xí)。例如,文獻(xiàn)[24,25]就對(duì)跨域推薦進(jìn)行了建模。部分相關(guān)工作用到了遷移學(xué)習(xí)[46,47],這些其實(shí)屬于上文所述跨域建模的一些特殊例子。當(dāng)源和目標(biāo)域具有差異性時(shí),當(dāng)前的遷移學(xué)習(xí)可能并不有效。非獨(dú)立同分布推薦則可以通過(guò)源和目標(biāo)域之間的非獨(dú)立同分布性的建模發(fā)揮良好的作用。
(6) 群組推薦建模。這是通過(guò)用戶(hù)分組建模對(duì)用戶(hù)耦合性學(xué)習(xí)的另一個(gè)特殊例子。例如,文獻(xiàn)[23]中所涉及的工作即對(duì)群的偏好進(jìn)行了建模。在文獻(xiàn)[27]中提出了基于群的矩陣分解算法(CGMF),這種算法在考慮用戶(hù)組內(nèi)組外耦合關(guān)系的同時(shí),增加了社交媒體中的用戶(hù)分組以適應(yīng)某類(lèi)特定群組的特征。更為復(fù)雜的是,當(dāng)一個(gè)推薦問(wèn)題涉及系統(tǒng)嵌套的現(xiàn)象時(shí)[48],如何對(duì)跨組的偏好和差異進(jìn)行合理的建模。此時(shí)我們需要學(xué)習(xí)群之間的非獨(dú)立同分布性。
(7) 冷啟動(dòng)問(wèn)題。這主要涉及預(yù)測(cè)新物品評(píng)分或向新用戶(hù)推薦現(xiàn)有物品[49-53]。需要解決長(zhǎng)尾以及新的用戶(hù)/物品由于得到的反饋遠(yuǎn)低于(甚至沒(méi)有)人氣用戶(hù)/物品而無(wú)法進(jìn)行準(zhǔn)確建模的問(wèn)題。根據(jù)非獨(dú)立同分布推薦的原則,這一問(wèn)題可能通過(guò)對(duì)非獨(dú)立同分布的用戶(hù)和(或)物品的相似性進(jìn)行建模得到解決,依據(jù)這些相似性,向新用戶(hù)或新物品提供相應(yīng)的推薦。
(8) 欺詐攻擊問(wèn)題。出于一些不正當(dāng)?shù)哪康模瑫?huì)產(chǎn)生許多虛假評(píng)分[54]。通過(guò)對(duì)用戶(hù)和物品真正的非獨(dú)立同分布性的建模,以識(shí)別出與模型結(jié)果不一致、相偏離的評(píng)分,虛假評(píng)分問(wèn)題可能得到解決(感興趣的讀者可以參考文獻(xiàn)[55]中介紹的耦合孤立點(diǎn)檢測(cè)方法)。
(9) 情境感知推薦。對(duì)情境推薦[56]的一般理解可以被認(rèn)為是在一定的用戶(hù)/物品限制條件下進(jìn)行推薦或者假設(shè),如表(B)和表(C)中所列在某個(gè)特定用戶(hù)/物品集條件下進(jìn)行推薦,因此從非獨(dú)立同分布用戶(hù)/物品的視角對(duì)相應(yīng)的非獨(dú)立同分布性進(jìn)行建模,就可以有效解決此類(lèi)問(wèn)題。此外,當(dāng)?shù)仁?14)中的環(huán)境E不包含用戶(hù)/物品信息時(shí),如當(dāng)E代表推薦問(wèn)題中可能涉及的季節(jié)、經(jīng)濟(jì)或社會(huì)文化因素時(shí),我們需要通過(guò)加入第五個(gè)表格(E)來(lái)獲取情境信息,以考慮環(huán)境和用戶(hù)/物品之間的相互作用。對(duì)于這種情況,推薦理論需要處理定義2中所列的目標(biāo)。
(10) 面向推薦的人機(jī)交互。主要涉及:①對(duì)表(B)中所列用戶(hù)信息的高效全面的采集與應(yīng)用;以及②將人類(lèi)定性的智慧作為計(jì)算/決策組件的一部分,與推薦系統(tǒng)相融合。對(duì)圖1中表(B)中用戶(hù)非獨(dú)立同分布性的學(xué)習(xí)可以解決目標(biāo)1。例如,基于用戶(hù)對(duì)物品的偏好與觀點(diǎn)的建模是圖2中表(D)所示用戶(hù)-物品耦合學(xué)習(xí)的一個(gè)特例,它僅著眼于對(duì)用戶(hù)評(píng)論的理解。目標(biāo)2涵蓋了多方面人類(lèi)定性的智慧[48],這些內(nèi)容無(wú)法通過(guò)數(shù)據(jù)源直接獲取,但對(duì)高質(zhì)量的推薦十分重要。許多跨學(xué)科的研究機(jī)會(huì)可能涌現(xiàn),如對(duì)人類(lèi)感知、認(rèn)知、心理和社會(huì)文化等方面的認(rèn)識(shí),以及對(duì)人類(lèi)智慧如何影響某個(gè)推薦的采納與作用的理解;對(duì)人類(lèi)決策與選擇的學(xué)習(xí);對(duì)人的個(gè)性與偏好的表達(dá)與了解;對(duì)信用和隱私及它們?cè)谀硞€(gè)群組和群體場(chǎng)景下的推論的模擬;將真實(shí)的用戶(hù)需求與期望模型化;以及對(duì)個(gè)體或群組在推薦和決策過(guò)程中涉及的情感、人際交往、經(jīng)驗(yàn)、態(tài)度和動(dòng)機(jī)等因素進(jìn)行建模[2]。本研究將導(dǎo)向基于人機(jī)交互的人機(jī)合作式的或者以人為本的推薦系統(tǒng)[57],并促進(jìn)人類(lèi)與機(jī)器智能的融合[58]。
(11) 眾包的推薦系統(tǒng)。這一系統(tǒng)涉及多角色,包括任務(wù)/服務(wù)請(qǐng)求者、工作人員和供應(yīng)商;而且是多目標(biāo)的[59,60]:包括獎(jiǎng)勵(lì)、配送的成本效益、技能匹配、總體任務(wù)完成率和累計(jì)傭金等。推薦可以在多目標(biāo)的優(yōu)化過(guò)程中發(fā)揮作用。如果我們能獲取不同用戶(hù)的角色、任務(wù)描述以及優(yōu)化目標(biāo)等信息,這一問(wèn)題就可以被映射為一個(gè)多視角問(wèn)題:一個(gè)多類(lèi)型用戶(hù)信息表、一個(gè)任務(wù)信息表以及一個(gè)優(yōu)化目標(biāo)表,分別可以對(duì)應(yīng)為圖1中的表(A)~(C)。由此,本文所提出的非獨(dú)立同分布推薦可以應(yīng)用于優(yōu)化眾包。
在社交媒體、電子商務(wù)、移動(dòng)服務(wù)以及廣告等數(shù)據(jù)經(jīng)濟(jì)與商業(yè)活動(dòng)中,推薦系統(tǒng)扮演了日益重要的角色。當(dāng)前的推薦理論和系統(tǒng)主要建立在被推薦的物品和接收推薦信息的用戶(hù)呈現(xiàn)獨(dú)立而且同分布的假設(shè)之上。本研究分析了圍繞獨(dú)立同分布理論的若干問(wèn)題,并基于對(duì)用戶(hù)與用戶(hù)、物品與物品以及用戶(hù)與物品之間的耦合性和異構(gòu)性的考量,將非獨(dú)立同分布性引入推薦功能中來(lái)。介紹了非獨(dú)立同分布推薦框架用來(lái)整合顯式與隱式、主觀與客觀、本地與全局的非獨(dú)立同分布性。這一非獨(dú)立同分布框架對(duì)現(xiàn)有推薦理論和系統(tǒng)提出了挑戰(zhàn),并將帶來(lái)重大的理論突破,同時(shí)大大激發(fā)了下一代推薦研究與應(yīng)用的創(chuàng)新機(jī)會(huì)。
非獨(dú)立同分布性的學(xué)習(xí)是數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析領(lǐng)域的一個(gè)重大挑戰(zhàn)。它提出了在遇到數(shù)據(jù)分析、信息處理、統(tǒng)計(jì)、模式識(shí)別以及學(xué)習(xí)系統(tǒng)等領(lǐng)域的經(jīng)典理論和工具時(shí)所面臨的一些關(guān)鍵問(wèn)題。希望本研究對(duì)非獨(dú)立同分布推薦的一些探索,以及其他議題的討論有所啟發(fā),形成一個(gè)從獨(dú)立同分布學(xué)習(xí)向非獨(dú)立同分布學(xué)習(xí)思維的轉(zhuǎn)變,以期能為理論的突破與實(shí)踐的提升做出貢獻(xiàn)。
[1] Jannach D, Zanker M, Felfernig A, Friedrich G.Recommender systems: an introduction.Cambridge: Cambridge University Press; 2010.
[2] Ricci F, Rokach L, Shapira B, Kantor PB, editors.Recommender systems handbook.2nd ed.New York: Springer; 2015.
[3] Cao L.Data science: a comprehensive overview.Technical report.Sydney: University of Technology Sydney; 2016.
[4] McKinsey Global Institute; Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, et al.Big data: the next frontier for innovation, competition, and productivity.New York: McKinsey Global Institute; 2011.
[5] Cao L.Non-IIDness learning in behavioral and social data.Comput J 2014;57(9):1358-70.
[6] Cao L.Coupling learning of complex interactions.Inform Process Manag 2015;51(2):167-86.
[7] Cao L.In-depth behavior understanding and use: the behavior informatics approach.Inform Sciences 2010;180(17):3067-85.
[8] Cao L.Yu PS, editors.Behavior computing: modeling, analysis, mining and decision.London: Springer; 2012.
[9] Fu B, Xu G, Cao L, Wang Z, Wu Z.Coupling multiple views of relations for recommendation.In: Cao T, Lim EP, Zhou ZH, Ho TB, Cheung D, Motoda H, editors Advances in Knowledge Discovery and Data mining: 19th Pacific-Asia Conference, Part II; 2015 May 19-22; Ho Chi Minh City, Vietnam.Switzerland: Springer International Publishing; 2015.p.723-43.
[10] Li T, Lu J, López LM.Preface: intelligent techniques for data science.Int J Intell Syst 2015;30(8):851-3.
[11] Yu Y, Wang C, Gao Y, Cao L, Chen X.A coupled clustering approach for items recommendation.In: Pei J, Tseng VS, Cao L, Motoda H, Xu G, editors Advances in Knowledge Discovery and Data mining: 17th Pacific-Asia Conference, Part II; 2013 Apr 14-17; Gold Coast, Australia.Heidelberg: Springer; 2013.p.365-76.
[12] Cao L, Yu PS.Non-IID recommendation theories and systems.IEEE Intell Syst 2016;31(2):81-4.
[13] Cao L.Data science and analytics: a new era.Int J Data Sci Analyt 2016;1(1):1-2.
[14] Cao L.Data science: intrinsic challenges and directions.Technical report.Sydney: University of Technology Sydney; 2016.
[15] Cao L.Data science: nature and pitfalls.Technical report.Sydney: University of Technology Sydney; 2016.
[16] Su X, Khoshgoftaar TM.A survey of collaborative filtering techniques.Adv Artif Intell 2009;2009(4):1-19.
[17] Koren Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model.In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; 2008 Aug 24-27; New York, USA; 2008.p.426-34.
[18] Sarwar B, Karypis G, Konstan J, Riedl J.Item-based collaborative filtering recommendation algorithms.In: Proceedings of the 10th International Conference on the World Wide Web; 2001 May 1-5; Hong Kong, China; 2001.p.285-95.
[19] Deshpande M, Karypis G.Item-based top-N recommendation algorithms.ACM Trans Inform Syst 2004;22(1):143-77.
[20] Ma H, Yang H, Lyu MR, King I.SoRec: social recommendation using probabilistic matrix factorization.In: Proceedings of the 17th ACM Conference on Information and Knowledge Management; 2008 Oct 26-30; Napa Valley, CA, USA; 2008.p.931-40.
[21] Ma H.An experimental study on implicit social recommendation.In: Proceedings of the 36th International ACM SIGIR conference on Research and Development in Information Retrieval; 2013 Jul 28-Aug 1; Dublin, Ireland; 2013.p.73-82.
[22] Singh AP, Gordon GJ.Relational learning via collective matrix factorization.In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; 2008 Aug 24-27; Las Vegas, NV, USA; 2008.p.650-8.
[23] Hu L, Cao J, Xu G, Cao L, Gu Z, Cao W.Deep modeling of group preferences for group-based recommendation.In: Proceedings of the 28th AAAI Conference on Artificial Intelligence; 2014 Jul 27-31; Québec City, Canada; 2014.p.1861-7.
[24] Hu L, Cao J, Xu G, Wang J, Gu Z, Cao L.Cross-domain collaborative filtering via bilinear multilevel analysis.In: Proceedings of the 23rd International Joint Conference on Artificial Intelligence; 2013 Aug 3-9; Beijing, China; 2013.p.1-7.
[25] Hu L, Cao J, Xu G, Cao L, Gu Z, Zhu C.Personalized recommendation via cross-domain triadic factorization.In: Proceedings of the 22nd International Conference on World Wide Web; 2013 May 13-17; Rio de Janeiro, Brazil; 2013.p.595-606.
[26] Yang X, Steck H, Liu Y.Circle-based recommendation in online social networks.In: Proceedings of the 18th ACM SIGKDD Knowledge Discovery and Data Mining; 2012 Aug 12-16; Beijing, China; 2012.p.1267-75.
[27] Li F, Xu G, Cao L, Fan X, Niu Z.CGMF: coupled group-based matrix factorization for recommender system.In: Lin X, Manolopoulos Y, Srivastava D, Huang G, editors Web Information Systems Engineering-WISE 2013: 14th International Conference, Part I; 2013 Oct 13-15; Nanjing, China.Heidelberg: Springer.2013.p.189-98.
[28] Breese JS, Heckerman D, Kadie C.Empirical analysis of predictive algorithms for collaborative filtering.In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence; 1998 Jul 24-26; Madison, WI, USA.San Francisco: Morgan Kaufmann Publishers Inc.; 1998.p.43-52.
[29] Resnick P, Iacovou N, Suchak M, Bergstrom P, Riedl J.GroupLens: an open architecture for collaborative filtering of netnews.In: Proceedings of ACM 1994 Conference on Computer Supported Cooperative Work; 1994 Oct 22-26; Chapel Hill, NC, USA; 1994.p.175-86.
[30] Alter O, Brown PO, Botstein D.Singular value decomposition for genome-wide expression data processing and modeling.Proc Natl Acad Sci USA 2000;97(18):10101-6.
[31] Salakhutdinov R, Mnih A.Probabilistic matrix factorization.In: Platt JC, Koller D, Singer Y, Roweis ST, editors Proceedings of the 21st Annual Conference on Neural Information Processing Systems 2007; 2007 Dec 3-6; Vancouver, Canada; 2007.p.1257-64.
[32] Burke R.Hybrid web recommender systems.In: Brusilovsky P, Kobsa A, Nejdl W, editors The adaptive web.Heidelberg: Springer; 2007.p.377-408.
[33] Burke R.Hybrid recommender systems: survey and experiments.User Model User-Adapt Interac 2002;12(4):331-70.
[34] Lv LL, Medo M, Yeung CH, Zhang YC, Zhang ZK, Zhou T.Recommender systems.Phys Rep 2012;519(1):1-49.
[35] Konstan JA, Riedl J.Recommender systems: from algorithms to user experience.User Model User-Adapt Interact 2012;22(1):101-23.
[36] Bobadilla J, Ortega F, Hernando A, Gutiérrez A.Recommender systems survey.Knowl-Based Syst 2013;46:109-32.
[37] Park DH, Kim HK, Choi IY, Kim JK.A literature review and classification of recommender systems research.Expert Syst Appl 2012;39(11):10059-72.
[38] Cao L, Ou Y, Yu PS.Coupled behavior analysis with applications.IEEE Trans Knowl Data Eng 2012;24(8):1378-92.
[39] Wang C, Dong X, Zhou F, Cao L, Chi CH.Coupled attribute similarity learning on categorical data.IEEE Trans Neural Netw Learn Syst 2015;26(4):781-97.
[40] Wang C, Cao L, Wang M, Li J, Wei W, Ou Y.Coupled nominal similarity in unsupervised learning.In: Proceedings of the 20th ACM Conference on Information and Knowledge Management; 2011 Oct 24-28; Glasgow, UK; 2011.p.973-8.
[41] Chen L, Zeng W, Yuan Q.A unified framework for recommending items, groups and friends in social media environment via mutual resource fusion.Expert Syst Appl 2013;40(8):2889-903.
[42] Nadee W.Modeling user profiles for recommender systems [dissertation].Brisbane: Queensland University of Technology; 2016.
[43] Li R, Wang S, Deng H, Wang R, Chang KCC.Towards social user profiling: unified and discriminative influence model for inferring home locations.In: Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; 2012 Aug 12-16; Beijing, China; 2012.p.1023-31.
[44] Popescul A, Ungar LH, Pennock DM, Lawrence S.Probabilistic models for unified collaborative and content-based recommendation in sparse-data environments.In: Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence; 2001 Aug 2-5; Seattle, WA, USA.San Francisco: Morgan Kaufmann Publishers Inc.; 2001.p.437-44.
[45] Chen Q, Hu L, Xu J, Liu W, Cao L.Document similarity analysis via involving both explicit and implicit semantic couplings.In: Proceedings of IEEE Data Science and Advanced Analytics 2015; 2015 Oct 19-21; Paris, France; 2015.p.1-10.
[46] Jiang M, Cui P, Chen X, Wang F, Zhu W, Yang S.Social recommendation with cross-domain transferable knowledge.IEEE Trans Knowl Data Eng 2015;27(11):3084-97.
[47] Pan W, Yang Q.Transfer learning in heterogeneous collaborative filtering domains.Artif Intell 2013;197:39-55.
[48] Cao L.Metasynthetic computing and engineering of complex systems.London: Springer-Verlag; 2015.
[49] Son LH.Dealing with the new user cold-start problem in recommender systems: a comparative review.Inform Syst 2016;58:87-104.
[50] Gantner Z, Drumond L, Freudenthaler C, Rendle S, Schmidt-Thieme L.Learning attribute-to-feature mappings for cold-start recommen-dations.In: Proceedings of the 10th IEEE International Conference on Data Mining; 2010 Dec 13-17; Sydney, Australia; 2010.p.176-85.
[51] Mirbakhsh N, Ling CX.Improving top-N recommendation for cold-start users via cross-domain information.ACM Trans Knowl Discov Data 2015;9(4):33.
[52] Lika B, Kolomvatsos K, Hadjiefthymiades S.Facing the cold start problem in recommender systems.Expert Syst Appl 2014;41(4):2065-73.
[53] Gao H, Tang J, Liu H.Addressing the cold-start problem in location recommendation using geo-social correlations.Data Min Knowl Disc 2015;29(2):299-323.
[54] Gunes I, Kaleli C, Bilge A, Polat H.Shilling attacks against recommender systems: a comprehensive survey.Artif Intell Rev 2014;42(4):767-99.
[55] Pang G, Cao L, Chen L.Outlier detection in complex categorical data by modelling the feature value couplings.In: Proceedings of the 25th International Joint Conference on Artificial Intelligence 2016; 2016 Jul 9-15; New York, NY, USA; 2016.p.1-7.
[56] Hidasi B, Tikk D.General factorization framework for context-aware recommendations.Data Min Knowl Disc 2016;30(2):342-71.
[57] Jacko JA, editor.The human-computer interaction handbook: fundamentals, evolving technologies and emerging applications.3rd ed.Boca Raton: CRC Press; 2006.
[58] Qian XS, Yu JY, Dai RW.A new discipline of science-the study of open complex giant system and its methodology.Chin J Syst Eng Electron 1993;4(2):2-12.
[59] Liu X, Nielek R, Adamska P, Wierzbicki A, Aberer K.Towards a highly effective and robust Web credibility evaluation system.Decis Support Syst.2015;79:99-108.
[60] Aldhahri E, Shandilya V, Shiva S.Towards an effective crowdsourcing recommendation system: a survey of the state-of-the-art.In: Proceedings of the 2015 IEEE Symposium on Service-Oriented System Engineering; 2015 Mar 30-Apr 3; San Francisco Bay, CA, USA; 2015.p.372-7.
* Corresponding author.
E-mail address: longbing.cao@gmail.com
2095-8099/? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
英文原文: Engineering 2016, 2(2): 212-224
Longbing Cao.Non-IID Recommender Systems: A Review and Framework of Recommendation Paradigm Shifting.Engineering, http://dx.doi.org/10.1016/J.ENG.2016.02.013