臧振春, 崔春生
(1.周口師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南 周口 466001; 2.河南財(cái)經(jīng)政法大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 鄭州 450046)
電子商務(wù)推薦系統(tǒng)[1]已成為全球電子商務(wù)網(wǎng)站提升銷(xiāo)售業(yè)績(jī)的一項(xiàng)重要營(yíng)銷(xiāo)工具,并引起了學(xué)者及業(yè)界的廣泛興趣和關(guān)注。它是一個(gè)涵蓋心理學(xué)、人工智能、管理學(xué)、計(jì)算機(jī)可學(xué)等多學(xué)科的研究領(lǐng)域[2]。電子商務(wù)推薦系統(tǒng)是解決信息超載問(wèn)題的有效途徑之一[3],它根據(jù)用戶(hù)的個(gè)性需求、興趣等,將產(chǎn)品或信息推薦給特定用戶(hù)。
推薦系統(tǒng)的研究包括輸入、算法和輸出三個(gè)內(nèi)容,其中算法作為系統(tǒng)的黑匣決定了推薦結(jié)果的有效性影響了推薦質(zhì)量,是推薦系統(tǒng)中的核心和關(guān)鍵。目前,主流的推薦算法包括協(xié)同過(guò)濾推薦、基于內(nèi)容推薦、基于知識(shí)推薦和組合推薦四種[2]。協(xié)同過(guò)濾是研究最為成熟和廣泛的一種算法,它主要通過(guò)識(shí)別用戶(hù)的鄰居用戶(hù),根據(jù)其生成產(chǎn)品的評(píng)價(jià)分類(lèi);內(nèi)容推薦算法是根據(jù)用戶(hù)的評(píng)價(jià)生成產(chǎn)品的分類(lèi),這種算法因特征提取的難題客觀存在,在發(fā)展的過(guò)程中受到了阻礙;組合推薦算法是唯一能夠使其他算法的缺點(diǎn)得到補(bǔ)償?shù)囊环N有效算法[4,5],大部分研究和應(yīng)用是對(duì)基于內(nèi)容的推薦和協(xié)同過(guò)濾推薦進(jìn)行組合。比較而言,知識(shí)推薦算法發(fā)展緩慢,該算法通過(guò)計(jì)算產(chǎn)品屬性和用戶(hù)需求的匹配程度達(dá)到有效推薦的目的。在大數(shù)據(jù)時(shí)代,人工智能技術(shù)發(fā)展迅速,“推理”成為一種重要的問(wèn)題解決手段,因此加大對(duì)知識(shí)推薦的認(rèn)識(shí)和研究顯得至關(guān)重要。
基于知識(shí)推薦[6]的本質(zhì)是一種決策推理技術(shù),借助用戶(hù)知識(shí)和產(chǎn)品知識(shí)的思想,通過(guò)前期的學(xué)習(xí),挖掘用戶(hù)的偏好興趣,進(jìn)而推理產(chǎn)品知識(shí)滿足用戶(hù)需求的程度,以此向用戶(hù)提供推薦。基于知識(shí)推薦算法運(yùn)用了“功能知識(shí)”的概念,認(rèn)為功能知識(shí)是某個(gè)產(chǎn)品的屬性(或性質(zhì))能夠滿足特定用戶(hù)的知識(shí)。功能知識(shí)在用戶(hù)知識(shí)和產(chǎn)品知識(shí)之間建立起了某種內(nèi)在的聯(lián)系,它能解釋用戶(hù)需要和產(chǎn)品推薦之間的聯(lián)系?!肮δ苤R(shí)”構(gòu)建的用戶(hù)模型可以是任何知識(shí),并非一定是用戶(hù)的需求和偏好,只要能支持系統(tǒng)推理即可。例如:Google采用的是兩個(gè)網(wǎng)頁(yè)之間的鏈接關(guān)系,以此推斷某網(wǎng)頁(yè)的權(quán)威度(Authoritative Value)和流行度(Popularity Value)[7]。Quickstep and foxtrot systems[8]使用關(guān)于學(xué)術(shù)論文主題的本體知識(shí)庫(kù)向讀者推薦,蒲珊珊[9]等提出一種考慮知識(shí)互補(bǔ)的專(zhuān)家推薦模型,以此來(lái)探究專(zhuān)家的知識(shí)結(jié)構(gòu)與學(xué)術(shù)影響力,發(fā)現(xiàn)最佳的科研合作團(tuán)隊(duì)。基于知識(shí)的推薦缺點(diǎn)在于個(gè)性化程度不及協(xié)同過(guò)濾,但只要依據(jù)合理的知識(shí)推理,它的推薦結(jié)果就能為多數(shù)用戶(hù)接受,所以在某種程度上可以緩解“信息繭房”的出現(xiàn),換句話說(shuō)這種方法得到的推薦結(jié)果更多的都是非個(gè)性化推薦。另外,該技術(shù)的難點(diǎn)在于知識(shí)的表達(dá)和知識(shí)的獲取。
協(xié)同過(guò)濾對(duì)冷啟動(dòng)問(wèn)題的敏感度較高,在評(píng)分?jǐn)?shù)據(jù)不足時(shí)得到的推薦質(zhì)量偏低;再者,協(xié)同過(guò)濾和內(nèi)容推薦算法的時(shí)間敏感度也比較高,在時(shí)間跨度較大的情況下,用戶(hù)興趣的漂移會(huì)使推薦的“精準(zhǔn)”問(wèn)題大打折扣。知識(shí)推薦的優(yōu)點(diǎn)在于它不須要評(píng)分?jǐn)?shù)據(jù),因此不存在啟動(dòng)問(wèn)題,也不存在數(shù)據(jù)的稀疏性問(wèn)題,僅僅依賴(lài)于知識(shí)庫(kù)中的“知識(shí)規(guī)則”或關(guān)聯(lián)關(guān)系得到推薦結(jié)果。知識(shí)推薦廣義上“是以一種個(gè)性化方法引導(dǎo)用戶(hù)在大量潛在候選產(chǎn)品中找到感興趣或?qū)嵱玫漠a(chǎn)品”的系統(tǒng),所以該方法得到的“新穎度”較高,一直受到資深網(wǎng)民的追捧。但是基于知識(shí)推薦過(guò)程又是一個(gè)交互式的過(guò)程,用戶(hù)必須指定需求,然后系統(tǒng)設(shè)法給出合適的產(chǎn)品;如果找不到,用戶(hù)必須修改需求,在這樣的多輪交互過(guò)程中,可以讓系統(tǒng)提升對(duì)用戶(hù)需求的了解程度。基于知識(shí)的推薦有兩種思路,一是根據(jù)用戶(hù)需求,依據(jù)相似度計(jì)算方法尋找相似的產(chǎn)品;二是完全依賴(lài)系統(tǒng)中定義的推薦規(guī)則進(jìn)行一對(duì)一的匹配。兩種思路異曲同工,都是在尋求用戶(hù)需求和產(chǎn)品特征的匹配關(guān)系。
知識(shí)推薦算法的根本是產(chǎn)品特征與用戶(hù)需求的匹配,其難點(diǎn)在于產(chǎn)品屬性特征和用戶(hù)需求均屬非結(jié)構(gòu)化的問(wèn)題,因此在數(shù)據(jù)處理方面有一定的難度。其次,產(chǎn)品特征的描述也是困難之一,這個(gè)問(wèn)題同樣存在于內(nèi)容推薦算法中,這是協(xié)同過(guò)濾推薦算法較內(nèi)容推薦算法研究廣泛的原因之一。第三,用戶(hù)需求的描述也存在一定的困難。伴隨社會(huì)經(jīng)濟(jì)的發(fā)展,中國(guó)的市場(chǎng)早已從賣(mài)方市場(chǎng)轉(zhuǎn)入買(mǎi)方市場(chǎng),商品的極大豐富使中國(guó)的老百姓早已滿足馬斯洛需求層次理論中的低層次需求,進(jìn)而轉(zhuǎn)向高層次的個(gè)性化需求階段,個(gè)性化需求的捕捉描述成為推薦系統(tǒng)研究中的難點(diǎn)之一。
論文正是基于以上問(wèn)題,借助Vague集理論和方法解決知識(shí)推薦中存在的問(wèn)題,優(yōu)化和改進(jìn)知識(shí)推薦算法。因而,本文的主要工作體現(xiàn)在以下幾個(gè)方面。第一,借助內(nèi)容推薦算法中的優(yōu)秀成果,將其屬性描述的手段移植到本研究中,并基于知識(shí)推薦中“屬性——需求匹配”的思想,借助Vague集理論對(duì)產(chǎn)品特征的描述進(jìn)行優(yōu)化。第二,在用戶(hù)需求抓取方面,視用戶(hù)需求為系統(tǒng)中的輸入數(shù)據(jù),從顯式輸入和隱式輸入兩個(gè)角度入手,借助Vague集理論合理的描述用戶(hù)的需求。在顯示輸入方面,抓取用戶(hù)注冊(cè)信息,評(píng)分記錄等有價(jià)值的信息;在隱式瀏覽輸入方面,抓取用戶(hù)瀏覽記錄、瀏覽時(shí)間、訪問(wèn)路徑、網(wǎng)絡(luò)行為(購(gòu)買(mǎi)、收藏、下載、轉(zhuǎn)載、分享、評(píng)論、點(diǎn)贊等),進(jìn)而定義用戶(hù)的需求。第三,從產(chǎn)品特征和用戶(hù)需求出發(fā),借助相似度或關(guān)聯(lián)性的計(jì)算,尋找兩者的匹配關(guān)系,進(jìn)而達(dá)到推薦的目的。
在Fuzzy集基礎(chǔ)上,Gau和Buehree[10]于1993年根據(jù)Fuzzy集的特征,通過(guò)引入真隸屬度和假隸屬度的方式來(lái)推廣Fuzzy集,提出了Vague集的概念。Vague集的一個(gè)重要特點(diǎn)是,能夠分別以真隸屬度函數(shù)與假隸屬度函數(shù)表示模糊信息的兩個(gè)方面,其中真隸屬度即實(shí)際信息中對(duì)研究對(duì)象隸屬的支持程度,假隸屬度即實(shí)際信息對(duì)研究對(duì)象隸屬的反對(duì)程度,并且在此之中,還暗含著猶豫的狀態(tài),即不支持也不反對(duì)的中間狀態(tài)。這一種重要特點(diǎn)保證了Vague集相對(duì)于其他經(jīng)典Fuzzy集在體現(xiàn)現(xiàn)實(shí)信息不確定性方面的天然優(yōu)勢(shì),使其能夠更加詳盡地表達(dá)研究對(duì)象的模糊特性。Vague集是一種能夠很好地解決不確定性問(wèn)題的工具,它用形式化的語(yǔ)言表達(dá)事物的特征,描述了事物的發(fā)展。
定義1(實(shí)數(shù)值Vague集,RVVS, Real Value Vague Sets)[10]設(shè)U是一個(gè)論域,其中任何一個(gè)元素用x表示。U上的一個(gè)實(shí)數(shù)值Vague集A是由真隸屬函數(shù)tA和假隸屬函數(shù)fA描述的:tA:U→[0,1],fA:U→[0,1]。
對(duì)于x∈U,tA(x)是從支持x∈A的證據(jù)所導(dǎo)出的x∈A的肯定隸屬度的下界,fA(x)是從反對(duì)x∈A的證據(jù)所導(dǎo)出的x∈A的否定隸屬度的下界,并且tA(x)+fA(x)≤1。x關(guān)于Vague集A的隸屬度可由[0,1]上的子區(qū)間[tA(x),1-fA(x)]表示,或者稱(chēng)[tA(x),1-fA(x)]是x在Vague集A中的Vague值。稱(chēng)πA=1-tA(x)-fA(x)為x關(guān)于A的未知度,也稱(chēng)為猶豫度或躊躇度。πA是x相對(duì)于A的未知信息的度量,πA的值越大,說(shuō)明x相對(duì)于A的未知信息越多。當(dāng)tA=1-fA時(shí),πA=0,即tA+fA=1時(shí),Vague值x退化為普通模糊值。
1993年,Gau和Buehree 在定義Vague集的同時(shí)給出了運(yùn)算法則。1994年,Atanassov[11]定義了直覺(jué)模糊集的運(yùn)算規(guī)則。在此基礎(chǔ)上,De等[12]重新定義了Vague集的運(yùn)算規(guī)則。
根據(jù)徐澤水[13]的定義,可以得到兩個(gè)Vague值x=[t(x),1-f(x)],y=[t(y),1-f(x)],的基本運(yùn)算規(guī)則:
(1)和運(yùn)算:x+y=[t(x)+t(y)-t(x)t(y),1-f(x)f(y)];
(2)積運(yùn)算:x·y=[t(x)t(y),1-(f(x)+f(y)-f(x)f(y))];
(3)系數(shù)乘積:λx=[1-(1-t(x))λ,1-f(x)λ],λ>0;
(4)冪運(yùn)算:xλ=[(t(x))λ,f(x)λ],λ>0。
Vague集研究領(lǐng)域中大量研究的都是Vague集(值)之間的相似性。從現(xiàn)有度量公式的表現(xiàn)形式及主要特點(diǎn)來(lái)看,主要的有三種思路:
第一種是基于Vague值的記分函數(shù)。Vague值的記分函數(shù)概念是Chen于1994年提出的,并利用記分函數(shù)定義了Vague集的相似度。
定義2[14]設(shè)Vague值x=[tx,1-fx],tx,fx∈[0,1],且tx+fx≤1,稱(chēng)S(x)=tx-fx為x的記分函數(shù)。記分函數(shù)反映了現(xiàn)有的確定性證據(jù)中,支持與反對(duì)力量的對(duì)比,因而也稱(chēng)為優(yōu)勢(shì)函數(shù)。
第二種是基于距離測(cè)度的相似度量方法,有代表性的研究如文獻(xiàn)[15,16]。目前基于距離的Vague集的相似度量主要有兩種方法。一種是利用距離對(duì)偶的公式sim(A,B)=1-d(A,B)[17]。另一種是用x到y(tǒng)的距離及x到y(tǒng)的補(bǔ)集的距離的比值來(lái)評(píng)價(jià)兩個(gè)Vague值x,y的相似程度[17]。王偉平[18]分別根據(jù)第一種思路,在確定新的距離公式基礎(chǔ)上定義了實(shí)數(shù)值Vague集A的相似度:
第三種思路建立在未知度的再分配基礎(chǔ)上,在衡量相似度時(shí)將未知度按比例分配到真、假隸屬度中,再進(jìn)行比較。
以上求得的相似度滿足以下準(zhǔn)則:
準(zhǔn)則1(規(guī)范性)0≤Sim(A,B)≤1;
準(zhǔn)則2(對(duì)稱(chēng)性)Sim(A,B)=Sim(B,A);
準(zhǔn)則3Sim(A,B)=Sim(AC,BC);
準(zhǔn)則4(單調(diào)性)若A?B?C,則Sim(A,C)≤min{Sim(A,B),Sim(B,C)};
值得注意的是,考慮到現(xiàn)有的相似性度量是建立在Vague值x服從均勻分布這一默認(rèn)前提下的,最近一些學(xué)者將統(tǒng)計(jì)中的概念引入到相似度的度量中來(lái)。文獻(xiàn)[19]提出了一種基于正態(tài)分布函數(shù)的相似度量方法, 實(shí)例證明該方法既可以解決幾種特殊的直覺(jué)模糊集合之間的相似度量問(wèn)題,也可以克服現(xiàn)存的幾種相似度量方法中存在的缺陷。
為了問(wèn)題描述,論文界定如下符號(hào):
定義產(chǎn)品集合為I=Ii(i=1,2,…,n)={I1,I2,…,In}
定義用戶(hù)集合為U=Uj(j=1,2,…,m)={U1,U2,…,Um}
定義產(chǎn)品一維屬性特征集合為X=xk(k=1,2,…,p)={x1,x2,…,xp}
知識(shí)推薦算法的核心是實(shí)現(xiàn)產(chǎn)品特征與用戶(hù)需求的匹配,因此先要實(shí)現(xiàn)產(chǎn)品特征的表示。然而,網(wǎng)上產(chǎn)品,尤其是一些暢銷(xiāo)產(chǎn)品,其屬性一般都是采用非結(jié)構(gòu)化的語(yǔ)言來(lái)描述,這給問(wèn)題的解決帶來(lái)了一定的困難。同時(shí),產(chǎn)品的屬性又是由不同的產(chǎn)品特征組成的,這樣構(gòu)成了一個(gè)產(chǎn)品屬性與產(chǎn)品特征之間的樹(shù)狀關(guān)系圖,如圖1所示。
圖1 產(chǎn)品屬性結(jié)構(gòu)圖
從內(nèi)容推薦算法的角度來(lái)說(shuō),實(shí)際上就是系統(tǒng)經(jīng)過(guò)一系列的前期學(xué)習(xí),發(fā)現(xiàn)大量的產(chǎn)品與用戶(hù)之間的匹配關(guān)系。產(chǎn)品借助于屬性特征描述,例如某產(chǎn)品具有特征1、特征3、特征4和特征6,用戶(hù)的興趣也用產(chǎn)品特征描述,例如用戶(hù)的興趣點(diǎn)是特征1、特征3、特征4和特征6,這樣就建立起了產(chǎn)品和用戶(hù)興趣之間的知識(shí)庫(kù),基于知識(shí)庫(kù)的學(xué)習(xí),達(dá)到產(chǎn)品特征與用戶(hù)興趣的匹配。
產(chǎn)品的屬性集一般都是多維的,例如愛(ài)奇藝網(wǎng)站,其電視劇產(chǎn)品的屬性劃分為:頻道、地區(qū)、類(lèi)型、年代等四個(gè)屬性,其中類(lèi)型屬性包含:言情劇、歷史劇、武俠劇、古裝劇、年代劇、農(nóng)村劇、偶像劇、懸疑劇、科幻劇、喜劇、宮廷劇、商戰(zhàn)劇、神話劇、穿越劇、罪案劇、諜戰(zhàn)劇、粵語(yǔ)電視劇、超清1080P、青春劇、家庭劇、軍旅劇、劇情、都市、網(wǎng)絡(luò)劇。電影產(chǎn)品的屬性則描述為:年代、地區(qū)、語(yǔ)言、類(lèi)型、主演、導(dǎo)演、總播放量、簡(jiǎn)介等,其中類(lèi)型的屬性又包括:喜劇、悲劇、愛(ài)情、動(dòng)作、槍?xiě)?zhàn)、犯罪、驚悚、恐怖、懸疑、動(dòng)畫(huà)、家庭、奇幻、魔幻、科幻、戰(zhàn)爭(zhēng)、青春等。
一般情況下,多維屬性的推薦因其描述全面細(xì)致,分類(lèi)詳細(xì),通常會(huì)得到更好的推薦結(jié)果,但是其計(jì)算復(fù)雜度呈指數(shù)倍增。鑒于多維屬性推薦的計(jì)算復(fù)雜度,本文僅探討一維屬性,多維屬性問(wèn)題可以從一維出發(fā)進(jìn)行拓展。
知識(shí)推薦中屬性特征的描述和內(nèi)容推薦算法中屬性特征的描述具有異曲同工之效,借助內(nèi)容推薦算法的特點(diǎn)和Vague集理論在非結(jié)構(gòu)語(yǔ)言描述方面的優(yōu)勢(shì),可以通過(guò)以下步驟得到產(chǎn)品的特征描述。
Step1定義產(chǎn)品屬性
互聯(lián)網(wǎng)上的任何產(chǎn)品實(shí)際上都是一組特定屬性及其屬性特征的集合,電影中“類(lèi)型”屬性的特征集合可表示為:X={喜劇、悲劇、愛(ài)情、動(dòng)作、槍?xiě)?zhàn)、犯罪、驚悚、恐怖、懸疑、動(dòng)畫(huà)、家庭、奇幻、魔幻、科幻、戰(zhàn)爭(zhēng)、青春},分別用xk表示[20]。
Step2確定肯定隸屬度
對(duì)產(chǎn)品Ii依特征xk的相關(guān)程度降序排列,也可以按照特征相對(duì)于產(chǎn)品的重要性進(jìn)行降序排列。如:{x1,x6,x4,x8,x5,x3,x7,x2,…}表示該產(chǎn)品Ii的特征重要性或相關(guān)程度按1、6、4、8、5、3、7、2的次序逐漸降低。
考慮Vague集定義,用txk(Ii)表示產(chǎn)品Ii屬于xk的肯定隸屬度,其含義為該特征相對(duì)該產(chǎn)品的重要性程度。顯然,針對(duì)某一產(chǎn)品的某特征,其重要性程度越高,該特征對(duì)應(yīng)的肯定隸屬度也就越高,因此各特征xk的肯定隸屬度仍然依賴(lài)上述特征排序結(jié)果依次降低。
Step3確定未知度
否定隸屬度的確定是一個(gè)比較困難的問(wèn)題,這里可以借助論文[20]的思想,從肯定隸屬度、否定隸屬度、未知度的關(guān)系出發(fā)尋求否定隸屬度。
Step4Vague值產(chǎn)品特征表示
根據(jù)1-fxk(Ii)=πxk(Ii)+txk(Ii)得到產(chǎn)品Ii各特征xk的Vague值vxk(Ii)=[txk(Ii),1-fxk(Ii)]。
由于任何一個(gè)產(chǎn)品Ii在一維特征條件下具有多重特征,因此可以將之表達(dá)為一個(gè)Vague集的形式,即:V(Ii)={vx1(Ii),vx2(Ii),…,vxp(Ii)}。
知識(shí)推薦算法的另一個(gè)要點(diǎn)則是用戶(hù)的需求描述。現(xiàn)實(shí)中用戶(hù)需求具有漂移性,時(shí)間、地點(diǎn)、收入、年齡、環(huán)境等都會(huì)帶來(lái)用戶(hù)需求的變化。用戶(hù)需求的描述內(nèi)化于用戶(hù)的網(wǎng)上行為,進(jìn)而也反映出用戶(hù)行為數(shù)據(jù)的獲取。
推薦系統(tǒng)中用戶(hù)需求捕捉通常采用有兩種方式,一種是顯性評(píng)分,另一種是隱性瀏覽。前者通過(guò)用戶(hù)注冊(cè)信息以及用戶(hù)對(duì)歷史產(chǎn)品的評(píng)價(jià)得到用戶(hù)傾向愛(ài)好,后者通過(guò)用戶(hù)購(gòu)買(mǎi)、瀏覽、重復(fù)操作、保存、屏蔽、轉(zhuǎn)發(fā)、收藏、推薦等一系列活動(dòng)隱形分析用戶(hù)的偏好。文獻(xiàn)[22]采用瀏覽、收藏、添加到購(gòu)物車(chē)、購(gòu)買(mǎi)四種行為獲取隱性數(shù)據(jù),并且認(rèn)為四種行為之間存在明顯的權(quán)重等級(jí):瀏覽<收藏<添加到購(gòu)物車(chē)<購(gòu)買(mǎi)??紤]到移動(dòng)互聯(lián)網(wǎng)端,其實(shí)用戶(hù)在購(gòu)買(mǎi)以后經(jīng)常會(huì)有點(diǎn)贊、分享、轉(zhuǎn)載等一系列行為表達(dá)自己對(duì)服務(wù)或產(chǎn)品的贊譽(yù)之情,我們可以定義用戶(hù)的隱形行為包括:瀏覽、收藏、添加到購(gòu)物車(chē)、購(gòu)買(mǎi)、分享(或轉(zhuǎn)載、點(diǎn)贊)。
這里定義用戶(hù)對(duì)某產(chǎn)品Ii一維屬性特征xk的興趣度包含顯性興趣度和隱性興趣度,它們分別是顯性行為和用戶(hù)隱性行為的直接表現(xiàn)形式,其中,顯性行為包括用戶(hù)顯性評(píng)分輸入和用戶(hù)注冊(cè)資料中興趣愛(ài)好的顯性描述;隱性行為包括分享(或轉(zhuǎn)載、點(diǎn)贊)、購(gòu)買(mǎi)、收藏(包括放入購(gòu)物車(chē))、瀏覽等四個(gè)影響因素。隱性行為是基于用戶(hù)隱式瀏覽輸入獲得的,這是捕捉用戶(hù)興趣的主要因素,尤其是對(duì)冷啟動(dòng)用戶(hù)、產(chǎn)品評(píng)價(jià)數(shù)據(jù)不足以及注冊(cè)信息不完備的用戶(hù)尤為重要。不難發(fā)現(xiàn),六項(xiàng)行為引發(fā)的六項(xiàng)數(shù)據(jù),其可靠性不同因而在用戶(hù)興趣提取中的重要性程度也有所不同,我們可以定義:瀏覽<收藏<購(gòu)買(mǎi)<分享<評(píng)分<注冊(cè)。
由此,可以定義用戶(hù)Uj(j=1,2,…,m)對(duì)一維屬性特xk(k=1,2,…,p)征具有的興趣度:Intjk=λ×ExIntjk+(1-λ)λImIntjk。
式中:Intjk表示用戶(hù)Uj對(duì)一維屬性特征xk的興趣度,0≤Intjt≤1;
ExIntjk表示用戶(hù)Uj對(duì)一維屬性特征xk的顯性興趣度;
ImIntjk表示用戶(hù)Uj對(duì)一維屬性特征xk的隱性興趣度。
λ(0≤λ≤1)稱(chēng)為表現(xiàn)系數(shù),表示顯性興趣度在整個(gè)興趣度中的權(quán)重,通常情況下λ≥0.5,也就是說(shuō)顯性行為在興趣度的獲取方面具有更強(qiáng)的顯示度,對(duì)用戶(hù)興趣度的影響更大。當(dāng)興趣度提取時(shí)只有顯性興趣度,則Intjk=ExIntjk(λ=1),這種情況通常發(fā)生在新注冊(cè)用戶(hù)身上;當(dāng)興趣度提取時(shí)只有隱性興趣度,則Intjk=ImIntjk(λ=0),這種情況通常發(fā)生在用戶(hù)注冊(cè)信息極度匱乏,用戶(hù)自我保護(hù)意識(shí)強(qiáng)的情況。
進(jìn)一步,可以定義:
進(jìn)而,用戶(hù)的興趣度可以描述為:
Intjk=λ×ExIntjk+(1-λ)×ImIntjk
由于用戶(hù)的興趣度內(nèi)含于六項(xiàng)不同的行為,因此用戶(hù)興趣度Vague值的獲取依賴(lài)于六項(xiàng)行為的Vague值獲取[23]。
(1)注冊(cè)Vague值
(2)評(píng)分Vague值
(3)分享(或轉(zhuǎn)載、點(diǎn)贊)Vague值
(4)購(gòu)買(mǎi)Vague值
購(gòu)買(mǎi)Vague值的定義考慮兩個(gè)因素:購(gòu)物總量的比重、購(gòu)物價(jià)值的比重。
(5)收藏(包括放入購(gòu)物車(chē))Vague值
(6)時(shí)間Vague值
Tksi表示用戶(hù)瀏覽產(chǎn)品的si相對(duì)時(shí)間;
αjs和γjs分別表示第S類(lèi)產(chǎn)品的有效瀏覽時(shí)間閾值。
不同類(lèi)型產(chǎn)品的αjs、γjs會(huì)因?yàn)楫a(chǎn)品復(fù)雜度、網(wǎng)絡(luò)速度、數(shù)據(jù)類(lèi)型等不同而有所差異,在大數(shù)據(jù)背景下,αjs、γjs需要通過(guò)統(tǒng)計(jì)數(shù)據(jù)獲得,目前《學(xué)習(xí)強(qiáng)國(guó)》視頻瀏覽就采用了這種方法。用戶(hù)對(duì)每一個(gè)產(chǎn)品的實(shí)際瀏覽時(shí)間需要滿足T′ksi∈[αjs,γjs]方能認(rèn)定為有效瀏覽??紤]到用戶(hù)誤操作、水軍惡意點(diǎn)擊等,若T′ksi<αjs,認(rèn)為用戶(hù)沒(méi)有閱讀該頁(yè)面,則ρjsi=0;考慮到用戶(hù)個(gè)人忘記關(guān)閉頁(yè)面等情況,若T′ksi>γjs表征普通人以正常速度瀏覽完該頁(yè)面所需要的時(shí)間上限(該數(shù)據(jù)可以借助歷史數(shù)據(jù)通過(guò)統(tǒng)計(jì)分析得到),超出部分,不再計(jì)算,避免用戶(hù)由于處理其他事情耽擱所帶來(lái)的影響,此時(shí)ρjsi=1。
表示用戶(hù)Uj瀏覽具有xt特征所有產(chǎn)品花費(fèi)時(shí)間的平均值,其中I(s)表示第s類(lèi)中具有xk特征的產(chǎn)品個(gè)數(shù)。
表示用戶(hù)Uj瀏覽不具有xk特征所有產(chǎn)品花費(fèi)時(shí)間的平均值,其中n為系統(tǒng)中的產(chǎn)品總數(shù)。
進(jìn)而得到
借助上文Vague值的基本運(yùn)算規(guī)則,可以得到用戶(hù)關(guān)于特征xk的興趣度表示形式:
那么對(duì)于一維屬性來(lái)說(shuō),用戶(hù)的興趣可以描述為多個(gè)特征構(gòu)成的集合,每一個(gè)特征Vague值的大小代表用戶(hù)的傾向態(tài)度。即:V(Uj)={Intj1,Intj2,…,Intip}。
由上文內(nèi)容可知,系統(tǒng)中的產(chǎn)品可以用Vague值的形式表示為:V(Ii)={vx1(Ii),vx2(Ii),…,vxp(Ii)},系統(tǒng)中任意用戶(hù)的需求興趣度函數(shù)可以表示為:V(Uj)={Intj1,Intj2,…,Intjp}。
知識(shí)推薦就是要通過(guò)產(chǎn)品屬性特征和用戶(hù)需求興趣度之間的內(nèi)在聯(lián)系,借助知識(shí)庫(kù)中的知識(shí)抽取兩者之間的關(guān)聯(lián)關(guān)系。在推薦系統(tǒng)中,這種關(guān)聯(lián)關(guān)系可以簡(jiǎn)單的描述為一種相關(guān)性,借助向量空間相似度、Spearman相關(guān)、Pearson相關(guān)、熵、余弦方法、修正余弦方法以及條件概率方法等多種方法[24]得到。由于產(chǎn)品屬性特征和用戶(hù)需求興趣度均已表達(dá)為Vague集的形式,因此需要解決的問(wèn)題是求得兩個(gè)集合之間的關(guān)聯(lián)關(guān)系,Vague集理論中關(guān)于兩個(gè)集合關(guān)聯(lián)關(guān)系的描述可以理解為兩個(gè)集合的相似性問(wèn)題。
根據(jù)系統(tǒng)中的兩個(gè)Vague集V(Ii)和V(Uj),基于前文王偉平[18]提出的相似度的計(jì)算公式可以得到知識(shí)推薦中的相似度計(jì)算公式:
Sim(V(Ii),V(Uj))
其中n代表集合A和B中Vague值的個(gè)數(shù)。
可以得到產(chǎn)品和用戶(hù)之間的相似程度,這種相似程度表達(dá)了產(chǎn)品屬性特征與用戶(hù)興趣需求之間的匹配程度。
本次案例抽取愛(ài)奇藝的數(shù)據(jù),抽取的不同年齡段的5名用戶(hù)信息如表1所示,同時(shí)抽取愛(ài)奇藝中2019年新發(fā)布的5部影片如表2所示。
表1 用戶(hù)情況表
表2 電影情況表
定義電影屬性為:X={劇情x1,喜劇x2,愛(ài)情x3,冒險(xiǎn)x4,奇幻x5,動(dòng)作x6,悲劇x7,犯罪x8,家庭x9,青春x10},利用4.2的內(nèi)容可以得到各個(gè)電影關(guān)于各個(gè)特征的Vague值,如表3所示。
表3 電影特征Vague值
利用4.3的內(nèi)容可以得到各個(gè)用戶(hù)關(guān)于各個(gè)特征興趣度的Vague值(中間計(jì)算過(guò)程可以找作者索取),如表4所示。
表4 用戶(hù)興趣Vague值
進(jìn)而利用上文給出的相似度計(jì)算公式得到電影和用戶(hù)之間的匹配度(相似度),如表5所示。
表5 用戶(hù)與電影的匹配度
由上述計(jì)算結(jié)果可以看到,論文中提取的5個(gè)用戶(hù)和5個(gè)產(chǎn)品中,產(chǎn)品屬性特征和用戶(hù)興趣的匹配度并不是很高,說(shuō)明5個(gè)用戶(hù)對(duì)以上提取的新電影并不是很感興趣。如果放松興趣度閾值范圍,可以認(rèn)為2019027、2019035、2019076三部電影能在一定程度上滿足用戶(hù)1005153290的需求。由于相似度的可逆性可知,電影2019008也能在一定程度上滿足用戶(hù)1005163604、1005161678、1005163634的需求。從知識(shí)庫(kù)的角度來(lái)說(shuō),可以構(gòu)建六組知識(shí)庫(kù),進(jìn)而形成后期決策和推薦的知識(shí)模型。
論文的主要工作表現(xiàn)在以下幾個(gè)方面:第一,用產(chǎn)品的一維屬性特征來(lái)描述系統(tǒng)中待推薦的產(chǎn)品,用戶(hù)的隱性興趣和顯性興趣集成用戶(hù)的興趣愛(ài)好。第二,整體上運(yùn)用Vague集理論形式化的語(yǔ)言特征的優(yōu)點(diǎn),用Vague值描述用戶(hù)的興趣愛(ài)好和產(chǎn)品的屬性。第三,用產(chǎn)品的屬性Vague集與用戶(hù)的興趣愛(ài)好Vague集的相似度描述兩者之間的匹配度,進(jìn)而形成推薦系統(tǒng)中的知識(shí)庫(kù),構(gòu)架知識(shí)推薦的基礎(chǔ)。論文的這一研究思路首先解決了非結(jié)構(gòu)化產(chǎn)品屬性特征和用戶(hù)需求的表達(dá)和描述難點(diǎn),其次在冷啟動(dòng)無(wú)可規(guī)避的情況下,一定程度上解決了推薦系統(tǒng)中數(shù)據(jù)稀疏的研究難點(diǎn)。最后通過(guò)匹配度的計(jì)算構(gòu)建了知識(shí)推薦中的知識(shí)庫(kù),形成后期知識(shí)推薦的模塊規(guī)則。
通過(guò)論文的研究,也發(fā)現(xiàn)了一些后期研究的方向。第一,論文為了降低計(jì)算的復(fù)雜度,僅僅構(gòu)建了一維屬性模型,這種研究結(jié)果可能會(huì)有一定局限性,在多維屬性條件下,研究的結(jié)果會(huì)帶來(lái)更加精準(zhǔn)的推薦結(jié)果。第二,在買(mǎi)方市場(chǎng)的背景下,個(gè)性化產(chǎn)品、個(gè)性化需求將會(huì)是未來(lái)的主流發(fā)展方向,然而在這種情況下,推薦結(jié)果的適應(yīng)性問(wèn)題并沒(méi)有得到準(zhǔn)確的詮釋?zhuān)绾谓柚淮_定語(yǔ)言和不確定方法捕捉描述 “個(gè)性化”的問(wèn)題也是后期研究的方向之一。