范 敏 郭瑞欣 李金海
早期形式概念分析(Formal Concept Analysis, FCA)[1]專(zhuān)注于研究概念及概念層次的數(shù)學(xué)化和形式化表達(dá).隨著FCA的快速發(fā)展,與各領(lǐng)域的交叉研究日漸深入,現(xiàn)已廣泛應(yīng)用于軟件工程[2-3]、數(shù)據(jù)挖掘[4-6]、推薦系統(tǒng)[7]等具有廣闊應(yīng)用前景的領(lǐng)域.
基于形式背景的概念認(rèn)知是一個(gè)新興的研究領(lǐng)域,主要以形式概念分析、粗糙集及粒計(jì)算等理論為工具.在大數(shù)據(jù)環(huán)境下,概念認(rèn)知學(xué)習(xí)具有諸多認(rèn)知優(yōu)勢(shì),學(xué)者們對(duì)其進(jìn)行一系列的研究[8-10].在概念認(rèn)知學(xué)習(xí)中,基于各種算子的研究得到不同的概念[11].Düntsch等[12]給出近似算子——必要算子和可能算子,研究面向?qū)傩愿拍罡?Yao[13]研究面向?qū)ο蟾拍罡窈兔嫦驅(qū)傩愿拍罡瘢约八鼈冎g的關(guān)系.閆夢(mèng)宇等[14]基于Wille概念格、面向?qū)ο蟾拍罡窈兔嫦驅(qū)傩愿拍罡?,定義共有屬性(對(duì)象)與獨(dú)有屬性(對(duì)象),并研究它們的算子性質(zhì).將上述算子結(jié)合變精度思想可得到各種變精度算子,進(jìn)一步與實(shí)際應(yīng)用結(jié)合,有利于豐富概念認(rèn)知理論與應(yīng)用的研究.如何將概念認(rèn)知學(xué)習(xí)方法與網(wǎng)絡(luò)中的因果推斷、規(guī)則提取結(jié)合,是一個(gè)有意義的課題.
目前,常見(jiàn)的推薦系統(tǒng)包括以下幾種:Zaier等[15]提出的基于鄰域的推薦系統(tǒng),主要是通過(guò)計(jì)算相似度找到相關(guān)鄰域,根據(jù)鄰域信息進(jìn)行推薦;Garcia等[16]提出的組推薦系統(tǒng)(Group Recommender System),推薦對(duì)象為整個(gè)群組.基于鄰域的推薦方法常見(jiàn)于協(xié)同過(guò)濾推薦系統(tǒng)中,主要分為基于用戶的協(xié)同過(guò)濾推薦[17]和基于項(xiàng)目的協(xié)同過(guò)濾推薦[18].前者是根據(jù)用戶之間的相似度進(jìn)行推薦,后者是根據(jù)項(xiàng)目之間的相似度進(jìn)行推薦.組推薦系統(tǒng)通過(guò)研究所有鄰域成員偏好之間的關(guān)聯(lián)性得到鄰域偏好,最后利用鄰域偏好進(jìn)行推薦[19].
由上述研究可知,基于鄰域的推薦算法需要解決兩個(gè)問(wèn)題:1)如何得到相關(guān)鄰域,并使這些鄰域中能涌現(xiàn)足夠多的規(guī)律;2)如何根據(jù)每個(gè)鄰域信息得到鄰域偏好之間的關(guān)聯(lián)性,構(gòu)建推薦算法.
Pearl[20]在《Causality》中指出:因果關(guān)系不應(yīng)被視為單一關(guān)系,而應(yīng)被視為具有兩個(gè)維度——充分性和必要性.該書(shū)結(jié)合概率論的相關(guān)知識(shí),給出充分性與必要性的定義,為研究因果力奠定基礎(chǔ).之后Pearl又深入研究當(dāng)代的因果分析方法,將因果科學(xué)從一個(gè)模糊的概念變成一個(gè)可以量化的理論,并廣泛應(yīng)用于數(shù)理統(tǒng)計(jì)[21]、人工智能[22-23]、認(rèn)知科學(xué)[24-25]等領(lǐng)域.
之后,學(xué)者們重新定義因果力的衡量標(biāo)準(zhǔn)[26],并將
PNS=suff(e|c)+nec(e|c)-1
作為度量因果關(guān)系的新標(biāo)準(zhǔn).Hoel等[27]提出使用一般的因果關(guān)系度量有效信息以衡量因果有效性,并在文獻(xiàn)[28]中列舉十幾種較通用的因果力測(cè)量方法.學(xué)者們結(jié)合各種因果力的研究與規(guī)則挖掘,得到更有效的規(guī)則挖掘算法,進(jìn)一步應(yīng)用于推薦系統(tǒng)[29-31].
當(dāng)前,基于概念格的推薦方法已取得如下研究成果:基于概念鄰域的Top-N推薦[7]、啟發(fā)式構(gòu)造概念格進(jìn)行推薦[32]、基于RSS(Really Simple Syndi-cation)的電子學(xué)習(xí)推薦[33]、模擬退火法構(gòu)造概念集進(jìn)行推薦[34]、PRS(Personalized Recommendation System)[35]、形式概念分析和協(xié)同過(guò)濾推薦結(jié)合[36].然而概念格構(gòu)造效率太低,幾乎與形式背景的規(guī)模增長(zhǎng)呈指數(shù)關(guān)系[37-39],使基于經(jīng)典概念集的社區(qū)劃分在實(shí)際數(shù)據(jù)中難以實(shí)現(xiàn).
為了解決在進(jìn)行組推薦時(shí)應(yīng)用概念格劃分社區(qū)出現(xiàn)的高復(fù)雜度問(wèn)題,范敏等[40]提出基于弱概念相似度的組推薦算法(Group Recommendation Algori-thm Based on Weaken-Concept Similarity, GRAWS),通過(guò)*算子誘導(dǎo)的弱概念集劃分論域形成社區(qū),并在劃分社區(qū)時(shí)計(jì)算屬性弱概念下限相似度,以此進(jìn)行組推薦,降低劃分社區(qū)的計(jì)算復(fù)雜度,同時(shí)提高推薦效果.但是,*算子的約束條件過(guò)于嚴(yán)格,誘導(dǎo)的弱概念集頻繁出現(xiàn)空集,因此無(wú)法保證獲得足夠多的弱概念,導(dǎo)致誘導(dǎo)的規(guī)則集應(yīng)用于組推薦效果不佳.
定義1[1]三元組(U,A,I)稱(chēng)為形式背景,其中,U={x1,x1,…,xn}為非空有限對(duì)象集,A={a1,a2,…,am}為非空有限屬性集,I為笛卡爾積U×A上的二元關(guān)系.約定(x,a)∈I表示對(duì)象x擁有屬性a;(x,a)?I表示對(duì)象x不擁有屬性a.
為了從形式背景中誘導(dǎo)出概念,給出如下算子的定義.對(duì)于?X∈2U,B∈2A,有
1)xI={a∈A|(x,a)∈I},
2)Ia={x∈U|(x,a)∈I},
3)X*={a∈A|?x∈X,(x,a)∈I},
4)B*={x∈U|?a∈B,(x,a)∈I},
其中,xI表示對(duì)象x擁有的所有屬性組成的集合,Ia表示擁有屬性a的所有對(duì)象組成的集合,X*表示X中所有對(duì)象共同擁有的屬性,B*表示擁有B中所有屬性的對(duì)象.
例1已知評(píng)分矩陣Q(見(jiàn)表1),由定義2結(jié)合用戶矩陣,可得到網(wǎng)絡(luò)決策形式背景(見(jiàn)表2).
表1 評(píng)分矩陣QTable 1 Scoring matrix Q
表2 網(wǎng)絡(luò)決策形式背景(U,M,C,D,I)Table 2 Network formal decision context(U,M,C,D,I)
表1給出的評(píng)分矩陣Q描述用戶xi對(duì)項(xiàng)目aj的評(píng)分情況.v(x1,a1)=4表示用戶x1對(duì)項(xiàng)目a1的評(píng)分為4,v(x1,a2)=0表示用戶x1沒(méi)有對(duì)項(xiàng)目a2做出評(píng)分.表2描述用戶之間的連接關(guān)系和用戶對(duì)項(xiàng)目的擁有情況.
在表1中,首先,采用
對(duì)項(xiàng)目評(píng)分進(jìn)行修正(https://blog.csdn.net/Joeny
圖1 電影推薦網(wǎng)絡(luò)圖Fig.1 Movie recommendation network
表3 圖1對(duì)應(yīng)的網(wǎng)絡(luò)決策形式背景(U,M,C,D,I)Table 3 Network formal decision context(U,M,C,D,I) of Fig.1
本文將主要解決如下兩個(gè)問(wèn)題:1)通過(guò)變精度弱概念劃分論域,構(gòu)建社區(qū);2)利用因果力代換實(shí)現(xiàn)鄰域推薦.
文獻(xiàn)[40]通過(guò)構(gòu)建弱概念集進(jìn)行組推薦時(shí),需滿足約束條件:1)得到的弱概念集要覆蓋形式背景的所有對(duì)象,即保證每個(gè)對(duì)象都至少屬于一個(gè)弱概念;2)挖掘的弱概念內(nèi)涵的規(guī)模必須大于預(yù)設(shè)閾值.由于*算子約束條件較嚴(yán)格,誘導(dǎo)出的對(duì)象弱概念或?qū)傩匀醺拍罱M成的集合頻繁出現(xiàn)空集,因此,按上述方式構(gòu)建弱概念集可能出現(xiàn)無(wú)法找到足夠多的弱概念滿足上述約束條件的現(xiàn)象.
定義3對(duì)于評(píng)分矩陣Q,
Vi={v(xi,ap),?ap∈A}為用戶xi對(duì)項(xiàng)目集的評(píng)分,
Vj={v(xj,ap),?ap∈A}
為用戶xj對(duì)項(xiàng)目集的評(píng)分,則用戶間的相似矩陣
S=(s(i,j))n×n,
其中
由定義2和定義3可將相似矩陣S轉(zhuǎn)換為網(wǎng)絡(luò)鄰接矩陣M.
定義 4給定網(wǎng)絡(luò)決策形式背景(U,M,C,D,I),則節(jié)點(diǎn)xi的相似性聚合中心度定義為
定義5給定一個(gè)網(wǎng)絡(luò)決策形式背景(U,M,C,D,I),對(duì)?X∈2U,C∈2C,D∈2D,變精度共有算子定義如下:
證明先證1).對(duì)?X∈2U,由定義5可得
再證2).對(duì)?C∈2C,由定義5可得
(4)要正確合理選擇分片剛性樓蓋和整體非剛性樓蓋的結(jié)構(gòu)抗震設(shè)計(jì)計(jì)算模型,比如樓板在大震下不能處于基本彈性狀態(tài)時(shí),要先研究出合理的計(jì)算模型后再進(jìn)行抗震設(shè)計(jì)驗(yàn)算。
在上述定義1~定義6的基礎(chǔ)上提出問(wèn)題1,描述如下.
問(wèn)題1通過(guò)變精度弱概念劃分論域U
輸入網(wǎng)絡(luò)決策形式背景(U,M,C,D,I)
輸出劃分集CS
優(yōu)化目標(biāo)min(|CS|)
其中
優(yōu)化目標(biāo)表示最小化社區(qū)數(shù)量,用于提高模型的擬合能力.約束條件1表示變精度弱概念集覆蓋論域U中所有對(duì)象,即每個(gè)對(duì)象至少劃分在一個(gè)鄰域(社區(qū))中.約束條件2表示挖掘的變精度條件弱概念內(nèi)涵規(guī)模不小于ω1,變精度決策弱概念內(nèi)涵規(guī)模不小于ω2,即只有當(dāng)用戶擁有的項(xiàng)目足夠多時(shí),形成的鄰域(社區(qū))才有意義.下面進(jìn)一步研究鄰域推薦算法.
本節(jié)首先給出推薦規(guī)則、規(guī)則置信度與規(guī)則因果力的概念.
定義7推薦規(guī)則r(ci,dj)表示向擁有條件屬性ci的對(duì)象推薦決策屬性dj,即r(ci,dj)∶ci→dj.
定義8對(duì)于規(guī)則r(ci,dj)∶ci→dj,稱(chēng)
為規(guī)則r(ci,dj)的置信度.
定義9設(shè)規(guī)則r(dj,ci)∶dj→ci為規(guī)則r(ci,dj)∶ci→dj的反規(guī)則,稱(chēng)
為反規(guī)則r(dj,ci)的置信度.
Pearl[20]在《Causality》中定義必要性概率:
nec(e|c)=P(~e|~c),
即反事實(shí)概率.也就是如果原因c沒(méi)有發(fā)生,結(jié)果e就不會(huì)發(fā)生的概率.定義充分性概率
suff(e|c)=P(e|c),
即原因c導(dǎo)致結(jié)果e發(fā)生的概率.并且,給出衡量因果力的標(biāo)準(zhǔn):
PNS=nec(e|c)+suff(e|c)-1.
Eells[29]從另外一個(gè)角度提出,c是e的原因需滿足
p(e|c)>p(e|C-c),
其中C為原因集.并且可用這兩個(gè)量之間的差衡量因果強(qiáng)度:
SCEells=p(e|c)-p(e|C-c)=suff(e|c)+nec(e|c)-1.
下面基于文獻(xiàn)[20]、文獻(xiàn)[29]和定義7~定義9,研究因果關(guān)系充分性和必要性與定義8、定義9中規(guī)則置信度的關(guān)系,并給出ci和dj之間因果力的定義.
定義10對(duì)于規(guī)則r(ci,dj)∶ci→dj,充分性
特別地,若
P(dj|ci)=1,
表示ci的發(fā)生必然導(dǎo)致dj發(fā)生,也可理解為規(guī)則r(ci,dj)∶dj→ci的置信度為1.
定義11對(duì)于規(guī)則r(ci,dj)∶ci→dj,必要性
特別地,若
1-P(dj|C-ci)=1,
則
P(dj|C-ci)=0,
即在C中刪除ci之后,dj不發(fā)生,表示ci的發(fā)生對(duì)dj的發(fā)生是必要的.
定理1對(duì)于反向規(guī)則
有如下結(jié)論成立:
μji=1?P(dj|C-ci)=0.
證明先證充分性.若
即
即
故
P(dj|C-ci)=0.
必要性顯然成立.
推論1對(duì)于反向規(guī)則
有如下結(jié)論成立:
μji=P(ci|dj)=1?nec(dj,ci)=1.
由定理1和推論1可知,若P(ci|dj)=1,表示ci的發(fā)生對(duì)dj的發(fā)生是必要的.也可理解為規(guī)則r(dj,ci)的置信度μji=1,反之亦然.
定理2對(duì)于反向規(guī)則
置信度μji與nec(dj,ci)呈正相關(guān)關(guān)系.
證明假設(shè)
從而
P(~ci|dj)=1-P(ci|dj)=1-β,
進(jìn)一步得
又因?yàn)?/p>
所以
故置信度μji與nec(dj,ci)呈正相關(guān)關(guān)系.
根據(jù)上述研究并結(jié)合文獻(xiàn)[20]中因果力的定義,可得到如下因果力的定義.
定義12對(duì)于規(guī)則
及其反規(guī)則
ci和dj之間的因果力定義為
CP=μij+μji-1.
顯然CP∈[-1,1].
文獻(xiàn)[39]指出,當(dāng)SCEells<0時(shí),不能說(shuō)明c是e的原因,即:當(dāng)CP<0時(shí),不能說(shuō)明ci是dj的原因;反之,當(dāng)CP≥0時(shí),要么ci是dj的原因,要么dj是ci的原因,要么ci和dj互為因果.
下面討論ci和dj互為因果的情形.假設(shè)當(dāng)μij≥ξ時(shí),ci是dj的原因,即ci→dj成立.同理,當(dāng)μji≥ξ時(shí),dj是ci的原因,即dj→ci成立.同時(shí)滿足μij+μji≥1,于是有
從而2ξ≥1,進(jìn)一步得到ξ≥0.5.
因此,根據(jù)上述研究可得到如下推論2.
推論2若μij≥0.5,有ci→dj成立,否則有ci→dj成立.同理,若μji≥0.5,有dj→ci成立,否則有dj→ci成立.
在問(wèn)題1輸出劃分集CS的基礎(chǔ)上結(jié)合上述定理和推論,進(jìn)一步可研究如下問(wèn)題2.
問(wèn)題2基于因果力代換的鄰域推薦
輸入CS,置信度閾值η、δ
輸出推薦規(guī)則r(ci,dj)
優(yōu)化目標(biāo)max(F1)
1)若μij≥η,則向擁有屬性ci的對(duì)象推薦屬性dj,
2)若μji≥δ,則向擁有屬性dj的對(duì)象推薦屬性ci.
其中,優(yōu)化目標(biāo)是最大化綜合評(píng)價(jià)指標(biāo)F1,用于提高模型的質(zhì)量.約束條件表示在社區(qū)Xi中,若μij≥η,則將屬性dj推薦給社區(qū)Xi中擁有屬性ci的節(jié)點(diǎn);若μji≥δ,則將屬性ci推薦給社區(qū)Xi中擁有屬性dj的節(jié)點(diǎn).
特別地,由推論2可知,在提取推薦規(guī)則時(shí),置信度閾值η≥0.5,δ≥0.5.因此,在后面實(shí)驗(yàn)部分設(shè)置置信度閾值分別為η=δ=0.5.
基于因果力的鄰域推薦算法(NRACF)框圖如圖2所示.
圖2 NRACF框架圖Fig.2 Flowchart of NRACF
下面給出NRACF的具體步驟.
算法1基于因果力的鄰域推薦算法(NRACF)
輸入網(wǎng)絡(luò)決策形式背景(U,M,C,D,I),
專(zhuān)家比例λ,置信度閾值η、δ
輸出推薦規(guī)則r(ci,dj),r(dj,ci)
step 1 計(jì)算網(wǎng)絡(luò)中所有節(jié)點(diǎn)的聚合中心度:
將所有的聚合度中心度sD(i)按從大到小的順序排列,并依據(jù)λ選取專(zhuān)家集,記為E={e1,e2,…,eh},其中h=λ|U|.
step 2 依次選取E中的節(jié)點(diǎn)ei,及其一階鄰接節(jié)點(diǎn)集構(gòu)成社區(qū)N={X1,X2,…,Xh}.
step 3 依次選取N中的社區(qū)Xs,計(jì)算每個(gè)條件屬性ci在社區(qū)Xs中的密度
以及每個(gè)決策屬性dj在社區(qū)Xs中的密度
在此基礎(chǔ)上,計(jì)算每個(gè)社區(qū)ρc的均值μ及標(biāo)準(zhǔn)差σ,并對(duì)所有社區(qū)的μ-σ求平均值,記為條件屬性密度α的閾值,同理得到?jīng)Q策屬性密度β的閾值.
step 4 依次選取N中的社區(qū)Xs,計(jì)算
若μij≥η,輸出推薦規(guī)則r(ci,dj);若μji≥δ,輸出推薦規(guī)則r(dj,ci);若μij≥η且μji≥δ,輸出推薦規(guī)則r(ci,dj)和r(dj,ci);否則,返回step 4.
step 6 利用獲取的推薦規(guī)則對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行推薦預(yù)測(cè),算法結(jié)束.
假設(shè)網(wǎng)絡(luò)決策形式背景中有n位用戶和m個(gè)屬性,屬性包括p個(gè)條件屬性,q個(gè)決策屬性,m=p+q,則選取的專(zhuān)家個(gè)數(shù)為λn,通過(guò)專(zhuān)家節(jié)點(diǎn)劃分社區(qū)的時(shí)間復(fù)雜度為O(λn2).在劃分的社區(qū)中,計(jì)算條件弱概念內(nèi)涵的時(shí)間復(fù)雜度為O(λn2p),計(jì)算決策弱概念內(nèi)涵的時(shí)間復(fù)雜度為O(λn2q),對(duì)于w個(gè)條件弱概念內(nèi)涵和v個(gè)決策弱概念內(nèi)涵,計(jì)算條件弱概念內(nèi)涵與決策弱概念內(nèi)涵間因果力的時(shí)間復(fù)雜度為O(wv).由于要遍歷所有社區(qū)進(jìn)行推薦,所以算法1的時(shí)間復(fù)雜度為O(λ2n3m+λnwv).
注意到,對(duì)象擁有的屬性個(gè)數(shù)小于m,因此,構(gòu)造弱概念集進(jìn)行鄰域劃分的時(shí)間復(fù)雜度小于O(λn2m).對(duì)比構(gòu)造概念格進(jìn)行鄰域劃分的時(shí)間復(fù)雜度O(n2m)[37]和文獻(xiàn)[40]的時(shí)間復(fù)雜度O(λn3m2),NRACF具有明顯的計(jì)算優(yōu)勢(shì).
本文實(shí)驗(yàn)選取電影評(píng)分MovieLens數(shù)據(jù)集(https://grouplens.org/datasets/movielens)上的ML-1m數(shù)據(jù)集與ML-100k數(shù)據(jù)集的5個(gè)抽樣數(shù)據(jù)集和電影評(píng)分Filmtrust數(shù)據(jù)集(https://guoguibing.github.io/librec/datasets.html),數(shù)據(jù)集信息如表4所示.
在實(shí)驗(yàn)中,首先將所用數(shù)據(jù)集進(jìn)行預(yù)處理,再隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,剩余20%的數(shù)據(jù)作為測(cè)試集.然后在訓(xùn)練集上利用算法1得到推薦規(guī)則.進(jìn)一步,在測(cè)試集上進(jìn)行推薦列表預(yù)測(cè),并計(jì)算該算法在數(shù)據(jù)集上的精確度、召回率和F1值.最后,將算法1的結(jié)果與常見(jiàn)的6種推薦算法進(jìn)行對(duì)比.
下面說(shuō)明數(shù)據(jù)集的預(yù)處理步驟.
1)構(gòu)造決策形式背景.首先,由于部分電影評(píng)論人數(shù)較少,可用性不強(qiáng),故選擇評(píng)論人數(shù)前30%的電影作為屬性集.然后,將篩選的屬性集按照例1中方法分為條件屬性集C與決策屬性集D.最后,在電影評(píng)分矩陣Q中:若v(xi,ci)>0,則IC(xi,ci)=1,否則,IC(xi,ci)=0;若v(xi,dj)>0,則ID(xi,dj)=1,否則,ID(xi,dj)=0,得到?jīng)Q策形式背景.
2)構(gòu)造網(wǎng)絡(luò)鄰接矩陣.對(duì)于電影評(píng)分矩陣Q,根據(jù)定義3將對(duì)象間的相似性矩陣S轉(zhuǎn)化為網(wǎng)絡(luò)鄰接矩陣M,得到對(duì)象間的網(wǎng)絡(luò)鄰接矩陣.
本文采用如下推薦系統(tǒng)常用的評(píng)價(jià)指標(biāo).
1)精確度(Precision):
2)召回率(Recall):
3)F1-measure:
其中,R(x)為根據(jù)訓(xùn)練集得到的推薦預(yù)測(cè)列表,T(x)為用于驗(yàn)證結(jié)果的測(cè)試列表.
本節(jié)分析參數(shù)λ對(duì)F1值的影響,并討論算法1中計(jì)算參數(shù)α、β方法的合理性.
在算法1中,選取λ=0.1、0.3、0.5、0.7、0.9,依次計(jì)算F1值,結(jié)果如表5所示,表中黑體數(shù)字表示最大值.由表可知,隨著λ的增大,各數(shù)據(jù)集上F1值逐漸減小,變化幅度較小,但均在λ=0.1時(shí)取得最大值.這說(shuō)明當(dāng)專(zhuān)家比例達(dá)到0.1時(shí),算法1在各數(shù)據(jù)集上的指標(biāo)值最優(yōu).
表5 參數(shù)λ對(duì)F1值的影響Table 5 Effect of λ on F1
在算法1中,根據(jù)統(tǒng)計(jì)原理求得條件屬性密度閾值α=0.2,決策屬性密度閾值β=0.1.
下面分別定義α=0.1,0.2,…,0.9,β=0.1,0.2,…,0.9,根據(jù)算法1獲取推薦規(guī)則集,并在測(cè)試集上計(jì)算F1值,結(jié)果如表6和表7所示,表中黑體數(shù)字表示最大值.另外,當(dāng)α=0.5,0.6,…,0.9時(shí),F(xiàn)1值都為0,所以未顯示在表6中.而當(dāng)β=0.4,0.5,…,0.9時(shí),F(xiàn)1值都為0,所以也未顯示在表7中.
表6 參數(shù)α對(duì)F1值的影響Table 6 Effect of α on F1
表7 參數(shù)β對(duì)F1值的影響Table 7 Effect of β on F1
由表6可知,當(dāng)α從0.1增大到0.2時(shí),各數(shù)據(jù)集上的F1值逐漸增大,并在α=0.2時(shí)取得最大值.而當(dāng)α繼續(xù)增大時(shí),各數(shù)據(jù)集上的F1值逐漸減小直至為0.這是因?yàn)楫?dāng)α達(dá)到一定值時(shí),若繼續(xù)增大,社區(qū)中滿足條件的條件屬性會(huì)減少,獲取的推薦規(guī)則也會(huì)減少,最終導(dǎo)致F1值越來(lái)越小.所以,在算法1中,根據(jù)統(tǒng)計(jì)原理求得α的方法是可行的.
由表7可知,隨著β的增大,各數(shù)據(jù)集上的F1值逐漸減小,直至為0,但均在β=0.1時(shí)取得最大值.這是因?yàn)楫?dāng)β達(dá)到一定值時(shí),若繼續(xù)增大,社區(qū)中滿足條件的決策屬性就會(huì)減少,獲取的推薦規(guī)則也會(huì)減少,最終導(dǎo)致F1值越來(lái)越小.所以,在算法1中,根據(jù)統(tǒng)計(jì)原理求得β的方法也是可行的.
綜上所述,本文將算法1的參數(shù)設(shè)置為λ=0.1,η=δ=0.5,并進(jìn)行如下對(duì)比實(shí)驗(yàn).
GRAWS[40]是基于弱概念相似度的組推薦算法,主要通過(guò)*算子誘導(dǎo)的網(wǎng)絡(luò)弱概念進(jìn)行社區(qū)劃分,并在劃分的社區(qū)中根據(jù)屬性弱概念下限相似度進(jìn)行組推薦.對(duì)于n位用戶和m個(gè)屬性的網(wǎng)絡(luò)決策形式背景,GRAWS的時(shí)間復(fù)雜度為O(λn3m2).為了驗(yàn)證NRACF的有效性與運(yùn)行效率,將其與GRA-WS在不同的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表8所示,表中黑體數(shù)字部分表示最優(yōu)值.
表8 NRACF與GRAWS的推薦效果及運(yùn)行時(shí)間對(duì)比Table 8 Comparison of recommendation results and running time between NRACF and GRAWS
由表8可知,在7個(gè)數(shù)據(jù)集上,相比GRAWS,NRACF的推薦效果有小幅提升,但在運(yùn)行效率上有明顯提高.具體地,在精確度上,NRACF均優(yōu)于GRAWS.在召回率上,NRACF在ML-1m、ML-100k-u2、ML-100k-u5、Filmtrust數(shù)據(jù)集上優(yōu)于GRAWS.在F1值方面,除了ML-100k-u1、ML-100k-u4數(shù)據(jù)集,NRACF在其它數(shù)據(jù)集上都取得最優(yōu)值.在運(yùn)行時(shí)間上,NRACF的運(yùn)行時(shí)間明顯短于GRAWS,GRAWS的平均運(yùn)行時(shí)間為6 407.21 s,而NRACF的平均運(yùn)行時(shí)間為1 708.43 s,計(jì)算效率提升超過(guò)2倍.
為了進(jìn)一步驗(yàn)證NRACF的有效性,將其與如下5種常見(jiàn)的推薦算法進(jìn)行對(duì)比.
1)User-Based CF(User-Based Collaborative Filtering)[17].基于用戶的協(xié)同過(guò)濾推薦算法,通過(guò)用戶之間的相似性對(duì)目標(biāo)用戶進(jìn)行預(yù)測(cè)評(píng)分.
2)Item-Based CF(Item-Based Collaborative Filtering)[18].基于項(xiàng)目的協(xié)同過(guò)濾推薦算法,通過(guò)計(jì)算項(xiàng)目之間的相似度,并根據(jù)評(píng)分信息預(yù)測(cè)目標(biāo)項(xiàng)目.
3)GraphRec[41].基于圖神經(jīng)網(wǎng)絡(luò)的社交推薦算法,利用圖神經(jīng)網(wǎng)絡(luò)對(duì)社交網(wǎng)絡(luò)中的用戶和項(xiàng)目的特征進(jìn)行學(xué)習(xí),預(yù)測(cè)評(píng)分.
4)ETBRec(A Novel Recommendation Algorithm Combining the Double Influence of Trust Relationship and Expert Users)[42].結(jié)合用戶信任關(guān)系和專(zhuān)家用戶影響的協(xié)同過(guò)濾推薦算法,通過(guò)用戶之間的相似性構(gòu)造信任關(guān)系矩陣,并根據(jù)用戶的信任度和積極態(tài)度計(jì)算各用戶成為專(zhuān)家的可能,結(jié)合信任關(guān)系矩陣和專(zhuān)家進(jìn)行預(yù)測(cè)評(píng)分.
5)TF*Clarity(Term Frequency*Clarity)[43].結(jié)合標(biāo)簽相關(guān)性和用戶社會(huì)關(guān)系的推薦算法,構(gòu)建標(biāo)簽相關(guān)矩陣和社交關(guān)系相似矩陣,獲取用戶標(biāo)簽矩陣,并進(jìn)行預(yù)測(cè)評(píng)分.
各對(duì)比算法在各數(shù)據(jù)集上的精確度、召回率和F1值的對(duì)比結(jié)果如表9~表11所示,表中黑體數(shù)字表示最優(yōu)值.
由表9~表11可知:在精確度上,NRACF在所有數(shù)據(jù)集上都優(yōu)于其它算法;在召回率上,NRACF在ML-1m、ML-100k-u2、Filmtrust數(shù)據(jù)集上優(yōu)于其它算法;在F1值上,除了ML-100k-u4數(shù)據(jù)集,NRACF在其它數(shù)據(jù)集上都得到最優(yōu)值.
表9 各算法在7個(gè)數(shù)據(jù)集上的精確度對(duì)比Table 9 Accuracy comparison of different algorithms on 7 datasets
表10 各算法在7個(gè)數(shù)據(jù)集上的召回率對(duì)比Table 10 Recall comparison of different algorithms on 7 datasets
表11 各算法在7個(gè)數(shù)據(jù)集上的F1值對(duì)比Table 11 F1 value comparison of different algorithms on 7 datasets
綜上所述,在選取的大部分?jǐn)?shù)據(jù)集上,NRACF在精確度、召回率和F1值上均表現(xiàn)出明顯優(yōu)勢(shì).因此,對(duì)于網(wǎng)絡(luò)鄰域推薦任務(wù),當(dāng)數(shù)據(jù)集上的條件屬性與決策屬性之間存在較強(qiáng)的因果力時(shí),建議采用NRACF.
本文結(jié)合網(wǎng)絡(luò)決策形式背景、變精度算子、Pearl因果力理論,提出基于因果力的鄰域推薦算法(NRACF),并運(yùn)用在MovieLens、Filmtrust數(shù)據(jù)集上.通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),NRACF整體上性能較優(yōu),這有助于形式概念分析與因果推斷的交叉融合研究.今后,還可進(jìn)一步結(jié)合因果涌現(xiàn)、因果推斷與網(wǎng)絡(luò)形式背景,開(kāi)展其它研究.