張建華,劉 柯,葉建文
(鄭州大學(xué) 管理工程學(xué)院,鄭州 450001)
在知識經(jīng)濟(jì)時(shí)代,知識的地位和作用有如資本之于工業(yè)經(jīng)濟(jì)、土地之于農(nóng)業(yè)經(jīng)濟(jì),已經(jīng)上升為首要的生產(chǎn)要素。高效應(yīng)用知識、實(shí)現(xiàn)其價(jià)值,成為廣受關(guān)注的話題。知識的價(jià)值實(shí)現(xiàn)依托于知識的傳播、應(yīng)用、創(chuàng)新和服務(wù),是組織進(jìn)步和發(fā)展的重要驅(qū)動力。面對知識體量的快速增長,知識推送作為一項(xiàng)基礎(chǔ)性知識服務(wù)方式,可以有效解決廣大知識用戶的“知識迷向”問題,能夠促進(jìn)組織內(nèi)知識的傳播、共享與應(yīng)用,確保知識價(jià)值的有效實(shí)現(xiàn);同時(shí),高效的知識推送亦能對組織的知識創(chuàng)新形成有效支持,從而為組織自身增益。
推薦技術(shù)是知識推送服務(wù)的基礎(chǔ)與核心。目前對推薦技術(shù)的研究主要包括4大類:
(1)協(xié)同過濾推薦算法基于“物以類聚,人以群分”的思想,利用用戶-項(xiàng)目行為矩陣計(jì)算用戶之間或項(xiàng)目之間的相似度實(shí)施知識推薦。它不考慮項(xiàng)目的具體內(nèi)容以及用戶的具體興趣,是目前研究和應(yīng)用最為廣泛的推薦算法,在電子商務(wù)、社交媒體等領(lǐng)域的應(yīng)用中均取得了良好的效果;但該類方法存在冷啟動、評價(jià)稀疏等問題,且基于用戶評分的相似度計(jì)算方法亦存在主觀性過強(qiáng)的問題。
(2)基于內(nèi)容的推薦算法主要利用項(xiàng)目相對客觀的內(nèi)容信息,將用戶特征與項(xiàng)目特征匹配,從而為用戶推薦相似項(xiàng)目,推薦結(jié)果易解釋;但該類方法基于用戶以前喜歡的項(xiàng)目范疇,在一定程度上受限于用戶視野,不利于創(chuàng)新。
(3)基于數(shù)據(jù)挖掘的推薦主要表現(xiàn)為基于關(guān)聯(lián)規(guī)則的推薦。它根據(jù)用戶的偏好集產(chǎn)生關(guān)聯(lián)規(guī)則,進(jìn)而根據(jù)關(guān)聯(lián)規(guī)則將新項(xiàng)目推薦給用戶[1]。此方法通過挖掘并利用關(guān)聯(lián)規(guī)則這一內(nèi)隱知識產(chǎn)生用戶意想不到的結(jié)果;但關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)耗時(shí)且有時(shí)難以理解,質(zhì)量或難以保證。
(4)由于各類推薦算法兼具優(yōu)缺點(diǎn),在實(shí)踐中,人們常采用混合推薦算法[2]。該方法將兩種或兩種以上的推薦技術(shù)相融合,以此來彌補(bǔ)各算法的不足,從而優(yōu)化推薦結(jié)果。目前常用的融合方式有加權(quán)、變換、混合、特征組合、層疊、特征擴(kuò)充以及元級別融合等。
王道平等[3]基于協(xié)同過濾算法,綜合考慮用戶興趣和項(xiàng)目屬性因素,利用內(nèi)容相似度解決了用戶-項(xiàng)目評分矩陣的數(shù)據(jù)稀疏性等問題。周明建等[4]提出基于屬性相似度的知識推送算法,通過對用戶所瀏覽知識的屬性相似度進(jìn)行分析得到用戶的興趣信息,然后將新知識與用戶興趣信息進(jìn)行匹配,從而得到推薦結(jié)果。郭均鵬等[5]利用混合推薦策略,將基于內(nèi)容的推薦與基于項(xiàng)目的協(xié)同過濾推薦技術(shù)相結(jié)合,從而克服冷啟動問題及用戶-項(xiàng)目評分矩陣稀疏性問題。然而,若只將基于內(nèi)容的推薦算法與協(xié)同過濾算法相融合,因其只以知識相似性度量為基準(zhǔn)對用戶實(shí)施推薦,推薦結(jié)果只能反映知識之間的相似性,卻未能兼顧知識間的關(guān)聯(lián)度。相似度低但關(guān)聯(lián)度高的知識有利于激發(fā)用戶的創(chuàng)新思維,而過于相似的知識對用戶而言因冗余而增加成本、耗費(fèi)精力。由此,曲朝陽等[6]將知識關(guān)聯(lián)度與相似度相結(jié)合,共同作用于推薦結(jié)果、提高推薦質(zhì)量。
成本是組織運(yùn)營需要考慮的重要因素。大部分推薦算法都將推薦決策劃分為推薦和不推薦兩種,非此即彼、缺乏包容性,增大了因錯(cuò)誤分類而產(chǎn)生的成本。在現(xiàn)實(shí)生活中,人們認(rèn)知和解決問題常常基于一種三元思維。例如,將對某種觀點(diǎn)的態(tài)度劃分為接受、中立和拒絕,將過程控制劃分為事前、事中和事后,專家在論文評審過程中接收、拒稿或返修再審[7]。三支決策最早由YAO 提出[8]。作為符合人類認(rèn)知規(guī)律的模型,已經(jīng)應(yīng)用于信息咨詢、管理決策、醫(yī)療和工程等多個(gè)領(lǐng)域并取得了良好成效[9]。Zhang等[10]兼顧學(xué)習(xí)成本和誤分類成本,把三支決策模型與隨機(jī)森林整合,建立了一個(gè)新的推薦系統(tǒng),實(shí)驗(yàn)證明應(yīng)用三支決策產(chǎn)生的推薦成本低于傳統(tǒng)的二分法。Zhang等[11]提出了一個(gè)基于回歸的三支推薦模型,并尋找最優(yōu)閾值來最小化推薦成本。葉曉慶等[12]考慮了推薦成本以及項(xiàng)目特征對用戶評分的影響,將三支決策思想和粒計(jì)算思想引入,從而提高了推薦質(zhì)量并降低了推薦成本。
有鑒于此,本文以基于知識屬性的視圖相似度衡量知識間的相似度,以用戶偏好集為基礎(chǔ),采用Apriori算法挖掘并利用關(guān)聯(lián)規(guī)則這一內(nèi)隱知識衡量知識之間的關(guān)聯(lián)度,將兩者融合得到一種新的知識相關(guān)度模型,并據(jù)此預(yù)測評分。如此,不僅能緩解傳統(tǒng)協(xié)同過濾算法的數(shù)據(jù)稀疏問題,也將知識關(guān)聯(lián)度考慮在內(nèi),可更好地滿足組織知識推送需求。而后,在推薦決策中引入三支決策,提出基于三支決策的組織關(guān)聯(lián)知識推送算法,并用Movie Lens數(shù)據(jù)集檢驗(yàn)了該算法的效果。
針對知識多樣性,根據(jù)其所屬領(lǐng)域、可解決問題類型等賦予知識不同的屬性,從而依據(jù)知識屬性集進(jìn)行知識建模,實(shí)現(xiàn)組織對知識的統(tǒng)一管理。
本文通過基于計(jì)算知識屬性的視圖相似度來表征知識間的相似度,為此構(gòu)建如表1所示的知識-屬性矩陣Kattr。
表1 知識屬性矩陣
其中,aij表示知識i是否具有屬性j,其取值如下所示:
基于知識屬性文本特征和集合性,選用Jaccard相似系數(shù)表征兩條知識之間的屬性相似度,相應(yīng)的計(jì)算公式為
基于每條知識所具有屬性的不同將知識加以區(qū)分,并兼顧不同屬性對知識區(qū)分度的作用差異,通過信息熵的大小為屬性賦權(quán),得到信息加權(quán)的Jaccard知識視圖相似度[13]:
式(3)中:w(Ak)為屬性Ak的信息熵;p(Ak)為屬性Ak出現(xiàn)的概率,其計(jì)算公式如式(4)所示。其中:為知識的總數(shù)目;n(Ak)為屬性Ak出現(xiàn)的次數(shù)。
通過知識視圖相似度可以辨別相似的知識,但相似的知識對于組織成員的效用有限,因?yàn)椴煌耆嗨频嬖陉P(guān)聯(lián)的知識反而有利于拓展組織成員的思維,進(jìn)而激發(fā)他們的創(chuàng)新行為,提高知識的利用價(jià)值。因此,基于組織成員的知識偏好集,本文基于經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法——Apriori的基本原理,采用改造后的算法挖掘兩兩知識之間的關(guān)聯(lián)規(guī)則,并以關(guān)聯(lián)規(guī)則的置信度表示知識之間關(guān)聯(lián)度的大小。
算法步驟:①遍歷所有用戶知識偏好集,對每條知識進(jìn)行計(jì)數(shù)得到候選項(xiàng)集C1,將支持度計(jì)數(shù)等于0的知識項(xiàng)剔除,得到頻繁1項(xiàng)集;②再次掃描數(shù)據(jù)集,計(jì)算所有候選2項(xiàng)集的支持度計(jì)數(shù),設(shè)置2項(xiàng)集支持度閾值c,將支持度計(jì)數(shù)小于閾值的候選集的置信度設(shè)置為0;③計(jì)算所有候選2項(xiàng)集的置信度conf,建立知識關(guān)聯(lián)度矩陣,并將空缺值補(bǔ)為0;④由于關(guān)聯(lián)規(guī)則知識i→知識j以及知識j→知識i的意義不同,其各自的置信度conf(i,j)和conf(j,i)亦不同,故知識i、j之間的關(guān)聯(lián)度可融合計(jì)算如下所示:
協(xié)同過濾算法以用戶-項(xiàng)目評分矩陣為基礎(chǔ),自提出以來就被廣泛應(yīng)用并取得了良好效果。其按原理不同可劃分為兩類:基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法。其中,前者從計(jì)算用戶相似度出發(fā),根據(jù)與目標(biāo)用戶相似的近鄰用戶對項(xiàng)目的評分預(yù)測目標(biāo)用戶對某項(xiàng)目的評分;后者則以計(jì)算項(xiàng)目相似度為起點(diǎn),根據(jù)與目標(biāo)項(xiàng)目相似的、目標(biāo)用戶已評分的近鄰項(xiàng)目預(yù)測目標(biāo)用戶對目標(biāo)項(xiàng)目的評分[14]。知識推送系統(tǒng)的作用在于依據(jù)用戶日常瀏覽的知識范疇為用戶推送相關(guān)知識,故選取基于項(xiàng)目的協(xié)同過濾算法,依據(jù)組織成員的歷史知識偏好為其推送相關(guān)知識。
三支決策是對概率粗糙集的語義擴(kuò)展,是粗糙集理論和決策理論的一種融合,為粗糙集理論在實(shí)際決策問題中的應(yīng)用建立起一座橋梁[9]。絕大部分推薦算法都只有推薦和不推薦兩種推薦決策。顯然,這種二支決策模型(見表2)的決策劃分非此即彼、缺乏包容性,增大了因錯(cuò)誤分類而產(chǎn)生的成本。
表2 二支推薦模型
有鑒于此,基于對知識推送成本的考慮,將已有基于決策粗糙集的三支決策模型引入,以此建立本文的知識推送模型,如表3所示。該模型基于用戶對知識的兩種偏好,根據(jù)對應(yīng)決策區(qū)域劃分的“正域”“邊界域”和“負(fù)域”分別定義了“推送”“延遲推送”和“不推送”3種知識推送決策。相較于二支推薦模型,本文的知識推送模型增加了在掌握信息不充分時(shí)應(yīng)采取的延遲策略,以此來降低因錯(cuò)誤分類進(jìn)而采取錯(cuò)誤決策而導(dǎo)致的推送成本。
表3 三支推送模型
在表2、3中,P(X|[x])表示任何一個(gè)實(shí)體在屬于等價(jià)類[x]的條件下,屬于類別X的條件概率。
基于三支決策的關(guān)聯(lián)知識推送主要包括兩個(gè)部分:①基于項(xiàng)目最近鄰的協(xié)同過濾的關(guān)聯(lián)知識評分預(yù)測。首先計(jì)算知識之間的相關(guān)度,然后采用傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾算法根據(jù)最近鄰預(yù)測用戶評分。②三支知識推送決策。以所得的預(yù)測評分為基礎(chǔ),根據(jù)基于決策粗糙集的三支決策模型實(shí)現(xiàn)三支知識推送。
考慮知識特性,本文改變傳統(tǒng)協(xié)同過濾推薦算法中依據(jù)用戶評分來計(jì)算項(xiàng)目之間相似度的思路,而是首先通過知識所具有的屬性計(jì)算知識之間的相似度,并采用關(guān)聯(lián)規(guī)則挖掘算法測度知識之間關(guān)聯(lián)度;然后,將兩者按最優(yōu)融合系數(shù)加以融合,建立新的知識相關(guān)度指標(biāo),用它來衡量知識之間的關(guān)系;最后,以對知識的平均打分為基礎(chǔ)、以知識相關(guān)度為權(quán)重預(yù)測用戶對未評分知識的評分。
(1)知識相關(guān)度計(jì)算。在分別計(jì)算知識間視圖相似度和關(guān)聯(lián)度后,需對兩者進(jìn)行融合得到新的指標(biāo)——知識相關(guān)度。線性融合是融合的經(jīng)典思路,其關(guān)鍵在于融合系數(shù)的確定。采用實(shí)驗(yàn)研究方法,確定使得推薦結(jié)果誤差最小的融合系數(shù),并通過下式計(jì)算得到兩兩知識之間的相關(guān)度:
式中:q為融合系數(shù);similarity(i,j)是由式(2)得到的信息熵加權(quán)的知識視圖相似度,association(i,j)是由式(5)得到的知識關(guān)聯(lián)度。知識相關(guān)度矩陣Kcorr如表4所示。
表4 知識相關(guān)度矩陣
(2)尋找最近鄰。在尋找知識的最近鄰時(shí),基于固定數(shù)量的鄰居原則,根據(jù)知識相關(guān)度矩陣Kcorr,選擇與每條知識相關(guān)度最大的前k條知識作為其最近鄰知識。
(3)預(yù)測評分。根據(jù)知識間相關(guān)度以及每條知識近的鄰知識的評分記錄,預(yù)測組織成員對未評分知識的評分,其計(jì)算公式為
根據(jù)預(yù)測評分、知識推送成本,借助基于決策粗糙集的三支決策模型做出最后的知識推送決策。該模型包含3個(gè)部分:①基于用戶對知識的“有幫助”和“無幫助”兩種偏好,根據(jù)對應(yīng)決策區(qū)域即用戶未觸及知識的“正域”“邊界域”和“負(fù)域”劃分,分別定義3種知識推送決策:推送(PP)、延遲推送(PB)和不推送(PN);②根據(jù)誤分類成本和學(xué)習(xí)成本,建立一個(gè)如表5 所示的成本矩陣;③根據(jù)此成本矩陣,計(jì)算各決策區(qū)域的劃分閾值α和β。
表5 知識推送成本矩陣
基于用戶對知識的兩種偏好,用H表示用戶認(rèn)為“有幫助”的知識的集合,用U表示用戶認(rèn)為“沒有幫助”的知識的集合。如表5所示,不同決策行為對應(yīng)不同的成本。如果一條知識被某用戶認(rèn)為有幫助(H),則λPH、λBH和λNH表示對此知識采取推送(PP)、延遲推送(PB)和不推送(PN)3種決策對應(yīng)產(chǎn)生的成本;如果一條知識被某用戶認(rèn)為沒有幫助(U),則λPU、λBU和λNU表示對此知識采取不同的推送決策所產(chǎn)生的成本。
至此,對知識庫中的知識采取不同決策行為的期望成本為:
根據(jù)貝葉斯決策過程中的最小風(fēng)險(xiǎn)原則,可得如下區(qū)域劃分規(guī)則:如果CP≤CB且CP≤CN,則將知識x劃入正域;如果CB≤CP且CB≤CN,則將x劃入邊界域;如果CN≤CP且CN≤CB,則將x劃入負(fù)域。
基于知識用戶對知識的兩種偏好劃分,則有
在知識推送過程中,誤分類成本一般比延遲推送所需的學(xué)習(xí)成本要高,而學(xué)習(xí)成本一般比正確推送的成本要高。將屬于H的知識x劃分到正域的損失小于或等于將x劃分到邊界域中的損失,并且這兩種損失都嚴(yán)格小于將x劃分到負(fù)域的損失;類似地,屬于U的知識x同理。這符合三支決策的一個(gè)基本前提條件[8],即:
基于條件式(9)、(10),可將區(qū)域劃分規(guī)則式(8)重新表達(dá)為:如果P(H|[x])≥α且P(H|[x])≥γ,則將知識x劃入正域;如果P(H|[x])≤α且P(H|[x])≥β,則將知識x劃入邊界域;如果P(H|[x])≤β且P(H|[x])≤λ,則將知識x劃入負(fù)域。
由式(8)~(10)及區(qū)域劃分規(guī)則,可得α、β和γ的表達(dá)式為:
式中,γ為二支推送決策中的劃分閾值。
同時(shí),根據(jù)決策粗糙集,還需考慮另一條件:
至此可得0≤β<α≤1。前述區(qū)域劃分規(guī)則可進(jìn)一步表達(dá)為:如果P(H|[x])≥α,則將知識x劃分入正域;如果β<P(H|[x])<α,則將知識x劃入邊界域;如果P(H|[x])≤β,則將知識x劃入負(fù)域。
若要將用戶未觸及的知識劃分決策區(qū)域,除了需要劃分閾值外,還需知道用戶認(rèn)為某知識“有幫助”的概率pu,i。預(yù)測評分的高低反映了用戶對知識評價(jià)的高低,用戶對某知識的評分越高,表明此知識對用戶有幫助的概率越大。將預(yù)測評分轉(zhuǎn)化為用戶認(rèn)為某知識有幫助的概率,其計(jì)算公式為
根據(jù)用戶認(rèn)為某知識“有幫助”的概率值pu,i以及決策區(qū)域劃分閾值α和β,即可將知識劃入正域、邊界域或負(fù)域中,進(jìn)而做出知識推送決策。
實(shí)驗(yàn)選用眾所周知的Movielens數(shù)據(jù)集,并根據(jù)本文算法的適用場景選擇Movielens-100k 數(shù)據(jù)集的前10 000條評分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。這其中包含了93名用戶對1 682部電影的評分信息,且每個(gè)用戶至少對20部電影進(jìn)行了評價(jià)。實(shí)驗(yàn)隨機(jī)將數(shù)據(jù)按80%和20%的比例劃分為訓(xùn)練集和測試集。實(shí)驗(yàn)將每部電影作為知識單位(結(jié)構(gòu)體),將電影類別作為知識屬性,以用戶平均打分為界限,若評分大于或等于用戶平均打分,則認(rèn)為用戶喜歡該電影;否則,用戶不喜歡該電影。如此,每個(gè)用戶喜歡的電影集合亦即用戶認(rèn)為“有幫助”的知識集合。
首先,通過實(shí)驗(yàn)確定計(jì)算知識相關(guān)度所需的融合系數(shù),然后通過與傳統(tǒng)推送模型的對比分析,測試本文推送模型的效果。實(shí)驗(yàn)對關(guān)聯(lián)知識二支推送模型、關(guān)聯(lián)知識三支推送模型、基于傳統(tǒng)ICF 的二支推送模型和基于傳統(tǒng)ICF 的三支推送模進(jìn)行兩兩比較,對比它們的推送效果。推送效果評價(jià)指標(biāo)包括平均推送成本、準(zhǔn)確率、召回率和覆蓋率。
采用平均成本來衡量二支和三支模型的推送成本。根據(jù)成本矩陣(見表5),推送總成本和平均推送成本的計(jì)算方式如下所示:
式中:TC為推送總成本;NPH、NBH和NNH分別為將用戶認(rèn)為“有幫助”的知識推送、延遲推送和不推送給用戶的數(shù)量,NPU、NBU和NNU分別為將用戶認(rèn)為“無幫助”的知識推送、延遲推送和不推送給用戶的數(shù)量。基于現(xiàn)實(shí)情況及三支推送決策中成本約束(見式(10)、(12)),實(shí)驗(yàn)設(shè)定的成本矩陣如表6 所示。相對而言,本文將正確決策的成本視為零,即λPH=λNU=0。
知識推送的目的在于將合適的知識推送至用戶,故推送的效果可用推送的準(zhǔn)確度來衡量。準(zhǔn)確率(Precision)和召回率(Recall)是信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域常用的兩個(gè)指標(biāo),同時(shí)也廣泛應(yīng)用于推薦領(lǐng)域[15]。它們將所得的預(yù)測評分轉(zhuǎn)化到分類問題上,用分類準(zhǔn)確度代替評分精確度,適用本文的實(shí)際應(yīng)用場景,故采用準(zhǔn)確率和召回率來衡量二支和三支模型推送的準(zhǔn)確度,兩者在本文中的計(jì)算方式如下所示:
式中,NPH、NPU和NNH的含義與推送總成本相同。準(zhǔn)確率表征了推送結(jié)果被用戶認(rèn)為“有幫助”的水平,召回率表征了用戶認(rèn)為“有幫助”的知識被推送的能力,故準(zhǔn)確率和召回率越高,推薦系統(tǒng)的推薦效果越好。
在推薦算法常用的測評指標(biāo)中,覆蓋率(Coverage)反映了算法對項(xiàng)目的平均推薦能力。本文采用覆蓋率來衡量推送模型對知識的推薦率,其計(jì)算方式為
式中:R(u)為用戶u的知識推送集;I為總的知識集;為相對應(yīng)的個(gè)數(shù)。覆蓋率表征了推送模型對知識的平均推送能力,其值越高,對冷門知識的推薦能力越高。
前已述及,知識關(guān)聯(lián)度的計(jì)算受支持度閾值的影響。根據(jù)本文推送模型的應(yīng)用場景及本實(shí)驗(yàn)所選數(shù)據(jù)集的特點(diǎn)(包含93名用戶),設(shè)定當(dāng)支持度閾值c=3時(shí),即至少有3名用戶共同認(rèn)為某兩條知識“有幫助”時(shí),將置信度的大小作為知識之間的關(guān)聯(lián)度。
因?yàn)橛脩舻钠眉⒉痪窒抻谔囟ǖ膶傩苑懂?所以由此得到的知識關(guān)聯(lián)度與知識之間基于屬性的視圖相似度不同。根據(jù)實(shí)驗(yàn)所得數(shù)據(jù),有些項(xiàng)目之間相似度很低但關(guān)聯(lián)度很高,同樣亦存在有些項(xiàng)目之間相似度很高但關(guān)聯(lián)度很低的情形,故采用md來說明。其為每個(gè)項(xiàng)目的相似度與關(guān)聯(lián)度之間差異的均平方,計(jì)算方式如下所示:
經(jīng)計(jì)算得md=0.382 3,這體現(xiàn)了項(xiàng)目之間的關(guān)聯(lián)度與項(xiàng)目之間的相似度的差異性。
在進(jìn)行算法效果的對比實(shí)驗(yàn)之前,還需確定計(jì)算知識相關(guān)度時(shí)所需的融合系數(shù)q的大小,即知識相關(guān)度中知識屬性相似度和知識關(guān)聯(lián)度各自所占的比重。采用實(shí)驗(yàn)的方法,通過計(jì)算并比較不同融合系數(shù)下的預(yù)測結(jié)果誤差,選擇使得誤差最小的融合系數(shù)作為最終的融合系數(shù)。具體地,實(shí)驗(yàn)在支持度閾值c=3,最近鄰數(shù)目k=10的條件下,在0.1~1范圍內(nèi)以0.1為跨度設(shè)置q,并以預(yù)測評分的平均絕對誤差MAE來衡量預(yù)測結(jié)果誤差,計(jì)算方法為
圖1 不同融合系數(shù)q 下的MAE
為比較不同推送模型的推送成本、準(zhǔn)確率、召回率和覆蓋率,實(shí)驗(yàn)根據(jù)不同模型評分預(yù)測方式、決策方式及對應(yīng)決策成本的不同,分別計(jì)算了不同最近鄰數(shù)目下基于傳統(tǒng)ICF的二支、三支推送模型和關(guān)聯(lián)知識二支、三支推送模型的平均推送成本、準(zhǔn)確率、召回率和覆蓋率,實(shí)驗(yàn)結(jié)果見圖2~5。
(1)推送成本。由圖2可知,在相同的評分預(yù)測方式下,三支推送模型在不同最近鄰數(shù)目下的平均推送成本均低于二支推送模型;而在相同的決策方式下,關(guān)聯(lián)知識推送模型的平均推送成本均低于基于傳統(tǒng)ICF的推送模型。總體而言,三支關(guān)聯(lián)知識推送模型的平均推送成本最低,較傳統(tǒng)ICF 二支推送模型平均降低3.25 單位成本,較傳統(tǒng)ICF 二支推送模型平均降低23.98%。
圖2 不同最近鄰數(shù)目下的平均推送成本
(2)準(zhǔn)確率。由圖3可知,在相同的評分預(yù)測方式下,三支推送模型在不同最近鄰數(shù)目下的準(zhǔn)確率均高于二支推送模型。三支決策方式下,在最近鄰數(shù)目為2~18,關(guān)聯(lián)知識推送模型的準(zhǔn)確率均高于基于傳統(tǒng)ICF的推送模型;當(dāng)最近鄰數(shù)目大于18后,兩者趨于相同。二支決策方式下,情況類似??傮w而言,三支關(guān)聯(lián)知識推送模型的準(zhǔn)確率更高,較傳統(tǒng)ICF二支推送模型平均提升7.15%。
圖3 不同最近鄰數(shù)目下的準(zhǔn)確率
(3)召回率。由圖4可知,在相同的評分預(yù)測方式下,三支推送模型在不同最近鄰數(shù)目下的召回率均高于二支推送模型;而在相同的決策方式下,關(guān)聯(lián)知識推送模型的召回率均高于基于傳統(tǒng)ICF 的推送模型。總體而言,三支關(guān)聯(lián)知識推送模型的召回率更高,較傳統(tǒng)ICF 二支推送模型平均提升20.2%。
圖4 不同最近鄰數(shù)目下的召回率
(4)覆蓋率。由圖5可知,在相同的評分預(yù)測方式下,三支推送模型在不同最近鄰數(shù)目下的覆蓋率均低于二支推送模型;而在相同的決策方式下,關(guān)聯(lián)知識推送模型的覆蓋率均高于基于傳統(tǒng)ICF 的推送模型。本文的三支關(guān)聯(lián)知識推送模型的覆蓋率較傳統(tǒng)ICF 二支推送模型平均降低18.09%,但較傳統(tǒng)ICF三支推送模型平均提升7.99%。
圖5 不同最近鄰數(shù)目下的覆蓋率
綜合上述實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:①三支關(guān)聯(lián)知識推送模型在平均推送成本、準(zhǔn)確率和召回率的平均表現(xiàn)均優(yōu)于其他3個(gè)推送模型。②本文提出的三支關(guān)聯(lián)知識推送模型的覆蓋率雖低于二支推送模型,但從側(cè)面反映了三支關(guān)聯(lián)知識推送模型犧牲了一定的覆蓋率、縮小了推送知識的范圍,從而提升了推送的準(zhǔn)確率、降低了推送成本。
考慮到知識關(guān)聯(lián)度的重要性以及傳統(tǒng)推送決策的二分性質(zhì),本文提出了一種基于三支決策的關(guān)聯(lián)知識推送算法。為挖掘并利用知識之間的潛在聯(lián)系,將知識關(guān)聯(lián)度融入評分預(yù)測中,構(gòu)建了融合知識相似度和知識關(guān)聯(lián)度的知識相關(guān)度模型。同時(shí),為了減少傳統(tǒng)二分法中因錯(cuò)誤分類而產(chǎn)生的推送成本,在最終的推薦決策中引入了三支決策思想,實(shí)現(xiàn)了三支推送,并通過實(shí)驗(yàn)驗(yàn)證了三支推送模型的推送成本、準(zhǔn)確率和召回率均優(yōu)于二支推送模型,但覆蓋率表現(xiàn)不如二支推送模型。在本文構(gòu)建的知識推送系統(tǒng)中,尚未考慮用戶評分偏好的問題,項(xiàng)目冷啟動問題依然存在,欠缺對延遲推送決策項(xiàng)目的后續(xù)處理,課題組將在后續(xù)研究中繼續(xù)優(yōu)化與補(bǔ)充。