黃震華,張佳雯,張 波,喻 劍,向 陽(yáng),黃德雙
(1.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804;2.上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海200234)
?
語(yǔ)義推薦算法研究綜述
黃震華1,張佳雯1,張 波2,喻 劍1,向 陽(yáng)1,黃德雙1
(1.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804;2.上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海200234)
近年來(lái),語(yǔ)義推薦技術(shù)已成為信息服務(wù)領(lǐng)域的一個(gè)研究熱點(diǎn)和重點(diǎn).與傳統(tǒng)的推薦算法相比,語(yǔ)義推薦算法在實(shí)時(shí)性、魯棒性和推薦質(zhì)量等方面具有顯著的優(yōu)勢(shì).針對(duì)語(yǔ)義推薦算法的國(guó)內(nèi)外研究現(xiàn)狀、進(jìn)展,從四個(gè)角度進(jìn)行歸納和總結(jié),即基于語(yǔ)義的內(nèi)容推薦算法、基于語(yǔ)義的協(xié)同過(guò)濾推薦算法、基于語(yǔ)義的混合推薦算法以及基于語(yǔ)義的社會(huì)化推薦算法,旨在盡可能全面地對(duì)語(yǔ)義推薦算法進(jìn)行細(xì)致的介紹與分析,為相關(guān)研究人員提供有價(jià)值的學(xué)術(shù)參考.最后,立足于研究現(xiàn)狀的分析與把握,對(duì)當(dāng)前語(yǔ)義推薦算法所面臨的挑戰(zhàn)與發(fā)展趨勢(shì)進(jìn)行了展望.
語(yǔ)義;推薦算法;內(nèi)容推薦;協(xié)同過(guò)濾推薦;混合推薦;社會(huì)化推薦
近年來(lái),隨著物聯(lián)網(wǎng)、云計(jì)算和社會(huì)網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間中所蘊(yùn)含的信息量將呈指數(shù)級(jí)增長(zhǎng)[1].例如,Facebook每月上傳的照片超過(guò)10 億張,每天生成300TB 以上的日志數(shù)據(jù);淘寶網(wǎng)站每天有超過(guò)數(shù)千萬(wàn)筆交易,單日數(shù)據(jù)產(chǎn)生量超過(guò)50TB;YouTube線上有數(shù)千萬(wàn)部電影,每天要處理上千萬(wàn)個(gè)視頻片段;AOL Music在線音樂(lè)網(wǎng)站的音樂(lè)庫(kù)包含有250萬(wàn)首歌曲和數(shù)千首音樂(lè)電視,每天獨(dú)立用戶訪問(wèn)量達(dá)到2500萬(wàn).不難發(fā)現(xiàn),信息過(guò)載呈爆發(fā)趨勢(shì),其結(jié)果導(dǎo)致了終端用戶無(wú)法準(zhǔn)確和高效地獲取自己感興趣的物品[2,3].
目前,推薦系統(tǒng)是解決信息超載問(wèn)題最有效的工具之一[4].推薦系統(tǒng)的概念是AT&T 貝爾研究院的Paul R博士在1997年提出的,通過(guò)建立用戶與物品之間的二元關(guān)系,利用用戶的歷史記錄或物品之間的相似性關(guān)系,挖掘每個(gè)用戶潛在感興趣的物品[5,6].不難看出,推薦系統(tǒng)由三個(gè)基本要素組成,即用戶、產(chǎn)品和推薦算法,而推薦算法是推薦系統(tǒng)的核心部分,它決定著推薦系統(tǒng)性能的優(yōu)劣[7].傳統(tǒng)的推薦算法可以歸納為3個(gè)大類(lèi),即基于內(nèi)容的推薦算法、協(xié)同過(guò)濾推薦算法以及混合推薦算法[8,9].我們將在第二節(jié)中,對(duì)傳統(tǒng)推薦算法的國(guó)內(nèi)外研究進(jìn)展進(jìn)行詳細(xì)的分析.
2006年Loizou A博士在意大利特蘭托市召開(kāi)的推薦系統(tǒng)研討會(huì)(ECAI 2006 Recommender Systems Workshop)上指出:傳統(tǒng)的推薦算法由于沒(méi)有考慮應(yīng)用場(chǎng)景的上下文語(yǔ)義,使得在實(shí)際應(yīng)用中,這些算法在實(shí)時(shí)性、魯棒性和推薦質(zhì)量等方面存在嚴(yán)重的不足,并提出了語(yǔ)義推薦算法的概念,其核心思想是將語(yǔ)義知識(shí)融合到推薦過(guò)程中,來(lái)克服傳統(tǒng)推薦算法的不足[10].隨后,許多學(xué)者開(kāi)始將語(yǔ)義技術(shù)集成進(jìn)傳統(tǒng)各類(lèi)推薦算法中,來(lái)提高總體推薦的效果.近年來(lái),基于語(yǔ)義的推薦技術(shù)已成為信息服務(wù)領(lǐng)域的一個(gè)研究熱點(diǎn)和重點(diǎn)[11].
據(jù)我們調(diào)研發(fā)現(xiàn),目前大多數(shù)的語(yǔ)義推薦算法均是在用戶建模階段利用基于知識(shí)的方法來(lái)表示用戶信息,并且使用標(biāo)準(zhǔn)的網(wǎng)絡(luò)本體語(yǔ)言例如OWL[12]進(jìn)行興趣建模.這些工作主要通過(guò)兩個(gè)不同的策略將語(yǔ)義技術(shù)融入推薦算法的用戶興趣建模中[13~16]:
(1) 通過(guò)擴(kuò)散激活的方法記錄用戶的興趣偏好,并將用戶資料表示為語(yǔ)義網(wǎng)絡(luò)[17],同時(shí)預(yù)先計(jì)算概念間關(guān)系的權(quán)重,將一個(gè)用戶的興趣偏好分?jǐn)?shù)傳播到其他用戶的相關(guān)興趣偏好分?jǐn)?shù)計(jì)算之中.例如,文獻(xiàn)[18]中提出一個(gè)種采用擴(kuò)散激活方法的新聞推薦系統(tǒng)News@hand,該推薦系統(tǒng)能夠動(dòng)態(tài)地增加初始的用戶長(zhǎng)期興趣偏好記錄.
(2) 利用本體中的層次結(jié)構(gòu)對(duì)用戶的興趣偏好做出推理.如果用戶可能喜歡某個(gè)物品,則推斷用戶也會(huì)對(duì)該物品所屬的一般類(lèi)別的物品感興趣,這種策略,我們稱(chēng)為上行擴(kuò)散法.這種方法能夠?qū)τ脩糸L(zhǎng)期的興趣偏好推斷新的知識(shí),從而豐富用戶模型.例如,文獻(xiàn)[19]中提出的Quickstep是一個(gè)科學(xué)著作推薦系統(tǒng),該系統(tǒng)采用了上行擴(kuò)散法來(lái)構(gòu)建用戶的配置文檔.
這兩種策略將語(yǔ)義技術(shù)應(yīng)用于推薦算法的用戶建模模塊中,另外一些語(yǔ)義推薦算法在內(nèi)容相似度匹配階段使用語(yǔ)義相似度來(lái)提高推薦算法的性能和效果[20~23].
總的來(lái)說(shuō),目前推薦系統(tǒng)的國(guó)內(nèi)外綜述文獻(xiàn)主要針對(duì)傳統(tǒng)的推薦算法,而極少涉及語(yǔ)義推薦算法.鑒于語(yǔ)義推薦算法的重要研究意義和實(shí)用價(jià)值,我們有必要跟蹤學(xué)習(xí)和總結(jié)該領(lǐng)域現(xiàn)階段的研究成果,并深入分析和預(yù)測(cè)其發(fā)展趨勢(shì),期望能夠更好地指導(dǎo)未來(lái)的研究工作.
傳統(tǒng)的推薦算法主要分為三類(lèi):基于內(nèi)容的推薦算法、協(xié)同過(guò)濾推薦算法以及混合推薦算法.
基于內(nèi)容的推薦算法[24~28]根據(jù)用戶喜好的物品,選擇與該物品相似度較高的其他物品生成推薦結(jié)果,向該用戶進(jìn)行推薦.該推薦算法首先由系統(tǒng)隱式獲取或是由用戶顯式給出對(duì)物品的興趣偏好屬性,然后通過(guò)計(jì)算和排序用戶興趣偏好與待預(yù)測(cè)物品描述文檔間的相似度,來(lái)向用戶推薦其可能感興趣的項(xiàng)目.基于內(nèi)容的推薦算法由于需要提取物品特征,自動(dòng)化的特征提取方法很難應(yīng)用于多媒體數(shù)據(jù);同時(shí),為用戶推薦的內(nèi)容僅限于與該用戶曾經(jīng)選擇物品相似的物品,結(jié)果多樣性較差.對(duì)于沒(méi)有選擇過(guò)任何物品的新用戶,存在著新用戶冷啟動(dòng)問(wèn)題[29].
協(xié)同過(guò)濾推薦算法分為兩種:基于用戶的協(xié)同過(guò)濾算法[29~32]和基于物品的協(xié)同過(guò)濾算法[33-36].基于用戶的協(xié)同過(guò)濾算法是利用與當(dāng)前用戶相似的用戶對(duì)某些物品的興趣偏好記錄,向當(dāng)前用戶推薦這些物品.基于物品的協(xié)同過(guò)濾算法是利用與當(dāng)前物品相似的某些物品,向當(dāng)前用戶推薦這些物品.前者需要計(jì)算用戶之間的相似度,后者需要計(jì)算物品之間的相似度,并為當(dāng)前用戶進(jìn)行推薦.同樣,協(xié)同過(guò)濾算法也存在冷啟動(dòng)問(wèn)題,對(duì)于新物品和新用戶無(wú)法進(jìn)行推薦.另外,協(xié)同過(guò)濾需要獲取用戶大量的歷史數(shù)據(jù),存在數(shù)據(jù)稀疏問(wèn)題[37].
由于基于內(nèi)容的推薦算法和協(xié)同過(guò)濾推薦算法各自存在不足之處,研究人員提出了混合推薦的方法[38~40]來(lái)解決單一推薦技術(shù)的不足.可以按照不同的混合策略,如加權(quán)、特征組合、混合等將不同的推薦技術(shù)進(jìn)行混合推薦.
傳統(tǒng)的推薦算法各有優(yōu)缺點(diǎn),在不同的研究領(lǐng)域中有各自比較典型的推薦系統(tǒng)應(yīng)用,具體比較和分析見(jiàn)表1.
從表1我們不難看出,傳統(tǒng)的三類(lèi)推薦算法均不考慮應(yīng)用場(chǎng)景的上下文語(yǔ)義,這將在很大程度上影響了推薦的效率和質(zhì)量.在第3~6節(jié)中,我們?cè)敿?xì)討論分析目前語(yǔ)義推薦算法的國(guó)內(nèi)外研究進(jìn)展,主要包括基于語(yǔ)義的內(nèi)容推薦算法、基于語(yǔ)義的協(xié)同過(guò)濾推薦算法、基于語(yǔ)義的混合推薦算法以及基于語(yǔ)義的社會(huì)化推薦算法.
表1 傳統(tǒng)推薦算法比較
傳統(tǒng)基于內(nèi)容的推薦算法通過(guò)匹配用戶興趣偏好和待預(yù)測(cè)物品描述文檔間的相似度來(lái)產(chǎn)生推薦結(jié)果,這將導(dǎo)致推薦結(jié)果過(guò)度集中,缺乏多樣性,并且對(duì)于新物品存在冷啟動(dòng)問(wèn)題.研究人員發(fā)現(xiàn),利用語(yǔ)義網(wǎng)絡(luò)中的語(yǔ)義推理技術(shù),通過(guò)推理物品間的語(yǔ)義關(guān)系可以發(fā)現(xiàn)新的知識(shí),從而將增強(qiáng)推薦能力.另外,利用語(yǔ)義網(wǎng)絡(luò)表示數(shù)據(jù)可以動(dòng)態(tài)地將用戶在特定領(lǐng)域的興趣偏好情景化,進(jìn)而在建立用戶模型過(guò)程中更好地表示用戶信息,以及能夠?qū)τ脩襞d趣偏好的不完全信息進(jìn)行推斷[48].
Victor C等人[49]提出一種領(lǐng)域無(wú)關(guān)的語(yǔ)義網(wǎng)絡(luò)推薦算法,利用語(yǔ)義增強(qiáng)技術(shù)提高了用戶建模和內(nèi)容匹配的性能.在用戶建模階段,算法收集標(biāo)有語(yǔ)義注釋物品的反饋信息,并利用反饋信息獲取用戶與物品之間的關(guān)聯(lián)關(guān)系,同時(shí)算法賦予每個(gè)關(guān)聯(lián)關(guān)聯(lián)予權(quán)重,來(lái)表示用戶對(duì)物品的偏好程度.在內(nèi)容匹配階段,算法對(duì)物品的描述是基于具體本體中所存在的概念,本體概念以層次化結(jié)構(gòu)進(jìn)行組織,因而,層次結(jié)構(gòu)的根結(jié)點(diǎn)定義物品類(lèi)型的屬性.作者通過(guò)實(shí)驗(yàn)表明該推薦算法能夠有效提高推薦的準(zhǔn)確率,并且對(duì)于擁有相對(duì)較小的興趣偏好記錄的用戶則具有較好的推薦效果.Tao P等人[50]通過(guò)構(gòu)造加權(quán)無(wú)向圖(WUG:Weighted Undirected Graph)[51],描述物品元數(shù)據(jù)之間的語(yǔ)義相似度.每一個(gè)物品是無(wú)向圖中的一個(gè)結(jié)點(diǎn),兩個(gè)物品的元數(shù)據(jù)屬性之間的相似度決定了結(jié)點(diǎn)之間邊上的權(quán)重,從而在語(yǔ)義關(guān)聯(lián)圖中找到與用戶瀏覽記錄相關(guān)聯(lián)的物品,并通過(guò)邊上權(quán)重排序來(lái)產(chǎn)生最終的推薦結(jié)果.Pasquale L等人[52]提出基于語(yǔ)義的內(nèi)容推薦算法FIRST,利用機(jī)器學(xué)習(xí)策略來(lái)獲取物品生產(chǎn)商提供的物品描述信息,并將這些描述信息與物品標(biāo)注的關(guān)鍵詞相結(jié)合來(lái)表示用戶的興趣偏好.FIRST算法在語(yǔ)義化物品描述信息的過(guò)程中,利用WSD(Word Sense Disambiguation)自然語(yǔ)言處理技術(shù)和WordNet[53]詞庫(kù)來(lái)避免物品信息的模糊和不確定性.另外,FIRST算法利用有監(jiān)督學(xué)習(xí)方法從物品標(biāo)注的關(guān)鍵詞中學(xué)習(xí)用戶興趣偏好模型,最后算法匹配用戶興趣偏好模型和物品語(yǔ)義信息,從而產(chǎn)生準(zhǔn)確的推薦結(jié)果.Sébastien H等人[54]提出了利用RDF (Resource Description Framework)知識(shí)庫(kù)[55]中的實(shí)例來(lái)定義語(yǔ)義相似度的方法.該方法將RDF知識(shí)庫(kù)映射成一張圖,其中頂點(diǎn)由類(lèi)、實(shí)例和不同類(lèi)型的數(shù)據(jù)組成,邊則表示類(lèi)、實(shí)例和數(shù)據(jù)之間的相互關(guān)系.同時(shí)用標(biāo)簽來(lái)表示實(shí)例,并且用元組來(lái)表示從資源到類(lèi)別需要遍歷標(biāo)簽的路徑,然后采用歐幾里得距離計(jì)算路徑的長(zhǎng)度.基于RDF映射機(jī)制,論文提出了一種改進(jìn)的特征屬性和實(shí)例,便于計(jì)算語(yǔ)義匹配度.此外,該RDF映射機(jī)制使得領(lǐng)域?qū)<夷軌蝻@示定義實(shí)例,從而保證了推薦的質(zhì)量.Guo W等人[56]為每個(gè)物品創(chuàng)建語(yǔ)義圖,并通過(guò)倒頻率策略來(lái)計(jì)算語(yǔ)義圖中每一對(duì)物品之間的相似度,最終將相似度高的物品推薦給用戶.Fernández-Breis JT等人[57]基于語(yǔ)義網(wǎng)技術(shù)提出結(jié)合學(xué)習(xí)對(duì)象和學(xué)習(xí)目標(biāo)的語(yǔ)義模型,進(jìn)而實(shí)現(xiàn)高效的推薦.
另一方面,傳統(tǒng)基于內(nèi)容的推薦算法采用自動(dòng)特征提取的方式,因而很難應(yīng)用于多媒體數(shù)據(jù).但是融合進(jìn)語(yǔ)義推理后,則可以通過(guò)分析多媒體數(shù)據(jù)的語(yǔ)義特征來(lái)實(shí)現(xiàn)準(zhǔn)確的推薦.由于近年來(lái)數(shù)碼相機(jī)性能的提升以及社交媒體網(wǎng)站(例如YouTube和Flickr)的興起,自動(dòng)視頻編輯受到人們?cè)絹?lái)越多的關(guān)注,而為視頻選擇合適的背景音樂(lè)則是推廣視頻的關(guān)鍵因素之一.
Kuo F等人[58]提出基于音頻/視頻多通道潛在語(yǔ)義分析的背景音樂(lè)推薦算法.作者從YouTube網(wǎng)站收集配有背景音樂(lè)的視頻,并使用音樂(lè)檢測(cè)算法將音樂(lè)稀疏的視頻過(guò)濾掉,提取能夠表示視頻與音頻特征的詞匯,然后通過(guò)多通道潛在語(yǔ)義分析技術(shù)學(xué)習(xí)表示視聽(tīng)特征單詞之間的關(guān)聯(lián)模型.給定一個(gè)視頻,算法能夠從關(guān)聯(lián)模型中獲取排序后的音樂(lè)推薦列表.另外,該推薦算法能夠分析音樂(lè)節(jié)拍和視頻鏡頭切換來(lái)計(jì)算被推薦的背景音樂(lè)和視頻間的匹配度.Yoshida T等人[59]提出分別從視頻標(biāo)簽和視聽(tīng)特征詞中抽取語(yǔ)義和情感信息,并計(jì)算語(yǔ)義相似度和情感相似度,然后采用相似度融合函數(shù)[60]得出兩個(gè)視頻之間的相似度,從而能夠?yàn)橛脩敉扑]與他們?cè)?jīng)看過(guò)的語(yǔ)義相似的視頻列表.由于單個(gè)特征無(wú)法充分捕捉所有用戶的興趣偏好,因此作者采用獲取用戶日志的方式,構(gòu)建相似度融合函數(shù),來(lái)提高推薦算法的推薦質(zhì)量.
Web 2.0技術(shù)的深入發(fā)展促生了用戶生成內(nèi)容 (UGC,User Generated Content)[61]標(biāo)簽的應(yīng)用.UGC標(biāo)簽系統(tǒng)是一種表示用戶興趣和物品語(yǔ)義的重要方式.當(dāng)用戶對(duì)一個(gè)物品打上一個(gè)標(biāo)簽,這個(gè)標(biāo)簽一方面描述了用戶的興趣,另一方面則表示了物品的語(yǔ)義,從而將用戶和物品聯(lián)系起來(lái),從而在標(biāo)簽系統(tǒng)中對(duì)用戶進(jìn)行個(gè)性化的推薦.其中比較有代表性的是,Fan M等人[62]提出的基于內(nèi)容語(yǔ)義的社會(huì)標(biāo)簽推薦算法STR,算法提取資源描述和標(biāo)簽之間的關(guān)系,并可以緩解傳統(tǒng)推薦算法的冷啟動(dòng)問(wèn)題.當(dāng)一個(gè)用戶對(duì)他感興趣的資源添加標(biāo)簽時(shí),算法會(huì)推薦給該用戶最有可能選擇的標(biāo)簽列表,同時(shí)也能推薦描述中沒(méi)有包含的語(yǔ)義標(biāo)簽.STR算法遵循典型的“學(xué)習(xí)-預(yù)測(cè)”范式,主要分為以下三個(gè)階段.
第1階段:經(jīng)驗(yàn)語(yǔ)義的獲取.算法使用IBM Model-1[63]進(jìn)行計(jì)算,其計(jì)算公式為:
(1)
第2階段:構(gòu)建基于內(nèi)容的標(biāo)簽網(wǎng).算法將翻譯概率p(t|w)表示為加權(quán)有向圖:(w,t,p(t|w)).從頂點(diǎn)vi到vj的有向邊表示為:eij={〈vi,vj〉,vi∈w,vj∈t},邊上的權(quán)重為w(eij)=p(vi|vj).
第3階段:候選標(biāo)簽排序.
候選標(biāo)簽排序的策略是基于TextRank[64]算法進(jìn)行改進(jìn),其計(jì)算公式如下:
score(vi)=(1-λ)·offset
(2)
其中λ∈[0,1]為阻尼系數(shù),代表從圖中某一個(gè)特定頂點(diǎn)指向其它任意頂點(diǎn)的概率,兩頂點(diǎn)之間的權(quán)重為w(eji).頂點(diǎn)最后的分?jǐn)?shù)不受給定初值的影響,頂點(diǎn)的初值只影響該算法達(dá)到收斂的迭代次數(shù).根據(jù)最后的分?jǐn)?shù),分?jǐn)?shù)最高的m個(gè)標(biāo)簽被推薦給目標(biāo)資源.該公式表明如果其他重要的頂點(diǎn)指向某個(gè)頂點(diǎn),那么該頂點(diǎn)更重要.
為了驗(yàn)證STR推薦算法的有效性,作者實(shí)施了仿真實(shí)驗(yàn).實(shí)驗(yàn)選取兩個(gè)數(shù)據(jù)集,其中一個(gè)數(shù)據(jù)集是通過(guò)豆瓣API在豆瓣網(wǎng)站上爬取著名的中文書(shū)籍的評(píng)論和標(biāo)簽,而另一個(gè)數(shù)據(jù)集是通過(guò)Last.fm的API獲取的音樂(lè)和藝術(shù)家的資源內(nèi)容和標(biāo)簽.然后選用詞觸發(fā)方法WTM[65]、TextRank和TFIDF[66]三個(gè)相關(guān)的社會(huì)標(biāo)簽推薦算法來(lái)與STR算法進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果表明,基于內(nèi)容語(yǔ)義的社會(huì)標(biāo)簽算法STR在準(zhǔn)確率方面性能明顯優(yōu)于其他三種社會(huì)標(biāo)簽推薦算法.
從上面分析,我們可以看出,基于語(yǔ)義的內(nèi)容推薦算法,不僅可以緩解傳統(tǒng)基于內(nèi)容的推薦算法所存在的新物品冷啟動(dòng)問(wèn)題,而且可以應(yīng)用于多媒體領(lǐng)域進(jìn)行高質(zhì)量的推薦.目前基于語(yǔ)義的內(nèi)容推薦算法已廣泛應(yīng)用于背景音樂(lè)推薦、個(gè)性化物品推薦以及社會(huì)標(biāo)簽推薦等領(lǐng)域研究中.
由于傳統(tǒng)協(xié)同過(guò)濾算法是基于大量用戶歷史數(shù)據(jù)集的,如用戶對(duì)物品的評(píng)分或用戶的瀏覽行為等,因而存在數(shù)據(jù)稀疏的問(wèn)題,同時(shí)對(duì)于剛加入系統(tǒng)且沒(méi)有進(jìn)行任何行為的新用戶、以及沒(méi)有被瀏覽或評(píng)分的新物品都存在冷啟動(dòng)問(wèn)題.近年來(lái)有許多研究人員則嘗試將語(yǔ)義知識(shí)融合進(jìn)協(xié)同過(guò)濾算法之中來(lái)解決上述問(wèn)題.
將語(yǔ)義融合進(jìn)協(xié)同過(guò)濾過(guò)程的一種方式是在計(jì)算用戶間相似度與物品間關(guān)聯(lián)時(shí),利用語(yǔ)義知識(shí)來(lái)對(duì)用戶興趣偏好和物品內(nèi)容進(jìn)行語(yǔ)義描述,使得更高質(zhì)量地預(yù)測(cè)用戶對(duì)未評(píng)分物品的打分情況,從而能夠解決冷啟動(dòng)和數(shù)據(jù)稀疏問(wèn)題.
Hu B等人[67]提出基于內(nèi)容語(yǔ)義相似度的協(xié)同過(guò)濾推薦算法,通過(guò)對(duì)描述物品的文本內(nèi)容進(jìn)行分詞、去停用詞、提取標(biāo)簽、詞義消岐等步驟,同時(shí)利用詞義間最短路徑方法來(lái)計(jì)算兩個(gè)詞之間的相似度,從而獲得兩個(gè)物品之間的相似度,并根據(jù)物品之間的相似度和物品已被用戶打過(guò)的評(píng)分,來(lái)預(yù)測(cè)用戶對(duì)未被評(píng)分物品的打分情況(即用戶對(duì)該物品的喜好程度).實(shí)驗(yàn)表明使用內(nèi)容語(yǔ)義相似度能夠有效地改善協(xié)同過(guò)濾的數(shù)據(jù)稀疏性問(wèn)題,從而提高了協(xié)同過(guò)濾推薦算法的性能.Abdelwahab A等人[68]提出基于降維的協(xié)同過(guò)濾推薦算法,使用消解奇異值潛在語(yǔ)義索引方法來(lái)減少數(shù)據(jù)表示的維度,并生成高質(zhì)量的用戶評(píng)分,從而緩解協(xié)同過(guò)濾算法的數(shù)據(jù)稀疏性問(wèn)題,提高可擴(kuò)展性,同時(shí)減少協(xié)同過(guò)濾算法對(duì)內(nèi)存空間的使用率.Lemdani R等人[69]提出一個(gè)域獨(dú)立的語(yǔ)義推薦算法,該算法包含三個(gè)功能互補(bǔ)的模塊,其中協(xié)同過(guò)濾模塊利用關(guān)聯(lián)規(guī)則挖掘一組推薦的候選物品;語(yǔ)義模塊利用本體知識(shí)檢測(cè)物品特征,并通過(guò)用戶的行為計(jì)算用戶對(duì)物品特征的喜好程度;而頻率模塊考慮特征出現(xiàn)的概率以及物品特征之間的關(guān)聯(lián),以便輔助發(fā)掘剛加入系統(tǒng)的新物品.算法融合這三個(gè)模塊能夠有效對(duì)推薦結(jié)果進(jìn)行解釋,從而進(jìn)行高質(zhì)量的推薦.Ferrara F等人[70]計(jì)算維基百科中概念的語(yǔ)義關(guān)聯(lián)度,并將語(yǔ)義關(guān)聯(lián)度集成到基于用戶的協(xié)同過(guò)濾推薦過(guò)程之中來(lái)提高推薦的準(zhǔn)確性.Cantador I等人[71]提出將用戶和物品配置文件中本體概念的權(quán)重傳播到由領(lǐng)域本體語(yǔ)義關(guān)聯(lián)的其他概念當(dāng)中.這種語(yǔ)義傳播策略是基于約束擴(kuò)散激活技術(shù),并且權(quán)重的衰減隨擴(kuò)散過(guò)程而逐漸增大.特別,文獻(xiàn)[71]所給出的推薦算法能夠通過(guò)相關(guān)概念的描述,從而解決傳統(tǒng)協(xié)同過(guò)濾算法的冷啟動(dòng)和可擴(kuò)展性問(wèn)題.
將語(yǔ)義融合進(jìn)協(xié)同過(guò)濾過(guò)程的另一種方式是采用加權(quán)的方式對(duì)協(xié)同過(guò)濾和語(yǔ)義相似度計(jì)算得出的推薦結(jié)果各自賦予一定的權(quán)重,以此來(lái)獲得最終的推薦列表.其中比較有代表性的是,Shambour Q等人[72]所提出的混合多準(zhǔn)則的語(yǔ)義增強(qiáng)協(xié)同過(guò)濾算法Hybrid MC-SeCF,它集成了基于物品的協(xié)同過(guò)濾與語(yǔ)義過(guò)濾策略,能夠有效解決基于物品的協(xié)同過(guò)濾算法的稀疏性和冷啟動(dòng)問(wèn)題.Hybrid MC-SeCF算法以用戶-物品的評(píng)分矩陣以及物品本體作為輸入,并且輸出用戶-評(píng)分預(yù)測(cè)評(píng)分矩陣,其中物品本體以樹(shù)的結(jié)構(gòu)展示,只有兩層結(jié)點(diǎn),父節(jié)點(diǎn)是物品的分類(lèi),葉節(jié)點(diǎn)包括屬于該分類(lèi)的物品.圖1給出了Hybrid MC-SeCF算法的模塊結(jié)構(gòu)圖.從圖1我們可以看出,Hybrid MC-SeCF算法主要包含如下4個(gè)緊密相關(guān)的模塊:
(1)基于物品的多準(zhǔn)則協(xié)同過(guò)濾模塊.該模塊根據(jù)給定的物品集合,根據(jù)基于物品的協(xié)同過(guò)濾算法計(jì)算物品之間的相似度.
(2)基于物品的語(yǔ)義計(jì)算模塊.為了能夠利用物品之間的語(yǔ)義信息,需要以樹(shù)的結(jié)構(gòu)創(chuàng)建一個(gè)物品本體,并且物品位于葉子結(jié)點(diǎn),父結(jié)點(diǎn)是物品所屬的分類(lèi).在該模塊中,Hybrid MC-SeCF算法根據(jù)共同屬于同一個(gè)分類(lèi)的比率來(lái)計(jì)算基于物品的語(yǔ)義相似度.
(3) 選擇鄰域模塊.分別按照基于物品的協(xié)同過(guò)濾策略和基于物品的語(yǔ)義相似度來(lái)計(jì)算與目標(biāo)物品最為相似的物品集合,作為目標(biāo)物品的鄰域.
(4) 混合權(quán)重預(yù)測(cè)模塊.根據(jù)對(duì)上述目標(biāo)物品求得的兩個(gè)鄰域賦予不同的權(quán)重,以此來(lái)對(duì)用戶還沒(méi)有評(píng)分的目標(biāo)物品進(jìn)行評(píng)分預(yù)測(cè).
為了驗(yàn)證Hybrid MC-SeCF算法的有效性,作者將該算法與基于物品的協(xié)同過(guò)濾算法進(jìn)行性能比較,并采用平均絕對(duì)誤差的方法MAE[73]作為評(píng)測(cè)標(biāo)準(zhǔn).實(shí)驗(yàn)結(jié)果表明Hybrid MC-SeCF算法的平均絕對(duì)誤差較小,在推薦準(zhǔn)確度方面有了較大的改善.
此外,作者也驗(yàn)證了Hybrid MC-SeCF算法解決數(shù)據(jù)稀疏問(wèn)題的能力.實(shí)驗(yàn)結(jié)果證明Hybrid MC-SeCF算法在面對(duì)稀疏的數(shù)據(jù)集時(shí)也表現(xiàn)了較好的性能,其推薦結(jié)果具有較小的平均絕對(duì)誤差以及較高的覆蓋率,因而具有較好的解決數(shù)據(jù)稀疏問(wèn)題的能力.
在社會(huì)標(biāo)簽系統(tǒng)中,許多學(xué)者也研究了如何將語(yǔ)義融入到協(xié)同過(guò)濾推薦的過(guò)程中.Chen H等人[74]提出一種新的基于標(biāo)簽語(yǔ)義相似度的協(xié)同過(guò)濾算法,該算法通過(guò)分析標(biāo)簽與物品之間的關(guān)聯(lián),使用WordNet提供的詞匯結(jié)構(gòu)對(duì)標(biāo)簽的語(yǔ)義相似度進(jìn)行計(jì)算,以此來(lái)解決單詞間相似度和語(yǔ)句間相似度的問(wèn)題.作者以MovieLens數(shù)據(jù)集為輸入,通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該算法比傳統(tǒng)協(xié)同過(guò)濾算法具有更高的效率以及更好的準(zhǔn)確率.Kim H等人[75]提出基于語(yǔ)義標(biāo)簽的信息過(guò)濾方法,該方法首先通過(guò)給物品打標(biāo)簽來(lái)判斷相似的用戶,然后為每個(gè)用戶挖掘語(yǔ)義上相關(guān)聯(lián)的物品.實(shí)驗(yàn)結(jié)果表明該方法提高了推薦質(zhì)量,同時(shí)緩解了標(biāo)簽之間模糊性、同義性和互操作性的問(wèn)題.
從上面分析,我們可以看出,基于語(yǔ)義的協(xié)同過(guò)濾推薦算法,可以有效緩解傳統(tǒng)的協(xié)同過(guò)濾算法所面臨的新用戶和新物品冷啟動(dòng)問(wèn)題,以及數(shù)據(jù)稀缺性問(wèn)題,并且能夠提高算法的擴(kuò)展性,高效預(yù)測(cè)用戶對(duì)未評(píng)分物品的評(píng)分情況,從而判斷是否向目標(biāo)用戶推薦該物品.
混合推薦算法旨在解決單個(gè)推薦技術(shù)所面臨的不足,例如基于內(nèi)容的推薦算法存在的特征提取問(wèn)題、協(xié)同過(guò)濾算法存在的冷啟動(dòng)和數(shù)據(jù)稀疏性等問(wèn)題.然而混合推薦算法依然存在一定的領(lǐng)域局限性,也缺乏可擴(kuò)展性.考慮將語(yǔ)義技術(shù)融入混合推薦過(guò)程之中,可以擴(kuò)展應(yīng)用領(lǐng)域,以及提高混合推薦的性能.
Hsu I等人[76]提出基于XML鏈接語(yǔ)言XLink[77]的語(yǔ)義推薦算法.該推薦算法基于語(yǔ)義網(wǎng)技術(shù),由XLink庫(kù)、知識(shí)庫(kù)、搜索引擎和推理機(jī)等部件組成,可以提供三個(gè)不同的表示鏈接知識(shí)的方法:分別是基于XLink的元數(shù)據(jù)、基于本體的推理以及基于規(guī)則的推理.基于XLink的語(yǔ)義推薦算法廣泛應(yīng)用于學(xué)術(shù)論文推薦、數(shù)字圖書(shū)館等領(lǐng)域.
Liu L等人[78]依據(jù)軟件服務(wù)需求提出一個(gè)有效的語(yǔ)義混合推薦算法.該算法通過(guò)Web服務(wù)的屬性描述來(lái)計(jì)算語(yǔ)義相似度,同時(shí)考慮上下文信息和標(biāo)準(zhǔn)信息.其中上下文信息表示為層次樹(shù)的結(jié)構(gòu),能夠在用戶反饋數(shù)據(jù)稀疏的情況下幫助聚集用戶評(píng)分;標(biāo)準(zhǔn)信息能夠反映Web服務(wù)的特征信息.算法按照如下思路將基于內(nèi)容的語(yǔ)義推理和上下文相關(guān)的協(xié)同過(guò)濾過(guò)程耦合起來(lái):初始當(dāng)系統(tǒng)沒(méi)有收集到足夠的用戶反饋數(shù)據(jù)時(shí),算法首先調(diào)用基于內(nèi)容的語(yǔ)義推薦模塊,而隨著收集到的用戶評(píng)分越來(lái)越多后,則基于上下文信息和標(biāo)準(zhǔn)信息使用協(xié)同過(guò)濾推薦模塊.最終返回給用戶的推薦結(jié)果是將上述兩種計(jì)算模塊所輸出的推薦結(jié)果進(jìn)行加權(quán)后產(chǎn)生.
Deng Y等人[79]提出了電影領(lǐng)域中基于本體和神經(jīng)網(wǎng)絡(luò)的混合推薦算法.該算法通過(guò)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力來(lái)感知用戶的個(gè)性化信息,然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)模擬用戶的興趣偏好來(lái)預(yù)測(cè)用戶的選擇.另外,算法使用本體的語(yǔ)義描述能力建立用戶模型和物品模型.作者發(fā)現(xiàn),運(yùn)用神經(jīng)網(wǎng)絡(luò)作為算法基礎(chǔ)可以有效解決新物品的冷啟動(dòng)問(wèn)題,而使用本體相似度算法則能解決新用戶的冷啟動(dòng)問(wèn)題.同時(shí)該算法由于不需要從其他用戶獲取信息因此也能保護(hù)用戶的隱私問(wèn)題.
Tath I等人[80]研究提出音樂(lè)特征降維,并在推薦過(guò)程中使用多領(lǐng)域信息.為了降低音樂(lè)特征的表示維度,作者通過(guò)標(biāo)簽來(lái)表示音樂(lè)流派信息,標(biāo)簽信息主要包括文體起源、典型樂(lè)器、衍生形式、子類(lèi)型和融合類(lèi)型等信息.另外,作者并從Dbpedia知識(shí)庫(kù)[81](Wikipedia的一種結(jié)構(gòu)化形式)中提取層次結(jié)構(gòu),來(lái)分析降維后的用戶與音樂(lè)組織結(jié)構(gòu).
Chen M等人[82]指出目前大多數(shù)推薦算法均是基于集中式架構(gòu),不適用于P2P (peer-to-peer)網(wǎng)絡(luò),為此,提出分布式語(yǔ)義P2P推薦算法.該算法由于考慮到用戶的興趣偏好以及興趣的多樣性,因此能夠?yàn)橛脩籼峁└哔|(zhì)量的音樂(lè)搜索和推薦服務(wù).具體來(lái)說(shuō),該算法采用三種過(guò)濾策略來(lái)滿足分布式語(yǔ)義疊加的需求,首
先算法選擇合適的元數(shù)據(jù)集合表示一個(gè)音樂(lè)對(duì)象,并且使用元數(shù)據(jù)集合構(gòu)建基于特征向量的內(nèi)容過(guò)濾工作流;然后利用音樂(lè)對(duì)象特征向量中的一個(gè)屬性來(lái)構(gòu)建一個(gè)分布式節(jié)點(diǎn)的配置文件,并根據(jù)配置文件構(gòu)建協(xié)同過(guò)濾工作流;最后依據(jù)音樂(lè)之間的關(guān)聯(lián)構(gòu)建一個(gè)基于歷史合作關(guān)系的過(guò)濾器,從而生成推薦結(jié)果.
博客是基于語(yǔ)義的混合推薦算法一個(gè)最為成功的應(yīng)用領(lǐng)域.其中具有代表性的研究工作是,Lee S等人[83]提出面向博客的自動(dòng)化標(biāo)簽推薦算法.該算法使用混合人工神經(jīng)網(wǎng)絡(luò)的策略,從Web 2.0協(xié)同標(biāo)簽中提取集體智慧(collective intelligence)[84]和單詞的語(yǔ)義來(lái)學(xué)習(xí)如何設(shè)置最佳標(biāo)簽,并最終產(chǎn)生一個(gè)加權(quán)的標(biāo)簽列表,列表中的標(biāo)簽與給定的博客內(nèi)容關(guān)聯(lián)最為緊密.
從實(shí)施流程來(lái)看,算法包含兩個(gè)主要階段,即訓(xùn)練階段和執(zhí)行階段.在訓(xùn)練過(guò)程中,算法首先使用網(wǎng)絡(luò)爬蟲(chóng)獲取已經(jīng)人工打上標(biāo)簽的博客,并將這些博客分成訓(xùn)練集和測(cè)試集,然后使用測(cè)試集來(lái)學(xué)習(xí)博客內(nèi)容和標(biāo)簽之間的關(guān)聯(lián).訓(xùn)練階段主要分為三個(gè)步驟:關(guān)鍵詞提取、語(yǔ)義處理以及人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí).在關(guān)鍵詞提取步驟中,算法首先使用TFIDF方法提取單個(gè)關(guān)鍵詞,然后計(jì)算詞與詞之間共存的概率,并基于WordNet來(lái)判斷連詞.在語(yǔ)義處理步驟中,算法使用WordNet將步驟1中提取的關(guān)鍵詞組成層次結(jié)構(gòu),然后選擇頂層的同義詞表示博客內(nèi)容的語(yǔ)義信息.而在人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)步驟中,算法構(gòu)造圖2所示的學(xué)習(xí)結(jié)構(gòu)圖,包括輸入層、隱藏層和輸出層,并學(xué)習(xí)關(guān)鍵詞和標(biāo)簽語(yǔ)義特征之間的關(guān)聯(lián).由于不同特征會(huì)影響標(biāo)簽的選擇,學(xué)習(xí)得到的權(quán)重決定了每個(gè)特征對(duì)選擇標(biāo)簽的影響程度,因此需要反向傳播進(jìn)行學(xué)習(xí).完成訓(xùn)練階段后,系統(tǒng)進(jìn)入執(zhí)行階段.在這個(gè)階段中,用戶提交博客內(nèi)容,由算法自動(dòng)提取關(guān)鍵詞,進(jìn)行語(yǔ)義分析,并調(diào)用人工神經(jīng)網(wǎng)絡(luò)產(chǎn)生的標(biāo)簽向用戶進(jìn)行推薦.
在仿真實(shí)驗(yàn)中,作者從英文博客中提取博客內(nèi)容和標(biāo)簽,將其分為訓(xùn)練集和測(cè)試集,使用關(guān)鍵詞提取方法從數(shù)據(jù)集中提取關(guān)鍵詞并計(jì)算其頻率,作為人工神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)集.將自動(dòng)化標(biāo)簽推薦算法與Yahoo!中的協(xié)同過(guò)濾標(biāo)簽推薦算法[84]進(jìn)行比較,作者發(fā)現(xiàn)算法具有更豐富的語(yǔ)義信息,以及更好的推薦效果.
從上面分析,我們可以看出,基于語(yǔ)義的混合算法具有更加廣泛的應(yīng)用領(lǐng)域,例如學(xué)術(shù)資源、web服務(wù)、電影/音樂(lè)等多媒體、P2P網(wǎng)絡(luò)以及社會(huì)標(biāo)簽系統(tǒng)等領(lǐng)域.同時(shí),基于語(yǔ)義的混合算法具有更好的擴(kuò)展性,可以靈活結(jié)合人工神經(jīng)網(wǎng)絡(luò)、層次結(jié)構(gòu)樹(shù)等技術(shù)進(jìn)行推薦.
Facebook和Twitter作為兩種不同類(lèi)型社會(huì)網(wǎng)絡(luò)的代表,是目前互聯(lián)網(wǎng)界的新寵.國(guó)內(nèi)以新浪微博為代表,也成為社會(huì)網(wǎng)絡(luò)應(yīng)用的熱門(mén)平臺(tái).基于社會(huì)網(wǎng)絡(luò)的推薦可以很好地模擬現(xiàn)實(shí),好友的推薦可以增加推薦的信任度,并且通過(guò)獲取用戶的好友列表可以解決新用戶的冷啟動(dòng)問(wèn)題.但是社會(huì)化推薦也存在一些缺點(diǎn),由于用戶的好友關(guān)系不是基于共同興趣產(chǎn)生的,因此用戶好友的興趣往往和用戶的興趣并不一致,導(dǎo)致推薦算法的準(zhǔn)確率和召回率降低,而且社會(huì)化推薦存在數(shù)據(jù)稀疏問(wèn)題,用戶瀏覽和對(duì)物品的評(píng)分等行為的數(shù)據(jù)集較少.因此,近年來(lái)不少研究將語(yǔ)義技術(shù)融進(jìn)社會(huì)化推薦中,旨在提高社會(huì)化推薦結(jié)果的質(zhì)量.
Golbeck J等人[85]提出電影推薦算法FilmTrust,該算法融合了基于語(yǔ)義網(wǎng)的社會(huì)網(wǎng)絡(luò),利用社會(huì)網(wǎng)絡(luò)中的信任評(píng)分機(jī)制來(lái)計(jì)算用戶間相似度.Cantado I等人[86]對(duì)用戶共同興趣偏好的不同表示方法建立一個(gè)多層語(yǔ)義社會(huì)網(wǎng)絡(luò)模型,從大量基于本體的用戶配置文件中提取用戶共同的興趣偏好,然后自動(dòng)在域概念空間中聚簇并構(gòu)建多層社會(huì)網(wǎng)絡(luò),進(jìn)而在多個(gè)語(yǔ)義偏好層種計(jì)算用戶之間的相似度,并根據(jù)用戶之間的相似度使用協(xié)同過(guò)濾算法向用戶進(jìn)行推薦.Ghita S等人[87]探討了在分布式社會(huì)網(wǎng)絡(luò)中交換和共享基于RDF圖的推薦結(jié)構(gòu),并使用擴(kuò)展的FOAF詞匯[88]來(lái)指定興趣分組,以及組內(nèi)的成員共享推薦結(jié)果的方式.Martin-Vicente M等人[89]提出了個(gè)性化分發(fā)優(yōu)惠券的推薦算法,并利用社會(huì)網(wǎng)絡(luò)來(lái)為系統(tǒng)添加信息并獲取更多的新用戶.
用戶隱私保護(hù)對(duì)于社交網(wǎng)站是一個(gè)至關(guān)重要的問(wèn)題[90].Li Q等人[91]提出了一個(gè)基于語(yǔ)義的智能隱私配置算法SPAC,可以為社會(huì)網(wǎng)絡(luò)用戶自動(dòng)推薦隱私設(shè)置.SPAC算法學(xué)習(xí)用戶的隱私配置模式,利用機(jī)器學(xué)習(xí)技術(shù)依據(jù)用戶配置文件和用戶隱私設(shè)置的歷史信息,來(lái)預(yù)測(cè)用戶對(duì)未標(biāo)記或新出現(xiàn)的朋友進(jìn)行隱私保護(hù)設(shè)置的策略.針對(duì)不同用戶的內(nèi)容,該算法采用語(yǔ)義知識(shí)進(jìn)行推斷,提出語(yǔ)義增強(qiáng)的k近鄰分類(lèi)方法,從而在很大程度上改善了隱私推薦的準(zhǔn)確性.在SPAC算法中,作者通過(guò)為用戶建立用戶配置文件,來(lái)記錄用戶的隱私信息,同時(shí)為用戶在社會(huì)網(wǎng)絡(luò)中所擁有的不同資源建立數(shù)據(jù)配置文件,記錄用戶的個(gè)人信息、用戶在社會(huì)網(wǎng)絡(luò)中上傳的照片、撰寫(xiě)的博客日志、上傳的視頻、音頻等資源.SPAC算法的體系結(jié)構(gòu)如圖3所示,其輸入主要由4部分構(gòu)成:(1) 用戶允許部分好友訪問(wèn)的資源;(2) 用戶好友的特征;(3) 用戶隱私配置的歷史記錄,作為算法的訓(xùn)練集以及;(4) 好友特征的本體知識(shí);而SPAC算法輸出未標(biāo)記或新出現(xiàn)好友的隱私保護(hù)設(shè)置.另外,我們不難看出,SPAC算法本質(zhì)上其實(shí)是一個(gè)分類(lèi)系統(tǒng),其目的是找到一個(gè)分類(lèi)函數(shù)M:F→{0,1},其中F是用戶好友的特征向量,0和1表示用戶決定允許或拒絕該好友訪問(wèn)用戶所對(duì)應(yīng)的個(gè)人信息和資源.由于傳統(tǒng)的分類(lèi)方法如決策樹(shù)、基于規(guī)則的分類(lèi)等難以處理文字無(wú)關(guān)但語(yǔ)義相關(guān)的向量,因此作者提出了一種語(yǔ)義增強(qiáng)的k近鄰分類(lèi)算法,利用域本體來(lái)計(jì)算用戶間的相似度,計(jì)算公式如公式(3)所示.其中simF函數(shù)用來(lái)測(cè)量?jī)蓚€(gè)特征的值之間的相似度.而用戶的特征均被映射到本體圖的結(jié)點(diǎn)上,如圖4所示,其中相同的概念以同一個(gè)結(jié)點(diǎn)表示,且按照邊的數(shù)量來(lái)計(jì)算兩個(gè)概念之間的最短路徑,同時(shí)考慮結(jié)點(diǎn)在圖中所處的深度.
SIM(x,y)=
(3)
此外,論文通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了SPAC算法的準(zhǔn)確度以及k值對(duì)算法性能的影響.作者采用常用的n次交叉驗(yàn)證方法[92]進(jìn)行實(shí)驗(yàn),將語(yǔ)義增強(qiáng)的k近鄰分類(lèi)算法與其他三種分類(lèi)算法進(jìn)行比較:(1) 基礎(chǔ)算法,即用
戶對(duì)他的一些朋友打標(biāo)簽,剩下的朋友將使用默認(rèn)值;(2) 決策樹(shù)算法;(3)典型的k近鄰分類(lèi)算法.
實(shí)驗(yàn)結(jié)果表明,基于相同的已經(jīng)打標(biāo)簽的伙伴數(shù),語(yǔ)義增強(qiáng)的k近鄰分類(lèi)算法比其他三種算法具有更高的準(zhǔn)確度;當(dāng)已經(jīng)打標(biāo)簽的伙伴數(shù)較少時(shí),語(yǔ)義增強(qiáng)的k近鄰分類(lèi)算法的學(xué)習(xí)能力比其他三種算法效果更好.
從上面的分析中我們可以看出,基于語(yǔ)義的社會(huì)化推薦算法可以有效解決數(shù)據(jù)稀疏性問(wèn)題,并且提高推薦算法的精度(準(zhǔn)確率和召回率),避免社會(huì)網(wǎng)絡(luò)中用戶好友的興趣和用戶興趣不一致的問(wèn)題.
與傳統(tǒng)的推薦算法相比,語(yǔ)義推薦算法可以有效的解決數(shù)據(jù)稀疏問(wèn)題,以及新用戶和新物品的冷啟動(dòng)問(wèn)題,從而能夠改善推薦方案的可擴(kuò)展性,并提高推薦結(jié)果的精度和多樣性.語(yǔ)義推薦算法已經(jīng)被廣泛應(yīng)用于多媒體、學(xué)術(shù)科研、社會(huì)標(biāo)簽系統(tǒng)、社會(huì)網(wǎng)絡(luò)應(yīng)用、Web服務(wù)等各個(gè)領(lǐng)域.作為一個(gè)具有較好發(fā)展前景的研究領(lǐng)域,能夠深入研究并且取得更進(jìn)一步突破的方向主要包括:
(1) 語(yǔ)義相似度的計(jì)算方法
語(yǔ)義相似度是一個(gè)主觀性很強(qiáng)的概念,沒(méi)有明確的客觀標(biāo)準(zhǔn)可以衡量.脫離具體的應(yīng)用討論語(yǔ)義相似度,很難得到一個(gè)統(tǒng)一的定義.語(yǔ)義相似度計(jì)算的兩種基本方法是基于本體知識(shí)的方法,以及基于統(tǒng)計(jì)的上下文向量空間模型方法.
基于本體知識(shí)計(jì)算語(yǔ)義相似度的方法,利用語(yǔ)義詞典如WordNet、HowNet中的同義詞或義原組成的樹(shù)狀層次體系結(jié)構(gòu),通過(guò)計(jì)算兩個(gè)概念間的信息熵或語(yǔ)義距離,來(lái)獲取概念間語(yǔ)義相似度.值得一提的是,利用本體知識(shí)來(lái)計(jì)算語(yǔ)義相似度,是基于兩個(gè)詞之間具有一定的語(yǔ)義相關(guān)性,(即當(dāng)它們?cè)诟拍铋g的結(jié)構(gòu)層次網(wǎng)絡(luò)圖中存在一條通路),而且該方法容易忽略不同本體概念間的相似度,對(duì)于不同本體難以有效劃分權(quán)重來(lái)確定對(duì)整體概念間相似度的貢獻(xiàn)[93].基于統(tǒng)計(jì)的上下文向量空間模型方法將上下文信息的概率分布作為詞匯語(yǔ)義相似度計(jì)算的參數(shù),利用相關(guān)熵或采用平均互信息量來(lái)計(jì)算語(yǔ)義相似度.基于統(tǒng)計(jì)的定量分析方法能夠?qū)υ~匯間的語(yǔ)義相似度進(jìn)行比較精確的度量,但是這種方法較為依賴(lài)于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量大,計(jì)算方法復(fù)雜,并且受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大.提高語(yǔ)義相似度能夠直接提高語(yǔ)義推薦算法的推薦結(jié)果質(zhì)量,因此如何改善語(yǔ)義相似度的計(jì)算方法正是值得關(guān)注的研究方向.
(2) 個(gè)人推薦vs群體推薦
目前推薦算法研究領(lǐng)域幾乎都是考慮向單個(gè)用戶推薦物品、信息以及好友等,但是很少有向群體用戶提供推薦服務(wù)的推薦算法.個(gè)人推薦算法在支持個(gè)人決策行為時(shí)非常有效,但是卻并不能為群體決策提供推薦策略,這主要是因?yàn)樗话ㄈ后w用戶評(píng)分,因此不能有效地為群體產(chǎn)生推薦意見(jiàn).
隨著在線社區(qū)活動(dòng)的增加,人們對(duì)群體推薦算法的需求變得越來(lái)越強(qiáng)烈.群體決策存在社會(huì)效應(yīng),群體成員的決策過(guò)程及結(jié)果或多或少地會(huì)受到群體中其他成員的行為、想法等的影響,同時(shí)需要考慮不同用戶身份在群體中所占的比重.例如領(lǐng)袖對(duì)群體決策過(guò)程通常產(chǎn)生更具決定性的影響,因此群體決策比個(gè)人決策的過(guò)程更為復(fù)雜.我們考慮群體決策的過(guò)程,如何全面考慮群體中不同用戶不同興趣偏好的沖突從而對(duì)群體提供整體的推薦,并能夠針對(duì)不同的群體設(shè)計(jì)相應(yīng)的群體用戶推薦算法,也是語(yǔ)義推薦算法將來(lái)的發(fā)展方向之一.
(3) 基于地域信息的推薦
不同地方的用戶興趣存在著很大的差別,比如在飲食文化上四川人口味偏辣,而南方人口味偏甜等,因此在向不同地域的用戶推薦飲食時(shí)則要考慮用戶的地域信息才能給用戶推薦符合其興趣偏好的物品.另外,一個(gè)用戶往往在一定范圍內(nèi)活動(dòng),通過(guò)Foursqure數(shù)據(jù)分析發(fā)現(xiàn),45%的用戶其活動(dòng)范圍半徑不超過(guò)10英里,而75%的用戶活動(dòng)半徑不超過(guò)50英里.因此,在語(yǔ)義推薦算法中需要考慮推薦地點(diǎn)和用戶當(dāng)前所處地點(diǎn)的距離,不能推薦太遠(yuǎn)的地方.這就需要結(jié)合用戶定位技術(shù),將用戶的地域信息融入到推薦算法中.
(4) 推薦算法的人機(jī)交互
目前大多數(shù)語(yǔ)義推薦算法都是通過(guò)示例方法建立用戶模型,即需要新用戶提供初始化信息建立初始的用戶模型,隨著用戶的瀏覽記錄和行為的增多,學(xué)習(xí)并修正用戶模型從而提供更豐富的推薦結(jié)果.但是示例用戶興趣建模會(huì)間接打擊用戶瀏覽的積極性,并且初始化生成的用戶模型不一定準(zhǔn)確.因此如何讓用戶參與推薦結(jié)果的反饋中去,使得算法能夠根據(jù)用戶反饋進(jìn)行自適應(yīng)改進(jìn),需要設(shè)計(jì)合理的人機(jī)交互策略,吸引用戶參與到推薦結(jié)果的反饋中,從而更準(zhǔn)確地獲取用戶的興趣偏好,提高推薦的性能.
(5) 推薦算法去噪并進(jìn)行實(shí)時(shí)性推薦
語(yǔ)義推薦算法在采集用戶信息以及瀏覽記錄時(shí),不僅存在用戶數(shù)據(jù)稀疏性問(wèn)題,還可能會(huì)存在大量噪音數(shù)據(jù)和無(wú)意義數(shù)據(jù),例如用戶在系統(tǒng)中瀏覽物品時(shí),由于某些原因離開(kāi)了,但是系統(tǒng)一直在記錄用戶的瀏覽時(shí)間,并認(rèn)為用戶對(duì)該物品有很大的興趣,從而向用戶推薦該物品,這樣的推薦結(jié)果明顯不是非常的精確.算法中可以采用設(shè)定閾值[93]或加入?yún)?shù)來(lái)控制采集信息的方法進(jìn)行去除噪聲數(shù)據(jù),這些方法對(duì)于推薦結(jié)果的準(zhǔn)確度具有很大的作用.
同時(shí),由于用戶的暫時(shí)興趣偏好是一個(gè)隨時(shí)間推移而動(dòng)態(tài)變化的參數(shù)[94],因此如何根據(jù)用戶的興趣變化來(lái)及時(shí)地修正用戶的配置文件,從而實(shí)時(shí)地向用戶進(jìn)行推薦,也是一個(gè)影響推薦結(jié)果精確度的因素.
(6) 大數(shù)據(jù)環(huán)境下語(yǔ)義推薦算法
近些來(lái),隨著物聯(lián)網(wǎng)、云計(jì)算和社交網(wǎng)絡(luò)等技術(shù)的迅猛發(fā)展,大數(shù)據(jù)越發(fā)顯現(xiàn)4V (Volume、Velocity、Variety、Veracity)特性.根據(jù)國(guó)際數(shù)據(jù)公司IDC 的測(cè)算,2011 年網(wǎng)絡(luò)空間將產(chǎn)生1800EB 的數(shù)據(jù),2012 年會(huì)增長(zhǎng)40%,達(dá)到2500EB,截至2020 年,將會(huì)達(dá)到35000EB,超出了目前磁盤(pán)空間的存儲(chǔ)能力.因而,在大數(shù)據(jù)環(huán)境下,語(yǔ)義推薦算法在自適應(yīng)性、實(shí)時(shí)性和魯棒性方面都面臨著巨大的挑戰(zhàn).
底層數(shù)據(jù)的有效建模是解決所面臨上述挑戰(zhàn)的理論基礎(chǔ)[94].近來(lái)有研究人員提出采用物理學(xué)中張量的概念來(lái)表示大數(shù)據(jù)[95].由多階張量表示大數(shù)據(jù)結(jié)構(gòu)不僅可以對(duì)數(shù)據(jù)特征向量進(jìn)行降維處理,同時(shí)也易于提取數(shù)據(jù)的語(yǔ)義信息,并且能夠避免學(xué)習(xí)算法中的“過(guò)擬合問(wèn)題”.根據(jù)大數(shù)據(jù)的不同模態(tài)特征,將大數(shù)據(jù)表示為多階張量,在訓(xùn)練過(guò)程中能夠有效地利用未標(biāo)記樣本分布信息,更好地刻畫(huà)整個(gè)樣本空間上的數(shù)據(jù)特性.然而,現(xiàn)有工作所建立的大數(shù)據(jù)張量模型均是靜態(tài)的,沒(méi)有考慮如何建立大數(shù)據(jù)去噪聲和動(dòng)態(tài)性的張量模型,這方面將是將來(lái)語(yǔ)義推薦算法的一個(gè)重要研究方向.
另外,在物理實(shí)施大數(shù)據(jù)環(huán)境下語(yǔ)義推薦算法時(shí),目前主流的策略是采用分布式并行框架(如Hadoop平臺(tái))[96].然而我們發(fā)現(xiàn)當(dāng)數(shù)據(jù)規(guī)模和模態(tài)個(gè)數(shù)逐漸增大時(shí),Hadoop平臺(tái)的推薦實(shí)時(shí)性是存在嚴(yán)重的缺陷.近年來(lái),學(xué)者嘗試在Hadoop YARN 上構(gòu)建Spark分布式內(nèi)存計(jì)算框架[97].Spark框架擁有Hadoop 平臺(tái)所具有的優(yōu)點(diǎn),而且可以將平臺(tái)的中間輸出和結(jié)果可以保存在分布式內(nèi)存陣列中,從而不再需要讀寫(xiě)HDFS,從而能較好地適用于大數(shù)據(jù)環(huán)境下語(yǔ)義推薦算法.因此,我們預(yù)計(jì),將Spark框架融合進(jìn)語(yǔ)義推薦算法是將來(lái)的一個(gè)重要研究方向.
隨著語(yǔ)義網(wǎng)及其相關(guān)理論的出現(xiàn)使得推薦算法的發(fā)展迎來(lái)了新的機(jī)遇,從而產(chǎn)生了語(yǔ)義推薦算法.語(yǔ)義推薦算法的研究蘊(yùn)含著巨大的應(yīng)用價(jià)值和理論研究意義,近年來(lái)一直吸引著眾多的研究者展開(kāi)相關(guān)工作.本文在分析傳統(tǒng)三類(lèi)推薦算法所存在問(wèn)題的基礎(chǔ)上,介紹和分析了語(yǔ)義推薦算法的研究現(xiàn)狀和進(jìn)展,主要包括基于語(yǔ)義的內(nèi)容推薦算法、基于語(yǔ)義的協(xié)同過(guò)濾算法、基于語(yǔ)義的混合推薦算法以及基于語(yǔ)義的社會(huì)推薦算法,并討論了今后的發(fā)展方向,希望能對(duì)相關(guān)領(lǐng)域的研究人員和工程技術(shù)人員提供有益的幫助.
[1]Zhou Z,Liu M,Zhang F,et al.A data processing framework for IoT based online monitoring system[A].Proc of IEEE 17th International Conference on Computer Supported Cooperative Work in Design[C].Whistler:IEEE,2013.686-691.
[2]Chen W,Niu Z,Zhao X,et al.A hybrid recommendation algorithm adapted in e-learning environments[J].World Wide Web,2014,17(2):271-284.
[3]Crespo RG,Martínez OS,Lovelle JMC,et al.Recommendation system based on user interaction data applied to intelligent electronic books[J].Computers in Human Behavior,2011,27(4):1445-1449.
[4]Li L,Zheng L,Yang F,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014,41(7):3168-3177.
[5]Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[6]Rashid AM,Ling K,Tassone RD,et al.Motivating participation by displaying the value of contribution[A].Proc of the SIGCHI Conference on Human Factors in Computing Systems[C].Montreal:ACM,2006.955-958.
[7]Qiu T,Han TY,Zhong LX,et al.Redundant correlation effect on personalized recommendation[J].Computer Physics Communications,2014,185(2):489-494.
[8]周軍鋒,湯顯,郭景峰.一種優(yōu)化的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(10):1842-1847.
Zhou Junfeng,Tang Xian,Guo Jingfeng.An optimized collaborative filtering recommendation algorithm[J].Journal of Computer Research and Development,2004,41(10):1842-1847.(in Chinese)
[9]Wu ML,Chang CH,Liu RZ.Integrating content-based filtering with collaborative filtering using co-clustering with augmented matrices[J].Expert Systems with Applications,2014,41(6):2754-2761.
[10]Loizou A,Dasmahapatra S.Recommender systems for the semantic web[A].Proc of Recommender Systems Workshop[C].Trento:ECAI,2006.1-5.
[11]Lika B,Kolomvatsos K,Hadjiefthymiades S.Facing the cold start problem in recommender systems[J].Expert Systems with Applications,2014,41(4):2065-2073.
[12]Sarigecili MI,Roy U,Rachuri S.Interpreting the semantics of GD&T specifications of a product for tolerance analysis[J].Computer-Aided Design,2014,47:72-84.
[13]Janowicz K,Raubal M,Kuhn W.The semantics of similarity in geographic information retrieval[J].Journal of Spatial Information Science,2014 (2):29-57.
[14]Sabucedo L,Gago JMS,Iglesias MJF.A tensor-based approach for semantic recommenders in egovernment[J].Advanced Science Letters,2014,20(1):317-320.
[15]Chen LC,Kuo PJ,Liao IE.Ontology-based library recommender system using MapReduce[J].Cluster Computing,2015,18(1):113-121.
[16]Adomavicius G,Jannach D.Preface to the special issue on context-aware recommender systems[J].User Modeling and User-Adapted Interaction,2014,24(1):1-5.
[17]Hu B,Zhou Y.Content semantic similarity boosted collaborative Filtering[A].Proc of International Conference on Computational Intelligence and Security[C].Suzhou:IEEE,2008.7-11.
[18]Middleton SE,De Roure DC,Shadbolt NR.Capturing knowledge of user preferences:ontologies in recommender systems[A].Proc of the 1st International Conference on Knowledge Capture[C].New York:ACM,2001.100-107.
[19]張波,向陽(yáng),黃震華.一種基于語(yǔ)義的決策服務(wù)協(xié)作自組織方法[J].控制與決策,2013,28(9):1414-1418.
Zhang Bo,Xiang Yang,Huang Zhenhua.Semantic based self-organization method for decision-making service collaboration[J].Control and Decision,2013,28(9):1414-1418.(in Chinese)
[20]Kim H,Kim HJ.A framework for tag-aware recommender systems[J].Expert Systems with Applications,2014,41(8):4000-4009.
[22]Liu L,Lecue F,Mehandjiev N.Semantic content-based recommendation of software services using context[J].ACM Transactions on the Web,2013,7(3):17.
[23]Janowicz K,Raubal M,Kuhn W.The semantics of similarity in geographic information retrieval[J].Journal of Spatial Information Science,2011,2 (2):29-57.
[24]Mooney RJ,Roy L.Content-based book recommending using learning for text categorization[A].Proc of the Fifth ACM Conference on Digital Libraries[C].San Antonio:ACM,2000.195-204.
[25]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.
[26]Martínez L,Pérez L G,Barranco M.A multigranular linguistic content-based recommendation model[J].International Journal of Intelligent Systems,2007,22(5):419-434.
[27]Sun F,Shi Y,Wang W.Content-based recommendation system based on vague sets[A].Proc of International Conference on Intelligent Human-Machine Systems and Cybernetics[C].Nanjing:IEEE,2013.294-297.
[28]Khan M,Nair S.Survey of content based recommendation systems in a nutshell[J].International Journal of Advanced Research in Computer Science and Electronics Engineering,2014,3(1):24-30.
[29]Balabanovic′ M,Shoham Y.Fab:content-based,collaborative recommendation[J].Communications of the ACM,1997,40(3):66-72.
[30]Sandvig JJ,Mobasher B,Burke R.Robustness of collaborative recommendation based on association rule mining[A].Proc of ACM Conference on Recommender Systems.[C] Silicon Valley:ACM,2007.105-112.
[31]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[32]Moscato V,Picariello A.Towards a user based recommendation strategy for digital ecosystems[J].Knowledge-Based Systems,2013,37(2):165-175.
[33]Huang Y,Gao X,Gu S.UARR:A novel similarity measure for collaborative filtering recommendation[J].Cybernetics and Information Technologies,2013,13(Special Issue):122-130.
[34]Choi K,Yoo D,Kim G,et al.A hybrid online-product recommendation system:Combining implicit rating-based collaborative filtering and sequential pattern analysis[J].Electronic Commerce Research and Applications,2012,11(4):309-317.
[35]Zheng VW,Zheng Y,Xie X,et al.Towards mobile intelligence:Learning from GPS history data for collaborative recommendation[J].Artificial Intelligence,2012,184-185(2):17-37.
[36]Liu Q,Chen E,Xiong H,et al.Enhancing collaborative filtering by user interest expansion via personalized ranking[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(1):218-233.
[37]Zheng Z,Ma H,Lyu MR,et al.QoS-aware web service recommendation by collaborative filtering[J].IEEE Transactions on Services Computing,2011,4(2):140-152.
[38]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A Statistical Mechanics & Its Applications 2014,396(2):66-76.
[39]Li Y,Zhai CX,Chen Y.Exploiting rich user information for one-class collaborative filtering[J].Knowledge and Information Systems,2014,38(2):277-301.
[40]Liang T,Liang Y,Fan J,et al.A hybrid recommendation model based on estimation of distribution algorithms[J].Journal of Computational Information Systems,2014,10(2):781-788.
[41]Dai N,Qi X,Davison B D.Enhancing web search with entity intent[A].Proc of the 20th International Conference Companion on World Wide Web[C].Hyderabad:ACM,2011.29-30.
[42]Burgess J,Green J.YouTube:Online Video and Participatory Culture[M].New York:John Wiley & Sons,2013.
[43]Linden G,Smith B,York J.Amazon.com recommendations:Item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.
[44]Konstan JA,Miller BN,Maltz D,et al.GroupLens:applying collaborative filtering to usenet news[J].Communications of the ACM,1997,40(3):77-87.
[45]Miller BN,Albert I,Lam SK,et al.MovieLens unplugged:experiences with an occasionally connected recommender system[A].Proc of the 8th International Conference on Intelligent User Interfaces[C].Miami:ACM,2003.263-266.
[46]Bomhardt C.Newsrec,a svm-driven personal recommendation system for news websites[A].Proc of IEEE /WIC/ACM International Conference on Web Intelligence[C].Beijing:IEEE,2004.545-548.
[47]Sobecki J,Babiak E,et al.Application of hybrid recommendation in web-based cooking assistant[A].Proc of Knowledge-Based Intelligent Information and Engineering Systems[C].Bournemouth:Springer,2006.797-804.
[48]Xu H,Zhang R,Lin C,et al.Construction of E-commerce recommendation system based on semantic annotation of ontology and user preference[J].TELKOMNIKA Indonesian Journal of Electrical Engineering,2014,12(3):2028-2035.
[49]Victor C,Luigi C.Taking advantage of semantics in recommendation systems[A].Proc of International Conference of the Catalan Association for Artificial Intelligence[C].Tarragona:IOS Press,2010.163-172.
[50]Peng T,Wang W,Gong XY,et al.A graph indexing approach for content-Based recommendation system[A].Proc of International Conference on Multimedia and Information Technology[C].Hong Kong:IEEE,2010.93-97.
[51]Canhasi E,Kononenko I.Weighted archetypal analysis of the multi-element graph for query-focused multi-document summarization[J].Expert Systems with Applications,2014,41(2):535-543.
[52]Lops P,de Gemmis M,Semeraro G,et al.Content-based filtering with tags:The first system[A].Proc of International Conference on Intelligent Systems Design and Applications[C].Pisa:IEEE,2009.255-260.
[53]Preotiuc-Pietro D,Hristea F.Unsupervised word sense disambiguation with N-gram features[J].Artificial Intelligence Review,2014,41(2):241-260.
[54]Harispe S,Ranwez S,Janaqi S,et al.Semantic measures based on RDF projections:application to content-based recommendation systems[A].International Conference on the Move to Meaningful Internet Systems[C].Graz:Springer,2013.606-615.
[55]賈哲,黃志球,王珊珊,等.支持本體推理的P3P隱私策略沖突檢測(cè)研究[J].計(jì)算機(jī)科學(xué)與探索,2013,7(1):74-82.
Jia Zhe,Huang Zhiqiu,Wang Shanshan,et al.Detecting P3P privacy conflicts based on ontology[J].Journal of Frontiers of Computer Science and Technology,2013,7(1):74-82.(in Chinese)
[56]Guo W,Kraines SB.Semantic Content-Based Recommendations Using Semantic Graphs[M].Berlin:Springer,2010.653-659.
[57]Fernández-Breis JT,Frutos-Morales F,Gil AE,et al.Recommendation of Personalized Learning Contents Supported by Semantic Web Technologies[M].Berlin:Springer,2013.540-545.
[58]Kuo FF,Shan MK,Lee SY.Background music recommendation for video based on multimodal latent semantic analysis[A].Proc of IEEE International Conference on Multimedia and Expo[C].California:IEEE,2013.1-6.
[59]Yoshida T,Irie G,Arai H,et al.Towards semantic and affective content-based video recommendation[A].Proc of IEEE International Conference on Multimedia and Expo Workshops[C].California:IEEE,2013.1-6.
[60]劉敏華,蕭德云.基于相似度的多傳感器數(shù)據(jù)融合[J].控制與決策,2004,19(5):534-537.
Liu Minhua,Xiao Deyun.Multi-sensor data fusion based on similitude degree[J].Control and Decision,2004,19(5):534-537.(in Chinese)
[61]Van Dijck J.Users like you? Theorizing agency in user-generated content[J].Media,Culture,and Society,2009,31(1):41.
[62]Fan M,Zhou Q,Zheng TF.Content-based semantic tag ranking for recommendation[A].Proc of the IEEE/WIC /ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology[C].Atlanta:IEEE,2012.292-296.
[63]Liang Y,Yan Z,Sun B,et al.Cardiovascular risk factor profiles for peripheral artery disease and carotid atherosclerosis among Chinese older people:a population-based study[J].PloS One,2014,9(1):136-148.
[64]Park J,Kim J,Lee J H.Keyword extraction for blogs based on content richness[J].Journal of Information Science,2014,40(1):38-49.
[65]Liu Z,Chen X,Sun M.A simple word trigger method for social tag suggestion[A].Proc of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics[C].Bournemouth:Springer,2011.1577-1588.
[66]Sun H.The application of fuzzy set theory in modern information retrieval[J].Advances in Services Science and Services Information Technology (Set),2014,27(1):177-186.
[67]Hu B,Zhou Y.Content semantic similarity boosted collaborative filtering[A].Proc of International Conference on Computational Intelligence and Security[C].Guangzhou:IEEE,2008.7-11.
[68]Abdelwahab A,Sekiya H,Matsuba I,et al.An efficient collaborative filtering algorithm using SVD-free latent semantic indexing and particle swarm optimization[A].Proc of International Conference on Natural Language Processing and Knowledge Engineering [C].Dalian:IEEE,2009.1-4.
[69]Lemdani R,Bennacer N,Polaillon G,et al.A collaborative and semantic-based approach for recommender systems[A].Proc of International Conference on Intelligent Systems Design and Applications[C].Cairo:IEEE,2010.469-476.
[70]Ferrara F,Tasso C.Integrating semantic relatedness in a collaborative filtering system[A].Proc of Mensch & Computer Workshopband[C].Shanghai:IEEE,2012.75-82.
[71]Cantador I,Castells P,Bellogín A.An enhanced semantic layer for hybrid recommender systems[J].International Journal on Semantic Web & Information Systems,2011,7(1):44-78.
[72]Shambour Q,Lu J.A hybrid multi-criteria semantic-enhanced collaborative filtering approach for personalized recommendations[A].Proc of IEEE/WIC/ ACM International Conference on Web Intelligence and Intelligent Agent Technology[C].Warsaw:IEEE,2011.71-78.
[73]Herlocker J,Konstan J A,Riedl J.An empirical analysis of design choices in neighborhood-based collaborative filtering algorithms[J].Information Retrieval,2002,5(4):287-310.
[74]Hang C,Meifang Z.Improve tagging recommender system based on tags semantic similarity[A].Proc of International Conference on Communication Software and Networks[C].Xi′an:IEEE,2011.94-98.
[75]Kim HN,Roczniak A,Lévy P,et al.Social media filtering based on collaborative tagging in semantic space[J].Multimedia Tools and Applications,2012,56(1):63-89.
[76]Hsu I.SXRS:an XLink-based recommender system using semantic web technologies[J].Expert Systems with Applications,2009,36(2):3795-3804.
[77]Hsu I,Ting D H,Hsueh N L.MDA-based visual modeling approach for resources link relationships using UML profile[J].Computer Standards & Interfaces,2014,36(3):648-656.
[78]Liu L,Lecue F,Mehandjiev N.A hybrid approach to recommending semantic software services[A].Proc of IEEE International Conference on Web Services[C].Washington:IEEE,2011.379-386.
[79]Deng Y,Wu Z,Tang C,et al.A hybrid movie recommender based on ontology and neural networks[A].Proc of IEEE/ACM Int′l Conference on Green Computing and Communications & Int′l Conference on Cyber,Physical and Social Computing[C].Hangzhou:IEEE,2010.846-851.
[80]Tatli I,Birturk A.A tag-based hybrid music recommendation system using semantic relations and multi-domain information[A].Proc of IEEE 11th International Conference on Data Mining Workshops[C].Vancouver:IEEE,2011.548-554.
[81]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A crystallization point for the Web of data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2009,7(3):154-165.
[82]Chen MH,Lin KCJ,Kung CC,et al.On the design of the semantic p2p system for music recommendation[A].Proc of International Symposium on Parallel and Distributed Processing with Applications[C].Taipei:IEEE,2010.442-448.
[83]Lee S,Chun A.Automatic tag recommendation for the web 2.0 blogosphere using collaborative tagging and hybrid ANN semantic structures[A].Proc of International Conference on Wseas International Conference on Applied Computer Science[C].Wisconsin:WSEAS,2007.88-93.
[84]Woolley A W,Chabris C F,Pentland A,et al.Evidence for a collective intelligence factor in the performance of human groups[J].Science,2010,330(6004):686-688.
[85]Golbeck J,Hendler J.Filmtrust:Movie recommendations using trust in web-based social networks[A].Proceedings of the IEEE Consumer Communications and Networking Conference[C].Las Vegas,NV:IEEE,2006.282-286.
[86]Cantador I,Castells P.Multilayered Semantic Social Network Modeling by Ontology-Based User Profiles Clustering:Application to Collaborative Filtering[M].Berlin:Springer,2006.334-349.
[87]Ghita S,Nejdl W,Paiu R.Semantically Rich Recommendations in Social Networks for Sharing,Exchanging and Ranking Semantic Context[M].Berlin:Springer,2005.293-307.
[88]Graves M,Constabaris A,Brickley D.Foaf:Connecting people on the semantic web[J].Cataloging & Classification Quarterly,2007,43(3-4):191-202.
[89]Martin-Vicente M I,Gil-Solla A,Ramos-Cabrer M,et al.Semantics-driven recommendation of coupons through digital TV:Exploiting synergies with social networks[A].Proc of IEEE International Conference on Consumer Electronics[C].Las Vegas:IEEE,2012.564-565.
[90]Squicciarini A C,Paci F,Sundareswaran S.PriMa:a comprehensive approach to privacy protection in social network sites[J].Annals of Telecommunications-Annales Des Télécommunications,2014,69(1-2):21-36.
[91]Li Q,Li J,Wang H,et al.Semantics-enhanced privacy recommendation for social networking sites[A].Proc of IEEE 10th International Conference on Trust,Security and Privacy in Computing and Communications[C].Liverpool:IEEE,2011.226-233.
[92]Schaffer C.Selecting a classification method by cross-validation[J].Machine Learning,1993,13(1):135-143.
[93]Zhang J,Peng Q,Sun S,et al.Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J].Physica A:Statistical Mechanics and its Applications,2014:66-76.
[94]Li L,Zheng L,Yang F,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014,41(7):3168-3177.
[95]O'Leary D E.Artificial intelligence and big data[J].IEEE Intelligent Systems,2013,28(2):0096-99.
[96]Leverich J,Kozyrakis C.On the energy (in) efficiency of hadoop clusters[J].ACM SIGOPS Operating Systems Review,2010,44(1):61-65.
[97]Liu Y,Emoto K,Matsuzaki K,et al.Accumulative Computation on MapReduce[J].IPSJ Online Transactions,2014,7(0):33-42.
黃震華 男,1980年9月出生,福建仙游人.博士、副教授.研究方向?yàn)樾畔⒎?wù)、數(shù)據(jù)挖掘和大數(shù)據(jù)分析等.
E-mail:huangzhenhua@#edu.cn
張佳雯 女,1991年11月出生,上海金山人.現(xiàn)為碩士研究生在讀,研究方向?yàn)橥扑]算法、數(shù)據(jù)挖掘等.
E-mail:smilezjw@qq.com
張 波 男,1978年11月出生,江蘇常州人.博士、副教授.研究方向?yàn)樾畔⒄摗⒄Z(yǔ)義計(jì)算和模式識(shí)別等.
喻 劍 男,1974年6月出生,浙江義烏人.研究方向?yàn)閿?shù)據(jù)挖掘、信息服務(wù)等.
向 陽(yáng) 男,1962年12月出生,江蘇徐州人.教授、博士生導(dǎo)師.研究方向?yàn)閿?shù)據(jù)挖掘、語(yǔ)義計(jì)算、大數(shù)據(jù)分析等.
黃德雙 男,1964年1月出生,安徽合肥人.教授、博士生導(dǎo)師.研究方向?yàn)槟J阶R(shí)別、數(shù)據(jù)挖掘、智能計(jì)算等.
Survey of Semantics-Based Recommendation Algorithms
HUANG Zhen-hua1,ZHANG Jia-wen1,ZHANG Bo2,YU Jian1,XIANG Yang1,HUANG De-shuang1
(1.CollegeofElectronicsandInformationEngineering,TongjiUniversity,Shanghai201804,China;2.CollegeofInformation,MechanicalandElectricalEngineering,ShanghaiNormalUniversity,Shanghai200234,China)
Semantics-based recommendation technology has recently received a lot of attention in information services community.Compared with traditional recommendation algorithms,semantics-based recommendation algorithms have the marked advantages in the aspects of real-timing,robustness and recommendation quality.From the status and progress of domestic and foreign research,we summarize the following four aspects:semantics-based content recommendation algorithms,semantics-based collaborative filtering recommendation algorithms,semantics-based hybrid recommendation algorithms,and semantics-based social recommendation algorithms.And this paper is expected to provide a worthwhile reference for relevant researchers by detailedly analyzing semantics-based recommendation algorithms.Finally,we show readers the challenges and future research directions in this field.
semantics; recommendation algorithm; content recommendation; collaborative filtering recommendation; hybrid recommendation; social recommendation
,Bernstein A.User p
imilarity as classification-based model similarity[J].Semantic Web,2014,5(1):47-64.
2014-03-28;
2016-03-21;責(zé)任編輯:梅志強(qiáng)
國(guó)家自然科學(xué)基金(No.61272268);上海市青年科技啟明星計(jì)劃(No.15QA1403900);教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(No.NCET-12-0413);國(guó)家973課題(No.2014CB340404);霍英東基金應(yīng)用類(lèi)課題(No.142002);同濟(jì)大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金
TN911.23
A
0372-2112 (2016)09-2262-14
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.035