袁成哲,曾碧卿,湯 庸+,王大豪,曾惠敏
1.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510000
2.華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225
面向?qū)W術(shù)社交網(wǎng)絡(luò)的多維度團(tuán)隊(duì)推薦模型*
袁成哲1,曾碧卿2,湯庸1+,王大豪1,曾惠敏1
1.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510000
2.華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225
YUAN Chengzhe,ZENG Biqing,TANG Yong,et al.Multi-faceted team recommendation model for academic social networks.Journal of Frontiers of Computer Science and Technology,2016,10(2):201-209.
學(xué)術(shù)社交網(wǎng)絡(luò)的出現(xiàn)改變了傳統(tǒng)的科研方式,對(duì)于如何基于學(xué)術(shù)社交網(wǎng)絡(luò)為學(xué)者進(jìn)行團(tuán)隊(duì)個(gè)性化推薦進(jìn)行了研究,提出了一種多維度潛在團(tuán)隊(duì)推薦模型(multi-faceted team recommendation,MFTR)。該模型首先通過投影梯度非負(fù)矩陣分解方法提取團(tuán)隊(duì)和用戶的特征向量,并根據(jù)兩者的特征向量計(jì)算其相似度,然后再融合用戶的社交好友關(guān)系和熱門團(tuán)隊(duì)信息來為用戶推薦具有相似研究興趣的潛在團(tuán)隊(duì)。最后在真實(shí)學(xué)術(shù)社交網(wǎng)站——學(xué)者網(wǎng)的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明該模型能有效地提高推薦的準(zhǔn)確度,并緩解了冷啟動(dòng)問題。
學(xué)術(shù)社交網(wǎng)絡(luò);團(tuán)隊(duì)推薦;非負(fù)矩陣分解;多維度
Web2.0的到來賦予了傳統(tǒng)社交網(wǎng)絡(luò)更多的含義,以Facebook、新浪微博、豆瓣網(wǎng)等為代表的熱門社交網(wǎng)絡(luò)迅猛發(fā)展。據(jù)有關(guān)社交媒體機(jī)構(gòu)(http:// wearesocial.net/blog/2014/08/socials-monday-mashup-224/)統(tǒng)計(jì)表明,截至2014年8月全球社交網(wǎng)絡(luò)用戶已突破20億,約占全球人口的27.7%。但因?yàn)槠胀ㄉ缃痪W(wǎng)絡(luò)相對(duì)缺少學(xué)術(shù)科研氛圍,難以滿足科研人員的學(xué)術(shù)交流需求,所以面向科研學(xué)者們的新型社交網(wǎng)絡(luò)——學(xué)術(shù)社交網(wǎng)絡(luò)(academic social networks, ASNs)快速發(fā)展。學(xué)術(shù)社交網(wǎng)絡(luò)的出現(xiàn)極大地改變了傳統(tǒng)的科研方式,它不僅具備普通社交網(wǎng)絡(luò)的便捷交流與快速分享的優(yōu)點(diǎn),同時(shí)利用學(xué)者個(gè)人學(xué)術(shù)主頁全面地展示學(xué)者學(xué)術(shù)信息,加強(qiáng)學(xué)者之間的科研合作,對(duì)新知識(shí)的創(chuàng)造、傳播和學(xué)科交叉的研究產(chǎn)生了重要影響[1]。
在普通社交網(wǎng)絡(luò)中,用戶一般通過添加好友或者加入具有共同興趣愛好的團(tuán)隊(duì)來建立社交關(guān)系,例如Facebook、新浪微博和豆瓣網(wǎng)等大型社交網(wǎng)絡(luò)都擁有團(tuán)隊(duì)功能。它們的構(gòu)建大部分都是基于用戶的資料或社交信息,而ASNs團(tuán)隊(duì)的構(gòu)建主要是結(jié)合學(xué)者的學(xué)術(shù)信息和基本資料,這樣不僅能實(shí)現(xiàn)普通社交團(tuán)隊(duì)的通訊交流和資源共享機(jī)制,還可以打破學(xué)科之間的約束,加強(qiáng)不同學(xué)科領(lǐng)域之間的協(xié)同合作,提高生產(chǎn)效率。良好的團(tuán)隊(duì)推薦可以讓用戶數(shù)不斷增加并保持其活躍度,因此如何準(zhǔn)確地為用戶推薦潛在的團(tuán)隊(duì)小組是目前社交網(wǎng)絡(luò)中研究的難點(diǎn)之一。
目前基于社交網(wǎng)絡(luò)團(tuán)隊(duì)推薦算法可以分為兩類:一類是利用用戶和團(tuán)隊(duì)特征信息的相似性,為用戶推薦可能感興趣的團(tuán)隊(duì)。例如,文獻(xiàn)[2]提出了一種基于張量分解的團(tuán)隊(duì)推薦模型,為Flickr用戶推薦合適的團(tuán)隊(duì)。第二類是為全體團(tuán)隊(duì)成員進(jìn)行相同的推薦。文獻(xiàn)[3-4]的主要思想是如何在考慮所有團(tuán)隊(duì)成員特性差異的基礎(chǔ)上為具有相似興趣愛好的全體團(tuán)隊(duì)成員推薦物品或成員。
上述兩類方法主要是針對(duì)普通社交網(wǎng)絡(luò)的團(tuán)隊(duì)推薦,而不是建立在學(xué)術(shù)社交網(wǎng)絡(luò)上的推薦,缺乏對(duì)學(xué)術(shù)社交網(wǎng)絡(luò)特點(diǎn)的考慮,而且隨著科研用戶數(shù)量日益增長和學(xué)術(shù)網(wǎng)絡(luò)關(guān)系的復(fù)雜化,這些方法不具備良好的可擴(kuò)展性。針對(duì)以上問題,本文提出了一種基于學(xué)術(shù)社交網(wǎng)絡(luò)的多維度潛在團(tuán)隊(duì)推薦模型,利用投影梯度非負(fù)矩陣分解(projected gradient nonnegative matrix factorization,PGNMF)方法[5]提取團(tuán)隊(duì)和用戶的特征向量,并根據(jù)團(tuán)隊(duì)和用戶的特征向量計(jì)算二者相似度,再結(jié)合用戶的社交好友關(guān)系和熱門團(tuán)隊(duì)信息來為用戶推薦具有相似研究興趣的潛在科研團(tuán)隊(duì)。通過多維度的信息融合,不僅提高了推薦的準(zhǔn)確度,緩解了冷啟動(dòng)問題,還可以使用戶獲得更優(yōu)質(zhì)的團(tuán)隊(duì)個(gè)性化推薦服務(wù)。該算法被應(yīng)用于學(xué)術(shù)科研社交網(wǎng)站——學(xué)者網(wǎng)中,并獲得了良好的實(shí)驗(yàn)結(jié)果。
目前社交網(wǎng)絡(luò)平臺(tái)上針對(duì)個(gè)性化推薦算法的研究已經(jīng)很多,主要研究方向分為以下3類:基于內(nèi)容的推薦、協(xié)同過濾推薦和混合推薦。基于內(nèi)容的推薦通過挖掘用戶已有的社交信息,推薦具有相似屬性的用戶;協(xié)同過濾推薦不依賴具體物品的特征,而是通過分析相似用戶對(duì)某一物品的評(píng)價(jià),從而做出相應(yīng)推薦;混合方法的推薦通過不同的組合策略對(duì)推薦算法進(jìn)行組合,從而得到更好的推薦效果[6-7]。
隨著ResearchGate、Academia等學(xué)術(shù)社交網(wǎng)絡(luò)的快速發(fā)展,越來越多的科研學(xué)者提出了基于學(xué)術(shù)社交網(wǎng)絡(luò)的推薦算法。He等人[8]通過用戶信任度計(jì)算模型,設(shè)計(jì)了一種基于學(xué)術(shù)社交網(wǎng)絡(luò)的協(xié)同過濾好友推薦算法。Brandao等人[9]利用學(xué)者所屬關(guān)系和地理信息的語義鏈接定義了兩個(gè)度量指標(biāo),并把這兩個(gè)度量指標(biāo)應(yīng)用到基于學(xué)術(shù)社交網(wǎng)絡(luò)的鏈接推薦中。Li等人[10]通過基于共同作者身份的隨機(jī)游走模型來推薦具有潛在合作關(guān)系的學(xué)者,在精確率、覆蓋率和召回率上取得了不錯(cuò)的效果。Rohani等人[11]針對(duì)社交網(wǎng)絡(luò)的冷啟動(dòng)問題,提出了一種改進(jìn)的基于內(nèi)容的推薦算法,并應(yīng)用于學(xué)術(shù)社交網(wǎng)絡(luò)MyExpert中。
然而為科研用戶提供學(xué)術(shù)團(tuán)隊(duì)推薦的算法研究并不多,即使是基于普通社交網(wǎng)絡(luò)的團(tuán)隊(duì)推薦也不多。Liu等人[12]通過評(píng)估團(tuán)隊(duì)歷史的項(xiàng)目結(jié)果,得到團(tuán)隊(duì)的線性加權(quán)特征向量,并結(jié)合用戶特性和團(tuán)隊(duì)特征得到團(tuán)隊(duì)推薦模型。Zhang等人[13]結(jié)合隱語義模型和位置特性,提出了基于事件的團(tuán)隊(duì)推薦,為用戶推薦本城市合適的團(tuán)隊(duì)小組。
與普通社交網(wǎng)絡(luò)相比,在學(xué)術(shù)社交網(wǎng)絡(luò)中,用戶的Profile文件除了具有基本的用戶信息外,還包含了個(gè)人的科研學(xué)術(shù)信息,例如論文、項(xiàng)目和專利等。隨著用戶數(shù)量和用戶信息的完善,采用簡單的文本處理方式,將難以處理激增的信息量和提取有效的用戶特征信息量。而目前非負(fù)矩分解(non-negative matrix factorization,NMF)[14]是近年發(fā)展起來的一種矩陣分解方法,其明確的物理解釋性、數(shù)據(jù)的簡潔性等特點(diǎn),使得NMF在數(shù)字圖像、文本分析、數(shù)據(jù)挖掘等方面得到了廣泛應(yīng)用。目前NMF算法主要分為4類:基礎(chǔ)型NMF(basic NMF,BNMF)、約束型NMF(constrained NMF,CNMF)、結(jié)構(gòu)型NMF(structured NMF,SNMF)、普遍型NMF(generalized NMF,GNMF)[15]。文獻(xiàn)[16-17]提出了基于NMF的協(xié)同過濾模型,應(yīng)用到推薦系統(tǒng)并取得了不錯(cuò)的效果,同時(shí)解決了推薦系統(tǒng)中數(shù)據(jù)稀疏問題。文獻(xiàn)[5]將界約束最優(yōu)化的思想應(yīng)用到NMF算法上,設(shè)計(jì)了基于投影梯度的NMF(PGNMF),相比采用普通乘法規(guī)則的NMF,PGNMF有效地解決了時(shí)間復(fù)雜度較高的缺點(diǎn)。因此本文利用PGNMF在收斂效率上的優(yōu)勢(shì)對(duì)學(xué)術(shù)社交網(wǎng)絡(luò)中的團(tuán)隊(duì)、用戶個(gè)人信息進(jìn)行特征向量提取,通過特征量的計(jì)算獲取用戶與團(tuán)隊(duì)的相似度。
3.1問題描述
給定社交網(wǎng)絡(luò)中有M個(gè)團(tuán)隊(duì)和N個(gè)用戶,T= {t1,t2,…,tM}表示M個(gè)團(tuán)隊(duì)信息的向量空間模型,其中ti是團(tuán)隊(duì)i信息中所有詞的權(quán)重向量。R={r1, r2,…,rq}表示基于M個(gè)團(tuán)隊(duì)信息的詞庫表,U={u1, u2,…,uN}表示N個(gè)用戶信息的特征矩陣,其中uj是用戶j信息基于詞庫表R的詞頻向量,W={w1,w2,…, wM}表示團(tuán)隊(duì)空間向量矩陣通過PGNMF降維后的團(tuán)隊(duì)特征矩陣,其中wp是團(tuán)隊(duì)p的特征向量。
多維度潛在團(tuán)隊(duì)推薦模型旨在學(xué)術(shù)社交平臺(tái)上,融合用戶、團(tuán)隊(duì)的特征相似度、好友參與的團(tuán)隊(duì)信息和熱門團(tuán)隊(duì)信息,為用戶推薦潛在的科研團(tuán)隊(duì)來擴(kuò)大其科研社交圈,促進(jìn)學(xué)者之間交流,緩解“團(tuán)隊(duì)”冷啟動(dòng)問題,如圖1所示。
(1)基于特征相似的團(tuán)隊(duì)推薦。通過團(tuán)隊(duì)和用戶學(xué)術(shù)信息的特征相似度,為用戶推薦研究興趣相似的科研團(tuán)隊(duì)。
(2)基于好友的科研團(tuán)隊(duì)信息進(jìn)行推薦。一般好友之間具有較高的信任度或者相似的興趣愛好,因此好友所參加的科研團(tuán)隊(duì),可能會(huì)是目標(biāo)用戶感興趣的潛在科研團(tuán)隊(duì),從而本模型融合了好友的科研團(tuán)隊(duì)信息進(jìn)行推薦。
(3)熱門團(tuán)隊(duì)推薦,由于新注冊(cè)用戶的個(gè)人學(xué)術(shù)信息及好友關(guān)系不完善,為了緩解“團(tuán)隊(duì)”推薦的冷啟動(dòng),融合了社交網(wǎng)絡(luò)中的熱門團(tuán)隊(duì)信息。
通過信息的融合,本模型實(shí)現(xiàn)了基于多維度的潛在學(xué)術(shù)科研團(tuán)隊(duì)的推薦,讓3種方法有機(jī)地結(jié)合起來,克服了單種方法存在的不足。
3.2特征相似團(tuán)隊(duì)推薦
3.2.1團(tuán)隊(duì)信息和用戶信息分詞
首先用weka分詞工具(http://weka.wikispaces.com/Text+categorization+with+Weka)對(duì)社交網(wǎng)絡(luò)中的M個(gè)團(tuán)隊(duì)、N個(gè)用戶信息進(jìn)行分詞處理,并把團(tuán)隊(duì)信息的分詞結(jié)果統(tǒng)計(jì)到詞庫表R={r1,r2,…,rq}。其中團(tuán)隊(duì)信息包括團(tuán)隊(duì)簡介、公告、資源,個(gè)人信息包括個(gè)人簡介、論文信息、工作信息等,團(tuán)隊(duì)空間向量模型T∈?m×q,Tij表示團(tuán)隊(duì)ti信息中的詞語Wj基于詞庫表R的權(quán)重。Tij的計(jì)算公式如下:
Fig.1 Structure of multi-faceted team recommendation圖1 多維度潛在團(tuán)隊(duì)推薦模型
其中,TFij表示詞語Wj基于團(tuán)隊(duì)ti信息的詞頻;DFi表示包含團(tuán)隊(duì)信息中詞語Wj的團(tuán)隊(duì)數(shù)量。用戶特征矩陣U∈?n×q,Uij表示用戶ui信息中詞Cj基于詞庫表R的詞頻TFij。
其中,C表示詞語Cj在用戶ui信息中出現(xiàn)的次數(shù);q表示詞庫表的總詞數(shù)。
3.2.2PGNMF特征提取
文獻(xiàn)[15]中用梯度下降法的更新規(guī)則來求解W和V,但當(dāng)數(shù)據(jù)量很大時(shí),NMF的迭代速度收斂速度較慢。因此Lin[5]提出了一種利用投影梯度(projected gradient,PG)的優(yōu)化方法來解決NMF的這些問題?;谕队疤荻鹊腘MF的思想如下:
3.2.3用戶、團(tuán)隊(duì)相似度計(jì)算
用戶和團(tuán)隊(duì)的特征屬性可以分別通過用戶特征矩陣與團(tuán)隊(duì)特征矩陣體現(xiàn),用戶、團(tuán)隊(duì)之間的相似度可以用特征矩陣之間的余弦夾角度量。用戶特征矩陣經(jīng)過一定處理后才能與團(tuán)隊(duì)特征矩陣進(jìn)行余弦相似度計(jì)算:
本文令用戶特征向量U∈?n×q,與團(tuán)隊(duì)系數(shù)矩陣VT∈?q×r相乘得U=UVT,用團(tuán)隊(duì)特征矩陣W∈?m×r和處理后的用戶特征矩陣U∈?n×r代表T和U,并代入式(5)。余弦值越大,兩者特征相似度越高,用戶對(duì)團(tuán)隊(duì)感興趣的概率也越大,將與用戶興趣度最相似的K個(gè)團(tuán)隊(duì)形成基于用戶和團(tuán)隊(duì)特征相似的團(tuán)隊(duì)推薦列表PGNMFList。
3.3好友推薦團(tuán)隊(duì)
根據(jù)“六度分割理論”,社交網(wǎng)絡(luò)任意用戶都可以通過間接關(guān)系聯(lián)系起來,這種潛在好友模型同樣適合團(tuán)隊(duì)模型。已有社會(huì)學(xué)、心理學(xué)以及計(jì)算機(jī)領(lǐng)域的專家學(xué)者通過研究發(fā)現(xiàn),與普通用戶相比,好友之間存在一定的信任度,用戶更相信社交網(wǎng)絡(luò)中的好友對(duì)他們的推薦。然而好友之間的研究興趣可能是相似的,也可能是不相似的,因此通過在好友中尋找研究興趣類似的好友,并將其所參加的科研團(tuán)隊(duì)作為推薦,那么這些團(tuán)隊(duì)可能會(huì)是目標(biāo)用戶感興趣的潛在科研團(tuán)隊(duì)。因此本文利用好友的科研團(tuán)隊(duì)信息為用戶進(jìn)行推薦。
好友之間的信任度可以通過兩者的特征向量相似度和共同好友關(guān)系衡量。本文通過文本空間向量模型(text vector space model,TVSM)計(jì)算好友之間的特征向量相似度,其主要思想是提取用戶Ui和好友Frj個(gè)人資料、公告信息、學(xué)術(shù)信息3個(gè)方面的特征詞,根據(jù)式(1)計(jì)算每個(gè)特征詞的權(quán)重,得到用戶和好友的特征向量矩陣,最后根據(jù)式(5)余弦相似度計(jì)算出Ui特征向量和好友Frj特征向量的余弦值。
共同好友關(guān)系Confij表示用戶i和用戶Frj之間的共同好友關(guān)系,共同好友數(shù)量越多,關(guān)系越密切,即:
其中,N(Ui)為用戶Ui的直接好友數(shù);N(Ui,Frj)為用戶Ui好友Frj的共同好友數(shù)。Ui和Frj之間的信任度定義如下:
基于好友Frj信任度推薦的團(tuán)隊(duì)集合可表示為Frecj=Trust(ui,Frj)[Tj1,Tj2,…,Tjm]。其中Tji把屬于好友Frj且不包含于用戶Ui的團(tuán)隊(duì)ID標(biāo)記為1,其他標(biāo)記為0,累加用戶Ui所有好友推薦的團(tuán)隊(duì)集合,并對(duì)結(jié)果降序排列,抽取前K個(gè)團(tuán)隊(duì)形成由好友推薦的團(tuán)隊(duì)列表FrecList,如圖2所示。
算法1好友推薦團(tuán)隊(duì)算法
Fig.2 Structure of team recommendation based on friend圖2 好友推薦模型
3.4熱門團(tuán)隊(duì)推薦
團(tuán)隊(duì)的熱門程度一定程度上能體現(xiàn)團(tuán)隊(duì)的活躍度與影響力,因此可以選擇一些熱門團(tuán)隊(duì)進(jìn)行推薦。本文從以下幾個(gè)指標(biāo)衡量熱門團(tuán)隊(duì):團(tuán)隊(duì)點(diǎn)擊率、團(tuán)隊(duì)公告數(shù)、公告瀏覽量、團(tuán)隊(duì)成員數(shù)。
點(diǎn)擊率是熱門團(tuán)隊(duì)的重要指標(biāo),點(diǎn)擊率越高,說明該團(tuán)隊(duì)被訪問的次數(shù)越高;團(tuán)隊(duì)公告數(shù)和公告瀏覽量一定程度上說明了該團(tuán)隊(duì)的活躍程度;團(tuán)隊(duì)成員數(shù)也能體現(xiàn)團(tuán)隊(duì)的影響力。為了方便計(jì)算,指標(biāo)統(tǒng)一進(jìn)行歸一化處理,熱門團(tuán)隊(duì)指標(biāo)(active teams index,ATI)的定義描述如下:
其中,ATIi為團(tuán)隊(duì)Ti的熱門程度;xmax、xmin分別表示團(tuán)隊(duì)中指標(biāo) j最大的數(shù)值和最小的數(shù)值。最后選擇ATI指標(biāo)排名前K個(gè)團(tuán)隊(duì)形成由熱門團(tuán)隊(duì)推薦列表ATIList。
3.5多維度團(tuán)隊(duì)推薦
目前團(tuán)隊(duì)推薦研究所利用的信息都比較單一,推薦效果欠佳,因此需要融合多維度的信息來進(jìn)行推薦。本文提出了3大類信息,綜合考慮3個(gè)維度的預(yù)測(cè),可分為以下4種情況:
(1)新注冊(cè)用戶,沒有個(gè)人信息及好友關(guān)系。
(2)用戶個(gè)人信息完善,但沒有好友關(guān)系。
(3)用戶具有好友關(guān)系,但沒有完整的個(gè)人信息。
(4)用戶具有完善的個(gè)人信息及好友關(guān)系。
其中,α、β、γ通過實(shí)驗(yàn)獲取。模型的時(shí)間復(fù)雜度主要取決于PGNMF,其時(shí)間復(fù)雜度為O(m×n),因此MFTR的時(shí)間復(fù)雜度為O(n2)。即使在用戶信息不完善或好友關(guān)系缺失的情況下,仍可以獲得熱門團(tuán)隊(duì)的推薦,緩解冷啟動(dòng)問題。
4.1數(shù)據(jù)集介紹
本文采用國內(nèi)大型學(xué)術(shù)社交網(wǎng)站——學(xué)者網(wǎng)(http://www.scholat.com)的數(shù)據(jù)。學(xué)者網(wǎng)是一個(gè)為科研學(xué)者提供社交平臺(tái)的網(wǎng)站,它主要提供團(tuán)隊(duì)小組、學(xué)者學(xué)術(shù)信息管理、文獻(xiàn)檢索、即時(shí)通訊、網(wǎng)絡(luò)教學(xué)應(yīng)用服務(wù)。學(xué)者不僅可以通過添加論文、項(xiàng)目、專利、著作等個(gè)人信息來展示學(xué)術(shù)主頁,分享學(xué)術(shù)成果,還能結(jié)合學(xué)術(shù)搜索引擎、團(tuán)隊(duì)小組、學(xué)術(shù)網(wǎng)盤的功能,更加方便地進(jìn)行學(xué)術(shù)資源信息的搜索和共享,網(wǎng)站的站內(nèi)信和在線聊天工具也為用戶與團(tuán)隊(duì)成員提供即時(shí)通訊功能。
實(shí)驗(yàn)從學(xué)者網(wǎng)網(wǎng)站中隨機(jī)抽取200個(gè)團(tuán)隊(duì)和3 000個(gè)用戶,并分別選取團(tuán)隊(duì)的簡介、點(diǎn)擊量、公告內(nèi)容及瀏覽量、成員數(shù)量,用戶的個(gè)人簡介、學(xué)術(shù)信息(論文、科研項(xiàng)目、專利、著作)、公告內(nèi)容作為團(tuán)隊(duì)和用戶的初始信息。
4.2評(píng)價(jià)指標(biāo)
為驗(yàn)證算法的準(zhǔn)確性及可擴(kuò)展性,本文將MFTR模型與其他兩種具有代表性的推薦算法進(jìn)行比較,待比較的算法分別是基于TF-IDF的文本相似度模型和基于好友推薦模型,并采用TopN推薦常用的評(píng)價(jià)標(biāo)準(zhǔn):準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure),定義如下:
其中,R(u)與T(u)分別表示推薦給用戶u的團(tuán)隊(duì)集合和用戶u本身的團(tuán)隊(duì)集合。準(zhǔn)確率和召回率的取值都在0和1之間,數(shù)值越接近1,準(zhǔn)確率或召回率就越高,兩者主要體現(xiàn)推薦算法的精度。F值則為兩者的調(diào)和平均數(shù),用來綜合反映整體情況。
4.3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)環(huán)境配置說明:所有模型都在配備酷睿i7八核處理器,8 GB內(nèi)存的PC機(jī)上進(jìn)行實(shí)驗(yàn)。并將PGNMF模型的迭代次數(shù)設(shè)為1 000,降維指數(shù)r設(shè)為100。
根據(jù)準(zhǔn)確率、召回率和F值3個(gè)指標(biāo),將本文提出的MFTR模型與基于TFIDF的profile相似度推薦模型、基于好友關(guān)系推薦模型(friends’recommendation,F(xiàn)Rec)進(jìn)行對(duì)比。對(duì)于TopN推薦,隨著推薦數(shù)量的增長,推薦的召回率和準(zhǔn)確率分別會(huì)逐步提高和降低,F(xiàn)值則可以反映兩者之間的平衡。
4.3.1召回率和準(zhǔn)確率
從圖3中可以看出,MFTR模型在召回率上明顯好于其他兩種方法,當(dāng)推薦團(tuán)隊(duì)個(gè)數(shù)分別為15、20和25時(shí),在召回率上,MFTR比TFIDF分別提升了46.33%、36.31%和27.99%。
從圖4中可以看出,MFTR模型在精度上也優(yōu)于其他兩種方法,當(dāng)推薦團(tuán)隊(duì)個(gè)數(shù)分別為5、10和15時(shí),在準(zhǔn)確率上,MFTR比TFIDF分別提升了43.56%、48.02%和48.15%。
4.3.2F-值
從圖5中可以看出,MFTR模型在F值上要比其他兩種方法好,當(dāng)推薦團(tuán)隊(duì)個(gè)數(shù)分別為5、15和25時(shí),在F值指標(biāo)上,MFTR比TFIDF分別提升了30.42%、32.21%和21.61%。對(duì)于實(shí)驗(yàn)采用的數(shù)據(jù)集,團(tuán)隊(duì)推薦個(gè)數(shù)為[2,4]時(shí),F(xiàn)值性能較高。
從實(shí)驗(yàn)結(jié)果可知,由于充分利用學(xué)術(shù)社交網(wǎng)絡(luò)中用戶的學(xué)術(shù)信息、好友關(guān)系和熱門團(tuán)隊(duì)信息,多維度潛在團(tuán)隊(duì)推薦模型的推薦效果要明顯優(yōu)于其他兩種模型。
Fig.3 Performance comparison of recall圖3 不同模型下的召回率
Fig.4 Performance comparison of precision圖4 不同模型下的準(zhǔn)確率
Fig.5 Performance comparison of F-measure圖5 不同模型下的F值
隨著學(xué)術(shù)社交網(wǎng)絡(luò)的快速發(fā)展,向?qū)W者推薦潛在科研團(tuán)隊(duì),有助于打破學(xué)科之間的約束,加強(qiáng)不同學(xué)科領(lǐng)域?qū)W者之間的協(xié)同合作,增強(qiáng)用戶的粘性。本文在分析學(xué)術(shù)社交網(wǎng)絡(luò)團(tuán)隊(duì)構(gòu)建特性的基礎(chǔ)上,提出了以PGNMF特征相似推薦模型為核心,融合社交好友關(guān)系和熱門團(tuán)隊(duì)信息的多維度團(tuán)隊(duì)推薦模型。實(shí)驗(yàn)結(jié)果證明本文模型在緩解冷啟動(dòng)問題的前提下一定程度上提高了推薦準(zhǔn)確度。
由于學(xué)術(shù)社交網(wǎng)絡(luò)的用戶和學(xué)術(shù)資源日益增長,并且學(xué)者的科研興趣方向可能隨著時(shí)間的變化而轉(zhuǎn)移,下一步的工作將從以下兩個(gè)方面繼續(xù)研究和改進(jìn):一方面融合學(xué)者更多的學(xué)術(shù)信息(如教學(xué)信息、英文論文),并在學(xué)術(shù)信息的基礎(chǔ)上加入時(shí)間戳影響因子。另一方面對(duì)原有的多維度團(tuán)隊(duì)推薦模型部分并行化處理,以便應(yīng)對(duì)海量數(shù)據(jù)的算法執(zhí)行效率。
References:
[1]Xia Qiuju,Li Wenchao,Xue Jingjing,et al.New social networking platform for the academic fields:research networking systems[J].Journal of Intelligence,2014,33(9):167-172.
[2]Zheng Nan,Li Qiudan,Liao Shengcai,et al.Flickr group recommendation based on tensor decomposition[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, Geneva,Switzerland,Jul 19-23,2010.New York,USA: ACM,2010:737-738.
[3]De Pessemier T,Dooms S,Martens L.Comparison of group recommendation algorithms[J].Multimedia Tools and Applications,2014,72(3):2497-2541.
[4]Kim H N,El SaddikA.Astochastic approach to group recommendations in social media systems[J].Information Systems, 2015,50:76-93.
[5]Lin C J.Projected gradient methods for nonnegative matrix factorization[J].Neural Computation,2007,19(10):2756-2779.
[6]Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey[J].Knowledge Based Systems,2013,46(1): 109-132.
[7]Wang Licai,Meng Xiangwu,Zhang Yujie.Context-aware recommender systems[J].Journal of Software,2012,23(1): 1-20.
[8]He Chaobo.Collaborative recommendation model based on social network and its application[J].Journal of Convergence Information Technology,2012,7(2):253-261.
[9]Brand?o M A,Moro M M,Lopes G R,et al.Using link semantics to recommend collaborations in academic social networks[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,May 13-17,2013.New York,USA:ACM,2013:833-840.
[10]Li Jing,Xia Feng,Wang Wei,et al.ACRec:a co-authorship based random walk model for academic collaboration recommendation[C]//Proceedings of the 23rd International Conference on World Wide Web,Seoul,Korea,Apr 7-11,2014. New York,NY,USA:ACM,2014:1209-1214.
[11]Rohani VA,Kasirun Z M,Kumar S,et al.An effective recommender algorithm for cold-start problem in academic social networks[J/OL].Mathematical Problems in Engineering (2014-03-18)[2015-04-10].http://dx.doi.org/10.1155/2014/ 123726.
[12]Liu Haibin,Qiao Mu,Greenia D,et al.A machine learning approach to combining individual strength and team features for team recommendation[C]//Proceedings of the 13th International Conference on Machine Learning and Applications, Detroit,USA,Dec 3-6,2014.Piscataway,USA:IEEE, 2014:213-218.
[13]Zhang Wei,Wang Jianyong,Feng Wei.Combining latent factor model with location features for event-based group recommendation[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Chicago,USA,Aug 11-14,2013.New York,USA: ACM,2013:910-918.
[14]Lee D D,Seung H S.Algorithms for non-negative matrix factorization[C]//Advances in Neural Information Processing Systems 14:Proceedings of the 2001 Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 3-8,2001.Cambridge,USA:MIT Press,2001:556-562.
[15]Wang YuXiong,Zhang YuJin.Nonnegative matrix factorization:a comprehensive review[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(6):1336-1353. [16]Luo Xin,Zhou Mengchu,Xia Yunni,et al.An efficient nonnegative matrix-factorization-based approach to collaborative-filtering for recommender systems[J].IEEE Transactions on Industrial Informatics,2014,10(2):1273-1284.
[17]Sharifi Z,Rezghi M,Nasiri M.A new algorithm for solving data sparsity problem based-on Non negative matrix factorization in recommender systems[C]//Proceedings of the 4th International Conference on Computer and Knowledge Engineering,Mashhad,Iran,Oct 29-30,2014.Piscataway,USA: IEEE,2014:56-61.
附中文參考文獻(xiàn):
[1]夏秋菊,栗文超,薛晶晶,等.面向?qū)W術(shù)領(lǐng)域的新型社交平臺(tái):科研社交網(wǎng)絡(luò)[J].情報(bào)雜志,2014,33(9):167-172.
[7]王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報(bào),2012,23(1):1-20.
YUAN Chengzhe was born in 1991.He is an M.S.candidate at South China Normal University.His research interests include social network,recommended system and data mining,etc.
袁成哲(1991—),男,湖南常德人,華南師范大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò),推薦系統(tǒng),數(shù)據(jù)挖掘等。
曾碧卿(1969—),男,湖南衡陽人,2005年于中南大學(xué)計(jì)算機(jī)專業(yè)獲得博士學(xué)位,現(xiàn)為華南師范大學(xué)軟件學(xué)院副院長,主要研究領(lǐng)域?yàn)榉植际教幚?,認(rèn)知無線電網(wǎng)絡(luò),P2P等。
湯庸(1964—),男,湖南張家界人,2001年于中國科技大學(xué)計(jì)算機(jī)軟件與理論專業(yè)獲得博士學(xué)位,現(xiàn)為華南師范大學(xué)計(jì)算機(jī)學(xué)院院長、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)闀r(shí)態(tài)數(shù)據(jù)庫,協(xié)同計(jì)算,云計(jì)算,社會(huì)網(wǎng)絡(luò)服務(wù)等。發(fā)表SCI/EI收錄論文100多篇,主持國家自然科學(xué)基金、國家863計(jì)劃、國家科技支撐計(jì)劃子課題等項(xiàng)目。
WANG Dahao was born in 1993.He is an M.S.candidate at South China Normal University.His research interests include data mining and machine learning,etc.
王大豪(1993—),男,廣東湛江人,華南師范大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等。
ZENG Huimin was born in 1991.She is an M.S.candidate at South China Normal University.Her research interests include data mining and recommended system,etc.
曾惠敏(1991—),女,廣東梅州人,華南師范大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,推薦系統(tǒng)等。
Multi-Faceted Team Recommendation Model forAcademic Social Networks*
YUAN Chengzhe1,ZENG Biqing2,TANG Yong1+,WANG Dahao1,ZENG Huimin1
1.School of Computer,South China Normal University,Guangzhou 510000,China
2.School of Software,South China Normal University,Foshan,Guangdong 528225,China
+Corresponding author:E-mail:ytang@m.scnu.edu.cn
Traditional research methods have been greatly changed by academic social networks(ASNs),this paper explores the area of personalized team recommendation for scholars in ASNs,proposes a novel model named multifaceted team recommendation(MFTR).MFTR recommends latent scientific research teams with similar research interest for users not only by computing the similarities of users and scientific research teams based on their eigenvector which is abstracted by methods of projected gradient non-negative matrix factorization,but also combining the relationship of friends and active scientific research teams.MFTR is conducted by comprehensive experiments on real world datasets from SCHOLAT that is an academic social site.The results show that the model can efficiently improve the quality of recommendation and abate the problem of cold start.
academic social networks;team recommendation;non-negative matrix factorization;multi-faceted
2015-05,Accepted 2015-07.
ZENG Biqing was born in 1969.He the Ph.D.degree from Center South University in 2005.Now he is the vice dean of School of Software,South China Normal University.His research interests include distributed processing system,cognitive radio networking and P2P,etc.
TANG Yong was born in 1964.He the Ph.D.degree in computer software and theory from University of Science and Technology of China in 2001.Now he is the dean and Ph.D.supervisor of School of Computer Science,South China Normal University.His research interests include temporal database,cooperative computing, cloud computing and social network services,etc.
10.3778/j.issn.1673-9418.1506047
*The National Natural Science Foundation of China under Grant No.61272067(國家自然科學(xué)基金);the National High Technology Research and Development Program of China under Grant No.2013AA01A212(國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃));the National Key Technology R&D Program of China under Grant No.2012BAH27F05(國家科技支撐計(jì)劃項(xiàng)目);the PhD Start-up Fund of Natural Science Foundation of Guangdong Province under Grant No.2014A030310238(廣東省自然科學(xué)基金博士啟動(dòng)專項(xiàng)).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-07-10,http://www.cnki.net/kcms/detail/11.5602.TP.20150710.1550.001.html
A
TP311