亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下基于知識(shí)圖譜的用戶興趣擴(kuò)展模型研究

        2021-08-06 10:09:16張彬徐建民吳姣
        現(xiàn)代情報(bào) 2021年8期
        關(guān)鍵詞:知識(shí)圖譜大數(shù)據(jù)用戶

        張彬 徐建民 吳姣

        摘?要:[目的/意義]針對(duì)大數(shù)據(jù)環(huán)境下用戶興趣數(shù)據(jù)稀疏、缺乏關(guān)聯(lián)和描繪不準(zhǔn)確等問題,利用知識(shí)圖譜融合多源興趣知識(shí),以提高用戶興趣的全面性和準(zhǔn)確性。[方法/過程]從興趣之間的關(guān)聯(lián)視角出發(fā),進(jìn)行興趣建模、知識(shí)獲取和知識(shí)融合,整合興趣間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián),構(gòu)建興趣知識(shí)圖譜;挖掘興趣標(biāo)簽節(jié)點(diǎn)與上位詞節(jié)點(diǎn)、百科標(biāo)簽節(jié)點(diǎn)、社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)的關(guān)系,計(jì)算興趣標(biāo)簽的語義關(guān)聯(lián)度和社交網(wǎng)絡(luò)關(guān)聯(lián)度,生成復(fù)合關(guān)聯(lián)權(quán)重,重構(gòu)興趣之間的衍生關(guān)系以實(shí)現(xiàn)用戶的興趣擴(kuò)展。[結(jié)果/結(jié)論]該模型能夠有效融合擴(kuò)展不同類型的興趣關(guān)聯(lián)知識(shí),相對(duì)于單一來源數(shù)據(jù)在用戶興趣的覆蓋率和查準(zhǔn)率方面均有所提升,提高了用戶興趣描繪的全面性和準(zhǔn)確性。

        關(guān)鍵詞:大數(shù)據(jù);知識(shí)圖譜;用戶;興趣擴(kuò)展;模型

        DOI:10.3969/j.issn.1008-0821.2021.08.004

        〔中圖分類號(hào)〕G254?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)08-0036-09

        Research?on?User?Interest?Expansion?Model?Based?on

        Knowledge?Graph?in?Big?Data?Environment

        Zhang?Bin1?Xu?Jianmin1*?Wu?Jiao2

        (1.School?of?Management,Hebei?University,Baoding?071002,China;

        2.Magazine?House,Hebei?University,Baoding?071002,China)

        Abstract:[Purpose/Significance]Interest?data?in?big?data?environment?is?sparse,and?there?is?no?effective?correlation?in?user?interests.In?response?to?these?problems,a?User?Interest?Expansion?Model?based?on?Knowledge?Graph?is?proposed.[Method/Process]Starting?from?the?perspective?of?the?association?relationship?between?interests,the?model?integrated?the?semantic?associations?and?social?network?associations?in?interests?through?the?process?of?interest?modeling,knowledge?acquisition?and?fusion?utilization,and?constructed?an?interest?knowledge?graph.The?relationship?among?Interest?Tag?Nodes,Hyper?Nodes,Encyclopedia?Tag?Nodes,and?Social?Network?User?Nodes?was?calculated,and?the?semantic?relevance?of?interest?tags?and?social?network?relevance?were?calculated?to?generate?composite?relevance?weights.And?the?derivative?relationships?between?interests?were?reconstructed?to?achieve?user?interest?expansion.[Result/Conclusion]Experiments?show?that?this?model?could?effectively?integrate?different?types?of?interest-related?knowledge,and?greatly?improve?the?coverage?and?accuracy?of?user?interest.It?could?improves?the?comprehensiveness?and?accuracy?of?user?interest?description.

        Key?words:big?data;knowledge?graph;user;interest?expansion;model

        用戶興趣挖掘是個(gè)性化推薦的關(guān)鍵,興趣特征描繪的全面性和準(zhǔn)確性直接影響推薦系統(tǒng)的性能,興趣擴(kuò)展是提高興趣描繪效果的有效方法之一。大數(shù)據(jù)時(shí)代的數(shù)據(jù)規(guī)模大、來源豐富、類型多樣,用戶興趣數(shù)據(jù)具有多噪聲、高維度、稀疏性和多源異構(gòu)等特點(diǎn),傳統(tǒng)的興趣挖掘模型在處理大數(shù)據(jù)時(shí)存在的問題限制了其性能的發(fā)揮[1]。如何有效融合多源興趣數(shù)據(jù)知識(shí)并挖掘興趣之間的隱含關(guān)聯(lián),是用戶興趣擴(kuò)展研究的難點(diǎn)問題。

        用戶興趣擴(kuò)展研究借鑒信息檢索技術(shù)中查詢擴(kuò)展方法的思想,通過增加用戶興趣的關(guān)聯(lián)詞來提高用戶興趣特征的描繪效果[2-3]。根據(jù)知識(shí)來源的不同,現(xiàn)有研究主要分為利用內(nèi)部興趣知識(shí)和利用社交網(wǎng)絡(luò)知識(shí)的興趣擴(kuò)展。傳統(tǒng)的興趣擴(kuò)展方法利用推薦系統(tǒng)的內(nèi)部知識(shí)來挖掘用戶興趣。Liu?Q等[4]認(rèn)為,在傳統(tǒng)的興趣挖掘模型中,潛在的用戶興趣信息并未得到充分開發(fā),提出了一種基于協(xié)同過濾的iExpand興趣擴(kuò)展模型,把用戶潛在興趣作為用戶層和項(xiàng)目層之間的中間層,用以提高興趣描繪和推薦效果。Bedi?P等[5]提出了一種結(jié)合上下文因素和領(lǐng)域本體的興趣擴(kuò)展方法,利用內(nèi)容的上下文數(shù)據(jù)結(jié)合領(lǐng)域本體中的概念,通過擴(kuò)展激活來擴(kuò)展用戶的興趣。由于推薦系統(tǒng)內(nèi)部知識(shí)資源單一,效果較為有限,部分學(xué)者開始利用社交網(wǎng)絡(luò)知識(shí)擴(kuò)展用戶興趣。Mezghani?M等[6]認(rèn)為,豐富的社交媒體數(shù)據(jù)使社交網(wǎng)絡(luò)成為用戶興趣的重要數(shù)據(jù)源,提出了以用戶為中心的方法將用戶、標(biāo)簽和資源進(jìn)行了關(guān)聯(lián),以檢測(cè)用戶的擴(kuò)展興趣。Zhang?Z等[7]認(rèn)為,傳統(tǒng)推薦算法對(duì)推薦的準(zhǔn)確性更為關(guān)注,提出了基于用戶興趣擴(kuò)展的多樣化推薦框架,采用基于社會(huì)標(biāo)簽信息的用戶興趣擴(kuò)展策略來增強(qiáng)用戶偏好的多樣性。徐建民等[8]為解決微博用戶興趣提取不準(zhǔn)確的問題,把用戶個(gè)體興趣和從社交網(wǎng)絡(luò)挖掘的關(guān)聯(lián)興趣相結(jié)合,作為用戶的擴(kuò)展興趣,提高了推薦的有效性和準(zhǔn)確性。隨著數(shù)據(jù)規(guī)模的增長(zhǎng),傳統(tǒng)的興趣擴(kuò)展方法難以全面覆蓋用戶興趣,社交標(biāo)簽存在的歧義性、多義性、攻擊性以及噪聲等問題也更加突出,對(duì)于興趣擴(kuò)展影響較為關(guān)鍵的語義關(guān)聯(lián)、社交網(wǎng)絡(luò)關(guān)聯(lián)等問題尚缺乏深入的研究。

        近年來,知識(shí)圖譜技術(shù)的出現(xiàn)為大數(shù)據(jù)環(huán)境下的興趣擴(kuò)展研究提供了新的思路。知識(shí)圖譜是一種有向異構(gòu)信息網(wǎng)絡(luò),提供了一種更好地組織、管理和理解大數(shù)據(jù)中興趣關(guān)聯(lián)信息的能力[9],具有知識(shí)結(jié)構(gòu)化、語義關(guān)聯(lián)化、推理智能化等優(yōu)勢(shì)[10],在興趣挖掘中引入知識(shí)圖譜能夠把推薦系統(tǒng)的用戶、用戶興趣、項(xiàng)目及其屬性之間的關(guān)系進(jìn)行語義關(guān)聯(lián)和知識(shí)融合[11]?;谥R(shí)圖譜的興趣模型主要關(guān)注知識(shí)圖譜中項(xiàng)目之間的各種關(guān)聯(lián)路徑,通過節(jié)點(diǎn)路徑的特征來挖掘知識(shí)圖譜,捕獲項(xiàng)目之間的復(fù)雜且有意義的關(guān)系,較為直觀準(zhǔn)確地為推薦提供輔助信息。Guo?Q等[12]提出了一個(gè)端到端的波紋網(wǎng)絡(luò)(RippleNet)知識(shí)圖譜推薦框架,通過知識(shí)圖譜中的鏈接自動(dòng)迭代擴(kuò)展用戶的潛在興趣,并證明了在各個(gè)場(chǎng)景下的顯著效果。Noia?T?D等[13]提出了SPrank混合推薦算法,利用DBpedia鏈接開放數(shù)據(jù)提取基于語義路徑的特征,通過Web數(shù)據(jù)中的開放知識(shí)計(jì)算前N個(gè)推薦。Gupta?M等[14]提出了一種基于元路徑的非聚類推薦模型HeteroPRS,該模型融合了異構(gòu)信息網(wǎng)絡(luò)中與項(xiàng)目相關(guān)的元信息,在不進(jìn)行用戶聚類的情況下,通過考慮網(wǎng)絡(luò)中任意的元路徑來發(fā)現(xiàn)用戶的內(nèi)在興趣。具有異構(gòu)信息融合能力的知識(shí)圖譜,在解決推薦的稀疏性和冷啟動(dòng)問題方面取得了較好的效果,為用戶興趣擴(kuò)展的性能提升奠定了基礎(chǔ)。現(xiàn)有基于知識(shí)圖譜的推薦研究尚不夠深入,大多利用開放知識(shí)圖譜建立用戶與項(xiàng)目間的路徑聯(lián)系,豐富的多源異構(gòu)數(shù)據(jù)對(duì)于興趣關(guān)聯(lián)的影響尚未得到足夠的關(guān)注和重視。

        本文利用知識(shí)圖譜在用戶興趣挖掘方面的優(yōu)勢(shì),從興趣之間的關(guān)聯(lián)視角出發(fā),引入用戶、興趣標(biāo)簽、語義關(guān)系以及社交網(wǎng)絡(luò)數(shù)據(jù)等多源興趣知識(shí),構(gòu)建融合語義關(guān)系和社交網(wǎng)絡(luò)數(shù)據(jù)的興趣知識(shí)圖譜;通過計(jì)算興趣標(biāo)簽節(jié)點(diǎn)間的上位詞關(guān)聯(lián)度和百科標(biāo)簽關(guān)聯(lián)度挖掘興趣間的語義關(guān)聯(lián),利用社交網(wǎng)絡(luò)知識(shí)計(jì)算用戶自標(biāo)簽共現(xiàn)度、用戶自標(biāo)簽關(guān)聯(lián)度和用戶自標(biāo)簽熱度,生成興趣標(biāo)簽間的復(fù)合權(quán)重,重構(gòu)興趣之間的衍生關(guān)系,對(duì)用戶的原始興趣進(jìn)行擴(kuò)展。

        1?基于知識(shí)圖譜的用戶興趣擴(kuò)展模型框架

        為了解決興趣擴(kuò)展研究中興趣數(shù)據(jù)稀疏、缺乏語義關(guān)聯(lián)和準(zhǔn)確度不高等問題,本文設(shè)計(jì)了基于知識(shí)圖譜的用戶興趣擴(kuò)展模型(Knowledge?Graph-based?User?Interest?Expansion?Model,KG-UIEM),構(gòu)建融合多源知識(shí)的興趣知識(shí)圖譜,試圖通過挖掘用戶標(biāo)簽之間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián)進(jìn)行用戶興趣擴(kuò)展。模型框架如圖1所示。

        圖1?基于知識(shí)圖譜的用戶興趣擴(kuò)展模型框架

        根據(jù)用戶興趣擴(kuò)展的知識(shí)結(jié)構(gòu)特征,模型分為興趣知識(shí)圖譜構(gòu)建和用戶興趣擴(kuò)展兩個(gè)部分,興趣知識(shí)圖譜構(gòu)建主要包括興趣知識(shí)建模、興趣知識(shí)獲取和興趣知識(shí)融合3個(gè)環(huán)節(jié)[11],在此基礎(chǔ)上利用興趣間的語義關(guān)聯(lián)和社交網(wǎng)絡(luò)關(guān)聯(lián)建立衍生關(guān)系,對(duì)外輸出用戶的擴(kuò)展興趣。

        2?興趣知識(shí)圖譜構(gòu)建

        2.1?興趣知識(shí)建模

        在用戶興趣挖掘的場(chǎng)景中,知識(shí)圖譜能夠把涵蓋豐富用戶興趣的知識(shí)進(jìn)行融合與有效利用,發(fā)現(xiàn)和計(jì)算用戶與興趣、興趣與興趣的知識(shí)關(guān)聯(lián),進(jìn)而挖掘用戶的潛在興趣和擴(kuò)展興趣。

        標(biāo)簽是用戶興趣的一種有效表示方式,在興趣知識(shí)圖譜中將興趣標(biāo)簽作為用戶興趣表達(dá)與存儲(chǔ)的主要形式?;跇?biāo)簽的推薦研究中,既有用戶—標(biāo)簽—項(xiàng)目、用戶—項(xiàng)目—標(biāo)簽等3部圖的推薦方法,也有用戶—興趣—標(biāo)簽—項(xiàng)目的4部圖推薦方法[15]。由于標(biāo)簽具有噪聲、歧義、冗余和不夠規(guī)范等問題,導(dǎo)致標(biāo)簽在用戶興趣描繪中的應(yīng)用范圍和效果較為有限。把用戶興趣以標(biāo)簽的形式引入知識(shí)圖譜,利用語義和社交網(wǎng)絡(luò)等信息對(duì)興趣進(jìn)行優(yōu)化計(jì)算和擴(kuò)展,可以彌補(bǔ)標(biāo)簽的劣勢(shì),取得更佳的興趣描繪效果。

        根據(jù)用戶興趣擴(kuò)展的知識(shí)需求和數(shù)據(jù)類型,興趣知識(shí)圖譜中的實(shí)體主要分為3種類型:①用戶本體,用來存儲(chǔ)和描述用戶基本信息及屬性特征;②興趣詞本體,用來存儲(chǔ)和更新興趣詞概念和實(shí)體,興趣詞實(shí)體包括來源于上下位知識(shí)[16]和百科知識(shí)的靜態(tài)興趣詞數(shù)據(jù),以及用戶興趣計(jì)算過程中生成的動(dòng)態(tài)更新興趣詞;③社交網(wǎng)絡(luò)用戶本體,用來存儲(chǔ)和關(guān)聯(lián)用戶相關(guān)的社交網(wǎng)絡(luò)信息,主要包括用戶信息、自定義興趣標(biāo)簽、用戶間的關(guān)注關(guān)系等。

        根據(jù)興趣挖掘模型中實(shí)體關(guān)系的不同創(chuàng)建方式,實(shí)體關(guān)系分為原生關(guān)系和衍生關(guān)系兩類。原生關(guān)系,即利用原始數(shù)據(jù)直接產(chǎn)生的實(shí)體關(guān)系,這些關(guān)系作為用戶興趣挖掘的基礎(chǔ),包括興趣詞—概念之間的上位詞關(guān)系、興趣詞—百科標(biāo)簽之間的百科標(biāo)簽關(guān)系、社交網(wǎng)絡(luò)用戶—用戶標(biāo)簽的自標(biāo)簽關(guān)系、社交網(wǎng)絡(luò)用戶之間的關(guān)注關(guān)系等。衍生關(guān)系,即利用知識(shí)圖譜資源和原生關(guān)系等計(jì)算出的復(fù)合關(guān)聯(lián)關(guān)系。

        2.2?興趣知識(shí)獲取

        興趣詞的語義知識(shí)。對(duì)用戶的興趣進(jìn)行標(biāo)簽化

        處理和表示之后,利用興趣詞之間的上下位知識(shí)和百科標(biāo)簽知識(shí)構(gòu)建語義知識(shí)網(wǎng)絡(luò),能夠建立興趣詞之間的語義關(guān)聯(lián)。上下位關(guān)系又稱等級(jí)關(guān)系或?qū)蛹?jí)關(guān)系,表示概念或術(shù)語之間的“is-a”關(guān)聯(lián)[17]。上下位知識(shí)對(duì)實(shí)體進(jìn)行了結(jié)構(gòu)化的組織,具有較權(quán)威上下位關(guān)系的中文知識(shí)庫有大詞林(Bigcilin)、CN-Probase、HowNet、同義詞林等。在線百科是語義知識(shí)的另一重要來源,百科詞條通常對(duì)應(yīng)于一定的實(shí)體或概念,是由網(wǎng)絡(luò)用戶協(xié)同編輯形成的在線知識(shí)庫[18]。百科詞條知識(shí)相對(duì)于傳統(tǒng)的中文知識(shí)庫,在開放性、時(shí)效性和詞條的豐富程度上具有較大優(yōu)勢(shì)。在線百科的詞條標(biāo)簽信息能夠作為興趣詞的分類依據(jù),建立興趣詞之間的語義連接。

        社交網(wǎng)絡(luò)知識(shí)。在線社交網(wǎng)絡(luò)提供了信息交流環(huán)境,依靠社交網(wǎng)絡(luò)用戶發(fā)布的內(nèi)容以及用戶間關(guān)系構(gòu)成的社交網(wǎng)絡(luò)知識(shí)庫,是涵蓋真實(shí)世界用戶興趣的重要數(shù)據(jù)源。目前關(guān)于社交網(wǎng)絡(luò)興趣的研究,較多關(guān)注以用戶為中心的興趣挖掘,而忽視了社交網(wǎng)絡(luò)本身也建立了興趣之間的關(guān)聯(lián);可以從興趣共現(xiàn)、用戶關(guān)注關(guān)系中挖掘出興趣詞之間的社交關(guān)聯(lián),為興趣挖掘提供真實(shí)、豐富的社交網(wǎng)絡(luò)興趣知識(shí)庫。

        2.3?興趣知識(shí)融合

        大數(shù)據(jù)環(huán)境下,用戶的興趣偏好具有多元化特征,興趣知識(shí)需要具有一定的廣度、深度和動(dòng)態(tài)性,僅依靠單一類型的知識(shí)來源,難以達(dá)到理想效果。構(gòu)建融合多源數(shù)據(jù)的興趣知識(shí)圖譜,能夠把具有相對(duì)權(quán)威的興趣詞上下位知識(shí)、開放多元的百科標(biāo)簽知識(shí)以及與用戶相關(guān)的社交網(wǎng)絡(luò)知識(shí)進(jìn)行重新組織,利用原生圖數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ)和對(duì)外查詢,為用戶擴(kuò)展興趣的挖掘提供有力的平臺(tái)和數(shù)據(jù)支撐。

        本文對(duì)用戶的屬性特征和興趣特征等進(jìn)行標(biāo)簽化處理,在用戶興趣知識(shí)圖譜中采用〈實(shí)體,關(guān)系,實(shí)體〉和〈實(shí)體,屬性,屬性值〉的三元組形式進(jìn)行描述和表示。將屬性特征進(jìn)行標(biāo)簽化處理,建立用戶與屬性標(biāo)簽節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系;將用戶的興趣特征轉(zhuǎn)化為興趣標(biāo)簽詞實(shí)體,建立用戶實(shí)體與興趣特征之間的關(guān)聯(lián),從不同角度為用戶興趣分析提供數(shù)據(jù)支撐。

        3?基于知識(shí)圖譜的用戶興趣擴(kuò)展

        興趣知識(shí)圖譜把用戶、興趣標(biāo)簽、上位詞、百科標(biāo)簽和社交網(wǎng)絡(luò)等多源數(shù)據(jù)進(jìn)行了數(shù)據(jù)整合和知識(shí)關(guān)聯(lián),構(gòu)成了融合多源信息的興趣知識(shí)庫。興趣知識(shí)圖譜是一個(gè)有向圖KGInterest=(E,R),其中E={e1,e2,e3,…,en}表示圖中各類實(shí)體(節(jié)點(diǎn))的集合,共包含E種不同的實(shí)體;R={r1,r2,r3,…,rn}表示圖中各類關(guān)系(有向邊)的集合,共包含R種不同的關(guān)系。

        3.1?語義關(guān)聯(lián)興趣擴(kuò)展

        興趣標(biāo)簽之間存在著語義關(guān)聯(lián),利用多標(biāo)簽間的語義關(guān)系能夠更加精確地表征興趣特征,緩解原始用戶—標(biāo)簽矩陣高維稀疏的問題[19]。在興趣知識(shí)圖譜中,興趣標(biāo)簽節(jié)點(diǎn)與上位詞節(jié)點(diǎn)和百科標(biāo)簽節(jié)點(diǎn)的關(guān)系體現(xiàn)了標(biāo)簽之間的語義關(guān)系,本文用這些關(guān)聯(lián)生成興趣標(biāo)簽的語義關(guān)聯(lián)度。

        定義1:上位詞關(guān)聯(lián)度。對(duì)于給定的興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,上位詞關(guān)聯(lián)度Rdh指兩個(gè)節(jié)點(diǎn)與其上位詞節(jié)點(diǎn)關(guān)聯(lián)強(qiáng)度的一種度量。

        對(duì)于具有共同上位詞關(guān)聯(lián)的兩個(gè)興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,存在經(jīng)過上位詞節(jié)點(diǎn)Eho的關(guān)聯(lián)路徑PH=EwjHyperEhoHyperEwk,上位詞關(guān)聯(lián)度Rdh的計(jì)算公式為:

        Rdh(Ewj,Ewk)=OH(Ewj)∩OH(Ewk)OH(Ewj)∪OH(Ewk)(1)

        其中OH(Ewj)表示與興趣標(biāo)簽節(jié)點(diǎn)Ewj關(guān)聯(lián)的上位詞節(jié)點(diǎn)集合,OH(Ewk)表示與興趣標(biāo)簽節(jié)點(diǎn)Ewk關(guān)聯(lián)的上位詞節(jié)點(diǎn)集合。OH(Ewj)∩OH(Ewk)表示與兩個(gè)節(jié)點(diǎn)共同關(guān)聯(lián)的上位詞節(jié)點(diǎn)數(shù)量,OH(Ewj)∪OH(Ewk)表示與兩個(gè)節(jié)點(diǎn)關(guān)聯(lián)的上位詞節(jié)點(diǎn)的總數(shù)。

        定義2:百科標(biāo)簽關(guān)聯(lián)度。對(duì)于給定的興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,百科標(biāo)簽關(guān)聯(lián)度Rdw指兩個(gè)節(jié)點(diǎn)與百科標(biāo)簽節(jié)點(diǎn)關(guān)聯(lián)強(qiáng)度的一種度量。

        對(duì)于具有百科標(biāo)簽關(guān)聯(lián)的兩個(gè)興趣節(jié)點(diǎn)Ewj和Ewk,存在經(jīng)過百科標(biāo)簽節(jié)點(diǎn)Ebw的關(guān)聯(lián)路徑PW=EwjWikiTagEbwWikiTagEwk,百科標(biāo)簽關(guān)聯(lián)度Rdw的計(jì)算公式為:

        Rdw(Ewj,Ewk)=OW(Ewj)∩OW(Ewk)OW(Ewj)∪OW(Ewk)(2)

        其中OW(Ewj)表示與興趣標(biāo)簽節(jié)點(diǎn)Ewj關(guān)聯(lián)的百科標(biāo)簽節(jié)點(diǎn)集合,OW(Ewk)表示與興趣標(biāo)簽節(jié)點(diǎn)Ewk關(guān)聯(lián)的百科標(biāo)簽節(jié)點(diǎn)集合。OW(Ewj)∩OW(Ewk)表示與兩個(gè)節(jié)點(diǎn)共同關(guān)聯(lián)的百科標(biāo)簽節(jié)點(diǎn)數(shù)量,OW(Ewj)∪OW(Ewk)表示與兩個(gè)節(jié)點(diǎn)關(guān)聯(lián)的百科標(biāo)簽節(jié)點(diǎn)的總數(shù)。

        定義3:語義關(guān)聯(lián)度。對(duì)于給定的興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,語義關(guān)聯(lián)度指兩個(gè)節(jié)點(diǎn)通過語義知識(shí)建立關(guān)聯(lián)強(qiáng)度的一種度量。

        興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk的語義關(guān)聯(lián)度Rds,由兩個(gè)節(jié)點(diǎn)的上位詞關(guān)聯(lián)度和百科標(biāo)簽關(guān)聯(lián)度進(jìn)行加權(quán)和計(jì)算得出,計(jì)算公式為:

        Rds(Ewj,Ewk)=ω·Rdh(Ewj,Ewk)+φ·Rdw(Ewj,Ewk)(3)

        在上位詞和百科標(biāo)簽關(guān)系中,一個(gè)興趣標(biāo)簽節(jié)點(diǎn)可能與多個(gè)上位詞節(jié)點(diǎn)或百科標(biāo)簽節(jié)點(diǎn)具有關(guān)聯(lián),兩個(gè)節(jié)點(diǎn)具有的共同節(jié)點(diǎn)越多,它們的語義關(guān)聯(lián)度越大。由于不同的外部語義知識(shí)庫在覆蓋度、準(zhǔn)確度、更新周期方面存在較大差異,節(jié)點(diǎn)間的語義關(guān)聯(lián)計(jì)算可以引入多個(gè)外部知識(shí)庫進(jìn)行計(jì)算,根據(jù)知識(shí)庫的權(quán)威度、數(shù)據(jù)量等特點(diǎn)評(píng)估設(shè)定權(quán)重系數(shù),彌補(bǔ)單一知識(shí)庫存在的語義關(guān)系稀疏和不準(zhǔn)確問題。

        3.2?社交網(wǎng)絡(luò)關(guān)聯(lián)興趣擴(kuò)展

        通過語義關(guān)聯(lián)能夠得到興趣標(biāo)簽的語義擴(kuò)展詞,但擴(kuò)展詞往往不能契合真實(shí)用戶的實(shí)際偏好。Web2.0時(shí)代,社交網(wǎng)絡(luò)提供了豐富的用戶興趣和社交關(guān)系數(shù)據(jù)資源,Mezghani?M等研究者已經(jīng)證明社交網(wǎng)絡(luò)用戶的標(biāo)簽可以有效地檢測(cè)用戶的興趣,鄰居用戶的興趣或行為也提供了相關(guān)的興趣信息[6]。部分研究者嘗試?yán)蒙缃痪W(wǎng)絡(luò)構(gòu)建興趣圖譜,建立用戶與興趣之間的聯(lián)系[21],但現(xiàn)有研究尚處于起步階段,應(yīng)用效果不夠理想且適用范圍較窄。本文嘗試?yán)蒙缃痪W(wǎng)絡(luò)豐富的興趣數(shù)據(jù)和社交關(guān)系,挖掘興趣標(biāo)簽之間的社交關(guān)聯(lián)。

        定義4:用戶自標(biāo)簽共現(xiàn)度。對(duì)于來源于社交網(wǎng)絡(luò)用戶自標(biāo)簽的興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,用戶對(duì)兩個(gè)標(biāo)簽的共同使用行為建立了節(jié)點(diǎn)間的共現(xiàn)關(guān)聯(lián),用戶自標(biāo)簽共現(xiàn)度UCD是對(duì)其關(guān)聯(lián)強(qiáng)度的一種度量。

        對(duì)于具有自標(biāo)簽關(guān)聯(lián)的兩個(gè)興趣節(jié)點(diǎn)Ewj和Ewk,存在經(jīng)過社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)Ess的關(guān)聯(lián)路徑PW=EwjUserLabelEssUserLabelEwk,興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk的用戶自標(biāo)簽共現(xiàn)度UCD計(jì)算公式為:

        UCD(Ewj,Ewk)=μ·OU(Ewj)∩OU(Ewk)OU(Ewj)∪OU(Ewk)(4)

        其中OU(Ewj)表示使用興趣詞Ewj作為個(gè)人興趣標(biāo)簽的社交網(wǎng)絡(luò)賬號(hào)節(jié)點(diǎn)集合,OU(Ewk)表示使用興趣詞Ewk作為個(gè)人興趣標(biāo)簽的社交網(wǎng)絡(luò)賬號(hào)節(jié)點(diǎn)集合。OU(Ewj)∩OU(Ewk)表示與兩個(gè)節(jié)點(diǎn)共同關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號(hào)節(jié)點(diǎn)數(shù)量,OU(Ewj)∪OU(Ewk)表示兩個(gè)節(jié)點(diǎn)關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號(hào)節(jié)點(diǎn)并集的數(shù)量,μ為調(diào)節(jié)系數(shù)。

        定義5:用戶關(guān)注關(guān)聯(lián)度。對(duì)于來源于社交網(wǎng)絡(luò)用戶標(biāo)簽的興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk,兩個(gè)節(jié)點(diǎn)通過用戶的關(guān)注關(guān)系建立了關(guān)聯(lián),用戶關(guān)注關(guān)聯(lián)度UFD是對(duì)其關(guān)聯(lián)強(qiáng)度的一種度量。

        對(duì)于具有用戶自標(biāo)簽關(guān)聯(lián)的兩個(gè)興趣節(jié)點(diǎn)Ewj和Ewk,經(jīng)過兩個(gè)(或以上)社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)Ess、Est的關(guān)注關(guān)系構(gòu)成了組合路徑PW=EwjUserLabelEssFollowedEstUserLabelEwk,稱為用戶自標(biāo)簽關(guān)注路徑。興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk的用戶關(guān)注關(guān)聯(lián)度UFD計(jì)算公式為:

        UFD(Ewj,Ewk)=·PWW(Ewj,Ewk)OU(Ewj)×OU(Ewk)(5)

        其中分子PWW(Ewj,Ewk)表示兩個(gè)興趣標(biāo)簽節(jié)點(diǎn)間的關(guān)注路徑集合的路徑個(gè)數(shù),分母為分別與兩個(gè)節(jié)點(diǎn)關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號(hào)數(shù)量的乘積,即組合路徑的理論最大值,為調(diào)節(jié)系數(shù)。

        用戶關(guān)注關(guān)聯(lián)度使用社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)之間的雙向關(guān)注關(guān)系產(chǎn)生的組合路徑作為計(jì)算依據(jù),隨著關(guān)注關(guān)系跳數(shù)的增加,用戶興趣的傳遞會(huì)產(chǎn)生衰減[12],考慮到多跳關(guān)注的計(jì)算復(fù)雜度會(huì)大幅增加而對(duì)興趣擴(kuò)展產(chǎn)生的效果有限,本文僅使用社交網(wǎng)絡(luò)用戶之間的直接關(guān)注關(guān)聯(lián),暫不考慮用戶節(jié)點(diǎn)間的多跳關(guān)注關(guān)系。

        由于輸入的用戶初始興趣可能存在空或與現(xiàn)有興趣不匹配的情況,在興趣知識(shí)圖譜中建立特殊的零興趣節(jié)點(diǎn),并通過計(jì)算用戶自標(biāo)簽熱度建立零興趣節(jié)點(diǎn)與熱興趣詞間的關(guān)聯(lián),用來解決零興趣輸入的需求。

        定義6:用戶自標(biāo)簽熱度。對(duì)于興趣標(biāo)簽節(jié)點(diǎn)Ewh,與社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)的連接數(shù)越多,它的自標(biāo)簽熱度越高,用戶自標(biāo)簽熱度UHD是對(duì)其受歡迎程度的一種度量。

        興趣標(biāo)簽節(jié)點(diǎn)Ewh的用戶自標(biāo)簽熱度UHD計(jì)算公式為:

        UHD(Ewh)=λ·PUW(Ewh)∑h∈IPUW(Ewh)(6)

        其中分子PUW(Ewh)表示興趣標(biāo)簽節(jié)點(diǎn)Ewh與社交網(wǎng)絡(luò)用戶的關(guān)聯(lián)路徑個(gè)數(shù),分母為興趣標(biāo)簽節(jié)點(diǎn)與社交網(wǎng)絡(luò)用戶的關(guān)聯(lián)路徑之和,λ作為調(diào)節(jié)系數(shù)。

        3.3?興趣標(biāo)簽的衍生關(guān)聯(lián)擴(kuò)展

        相對(duì)于傳統(tǒng)的推薦場(chǎng)景,大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)具有輸入數(shù)據(jù)規(guī)模更大,稀疏性、冗余度和噪聲更大的特點(diǎn)[1],知識(shí)圖譜技術(shù)降低了利用多源異構(gòu)數(shù)據(jù)的門檻,如何對(duì)各類知識(shí)數(shù)據(jù)進(jìn)行有效的整合利用變得尤為關(guān)鍵。

        興趣擴(kuò)展模型分別從語義、興趣共現(xiàn)和社交關(guān)系多個(gè)角度分析,獲得了興趣標(biāo)簽節(jié)點(diǎn)之間的語義關(guān)聯(lián)度、用戶自標(biāo)簽共現(xiàn)度和用戶自標(biāo)簽關(guān)聯(lián)度等關(guān)聯(lián)權(quán)重。通過對(duì)各個(gè)關(guān)聯(lián)權(quán)重進(jìn)行權(quán)重歸一和加權(quán)處理,能夠生成興趣標(biāo)簽節(jié)點(diǎn)間的復(fù)合關(guān)聯(lián)權(quán)重。

        興趣標(biāo)簽節(jié)點(diǎn)Ewj和Ewk的復(fù)合關(guān)聯(lián)權(quán)重CRD計(jì)算公式為:

        CRD(Ewj,Ewk)=α·Rds(Ewj,Ewk)+β·UCD(Ewj,Ewk)+γ·UFD(Ewj,Ewk)(7)

        其中權(quán)重系數(shù)根據(jù)語義關(guān)聯(lián)度、用戶自標(biāo)簽共現(xiàn)度和用戶自標(biāo)簽關(guān)聯(lián)度的數(shù)據(jù)源質(zhì)量、數(shù)據(jù)豐富程度、權(quán)重分布等進(jìn)行評(píng)估設(shè)定。

        為了保證興趣之間的復(fù)合關(guān)聯(lián)能夠得到高效利用,本文在興趣知識(shí)圖譜中重建了興趣標(biāo)簽節(jié)點(diǎn)之間的衍生關(guān)系,將復(fù)合關(guān)聯(lián)權(quán)重分級(jí)轉(zhuǎn)化為3種新類型的關(guān)系——強(qiáng)關(guān)聯(lián)、中關(guān)聯(lián)、弱關(guān)聯(lián),并將復(fù)合關(guān)聯(lián)權(quán)重作為邊的權(quán)重屬性存儲(chǔ)于圖數(shù)據(jù)庫。衍生關(guān)系把興趣擴(kuò)展的離線計(jì)算和在線查詢進(jìn)行有效分離,為后續(xù)的二次興趣挖掘、興趣擴(kuò)展查詢等提供了數(shù)據(jù)基礎(chǔ)。

        興趣知識(shí)圖譜構(gòu)建及擴(kuò)展更新完成后,即可利用興趣標(biāo)簽節(jié)點(diǎn)間的衍生關(guān)系提供興趣擴(kuò)展查詢。對(duì)于原始興趣為單興趣詞的查詢,模型輸出與該興趣標(biāo)簽節(jié)點(diǎn)具有衍生關(guān)系的興趣標(biāo)簽節(jié)點(diǎn)集合;對(duì)于原始興趣為多興趣詞的查詢,模型輸出與多個(gè)輸入節(jié)點(diǎn)具有衍生關(guān)系的興趣標(biāo)簽節(jié)點(diǎn)集合。對(duì)于原始興趣為空的查詢,模型輸出與零興趣節(jié)點(diǎn)關(guān)聯(lián)的熱興趣標(biāo)簽節(jié)點(diǎn)集合。擴(kuò)展興趣輸出的排序依據(jù)為輸入相關(guān)節(jié)點(diǎn)和輸出節(jié)點(diǎn)的邊權(quán)重倒序。

        4?實(shí)驗(yàn)結(jié)果與分析

        4.1?實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

        由于目前沒有統(tǒng)一、權(quán)威的數(shù)據(jù)集可供使用,實(shí)驗(yàn)采用開放鏈接知識(shí)和爬蟲工具抽取采集的數(shù)據(jù),使用河北大學(xué)高性能計(jì)算平臺(tái)的胖節(jié)點(diǎn)集群進(jìn)行分析計(jì)算。

        興趣知識(shí)圖譜基本構(gòu)建采用的數(shù)據(jù)集包括上下位關(guān)系數(shù)據(jù)集、百科標(biāo)簽數(shù)據(jù)集和社交網(wǎng)絡(luò)數(shù)據(jù)集。其中上下位關(guān)系選用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心研制的大詞林作為實(shí)體基礎(chǔ)知識(shí)庫,包括75萬核心實(shí)體、1.8萬細(xì)粒度概念詞表以及上下位關(guān)系318萬個(gè)[16]。百科標(biāo)簽數(shù)據(jù)選用復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室研發(fā)維護(hù)的CN-DBpedia中文通用百科知識(shí)圖譜數(shù)據(jù)包,該數(shù)據(jù)集系從中文百科類網(wǎng)站的純文本頁面中提取,經(jīng)過濾、融合、推斷等操作形成的結(jié)構(gòu)化數(shù)據(jù)[22]。本文從中篩選了百科標(biāo)簽類型的三元組關(guān)系132萬條,涉及實(shí)體詞47萬個(gè),百科標(biāo)簽詞0.36萬個(gè),作為興趣知識(shí)圖譜中百科標(biāo)簽的知識(shí)來源。在社交網(wǎng)絡(luò)數(shù)據(jù)方面,本文以前期研究采集篩選的0.78萬個(gè)真實(shí)用戶關(guān)聯(lián)的微博賬號(hào)為種子節(jié)點(diǎn),使用分布式網(wǎng)絡(luò)爬蟲抓取了2~3層關(guān)注關(guān)系以及相關(guān)的微博賬號(hào)信息,獲取到社交網(wǎng)絡(luò)用戶信息1?022萬條、關(guān)注關(guān)系6?600萬條;其中具有自定義興趣標(biāo)簽的用戶334萬個(gè),從中提取用戶興趣標(biāo)簽詞45萬個(gè),生成微博賬號(hào)和興趣標(biāo)簽的三元組關(guān)聯(lián)767萬條,補(bǔ)全用戶節(jié)點(diǎn)3?159萬個(gè),用作興趣知識(shí)圖譜的社交網(wǎng)絡(luò)知識(shí)庫。

        在知識(shí)圖譜構(gòu)建過程中,使用本體構(gòu)建工具Protégé規(guī)劃和構(gòu)建本體結(jié)構(gòu);利用關(guān)系數(shù)據(jù)庫對(duì)多個(gè)來源的數(shù)據(jù)進(jìn)行清洗整理、關(guān)系抽取、實(shí)體補(bǔ)全和規(guī)范化處理,生成實(shí)體節(jié)點(diǎn)和原生關(guān)系;使用Neo4j-admin工具批量導(dǎo)入至Neo4j圖數(shù)據(jù)庫,共包括各類節(jié)點(diǎn)3?889萬個(gè),三元組關(guān)系7?400萬個(gè),用于興趣知識(shí)數(shù)據(jù)的持久化存儲(chǔ)和圖查詢分析。

        4.2?興趣標(biāo)簽的關(guān)聯(lián)分析

        由原生關(guān)系組成的基礎(chǔ)知識(shí)圖譜和圖數(shù)據(jù)庫構(gòu)建完成后,通過多級(jí)視圖和Cypher查詢相結(jié)合的方法進(jìn)行聯(lián)合查詢計(jì)算,獲取與指定興趣標(biāo)簽相關(guān)的興趣節(jié)點(diǎn)列表,使用前述公式計(jì)算生成興趣節(jié)點(diǎn)之間的衍生關(guān)聯(lián)。

        圖2?興趣標(biāo)簽節(jié)點(diǎn)的語義關(guān)系

        興趣標(biāo)簽節(jié)點(diǎn)“輪滑”和“足球”之間的語義關(guān)系如圖2所示,兩個(gè)節(jié)點(diǎn)與4個(gè)共同上位詞節(jié)點(diǎn)存在路徑關(guān)系,分別是“物”“抽象事物”“體育項(xiàng)目”和“亞運(yùn)會(huì)比賽項(xiàng)目”;與3個(gè)共同百科標(biāo)簽節(jié)點(diǎn)存在路徑聯(lián)系,分別是“體育”“體育人物”和“體育項(xiàng)目”。根據(jù)式(1)、(2)分別求得這兩個(gè)興趣標(biāo)簽之間的上位詞關(guān)聯(lián)度為0.235和0.500。由于實(shí)驗(yàn)選取的上位詞知識(shí)和百科標(biāo)簽知識(shí)數(shù)據(jù)規(guī)模相近,知識(shí)關(guān)聯(lián)質(zhì)量相對(duì)較高,且經(jīng)過一系列的篩選及數(shù)據(jù)處理,因此在式(3)中的權(quán)重系數(shù)均取0.5,計(jì)算兩個(gè)興趣標(biāo)簽的語義關(guān)聯(lián)度結(jié)果為0.368。在興趣標(biāo)簽的語義分析過程中發(fā)現(xiàn),開放知識(shí)庫的關(guān)聯(lián)數(shù)據(jù)可能存在不準(zhǔn)確或部分缺失的現(xiàn)象,引入多個(gè)開放知識(shí)庫可以減少單一來源知識(shí)不準(zhǔn)確造成的影響。

        興趣標(biāo)簽節(jié)點(diǎn)“輪滑”和“足球”之間的用戶自標(biāo)簽共現(xiàn)關(guān)系中,兩個(gè)節(jié)點(diǎn)與8個(gè)社交網(wǎng)絡(luò)用戶節(jié)點(diǎn)存在自標(biāo)簽關(guān)系,與兩個(gè)節(jié)點(diǎn)存在自標(biāo)簽聯(lián)系的節(jié)點(diǎn)總數(shù)為179,調(diào)節(jié)系數(shù)μ取值為50,使用式(4)計(jì)算可得,兩個(gè)節(jié)點(diǎn)的用戶自標(biāo)簽關(guān)聯(lián)度為2.23。興趣共現(xiàn)相當(dāng)于用戶興趣的協(xié)同過濾,具有較大的數(shù)據(jù)價(jià)值;而社交網(wǎng)絡(luò)中存在自標(biāo)簽共現(xiàn)的用戶比例較小,在實(shí)驗(yàn)數(shù)據(jù)集中占比約為22%,因此設(shè)定了系數(shù)進(jìn)行調(diào)節(jié)放大。

        興趣標(biāo)簽節(jié)點(diǎn)通過社交網(wǎng)絡(luò)用戶之間的關(guān)注關(guān)系,建立了節(jié)點(diǎn)距離為5跳的關(guān)聯(lián)路徑,如圖3所示。與圖中心興趣標(biāo)簽節(jié)點(diǎn)“輪滑”具有多條關(guān)注路徑的節(jié)點(diǎn)包括“美食”(42條)、“旅游”(26條)、“名人明星”(20條)、“校園生活”(12條)等,這些多路徑節(jié)點(diǎn)體現(xiàn)了與興趣詞關(guān)聯(lián)的社交網(wǎng)絡(luò)群體興趣。如表1所示,通過自標(biāo)簽熱度式(6)計(jì)算得出熱興趣詞排名,熱度較高的興趣詞包括“旅游”“美食”“名人明星”“搞笑幽默”“娛樂”等,用做零輸入節(jié)點(diǎn)的關(guān)聯(lián)興趣。豐富的社交網(wǎng)絡(luò)知識(shí)為興趣標(biāo)簽節(jié)點(diǎn)之間的關(guān)聯(lián)有效地拓展了興趣知識(shí)資源。

        4.3?結(jié)果分析

        用戶興趣擴(kuò)展模型的最主要目的是為興趣稀疏用戶擴(kuò)充興趣,為了驗(yàn)證模型中不同興趣知識(shí)來源對(duì)用戶興趣擴(kuò)展的效果,本文參照跨域興趣融合的評(píng)價(jià)方法[23]計(jì)算不同來源的興趣知識(shí)疊加對(duì)輸入興趣的覆蓋度和對(duì)輸出興趣的受歡迎程度的影響。把各興趣知識(shí)來源設(shè)為4個(gè)數(shù)據(jù)域,其中D1域?yàn)樯衔辉~知識(shí),D2域?yàn)榘倏茦?biāo)簽知識(shí),D3域?yàn)樽詷?biāo)簽共現(xiàn)知識(shí),D4域?yàn)檠苌P(guān)聯(lián)知識(shí)。

        在實(shí)驗(yàn)過程中,采用覆蓋率和查準(zhǔn)率指標(biāo)對(duì)用戶興趣擴(kuò)展效果進(jìn)行評(píng)價(jià)。覆蓋率指標(biāo)用來衡量知識(shí)庫對(duì)輸入興趣的覆蓋程度,即輸入用戶中可被興趣標(biāo)簽節(jié)點(diǎn)覆蓋的用戶占比;查準(zhǔn)率指標(biāo)用來衡量輸出擴(kuò)展興趣的受歡迎程度,即輸出的擴(kuò)展興趣屬于熱興趣詞庫的用戶占比。為了便于對(duì)比效果,隨機(jī)抽取興趣用戶5?000個(gè),把用戶的首選興趣詞作為用戶的興趣輸入,興趣標(biāo)簽按權(quán)重排名的前5個(gè)作為輸出興趣;把社交網(wǎng)絡(luò)的自標(biāo)簽詞按熱度降序排列,從37萬自標(biāo)簽詞中篩選出熱興趣詞庫。由于D3域和熱興趣詞庫關(guān)聯(lián)程度較高,為了規(guī)避由此帶來的驗(yàn)證傾向,輸入用戶興趣源使用與社交網(wǎng)絡(luò)無關(guān)的圖書領(lǐng)域,熱興趣詞中只選取了使用頻次大于8次的前5%作為熱興趣詞庫,熱興趣詞數(shù)量為1.85萬。實(shí)驗(yàn)結(jié)果如表2所示。

        對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,如圖4所示,外部語義知識(shí)庫的D1域和D2域?qū)斎肱d趣的覆蓋比例均超過了60%,但查準(zhǔn)率較低。經(jīng)分析發(fā)現(xiàn),語義知識(shí)庫中單個(gè)上位詞或百科標(biāo)簽關(guān)聯(lián)的實(shí)體詞數(shù)量極不均衡,數(shù)量范圍從1個(gè)到28萬個(gè),這也是相關(guān)知識(shí)權(quán)威度較高而效果不佳的癥結(jié)所在。D3域自標(biāo)簽共現(xiàn)知識(shí)在數(shù)據(jù)規(guī)模較大情況下,興趣詞庫數(shù)量適中且高頻詞較為集中,覆蓋率略高于語義知識(shí)庫,其輸出結(jié)果的查準(zhǔn)率提升較為明顯。D4域的衍生關(guān)聯(lián)知識(shí),將多源知識(shí)進(jìn)行了疊加,并通過零興趣節(jié)點(diǎn)為匹配失敗節(jié)點(diǎn)輸出了高頻熱興趣詞,所以覆蓋率和查準(zhǔn)率均有大幅提升,具有較高的興趣擴(kuò)展性能。

        圖4?用戶興趣擴(kuò)展實(shí)驗(yàn)結(jié)果

        5?結(jié)?論

        本文針對(duì)大數(shù)據(jù)環(huán)境下用戶興趣知識(shí)的特點(diǎn),建立了基于知識(shí)圖譜的用戶興趣擴(kuò)展模型,通過挖掘用戶興趣之間的關(guān)系擴(kuò)展用戶的關(guān)聯(lián)興趣。相對(duì)于關(guān)注用戶與項(xiàng)目、用戶與興趣關(guān)聯(lián)的興趣挖掘模型,該模型有機(jī)地融合了大數(shù)據(jù)環(huán)境下的各種興趣知識(shí),為跨領(lǐng)域、跨平臺(tái)的推薦建立了興趣關(guān)聯(lián)知識(shí)庫。興趣知識(shí)圖譜通過引入開放的語義知識(shí)庫,增強(qiáng)了興趣標(biāo)簽之間的語義關(guān)聯(lián),彌補(bǔ)了傳統(tǒng)興趣標(biāo)簽的劣勢(shì)。社交網(wǎng)絡(luò)中的真實(shí)用戶興趣行為能夠提取出較為精準(zhǔn)的熱興趣詞集,把用戶相關(guān)的群體興趣知識(shí)關(guān)聯(lián)轉(zhuǎn)化為個(gè)體興趣,結(jié)合語義知識(shí)為用戶提供了更加全面和準(zhǔn)確的興趣擴(kuò)展。研究的不足之處在于,由于數(shù)據(jù)規(guī)模相對(duì)較大,受平臺(tái)架構(gòu)、計(jì)算節(jié)點(diǎn)數(shù)量和系統(tǒng)開銷等因素影響,使用圖數(shù)據(jù)庫平臺(tái)進(jìn)行的復(fù)雜關(guān)系分析和衍生關(guān)聯(lián)的計(jì)算效率不高,在圖挖掘、興趣推理及大數(shù)據(jù)分析方面的研究尚不夠深入,需要繼續(xù)完善和優(yōu)化。此外,用戶興趣在小世界與大世界、全面性與精準(zhǔn)性、多樣性與新穎性等方面的指標(biāo)尚需要進(jìn)一步評(píng)估和權(quán)衡。

        參考文獻(xiàn)

        [1]孟祥武,紀(jì)威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(2):1-15.

        [2]余傳明,蔡林,胡莎莎,等.基于深度學(xué)習(xí)的查詢擴(kuò)展研究[J].情報(bào)學(xué)報(bào),2019,38(10):1066-1077.

        [3]王鑫,陸靜雅,王英.面向推薦的用戶興趣擴(kuò)展方法[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2017,47(2):71-79,93.

        [4]Liu?Q,Chen?E,Xiong?H,et?al.Enhancing?Collaborative?Filtering?By?User?Interest?Expansion?Via?Personalized?Ranking[J].IEEE?Transactions?on?Systems?Man?&?Cybernetics?Part?B?Cybernetics?A?Publication?of?the?IEEE?Systems?Man?&?Cybernetics?Society,2012,42(1):218-233.

        [5]Bedi?P,Richa.User?Interest?Expansion?Using?Spreading?Activation?for?Generating?Recommendations[C]//International?Conference?on?Advances?in?Computing,Communications?and?Informatics.IEEE,2015:766-771.

        [6]Mezghani?M,Péninou?A,Zayani?C?A,et?al.Producing?Relevant?Interests?from?Social?Networks?By?Mining?Users?Tagging?Behaviour:A?First?Step?Towards?Adapting?Social?Information[J].Data?&?Knowledge?Engineering,2017,108:15-29.

        [7]Zhang?Z,Zheng?X,Zeng?D?D.A?Framework?for?Diversifying?Recommendation?Lists?By?User?Interest?Expansion[J].Knowledge-based?Systems,2016,105:83-95.

        [8]徐建民,劉明艷,王苗.基于用戶擴(kuò)展興趣的微博推薦方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(6):1652-1655.

        [9]沈志宏,姚暢,侯艷飛,等.關(guān)聯(lián)大數(shù)據(jù)管理技術(shù):挑戰(zhàn)、對(duì)策與實(shí)踐[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(1):9-20.

        [10]孫雨生,祝博,朱禮軍.國內(nèi)基于知識(shí)圖譜的信息推薦研究進(jìn)展[J].情報(bào)理論與實(shí)踐,2019,42(12):163-169,149.

        [11]陳濤,劉煒,單蓉蓉,等.知識(shí)圖譜在數(shù)字人文中的應(yīng)用研究[J].中國圖書館學(xué)報(bào),2019,45(6):34-49.

        [12]Guo?Q,Zhuang?F,Qin?C,et?al.A?Survey?on?Knowledge?Graph-Based?Recommender?Systems[J].Scientia?Sinica?Informationis,2020,50(7):937.

        [13]Noia?T?D,Ostuni?V?C,Tomeo?P,et?al.SPrank:Semantic?Path-Based?Ranking?for?Top-N?Recommendations?Using?Linked?Open?Data[J].ACM?Transactions?on?Intelligent?Systems?and?Technology,2016,8(1):9.

        [14]Gupta?M,Kumar?P.Recommendation?Generation?Using?Personalized?Weight?of?Meta-paths?in?Heterogeneous?Information?Networks[J].European?Journal?of?Operational?Research,2020,284(2):660-674.

        [15]李興華,陳冬林,楊愛民,等.基于用戶興趣-標(biāo)簽的混合推薦方法研究[J].情報(bào)學(xué)報(bào),2015,34(5):466-470.

        [16]Feng?X,Guo?J,Qin?B,et?al.Effective?Deep?Memory?Networks?for?Distant?Supervised?Relation?Extraction[C]//Twenty-Sixth?International?Joint?Conference?on?Artificial?Intelligence,2017.

        [17]蔣婷,孫建軍.領(lǐng)域?qū)W術(shù)本體概念等級(jí)關(guān)系抽取研究[J].情報(bào)學(xué)報(bào),2017,36(10):1080-1092.

        [18]何振宇,董祥祥,朱慶華.多維度視角下百度百科詞條評(píng)價(jià)指標(biāo)構(gòu)建[J].圖書情報(bào)工作,2019,63(12):114-120.

        [19]王艷茹,馬慧芳,劉海姣,等.基于多標(biāo)簽語義關(guān)聯(lián)關(guān)系的微博用戶興趣建模方法[J].計(jì)算機(jī)工程與科學(xué),2018,40(11):165-171.

        [20]Kim?H?N,Alkhaldi?A,Saddik?A?E,et?al.Collaborative?User?Modeling?with?User-Generated?Tags?for?Social?Recommender?Systems[J].Expert?Systems?with?Applications,2011,38(7):8488-8496.

        [21]孫雨生,張恒,朱禮軍.國內(nèi)興趣圖譜研究進(jìn)展[J].情報(bào)理論與實(shí)踐,2017,40(1):132-138.

        [22]Xu?B,Xu?Y,Liang?J,et?al.CN-DBpedia:A?Never-Ending?Chinese?Knowledge?Extraction?System[C]//International?Conference?on?Industrial,Engineering?and?Other?Applications?of?Applied?Intelligent?Systems,2017.

        [23]張彬,徐建民,吳樹芳.基于多源用戶標(biāo)簽的跨域興趣融合模型研究[J].情報(bào)科學(xué),2020,38(4):147-152,162.

        (責(zé)任編輯:孫國雷)

        猜你喜歡
        知識(shí)圖譜大數(shù)據(jù)用戶
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對(duì)策
        基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
        基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
        從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        亚洲中文字幕无码天然素人在线 | 香蕉免费一区二区三区| 亚洲aⅴ在线无码播放毛片一线天| 亚洲爆乳无码专区| 无码高潮少妇毛多水多水免费| 熟女不卡精品久久av| 白白发在线视频免费观看2| 亚洲女同一区二区| 日本高清www无色夜在线视频| 国产精品丝袜美女在线观看| 大岛优香中文av在线字幕| 日韩一级黄色片一区二区三区| 国产太嫩了在线观看| 国产久热精品无码激情| 天啦噜国产精品亚洲精品| 久久最黄性生活又爽又黄特级片| 国产91色综合久久免费| aa片在线观看视频在线播放| 免费国精产品自偷自偷免费看 | 中文字幕第一页亚洲观看| 亚洲无人区乱码中文字幕| 激情精品一区二区三区| 又爽又黄又无遮挡的视频| 久久国产精品无码一区二区三区| 放荡人妻一区二区三区| 国产精品熟女少妇不卡| 精品久久久久久无码中文野结衣 | 一区二区三区乱码专区| 无码人妻一区二区三区在线| 日韩在线一区二区三区免费视频| 99久久精品国产自在首页| h视频在线观看视频在线| 免费午夜爽爽爽www视频十八禁| 亚洲精品国产av天美传媒| 亚洲AV永久天堂在线观看| 狼人综合干伊人网在线观看| 日韩精品视频久久一区二区| 中文字幕乱偷无码av先锋蜜桃| 白浆出来无码视频在线| 最新国产一区二区三区| 久久日日躁夜夜躁狠狠躁|