孫雨生 朱金宏 李亞奇
摘 要:[目的/意義]從用戶(hù)興趣建模、推薦機(jī)制、信息資源管理3方面闡述國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展。[方法/過(guò)程]文章用內(nèi)容分析法歸納了263篇文獻(xiàn)內(nèi)容,從用戶(hù)興趣建模、推薦機(jī)制、信息資源管理3方面闡述了國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展。[結(jié)果/結(jié)論]基于大數(shù)據(jù)的用戶(hù)興趣建模主要結(jié)合大數(shù)據(jù)技術(shù)改進(jìn)傳統(tǒng)用戶(hù)興趣建模,包括模型表示、模型初始化和模型進(jìn)化;基于大數(shù)據(jù)的推薦機(jī)制主要改進(jìn)、混合傳統(tǒng)推薦機(jī)制并優(yōu)化推薦結(jié)果;基于大數(shù)據(jù)的信息資源管理包括數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)表示、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)更新。
關(guān)鍵詞:大數(shù)據(jù);信息推薦;用戶(hù)興趣建模;信息資源管理;個(gè)性化
Abstract:[Purpose/Significance]In order to reveal research development on core content of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Method/Process]Using the content analysis method,the authors summarized the content of the 263 articles,and expounded the core content research development of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Result/Conclusion]User interest modeling based on big data mainly improved traditional user interest modeling with big data technology.It included model representation,model initialization and model evolution.The recommendation mechanism based on big data mainly reforms,combined the traditional recommendation mechanism and optimized recommendation outcome.The information resources management based on big data included data collection,data mining,data representation,data storage and data update.
Key words:big data;information recommendation;user interest modeling;information resource management;personalization
伴隨移動(dòng)互聯(lián)網(wǎng)[1]、社交網(wǎng)絡(luò)[2]、GPS、智能終端[3-7]、云計(jì)算[8-9]、物聯(lián)網(wǎng)[2,6,10-12]等技術(shù)迅猛發(fā)展,人類(lèi)社會(huì)急劇變革并快速邁入大數(shù)據(jù)時(shí)代(從數(shù)據(jù)荒漠邁向信息海洋:領(lǐng)域行業(yè)性應(yīng)用亟待智能化[1,4,13-15]改造、數(shù)字化創(chuàng)新,用戶(hù)獲取信息來(lái)源、工具及維度日益豐富,導(dǎo)致信息處理量、認(rèn)知負(fù)荷猛增),致使信息過(guò)載[4-5,9,11,16-23]、知識(shí)掩埋[9,12,22](信息不規(guī)范轉(zhuǎn)載、差異化處理(標(biāo)注社會(huì)化[3,12]、標(biāo)準(zhǔn)多樣化[10]分別導(dǎo)致結(jié)果同質(zhì)化、失真)等固有問(wèn)題愈發(fā)嚴(yán)峻,對(duì)此,目前多采用信息推薦機(jī)制實(shí)現(xiàn)由以信息資源管理為核心向以用戶(hù)個(gè)性化服務(wù)為核心轉(zhuǎn)型并最終達(dá)到“信息找人”目的,傳統(tǒng)信息推薦技術(shù)多通過(guò)算法定制、規(guī)則提取等[4,10,21,24-32]提升信息服務(wù)效率及質(zhì)量、提高信息資源處理自動(dòng)化程度及挖掘深度以實(shí)現(xiàn)“千人千面”并緩解用戶(hù)認(rèn)知負(fù)荷但存在間接加劇用戶(hù)圈層化(忽視用戶(hù)潛在需求[4,13,16,33]致使推薦模式趨同、結(jié)果重復(fù)[10,13,25,31,33]、處理“數(shù)據(jù)荒漠”問(wèn)題方法較固定(集中、全局式處理)、難適應(yīng)多源異構(gòu)海量數(shù)據(jù)[1,4,12-13,17,19,27,30-31,33-36]環(huán)境(影響推薦效率[3,33,37]等問(wèn)題,客觀急需構(gòu)建面向大數(shù)據(jù)的新型信息服務(wù)機(jī)制,在這種形勢(shì)下,基于大數(shù)據(jù)的信息推薦應(yīng)運(yùn)而生,其以本體[33]、全局計(jì)算(相似填充[1,4,10,16,20-21,25,35]、模型構(gòu)建[15,26,28,36]、神經(jīng)網(wǎng)絡(luò)[3,21,29,33]、數(shù)據(jù)(局部、典型值[3]、聚類(lèi)[1,3-4,10,19,21,23,29-30,33,36]、分布式[8]、分段[29]挖掘[38]、深度學(xué)習(xí)[1,23]等技術(shù)精準(zhǔn)定位“信息海洋”中用戶(hù)需求[35],基于并行化思想[1,4,16,19,24,36]并結(jié)合用戶(hù)情境[8,13,22]、社會(huì)關(guān)系、動(dòng)態(tài)反饋[7,36]等優(yōu)化[16,18]推薦機(jī)制及結(jié)果以智能推薦,結(jié)合大數(shù)據(jù)處理技術(shù)[8,10,24-25,33,35-37]多渠道全面系統(tǒng)動(dòng)態(tài)采集并分別壓縮、重構(gòu)、整合[27]數(shù)據(jù)(含信息、知識(shí))資源以部分解決傳統(tǒng)信息資源管理中數(shù)據(jù)缺失、來(lái)源限制、信息匱乏[32,39]等問(wèn)題及信息推薦擴(kuò)展性、稀疏性、冷啟動(dòng)等問(wèn)題[1,4-5,10,12,14,16,18-19,21,23,25,28-31,33-36]進(jìn)而實(shí)現(xiàn)大規(guī)模、多樣化、動(dòng)態(tài)化[1,13,16,18,34]、個(gè)性化[8,15,22,26,30,33]智能推薦并促使信息推薦邁入“一人千面”時(shí)代。因此,研究基于大數(shù)據(jù)的信息推薦問(wèn)題有重要意義。
本文以知網(wǎng)、萬(wàn)方的學(xué)位論文庫(kù)、期刊論文庫(kù)及維普的期刊論文庫(kù)為信息源,以“大數(shù)據(jù)”和“推薦”為關(guān)鍵詞組合在題名中檢索相關(guān)文獻(xiàn)(截至2020年3月8日,從知網(wǎng)獲期刊論文166篇、碩博論文55篇,從萬(wàn)方獲期刊論文114篇(新發(fā)現(xiàn)14篇)、碩博論文48篇(新發(fā)現(xiàn)9篇),從維普獲期刊論文176篇(新發(fā)現(xiàn)19篇),合計(jì)263篇);詳讀263篇文獻(xiàn)歸納國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細(xì)標(biāo)注,本著最大限度反映國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展重要文獻(xiàn)、優(yōu)中選優(yōu)(剔除標(biāo)注次數(shù)少、與其他標(biāo)注文獻(xiàn)內(nèi)容重復(fù)文獻(xiàn))原則選出43篇參考文獻(xiàn)(內(nèi)容覆蓋263篇文獻(xiàn));最后從用戶(hù)興趣建模、推薦機(jī)制、信息資源管理3方面闡述國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展。
1 基于大數(shù)據(jù)的用戶(hù)興趣建模
作為基于大數(shù)據(jù)的信息推薦前提和基礎(chǔ),用戶(hù)興趣建模核心是提取、處理特征、行為等屬性數(shù)據(jù)以構(gòu)建、存儲(chǔ)(緩存)、進(jìn)化用戶(hù)興趣模型,精準(zhǔn)表示用戶(hù)興趣[34]。
1.1 建模思路
鄧玉林[36]基于分片聚類(lèi)構(gòu)建用戶(hù)短期興趣模型,基于潛在語(yǔ)義分析特征向量矩陣并聚類(lèi)出興趣集構(gòu)建用戶(hù)長(zhǎng)期興趣模型;屠海龍[23]、嚴(yán)克文[28]基于用戶(hù)相異度(用同項(xiàng)目評(píng)分差絕對(duì)值度量)、項(xiàng)目特征[29]向量構(gòu)建用戶(hù)相異度矩陣以量化用戶(hù)興趣間差異進(jìn)而構(gòu)建用戶(hù)興趣模型;丁繼紅等[9]構(gòu)建用戶(hù)(風(fēng)格、動(dòng)機(jī)、認(rèn)知、目標(biāo)、興趣)、項(xiàng)目(類(lèi)型、格式、交互方式、難易度)、行為軌跡(時(shí)間、地點(diǎn)、載體、天氣、心情)子張量并關(guān)聯(lián)融合(張量連接,張量同維合并、張量異維保留、張量?jī)?nèi)元素相乘(原多張量中元素排列組合成新張量元素)),基于學(xué)習(xí)者、學(xué)習(xí)時(shí)間、學(xué)習(xí)地點(diǎn)、所用設(shè)備、資源五維融合子張量構(gòu)建用戶(hù)興趣模型;此外,段文彬[32]基于傳播貢獻(xiàn)度(用戶(hù)點(diǎn)擊數(shù)與訪(fǎng)問(wèn)量)、用戶(hù)影響力(轉(zhuǎn)發(fā)次數(shù)、他人評(píng)價(jià)、被提及數(shù))、用戶(hù)活躍度(系統(tǒng)自動(dòng)評(píng)論數(shù),用戶(hù)對(duì)數(shù)據(jù)資源評(píng)論數(shù),用戶(hù)回復(fù)他人評(píng)論數(shù)和用戶(hù)周訪(fǎng)問(wèn)數(shù))構(gòu)建用戶(hù)興趣模型并基于粗糙集識(shí)別潛在用戶(hù)、離散化潛在用戶(hù)數(shù)據(jù)(分割屬性種類(lèi))、約簡(jiǎn)潛在用戶(hù)關(guān)鍵屬性、基于置信度提取規(guī)則構(gòu)建潛在用戶(hù)興趣模型。
1.2 模型表示
基于大數(shù)據(jù)的用戶(hù)興趣模型表示主要研究表示原則和方法,遵循表示基本原則、結(jié)合多種方法規(guī)則化、層次化、多元化表示用戶(hù)興趣:前者包括模型、方法、數(shù)據(jù)分別管理,模型低耦合高內(nèi)聚,用戶(hù)、項(xiàng)目、規(guī)則易匹配,模型易遷移復(fù)用;后者多用矩陣法,丁繼紅等[9]提出基于張量法,王俞翔[10]提出基于用戶(hù)-項(xiàng)目評(píng)價(jià)矩陣法,鄧玉林[36]提出基于特征向量矩陣法,謝瑤瑤[25]、嚴(yán)克文[28]提出基于相異度用戶(hù)矩陣表示法,胡蓉[21]提出基于向量空間模型法、基于顆粒度法、基于神經(jīng)網(wǎng)絡(luò)法,鄒小波[1]提出基于張量分解法、基于網(wǎng)絡(luò)模型法、基于主題模型法,李翠平等[5]提出基于語(yǔ)義網(wǎng)絡(luò)法,董小妹[33]提出基于本體法,屠海龍[23]提出基于譜聚類(lèi)法(用子圖表示用戶(hù)聚類(lèi)結(jié)果,用節(jié)點(diǎn)表示用戶(hù)群的共同興趣項(xiàng),用節(jié)點(diǎn)間邊權(quán)值表示用戶(hù)群興趣相似性)。
1.3 模型初始化
區(qū)別于傳統(tǒng)用戶(hù)興趣模型多基于用戶(hù)顯性信息初始化并結(jié)合隱性信息優(yōu)化,基于大數(shù)據(jù)的用戶(hù)興趣模型多用大數(shù)據(jù)技術(shù)全面系統(tǒng)采集、處理用戶(hù)屬性、興趣、行為、情境、項(xiàng)目等信息初始化并結(jié)合基于大數(shù)據(jù)技術(shù)的用戶(hù)隱性興趣預(yù)測(cè)進(jìn)行優(yōu)化。
1.3.1 數(shù)據(jù)采集
此處僅闡述用戶(hù)信息采集,其他見(jiàn)3.1節(jié)。
1)采集來(lái)源
鑒于大數(shù)據(jù)環(huán)境下用戶(hù)興趣建模動(dòng)態(tài)性、精確性需求及用戶(hù)興趣數(shù)據(jù)來(lái)源廣泛,用戶(hù)興趣大數(shù)據(jù)采集需基于平臺(tái)計(jì)算能力限度、用戶(hù)容忍度(結(jié)合QoS評(píng)價(jià)確定)構(gòu)建用戶(hù)興趣大數(shù)據(jù)集群以動(dòng)態(tài)、全面、準(zhǔn)確采集(遷移)用戶(hù)顯隱性數(shù)據(jù),包括社交媒體[18,27]、用戶(hù)數(shù)據(jù)庫(kù)、智能終端[3,13,16,24,28,30,33-34,40-41]、傳感器[13]、物聯(lián)網(wǎng)[32],此外,段文彬[32]以用戶(hù)征信平臺(tái)為數(shù)據(jù)源。
2)采集類(lèi)型
針對(duì)用戶(hù)興趣,李翠平等[5]按穩(wěn)定性分長(zhǎng)期(反映真實(shí)興趣)、短期(反映興趣變化,多與熱點(diǎn)相關(guān))興趣;段文彬[32]按存在形式分顯性(包括用戶(hù)主動(dòng)定制[5](回答問(wèn)題)、歸一化評(píng)分[35](兩級(jí)、多級(jí)評(píng)分)、傳統(tǒng)用戶(hù)信息(紙質(zhì)文獻(xiàn)型、縮微聲像型)、數(shù)字用戶(hù)信息(單機(jī)、聯(lián)機(jī)型)[32],直觀易獲取[16]但耗時(shí)且主觀性強(qiáng))、隱性[18](被動(dòng)記錄、自動(dòng)生成,真實(shí)性強(qiáng)但缺少交互)興趣,按保密性分公開(kāi)、半公開(kāi)、非公開(kāi)型,按存儲(chǔ)介質(zhì)分傳統(tǒng)型(紙質(zhì))、磁介質(zhì)型(軟盤(pán)、光盤(pán)、硬盤(pán))、網(wǎng)絡(luò)型(網(wǎng)絡(luò)平臺(tái)、云存儲(chǔ))、無(wú)介質(zhì)型(交流獲取未記錄載體信息),按用途分業(yè)務(wù)型、管理型、戰(zhàn)略型[32]。
3)采集內(nèi)容
主要采集用戶(hù)基本信息[6,22,33](涉及ID、姓名、性別、出生年月、民族、地域[13]、婚姻、學(xué)歷、專(zhuān)業(yè)、單位、職業(yè)[22,33]、語(yǔ)言、宗教、社會(huì)關(guān)系、住址、社團(tuán)、收入、聯(lián)系方式[8]、權(quán)限[41]、興趣信息(性格、特長(zhǎng)、標(biāo)簽[2,7,19,24,28-29]、行為信息[18,22-23,28](注冊(cè)(年齡、注冊(cè)時(shí)間)、登錄(ID、地點(diǎn)、時(shí)間、操作系統(tǒng)、登錄設(shè)備)、請(qǐng)求[21](輸入、檢索(主題詞、時(shí)間、地點(diǎn)、關(guān)聯(lián)度)、咨詢(xún))、瀏覽[39](閱讀(內(nèi)容與模式)[13]、觀看[23],涉及對(duì)象[6](類(lèi)型[36]、名稱(chēng)、路徑、訪(fǎng)問(wèn)頻次[18,33,36]、點(diǎn)擊[39](是否點(diǎn)擊、點(diǎn)擊時(shí)間地點(diǎn)、滯留時(shí)長(zhǎng)、點(diǎn)擊順序)[36]、推薦確認(rèn)(推薦項(xiàng)目ID、用戶(hù)反饋、時(shí)間、地點(diǎn))、收藏、下載、購(gòu)買(mǎi)[32-33,36,39]、評(píng)價(jià)(評(píng)分[5,41]、評(píng)論,涉及對(duì)象ID、時(shí)間[41]、地點(diǎn)、內(nèi)容[36]、分享、社交[13]、線(xiàn)下移動(dòng)路徑[13]、情境信息[8,22](領(lǐng)域、知識(shí)層次[8]、語(yǔ)境、場(chǎng)景(心理情緒[13][13,22]、時(shí)空[13,21]、所接觸項(xiàng)目信息[21-22](項(xiàng)目描述[21]、項(xiàng)目?jī)?nèi)容(音頻、視頻、書(shū)目、專(zhuān)利、文獻(xiàn)[22]、所屬主題[5,18]、項(xiàng)目操作(轉(zhuǎn)載、排序、熱點(diǎn)及趨勢(shì)分析[5,18]、社交網(wǎng)絡(luò)構(gòu)建)、終端參數(shù)[13,22](品牌、機(jī)型、操作系統(tǒng)、芯片型號(hào)、內(nèi)存容量))。
4)采集方式
基于大數(shù)據(jù)的用戶(hù)興趣采集強(qiáng)調(diào)時(shí)效性、全面性,方式分在線(xiàn)采集(初始化用戶(hù)興趣模型)、離線(xiàn)采集及混合采集(進(jìn)化用戶(hù)興趣模型)且多在線(xiàn)采集:尤海浪等[17]、劉海鷗等[22]基于Flume實(shí)時(shí)采集用戶(hù)日志;陳玉兆[16]基于多終端采集用戶(hù)數(shù)據(jù)并離線(xiàn)存儲(chǔ);楊國(guó)龍[29]基于企業(yè)大數(shù)據(jù)平臺(tái)采集用戶(hù)數(shù)據(jù);鄧玉林[36]基于Hadoop采集用戶(hù)興趣數(shù)據(jù),調(diào)用用戶(hù)數(shù)據(jù)庫(kù)接口采集用戶(hù)注冊(cè)信息,通過(guò)系統(tǒng)日志提取、Cookie(分析用戶(hù)日志)采集用戶(hù)登錄、檢索行為并分析其網(wǎng)站瀏覽信息及習(xí)慣,通過(guò)推薦系統(tǒng)數(shù)據(jù)庫(kù)采集用戶(hù)推薦確認(rèn)、評(píng)分信息,通過(guò)瀏覽器(涉及Cookie、JS)歷史記錄(用戶(hù)、電商商戶(hù))采集用戶(hù)購(gòu)買(mǎi)信息;韓莉[38]基于Web采集非結(jié)構(gòu)化數(shù)據(jù)填充用戶(hù)數(shù)據(jù);李佳[40]基于MySQL、Oracle、HBase等數(shù)據(jù)庫(kù)采集用戶(hù)數(shù)據(jù)。此外,孟祥武等[18]提出重點(diǎn)研究大數(shù)據(jù)環(huán)境下用戶(hù)隱性數(shù)據(jù)采集方式。
1.3.2 數(shù)據(jù)處理
1)數(shù)據(jù)預(yù)處理
多結(jié)合在線(xiàn)計(jì)算(用神經(jīng)網(wǎng)絡(luò)[3]、云計(jì)算虛擬化技術(shù)[24]處理結(jié)構(gòu)化數(shù)據(jù)(文本[33]、標(biāo)簽[2,7,19,24,28-29]、用戶(hù)基本信息[6])、離線(xiàn)處理(標(biāo)準(zhǔn)化、結(jié)構(gòu)化(集成NLP、概率統(tǒng)計(jì)、AI與機(jī)器學(xué)習(xí)方法[29]半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))實(shí)現(xiàn)數(shù)據(jù)清洗、歸一化[33]、規(guī)范化、合并/拆分(均衡大數(shù)據(jù)分析粒度)[29]、集成存儲(chǔ):婁建樓[12]基于TF-IDF、分布式計(jì)算預(yù)處理行為文本、項(xiàng)目信息[29]得出用戶(hù)興趣標(biāo)簽;胡蓉[21]通過(guò)更新停用詞、擴(kuò)展縮寫(xiě)詞、提取詞干預(yù)處理用戶(hù)日志;段文彬[32]基于列表刪除、成對(duì)刪除法剔除完全隨機(jī)缺失數(shù)據(jù),基于加權(quán)法、單值插法、極大似然估計(jì)、最大期望算法預(yù)測(cè)填充隨機(jī)缺失數(shù)據(jù)以預(yù)處理用戶(hù)興趣;鄧玉林[36]基于TF-IDF法、單一數(shù)據(jù)標(biāo)準(zhǔn)化法、混合數(shù)據(jù)標(biāo)準(zhǔn)化法預(yù)處理用戶(hù)興趣。此外,段文彬[32]構(gòu)建HDFS物理存儲(chǔ)層、虛擬資源池層(虛擬化并動(dòng)態(tài)替換數(shù)據(jù)節(jié)點(diǎn))、數(shù)據(jù)轉(zhuǎn)化層(通過(guò)縮放特征、構(gòu)造特征、逆規(guī)范化重構(gòu)數(shù)據(jù)并統(tǒng)一格式)、資源組合層(構(gòu)建用戶(hù)興趣數(shù)據(jù)集)預(yù)處理用戶(hù)、項(xiàng)目數(shù)據(jù)。
2)興趣度量化及優(yōu)化
基于大數(shù)據(jù)的用戶(hù)興趣度量化涉及用戶(hù)興趣特征量化(結(jié)合大數(shù)據(jù)分析統(tǒng)計(jì)頻率、設(shè)定權(quán)值)、基于用戶(hù)區(qū)分度的興趣特征權(quán)值調(diào)整以精確表示用戶(hù)興趣項(xiàng)及興趣度:胡蓉[21]提出基于文檔頻率法(按文檔頻率閾值選擇特征詞)、信息增益法(基于評(píng)估特征詞出現(xiàn)前后信息量差異的熵值選擇特征詞)、互信息法(基于在特定類(lèi)別中出現(xiàn)頻率選擇特征詞)、x2統(tǒng)計(jì)量法(檢驗(yàn)列聯(lián)表按與文檔類(lèi)別關(guān)聯(lián)度選擇特征詞)、文本證據(jù)權(quán)法(計(jì)算類(lèi)別出現(xiàn)頻率與特征詞出現(xiàn)時(shí)類(lèi)別出現(xiàn)條件概率之差以按與類(lèi)別相關(guān)度選擇特征詞)、TF-IDF法量化特征權(quán)值并選擇特征詞集構(gòu)建用戶(hù)興趣模型。
1.4 模型進(jìn)化
集中于基于大數(shù)據(jù)更新動(dòng)態(tài)學(xué)習(xí)、更新用戶(hù)興趣模型:針對(duì)前者,王俞翔[10]歸一化評(píng)分以計(jì)算均值,重設(shè)評(píng)分區(qū)間(端值分別為所有最小值、最大值均值,降低稀疏性),計(jì)算新用戶(hù)-項(xiàng)目評(píng)分矩陣并構(gòu)建評(píng)分預(yù)測(cè)算法促進(jìn)用戶(hù)興趣學(xué)習(xí)。針對(duì)后者,胡蓉[21]混合時(shí)間窗口法、遺忘函數(shù)法以引入時(shí)間因素、兼顧長(zhǎng)短期興趣進(jìn)行模型更新;嚴(yán)克文[28]基于用戶(hù)選擇、評(píng)價(jià)進(jìn)行模型增量更新;胡一[34]分別基于用戶(hù)反饋(評(píng)價(jià)、評(píng)分)、Web日志挖掘(針對(duì)用戶(hù)行為)進(jìn)行模型直接、間接更新。此外,鄒小波[1]基于數(shù)據(jù)倉(cāng)庫(kù)離線(xiàn)數(shù)據(jù)計(jì)算用戶(hù)評(píng)分矩陣偏置量、相似度(方便系數(shù)參數(shù)調(diào)優(yōu)),訓(xùn)練迭代次數(shù)、正則化系數(shù)、數(shù)據(jù)集類(lèi)型參數(shù)并融入偏置量、相似度進(jìn)行模型進(jìn)化。
2 基于大數(shù)據(jù)的信息推薦機(jī)制
信息推薦機(jī)制是推薦系統(tǒng)核心,直接決定推薦性能,基于大數(shù)據(jù)的信息推薦機(jī)制針對(duì)大數(shù)據(jù)環(huán)境下信息推薦面臨問(wèn)題,對(duì)傳統(tǒng)推薦機(jī)制進(jìn)行并行化改進(jìn)(提升推薦規(guī)模、動(dòng)態(tài)性,解決冷啟動(dòng)問(wèn)題)、組合(提升推薦針對(duì)性、多樣性)、推薦結(jié)果優(yōu)化。
2.1 基于大數(shù)據(jù)的推薦機(jī)制并行化改進(jìn)
2.1.1 基于內(nèi)容推薦
基于內(nèi)容推薦分析提取項(xiàng)目特征并向量化[4],匹配用戶(hù)興趣模型并推薦(?;谟脩?hù)興趣主題向量、Web日志特征向量加權(quán)、計(jì)算后推薦[33],大數(shù)據(jù)環(huán)境下基于內(nèi)容推薦機(jī)制改進(jìn)集中于內(nèi)容提取算法優(yōu)化以提升提取規(guī)范性(精度、效率)并降低提取規(guī)模:嚴(yán)克文[28]通過(guò)提前遴選項(xiàng)目特征[42]并形成用戶(hù)需求配置文件,依托信息檢索、過(guò)濾[25]獲取并推薦項(xiàng)目[28]以改進(jìn)內(nèi)容提取過(guò)程;謝瑤瑤[25]基于關(guān)鍵詞賦權(quán)(TF-IDF[4,25,36,40]、概率模型[25,29]、特征分析[4,35]、NLP、模糊聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)、AI[29]、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)[25,29]等改進(jìn)內(nèi)容提取技術(shù);葉志強(qiáng)[41]提出結(jié)合用戶(hù)興趣、評(píng)分均值賦權(quán)用戶(hù)興趣項(xiàng),計(jì)算詞頻差異特征并向量化文檔以提升內(nèi)容提取精度;董小妹[33]提出基于反饋信息的自適應(yīng)學(xué)習(xí)算法改進(jìn)內(nèi)容提取效率。
2.1.2 協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾推薦定義與內(nèi)涵見(jiàn)文獻(xiàn)[26],推薦思路契合大數(shù)據(jù)處理特點(diǎn),基于大數(shù)據(jù)的協(xié)同過(guò)濾推薦機(jī)制依托大數(shù)據(jù)聚類(lèi)、壓縮緩解傳統(tǒng)協(xié)同推薦的數(shù)據(jù)稀疏、海量異構(gòu)問(wèn)題,通過(guò)用戶(hù)及項(xiàng)目特征預(yù)測(cè)、補(bǔ)全及提取規(guī)范化提升相似度計(jì)算精度、推薦效率。
1)基于內(nèi)存協(xié)同過(guò)濾推薦
大數(shù)據(jù)環(huán)境下基于內(nèi)存協(xié)同過(guò)濾推薦基于評(píng)分矩陣發(fā)現(xiàn)與目標(biāo)用戶(hù)(項(xiàng)目)相似用戶(hù)(項(xiàng)目)并結(jié)合其對(duì)候選項(xiàng)目評(píng)分推薦[4,40],多針對(duì)大數(shù)據(jù)特點(diǎn)通過(guò)算法改進(jìn)提高推薦質(zhì)量,流程為評(píng)分采集、相似度計(jì)算、近鄰發(fā)現(xiàn)、評(píng)分選擇、項(xiàng)目推薦[4,19,25,30,40,43](TOP-N推薦[4,11,40],按對(duì)象分基于用戶(hù)協(xié)同推薦和基于項(xiàng)目協(xié)同推薦。
針對(duì)大數(shù)據(jù)環(huán)境下基于用戶(hù)協(xié)同推薦中相似度計(jì)算問(wèn)題,鄒小波[1]結(jié)合RecTree(推薦樹(shù))并行化構(gòu)建葉子節(jié)點(diǎn)以聚類(lèi)用戶(hù)向量進(jìn)而改進(jìn)用戶(hù)相似度算法;曹萍[4]基于Spearman秩相關(guān)、條件概率法量化相似度;沈杰[30]基于AC(余弦調(diào)整)、MSD(均方差)、SRC(Spearman秩相關(guān))法量化相似度;鄧玉林[36]基于歐幾里德距離量化相似度;李佳[40]基于Jaccrad相似度、余弦相似(空間向量相似度[4,10,16,19,28-29,33,36,40]、Pearson相似度[4,10,16,19,28,30,33,36,40]、修正余弦相似度[4,10,19,28,40](剔除用戶(hù)平均評(píng)分[4,10,28,40]以降低計(jì)算量、提升計(jì)算精度)量化相似度。此外,謝瑤瑤[25]正交化處理近鄰數(shù)據(jù)以標(biāo)準(zhǔn)化并加權(quán)近鄰評(píng)分進(jìn)而預(yù)測(cè)用戶(hù)評(píng)分。
針對(duì)大數(shù)據(jù)環(huán)境下基于項(xiàng)目協(xié)同推薦中相似度計(jì)算問(wèn)題,曲朝陽(yáng)等[15]基于用戶(hù)興趣形成初步推薦結(jié)果,基于Apriori算法挖掘項(xiàng)目關(guān)聯(lián)規(guī)則以基于項(xiàng)目協(xié)同推薦并調(diào)整結(jié)果序列;張健[42]結(jié)合項(xiàng)目特征、評(píng)分?jǐn)?shù)據(jù)處理改進(jìn)項(xiàng)目建模,基于項(xiàng)目間相似度確定近鄰,進(jìn)而結(jié)合用戶(hù)興趣模型、Pearson算法推薦[4,10,19,29,33,35,40]。
2)基于模型協(xié)同過(guò)濾推薦
主要研究大數(shù)據(jù)環(huán)境下基于模型協(xié)同推薦用戶(hù)-項(xiàng)目模型構(gòu)建及模型相似度計(jì)算問(wèn)題[19],鄒小波[1]提出整合臨近算法、協(xié)同過(guò)濾算法的KNN-ALS算法,基于回歸法填充評(píng)分矩陣缺失值以改進(jìn)用戶(hù)-項(xiàng)目模型構(gòu)建,進(jìn)而結(jié)合矩陣分解(結(jié)合交替最小二乘法、考慮用戶(hù)或項(xiàng)目相似度)改進(jìn)模型相似度計(jì)算;曹萍[4]提出基于原始評(píng)分矩陣初步生成用戶(hù)平均評(píng)分并挖掘用戶(hù)及其項(xiàng)目行為后優(yōu)化以構(gòu)建用戶(hù)-項(xiàng)目模型,基于評(píng)分均值(剔除異常評(píng)分)相似度、依托概率計(jì)算/設(shè)定的閾值(壓縮計(jì)算范圍)優(yōu)化用戶(hù)-項(xiàng)目模型相似度并行化計(jì)算;陳玉[14]提出構(gòu)建用戶(hù)-項(xiàng)目評(píng)分矩陣并基于改進(jìn)FCM算法聚類(lèi)成簇進(jìn)而基于簇中矩陣相似度協(xié)同推薦;屠海龍[23]融合項(xiàng)目-類(lèi)別矩陣、用戶(hù)-項(xiàng)目評(píng)分矩陣構(gòu)建用戶(hù)-項(xiàng)目偏好矩陣[19],基于CSPA(節(jié)點(diǎn)間相似度)思路集成圖聚類(lèi)算法、BC-Slope One(混合聚類(lèi)、評(píng)分排序)算法生成矩陣相似性譜聚類(lèi)進(jìn)而并行化推薦;丁繼紅等[9]基于用戶(hù)-項(xiàng)目-行為軌跡融合張量構(gòu)建全局用戶(hù)-項(xiàng)目張量,抽取學(xué)號(hào)、時(shí)間、地點(diǎn)、設(shè)備、項(xiàng)目號(hào)五維特征融合成子張量,進(jìn)而關(guān)聯(lián)兩者分析(高階奇異值分解后融合子張量并選擇)出核心張量、因子矩陣并連續(xù)模乘以通過(guò)相似填充進(jìn)行重構(gòu),進(jìn)而得出近似張量進(jìn)行推薦。此外,董小妹[33]構(gòu)建領(lǐng)域本體庫(kù)描述用戶(hù)、項(xiàng)目,基于層次、屬性信息分別計(jì)算用戶(hù)本體、項(xiàng)目本體相似度進(jìn)而分別構(gòu)建用戶(hù)、項(xiàng)目本體樹(shù)以輔助并行化協(xié)同過(guò)濾推薦;李佳[40]提出混合時(shí)間因子(降低舊興趣權(quán)值)、共同評(píng)分項(xiàng)目數(shù)優(yōu)化用戶(hù)相似度,基于K-Means聚類(lèi)相似用戶(hù),基于偏差矩陣分解預(yù)測(cè)近鄰用戶(hù)項(xiàng)目評(píng)分并計(jì)算其真實(shí)、預(yù)測(cè)值均差,優(yōu)化用戶(hù)對(duì)項(xiàng)目評(píng)分預(yù)測(cè)進(jìn)而推薦;胡蓉[21]按評(píng)分相似度閾值聚類(lèi)用戶(hù)-項(xiàng)目評(píng)分并計(jì)算相似用戶(hù)平均評(píng)分,加權(quán)后預(yù)測(cè)目標(biāo)用戶(hù)評(píng)分,提升協(xié)同推薦速度、精度。
2.1.3 情境化推薦
基于大數(shù)據(jù)的情境化推薦整合、挖掘線(xiàn)上線(xiàn)下情境數(shù)據(jù)以補(bǔ)全數(shù)據(jù)、提升情境化推薦精準(zhǔn)性、動(dòng)態(tài)性,實(shí)現(xiàn)情境推薦模態(tài)化、應(yīng)用生態(tài)化,主要研究推薦情境分類(lèi)、推薦機(jī)制改進(jìn):前者按獲取途徑分線(xiàn)上用戶(hù)行為情境感知(基于用戶(hù)檢索、時(shí)空行為分析大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境,支持按行為特點(diǎn)推薦)、線(xiàn)下物理情境感知(依托實(shí)名制及云計(jì)算、數(shù)據(jù)挖掘技術(shù),基于物聯(lián)網(wǎng)、傳感器感知),按應(yīng)用場(chǎng)景分情境預(yù)測(cè)(基于用戶(hù)信息、興趣及檢索記錄)、情境主體互換(通過(guò)用戶(hù)間情境信息交互豐富當(dāng)前情境以滿(mǎn)足所有用戶(hù)情境化推薦需求)、情境進(jìn)化(融合用戶(hù)行為歷史、知識(shí)需求動(dòng)態(tài)構(gòu)建大數(shù)據(jù)情境)[8]。針對(duì)后者,鄒小波[1]融合上下文情境、時(shí)間衰減因子進(jìn)行基于時(shí)間上下文情境推薦;周蘇亭[8]基于云計(jì)算、大數(shù)據(jù)技術(shù)挖掘用戶(hù)檢索記錄、興趣并結(jié)合用戶(hù)情境進(jìn)行個(gè)性化推薦、基于反饋優(yōu)化相似度計(jì)算以提升推薦效果;馬曉亭[13]構(gòu)建用戶(hù)情境數(shù)據(jù)庫(kù),基于推薦質(zhì)量反饋、移動(dòng)設(shè)備實(shí)時(shí)情境感知預(yù)測(cè)用戶(hù)需求變化進(jìn)而推薦;此外,胡蓉[21]提出上下文情境感知推薦范式分上下文預(yù)過(guò)濾(推薦前按上下文預(yù)過(guò)濾推薦相關(guān)數(shù)據(jù)集)、上下文后過(guò)濾(推薦后基于上下文過(guò)濾/排序推薦結(jié)果)、上下文建模(結(jié)合推薦情境進(jìn)行用戶(hù)興趣、資源建模及推薦機(jī)制設(shè)計(jì))。
2.1.4 社會(huì)化推薦
基于大數(shù)據(jù)的社會(huì)化推薦基于社交網(wǎng)絡(luò)、社交媒體挖掘用戶(hù)社群、信任網(wǎng)絡(luò)補(bǔ)全用戶(hù)數(shù)據(jù)以提升數(shù)據(jù)稠密度,尋找相似(信任)用戶(hù)集,挖掘潛在(新異)關(guān)系進(jìn)行推薦:吳淑凡[2]基于Mark-ov鏈圖隨機(jī)游走算法構(gòu)建隨機(jī)游走模型C-LRWR(基于網(wǎng)絡(luò)結(jié)構(gòu)推薦算法預(yù)測(cè)鏈路):先通過(guò)標(biāo)簽傳播算法提取(用戶(hù))節(jié)點(diǎn)特征以標(biāo)簽化用戶(hù)并劃分社區(qū)、計(jì)算社區(qū)用戶(hù)相似度,為用戶(hù)推薦好友集及其感興趣社區(qū);劉海鷗[11]提出移動(dòng)SNS信任模型以從信任網(wǎng)絡(luò)聚集、共引維度挖掘移動(dòng)SNS潛在社會(huì)信任關(guān)系,并行化推薦相似用戶(hù)集;沈杰[30]提出按項(xiàng)目類(lèi)別分類(lèi)用戶(hù),基于標(biāo)簽傳播算法挖掘候選信任用戶(hù)集,用皮爾遜算法計(jì)算目標(biāo)用戶(hù)與信任用戶(hù)評(píng)分相似度并用Logistic函數(shù)映射成信任值進(jìn)而確定信任用戶(hù)集,計(jì)算信任用戶(hù)項(xiàng)目類(lèi)評(píng)論占全項(xiàng)目類(lèi)總評(píng)論比例以確定并并行化推薦高信任度項(xiàng)目類(lèi);金偉晟[19]提出可信社團(tuán)發(fā)現(xiàn)方法分基于圈定法(涉及基于譜平分法、W-H法(電阻網(wǎng)絡(luò)電壓譜))、基于距離法(涉及Kernighan-Lin法、可信標(biāo)簽傳播法)、基于聚類(lèi)法(涉及分裂層次聚類(lèi)法、凝聚聚類(lèi)法、分裂聚類(lèi)法)3類(lèi),常用于劃分評(píng)估用戶(hù)信任網(wǎng)絡(luò)、計(jì)算網(wǎng)絡(luò)內(nèi)用戶(hù)間相似度以協(xié)同推薦。此外,婁建樓等[12]提出基于用戶(hù)RT-G貪婪算法實(shí)時(shí)推薦網(wǎng)站:基于信任網(wǎng)絡(luò)發(fā)現(xiàn)合適數(shù)量用戶(hù)并基于其評(píng)價(jià)網(wǎng)站標(biāo)準(zhǔn)發(fā)現(xiàn)目標(biāo)用戶(hù)可能感興趣網(wǎng)站集,融合通過(guò)迭代發(fā)現(xiàn)的最信任用戶(hù)集及其網(wǎng)站訪(fǎng)問(wèn)頻度形成最終網(wǎng)站推薦列表。
2.2 基于大數(shù)據(jù)的推薦機(jī)制組合
基于大數(shù)據(jù)的混合推薦應(yīng)用廣泛性?xún)H次協(xié)同過(guò)濾推薦,其基于結(jié)構(gòu)調(diào)整、流程改造、算法優(yōu)化動(dòng)態(tài)適應(yīng)大數(shù)據(jù)海量、異構(gòu)、稀疏、快速生成特性并提升推薦性能,主要研究算法混合方式并按混合機(jī)制、階段分類(lèi):按混合機(jī)制分特征組合[4]、特征擴(kuò)充(主要算法集成次要算法特征信息[4,40]、分層混合(前算法結(jié)果輸入后算法推薦[4,16]、元級(jí)混合(將前面算法所得模型迭代輸入后序推薦算法進(jìn)行推薦[4,40]以整合各模型優(yōu)勢(shì)[4]、分區(qū)混合(按場(chǎng)景選擇算法[16][4,16,36,40]、切換[24](推薦過(guò)程中動(dòng)態(tài)調(diào)整算法[4,16]、推薦結(jié)果(加權(quán)[4,16,28]混合[4];按混合階段分前融合(直接融合推薦算法再推薦)、中融合(推薦過(guò)程中按預(yù)期效果將一推薦算法融入另一算法框架[28]、后融合(直接融合推薦結(jié)果)[4,16,40]。此外,姚靜天[31]按推薦流程分并行式、串行式、整體式(并行、串行式混合);李翠平等[5]基于Duine框架動(dòng)態(tài)配置大數(shù)據(jù)環(huán)境下內(nèi)容推薦和協(xié)同過(guò)濾推薦(預(yù)測(cè)填充)算法混合參數(shù)。
2.3 基于大數(shù)據(jù)的推薦結(jié)果優(yōu)化
主要是基于QoS(以服務(wù)屬性揭示服務(wù)質(zhì)量及其用戶(hù)滿(mǎn)意度[19,21]最優(yōu)化大數(shù)據(jù)環(huán)境下推薦結(jié)果排序組合(按功能需求組合非功能屬性以提升用戶(hù)滿(mǎn)意度[3,19],?;诘湫椭稻垲?lèi)算法、全局計(jì)算效用均值法實(shí)現(xiàn):江澄[3]基于典型值(分片代表值)法、均值法簡(jiǎn)化QoS數(shù)據(jù)處理:前者用基于CLARA聚類(lèi)法的CBSC推薦服務(wù)組合:聚類(lèi)候選服務(wù)的歷史記錄集(規(guī)模較大時(shí)用CLARA算法,較小時(shí)用PAM算法)并用其聚類(lèi)中心點(diǎn)分別表示,按QoS指標(biāo)生成服務(wù)集及其組合方案效用值進(jìn)而推薦最佳方案;后者用DCAH法推薦服務(wù)組合:依托全局約束分解(按比值分解為局部約束并據(jù)此選擇記錄)、服務(wù)歷史記錄均值(代表整體記錄集)分別計(jì)算候選服務(wù)組合歷史記錄均值及效用值并推薦。
3 基于大數(shù)據(jù)的信息資源管理
鑒于大數(shù)據(jù)6V(容量大、種類(lèi)多、生成快速、可變性高、真實(shí)性強(qiáng)、價(jià)值分散)1C(復(fù)雜度高)特點(diǎn),全面采集、高效挖掘、規(guī)范表示、分布式混合存儲(chǔ)并增量更新海量分布異構(gòu)數(shù)據(jù)成為大數(shù)據(jù)環(huán)境下用戶(hù)、項(xiàng)目、推薦過(guò)程信息資源管理基本需求以支持用戶(hù)興趣建模、推薦機(jī)制改進(jìn)、信息資源配置進(jìn)而優(yōu)化推薦效果。
3.1 數(shù)據(jù)采集
大數(shù)據(jù)環(huán)境下數(shù)據(jù)采集旨在全面采集推薦所需用戶(hù)、項(xiàng)目及推薦過(guò)程類(lèi)信息,此處闡述后兩類(lèi)信息,用戶(hù)信息見(jiàn)1.3.1。
3.1.1 采集來(lái)源
大數(shù)據(jù)環(huán)境下數(shù)據(jù)來(lái)源多樣、較固定并線(xiàn)上線(xiàn)下混合,涉及社交媒體[18,27](Facebook[20]、Twitter、微博、微信[7,13,42]、QQ、BBS、博客[27]等)、(Web、代理)服務(wù)器(基于Cookie采集日志[15,33]、數(shù)據(jù)庫(kù)系統(tǒng)、智能終端[3,13,16,24,28,30,33-34,40-41](手機(jī)、PDA[13,34]、iPad[36]、有線(xiàn)電視、遙控器、機(jī)頂盒[41]、RFID標(biāo)簽)、傳感器[13](視頻監(jiān)控器、服務(wù)器監(jiān)控器、RFID讀取器、NFC設(shè)備、GPS設(shè)備、遙感設(shè)備、閱讀終端監(jiān)控器)。此外,馬曉亭[13]提出共享第三方服務(wù)商數(shù)據(jù)。
3.1.2 采集類(lèi)型
主要分用戶(hù)、項(xiàng)目、推薦過(guò)程3類(lèi),不同于用戶(hù)數(shù)據(jù),大數(shù)據(jù)環(huán)境下項(xiàng)目數(shù)據(jù)采集類(lèi)型較成型且多按傳統(tǒng)項(xiàng)目類(lèi)型采集(少數(shù)新項(xiàng)目先采集再分類(lèi)以提升動(dòng)態(tài)性);大數(shù)據(jù)環(huán)境下推薦過(guò)程數(shù)據(jù)采集分用戶(hù)間、項(xiàng)目間、用戶(hù)與項(xiàng)目間交互3類(lèi)(類(lèi)似1.3.1中采集類(lèi)型),旨在提升基于大數(shù)據(jù)推薦精度。此外,王俞翔[10]提出分用戶(hù)原創(chuàng)(主動(dòng))、系統(tǒng)運(yùn)營(yíng)(自動(dòng))、設(shè)備感知(被動(dòng))3類(lèi);段文彬[32]按數(shù)據(jù)來(lái)源分人工輸入、社交媒體(含網(wǎng)頁(yè))、交易生成、移動(dòng)通信、設(shè)備傳感5類(lèi)。
3.1.3 采集內(nèi)容
涉及用戶(hù)、項(xiàng)目、推薦過(guò)程數(shù)據(jù),后兩者采集完善傳統(tǒng)推薦過(guò)程所需數(shù)據(jù)并側(cè)重基于數(shù)據(jù)集群隱性采集推薦全程數(shù)據(jù)以補(bǔ)全、豐富、深度采集用戶(hù)相關(guān)數(shù)據(jù)。針對(duì)項(xiàng)目數(shù)據(jù),葉志強(qiáng)[41]基于數(shù)字機(jī)頂盒采集媒體資源描述信息(分常規(guī)、自定義兩類(lèi),前者涉及類(lèi)型、名稱(chēng)、國(guó)家地區(qū)、年份、導(dǎo)演、主演等,后者涉及清晰度、上傳時(shí)間、評(píng)價(jià))、使用信息(點(diǎn)播時(shí)間、點(diǎn)播量、單價(jià)),基于遙控器采集媒體資源操作信息(播放、暫停、切換、錄制);馬曉亭[13]采集閱讀終端設(shè)備參數(shù)、閱讀行為歷史數(shù)據(jù)、閱讀社交數(shù)據(jù)。針對(duì)推薦過(guò)程數(shù)據(jù),姚凱等[39]基于變量表采集推薦過(guò)程中用戶(hù)點(diǎn)擊流數(shù)據(jù)(涉及用戶(hù)類(lèi)型、是否點(diǎn)擊、點(diǎn)擊對(duì)象、點(diǎn)擊速度、點(diǎn)擊量)、外部用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)(涉及用戶(hù)名稱(chēng)及類(lèi)型、用戶(hù)影響力、與內(nèi)部用戶(hù)關(guān)聯(lián)度、訪(fǎng)問(wèn)頻率、訪(fǎng)問(wèn)時(shí)長(zhǎng)、最近訪(fǎng)問(wèn)時(shí)間)。
3.1.4 采集方式
多用特定工具,混合在線(xiàn)、離線(xiàn)采集方式從分布式接口全面、動(dòng)態(tài)、高效采集大數(shù)據(jù)環(huán)境下推薦所需數(shù)據(jù):鄒小波[1]用Kafka的Consumer模塊實(shí)時(shí)采集Producer模塊動(dòng)態(tài)生成的項(xiàng)目評(píng)分并存入Broker模塊以實(shí)現(xiàn)分布式實(shí)時(shí)數(shù)據(jù)發(fā)布與訂閱;尤海浪等[17]基于Flume分布式實(shí)時(shí)采集項(xiàng)目數(shù)據(jù);鄧玉林[36]用Nutch采集項(xiàng)目數(shù)據(jù);姚凱等[39]基于Cookie采集內(nèi)外部網(wǎng)站數(shù)據(jù)并匯總項(xiàng)目信息;段文彬[32]通過(guò)搜索引擎采集檢索數(shù)據(jù),通過(guò)平臺(tái)采集自有數(shù)據(jù),通過(guò)調(diào)研、共享、購(gòu)買(mǎi)采集項(xiàng)目數(shù)據(jù);胡一[34]、韓莉[38]提出用用戶(hù)選擇、行為追蹤[38]、推薦情境自適應(yīng)3種模式動(dòng)態(tài)采集用戶(hù)Web使用日志。
3.2 數(shù)據(jù)挖掘
作為大數(shù)據(jù)環(huán)境下主流的信息載體,Web數(shù)據(jù)海量、分布、異構(gòu)特性凸顯,?;诜植际綌?shù)據(jù)庫(kù)、云計(jì)算環(huán)境[8]、語(yǔ)義技術(shù)(如基于潛在主題、分類(lèi)的隱語(yǔ)義模型[20],本體[33],根據(jù)大數(shù)據(jù)推薦場(chǎng)景、性能等需求智能選擇Web數(shù)據(jù)挖掘技術(shù),尤其是聚類(lèi)技術(shù)(降維處理以高效挖掘并提升結(jié)果可靠性、價(jià)值)挖掘Web內(nèi)容(多為文本、多媒體特征)[33-34,38]、Web結(jié)構(gòu)(多為網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)、鏈接結(jié)構(gòu))、Web使用(多為Web日志及其隱藏訪(fǎng)問(wèn)信息)信息以提升推薦效率、性能。
3.2.1 聚類(lèi)算法分類(lèi)優(yōu)化
胡蓉[21]按實(shí)現(xiàn)原理分劃分聚類(lèi)(K-Means算法[24]、層次聚類(lèi)(CURE算法[24]、模糊聚類(lèi)、概率聚類(lèi)(DBSCAN算法)[24]、密度聚類(lèi)、網(wǎng)格聚類(lèi)、模型聚類(lèi)[3,21],按聚類(lèi)對(duì)象分基于用戶(hù)興趣相似度用戶(hù)聚類(lèi)法(采集并預(yù)處理用戶(hù)日志以提取其興趣集并向量化,基于余弦距離公式計(jì)算用戶(hù)興趣相似度并用K-Means算法并行化聚類(lèi))、基于項(xiàng)目特征相似度項(xiàng)目聚類(lèi)法(用波特詞干器提取項(xiàng)目特征以標(biāo)簽化項(xiàng)目,基于Jaccard相似系數(shù)計(jì)算項(xiàng)目標(biāo)簽相似度并加權(quán)整合成項(xiàng)目特征相似度進(jìn)而用凝聚型層次聚類(lèi)法聚類(lèi));金偉晟[19]提出層次聚類(lèi)法分凝聚法(圈定無(wú)連接網(wǎng)絡(luò)節(jié)點(diǎn)邊界以聚類(lèi))、分裂法(打破有連接網(wǎng)絡(luò)節(jié)點(diǎn)間邊界以聚類(lèi))。
3.2.2 聚類(lèi)算法效果改進(jìn)
針對(duì)用戶(hù)聚類(lèi)效果改進(jìn),鄒小波[1]基于MLlib中機(jī)器學(xué)習(xí)算法進(jìn)行二叉樹(shù)聚類(lèi)以降低用戶(hù)聚類(lèi)難度;屠海龍[23]用集成聚類(lèi)代替單用戶(hù)聚類(lèi)以更好適應(yīng)大數(shù)據(jù)特點(diǎn)、提升推薦效率;楊國(guó)龍[29]提出基于K-Means改進(jìn)標(biāo)簽分段算法RR-SEG:混合標(biāo)簽粗細(xì)粒度聚類(lèi)標(biāo)簽成簇并計(jì)算各簇均值以量化用戶(hù)數(shù)據(jù)邊界、高效分配計(jì)算資源進(jìn)而提升數(shù)據(jù)挖掘效率。針對(duì)項(xiàng)目聚類(lèi)效果改進(jìn),江澄[3]改進(jìn)適用小規(guī)模項(xiàng)目聚類(lèi)的PAM算法形成CLARA算法以自適應(yīng)項(xiàng)目聚類(lèi)規(guī)模;曹萍[4]用大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)基于K-Means、Canopy算法的項(xiàng)目并行化聚類(lèi);鄧玉林[36]提取檢索詞主題、時(shí)空等行為屬性以分片并行化聚類(lèi)項(xiàng)目;王俞翔[10]基于項(xiàng)目差異度聚類(lèi)項(xiàng)目;金偉晟[19]、沈杰[30]基于社團(tuán)發(fā)現(xiàn)聚類(lèi)項(xiàng)目。此外,針對(duì)用戶(hù)、項(xiàng)目聚類(lèi),吳淑凡[2]基于分類(lèi)器分類(lèi)用戶(hù)項(xiàng)目評(píng)價(jià)以提升聚類(lèi)效果;董小妹[33]融合SOM(自組織映射神經(jīng)網(wǎng)絡(luò))與K-Means算法提升聚類(lèi)智能性。
3.3 數(shù)據(jù)表示
數(shù)據(jù)表示通過(guò)特定方法形式化數(shù)據(jù)以便計(jì)算機(jī)高效識(shí)別、處理。
3.3.1 表示類(lèi)型
江澄[3]將QoS服務(wù)數(shù)據(jù)分為數(shù)值型、非數(shù)值型(涉及布爾型、文本型);楊國(guó)龍[29]按引流數(shù)據(jù)類(lèi)型分為用戶(hù)/項(xiàng)目特征數(shù)據(jù)、項(xiàng)目關(guān)聯(lián)數(shù)據(jù)、推薦過(guò)程數(shù)據(jù)(基于用戶(hù)/項(xiàng)目及項(xiàng)目關(guān)聯(lián)數(shù)據(jù)分析潛在相關(guān)數(shù)據(jù));段文彬[32]按分析類(lèi)型分實(shí)時(shí)分析數(shù)據(jù)、批量分析數(shù)據(jù),按處理方法分預(yù)測(cè)分析數(shù)據(jù)、特征識(shí)別數(shù)據(jù)、文本分析數(shù)據(jù)、位置分析數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)分析數(shù)據(jù),按結(jié)構(gòu)化程度分結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。此外,鄧玉林[36]提出分標(biāo)稱(chēng)型數(shù)據(jù)(候選值為兩個(gè)且固定)和二元型數(shù)據(jù)(候選值為兩個(gè)但多元化)。
3.3.2 表示方法
主要涉及數(shù)據(jù)格式轉(zhuǎn)化、分解重構(gòu)、聚集融合處理并常用(特征賦權(quán))矩陣法[33,43]規(guī)范表示大數(shù)據(jù)環(huán)境下用戶(hù)、項(xiàng)目及推薦過(guò)程數(shù)據(jù):段文彬[32]分析數(shù)據(jù)屬性、取值等特征以發(fā)現(xiàn)屬性映射、驗(yàn)證規(guī)則及其工作流以便規(guī)范化原始數(shù)據(jù),進(jìn)而通過(guò)單變量處理(涉及開(kāi)方、取對(duì)數(shù)、歸一化、徑向基核、協(xié)變量添加等方法)、雙變量融合(涉及變量間和差及乘除、閾值選取、笛卡爾積、白化處理等方法)、多變量結(jié)合(涉及主成分分析、聚類(lèi)分析、稀疏編碼、隨機(jī)森林等方法)提取項(xiàng)目特征并向量化表示;王俞翔[10]歸一化用戶(hù)評(píng)分并基于用戶(hù)-評(píng)分矩陣法表示;劉海鷗等[22]融合情境后基于用戶(hù)-項(xiàng)目評(píng)分矩陣法多維表示數(shù)據(jù);此外,曲朝陽(yáng)等[15]多粒度分解項(xiàng)目知識(shí)、構(gòu)建知識(shí)樹(shù)以關(guān)聯(lián)并推理知識(shí)進(jìn)而樹(shù)形表示知識(shí),支持語(yǔ)義層知識(shí)組織、推理及可視化;鄧玉林[36]混合時(shí)間窗、圖聚類(lèi)表示熱點(diǎn)標(biāo)簽,用TF-IDF法向量化表示用戶(hù)檢索詞及評(píng)分文本(向量按詞表排序,缺值用零補(bǔ)齊),用最小-最大值或Z-score(標(biāo)準(zhǔn)分?jǐn)?shù))標(biāo)準(zhǔn)化表示用戶(hù)評(píng)分,用日期格式表示數(shù)字型信息,用自身格式表示URL類(lèi)、無(wú)意義String類(lèi)數(shù)據(jù)。
3.4 數(shù)據(jù)存儲(chǔ)
主要基于關(guān)系型(MySQL)、非關(guān)系型數(shù)據(jù)庫(kù)[7,30,35,37](Redis、HBase[1]、MongoDB、Neo4j)分別存儲(chǔ)元數(shù)據(jù)及相應(yīng)大數(shù)據(jù)資源[3]并基于文件管理系統(tǒng)(HDFS)分布式管理:針對(duì)關(guān)系數(shù)據(jù)庫(kù),楊清智[7]、沈杰[30]、陳澤[35]、房璐璐[37]基于MySQL(或Derby[37]緩存[35]在線(xiàn)Web服務(wù)(APP[7]信息、Hive元數(shù)據(jù)(表名、屬性、數(shù)據(jù)路徑)、用戶(hù)相關(guān)數(shù)據(jù)(用戶(hù)興趣模型、推薦結(jié)果、項(xiàng)目評(píng)分)[37]。針對(duì)非關(guān)系型數(shù)據(jù)庫(kù),楊清智[7]基于機(jī)型、操作系統(tǒng)版本、芯片型號(hào)、內(nèi)存容量、興趣標(biāo)簽維度設(shè)計(jì)存儲(chǔ)用戶(hù)靜態(tài)基本信息的HBase標(biāo)簽表,基于用戶(hù)自身、APP類(lèi)別、性別、興趣、地域維度劃分標(biāo)簽表存儲(chǔ)用戶(hù)動(dòng)態(tài)興趣信息。針對(duì)文件管理系統(tǒng),鄒小波[1]用HDFS按Parquet格式封裝存儲(chǔ)數(shù)據(jù)集以構(gòu)建離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù);李翠平等[5]基于中心節(jié)點(diǎn)管理分布式文件系統(tǒng)以關(guān)聯(lián)集群節(jié)點(diǎn)并精準(zhǔn)定位文件;姚凱等[39]基于HDFS存儲(chǔ)數(shù)據(jù)并結(jié)合Hive提取數(shù)據(jù);此外,王俞翔[10]基于MySQL的數(shù)據(jù)表、集群分別直接存儲(chǔ)數(shù)據(jù)、臨時(shí)存儲(chǔ)文件,累積后批量存入HDFS;段文彬[32]基于SAN技術(shù)分布式存儲(chǔ)(用專(zhuān)用網(wǎng)絡(luò)連接數(shù)據(jù)存儲(chǔ)器及服務(wù)器構(gòu)建存儲(chǔ)區(qū)域網(wǎng)并實(shí)現(xiàn)分布式數(shù)據(jù)網(wǎng)絡(luò))、基于遠(yuǎn)程數(shù)據(jù)鏡像異地備份、基于Push技術(shù)協(xié)調(diào)服務(wù)器工作(通過(guò)平臺(tái)主動(dòng)向服務(wù)器推送協(xié)作指令)。
3.5 數(shù)據(jù)更新
3.5.1 更新方法
涉及空值數(shù)據(jù)添加(新用戶(hù)注冊(cè)信息、推薦結(jié)果[10]、用戶(hù)發(fā)布內(nèi)容、新項(xiàng)目信息[6]、時(shí)效數(shù)據(jù)查新(評(píng)分[3]、用戶(hù)日志[7]、用戶(hù)行為、歷史數(shù)據(jù)[16]、用戶(hù)位置、活動(dòng)信息[18]、項(xiàng)目信息、供需信息[33]、狀態(tài)數(shù)據(jù)[36]、學(xué)習(xí)進(jìn)度)、動(dòng)態(tài)數(shù)據(jù)調(diào)整(算法數(shù)據(jù)[5,35]、交互數(shù)據(jù)[13,36]、信任評(píng)估[19]、相異度矩陣[28]、分類(lèi)目錄、社區(qū)標(biāo)簽、用戶(hù)及項(xiàng)目特征向量[30]、本體定義[33]、規(guī)則及配置信息[37]、學(xué)習(xí)步長(zhǎng))、錯(cuò)誤數(shù)據(jù)替換(預(yù)測(cè)及推薦結(jié)果[10]。
3.5.2 更新方式
鄒小波[1]提出基于Kafka分布式發(fā)布訂閱實(shí)時(shí)數(shù)據(jù)交由Spark Streaming的Dstream流計(jì)算并實(shí)時(shí)更新;孟祥武等[18]提出計(jì)算新增對(duì)象及其關(guān)聯(lián)邊以增量[28]微調(diào)社會(huì)化推薦結(jié)果并基于自適應(yīng)法定期消除局部計(jì)算誤差;嚴(yán)克文[28]提出基于Hadoop分布式處理既定規(guī)則、新標(biāo)記變量分別確定更新策略、增量更新模型并更新數(shù)據(jù)。
4 結(jié)束語(yǔ)
綜上,本文從用戶(hù)興趣建模、推薦機(jī)制、信息資源管理3方面闡述了國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦核心內(nèi)容研究進(jìn)展:基于大數(shù)據(jù)的用戶(hù)興趣建模主要研究用戶(hù)興趣模型表示(多研究表示方法,常遵循表示原則結(jié)合大數(shù)據(jù)特點(diǎn)確定)、模型初始化(多研究數(shù)據(jù)采集(多按用戶(hù)數(shù)據(jù)類(lèi)型全面系統(tǒng)隱式采集)、數(shù)據(jù)處理(先在線(xiàn)離線(xiàn)混合式動(dòng)態(tài)預(yù)處理,再量化興趣度并結(jié)合基于大數(shù)據(jù)的隱性興趣預(yù)測(cè)進(jìn)行優(yōu)化))和模型進(jìn)化(基于用戶(hù)反饋、算法改進(jìn)動(dòng)態(tài)學(xué)習(xí)、更新用戶(hù)興趣模型)以提升用戶(hù)興趣模型精準(zhǔn)性;基于大數(shù)據(jù)的信息推薦機(jī)制主要研究推薦算法改進(jìn)及并行化改造、推薦機(jī)制組合、推薦結(jié)果優(yōu)化以緩解傳統(tǒng)信息推薦的針對(duì)性、冷啟動(dòng)、動(dòng)態(tài)性、多樣性等問(wèn)題:算法改進(jìn)及并行化改造涉及基于內(nèi)容推薦(針對(duì)大數(shù)據(jù)環(huán)境改進(jìn)內(nèi)容提取算法以提升推薦效率)、協(xié)同過(guò)濾推薦(依托大數(shù)據(jù)聚類(lèi)、壓縮提升數(shù)據(jù)稠密度,通過(guò)特征預(yù)測(cè)、補(bǔ)全及規(guī)則抽取提升相似度計(jì)算精準(zhǔn)度、推薦性能)、情境化推薦(通過(guò)線(xiàn)上線(xiàn)下情境大數(shù)據(jù)整合及挖掘、推薦算法改進(jìn)提升情境推薦精準(zhǔn)性、動(dòng)態(tài)性)、社會(huì)化推薦(多基于社交網(wǎng)絡(luò)、社會(huì)化媒體挖掘用戶(hù)社群、信任網(wǎng)絡(luò)以提升基于群體特征、面向用戶(hù)的信息推薦效率和基于信任網(wǎng)絡(luò)協(xié)同過(guò)濾推薦效率),機(jī)制組合主要研究混合推薦以基于推薦機(jī)制及階段動(dòng)態(tài)整合各推薦機(jī)制優(yōu)勢(shì),結(jié)果優(yōu)化主要基于QoS指標(biāo)并用典型值法、(效用)均值法推薦項(xiàng)目組合以?xún)?yōu)化推薦結(jié)果;信息資源管理包括數(shù)據(jù)采集(基于Kafka、Flume等工具采集線(xiàn)上(社交媒體、日志服務(wù)器、數(shù)據(jù)庫(kù)等)、線(xiàn)下(終端、傳感器等)大數(shù)據(jù)并共享第三方服務(wù)商數(shù)據(jù))、數(shù)據(jù)挖掘(整合云計(jì)算及語(yǔ)義等技術(shù)、改進(jìn)聚類(lèi)算法以高效發(fā)現(xiàn)數(shù)據(jù)間潛在關(guān)系)、數(shù)據(jù)表示(常用矩陣法)、數(shù)據(jù)存儲(chǔ)(基于關(guān)系、非關(guān)系數(shù)據(jù)庫(kù)分別存儲(chǔ)元數(shù)據(jù)及相應(yīng)大數(shù)據(jù)資源并基于文件管理系統(tǒng)分布式管理)、數(shù)據(jù)更新(基于分布式數(shù)據(jù)采集、處理、分發(fā),用空值添加、即時(shí)查新、動(dòng)態(tài)調(diào)整、錯(cuò)誤替換等方法周期性增量更新大數(shù)據(jù)),最終實(shí)現(xiàn)數(shù)據(jù)全面采集、高效挖掘、規(guī)范表示、混合分布式存儲(chǔ)及增量更新。
下一步,筆者將設(shè)計(jì)基于大數(shù)據(jù)的信息推薦方案,供相關(guān)研究與實(shí)踐參考。
參考文獻(xiàn)
[1]鄒小波.大數(shù)據(jù)平臺(tái)下推薦系統(tǒng)的研究與實(shí)現(xiàn)[D].泉州:華僑大學(xué),2018.
[2]吳淑凡.大數(shù)據(jù)環(huán)境下的移動(dòng)社交網(wǎng)絡(luò)推薦算法[J].安陽(yáng)師范學(xué)院學(xué)報(bào),2017,(2):61-64.
[3]江澄.大數(shù)據(jù)環(huán)境下基于QoS歷史記錄的服務(wù)組合推薦方法研究[D].南京:南京大學(xué),2014.
[4]曹萍.基于大數(shù)據(jù)的協(xié)同過(guò)濾推薦算法研究[D].南京:南京農(nóng)業(yè)大學(xué),2014.
[5]李翠平,藍(lán)夢(mèng)微,鄒本友,等.大數(shù)據(jù)與推薦系統(tǒng)[J].大數(shù)據(jù),2015,1(3):23-35.
[6]侯崇岳.大數(shù)據(jù)在高校圖書(shū)館文獻(xiàn)推薦中的應(yīng)用[J].寧波教育學(xué)院學(xué)報(bào),2017,19(6):80-83.
[7]楊清智.基于大數(shù)據(jù)技術(shù)的手機(jī)應(yīng)用推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[8]周蘇亭.面向云計(jì)算的大數(shù)據(jù)知識(shí)服務(wù)情景化推薦解析[J].滁州職業(yè)技術(shù)學(xué)院學(xué)報(bào),2016,15(3):54-56.
[9]丁繼紅,劉華中.大數(shù)據(jù)環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習(xí)資源精準(zhǔn)推薦[J].電化教育研究,2018,39(2):53-59,66.
[10]王俞翔.面向大數(shù)據(jù)集的推薦系統(tǒng)研究[D].秦皇島:燕山大學(xué),2014.
[11]劉海鷗.面向大數(shù)據(jù)知識(shí)服務(wù)推薦的移動(dòng)SNS信任模型[J].圖書(shū)館論壇,2014,34(10):68-75.
[12]婁建樓,鄒偉,王玲,等.社交網(wǎng)絡(luò)大數(shù)據(jù)下貪婪式實(shí)時(shí)網(wǎng)站推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(5):1361-1364.
[13]馬曉亭.基于情景大數(shù)據(jù)的圖書(shū)館個(gè)性化服務(wù)推薦系統(tǒng)研究[J].現(xiàn)代情報(bào),2016,36(4):90-94.
[14]陳玉.大數(shù)據(jù)背景下電商用戶(hù)需求挖掘的個(gè)性化推薦方法研究[J].信息與電腦:理論版,2016(17):88-89.
[15]曲朝陽(yáng),周寧,曲楠,等.基于知識(shí)關(guān)聯(lián)度的電力大數(shù)據(jù)協(xié)同過(guò)濾推薦算法[J].東北師大學(xué)報(bào):自然科學(xué)版,2018,50(1):74-78.
[16]陳玉兆.大數(shù)據(jù)下的個(gè)性化推薦研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2014.
[17]尤海浪,錢(qián)鋒,黃祥為,等.基于大數(shù)據(jù)挖掘構(gòu)建游戲平臺(tái)個(gè)性化推薦系統(tǒng)的研究與實(shí)踐[J].電信科學(xué),2014,30(10):27-32.
[18]孟祥武,紀(jì)威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報(bào),2015,38(2):1-15.
[19]金偉晟.面向大數(shù)據(jù)的可信服務(wù)推薦方法研究[D].南京:南京郵電大學(xué),2016.
[20]劉云.基于大數(shù)據(jù)的廣告推薦方法研究及應(yīng)用[D].北京:華北電力大學(xué),2017.
[21]胡蓉.大數(shù)據(jù)環(huán)境下服務(wù)推薦系統(tǒng)及其關(guān)鍵方法研究[D].南京:南京大學(xué),2014.
[22]劉海鷗,陳晶,孫晶晶,等.圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)情境化推薦系統(tǒng)研究[J].圖書(shū)館理論與實(shí)踐,2018,(8):98-103.
[23]屠海龍.基于大數(shù)據(jù)的協(xié)同過(guò)濾推薦算法研究[D].杭州:浙江工業(yè)大學(xué),2018.
[24]李星.個(gè)性化推薦系統(tǒng)優(yōu)化及其大數(shù)據(jù)處理研究[D].哈爾濱:哈爾濱工程大學(xué),2014.
[25]謝瑤瑤.大數(shù)據(jù)模擬環(huán)境下的分布式協(xié)同過(guò)濾推薦系統(tǒng)的研究[D].武漢:武漢理工大學(xué),2014.
[26]孫雨生,張晨,任潔,等.國(guó)內(nèi)電子商務(wù)個(gè)性化推薦研究進(jìn)展:核心技術(shù)[J].現(xiàn)代情報(bào),2017,37(4):151-157.
[27]黃義文.大數(shù)據(jù)環(huán)境下圖書(shū)館學(xué)術(shù)資源個(gè)性化推薦服務(wù)研究[J].圖書(shū)館學(xué)刊,2016,38(7):78-80.
[28]嚴(yán)克文.大數(shù)據(jù)環(huán)境下電子商務(wù)個(gè)性化推薦算法應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2016.
[29]楊國(guó)龍.企業(yè)間大數(shù)據(jù)推薦引流系統(tǒng)研究與設(shè)計(jì)[D].長(zhǎng)沙:湖南大學(xué),2016.
[30]沈杰.大數(shù)據(jù)環(huán)境下基于協(xié)同過(guò)濾的推薦系統(tǒng)研究與實(shí)現(xiàn)[D].杭州:浙江工業(yè)大學(xué),2016.
[31]姚靜天.基于項(xiàng)目搭配度的大數(shù)據(jù)推薦算法研究[D].南京:南京理工大學(xué),2017.
[32]段文彬.大數(shù)據(jù)聯(lián)盟數(shù)據(jù)資源推薦系統(tǒng)研究[D].哈爾濱:哈爾濱理工大學(xué),2018.
[33]董小妹.大數(shù)據(jù)環(huán)境下基于本體的協(xié)同過(guò)濾推薦算法改進(jìn)研究[D].南京:南京工業(yè)大學(xué),2013.
[34]胡一.基于大數(shù)據(jù)的電子商務(wù)個(gè)性化信息推薦服務(wù)模式研究[D].長(zhǎng)春:吉林大學(xué),2015.
[35]陳澤.個(gè)性化推薦算法研究及“大數(shù)據(jù)”下的系統(tǒng)開(kāi)發(fā)[D].重慶:重慶郵電大學(xué),2013.
[36]鄧玉林.基于Hadoop大數(shù)據(jù)框架的個(gè)性化推薦系統(tǒng)研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2016.
[37]房璐璐.基于大數(shù)據(jù)分析的推薦系統(tǒng)研究[D].北京:北京郵電大學(xué),2015.
[38]韓莉.大數(shù)據(jù)時(shí)代的個(gè)性化推薦技術(shù)分析[J].晉中學(xué)院學(xué)報(bào),2016,33(3):74-77.
[39]姚凱,涂平,陳宇新,等.基于多源大數(shù)據(jù)的個(gè)性化推薦系統(tǒng)效果研究[J].管理科學(xué),2018,31(5):3-15.
[40]李佳.面向大數(shù)據(jù)的協(xié)同過(guò)濾推薦算法研究[D].南充:西華師范大學(xué),2016.
[41]葉志強(qiáng).基于有線(xiàn)電視互動(dòng)點(diǎn)播業(yè)務(wù)的大數(shù)據(jù)分析推薦系統(tǒng)探析[J].廣播電視信息,2016,(2):56-59.
[42]張健.基于大數(shù)據(jù)技術(shù)的有線(xiàn)電視推薦系統(tǒng)研究[J].中國(guó)有線(xiàn)電視,2016,(S1):362-365.
[43]陳永康,章美仁.基于大數(shù)據(jù)的在線(xiàn)就業(yè)課程推薦系統(tǒng)[J].電子商務(wù),2017,(4):72-73.
(責(zé)任編輯:郭沫含)