汪倩,徐勇,張心蕊,李曉宇
(安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,蚌埠233000)
大數(shù)據(jù)時代表現(xiàn)出4V 特征,即數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價(jià)值高(Value),因此造成用戶使用互聯(lián)網(wǎng)獲取信息的難度迅速增加,而用戶畫像作為一種數(shù)據(jù)分析工具,運(yùn)用它能夠更好的獲取有效信息,提高用戶的使用滿意度。電影院通過對購買電影票的用戶性別構(gòu)建用戶畫像,了解哪些電影更加受女性用戶的歡迎,而哪些電影受男性用戶的歡迎,進(jìn)而進(jìn)行有針對性的推薦與營銷,這是一種簡單的用戶畫像的應(yīng)用。京東、阿里作為電商領(lǐng)域的巨頭,擁有龐大的用戶數(shù)據(jù),通過分析消費(fèi)者的基礎(chǔ)信息、購物行為以描繪其特征畫像,從而建構(gòu)了一套屬于自己的用戶畫像,實(shí)現(xiàn)用戶分類、熱門商品推薦、用戶偏好分析、商品設(shè)計(jì)等。
基于當(dāng)前時代背景下的特殊性,用戶畫像越來越引起學(xué)者的關(guān)注,其研究也在學(xué)術(shù)界如火如荼的展開。本文通過梳理現(xiàn)有研究文獻(xiàn),分別從數(shù)據(jù)采集、畫像建模以及動態(tài)更新畫像三步驟對用戶畫像構(gòu)建流程進(jìn)行詳細(xì)闡述,并總結(jié)出現(xiàn)有研究中用戶畫像的主要應(yīng)用方向,列出現(xiàn)有用戶畫像研究所存在問題,希望能夠促進(jìn)用戶畫像的進(jìn)一步研究,從而為各行各業(yè)的進(jìn)步與發(fā)展提供幫助。
用戶畫像研究中主要把用戶畫像的構(gòu)建過程分為3 個階段,即先從數(shù)據(jù)源獲取數(shù)據(jù),并對其進(jìn)行清洗、整理、表示后,通過用戶畫像模型進(jìn)行畫像的構(gòu)建,最后根據(jù)用戶的情況進(jìn)行畫像的更新變動,及時調(diào)整以適應(yīng)當(dāng)前用戶情境。
實(shí)現(xiàn)用戶畫像的首要工作就是收集數(shù)據(jù),數(shù)據(jù)采集的完整性直接影響用戶畫像構(gòu)建的精準(zhǔn)性。現(xiàn)有的大多數(shù)研究是通過編寫程序或直接運(yùn)用數(shù)據(jù)采集器從API 這一入口進(jìn)行數(shù)據(jù)爬取來獲取數(shù)據(jù),這與傳統(tǒng)的通過問卷、深度訪談等方式相比,能夠有效改善數(shù)據(jù)獲取的難度,并能減少用戶由于厭煩回答而不答或隨意回答造成的數(shù)據(jù)量少或數(shù)據(jù)錯誤的現(xiàn)象。
目前由于不同學(xué)者研究領(lǐng)域的不同,挖掘的數(shù)據(jù)也就存在差異。根據(jù)用戶研究領(lǐng)域的不同,將收集的數(shù)據(jù)分為用戶維度數(shù)據(jù)和領(lǐng)域維度數(shù)據(jù)兩大類,如圖1所示。其中,用戶維度的數(shù)據(jù)通常是指人口統(tǒng)計(jì)學(xué)特征,如姓名、年齡、性別、文化水平、職業(yè)、興趣愛好等,它一般可以從用戶的注冊信息中直接獲取且是相對穩(wěn)定的。而領(lǐng)域維度的數(shù)據(jù)會根據(jù)具體領(lǐng)域而有所調(diào)整。
圖1 用戶數(shù)據(jù)維度劃分
用戶畫像的構(gòu)建過程實(shí)際上是用戶興趣特征提取的過程。目前,構(gòu)建畫像的方法多種多樣,本文主要將其分為基于統(tǒng)計(jì)的用戶建模和基于模型的用戶建模兩種。
(1)基于統(tǒng)計(jì)的用戶建模
通過數(shù)學(xué)方法對各類數(shù)據(jù)的數(shù)量或各類數(shù)據(jù)占整體的比率等進(jìn)行量化,并針對這些量化后的值對用戶進(jìn)行分析,挖掘出能夠代表用戶興趣偏好的特征,這是一種較為簡單的用戶分析方法。Benevenuto 等人[1]基于從社交網(wǎng)絡(luò)聚合器收集的連接OSN 網(wǎng)站的頻率、時間等點(diǎn)擊流數(shù)據(jù)集對在線社交網(wǎng)絡(luò)(OSNs)用戶進(jìn)行分析,并提出了會話到達(dá)間隔時間和會話長度分布的最佳擬合模型,從而沿著社交圖分析用戶活動,揭示用戶訪問他人在線簡檔、照片和視頻的頻率。劉海鷗等[2]從時間間隔分布、活躍性與冪指數(shù)分布、時間間隔分布寬度、時間間隔重標(biāo)度等對用戶行為特征進(jìn)行分析,從而發(fā)現(xiàn)在線社交用戶發(fā)布信息行為的時間間隔服從冪律分布,社交用戶在發(fā)布信息行為中表現(xiàn)出“強(qiáng)陣發(fā)弱記憶”的特征等特點(diǎn)。
基于統(tǒng)計(jì)的方法進(jìn)行用戶興趣特征的挖掘是一種易于實(shí)現(xiàn)但結(jié)果較粗糙的方法。然而此方法不能對如文本、圖片、音頻等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析處理,提取用戶特征來構(gòu)建更加全面而細(xì)致的用戶畫像。尤其在Web 2.0 時代的今天,用戶是網(wǎng)絡(luò)的主體,并自發(fā)的在網(wǎng)絡(luò)上發(fā)布數(shù)量龐大的UGC 來表達(dá)自己的心情、愛好、生活等與用戶息息相關(guān)的數(shù)據(jù),因此,對于這些非結(jié)構(gòu)化數(shù)據(jù)的深度挖掘顯得尤為重要。
(2)基于模型的用戶建模
用戶畫像的實(shí)現(xiàn)除了簡單的通過統(tǒng)計(jì)數(shù)據(jù)的方法實(shí)現(xiàn)外,還常運(yùn)用基于向量空間模型的方法、基于潛在Dirichlet 主題模型的方法、基于貝葉斯網(wǎng)絡(luò)的方法、基于本體(Ontology)的方法、基于神經(jīng)網(wǎng)絡(luò)的方法等來建模。何娟[3]利用向量空間模型,通過將文本內(nèi)容表示成向量來計(jì)算余弦距離得到各文本之間的相似度數(shù)值,并通過聚類算法構(gòu)建用戶畫像。李恒超[4]通過使用卷積神經(jīng)網(wǎng)絡(luò)模型和Doc2Vec 淺層神經(jīng)網(wǎng)絡(luò)模型來分別提取查詢詞之間語義關(guān)聯(lián),構(gòu)建了用戶畫像的二級融合模型的算法框架。單曉紅等人[5]運(yùn)用Protege 構(gòu)建基于本體的用戶畫像,實(shí)現(xiàn)用戶畫像的層次化、概念化和可視化特點(diǎn),并展示其關(guān)聯(lián)特征。
隨著數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的出現(xiàn),對于用戶的研究得到迅速發(fā)展,不僅只考慮了結(jié)構(gòu)化數(shù)據(jù),還考慮了文本、圖片等非結(jié)構(gòu)化數(shù)據(jù),使得用戶畫像能夠全面細(xì)致地展示用戶特征。運(yùn)用模型分析出用戶特征并構(gòu)造用戶畫像的方法是一種有效的數(shù)據(jù)分析方式,對于不同類型的數(shù)據(jù)能夠較好的進(jìn)行處理,但由于算法與模型的擴(kuò)展性還相對較低,且受到數(shù)據(jù)稀疏性的影響,對于用戶畫像的研究仍面臨著巨大挑戰(zhàn)。
用戶畫像的構(gòu)建大多基于離線數(shù)據(jù),是一種靜態(tài)畫像,缺乏動態(tài)性和實(shí)時性,只能夠反映當(dāng)時的或者短期內(nèi)的一個用戶偏好,而其實(shí)用戶偏好是會隨時間發(fā)生改變的,如果不能及時更新用戶畫像,這會使根據(jù)用戶畫像來對用戶進(jìn)行相應(yīng)的推薦或服務(wù)時產(chǎn)生偏差。因此,針對如何實(shí)現(xiàn)標(biāo)簽隨時間變化來不斷修正用戶畫像的研究日益增多,常用的更新方法如基于遺忘衰減規(guī)律的方法、基于時間窗口的方法、基于反饋的方法等。林鴻飛等人[6]利用相關(guān)反饋,追蹤和更新用戶興趣模型。朱祎等人[7]通過結(jié)合艾賓浩斯遺忘曲線并考慮到人的心理變化的基礎(chǔ)上,引入時間衰減度(T)參數(shù)對用戶的興趣度進(jìn)行自適應(yīng)更新,來實(shí)現(xiàn)用戶畫像的更新。李強(qiáng)[8]采用類似LRU 算法的一種改進(jìn)方法進(jìn)行用戶模型更新,以此來記錄電影類型新鮮度。
但目前學(xué)術(shù)界對于此方向的研究還相對較少且深入度不夠,用戶畫像更新仍較為滯后,大多是按一段時間為節(jié)點(diǎn)進(jìn)行更新,而不能實(shí)現(xiàn)更加及時準(zhǔn)確的更新。
用戶畫像通過挖掘和分析用戶的屬性和行為數(shù)據(jù),從而給用戶打上相應(yīng)的標(biāo)簽,來了解用戶的需求與偏好,這一技術(shù)的實(shí)現(xiàn)對各領(lǐng)域的發(fā)展都起到巨大的幫助。目前,用戶畫像被應(yīng)用于個性化推薦、精準(zhǔn)營銷、行為預(yù)測、異常檢測等。
市場競爭的激烈,迫使企業(yè)和商家不斷去尋找措施促進(jìn)營銷,而用戶畫像的出現(xiàn),對于企業(yè)來說是一個非常好的工具,它可以運(yùn)用用戶畫像,得到用戶的消費(fèi)習(xí)慣、興趣喜好等信息,從而為用戶提供服務(wù)。如Hu[9]將用戶畫像同步到統(tǒng)一的數(shù)據(jù)集市層,通過相關(guān)的上下游數(shù)據(jù)和產(chǎn)品,傳遞給營銷用戶,實(shí)現(xiàn)高效操作和精準(zhǔn)營銷。單曉紅等人[5]構(gòu)建基于在線評論的用戶畫像本體模型,展示用戶對于酒店相關(guān)屬性的偏好,為酒店進(jìn)行精準(zhǔn)營銷提供了很大的幫助。
用戶畫像通過給用戶打標(biāo)簽的方式,直接展示了用戶需求特征,對于改善推薦算法,提高推薦效率起到了重要作用。齊會敏等人[10]運(yùn)用用戶畫像實(shí)現(xiàn)了一種基于用戶興趣主題的個性化好友推薦方法。曹斌等人[11]結(jié)合閱讀速度感知模型(RSA)和書籍閱讀權(quán)重模型(RBW)提出了一個混合的速度-權(quán)重模型,提高書籍推薦的準(zhǔn)確度。
用戶畫像是基于用戶過去在網(wǎng)絡(luò)上積累的大量數(shù)據(jù)而構(gòu)建的,能夠反映用戶長期的行為習(xí)慣,因此,通過運(yùn)用用戶畫像就可以發(fā)現(xiàn)用戶的異常行為,檢測出異常用戶,實(shí)現(xiàn)虛假主體的判別。如蔡武越等人[12]提出一種基于HDFS 審計(jì)日志和并行化主成分分析的用戶行為異常檢測方法,來檢測用戶行為是否異常。李海斌等人[13]提出了一種基于核密度估計(jì)算法的無監(jiān)督機(jī)器學(xué)習(xí)方法,對數(shù)據(jù)庫用戶行為建模、檢測異常。
用戶的興趣偏好在短期內(nèi)大部分情況下基本不會發(fā)生變化,使得用戶興趣具有一定的規(guī)律性可尋,而用戶畫像作為分析用戶數(shù)據(jù)的工具,能夠顯示出用戶的偏好特點(diǎn),因此基于用戶畫像進(jìn)行用戶下一次行為的預(yù)測顯得至關(guān)重要。高嶺等人[14]通過獲取用戶與原始偏好行為的相似度,并根據(jù)其分布特征來建立基于平均近鄰與異常評分交互影響的修正模型,實(shí)現(xiàn)用戶興趣關(guān)系預(yù)測。王斌等人[15]對大量用戶訪問服務(wù)平臺數(shù)據(jù)塊的行為進(jìn)行統(tǒng)計(jì)分析,并利用信息熵策略挖掘出被頻繁集中訪問塊的時序特征和三次指數(shù)平滑方法來預(yù)測未來一段時間用戶對這些塊的訪問行為。
用戶畫像的核心就是“用戶”,以用戶為中心,深度分析與用戶相關(guān)的數(shù)據(jù),通過分類、聚類、關(guān)聯(lián)等方法來挖掘用戶的特征與偏好的一種分析工具。本文通過梳理用戶畫像的相關(guān)研究文獻(xiàn),總結(jié)出用戶畫像構(gòu)建的流程,包括數(shù)據(jù)收集、畫像建模、動態(tài)更新畫像3 個階段,并總結(jié)出現(xiàn)有用戶畫像主要的應(yīng)用情境。但目前對于用戶畫像的研究還存在一些問題:
(1)用戶隱私安全問題:用戶畫像的構(gòu)建需要大量的數(shù)據(jù)作為支撐,數(shù)據(jù)的類型越豐富,所勾勒出的用戶畫像才更有可能貼近于用戶。因此,大量的數(shù)據(jù)需求使得用戶的隱私安全問題隨之而來,因此,如何有效保障用戶的隱私安全是一個值得深思的問題。
(2)多類型數(shù)據(jù)的使用問題:Web 2.0 時代,用戶可以在網(wǎng)絡(luò)上自由發(fā)表任何數(shù)據(jù),而數(shù)據(jù)的形式多種多樣,除文本外還有圖片、音頻和視頻等,而目前大多基于文本數(shù)據(jù)構(gòu)建畫像,但其實(shí),圖片、音頻或視頻等形式的數(shù)據(jù)同樣可以反映用戶興趣的特征,所以如何同時應(yīng)用更多類型的數(shù)據(jù)來構(gòu)建用戶畫像也是一個值得思考的問題。
(3)多維度數(shù)據(jù)融合問題:用戶在單一領(lǐng)域產(chǎn)生的數(shù)據(jù)存在數(shù)據(jù)稀疏的問題,造成構(gòu)建用戶畫像時效果不佳,而其實(shí)用戶在不同領(lǐng)域產(chǎn)生的數(shù)據(jù)是存在相關(guān)性的,如果能夠同時考慮多個平臺和系統(tǒng)的數(shù)據(jù),進(jìn)行數(shù)據(jù)的集成與融合,能夠有效緩解數(shù)據(jù)的稀疏問題,實(shí)現(xiàn)更優(yōu)的用戶建模。