文|王程子,姜慧
信念網絡在用戶畫像中的應用
文|王程子,姜慧
用戶畫像又稱人群畫像,是根據(jù)用戶人口統(tǒng)計學信息、社交關系、偏好習慣和消費行為等信息而抽象出來的標簽化模型?!皹撕灐笔钱嬒竦拇~,即用戶畫像是各種標簽的組合結果。標簽的制作分為兩個部分:一是根據(jù)用戶的行為數(shù)據(jù)直接獲取,二是通過算法或關聯(lián)規(guī)則挖掘得到。直接獲取的數(shù)據(jù)如用戶在網站或軟件注冊時主動填寫和上傳的數(shù)據(jù)、用戶的行動數(shù)據(jù)(GPS位置信息)、電子商務中用戶的交易數(shù)據(jù)等,這些數(shù)據(jù)的準確性比較高。通過算法或關聯(lián)規(guī)則挖掘的數(shù)據(jù)具有預測性,是擴大標簽化、推測用戶行為習慣和興趣傾向的重要步驟。
針對用戶畫像的應用型研究,很多學者對移動互聯(lián)網、大型社交平臺的數(shù)據(jù)構建用戶畫像,描述群體性特征,為電子商務和精準營銷提供技術支持。本文在參考現(xiàn)有文獻的同時,將信念網絡模型引入用戶畫像的構建中,運用多元回歸分析用戶的基礎數(shù)據(jù)得到信念網絡的初始數(shù)值,然后構建信念網絡模型,以此勾勒畫像。
用戶畫像更多地應用在電子商務領域,企業(yè)能夠更好地發(fā)覺用戶的購買動機和興趣,以客戶需求為具體的任務做設計要遠遠優(yōu)于為腦中虛構的東西做設計。
用戶數(shù)據(jù)是挖掘用戶特征的基礎,用戶數(shù)據(jù)大致可以分為兩類:靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù)。其中,靜態(tài)信息數(shù)據(jù)比較簡單,即用戶的屬性信息。靜態(tài)信息即用戶的真實信息,對此無須做過多的研究和預測,只需附著在用戶或用戶群體的模型里即可。因此本文需要研究的重點是用戶的動態(tài)信息,即網絡行為數(shù)據(jù)(頁面瀏覽量、訪問時長等)、服務內行為數(shù)據(jù)(瀏覽路徑、訪問深度等)、用戶內容偏好數(shù)據(jù)(收藏、評論、品牌偏好等)、用戶交易數(shù)據(jù)(貢獻率、連帶率等)這四類信息,這些數(shù)據(jù)也是需要被分析的用戶核心數(shù)據(jù)。
用戶畫像的目標是通過分析用戶行為,最終為每個用戶打上標簽和該標簽的權重。標簽表征了用戶對某內容的興趣、偏好和需求,而權重表征了需求度、可信度和概率等。用戶畫像的建模就是運用上一步的用戶數(shù)據(jù),通過機器學習等的數(shù)學算法構建模型,得到標簽和權重的過程。
用戶模型包含很多的事件模型,每個事件模型本質上都是一次隨機的用戶行為,具體說來,就是:Who(用戶)+When(時間)+Where(地點)+What(做什么)。“Who”的關鍵在于對用戶的標識,區(qū)分不同類型的對象和群體。“When”包括時間戳和時間長度兩個部分,時間戳表明發(fā)生事情的具體時刻,時間長度是用戶在某一頁面的停留時間?!癢here”包括網址和內容,網址即url連接,定位了一個互聯(lián)網頁面,內容則是該頁面的主題,如某產品的信息等?!癢hat”為用戶行為,對于電子商務有瀏覽、添加購物車、搜索、評論、購買、點贊、收藏等行為,不同行為有不同的權重。一般意義上,“5W”的總和即為用戶畫像的建模思路。
由于靜態(tài)信息數(shù)據(jù)、行為特征以及社交網絡等數(shù)據(jù)都是可以通過直接或間接的方法獲取,因而建模的主要工作其實是對用戶興趣標簽的選取。在對眾多用戶的行為特征進行歸納和建模時,我們發(fā)現(xiàn)用戶的行為具有關聯(lián)性,且行為之間存在邏輯關系。用戶也會受到社交網絡的影響而改變本身的興趣。基于這種前后關聯(lián)的行為模式,我們引入了信念網絡的概念,試圖構建一種可以模擬用戶興趣的類機器學習式的動態(tài)模型。
信念網絡又稱貝葉斯網絡(Bayesian Networks),是機器學習中經常用到的分類概率算法,人工智能領域用來模擬人腦的推理過程,具有很高的實用價值。
貝葉斯定理是一個“后驗概率”,即已知B發(fā)生的條件下A的概率P(A|B)如何求得P(B|A)。生活中我們經常遇到這樣的情況:我們很容易可以得到P(A|B),但是得到P(B|A)卻很困難,為了得到更有用的P(B|A),貝葉斯定理應運而生,通過公式其P(A)中,是先驗概率,是通過訓練數(shù)據(jù)估計的初值,而分子可以看做一個觀測因子來調節(jié)初值的權重以接近實際的P(B|A)。
在介紹信念網絡之前首先要介紹樸素貝葉斯分類(Naive Bayesian Classification),假設實例之間相互獨立,通過給定的實例概率求解在每個實例在給定實例的可能情況下的出現(xiàn)概率,將后驗概率最大者判定為分類結果。然而在用戶數(shù)據(jù)中,這種前后條件獨立的情況鮮有發(fā)生,基于這個問題,我們引入信念網絡來解決。
信念網絡的拓撲結構是有向無環(huán)圖(Directed Acyclic Graph,DAG),每個節(jié)點代表實例值;有向的邊代表兩個點的因果關系,每條邊都有一個條件概率值。實例空間中包含很多相互聯(lián)系的實例,信念網絡把這些實例整合在DAG中,描述實例之間的條件依賴。
我們選擇某高校所有學生的淘寶購買記錄作為數(shù)據(jù)空間,首先抽取電子商務相關的實例特征作為標簽集合,然后根據(jù)多元線性回歸公式Y=β0+β1x1+β2x2+...+βnxn+ε計算每個用戶的實時興趣度。通過特征提取我們得到了服裝、鞋類、護膚品、食品、配飾、家居、百貨、數(shù)碼、運動9類主題。
在實際操作中,我們可以構建回歸方程計算用戶對某個主題的初始興趣度,如可以構建方程(1),其中Mi表示頁面瀏覽次數(shù);Ti表示頁面停留時間;Si表示收藏頁面;Gi表示添加購物車;Bi表示購買。
對這9類主題構建信念網絡,每個主題都由一個節(jié)點代替,節(jié)點間的有向線段表示用戶的興趣映射,權重為初始興趣度。初始興趣的信念網絡如圖1所示。
圖1 初始興趣的信念網絡
信念網絡是一個重要的機器學習算法,其優(yōu)勢就是可以根據(jù)先驗概率的變化調整參數(shù)以求得最真實的后驗概率。淘寶網上的數(shù)據(jù)是實時更新的,尤其在網絡通訊錄大的時段,因此根據(jù)即時信息推斷和預測用戶最可能的興趣是尤為重要的。
若某用戶短期內對耐克運動鞋和寶潔產品的瀏覽量增加,則用戶的鞋類、護膚品和運動的主題的概率會提升,信念網絡會實時跟進記錄用戶的興趣傾向。若用戶對護膚品或運動的興趣程度即概率值大于預設的閾值δ時,模型會預測該客戶會進而對配飾或數(shù)碼主題產生興趣,進而推薦一些此類的網頁,如圖2所示。
表1 用戶的后驗概率
圖2 信念模型預測用戶興趣變化
信念模型在一段測試時間內會對用戶的行為數(shù)據(jù)作整體判斷,計算出該時間段內此用戶的興趣集合。上述實驗過程中我們把興趣閾值 設為0.618,實驗得到的三個用戶的后驗概率如表1所示,A用戶的興趣集合為{服裝,鞋類,護膚品},B用戶的興趣集合為{鞋類,運動,數(shù)碼},C用戶的興趣集合為{食品,百貨,家居}。由此商戶可以根據(jù)用戶喜好推薦鏈接,盡最大可能挖掘信息資源,精準營銷。
本文闡述了用戶畫像的意義和主要的工作流程,闡明構建畫像的重心在于根據(jù)動態(tài)信息數(shù)據(jù)挖掘用戶的興趣標簽,并預測用戶的興趣轉變趨勢。借鑒機器學習中預測學習結果和計算后驗概率的思路,引入信念模型的概念,通過實時追蹤用戶行為數(shù)據(jù),運用行為間的邏輯關系來關聯(lián)分析并挖掘用戶的興趣,最后設立閾值,準確勾勒用戶的畫像。信念網絡能夠動態(tài)評估和預測用戶的興趣,可以大幅度提升用戶畫像的準確性。
作者單位:國際關系學院