蘇翠華 熊婷
摘? 要: 針對目前用于精準營銷推送的用戶畫像模型普遍存在全面性與深入性差等問題,文中基于深度學習技術研究用于精準營銷推送的用戶畫像模型構建算法。該算法利用結巴分詞算法與SIFT方法對短文本與圖片進行預處理與融合,借助PGBN深度學習模型及吉布斯向上?向下的采樣方法對用戶畫像模型進行構建與訓練,從而獲取用戶的興趣、愛好等信息。對測試數(shù)據(jù)集進行的仿真計算結果表明,該文算法由于融合圖片與文本數(shù)據(jù),相較于普通算法,能夠較為全面地獲取用戶的屬性特征,因此在精準營銷推送中發(fā)揮著重要作用。
關鍵詞: 精準營銷推送; 深度學習; 用戶畫像模型; 模型訓練; 信息獲取; 數(shù)據(jù)集測試
中圖分類號: TN911?34; TP181? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)22?0144?04
Abstract: In allusion to the problems that the user portrait models used for precision marketing push are generally poor comprehensiveness and depth, the construction algorithm of the user portrait model used in precision marketing push is researched based on the deep learning technology. In this algorithm, short text and pictures are preprocessed and fused by means of the stuttering segmentation algorithm and SIFT method, and the user portrait model is constructed and trained by means of the PGBN deep learning model and Gibbs up?down sampling method, so as to obtain the users′ interests, hobbies and other information. The simulation results of the testing dataset show that, in comparison with the ordinary algorithm, the algorithm can acquire the attributive character of users more comprehensively because of the fusion of image and text data, so it play an important role in the accurate marketing push.
Keywords: precision marketing push; deep learning; user portrait model; model training; information obtain; dataset testing
0? 引? 言
互聯(lián)網(wǎng)技術的發(fā)展與社交媒體的誕生促進了信息的傳播,為人們的溝通及交流提供了新的渠道與方法[1?2]。其可以通過社交媒體等開放的公共平臺,跨越時間與物理距離,進行自由的分享、學習、溝通和交流,呈現(xiàn)并記錄自己的日常生活,表達內心的興趣愛好。因此社交媒體所產(chǎn)生的社交數(shù)據(jù),能夠充分反映出用戶的興趣愛好、日常行為與習慣、心理活動等屬性特征。對于互聯(lián)網(wǎng)思維下各行業(yè)的精準營銷、產(chǎn)品個性化分析與優(yōu)化而言,具有較高的挖掘價值[3?5]。
目前,利用用戶畫像模型提取與分析用戶在社交媒體上表現(xiàn)出的特征是數(shù)據(jù)挖掘及應用的一種常用手段[6?7]。通過用戶行為習慣、基本屬性等特征的提取與分析,可構建包含興趣愛好、年齡、性別、職業(yè)、消費行為等在內的標簽化用戶畫像模型。然而,由于用戶屬性事先定義的局限性與社交媒體內容模式的多樣性,傳統(tǒng)用戶畫像模型的屬性描述通常存在不全面、不夠深入等缺陷[8]?;诖耍疚尼槍ξ⒉┑膱D像與文本數(shù)據(jù),通過引入深度學習技術,設計并研究了用于精準營銷推送的用戶畫像模型構建算法。
1? 理論和技術分析
1.1? 用戶畫像及構建方法
用戶畫像,即根據(jù)社交媒體上呈現(xiàn)出的用戶行為習慣、基本屬性、心理活動等內容。構建標簽化的用戶原型,從而得到用戶的年齡、性別、職業(yè)等標簽特征。其構建的一般流程如圖1所示,依次為基礎數(shù)據(jù)收集、預處理與建模。
其中,基礎數(shù)據(jù)收集主要包括用戶的基本屬性信息數(shù)據(jù)(用戶注冊過程中提交的姓名、性別、教育情況等信息)、瀏覽行為與內容數(shù)據(jù)(用戶日常的行為習慣與發(fā)表內容,如網(wǎng)購記錄、網(wǎng)頁瀏覽記錄、發(fā)表的圖文等)、相關屬性信息數(shù)據(jù)(如產(chǎn)品評價)和服務需求數(shù)據(jù)(如查詢操作)等;數(shù)據(jù)預處理主要包括文本與圖片數(shù)據(jù)的處理,通過對文本數(shù)據(jù)的分詞、停用詞去除與詞頻統(tǒng)計,以及對圖片數(shù)據(jù)的特征提取與表示,從而進行爬取數(shù)據(jù)的標準化操作,供后續(xù)處理與分析評價的使用;用戶畫像建模主要通過遺傳算法、聚類算法和各類神經(jīng)網(wǎng)絡算法對用戶屬性進行抽象提取。
1.2? 預處理技術
預處理技術主要用于實現(xiàn)文本與圖片的預處理。對于文本而言,主要為特殊用語、停用詞去除與文本分詞、建立文本詞袋模型等步驟。其中,分詞方法主要有基于知識理解、基于詞庫匹配或基于詞頻統(tǒng)計的三類方法。本文則選用結合詞庫匹配與詞頻統(tǒng)計的結巴分詞方法,綜合前者分詞速度快與后者針對新詞或歧義詞分詞效果好的兩種優(yōu)勢,能夠得到較為理想的分詞效果[9]。
對于圖片而言,預處理主要為圖片特征提取,用于圖像典型像素點信息的提取。圖片特征提取方法主要有HOG方向梯度直方圖、HAAR矩形特征、SIFT尺度不變特征變換、LBP局部二值模式等方法[10?11]??紤]到SIFT方法具有較高的容忍性、獨特性與多量性,本文的圖片特征提取方法選用SIFT方法。
1.3? PGBN主題模型
PGBN為有向深度網(wǎng)絡主題模型,有別于DBN等傳統(tǒng)網(wǎng)絡的二元隱藏單元。其非負實隱藏單元符合伽馬分布,能夠無監(jiān)督地推導表示出多層多元的計數(shù)向量,實現(xiàn)隱藏可見特征相關性的簡單有效表示[12]。PGBN主題模型將觀測計數(shù)向量(泊松近似下)分解轉換為第一層隱藏單元(伽馬分布下)與因子載荷矩陣的乘積,并進一步將該層隱藏單元分解轉換為下一層隱藏單元與連接權重矩陣的乘積。相比于傳統(tǒng)二元隱藏單元深層網(wǎng)絡的推理處理及網(wǎng)絡深度與各層寬度的調整要求,PGBN主題模型能夠在第一層寬度確定的情況下,使用非負實隱藏單元對后續(xù)層寬度進行推導。
2? 用戶畫像模型的構建
2.1? 文本和圖片預處理
本文文本預處理的一般流程如圖2a)所示。借助結巴中文分詞包配套的Python組件進行分詞操作,經(jīng)停用詞表遍歷后,將無意義的停用詞與無效詞過濾,進而整合成詞匯表。詞匯表中,同種詞匯有序放置在同一行,各種詞匯所對應的行數(shù)記為索引值。進一步列出計數(shù)矩陣[Xw],用于統(tǒng)計微博中的詞頻,其各元素[Xw(i,j)]即表示詞匯[i]出現(xiàn)在文檔[j]中的頻率。
圖片預處理則使用了SIFT方法對圖片局部特征進行提取。在不同空間尺度中,對極值點進行尋找并將其作為關鍵點,進而得到圖像特征向量。該向量包含方向、尺度與位置信息。其一般流程如圖2b)所示。用[128×n]的描述子對得到的局部特征關鍵點的維度與數(shù)量進行表示,所有的描述子則構成了該幅圖像的集合。由于每幅圖像得到的SIFT矢量數(shù)目龐大,會給計算資源帶來較大的壓力。因此采用聚類算法對上述集合元素進行聚類,生成與特征矢量逐一對應的視覺序列,從而得到描述該幅圖像的字典。字典的構造步驟可描述為:對[M]幅圖像的[N]個SIFT特征進行提取;利用K?means算法進行聚類,得到[k]個聚類中心(即視覺詞),進而得到長度為[k]的字典;計算各特征與上述聚類中心的距離,并對與聚類中心距離最近的詞頻進行統(tǒng)計,從而得到表示每幅圖像的詞頻矢量;歸一化處理每幅圖像經(jīng)聚類得到的字典矢量,最終構造出字典。
2.2? 模型框架和構建方法
文中主要根據(jù)目前使用廣泛的微博內容進行用戶畫像模型的構建,因此數(shù)據(jù)集主要由微博用戶的圖片與配套短文本構成。本文用戶畫像模型的框架即流程如圖3所示。
借助詞袋方式對圖像與文本數(shù)據(jù)進行處理,得到相應的原始特征,進而生成視覺與文本詞袋。用潛變量[Θ(t)j∈RKt+]描述文件[j]中圖片與文本的模態(tài)共享,該潛變量符合伽馬分布,為串聯(lián)的視覺與文本隱藏單元[θ(t)w-j∈RKt+]和[θ(t)v-j∈RKt+]。其中,層數(shù)[t=1,2,…,T-1],[R+={w:w≥0,v:v≥0}]。此外,用[θ(t)v∈RKtKt+1+]與[θ(t)w∈RKtKt+1+]分別表示圖片和文本中表現(xiàn)出的主題?;赑GBN深度學習網(wǎng)絡模型建立包含5層隱藏單元的深度網(wǎng)絡,并使用吉布斯向上?向下的采樣方法對參數(shù)進行推導采樣[13]。
3? 仿真和分析
文中隨機選擇2 985名微博活躍用戶,爬取基本用戶信息與其所發(fā)布同時含有文本與圖片的257 952條微博,作為本文模型的訓練與測試數(shù)據(jù)集。在訓練模型時,選用了Layer?Wise訓練方法,第一層的寬度設置為400,網(wǎng)絡深度設置為5,初始化超參數(shù)值為[a0=b0=0.011],[e0=f0=0.9],所有層均滿足[η(t)=ξ(t)=0.04]。
在對訓練數(shù)據(jù)集進行文本與圖片預處理后,訓練并構建本文的用戶畫像模型,得到包括軍事、美食、寵物、體育、旅游、數(shù)碼、健身、音樂、美妝、游戲在內的10個偏向于興趣愛好的用戶屬性主題。其部分主題的主題詞與權重如表1所示。可以看到,部分主題詞會在不同的主題中出現(xiàn),例如“跑步”同時出現(xiàn)在健身與體育主題中,這是因為兩者具有較高的關聯(lián)性。此外,各主題下的大部分主題詞均具有獨特的特征,比如動作、瑜伽、健身等能夠較明顯地看出其屬于“健身”這一主題。
本文挑選的3名微博用戶興趣愛好情況如圖4所示。從圖4可看出,不同用戶具有不同屬性特點,在各個主題的偏好上具有不同的傾向分布。其中,用戶1對美妝主題具有最高的關注度,其次是健身、美食、寵物與游戲;用戶2則偏愛于健身,其次是美妝與美食;用戶3對于軍事主題具有較高的關注度,而對于其他的主題則關注度較低。因此,可以利用本文的用戶畫像模型獲取用戶的屬性與興趣愛好,進而實現(xiàn)精準營銷與推送。
此外,本文同樣利用測試數(shù)據(jù)集對傳統(tǒng)的用戶畫像模型進行測試。發(fā)現(xiàn)當用戶發(fā)表的內容形式單一時,得到的用戶屬性通常并不完整,缺失用戶興趣愛好標簽的概率較大。這是因為傳統(tǒng)模型只針對文本或圖片進行構建,而本文算法由于融合了圖片與文本兩種數(shù)據(jù),所以能夠有效改善這一狀況。
4? 結? 語
本文基于深度學習技術對用戶畫像模型構建算法進行了研究。通過借助結巴分詞算法與SIFT方法,對短文本及圖片進行了預處理與融合,并結合PGBN深度學習模型與吉布斯向上?向下的采樣方法,實現(xiàn)了用戶畫像模型的構建和訓練。本文方法能夠同時利用網(wǎng)絡上的文本與圖片信息,精準地采集、分析出用戶的興趣愛好特征信息并全面獲取用戶的屬性特征,從而有效提高營銷推送的精準性與目的性。
參考文獻
[1] 李鑫,郭進利,張禹.互聯(lián)網(wǎng)空間下的城市網(wǎng)絡格局及結構研究[J].計算機應用研究,2017,34(3):808?812.
[2] 田鶴,趙海,王進法,等.互聯(lián)網(wǎng)傳播行為的時序演化與預測[J].通信學報,2018,39(6):116?126.
[3] 田亞明.鐵路移動互聯(lián)網(wǎng)營銷策略研究[J].鐵路計算機應用,2017,26(6):48?51.
[4] 葛從進.基于移動互聯(lián)網(wǎng)的客戶營銷管理系統(tǒng)的設計與實現(xiàn)[D].南京:南京理工大學,2018.
[5] GAO Weifeng, HUANG Lingling, LIU Sanyang, et al. Artificial bee colony algorithm based on information learning [J]. IEEE transactions on cybernetics, 2015, 45(12): 2827?2839.
[6] 李恒超,林鴻飛,楊亮,等.一種用于構建用戶畫像的二級融合算法框架[J].計算機科學,2018,45(1):157?161.
[7] BOYER V. An artistic portrait caricature model [C]// International Symposium on Visual Computing. Berlin: Springer, 2005: 212?216.
[8] 于興尚,王迎勝.面向精準化服務的圖書館用戶畫像模型構建[J].圖書情報工作,2019,63(22):41?48.
[9] 成于思,施云濤.面向專業(yè)領域的中文分詞方法[J].計算機工程與應用,2018,54(17):30?34.
[10] LI Y, HU M, WANG T Y. Weld image recognition algorithm based on deep learning [J]. International journal of pattern recognition and artificial intelligence, 2020, 34(8): 17.
[11] 辛亮亮.基于局部二值模式的圖像特征描述方法研究[D].重慶:重慶郵電大學,2019.
[12] 郭丹丹,陳渤,叢玉來,等.基于PGBN模型的SAR圖像目標識別方法[J].電子與信息學報,2016,38(12):2996?3003.
[13] 張志遠,楊宏敬,趙越.基于吉布斯采樣結果的主題文本網(wǎng)絡構建方法[J].計算機工程,2017,43(6):150?157.