商家衡 郝久月
摘? 要: 針對現(xiàn)代互聯(lián)網(wǎng)環(huán)境下,網(wǎng)絡日志規(guī)模急速擴張,可挖掘內(nèi)容極為豐富的現(xiàn)狀,梳理國內(nèi)基于網(wǎng)絡日志的用戶行為檢測和用戶畫像領域的主要文獻及工作。簡要敘述上述兩個領域的基本理論,并以公安工作、電子商務、醫(yī)療健康、旅游行業(yè)和圖書館業(yè)這五個行業(yè)中的案例來總結上述兩個領域內(nèi)的主要應用。對網(wǎng)絡日志進行挖掘可以極大地提升用戶體驗,但也要正視其在隱私保護方面的缺失。
關鍵詞: 用戶行為檢測; 用戶畫像; 網(wǎng)絡日志
中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)05-25-04
User behavior detection and portrait construction technology based on Web logs
Shang Jiaheng Hao Jiuyue
Abstract: In view of the rapid expansion of Web logs in the modern Internet environment and the current situation of extremely rich content can be explored, in this paper, the main literature and work in the field of user behavior detection and user portrait based on Web logs in China are sorted out. Briefly describing the basic theories of the above two fields, the actual cases in the five industries of public security work, e-commerce, medical health, tourism and library industry are used to summarize the main applications in the above two fields. Mining weblog can greatly enhance user experience, but it should also face up to its lack of privacy protection.
Key words: user behavior detection; user portraits; Web logs
引言
⑴ 研究背景
時至今日,互聯(lián)網(wǎng)已成為全球大多數(shù)人生活的重要部分。據(jù)中國互聯(lián)網(wǎng)絡信息中心(CNNIC)《第47次中國互聯(lián)網(wǎng)絡發(fā)展現(xiàn)狀統(tǒng)計報告》的數(shù)據(jù)顯示,以網(wǎng)絡購物和在線政務服務舉例,截至2020年12月,我國網(wǎng)絡購物用戶規(guī)模達7.82億,較2020年3月增長7215萬,占網(wǎng)民整體的79.1%;我國在線政務服務用戶規(guī)模達8.42億,占網(wǎng)民整體的85.3%[1]。由此言之,基于互聯(lián)網(wǎng)基礎設施而建立起來的線上服務已經(jīng)被大多數(shù)人所依賴,而用戶也在使用服務的過程中在其上留下了海量的登陸記錄、訪問記錄等網(wǎng)絡日志信息。
⑶ 研究目的及意義
用戶在互聯(lián)網(wǎng)中留下的網(wǎng)絡日志是一個隱含著大量可挖掘內(nèi)容的寶藏。而用戶行為檢測著力于發(fā)現(xiàn)用戶上網(wǎng)行為所存在的規(guī)律,在此基礎上引入用戶畫像,能從更細的粒度出發(fā),揭示用戶的特征。例如,用戶訪問網(wǎng)站及APP時的登陸、點擊、駐留時間等信息,這些信息如能被開發(fā)人員依法依規(guī)分析,則能對網(wǎng)站及APP的內(nèi)容個性化推薦、廣告引流以及惡意用戶的防御起到比較好的作用,優(yōu)化用戶使用體驗,提高APP的運營收益。
⑶ 各章內(nèi)容介紹
本文的行文將分為四章,本章作為引言介紹研究的背景、目的及意義;第1章簡要闡述用戶行為檢測和用戶畫像構建的研究現(xiàn)狀和理論;第2章分五個行業(yè)及領域來說明利用用戶行為檢測的數(shù)據(jù)所構建出的用戶畫像在實際中的應用;第3章對全文做一總結并對未來有所展望。
1 研究現(xiàn)狀與基本理論
本章將簡要闡述用戶行為檢測和用戶畫像構建的研究現(xiàn)狀和理論,具體的行文架構如圖1所示。
1.1 用戶行為檢測研究現(xiàn)狀
1.1.1 基于模式挖掘
基于模式挖掘的方式,其中心思想在于通過比較用戶的歷史行為模式與當前行為模式,對相似度低于某個閾值的行為做出預警。其中代表性研究如連一峰利用Apriori算法和序列模式挖掘來計算正常模式和現(xiàn)有行為的相似度[2]。宋海濤采用模式挖掘算法并結合滑動時間窗口策略形成一種行為異常檢測算法[3]。
1.1.2 基于隨機過程
基于隨機過程的方式,其中心思想在于通過統(tǒng)計正常情況下的用戶行為,可以計算出用戶下一步行為可能選擇的概率值,預警有所出入的概率值所對應的行為。其中代表性研究如謝逸引入隱半馬爾科夫模型(HsMM)發(fā)現(xiàn)混雜在正常流量中的攻擊流量,通過限制異常用戶對服務器資源的占用來保證正常用戶可以優(yōu)先使用服務器的各項服務[4]。
1.1.3 基于機器學習
基于機器學習的方式,其中心思想在于通過訓練降低人工開銷。其中代表性研究如陸悠為了解決非平衡性和分布復雜性問題,基于選擇性協(xié)同學習生成成員分類器并依此標記出異常行為[5]。陳勝采用深度神經(jīng)網(wǎng)絡(DNN)分析流量特征數(shù)據(jù)、檢測未知異常行為,亮點在于引入的DNN算法對不斷推陳出新的惡意行為有著更好的快速響應和應對能力[6]。
1.1.4 基于用戶畫像
基于用戶畫像的方式,其中心思想在于總結歸納用戶的形象。其中代表性研究如趙剛針引入了用戶畫像技術并對比識別出異常行為,提供了更好的檢測效果[7]。朱家俊引入了用戶畫像技術來提取用戶行為中的特征,計算正常與待測特征的馬氏距離并用孤立森林算法來判斷異常[8]。
1.2 用戶畫像研究現(xiàn)狀
1.2.1 基于用戶行為
基于用戶行為的方式,其中心思想在于以用戶行為為素材勾勒出用戶的畫像。缺點在于用戶行為可能會存在被濫用的情況。其中代表性研究如黃文彬構建出移動用戶畫像,并推測用戶的居住地、工作地等信息,使得運營商根據(jù)用戶畫像做出個性化推薦成為可能[9]。王凌霄量化分析了“知乎”用戶的資歷、參與度等指標,使用戶畫像有更好的效果[10]。
1.2.2 基于興趣偏好
基于興趣偏好的方式,其中心思想在于參考用戶感興趣的內(nèi)容。其中代表性研究如趙開慧分別將網(wǎng)絡用戶和資源分類,爾后依據(jù)相似度向用戶展示個性化推薦[11]。石宇以“豆瓣”為基礎,提取資源特征、識別用戶感興趣的資源,最終實現(xiàn)用戶興趣的表示,不足之處在于粒度上稍顯粗糙[12]。
1.2.3 基于主題
基于主題的方式,其中心思想在于將用戶所使用內(nèi)容形成主題并生成畫像。代表性研究如:林燕霞統(tǒng)計出新浪微博用戶的主題偏好并依此得到為五個群體用戶畫像,應用于網(wǎng)絡輿情治理[13];唐曉波使用隱含狄利克雷分布(LDA)對“豆瓣”電影集合做主題聚類,依此計算出用戶對各個主題的傾向,最終形成的推薦結果取得了比傳統(tǒng)算法更好的效果[14]。
1.2.4 基于本體
基于本體的方式,其中心思想在于做好用戶畫像就要先做好描述用戶的幾個維度。其中代表性研究如姜建武提取語義本體的行為主題,計算出權重并刻畫用戶的互聯(lián)網(wǎng)行為形成用戶畫像,提供個性化推薦[15]。
1.3 用戶行為檢測理論
關于用戶行為檢測的概念,一種觀點認為,用戶行為模式體現(xiàn)了用戶的行為習慣和特點,通過比較用戶當前及正常行為模式的相似度來判斷是否存在異常行為[2]。另一種觀點認為,將用戶的行為抽象化為數(shù)學上的隨機過程并學習用戶正常的行為概率矩陣,可以評估用戶的行為是否可信。其次用戶行為檢測也有一定的特征:正常用戶與異常用戶的比例并不均衡,因此誤報率較高,制定閾值和指標時應動態(tài)調(diào)整;檢測程序需要適應用戶行為隨時間的推移會發(fā)生的新變化[16]。
1.4 用戶畫像構建理論
用戶畫像的概念來自于Alan Cooper所提出的“User Persona”:從大量的基礎數(shù)據(jù)中提取用戶的屬性并將其凝練為有著一定特點的形象[17]。目前國內(nèi)也形成了幾種觀點:用戶畫像是基于大量的用戶基礎數(shù)據(jù)提取出用戶特征而得到的標簽化用戶群貌[18];用戶畫像是從大量真實數(shù)據(jù)中提取用戶的行為和興趣得到的虛擬用戶模型[19]。其次,用戶畫像主要有三個特征:標簽化、時效性、動態(tài)性[18]。標簽是一種語義簡明扼要的文本,特征標簽化使得用戶畫像的生成更加方便,生成的用戶畫像能更好地反映用戶或用戶群體的全貌。另外,用戶畫像中存在隨著用戶行為的進行而有所變化的屬性,只有不斷地更新用戶畫像,才能保證用戶畫像的準確性。
2 應用案例
第2章將分行業(yè)及領域來說明利用用戶行為檢測的數(shù)據(jù)所構建出的用戶畫像在實際中的應用,通過閱讀有關文獻歸納得到應用的一般架構如圖2所示。
2.1 在公安工作中應用
結合用戶行為檢測和用戶畫像技術,公安機關可識別出意見領袖以及推動輿論變化的主要推手,引導輿論向好的方向發(fā)展,打造一個風朗氣清的網(wǎng)絡環(huán)境[20]。其中代表性研究如梁越嶺使用改進的Single-pass增量聚類算法得到用戶行為的模式規(guī)律畫像和輿情熱點話題;使用社會網(wǎng)絡分析技術分析某輿情群體組織并監(jiān)控組織行為,預警網(wǎng)絡輿情群體事件[21]。
2.2 在電子商務中應用
電商平臺由于其通過互聯(lián)網(wǎng)與用戶進行線上交易,需要盡可能多的掌握用戶相關信息,以便統(tǒng)計出用戶的行為決策規(guī)律來進一步優(yōu)化營銷與推薦系統(tǒng),提升用戶體驗、提高平臺的營業(yè)額[22]。其中代表性研究如洪亮分析了淘寶、京東和亞馬遜三家電商平臺的推薦系統(tǒng),簡要概述了三家平臺生成用戶模型并做出推薦的思路及所采用的熱點推薦技術[23]。
2.3 在醫(yī)療健康中應用
在醫(yī)療健康領域,患者看病難一直是一個較為突出的問題。其中代表性研究如韓梅花通過分析用戶微博發(fā)帖的行為和文本,量化其抑郁情感指數(shù)并建立用戶畫像,向可能的抑郁癥患者推送相應的閱讀治療資源,使患者的治療效果相應地提高[24]。王智囊根據(jù)醫(yī)院積累的患者信息和醫(yī)療健康領域的知識庫建立了患者用戶畫像并將其應用于推薦算法之中,使得患者可以更快速地獲得更準確的個性化醫(yī)療信息與醫(yī)療方案[25]。
2.4 在旅游行業(yè)中應用
相較于其他行業(yè)的推薦系統(tǒng),旅游行業(yè)的推薦系統(tǒng)有著本行業(yè)獨有的一些挑戰(zhàn)[26]。其中代表性研究如劉海鷗將用戶行為信息同情境信息相結合,建立標簽化的用戶畫像,在此基礎上利用用戶的情境信息做協(xié)同過濾推薦并進行了實例驗證[27]。
2.5 在圖書館業(yè)中應用
用戶畫像這一概念在建立的初期,即已受到圖書館業(yè)者的注意并嘗試在業(yè)內(nèi)落地應用,取得了較好的效果。其中代表性研究如何娟結合規(guī)則和具體借還書數(shù)據(jù),建立了用戶畫像標簽集,據(jù)此通過聚類和相似度計算實現(xiàn)了單個用戶畫像和群體用戶畫像,效果得到了讀者的肯定[28]。
3 總結與展望
本文簡單敘述了用戶行為檢測和用戶畫像領域的主要文獻和主要工作,從研究現(xiàn)狀和基本理論入手,最后落腳于實踐,列舉了在幾大領域內(nèi)上述研究成果的具體應用和效果。在如今的互聯(lián)網(wǎng)發(fā)展大背景下,用戶實際上是一個較為渺小的存在:用戶享受著互聯(lián)網(wǎng)服務的便利的同時,也將自己的大量隱私暴露在互聯(lián)網(wǎng)上。因此,用戶體驗和隱私保護之間應找到一個適當?shù)钠胶恻c,使得企業(yè)及運營者有法可依、有規(guī)可循,用戶則可安全地取得更好的用戶體驗。
參考文獻(References):
[1] 中國互聯(lián)網(wǎng)絡信息中心(CNNIC).第47次中國互聯(lián)網(wǎng)絡發(fā)
展現(xiàn)狀統(tǒng)計報告[R/OL].(2021-2-3)[2021-8-1].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203
334633480104.pdf
[2] 連一峰,戴英俠,王航.基于模式挖掘的用戶行為異常檢測[J].
計算機學報,2002(3):325-330
[3] 宋海濤,韋大偉,湯光明,等.基于模式挖掘的用戶行為異常檢
測算法[J].小型微型計算機系統(tǒng),2016,37(2):221-226
[4] 謝逸,余順爭.基于Web用戶瀏覽行為的統(tǒng)計異常檢測[J].
軟件學報,2007(4):967-977
[5] 陸悠,李偉,羅軍舟,等.一種基于選擇性協(xié)同學習的網(wǎng)絡用戶
異常行為檢測方法[J].計算機學報,2014,37(1):28-40
[6] 陳勝,朱國勝,祁小云,等.基于深度神經(jīng)網(wǎng)絡的自定義用戶異
常行為檢測[J].計算機科學,2019,46(S2):442-445,472
[7] 趙剛,姚興仁.基于用戶畫像的異常行為檢測模型[J].信息網(wǎng)
絡安全,2017(7):18-24
[8] 朱佳俊,陳功,施勇,等.基于用戶畫像的異常行為檢測[J].
通信技術,2017,50(10):2310-2315
[9] 黃文彬,徐山川,吳家輝,等.移動用戶畫像構建研究[J].現(xiàn)代
情報,2016,36(10):54-61
[10] 王凌霄,沈卓,李艷.社會化問答社區(qū)用戶畫像構建[J].情報
理論與實踐,2018,41(1):129-134
[11] 趙開慧.基于社會化標注的個性化信息推薦方法研究[J].
情報科學,2015,33(6):39-42
[12] 石宇,胡昌平,時穎惠.個性化推薦中基于認知的用戶興趣
建模研究[J].情報科學,2019,37(6):37-41
[13] 林燕霞,謝湘生.基于社會認同理論的微博群體用戶畫像[J].
情報理論與實踐,2018,41(3):142-148
[14] 唐曉波,謝力.基于主題的用戶興趣模型的構建及動態(tài)更新[J].
情報理論與實踐,2016,39(2):116-123
[15] 姜建武,李景文,陸妍玲,等.基于用戶畫像的信息智能推送
方法[J].微型機與應用,2016,35(23):86-89,92
[16] 張有,王開云,張春瑞,等.基于用戶行為日志的內(nèi)部威脅檢
測綜述[J].計算機時代,2020(9):45-49
[17] Cooper A,Robert Reimann R,Cronin D.About Face 3:
The Essentials of Interaction Design[M].New Jersey: Wiley Publishing Inc.,2007:19-22
[18] 宋美琦,陳燁,張瑞.用戶畫像研究述評[J].情報科學,2019,
37(4):171-177
[19] 徐芳,應潔茹.國內(nèi)外用戶畫像研究綜述[J].圖書館學研究,
2020(12):7-16
[20] 王淼,劉家委,朱鑫奕,等.網(wǎng)絡輿情社會影響力研究綜述[J].
電腦知識與技術,2020,16(25):71-72,79
[21] 梁越嶺.互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D].武漢理
工大學,2010
[22] 陸冬磊.基于電子商務的用戶畫像分析[J].電腦知識與技
術,2018,14(22):306
[23] 洪亮,任秋圜,梁樹賢.國內(nèi)電子商務網(wǎng)站推薦系統(tǒng)信息服
務質(zhì)量比較研究——以淘寶、京東、亞馬遜為例[J].圖書情報工作,2016,60(23):97-110
[24] 韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——
以抑郁癥為例[J].大學圖書館學報,2017,35(6):105-110
[25] 王智囊.基于用戶畫像的醫(yī)療信息精準推薦的研究[D].電子
科技大學,2016
[26] 常亮,曹玉婷,孫文平,等.旅游推薦系統(tǒng)研究綜述[J].計算機
科學,2017,44(10):1-6
[27] 劉海鷗,孫晶晶,蘇妍嫄,等.基于用戶畫像的旅游情境化推
薦服務研究[J].情報理論與實踐,2018,41(10):87-92
[28] 何娟.基于用戶個人及群體畫像相結合的圖書個性化推薦應用
研究[J].情報理論與實踐,2019,42(1):129-133,160
收稿日期:2021-10-20
作者簡介:商家衡(1997-),男,天津人,碩士研究生,主要研究方向:公安信息化。
通訊作者:郝久月(1984-),女,河北人,博士,副研究員,碩士研究生導師,主要研究方向:公安信息化、大數(shù)據(jù)技術、視頻智能分析技術。