徐冬 肖瑩慧
關鍵詞: 行為預測; logistic回歸; 用戶行為; 數據集分類; 機器學習; 留存分析
中圖分類號: TN919?34; TP391 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)04?0094?03
Website user behavior prediction based on machine learning technology
XU Dong, XIAO Yinghui
(Wuhan College, Wuhan 430212, China)
Abstract: In allusion to the problems of low user retention degree, conversion rate and loyalty in the website, taking a tourist website as an example, an accessing user behavior prediction model is proposed for the tourist website on the basis of the machine learning technology of logistic regression. The behavior data sets of website users are preprocessed by means of the model. The data sets are classified according to the fixed proportion. It is verified that the data set classification follows the same statistical distribution. The model corresponding to the logistic regression machine learning algorithm is established to predict the behavior of website users. The prediction results show that the model can predict website users′ behavior accurately.
Keywords: behavior prediction; logistic regression; user behavior; data set classification; machine learning; retention analysis
隨著經濟和社會的快速發(fā)展,我國的旅游業(yè)市場異常繁榮,從業(yè)的旅游網站迅速增加,這也導致旅游網站之間的競爭日趨激烈。在旅游網站的經營中,源源不斷的用戶來源是其存在的前提和基礎。諸多旅游網站每天均有海量的用戶訪問,但在這些訪問行為中,絕大多數的用戶最終均會流失。通過提取訪問用戶的消費等信息,使用機器學習技術預測用戶的留存情況,旅游網站便可充分了解用戶的流失原因和消費喜好,從而提高用戶的體驗與網站的服務水平。所以,如何使用機器學習技術留存和轉化大量的用戶,成為了旅游網站所面臨的重大問題。
目前,眾多研究者對網站的用戶流失問題進行了深入的研究[1?4],這一問題的研究也有較多可以參考的方法[5?8]。為了解決旅游網站的用戶流失問題,基于logistic回歸算法[9?10],本文建立用戶行為預測模型,該模型可以準確地預測用戶的行為。通過軟件的計算結果可知,使用logistic回歸算法的預測模型具有更加準確的預測效果。
機器學習是使用計算機模擬人類學習行為,從而使機器也具有認知和理解能力的一種技術。其基本原理如圖1所示。
在一般的系統(tǒng)流程中,系統(tǒng)接收輸入的信息之后,輸出被處理過的信息。而使用機器學習的系統(tǒng),是在常規(guī)的系統(tǒng)之外,添加一個可以影響系統(tǒng)處理設備的學習機。該設備可以使用一定數量的訓練數據估計系統(tǒng)輸入和輸出之間的關系,當接收到正常的輸入數據之后,學習機預測得到未知的輸出結果。
一般而言,機器學習可分為監(jiān)督學習和自主學習。其中,監(jiān)督學習是使用具有目標變量的訓練數據進行訓練,可以比較精確地預測訓練以外數據的目標變量。監(jiān)督學習技術主要有l(wèi)ogistic回歸、隨機森林算法和神經網絡算法等。自主學習是使用沒有目標變量的訓練數據訓練,尋找數據的內部規(guī)律,即目標變量是模糊的,常見的算法有k?means聚類分析、系統(tǒng)聚類法等。因只涉及到logistic回歸,所以本文不再介紹自主學習算法。
logistic回歸是常被用于因變量分類的統(tǒng)計分析算法,logistic回歸的因變量既可以是二分類,也可以是多分類,這里簡要介紹多分類的logistic回歸模型。
2.1 ?logistic函數
1838年,統(tǒng)計學家P.F.Verhuist在研究人口數量的統(tǒng)計中,首次提出logistic函數。令[p]表示事件[y=1]的概率,則logistic變換的表達式為:
[z=logitp=lnp1-p]
使用這一公式便可得到logistic函數(也被稱為Sigmoid函數)的公式,即:
[p=11+e-z]
式中,[p∈0,1]。
2.2 ?邏輯回歸模型
首先,已知:
[lnp1-p=β0+β1x1+…+βpxp+ε]
根據上式可以建立線性回歸模型,而變量[x1,x2,…,xp]可以取任意值,令[gx=β0+β1x1+…+βpxp],可知:
[py=1=11+e-z]
[py=0=1-11+e-z=11+ez]
在本文中,以某旅游網站為研究對象,使用logistic回歸和隨機森林算法對該旅游網站的用戶購買行為進行分析及預測,從而挖掘用戶的流失原因。最終完善網站的產品設計,提升用戶的體驗和忠誠度。
本文使用該網站2016年7月15日—7月21日的用戶訪問數據,這些數據包含用戶信息、酒店和瀏覽信息。其中,用戶的總數為348 596,指標總數為35個。用戶行為預測流程如圖2所示。
一般而言,logistic回歸主要被用于目標變量和多個自變量之間關系的研究?;趕pss 17.0的軟件平臺,本文使用logistic回歸模型對網站用戶的行為進行預測。
3.1 ?建模流程
首先,為了使用logistic回歸模型進行預測,文中需要將訓練數據導入spss 17.0軟件中,依次點擊“分析”“回歸”和“二元logistic”,選擇因變量“l(fā)abel”,確定“hotel_comment_nums”與“id”等其他協(xié)變量,點擊“標準化”“偏差”和“杠桿值”等選項,然后點擊“繼續(xù)”。在選項中,需要選擇“分類圖”“ Hosmer?Lemeshow擬合度”“exp(B)”三項內容;輸出選項中,選擇“在最后一個步驟中”,步進概率選項中,選擇默認設置即可。
設置完成所有的參數之后,點擊軟件的繼續(xù)按鈕,即可得到相應的結果。
3.2 ?模型結果
在軟件運行之后,得到一系列的運行結果,包括分類表、顯著性檢驗、模型匯總、預測方程和評估分析等。
1) 已知該模型在設置參數初始值之后,進行多次迭代,最終達到收斂狀態(tài)。此時的參數值就是模型的參數。在運行完成之后,已知logistic回歸模型的準確率為67.8%,其覆蓋率是32.89%,其F值是43.76%。具體的分類如圖3所示。
2) 本文對logistic回歸模型的系數進行了顯著性檢驗。經過軟件的運行可知,若顯著性水平[α=0.05],自由度[df=21],計算可知卡方統(tǒng)計量[χ2=4 714.658],其臨界值為[χ2臨=32.589 2],即[χ2]遠大于[χ2臨]且[p=0?α=0.05],所以logistic回歸模型通過顯著性檢驗。
3) 本文對該模型進行了匯總,得到3個統(tǒng)計值,其統(tǒng)計結果如表1所示。[ 已觀測 已預測 label 百分比 0 1 步驟1 Label 0 24 298 3 536 87.6 1 10 879 5 198 32.8 總計百分比 67.8 ]
由表1可知,該模型的對數似然值52 829.756,遠大于[χ2臨=32.589 2],這表明該模型的最大對數似然值通過了統(tǒng)計檢驗。
4) 由[p<0.05]可知,變量對整體模型具有顯著的影響,所以可得到模型的預測方程,其具體形式如下:
[py=1=1exp(0.644+0.566*visit_to_buy+1.402*nums_visit-0.09*]
[land_time+0.066*perfer_star-0.238*nums_order+0.054*]
[fir_order_bu-0.176*weight_cust_value-0.074*hotel_uv-]
[0.125*hotel_cr+0.075*low_price-0.086*weight_perfer_busi-]
[0.051*cr_prefer-0.385*cust_cr-0.103*weight_comment_num]
[0.075*last_order_diff-0.064*cust_visit_pages)]
5) 基于測試數據,本文還對該模型的預測結果[py=1]進行了計算,獲取了用戶留存的概率。表2列出了部分計算結果,需要說明的是,若概率大于0.5,則認為該用戶的留存值是1,否則是0。
經過軟件的統(tǒng)計,本文一共對14 630組測試數據進行預測,模型預測的準確率是67.59%。其中,正樣本的預測準確率是32.99%,負樣本的預測準確率是87.58%。綜上所述,使用logistic回歸算法的機器學習技術,可以較為準確地預測旅游網站用戶的行為。
基于旅游網站中的大量用戶數據,本文使用logistic回歸的機器學習技術,建立能夠預測網站用戶留存的計算模型,并得到了相對準確的預測方程。經過軟件的計算可知,該模型的預測準確率達到了67%。
參考文獻
[1] 孟杰.基于用戶行為的異常檢測系統(tǒng)研究與實現(xiàn)[D].南京:東南大學,2009.
MENG Jie. Research and implementation of anomaly detection system based on user behavior [D]. Nanjing: Southeast University, 2009.
[2] 陸悠,李偉,羅軍舟,等.一種基于選擇性協(xié)同學習的網絡用戶異常行為檢測方法[J].計算機學報,2014,37(1):28?40.
LU You, LI Wei, LUO Junzhou, et al. A network users′ abnormal behavior detection approach based on selective collaborative learning [J]. Chinese journal of computers, 2014, 37(1): 28?40.
[3] 張闊.基于機器學習的電信網絡用戶行為分析研究[D].北京:北京郵電大學,2014.
ZHANG Kuo. Analysis of user behavior in telecommunication networks based on machine learning [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[4] 陳勝,朱國勝,祁小云,等.基于機器學習的網絡異常流量檢測研究[J].信息通信,2017(12):39?42.
CHEN Sheng, ZHU Guosheng, QI Xiaoyun, et al. Research on abnormal network traffic detection based on machine learning [J]. Information & communications, 2017(12): 39?42.
[5] 畢猛,王安迪,徐劍,等.基于離散馬爾科夫鏈的數據庫用戶異常行為檢測[J].沈陽工業(yè)大學學報,2018,40(1):70?76.
BI Meng, WANG Andi, XU Jian, et al. Anomaly behavior detection of database user based on discrete?time Markov chain [J]. Journal of Shenyang University of Technology, 2018, 40(1): 70?76.
[6] 許智,李紅嬌,陳晶晶,等.基于機器學習的用戶竊電行為預測[J].上海電力學院學報, 2017,33(4):389?393.
XU Zhi, LI Hongjiao, CHEN Jingjing, et al. Prediction of user stealing behavior based on machine learning [J]. Journal of Shanghai University of Electric Power, 2017, 33(4): 389?393.
[7] 劉健嵐.認知無線電中基于機器學習的頻譜接入研究[D].北京:北京郵電大學,2017.
LIU Jianlan. Research on spectrum access based on machine learning in cognitive radio [D]. Beijing: Beijing University of Posts and Telecommunications, 2017.
[8] 劉鵬飛.客戶網購行為分析及預測系統(tǒng)研究[D].唐山:華北理工大學,2016.
LIU Pengfei. The research of customer′s online shopping behavior analysis and prediction system [D]. Tangshan: North China University of Science and Technology, 2016.
[9] 張曉艷.基于機器學習的網絡異常流量檢測方法[J].現(xiàn)代電子技術,2015,38(23):76?79.
ZHANG Xiaoyan. Research on network anomaly traffic detection method based on machine learning [J]. Modern electronics technique, 2015, 38(23): 76?79.
[10] 王萍.基于大數據技術的網絡異常行為分析監(jiān)測系統(tǒng)[J].電子技術與軟件工程,2017(24):172?173.
WANG Ping. Network anomaly behavior analysis and monitoring system based on big data technology [J]. Electronic technology & software engineering, 2017(24): 172?173.