孫連海,盧 穎
(1.成都師范學院 計算機科學學院,四川 成都 611130;2.西安工業(yè)大學 計算機科學與工程學院,陜西 西安 710021)
在當今互聯(lián)網(wǎng)環(huán)境下,產(chǎn)品或者服務的評價普遍存在。這些評價可以向新的用戶提供產(chǎn)品或者服務的質量,并且對用戶對產(chǎn)品或者服務的購買提供決策信息[1]。隨著社會的快速發(fā)展,公司或者產(chǎn)品制造商之間的競爭也日益激烈,產(chǎn)品的評價同樣也影響著產(chǎn)品的生產(chǎn)線。事實上,客戶對產(chǎn)品的評價可以作為產(chǎn)品未來銷售的基本預測指標[2]。為了避免負面影響,公司可以通過分析產(chǎn)品的評價找出產(chǎn)品的缺陷或者功能上的不足,從而更好地改進產(chǎn)品的設計。
本文通過對產(chǎn)品的評價值分布進行時序分析,從而發(fā)現(xiàn)用戶評價的基本模式和異常模式。在時序的評價值分布中,本文的目標是提取用戶的基本行為和異常行為?;拘袨榉磻水a(chǎn)品的質量隨著時間的變化,異常行為是用戶對產(chǎn)品的評價值為異常模式的時間點。異常值的出現(xiàn)主要有兩種,第一種是通過大量的垃圾信息鼓吹產(chǎn)品的質量[3,4],第二種是產(chǎn)品生產(chǎn)過程的改進[5]?;拘袨楸磉_了產(chǎn)品在時序影響下的質量,例如隨著競爭對手的技術更新產(chǎn)品的質量逐漸下降。異常為用戶評價值的不規(guī)則性,例如觀測到的用戶評價值偏離了用戶的基本評價值。
本文應用產(chǎn)品的時序評價值分布對產(chǎn)品的基本模式進行分析,并對異常的行為模式進行檢測。對于不同的數(shù)據(jù)類型,文獻[6]提出了不同的異常檢測方法。當數(shù)據(jù)是獨立同分布時,流數(shù)據(jù)的時序異常檢測研究是一項重要的研究內(nèi)容[7,8]。在時序數(shù)據(jù)的異常檢測中,時序數(shù)據(jù)中的部分數(shù)據(jù)可能為異常數(shù)據(jù),然而本文考慮的是單獨的多變量時序數(shù)據(jù),其中的某些時間點可能為異常數(shù)據(jù)[9,10]。此外,在流數(shù)據(jù)異常檢測中,假設數(shù)據(jù)是以流的形式不斷到達,由于系統(tǒng)內(nèi)存空間的局限性僅能處理部分數(shù)據(jù),因而需要額外的數(shù)據(jù)處理對異常進行分析[11]。本文假設產(chǎn)品的評價數(shù)據(jù)是時序的,并且整個評價值的歷史記錄是已知的,因此可以更好地對數(shù)據(jù)進行分析。在傳統(tǒng)的異常檢測中,現(xiàn)有的算法往往假設數(shù)據(jù)中的異常是相互獨立的,并且是一種隨機誤差[6],本文則認為產(chǎn)品的評價值異常反應了產(chǎn)品質量的某種傾向。
本文將用戶對產(chǎn)品評價數(shù)據(jù)視為用戶基本行為和異常行為的組合,應用多變量自動回歸方法進行用戶基本行為的發(fā)現(xiàn)和異常行為的檢測。將用戶的評價值分布表示為累積分布,并且將評價值表示為基本行為和異常行為的線性組合的生成過程。針對評價值中混入的異常行為的稀疏性,基于噪音數(shù)據(jù)的高斯分布,給出了相應的最小化目標函數(shù)。
本文基于多變量自動回歸方法對產(chǎn)品的評分數(shù)據(jù)進行挖掘,從而分析出用戶的基本行為,以及對異常行為的檢測。
在評價分布的累計分布表示中,由于最后一項始終為1,故可以將其省去。此外,在累積分布中,數(shù)據(jù)項之間為非遞減的,后面的數(shù)據(jù)始終大于或者等于前面的數(shù)據(jù),其具體描述見式(1)
CD:={x∈[0…1]D|?i:xi≤xi+1}
(1)
令X=(x(1),…,x(T)),其中x(t)的維度為D=M-1,并且x(t)∈CD。本文應用累積分布X=(x(1),…,x(T))進行數(shù)據(jù)分析,然而在應用圖形對數(shù)據(jù)進行展示時仍然應用原始的評價數(shù)據(jù)。
已知產(chǎn)品的時序評價數(shù)據(jù)X=(x(1),…,x(T)),本文的目的是提取出用戶的基本行為,以及異常行為及其發(fā)生時間點。由于X中混入了異常數(shù)據(jù),因此不能直接應用X估計用戶的基本行為。
本文令時序評價數(shù)據(jù)X=(x(1),…,x(T))為用戶基本行為與異常行為混合而成,將用戶的基本行為A=(a(1),…,a(T))視為潛在變量,那么可以根據(jù)X推導出A,并且依據(jù)A分析用戶的異常行為,其模型如圖1所示。根據(jù)圖1所示,評價數(shù)據(jù)x(t)(1≤t≤T)滿足如下隨機產(chǎn)生過程
x(t)=pt·a(t)+(1-pt)·y+εt
(2)
其中,pt為時間t的權衡系數(shù),pt的取值越大,表明該時間下用戶基本行為的權重越大,εt為時間t的隨機噪音。為了確保模型間各個參數(shù)之間的相互預測性,用戶的基本行為和異常行為的累積分布必須是有效的,即a(t),y∈CD。在式(2)中,x(t)為觀測到的累積評價分布,a(t)為用戶的基本行為分布,y為用戶的異常行為分布。
圖1 產(chǎn)生過程的圖模型描述
假設X中用戶的基本行為a(t)是平滑的,當X出現(xiàn)異常行為y時,X的值會發(fā)生突然變化,本文采用向量自動回歸模型描述上述過程。在時刻t,用戶的正常行為a(t)取決于先前時刻的行為a(t-1),并允許適當?shù)耐蛔?,其隨機產(chǎn)生過程為
(3)
(4)
式(4)所示的先驗分布函數(shù)具有以下優(yōu)點:①該先驗分布函數(shù)易解釋。通過應用L1范式,λ的值為異常的個數(shù)的上屆,并且當異常發(fā)生時容易定位時間點。②該分布函數(shù)為考慮了異常個數(shù)上屆λ的最大熵分布。該分布函數(shù)是不提供信息的先驗函數(shù),并不偏好與特定的向量p。③通過該先驗分布函數(shù),可以應用模型選擇方法自動地確定參數(shù)λ。
(5)
(6)
(7)
其中,自變量x可以為a(0),y,b或者w。由于式(7)中向量的取值是有界的,因此是有效的先驗分布函數(shù)。
當所有變量都在有效的取值范圍內(nèi),聯(lián)合分布似然性p(X,Z)的計算公式如下
(8)
(9)
本文通過對模型進行選擇確定式(9)中的參數(shù)λ。λ控制著自由參數(shù)的個數(shù),當λ從0變?yōu)?時,自由參數(shù)增加2+D個,此外當λ再增加1時,自由參數(shù)增加2個。當λ=0時,沒有用到參數(shù)y,當λ=1時,參數(shù)y出現(xiàn),所以該步驟多了額外的D個參數(shù)。
本文應用BIC(Bayesian information criterion)[12]來確定λ的最優(yōu)值。給定λ,BIC(λ)=-2lnLλ+kλ·ln(D·T)。通過最小化BIC(λ),可以得到最優(yōu)的λ
(10)
其中,kλ=m+2λ+D·min(λ,1)為自由參數(shù)的個數(shù),m為本文提出的模型中不受參數(shù)λ影響的參數(shù),Lλ=1/f(a(0),…,a(T),b,w,y,p)D·T為數(shù)據(jù)的似然性。由于m不受λ影響,因此m的變化不會影響最優(yōu)λ的選取。
在根據(jù)時序評價數(shù)據(jù)得到用戶的基本行為和異常行為描述后,可以對未來的評價值進行預測。由于評價數(shù)據(jù)中異常數(shù)據(jù)是稀疏的,那么可以根據(jù)T時刻的用戶基本行為預測T+1時刻的評價值
(11)
在式(11)中,噪音誤差為高斯分布的期望值0。通過將式(11)計算得到的預測結果與真實的觀測結果相對比,從而可以判斷未來時刻T+1的用戶行為是否為異常行為。
實驗采用公開的Amazon數(shù)據(jù)集[13],該數(shù)據(jù)集包含大約400 000個評價值以及相應的時間戳。對于數(shù)據(jù)集中的每個評價值,均取值為1星到5星的5個離散的評價值,每條評價數(shù)據(jù)包含評價用戶的ID以及被評價產(chǎn)品的ID。此外,數(shù)據(jù)集中還包含產(chǎn)品的文本評價,實驗應用該文本評價作為結果判斷的準確性。
實驗通過對Amazon數(shù)據(jù)集進行分析,評估本文提出的算法在挖掘用戶基本行為和異常行為時的性能。首先,我們觀察評價數(shù)據(jù)集中不同時間序列點下評價的分布情況,如圖2所示。橫軸為不同時間戳下的數(shù)據(jù)評價值,縱軸為不同評價值所占的比例。從該圖可以看出,在Amazon數(shù)據(jù)集中,用戶對產(chǎn)品的評價分布是無規(guī)律的或者規(guī)律不明顯,這說明用戶的基本行為和異常行為混合在一起,從而使得評價序列無明顯規(guī)律。
圖2 數(shù)據(jù)集中用戶評價的真實分布
接下來,采用本文提出的多變量自動回歸算法對數(shù)據(jù)集進行分析,進而提取出評價序列中用戶的基本行為和異常行為,結果分別如圖3和圖4所示。從圖3中可以看出,用戶的基本行為從整個時間序列上看是基本穩(wěn)定的,在所有的時間序列點上,評價值的分布無太大的變化。然而在圖4中,異常行為卻有著較大的波動。將圖3和圖4結合在一起,便可以得到圖2所示的評價值分布。
圖3 數(shù)據(jù)集中隱含的用戶基本行為
圖4 數(shù)據(jù)集中隱含的用戶異常行為
為了評價算法的預測性能,將本文提出的算法與rob.VAR[7],Kalman[8]和VAR[11]這3種算法進行了對比,結果如圖5所示。圖中的橫坐標表示數(shù)據(jù)集中包含的異常個數(shù),縱坐標表示用戶對產(chǎn)品的預測評價值與真實評價值之間的誤差的平均值。從該圖可以看出,當數(shù)據(jù)集中包含的異常個數(shù)增加時,4種算法的預測誤差都隨之增大。然而,不論異常個數(shù)為何值,本文提出的算法的誤差都是最小的,從而可以認為本文提出的算法在預測用戶未來的評價值時具有很高的準確性。
圖5 算法的預測性能對比
異常檢測在推薦系統(tǒng),入侵檢測和流數(shù)據(jù)分析等領域都有著廣泛的應用前景。為了從用戶對產(chǎn)品的評價數(shù)據(jù)中分析出用戶的基本行為以及異常行為,本文提出了一種基于多變量自動回歸的評分數(shù)據(jù)異常檢測算法。本文將用戶對產(chǎn)品評價數(shù)據(jù)視為用戶基本行為和異常行為的組合,應用多變量自動回歸方法進行用戶基本行為的發(fā)現(xiàn)和異常行為的檢測。將用戶的評價值分布表示為累積分布,并且將評價值表示為基本行為和異常行為的線性組合的生成過程。針對評價值中混入的異常行為的稀疏性,基于噪音數(shù)據(jù)的高斯分布,給出了相應的最小化目標函數(shù)。實驗結果表明,本文提出的算法能很好的描述時序評價序列中用戶的基本行為和異常行為,并且與相關算法相比較能更好的對未來的評價值進行預測。
參考文獻:
[1]Melnyk I,Matthews B,Valizadegan H,et al.Vector autoregressive model-based anomaly detection in aviation systems[J].Journal of Aerospace Information Systems,2016,13(4):1-13.
[2]Günnemann N,Günnemann S,Faloutsos C.Robust multivariate autoregression for anomaly detection in dynamic product ratings[C]//International Conference on World Wide Web,2014:361-372.
[3]Bhaumik R,Williams C,Mobasher B,et al.Securing colla-borative filtering against malicious attacks through anomaly detection[C]//Proceedings of the 4th Workshop on Intelligent Techniques for Web Personalization,2016:112-118.
[4]Samejima M,Ohno H,Akiyoshi M,et al.An anomaly detection method on web-based system by trend analysis with autoregressive model[J].IEEJ Transactions on Electronics Information & Systems,2014,134(6):814-820.
[5]Malekzadeh M,Gul M,Catbas F N.Application of multivariate statistically based algorithms for civil structures anomaly detection[C]//Society for Experimental Mechanics Series,2013:289-298.
[6]Aggarwal C C.Outlier analysis[M].USA:Springer,2013.
[7]Tan S C,Ting K M,Liu T F.Fast anomaly detection for streaming data[C]//International Joint Conference on Artificial Intelligence,2013:1511-1516.
[8]Sanchez H,Bustos B.Anomaly detection in streaming time series based on bounding boxes[M].USA:Similarity Search and Applications.Springer International Publishing,2014:201-213.
[9]Marat I Kusainov,Vyacheslav A Vasiliev.On optimal adaptive prediction of multivariate autoregression[J].Sequential Analysis,2015,34(2):211-234.
[10]Sallam A,Fadolalkarim D,Bertino E,et al.Data and syntax centric anomaly detection for relational databases[J].Wiley Interdisciplinary Reviews Data Mining & Knowledge Discovery,2016,6(6):231-239.
[11]Sallam A,Xiao Q,Bertino E,et al.Anomaly detection techniques for database protection against insider threats (invited paper)[C]//International Conference on Information Reuse and Integration.IEEE,2016:20-29.
[12]Abramson N,Braverman D,Sebestyen G.Pattern recognition and machine learning[J].IEEE Transactions on Information Theory,2017,9(4):257-261.
[13]Mason W,Suri S.Conducting behavioral research on ama-zon’s mechanical Turk[J].Behavior Research Methods,2012,44(1):1-23.