張 珍 孫令潔 尹 聰
(1.華中科技大學(xué)自動化學(xué)院圖像信息處理與智能控制教育部重點(diǎn)實(shí)驗(yàn)室 武漢 430074)
(2.深圳華中科技大學(xué)研究院 深圳 518000)
人類行為紛繁復(fù)雜,人類行為動力學(xué)通過統(tǒng)計(jì)人類行為數(shù)據(jù),挖掘其中的統(tǒng)計(jì)學(xué)規(guī)律,建立相應(yīng)的動力學(xué)模型[1],取得了大量定性或定量的研究成果[2]。2005年,Barabasi等[3]在《Nature》上指出人類行為間隔時間呈現(xiàn)非均勻性和陣發(fā)性。隨后,Brockman等[4]在《Nature》發(fā)表研究鈔票空間流通特性的論文,指出人類活動是非隨機(jī)的,具有一定的規(guī)律性。Song C等[5]于2010年在《Nature》上指出人類移動行為可預(yù)測性高達(dá)93%。文獻(xiàn)[6]采取了三段式訓(xùn)練預(yù)測器的方法,文獻(xiàn)[7]通過信息論方法證明了通信行為可預(yù)測。文獻(xiàn)[8]通過SVM預(yù)測算法,調(diào)整算法的平滑參數(shù),最終算法平均準(zhǔn)確率高達(dá)73.4%。文獻(xiàn)[9]提出了基于社交行為的移動位置預(yù)測算法。此外,動態(tài)貝葉斯結(jié)構(gòu)[10]、CERP模型[11]、動態(tài)貝葉斯模型[12]以及決策樹算法[13]在位置預(yù)測上也取得了良好的效果。文獻(xiàn)[14]運(yùn)用基于內(nèi)容的推薦算法,采取長期興趣與短期興趣混合,引入遺忘機(jī)制,通過啟發(fā)式算法對預(yù)測準(zhǔn)確率監(jiān)督。
針對計(jì)算機(jī)操作行為的預(yù)測問題,通過分析1000個用戶的網(wǎng)上行為數(shù)據(jù),引入興趣轉(zhuǎn)移算法如基于帶權(quán)遺忘機(jī)制的啟發(fā)式算法,使預(yù)測算法效果明顯改善。
在本文的研究中,數(shù)據(jù)來源于深圳某一數(shù)據(jù)挑戰(zhàn)賽[15]。其中包括了1000個隨機(jī)抽取的樣本用戶28天的電腦操作日志以及完整的人口學(xué)信息。
為了量化用戶興趣轉(zhuǎn)移和行為的遺忘對預(yù)測模型的影響,需要確定遺忘函數(shù)。遺忘函數(shù)就是在距今不同的時間長度t下,用戶剩余記憶量的占比f(t)。通過分析,我們采用非線性遺忘函數(shù)[16],其公式為
其中tmax和tmin為序列中的開始及結(jié)束時間,m為遺忘系數(shù),m越大,遺忘越快。
為了進(jìn)行用戶習(xí)慣的匹配,需要在用戶本身的序列中求取相似序列。相似度取決于窗口序列和目標(biāo)序列位置匹配度和相應(yīng)匹配操作時間上的匹配度。算法步驟如下。
1)求遺忘系數(shù)
假設(shè)取目標(biāo)序列A窗口長度為5,分別求出目標(biāo)序列里開始時間、結(jié)束時間tmax和tmin以及5個進(jìn)程的持續(xù)時間t1到t5,根據(jù)遺忘函數(shù),可以求出每個進(jìn)程的權(quán)值Weight1到Weight5,即遺忘系數(shù)向量Weight。
2)位置匹配度P
位置匹配度P為目標(biāo)窗口和滑動窗口內(nèi)相同進(jìn)程遺忘系數(shù)的總和。采取模糊算法,只需要滑動窗內(nèi)進(jìn)程相同,不需要相同進(jìn)程對應(yīng)的順序位置一致。即
其中N是目標(biāo)窗口和滑動窗口內(nèi)相同進(jìn)程集合。
3)操作時間匹配度T
假設(shè)取目標(biāo)序列A窗口長度為5,取該目標(biāo)窗口前后各2個記錄構(gòu)成長度為9的序列L。目標(biāo)窗口中操作a的時間重要性為操作a在L中經(jīng)歷的時長除以窗口內(nèi)5個進(jìn)程的總時長,得到目標(biāo)序列的時間占比向量TA。同理,搜索序列的時間占比向量T′A為相同進(jìn)程的時間占比。注意向量位置與目標(biāo)序列一致。操作時間上的匹配度T為目標(biāo)序列時間占比向量TA和搜索窗序列時間占比向量T′A的夾角余弦,并用遺忘系數(shù)修正。具體公式為
4)綜合匹配度S
在求位置匹配度時,采用非線性遺忘函數(shù)先求出目標(biāo)窗口每個操作的權(quán)系數(shù),取遺忘系數(shù)為0.5。加入遺忘機(jī)制后的位置匹配度P是相同進(jìn)程權(quán)重和。求時間匹配度時,目標(biāo)窗口內(nèi)每個進(jìn)程的時間重要性已得,乘以相應(yīng)權(quán)系數(shù)即可。構(gòu)成向量[位置匹配度P時間匹配度T],可用線性組合求得最終預(yù)測值。將預(yù)測值排序求得最相似序列S。
5)用戶行為預(yù)測
對用戶自身同一天序列進(jìn)行遍歷,分別求得所有搜索窗綜合匹配度S。取綜合匹配度最高的前5名,分別取這5個搜索窗后3步操作,統(tǒng)計(jì)出現(xiàn)頻率最高的進(jìn)程作為預(yù)測結(jié)果。
本文采用帶遺忘機(jī)制的預(yù)測算法構(gòu)建個體的預(yù)測模型。從原始數(shù)據(jù)中篩選出第一周數(shù)據(jù)每天超過400條的用戶74人。從權(quán)值、周末和人口學(xué)屬性三個方面對非線性遺忘函數(shù)進(jìn)行性能分析。
1)首先調(diào)整非線性函數(shù)的權(quán)值,窗口長度為5時得每個用戶平均準(zhǔn)確率如圖1所示。
圖1 非線性遺忘函數(shù)權(quán)值為0的平均預(yù)測準(zhǔn)確率
只考慮操作時間匹配度時,非線性遺忘函數(shù)權(quán)值為0時預(yù)測算法平均準(zhǔn)確75%,約有80%的用戶正確率超過60%,30%用戶預(yù)測效果超過70%,個別用戶的預(yù)測準(zhǔn)確率可超過90%。等同的考慮進(jìn)程位置的匹配度和操作時間匹配度時,權(quán)值為0.5時預(yù)測算法平均72%正確。對比只考慮操作時間匹配度時準(zhǔn)確率略有下降,但是不明顯。只考慮進(jìn)程位置的匹配度時,權(quán)值為1時預(yù)測算法平均準(zhǔn)確70%。
分析上述結(jié)果可知,基于遺忘機(jī)制的預(yù)測算法預(yù)測效果比較高,平均預(yù)測準(zhǔn)確率高達(dá)75%,且個別用戶預(yù)測準(zhǔn)確率非常高,說明用戶行為確實(shí)存在興趣和遺忘機(jī)制。預(yù)測算法效果準(zhǔn)確率在只考慮操作時間匹配度時準(zhǔn)確率時是最高的。
2)其次分析用戶周末行為,只考慮時間序列匹配度,平均預(yù)測準(zhǔn)確率為78.5%,略高于工作日,說明用戶周末行為確實(shí)比工作日行為更有規(guī)律。
3)最后分析不同人口學(xué)屬性的平均預(yù)測準(zhǔn)確率,通過曼惠特尼檢驗(yàn)[17]分析對算法性能的影響,得到對于這個用戶群體,女性用戶預(yù)測準(zhǔn)確率高于男性,職業(yè)和收入因素對用戶的預(yù)測準(zhǔn)確率也有影響,其他因素如學(xué)歷、地域等對算法性能影響不大。
本文引入遺忘機(jī)制,采用非線性遺忘函數(shù),建立了基于遺忘機(jī)制的預(yù)測模型對計(jì)算機(jī)操作行為進(jìn)行預(yù)測。該算法平均預(yù)測準(zhǔn)確率高達(dá)79%,約有80%的用戶準(zhǔn)確率超過60%,小部分用戶的預(yù)測準(zhǔn)確率超過90%。對于計(jì)算機(jī)操作行為的預(yù)測研究不僅有利于我們更好地認(rèn)識人類自身,而且對信息安全甚至國防安全等有更大的價值。