亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行為采集系統(tǒng)的用戶特征挖掘及分析

        2011-01-12 06:43:12王存睿王元剛陳婧楊雨
        大連民族大學學報 2011年3期
        關鍵詞:數(shù)據(jù)庫特征用戶

        王存睿,王元剛,陳婧,楊雨

        (大連民族學院計算機科學與工程學院,遼寧大連 116605)

        基于行為采集系統(tǒng)的用戶特征挖掘及分析

        王存睿,王元剛,陳婧,楊雨

        (大連民族學院計算機科學與工程學院,遼寧大連 116605)

        結合用戶行為時間序列和操作頻次,融合FP-GROWTH算法設計了用戶特征挖掘算法,建立網(wǎng)絡形式的用戶行為特征表達方法,設計了相應的用戶行為采集系統(tǒng),給出了相應的設計框架和存儲結構。并以高校學生為研究對象采集了相應的數(shù)據(jù)對系統(tǒng)進行測試,實驗結果表明該系統(tǒng)可以捕捉和分析用戶行為,并對用戶的習慣行為進行表達,進而揭示用戶的行為習慣。

        數(shù)據(jù)挖掘;行為特征;用戶行為網(wǎng)絡

        行為習慣特征是指不同用戶在操作計算機過程中自身具有的獨特習慣性和規(guī)律性。計算機用戶行為的特征分析在很多應用領域具有重要的價值。在信息安全領域,傳統(tǒng)的安全軟件僅限于木馬和病毒的檢測與查殺,對于其它形式的“合法”的入侵行為缺乏有效的保護。如已知密碼登陸計算機。此外,對不同群體的計算機用戶的特征行為分析和理解可以幫助軟件廠家改進設計,還可以利用這些特征作為身份識別依據(jù)。因此,設計相應的行為表達方法和采集系統(tǒng)能夠較全面的捕捉用戶的行為規(guī)律是進一步分析的前提條件。

        個人計算機的行為(Personal Computer Behavioral Characteristic)研究相比于網(wǎng)絡行為特征研究開展相對較晚[1]。傳統(tǒng)研究集中于用戶在某個網(wǎng)站進行跳轉形成的操作習慣,進而對網(wǎng)站進行優(yōu)化設計。James P.Anderson在對用戶行為研究的基礎上,首次提出了個人計算機IDS(Intrusion Detection System)的概念,此后Dorothy Denning和SRI/CSL的Peter Neumann提出了入侵檢測專家系統(tǒng)IDES(Intrusion Detection Expert System)[2]。個人計算機用戶行為不同于傳統(tǒng)的行為采集,需要通過操作系統(tǒng)捕捉用戶的行為習慣。個人計算機用戶行為主要分為硬件行為和軟件行為兩個方面。硬件方面主要指鍵盤和鼠標的操作,包括鼠標的單、雙擊頻率、拖拽次數(shù)和鍵盤的按鍵頻率和敲擊頻率等等。軟件的行為特征主要研究用戶操作各種軟件及其在其中相應操作的行為特征,通過對其時序和頻率來分析和挖掘用戶特征行為。本文主要針對用戶軟件操作行為進行捕捉和采集,并對其進行相應的挖掘和分析。

        1 用戶行為采集系統(tǒng)的設計

        要分析用戶的行為特征需要采集相應的用戶數(shù)據(jù),采集數(shù)據(jù)需要構建相應采集用戶特征采集系統(tǒng)。本文基于Windows系統(tǒng)設計了用戶行為采集系統(tǒng)。主要是基于Windows Hook函數(shù)類庫進行構建,本文對該類庫的機理進行了解釋,給出了基于Hook函數(shù)類庫的采集系統(tǒng)設計框圖,以及采集的用戶行為存儲的數(shù)據(jù)內容和存儲形式。

        1.1 基于Hook類庫的計算機用戶行為采集

        Windows系統(tǒng)上的程序運行模式是基于消息驅動機制的。當某一線程注冊窗口類時,操作系統(tǒng)會建立相應的消息隊列來接受該線程的輸入消息和系統(tǒng)消息[3]。要取得特定線程的消息接收或發(fā)送,可以采用微軟公司提供的操作系統(tǒng)庫函數(shù)。Hook函數(shù)庫可以為正在運行的程序創(chuàng)建監(jiān)視點,利用Hook函數(shù)對指定窗口各種類型的消息進行監(jiān)視。消息到達后,在目標窗口處理函數(shù)之前,鉤子可以對該應用程序的消息進行截獲并進行處理[4]。

        Hook函數(shù)包含12種類型,可以攔截消息隊列中的各種消息,見表1。其中的WH_CBT鉤子可以對以下的事件進行攔截:①窗體激活、創(chuàng)建、銷毀、最小化、最大化、移動和大小改變;②完成系統(tǒng)命令;③從系統(tǒng)消息隊列中移除鼠標或鍵盤事件;④設置鍵盤焦點;⑤同步系統(tǒng)消息隊列。WH_CBTHOOK函數(shù)集可以更加全面地捕捉用戶應用程序使用行為,對操作系統(tǒng)的運行影響相對較?。?]。

        表1 Windows鉤子類型表

        消息被攔截后,Hook函數(shù)捕捉用戶行為的特征。前提是該系統(tǒng)在操作系統(tǒng)開啟時自動后臺運行。該系統(tǒng)的開啟時間和關閉時間同步于操作系統(tǒng)的開機和關機時間。首先建立對應關系,將每個進程對應唯一的應用程序。因為每個應用程序都具有唯一的進程名,在研究過程中可以用進程名代替應用程序名稱。窗口標題是描述窗口的重要信息,從中可以了解應用程序的使用細節(jié)。本系統(tǒng)使用Windows API函數(shù)通過程序句柄和窗口句柄獲得進程名和窗口標題以及其它相關特征。

        圖1 利用Windows API函數(shù)提取用戶行為特征值

        1.2 用戶行為存儲

        本系統(tǒng)數(shù)據(jù)庫包含4個表,分別是存儲系統(tǒng)登錄信息、應用程序進程名、窗口操作信息和行為特征分析結果表。

        如圖2,為該數(shù)據(jù)庫的實體-聯(lián)系圖(Entity-Relation Diagram)。

        圖2 信息采集系統(tǒng)的數(shù)據(jù)庫ER圖

        1.3 基于FP-growth算法的用戶行為挖掘

        本系統(tǒng)采用頻繁模式挖掘算法中FP-growth算法處理數(shù)據(jù)庫中各個樣本數(shù)據(jù)[5]。FP-growth算法一種高效的頻繁項集挖掘算法,它采用分治策略將頻繁項的數(shù)據(jù)庫壓縮到頻繁模式樹,并保留項集的關聯(lián)信息。然后,以不同用戶的數(shù)據(jù)作為篩選條件生成各個子集,利用FP-growth算法挖掘其中的頻繁模式,得到模式樹。為了能夠更加直觀對用戶行為進行分析,進而將模式樹轉換為網(wǎng)絡關聯(lián)圖。

        首先,數(shù)據(jù)庫中的用戶行為數(shù)據(jù)被處理成事務數(shù)據(jù)庫。采集過程從用戶行為采集系統(tǒng)開啟到關閉,程序ID表示程序名,則這一期間內使用的應用程序組成的項集即為一次事務,并用事務ID標識。然后利用FP-growth算法挖掘數(shù)據(jù)集頻繁項集,過程如圖3。

        本文以事務數(shù)據(jù)庫為數(shù)據(jù)基礎創(chuàng)建FPTree。掃描事務數(shù)據(jù)庫D一次。收集頻繁項的集合F和它們的支持度計數(shù)降序排序,結果為頻繁項列表L。創(chuàng)建FP樹的根節(jié)點,以“null”標識。對于數(shù)據(jù)集D中每個事務Trans執(zhí)行以下操作:選擇Trans中的頻繁項,并按L中的次序排序。設排序后的Trans中頻繁項列表為[p|P],其中p是第一個元素,而P是剩余元素的列表。調用insert_tree([p|P],T)。該過程執(zhí)行情況如下:如果T有一個子節(jié)點N使得N的項名與p的項名相同,則N的計數(shù)增加1;否則創(chuàng)建一個新節(jié)點N,將其計數(shù)設置為1,鏈接到它的父節(jié)點T,并且通過節(jié)點鏈結構將其鏈接到具有相同項名的節(jié)點。如果P非空,遞歸調用insert_tree(P,N)。

        圖3 FP-growth算法挖掘頻繁項集過程示意圖

        設置最小支持度計數(shù),對FP-tree進行挖掘。建立以{項ID,支持度計數(shù),節(jié)點鏈}為節(jié)點格式的FP-tree頭表α。FP-tree的挖掘過程通過調用FP_growth(Tree,α)實現(xiàn)。該過程實現(xiàn)如下:如果Tree含有單個路徑P,那么遍歷路徑P中節(jié)點的每個組合β產(chǎn)生模式β∪α,其支持度計數(shù)等于P中節(jié)點的最小支持度計數(shù)。如果Tree不含有單個路徑,那么遍歷Tree的頭表中的每個αi產(chǎn)生模式β∈ α∪αi,其支持度計數(shù)等于αi的支持度計數(shù);構造β的條件模式基,然后構造β的條件FP樹Treeβ;如果Treeβ不為空集,則調用FP_growth(Treeβ,β)。最后,為了可視化研究各用戶行為的特征,需要將其轉化為關系網(wǎng)絡表示。設應用程序集合為A= {a1,a2,a3,…,an},F(xiàn)P-Tree算法得到的頻繁項集為B={b1,b2,b3,…,bm},m<n。b1為一個三元組{ai,aj,ω},其中ai,aj∈A,ω為該組合的頻繁次數(shù),該三元組可以表達頻繁項集的完整信息。

        3 實驗結果與分析

        為驗證系統(tǒng)的有效性,本文以高校的學生為對象采集了相應的用戶數(shù)據(jù)。Y用戶和W用戶經(jīng)過系統(tǒng)采集,算法分析出的關系網(wǎng)絡如圖5,其中列出了Y和W在網(wǎng)格邊權重大于等于3、5、7的用戶行為關系網(wǎng)絡。

        圖4 兩個不用學生用戶行為關系網(wǎng)絡

        通過對圖5的行為關系網(wǎng)絡,可以看出Y用戶和W用戶的行為特征存在顯著差別。Y用戶習慣于使用Google瀏覽器,然后跳轉切換于各種即時通訊軟件,A用戶網(wǎng)絡也顯示出迅雷軟件和Chrome瀏覽器不兼容,使用迅雷下載需要開啟IE瀏覽器,因為網(wǎng)絡中這兩個節(jié)點關聯(lián)強度較高。W用戶程序切換于騰訊QQ及其音樂軟件,同時進行文檔查看和程序開發(fā)。不僅可以通過不同用戶的特征行為區(qū)分用戶的合法身份,還可以研究一些用戶的共同行為特征,對多個用戶的不同權重的行為關系網(wǎng)進行圖結構模式挖掘,挖掘出該類用戶共同的行為特征[6]。

        4 結語

        本文為研究用戶行為特征,通過Windows API構建了用戶行為捕捉系統(tǒng),捕捉用戶在操作計算機過程中的各種軟件切換操作,并將其記錄于數(shù)據(jù)庫中,通過FP-Tree算法從數(shù)據(jù)集中提取頻繁模式樹,為便于可視化分析,將該樹轉化為關系網(wǎng)絡。該系統(tǒng)可以用于安全和行為模式研究,具有較好的應用價值和實際意義。實驗結果也證明該系統(tǒng)可以分析出不用用戶的不同行為特征。

        此外,該系統(tǒng)通過進一步開發(fā)用戶的其他硬件行為特征,在軟件使用時的行為特征,結合時序進行進一步的深入研究,為行為特征研究提供較好的支撐平臺。

        [1]袁霖,王懷民,尹剛,等.開源環(huán)境下開發(fā)人員行為特征挖掘與分析[J].計算機學報,2010,33(10):1910-1918.

        [2]鄭紅艷,吳照林.用戶行為異常檢測模型[J].計算機系統(tǒng)應用,2009,18(8):190-192.

        [3]杰瑞夫,克里斯托夫.Windows核心編程[M].北京:清華大學出版社,2008.

        [4]王艷平,張錚.Windows程序設計[M].2版.北京:人民郵電出版社,2008.

        [5]韓家煒,堪博.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2007.

        [6]連一峰,戴英俠,王航.基于模式挖掘的用戶行為異常檢測[J].計算機學報,2002,25(3):326-330.

        Mining and Analysis on User’s Features Based on Behavior Acquisition System

        WANG Cun-rui,WANG Yuan-gang,CHEN Jing,YANG Yu
        (College of Computer Science&Engineering,Dalian Nationalities University,Dalian Liaoning 116605,China)

        A software system of user’s behavior acquisition that gives the corresponding design frame and storage structures has developed.A mining algorithm of user features has also designed.An expression method of user’s behavior features in the form of network has established,which is with the combination of user’s behavior in time series and operating frequency,and with the fusion of FP-GROWTH algorithm.University students had been chosen as the study objects and had offered the corresponding data for the system test.The results indicate that the system can capture and analyze user’s behavior,and then to express the user’s habitual behavior,which can be revealed thus.

        data mining;behavior feature;network of user’s behavior relationship

        TU317

        A

        1009-315X(2011)03-0296-04

        2011-01-17;最后

        2011-04-26

        王存睿(1980-),男,吉林遼源人,講師,主要從事數(shù)據(jù)挖掘和智能計算研究。

        (責任編輯 劉敏)

        猜你喜歡
        數(shù)據(jù)庫特征用戶
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        亚洲免费一区二区av| 久久中文精品无码中文字幕| 国产自产精品露脸刺激91在线| 日韩少妇人妻一区二区| 加勒比日韩视频在线观看 | 国产亚洲精品综合一区二区| 操风骚人妻沉沦中文字幕| 99久久精品国产一区二区三区| 中文字幕第一页亚洲| 性感人妻中文字幕在线| 日本黑人乱偷人妻在线播放| 男人进去女人爽免费视频| 热99re久久精品这里都是免费| 国产高清精品在线二区| 亚洲国产熟女精品传媒| 特级毛片爽www免费版| 久久久久亚洲女同一区二区| 亚洲av色香蕉第一区二区三区| 成人日韩精品人妻久久一区| 人人妻人人妻人人片av| 亚洲欧洲日韩免费无码h| 亚洲av高清一区三区三区| 亚洲av一二三区成人影片| 亚洲中文有码字幕青青| 99久久久久久亚洲精品| 久草手机视频在线观看| 色爱无码av综合区| 色综合久久综合欧美综合图片| 国产成人久久精品二区三区| 亚洲av综合色区无码一区| 欧美人与动牲交a欧美精品| 成人免费无码视频在线网站| 一本色道久久88加勒比 | 无码精品a∨在线观看十八禁| 韩国无码精品人妻一区二 | 免费人成视频网站网址| 内射囯产旡码丰满少妇| 久久亚洲av成人无码软件| 亚洲天堂亚洲天堂亚洲色图| 亚洲av无码专区在线播放| 美国黄色片一区二区三区|