亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        校園網(wǎng)用戶行為的分析與研究

        2013-11-03 02:21:41潘峰楠泉州幼兒師范高等??茖W校公共教學部福建泉州362000
        長江大學學報(自科版) 2013年28期
        關鍵詞:規(guī)約計費校園網(wǎng)

        潘峰楠 (泉州幼兒師范高等??茖W校公共教學部,福建 泉州 362000)

        校園網(wǎng)用戶行為的分析與研究

        潘峰楠 (泉州幼兒師范高等??茖W校公共教學部,福建 泉州 362000)

        基于數(shù)據(jù)挖掘技術和校園網(wǎng)認證計費服務器日志的研究,提出了校園網(wǎng)用戶行為分析模型,使用微軟Studio數(shù)據(jù)挖掘工具實施數(shù)據(jù)采集和預處理,采用C++編寫K-means聚類算法,實現(xiàn)了對校園網(wǎng)用戶網(wǎng)絡活動日志的數(shù)據(jù)挖掘,得出了不同用戶組特征。通過發(fā)現(xiàn)校園網(wǎng)用戶行為的一些規(guī)律,為今后進一步了解用戶行為特征、制定網(wǎng)絡管理策、完善網(wǎng)絡建設等奠定基礎。

        用戶行為; 數(shù)據(jù)挖掘;K-means聚類

        在校園網(wǎng)中,運行著許多網(wǎng)絡硬件設備,這些設備積累了大量的用戶上網(wǎng)數(shù)據(jù)。這些上網(wǎng)數(shù)據(jù)蘊藏著豐富、有用的知識,可幫助網(wǎng)絡管理者對上網(wǎng)用戶的行為進行分析。在校園網(wǎng)中,通過對用戶行為的研究和分析,為校園網(wǎng)的規(guī)劃、建設提供了一個重要的理論依據(jù);為校園網(wǎng)管理人員,在制定管理策略以及滿足學校校園網(wǎng)用戶個性化需求等方面提供重要理論依據(jù)*泉州幼兒師范高等專科學校校級重點課題研究成果(QY2011-02)。。

        1 用戶行為分析模型

        圖1 用戶行為分析模型

        對校園網(wǎng)用戶行為進行分析,可采用K-means聚類和統(tǒng)計分析相結合的方法得出一個較為嚴謹、正確的分析結果,聚類將用戶分為K個模型,再通過統(tǒng)計方法,對模型中的用戶行為進統(tǒng)計[1-2]。校園網(wǎng)用戶行為分析的模型如圖1所示。

        2 用戶行為K-means聚類分析的實現(xiàn)過程

        2.1數(shù)據(jù)導出

        校園網(wǎng)用戶行為分析系統(tǒng)的實驗數(shù)據(jù)來源主要是億郵計費網(wǎng)關。將計費網(wǎng)關用戶帳號歸為不同組中,采用域名類來標識不同組:領導組、教工組、學生組、公共機房組(為機房上課時上網(wǎng)提供的免費帳號組)、網(wǎng)絡管理組(為網(wǎng)絡管理相關人員提供的免費上網(wǎng)帳號組)。

        計費網(wǎng)關中eyouipb數(shù)據(jù)庫,保存用戶資料、計費參數(shù)、系統(tǒng)參數(shù)配置、系統(tǒng)日志等內容。表e_log_on_user_online是用來保存登錄記錄信息,其結構如表1所示。億郵計費網(wǎng)關采用Mysql數(shù)據(jù)庫,在Mysql客戶端,選擇表e_log_user_online,導出數(shù)據(jù)為文本文件。在表e_log_on_user_online中,用戶登錄數(shù)據(jù)如圖2所示。

        2.2數(shù)據(jù)導入

        首先在SQL Server 2005[3]中新建一個數(shù)據(jù)庫eyou,創(chuàng)建一張表,表結構字段及類型與Mysql表一致。然后執(zhí)行SQL導入數(shù)據(jù)功能,選擇導入文本類型數(shù)據(jù),指向以上導出的文本文件,將文本文件數(shù)據(jù)導入e_you_log_online表中。

        2.3數(shù)據(jù)預處理

        1)數(shù)據(jù)清理 現(xiàn)實數(shù)據(jù)庫的數(shù)據(jù)往往是不一致、不完整和有錯誤的、有噪聲的。數(shù)據(jù)清理就是要消除噪聲,補填空缺值,識別孤立點,恢復數(shù)據(jù)的一致性。

        圖2 e_log_on_user_online表結構和數(shù)據(jù)

        在計費認證系統(tǒng)中,由于訪問記錄數(shù)據(jù)量大,筆者研究的主要是學生2012年11月1日到2012年12月31日的上網(wǎng)行為,而認證計費系統(tǒng)記錄了包括學生組、教工組等在內的所有組用戶的長時間登錄數(shù)據(jù),因此,須對數(shù)據(jù)進行清理,首先提取學生組上網(wǎng)記錄,去除學生組以外用戶數(shù)據(jù)。接著清理2012年11月1日至2012年12月31日以外數(shù)據(jù)。通過統(tǒng)計分析,發(fā)現(xiàn)校園網(wǎng)中,凌晨3點至6點是登錄人數(shù)較少的時段,可以認為是孤立點數(shù)據(jù),給予清理。

        通過查詢語句,統(tǒng)計原始數(shù)據(jù)庫中上網(wǎng)記錄條數(shù)有17415522,選取2012年11月1日到12月31日之間的數(shù)據(jù)作為研究數(shù)據(jù),通過以下步驟篩選減小數(shù)據(jù)庫的規(guī)模:

        Delete form e_log_on_user_online where year(Start_time)<2012 and year(Start_time)>2012

        (所影響行數(shù) 8563113 行)

        Delete form e_log_on_user_online where month(Start_time)<11

        (所影響行數(shù) 7821532行)

        Delete form e_log_on_user_online where hour(Start_time)<6 and hour(Start_time)>3

        (所影響行數(shù) 10236 行)

        計費系統(tǒng)是通過domain_id來劃分不同的上網(wǎng)對象,因此通過以下語句進一步對數(shù)據(jù)進行預處理:

        Delete form e_log_on_user_online where domain_id=2

        (所影響行數(shù) 32014行) //domain_id=2 表示校領導組

        Delete form e_log_on_user_online where domain_id=3

        (所影響行數(shù) 652314行) //domain_id=3 表示教職工組

        Delete form e_log_on_user_online where domain_id=4

        (所影響行數(shù) 120541 行) //domain_id=4表示公共機房組

        Delete form e_log_on_user_online where domain_id=5

        (所影響行數(shù)85341 行) //domain_id=4 表示網(wǎng)絡管理組

        2)數(shù)據(jù)規(guī)約 經(jīng)過數(shù)據(jù)清理,將原始數(shù)據(jù)1700余萬條記錄縮減到130430條。數(shù)據(jù)庫記錄是每一次的連線信息,筆者不僅對每次連線進行分析,對每天或每月的匯總情況也進行了分析研究,因此,通過數(shù)據(jù)規(guī)約形成2張表,記錄每個用戶每天上網(wǎng)行為和每月上網(wǎng)行為,表的形成可通過查詢問語句實現(xiàn),采用函數(shù)Convert(varchar(7),start_time,120)進行分組[4],函數(shù)有3個參數(shù),第1個參數(shù)是將原數(shù)據(jù)轉換為目標數(shù)據(jù),參數(shù)為varchar(7)時,表示字串長度為7,結果為yyyy-mm,這是根據(jù)月分組,參數(shù)為varchar(10)時,這是根據(jù)天數(shù)來分組,結果為yyyy-mm-dd;第2個是需要處理的對象;第3個參數(shù)將時間格式化。

        筆者研究的重點是對用戶進行聚類,對數(shù)據(jù)預處理需生成一個數(shù)據(jù)流文件,因此,數(shù)據(jù)處理時,去除日期,選取時、分作為特征項。可以通可微軟的SQL查詢分析器對數(shù)據(jù)進行過濾清理,執(zhí)行如下命令:

        Select datepart(hour, strart_time)as onhh, datepart(minute, strart_time) as onmm, datepart(hour, end_time) as endmm, datepart(minute, end_time)as endmm, datediff(Minute,strart_time,end_time) as online_time form e-log_uer_online

        3)數(shù)據(jù)集成與變換 上網(wǎng)記錄,流量字段采用字節(jié)為單位,時間采用分鐘為單位,這樣數(shù)值大,為了提高聚類有效性,提高分組間差異性,以上規(guī)約生成的2張表需要進行處理,將時間都轉換為小時,將按每天規(guī)約的表流量轉換為M字節(jié),每月規(guī)約的表轉換采用為G字節(jié)為單位。經(jīng)轉換,最終規(guī)約結果如圖3、圖4所示,查詢分析器過濾結果如圖5所示。

        圖3 按照天規(guī)約結果 圖4 按照月規(guī)約結果

        圖5 查詢分析器過濾結果

        圖6 算法運行過程

        在查詢分析器過濾的結果的界面時,右擊,執(zhí)行“將結果保存為”,將其結果保存為文本文本。打開生成的文件,文本前加入3行空行,在第1行輸入須聚類記錄總數(shù);在第2行輸入特征項,這項是算法的樣本維數(shù);在第3行輸入算法聚類個數(shù),這樣,用戶行為分析需要的聚類輸入文件預處理完成。

        2.4K-means算法的用戶聚類

        筆者以億郵認證計費系統(tǒng)2012年11月1日~2012年12月31日的上網(wǎng)日志為例,將預處理的聚類文本文件第1行(記錄數(shù))值改為130430,第2行數(shù)值為9(樣本維數(shù)),第3行值為4(聚類個數(shù)),保存為文本文件,編寫C++的K-means聚類[5]分類程序K-means.exe,并將其與以上文本文件存放同一目錄,運行程序,聚類結果如圖6所示。

        3 結果分析

        3.1K-means聚類分析

        通過以上以K=4聚類的結果,可得如表2所示。從表2數(shù)據(jù)可以看出,第1類用戶(占3.2%,上網(wǎng)時段在0∶12到0∶45)所占比例不大,可以看出深夜上網(wǎng)人數(shù)不多。第2類用戶(占35.3%,上網(wǎng)時段在12∶25到13∶17)和第3類用戶(占42.1%,上網(wǎng)時段在18∶45到20∶26)所占比例較大,第2類用戶上網(wǎng)時間不長,可以推斷較多上下午有課。晚上7點至9點這個時段,上網(wǎng)人數(shù)最多,國內下載流量較大,推測出上網(wǎng)的活動中,大流量文件較多,可能看網(wǎng)絡視頻或大量下載信息較多。第4類用戶(占19.4%,上網(wǎng)時段在21∶58到23∶28)所占比例不多,但流量也較大,推測也是用于大量下載信息或看網(wǎng)絡視頻的用戶。

        表2 K=4時K-means聚類

        3.2統(tǒng)計分析

        通過聚類分析可以看出,用戶國內流量較大,可結合統(tǒng)計方式計算,訪問國內外網(wǎng)站的情況、量排名和某一時段用戶在線情況流等,如圖8、圖9所示。

        圖7 用戶在線情況 圖8 國內下行流量前10名

        通過對用戶上網(wǎng)日志的聚類分析以及結合統(tǒng)計方法得出的結果可以看出,用戶上網(wǎng)在中午12點到下午1點和晚上19點到22點集中比較,這2個時段,上網(wǎng)人數(shù)多,下載量較大,尤其在20點至22點,這段時間數(shù)據(jù)流量最大,可能是應用一些大數(shù)據(jù)量的應用(如視頻),該時段最易出現(xiàn)網(wǎng)絡擁堵甚至癱瘓。其他時段,流量相對量不大且量較為穩(wěn)定,可能是較多處理一些小流量應用,如瀏覽網(wǎng)頁,查找資料等,只有少數(shù)用戶對網(wǎng)絡帶寬產(chǎn)生影響。國際上行流量和國際下行流量都較小,可以推測大多用戶使用訪問國內服務器。深夜上網(wǎng)人數(shù)比例不大,且大多為高年級學生用戶,這跟部分低年級學生宿舍用電統(tǒng)一管理有關。上課時段,使用網(wǎng)絡大多為高年級學生用戶,可以看出高年級學生課程較少。

        4 建 議

        目前認證計費服務器的策略是分包月用戶和包時用戶,包月35元/月,包時套餐計費方式30h/月15元。根據(jù)對學生的分析發(fā)現(xiàn),有部分學生每月上網(wǎng)小于30h,可以建議這類學生中的貧困群體學生改用30h/月,減輕經(jīng)濟壓力。宿舍3、4國內下行流量最大,建議在宿舍3、4部署性能較好網(wǎng)絡設備的同時,修改策略,對學生用戶進行限速,減輕繁忙時段校園網(wǎng)絡負擔。

        [1]李雄飛, 董元方, 李軍, 等.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].第2版.北京:高等教育出版社,2012:3-6.

        [2]董富強. 網(wǎng)絡用戶行為分析研究及其應用[D].西安:西安電子科技大學,2005.

        [3]朱德利.SQL Server2005數(shù)據(jù)挖掘與商業(yè)智能完全解決方案[M].北京:電子工業(yè)出版社, 2007.

        [4]陳益均.校園網(wǎng)用戶行為聚類分析的研究與實現(xiàn)[J].中國教育信息化, 2011(13):22-23.

        [5]石云平,辛大欣.基于K-means聚類算法的分析及應用[J].西安工業(yè)學院學報,2006(1):32-34.

        [6]潘瑩,梁京章,黎慧娟.基于K-means算法的校園網(wǎng)用戶行聚類分析[J].計算技術與自動化,2007(3):67-68.

        2013-07-05

        潘峰楠(1980),男,碩士,講師,現(xiàn)主要從事計算機網(wǎng)絡應用方面的教學與研究工作。

        TP311.52

        A

        1673-1409(2013)28-0047-04

        [編輯] 洪云飛

        猜你喜歡
        規(guī)約計費校園網(wǎng)
        出租車計費的秘密
        5G網(wǎng)絡獨立組網(wǎng)中融合計費方案的研究
        數(shù)字化校園網(wǎng)建設及運行的幾點思考
        甘肅教育(2020年18期)2020-10-28 09:05:54
        生活中的分段計費
        試論最大匹配算法在校園網(wǎng)信息提取中的應用
        電子制作(2019年10期)2019-06-17 11:45:26
        電力系統(tǒng)通信規(guī)約庫抽象設計與實現(xiàn)
        測控技術(2018年7期)2018-12-09 08:58:34
        一種在復雜環(huán)境中支持容錯的高性能規(guī)約框架
        一種改進的LLL模糊度規(guī)約算法
        NAT技術在校園網(wǎng)中的應用
        電子制作(2017年8期)2017-06-05 09:36:15
        VPN在校園網(wǎng)中的集成應用
        国产精品女同久久久久电影院| 人妻被猛烈进入中文字幕| 亚洲熟伦在线视频| 亚洲av天堂一区二区| 久久精品国产免费观看三人同眠 | 在线精品国内视频秒播| 亚洲福利第一页在线观看| 水蜜桃男女视频在线观看网站| 精品视频一区二区三区在线观看 | 国产黄色一区二区三区,| 日韩人妻中文无码一区二区| 无码人妻精品一区二区三区下载| 好爽受不了了要高潮了av| 一区二区三区在线免费av| 一区二区国产av网站| 亚洲啪av永久无码精品放毛片| 国产乱子伦露脸在线| 日本一区二区视频免费观看| 97精品人妻一区二区三区在线| 国产日产欧产精品精品| 欧美自拍丝袜亚洲| 蜜桃av噜噜一区二区三区免费| 手机看片自拍偷拍福利| 精品国产午夜理论片不卡| 人妻无码aⅴ中文系列久久免费| 少妇一级内射精品免费| 亚洲最新无码中文字幕久久| 一本一道av无码中文字幕| 人妻av一区二区三区av免费| 人妻被公上司喝醉在线中文字幕| 久久精品国产亚洲av久| 久久久久久成人毛片免费看| 无码久久精品蜜桃| 成人影院在线观看视频免费| 少妇性饥渴无码a区免费| 国产精品视频久久久久| 综合中文字幕亚洲一区二区三区| 国产av天堂亚洲国产av天堂| √天堂中文官网8在线| 国产一级做a爱视频在线| 亚洲最大在线视频一区二区|