亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于頻繁序列挖掘的男女生上網(wǎng)模式差異研究

        2017-08-10 09:52:45孫啟亮牟超孟瑤
        現(xiàn)代計算機 2017年17期

        孫啟亮,牟超,孟瑤

        (重慶大學(xué)計算機學(xué)院,重慶400044)

        基于頻繁序列挖掘的男女生上網(wǎng)模式差異研究

        孫啟亮,牟超,孟瑤

        (重慶大學(xué)計算機學(xué)院,重慶400044)

        以網(wǎng)絡(luò)日志作為研究數(shù)據(jù),采用頻繁序列挖掘和K-means聚類算法挖掘不同性別學(xué)生上網(wǎng)模式的區(qū)別。通過對比男女生在高、中、低三個不同頻段的網(wǎng)絡(luò)訪問模式發(fā)現(xiàn):在最常訪問的網(wǎng)站類型上男女生并沒有明顯區(qū)別。男生更多地將網(wǎng)絡(luò)用于娛樂和社交目的,而女生更多地把網(wǎng)絡(luò)當(dāng)做獲取信息的工具。此外男生訪問的網(wǎng)站類型比女生更豐富。同時,提出一種將序列轉(zhuǎn)換成向量的方法BitOccurrence。

        性別差異;頻繁序列挖掘;聚類;網(wǎng)絡(luò)日志

        0 引言

        確性較好。

        隨著互聯(lián)網(wǎng)的發(fā)展和普及,學(xué)生花費在網(wǎng)絡(luò)上的時間越來越多[1]。網(wǎng)絡(luò)訪問模式的差異在一定程度上代表了不同用戶之間愛好,行為模式或思考方式的差異。研究不同性別群體之間的上網(wǎng)模式差異一方面有助于理解男女生網(wǎng)絡(luò)訪問偏好,另一方面也可以幫助網(wǎng)站設(shè)計者針對不同性別的用戶開發(fā)出更有針對性的內(nèi)容[2]。網(wǎng)絡(luò)使用的性別差異(gender gap in Internet use)的主要研究內(nèi)容是不同性別的群體在互聯(lián)網(wǎng)的使用方式上的區(qū)別。前人已經(jīng)在這個方向做了大量研究。Eric B.Weiser通過研究發(fā)現(xiàn)男生更多地將網(wǎng)絡(luò)用于娛樂目的,而女生更多地用網(wǎng)絡(luò)輔助科研學(xué)習(xí)[3]。Chien-Huang Lin等人的研究表明:女生更多地將網(wǎng)絡(luò)視為一種工具,會花更多時間在E-mail和獲取信息上;男生更多地將網(wǎng)絡(luò)看做一種娛樂方式,會花更多地時間在游戲和下載軟件上[4]。這些研究的數(shù)據(jù)均來自于調(diào)查問卷。通過向被研究群體發(fā)放調(diào)查問卷的形式收集群體上網(wǎng)的信息,這種方式的問題在于,被調(diào)查者有時會出于隱私保護等目的而胡亂填寫問卷,對資料的真實性造成影響[5]。本文的研究使用網(wǎng)關(guān)服務(wù)器的日志作為研究資料,通過頻繁序列模式挖掘算法挖掘不同性別學(xué)生使用網(wǎng)絡(luò)的模式,數(shù)據(jù)的客觀性和準(zhǔn)

        1 數(shù)據(jù)介紹

        1.1 網(wǎng)絡(luò)日志

        本文使用的數(shù)據(jù)是中國某重點大學(xué)的網(wǎng)關(guān)服務(wù)器的日志數(shù)據(jù)。日志記錄了訪問者ID(已做脫敏處理),訪問時間、URL地址、設(shè)備MAC地址等信息。

        本研究選取2014和2015級學(xué)生在2015年9月~2016年1月(截止到1月17日寒假前)間的網(wǎng)絡(luò)日志作為研究數(shù)據(jù)。各年級和性別人數(shù)如表1所示。日志文件的體積達到6.7TB。

        1.2 網(wǎng)址分類庫

        為了研究學(xué)生訪問網(wǎng)站類別的差異,我們建立了網(wǎng)址分類庫。分類庫中共收集了12,000個域名地址(包括子域名)。這些域名被分為335個類別[6],并用數(shù)字來唯一標(biāo)識不同的網(wǎng)站類型,如269代表“搜索引擎”類型網(wǎng)站。

        表1 各年級、性別人數(shù)

        2 數(shù)據(jù)預(yù)處理

        2.1 數(shù)據(jù)清洗

        獲取的網(wǎng)絡(luò)日志并不能直接用于日志分析。日志服務(wù)器會記錄每一個接收到的請求,當(dāng)用戶打開一個網(wǎng)頁時可能產(chǎn)生十幾條記錄,其中大部分是由于加載靜態(tài)資源而產(chǎn)生的記錄,還有一部分是由于網(wǎng)站流量統(tǒng)計和廣告展示產(chǎn)生的訪問記錄。經(jīng)過分析,靜態(tài)資源相關(guān)的記錄占到總記錄數(shù)的70%,廣告和流量統(tǒng)計的相關(guān)記錄站到5%。這些信息會影響我們分析用戶的訪問模式,所以需要將這些記錄剔除。

        另外一類需要剔除的信息是由安裝在計算機上的軟件自動且頻繁觸發(fā)的訪問記錄。常見的是殺毒軟件、下載器等常駐內(nèi)存的應(yīng)用程序。

        2.2 數(shù)據(jù)轉(zhuǎn)換

        原始日志文件的記錄粒度較小,每個用戶的每一個URL請求都會產(chǎn)生一條記錄。這種細粒度的記錄在本研究中并非必須,且記錄條數(shù)過多會極大增加計算量。故每個人在某一天產(chǎn)生的訪問記錄被匯總成一條記錄。同時,請求的域名被映射到對應(yīng)的網(wǎng)站類型。轉(zhuǎn)換之后的日志文件示例如下。其中的“#”用于間隔網(wǎng)站類型編號。

        2.3 數(shù)據(jù)概貌

        經(jīng)過2.1、2.2的處理后,日志文件包含記錄817,829條,男生的記錄558,451條,女生數(shù)據(jù)259,378條。男女生上網(wǎng)數(shù)據(jù)的基本統(tǒng)計信息如表2所示,其中平均每個男生有記錄68.6條,女生有56.1條。

        表2 男女生日志統(tǒng)計數(shù)據(jù)

        圖1是335個網(wǎng)站類型支持度的密度圖。網(wǎng)站支持度的計算公式如(1)。

        從圖中可以看出各網(wǎng)站類型的支持度極度不均衡,只有極少數(shù)網(wǎng)站類型具有較高的支持度,絕大部分網(wǎng)站的支持度都很小。如果直接對數(shù)據(jù)進行頻繁序列挖掘,則結(jié)果將僅由支持度較高的少數(shù)幾個網(wǎng)站類型組成,從而造成其他的訪問序列模式被淹沒。本研究將網(wǎng)站類型按照支持度的大小分成高、中、低三個頻段,可以更全面的反應(yīng)學(xué)生上網(wǎng)情況。高頻部分包含支持度在(0.6,1]內(nèi)的網(wǎng)站類型,中頻部分包括支持度在(0.1,0.6]內(nèi)的網(wǎng)站類型,低頻部分包含支持度在[0,0.1]之間的網(wǎng)站類型。

        圖1 網(wǎng)站類型支持度密度曲線

        3 實驗描述

        3.1 相關(guān)技術(shù)介紹

        (1)元素

        一個元素對應(yīng)事務(wù)數(shù)據(jù)庫中的一個事務(wù),表示為(x1,x2,xm),xk為不同的單項。在本研究中xk為某一個網(wǎng)站類型。

        (2)序列

        序列是不同元素的有序排列。序列S可以表示為S=,亦可表示為 s1à s2à à sj。 sa一定發(fā)生在sb之前,如果1≤a

        序列中的節(jié):序列中的第k個元素,稱作序列的第k節(jié)。

        (3)頻繁序列挖掘

        頻繁序列挖掘是一種從序列數(shù)據(jù)庫中找出滿足最小支持度minSup的子序列的算法[7]。其與頻繁項挖掘的區(qū)別在于,頻繁項挖掘作用于事務(wù)數(shù)據(jù)庫,而頻繁序列挖掘作用于序列數(shù)據(jù)庫。常見的序列挖掘算法有基于Apriori思想的Apriori類算法和基于投影技術(shù)的序列挖掘算法[8]。

        (4)K-means聚類

        聚類算法經(jīng)常被用于數(shù)據(jù)壓縮和概括,通過聚類將相似的數(shù)據(jù)聚集在一起,用中心點代替整個簇[9]。K-means是一種基于距離的聚類算法??梢詫?shù)據(jù)分成指定個數(shù)的聚簇,并計算出每個聚簇的質(zhì)心。

        (5)BitOccurrence編碼

        頻繁序列挖掘的結(jié)果是序列,為了壓縮序列,減少序列個數(shù)需要使用K-means算法聚類,K-means算法的輸入是向量。BitOccurrence可用于將一組序列轉(zhuǎn)換為一組向量。向量的屬性由序列中出現(xiàn)的元素組成。向量中每個屬性的值由該元素在序列中出現(xiàn)的位置和次數(shù)決定。對于向量Vi中的任意屬性ak(其中1≤k≤n)都由m個二進制位組成,屬性ak的值是二進制位對應(yīng)的十進制數(shù)值。二進制位從低位到高位依次為b1~bm,其中m為序列Si中元素的個數(shù),n為向量中不同網(wǎng)站類型的個數(shù)。對于其中的任意一位 bj(1≤j≤m),若屬性ak在Si的第 j小節(jié)(從左到右依次為第1~m節(jié))出現(xiàn),則bj=1,否則bj=0。

        如果一個示例如下:序列:

        向量:

        表3

        3.2 實驗流程

        本研究通過對比男女生上網(wǎng)的頻繁序列模式來研究男女生上網(wǎng)模式的差異。

        如圖2所示,實驗主要分為6個步驟,其中核心步驟是第4步,對日志文件進行最大頻繁序列挖掘。步驟1用于計算各網(wǎng)站類型的支持度。步驟2根據(jù)1中計算的支持度將日志文件分為高、中、低頻三個部分,又因為男生和女生的日志記錄要分開挖掘,故產(chǎn)生了6個數(shù)據(jù)集,分別為 DHigh_male、DMid_male、DLow_male、DHigh_female、DMid_fe?male、DLow_male。劃分結(jié)果如表4所示。

        圖2 實驗流程圖

        表4 男女生各頻段網(wǎng)站類型個數(shù)

        由于網(wǎng)站類型較多,日志條數(shù)較多,為了能在可接受的時間內(nèi)計算出挖掘結(jié)果,步驟3需要將日志的粒度調(diào)整為“月”,以縮減記錄條數(shù)。同時,對于每個用戶,只保留其當(dāng)月訪問次數(shù)排在前K位的網(wǎng)絡(luò)類型,如此可以縮減每個序列的中單項的個數(shù)。當(dāng)K取10時,各頻段網(wǎng)站類型的覆蓋率較好,各性別、頻段的日志覆蓋率如表5所示(覆蓋率是指被選出的網(wǎng)站類型組成的記錄占原記錄的比例)。

        表5 各頻段男女生日志網(wǎng)站類型覆蓋率

        步驟4用最大頻繁序列挖掘算法對日志進行挖掘[10]。挖掘出的結(jié)果包含的序列較多,不方便直接用于對比。需要先利用BitOccurrence算法將頻繁序列轉(zhuǎn)換為向量(步驟5),再利用K-means算法進行聚類(步驟6),以縮減序列數(shù)量。

        4 實驗結(jié)果分析

        經(jīng)過頻繁序列挖掘和聚類處理后,得到6組序列數(shù)據(jù),分別為男生和女生的高、中、低頻段的網(wǎng)絡(luò)訪問序列模式。將序列格式化成表格的形式。表格的每一列對應(yīng)序列中的一個元素(節(jié))。

        4.1 高頻

        高頻部分結(jié)果如表6所示。該部分的網(wǎng)站類型是用戶訪問最頻繁的網(wǎng)站。在這部分網(wǎng)站的訪問上,男生和女生并沒有非常明顯地區(qū)別。從表5可以看出在“門戶網(wǎng)站”、“搜索引擎”兩個類別上男生和女生的訪問模式相同。對于“在線影視”和“綜合購物”類型的網(wǎng)站男生和女生都較頻繁的訪問,但男生的訪問序列的每個小節(jié)都包含這兩種類型,而女生的訪問序列模式只在第二、三小節(jié)包含這兩個類型,說明男生對這兩個類型網(wǎng)站的訪問更為頻繁。除此之外男生還額外還訪問了“在線影視”、“在線音樂”、“軟件下載”和“微博”這些類型的網(wǎng)站。

        表7 中頻部分的序列

        表6 高頻部分的序列

        4.2 中頻

        中頻部分結(jié)果如表7所示。中頻部分,男女生訪問的網(wǎng)站類型差異明顯。男生更多地關(guān)注了游戲相關(guān)、“手機軟件”、“電子地圖”、“網(wǎng)站導(dǎo)航”等類型的網(wǎng)站,而女生則更多地關(guān)注了“數(shù)碼家電”、“博客”、“百科問答”、“電子支付”相關(guān)的網(wǎng)站。從這部分?jǐn)?shù)據(jù)可以看出女生更傾向于從網(wǎng)絡(luò)獲取信息,利用網(wǎng)絡(luò)解決問題。而男生更多地參與到網(wǎng)絡(luò)娛樂當(dāng)中。

        表8 低頻部分書序列

        4.3 低頻

        低頻部分結(jié)果如表8所示。該部分的網(wǎng)站類別并非學(xué)生訪問網(wǎng)站的主流。從挖掘的結(jié)果可以看出:男女生在該部分的訪問模式也有顯著差異。男生更多地關(guān)注了“交友綜合“、”硬件評測“、“女性綜合”、“歷史人物”、“母嬰親子”、“財經(jīng)資訊”和“醫(yī)療健康”等類型的網(wǎng)站。而女生則更多地關(guān)注了“報刊雜志”、“IT資訊”、“汽車資訊”和“游戲綜合”等類型的網(wǎng)站。

        “游戲綜合”網(wǎng)站類型,出現(xiàn)在男生的中頻部分,而出現(xiàn)在女生的低頻部分,這說明女生同樣關(guān)注游戲相關(guān)的內(nèi)容,但是關(guān)注度小于男生。從關(guān)注的內(nèi)容上來說,女生更多地關(guān)注和游戲資訊、攻略相關(guān)的內(nèi)容;而男生對于游戲的關(guān)注更為全面,包含了游戲資訊、游戲攻略、游戲官網(wǎng)、網(wǎng)絡(luò)游戲等。

        此部分?jǐn)?shù)據(jù)顯示,女生更多地利用網(wǎng)絡(luò)獲取信息和資訊。男生同時還將網(wǎng)絡(luò)用于社交目的。

        5 結(jié)語

        本文以網(wǎng)絡(luò)日志作為研究數(shù)據(jù),以2014、2015級本科生作為研究對象,通過序列挖掘算法挖掘不同性別的學(xué)生的上網(wǎng)模式。同時,還提出了一種將序列轉(zhuǎn)化成向量的編碼方法BitOccurrence。通過對男女生上網(wǎng)序列模式的對比發(fā)現(xiàn):男女生在最常訪問的網(wǎng)站類型上沒有明顯地區(qū)別。男生訪問的網(wǎng)站類型比女生更豐富。男生上網(wǎng)更多地進行娛樂和社交活動,而女生則更多地將網(wǎng)絡(luò)作為獲取資訊和信息的工具。

        本文以網(wǎng)關(guān)服務(wù)器的日志作為數(shù)據(jù)來源比將調(diào)查問卷作為數(shù)據(jù)來源的方法具有更好的準(zhǔn)確性。

        [1]Large,Andrew.Gender Differences in Collaborative Web Searching Behavior:an Elementary School Study[J].Information Processing&Management,2002:427-443.

        [2]Lian,J.W.Online Shopping Drivers and Barriers for Older Adults:Age and Gender Differences[J].Computers in Human Behavior,2014:133-143.

        [3]Weiser,Eric B.Gender Differences in Internet Use Patterns and Internet Application Preferences:A Two-Sample Comparison[J].Mary Ann Liebert,Inc.,2000:167-168.

        [4]Lin,C.H.Adolescent Internet Usage in Taiwan:Exploring Gender Differences[J].Adolescence,2008:317-331.

        [5]李廣義.人力資源管理[M].天津大學(xué)出版社,2009.

        [6]Qing Zhou.Predicting Student Performances From Access Records on General Websites[J].Electronics,Communications and Networks IV,2015:661-664.

        [7]王虎,丁世飛.序列模式挖掘研究與發(fā)展[J].計算機科學(xué),2009:14-17.

        [8]Sun,H,Sun,J.H,Chen,H.Mining Frequent Attack Sequence in Web Logs[J].Springer Int Publishing Ag,2016:243-260.

        [9]Jiawei Han.Data Mining:Concepts and Techniques,Third Edition[M].Morgan Kaufmann,2011.

        [10]Fournier-Viger,P.,Lin,C.W.,Gomariz,A.,Gueniche,T.,Soltani,A.,Deng,Z.,Lam,H.T.(2016).The SPMF Open-Source Data Mining Library Version 2.Proc.19th European Conference on Principles of Data Mining and Knowledge Discovery(PKDD 2016)Part III,Springer LNCS 9853:36-40.

        Research on Gender Gap in Internet Based on Frequent Sequential Pattern Mining

        SUN Qi-liang,MOU Chao,MENG Yao
        (College of Computer Science,Chongqing University,Chongqing 400044)

        Uses the net access log as research data,and uses the frequent sequential pattern mining and K-means clustering algorithm to excavate dif?ferent access patterns between males and females.By comparing males'and females'visit patterns in high,medium and low frequencies,it is found that there is no significant difference between male and female in the most frequently visited site types.Men are more likely to use the Internet for recreational and social purposes,and women are more likely to use the Internet as a tool for getting information.In addition,the types of site visited by men are more than by women.Besides,presents a method for converting sequences into vectors.

        孫啟亮(1990-),男,黑龍江哈爾濱人,在讀碩士,研究方向為數(shù)據(jù)挖掘

        2017-04-14

        2017-06-11

        1007-1423(2017)17-0044-06

        10.3969/j.issn.1007-1423.2017.17.009

        牟超(1989-),男,山東濰坊人,在讀博士,研究方向為數(shù)據(jù)挖掘

        孟瑤(1992-),女,云南德宏人,在讀碩士,研究方向為數(shù)據(jù)挖掘

        Gender Gap;Frequent Sequential Pattern Mining;Clustering;Net Access Log

        日本精品久久久久中文字幕| 国产精品无码久久久久久久久作品| 亚洲中文字幕精品一区二区| 日本a级片一区二区三区| 一本大道av伊人久久综合| 少妇无码av无码专区线| 综合网在线视频| 91精品国产乱码久久久| av黄色在线免费观看| 四虎影视成人永久免费观看视频| 欧美黑人乱大交| 成人精品免费av不卡在线观看| 亚洲白嫩少妇在线喷水| 国产精品无码人妻在线| 一本大道久久东京热无码av| 久久亚洲第一视频黄色| 日本人妻高清免费v片| 亚洲av一二三区成人影片| www国产亚洲精品久久网站| 久久露脸国产精品WWW| 久久国产精品国语对白| 全黄性性激高免费视频| 国产精品久久久久久妇女6080| 久久人妻av无码中文专区| 亚洲女同av在线观看| 色综合久久久久综合99| 女人与牲口性恔配视频免费| 国产一区,二区,三区免费视频| 久久夜色国产精品噜噜亚洲av| 色爱无码av综合区| 欧美日韩亚洲国产千人斩| 亚洲自偷自拍另类第一页| 人妻中文字幕在线网站| 国产精品va在线观看无码| 久久99老妇伦国产熟女高清| 男女做羞羞事的视频网站| 亚瑟国产精品久久| 亚洲婷婷丁香激情| 亚洲精品视频一区二区三区四区| 又色又爽又黄的视频软件app| 精品国产黑色丝袜高跟鞋|