亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

應(yīng)用于校園網(wǎng)用戶行為分析的K—means聚類算法研究

2018-10-19 16:09:08王磊

科學(xué)與財(cái)富 2018年27期

關(guān)鍵詞：分析

王磊

摘要：校園網(wǎng)的用戶行為指的是在使用網(wǎng)絡(luò)的時(shí)候，用戶所表現(xiàn)出來(lái)的一種規(guī)律，在這里，可以使用一些特別的定量表示出來(lái)，校園網(wǎng)用戶行為有著比較特殊的特征，這是普通網(wǎng)絡(luò)使用群眾無(wú)法具備的。在現(xiàn)社會(huì)的校園網(wǎng)當(dāng)中，有著越來(lái)越多的挖掘技術(shù)，利用這些技術(shù)來(lái)分析校園網(wǎng)的用戶行為，對(duì)寬帶進(jìn)行合理的分配，有助于提升校園網(wǎng)用戶的使用效率。本文就對(duì)應(yīng)用于校園網(wǎng)用戶行為分析的K-means聚類算法進(jìn)行敘述，供參考。

關(guān)鍵詞：校園網(wǎng)用戶行為；分析；K-means聚類算法

引言：

現(xiàn)社會(huì)，不少院校對(duì)于校園網(wǎng)的管理都比較欠缺，通常都會(huì)采用服務(wù)器來(lái)進(jìn)行管理，比如在認(rèn)證計(jì)費(fèi)和流量監(jiān)控等方面都會(huì)使用進(jìn)服務(wù)器，服務(wù)器在服務(wù)的過(guò)程當(dāng)中，會(huì)產(chǎn)生很多的數(shù)據(jù)，這些數(shù)據(jù)都會(huì)自動(dòng)保存在后臺(tái)數(shù)據(jù)庫(kù)里面。全部的數(shù)據(jù)里面，有一些是和校園網(wǎng)有關(guān)的，有的數(shù)據(jù)是和校園網(wǎng)的使用、運(yùn)行狀態(tài)有關(guān)的，假如把這些數(shù)據(jù)進(jìn)行分析和利用，就可能會(huì)對(duì)整個(gè)校園網(wǎng)起到很好的協(xié)助作用。使用K-means聚類算法能夠有效的對(duì)整個(gè)用戶行為進(jìn)行分析，并且描述出校園網(wǎng)用戶行為和網(wǎng)絡(luò)的運(yùn)行實(shí)時(shí)情況，K-means聚類算法在校園網(wǎng)用戶行為特征和使用情況以及校園網(wǎng)的分布等諸多方面有著非常好的作用。

1.K-means聚類算法的概括

K-means聚類算法是一種相對(duì)來(lái)說(shuō)比較重要有效的挖掘方式，將物理現(xiàn)象和抽象對(duì)象進(jìn)行了分組的一個(gè)過(guò)程，相似的對(duì)象就分為一組，不同的對(duì)象再分為一類，可以把聚類算法分成很多個(gè)群體，各個(gè)群體內(nèi)部的對(duì)象都有著比較強(qiáng)的相似度，但是，這種相似度在不同的群體之間卻很低，這也是聚類算法的一大特征?？梢园丫垲愃惴ǚ殖蓭追N類型：劃分方法、層次方法、基于網(wǎng)格的方法等，每一種方法雖然表面上都沒(méi)有多大的聯(lián)系，但是卻都有著自己的代表算法。K-means聚類算法就是諸多聚類算法中的一種，它屬于劃分方法的行列，K-means聚類算法有一個(gè)很顯著的特點(diǎn)，就是它有著比較好的可伸度和效率，比較適合用在大文檔案的處理過(guò)程當(dāng)中。K-means聚類算法可以把物理對(duì)象或抽象對(duì)象進(jìn)行分組，相似的對(duì)象分為一組，彼此相似的一組對(duì)象組成的集合和不同聚類當(dāng)中的對(duì)象相比，相似度有著一定的差異，而給定的那個(gè)數(shù)據(jù)項(xiàng)之間會(huì)有一定的價(jià)值存在，這些價(jià)值都會(huì)導(dǎo)致聚類和同一聚類當(dāng)中的對(duì)象相似度極高，相反，不同劇聚類當(dāng)中的相似度反而很小。

2.校園網(wǎng)用戶行為分析的K-means聚類算法的數(shù)據(jù)準(zhǔn)備

2.1理解數(shù)據(jù)

校園網(wǎng)用戶行為產(chǎn)生的數(shù)據(jù)基本上都是來(lái)自認(rèn)證計(jì)費(fèi)數(shù)據(jù)庫(kù)當(dāng)中的，日常的數(shù)據(jù)都會(huì)保存在登錄數(shù)據(jù)庫(kù)里面。要想利用K-means聚類算法來(lái)分析出校園網(wǎng)的用戶行為，就要先建立一個(gè)用戶特征的反映系統(tǒng)，日志數(shù)據(jù)表當(dāng)中所提供出來(lái)的二十三個(gè)字段就是校園網(wǎng)的基礎(chǔ)，在確定了參數(shù)之后，還需要確定校園網(wǎng)用戶的特征項(xiàng)。比如，用戶登錄日志的時(shí)候記錄的都是第一次登錄的數(shù)據(jù)，也可以理解成一個(gè)用戶有著很多條登錄的信息，這是不具有統(tǒng)一性的。因此，要想在真正意義上實(shí)現(xiàn)校園網(wǎng)用戶行為的分析，就必須要根據(jù)登錄表當(dāng)中的IP地址來(lái)進(jìn)行統(tǒng)計(jì)，并且，還要對(duì)每一個(gè)校園網(wǎng)用戶的月使用流量進(jìn)行分析和統(tǒng)計(jì)，從中將使用流量提取出來(lái)。

2.2數(shù)據(jù)處理

數(shù)據(jù)處理的這個(gè)過(guò)程需要使用到SQL2005的ETL工具，其能夠有效的對(duì)校園網(wǎng)用戶數(shù)據(jù)進(jìn)行處理，比如，在日志數(shù)據(jù)庫(kù)當(dāng)中提取到某個(gè)月的數(shù)據(jù)，假如是2016年8月的數(shù)據(jù)，這個(gè)月校園網(wǎng)用戶登錄日志的量高達(dá)215681條。按照數(shù)據(jù)的生成需求，只需要用到3個(gè)字段就可以了。

2.3數(shù)據(jù)處理過(guò)程

專家可以先設(shè)計(jì)一個(gè)數(shù)據(jù)流，再利用SQLSever2005的SSIS工具將其生成為K-means聚類算法需要的數(shù)據(jù)，這也就逐漸形成了K-means聚類算法的初始輸入文件，假如登錄表顯示的數(shù)量是3381行，那么就證明2016年8月的IP數(shù)值達(dá)到了3381條，在登錄記錄表當(dāng)中，K-means聚類算法可以把IP地址當(dāng)成是文件的關(guān)鍵字段。整個(gè)數(shù)據(jù)流的過(guò)程都需要采用ETL工具來(lái)對(duì)數(shù)據(jù)進(jìn)行抽取，盡量抽取出一些符合要求或條件的校園網(wǎng)用戶行為數(shù)據(jù)，在抽取完畢之后，才能通過(guò)數(shù)據(jù)做樣本模型。

3.調(diào)整算法參數(shù)

3.11Clustering_Method參數(shù)

Clustering-Method參數(shù)能夠明確的指出哪一種算法決定聚類的組成部分，這種參數(shù)的算法總共可以分成四種，首先是可以伸縮的EM算法，其次是較為普通的EM算法，雖然表面上都是EM算法，但是后者是不具有伸縮性的。除此以外，還有可伸縮的K-means算法以及不可伸縮的K-means算法，通常情況下，使用最多的就是可伸縮的K-means算法。

3.2Cluster_Count參數(shù)

Cluster-Count參數(shù)是K-means聚類算法當(dāng)中的k值，它能夠算出需要多少個(gè)聚類，假如把Cluster-Count參數(shù)的值暫定為0，那么K-means聚類算法就會(huì)把數(shù)據(jù)當(dāng)中的聚類個(gè)數(shù)估測(cè)出來(lái)，在經(jīng)過(guò)了對(duì)比和調(diào)整以后最終選擇K值為3，這種分類也是最具獨(dú)立性的。

結(jié)束語(yǔ)：

在校園網(wǎng)用戶行為的分析上，使用K-means聚類算法能夠更加有效對(duì)數(shù)據(jù)、K值進(jìn)行分析，從而更好的分析出用戶行為，并且，這也是一種新的嘗試，聚類結(jié)果給校園網(wǎng)管理人員提供了更多的用戶行為，這樣就可以制定出更多的網(wǎng)絡(luò)策略。

參考文獻(xiàn)：

[1]李旭.基于聚類技術(shù)的校園網(wǎng)絡(luò)用戶行為數(shù)據(jù)分析研究[D].山東師范大學(xué)，2016.

[2]楊志忠.基于Hadoop的網(wǎng)絡(luò)用戶行為分析[D].蘭州理工大學(xué)，2016.

[3]馬仕玉.聚類算法及其在校園網(wǎng)用戶行為分析中的應(yīng)用[D].重慶交通大學(xué)，2015.

[4]黎慧娟.校園網(wǎng)用戶行為的分析與研究[D].廣西大學(xué)，2007.