亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于密度峰值聚類的大學(xué)生異常行為檢測(cè)研究

        2021-05-14 07:15:44李慧芳鐘新成付曉麗
        電腦與電信 2021年3期
        關(guān)鍵詞:高密度峰值聚類

        李慧芳 鐘新成 付曉麗

        (長(zhǎng)治學(xué)院計(jì)算機(jī)系,山西 長(zhǎng)治 046011)

        1 引言

        大學(xué)生健康安全成長(zhǎng)是高等教育管理者所關(guān)注的重點(diǎn)工作。有些大學(xué)生因存在掛科、網(wǎng)貸、孤僻等異常行為成為學(xué)校的重點(diǎn)關(guān)注對(duì)象。如何及時(shí)發(fā)現(xiàn)學(xué)生群體中的學(xué)生異常行為并進(jìn)行心理疏導(dǎo)和關(guān)懷,已成為高校學(xué)生心理健康管理工作的一項(xiàng)重要任務(wù)。

        目前,常見(jiàn)的異常行為檢測(cè)方法包括有監(jiān)督的異常檢測(cè)方法和無(wú)監(jiān)督的異常檢測(cè)方法。有監(jiān)督的檢測(cè)方法需要一個(gè)事先標(biāo)記好的訓(xùn)練集,從而達(dá)到訓(xùn)練分類器識(shí)別異常數(shù)據(jù)的目的。對(duì)于異常用戶特別稀少的情形,往往需要大量時(shí)間,尋找數(shù)據(jù)的效率較低。常采用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等建立檢測(cè)模型。無(wú)監(jiān)督的檢測(cè)方法不僅不需要提前標(biāo)記訓(xùn)練集,在新的異常數(shù)據(jù)類型出現(xiàn)后,該方法能夠更快更有效率地進(jìn)行檢測(cè)。常采用k-means、近鄰傳播等聚類方法對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)。這些算法通過(guò)對(duì)樣本按照相似性分為若干簇,使得屬于同一簇的樣本之間的距離盡可能小而不同簇間的個(gè)體間的距離盡可能大[1]。

        密度峰值聚類算法于2014年在《Science》上發(fā)表,受到了廣大學(xué)者的關(guān)注[2-4]。目前,已有許多領(lǐng)域采用該算法檢測(cè)異常數(shù)據(jù)特點(diǎn)問(wèn)題。文獻(xiàn)[5]通過(guò)優(yōu)化初始聚類中心,采用密度峰值聚類檢測(cè)算法改善電力大數(shù)據(jù)異常值的檢測(cè)復(fù)雜度。文獻(xiàn)[6]通過(guò)直方圖均衡化原理優(yōu)化類間距離,實(shí)現(xiàn)密度峰值聚類的短期光伏功率預(yù)測(cè)。文獻(xiàn)[7]通過(guò)密度峰值聚類算法對(duì)未知鏈路進(jìn)行分類,依據(jù)分類結(jié)果完成鏈路預(yù)測(cè)。文獻(xiàn)[8]提出一種基于網(wǎng)格的密度峰值聚類方法,該算法的基本思想是采用雙重網(wǎng)格劃分方式對(duì)雷達(dá)信號(hào)脈沖進(jìn)行實(shí)時(shí)聚類。實(shí)驗(yàn)結(jié)果表明,實(shí)時(shí)雷達(dá)分選聚類很好地處理了雷達(dá)信號(hào)的重疊嚴(yán)重問(wèn)題。

        本文將密度峰值聚類算法應(yīng)用于大學(xué)生異常群體預(yù)測(cè),首先采用加權(quán)歐式距離應(yīng)用于樣本點(diǎn)間距離優(yōu)化,然后建立基于局部密度和高密度距離的決策圖,最后識(shí)別正常樣本點(diǎn)與異常樣本點(diǎn)。

        2 學(xué)生異常檢測(cè)算法

        2.1 密度峰值距離算法原理

        密度峰值聚類算法屬于一種可以發(fā)現(xiàn)非凸簇類的無(wú)監(jiān)督學(xué)習(xí)算法,可以直觀地找到簇?cái)?shù)量,也很容易發(fā)現(xiàn)異常樣本點(diǎn)。該算法的簇中心具有兩個(gè)特點(diǎn):1)樣本點(diǎn)被相對(duì)密度較低的鄰居樣本點(diǎn)所包圍;2)樣本點(diǎn)與更高密度樣本點(diǎn)對(duì)象具有相對(duì)較大的距離。

        為了便于深入分析大學(xué)生群體行為,假設(shè)學(xué)生樣本集X包括m個(gè)對(duì)象,每個(gè)數(shù)據(jù)對(duì)象有n個(gè)屬性特征,則X={x1,x2,x3,…,xm},xi=(xi1,xi2,…,xin)。

        對(duì)樣本點(diǎn)xi的局部密度和高密度距離定義如下:(1)局部密度的定義:

        其中i為第i個(gè)樣本點(diǎn),j為第j個(gè)樣本點(diǎn),dij為點(diǎn)xi和xj間的距離,參數(shù)d c為截?cái)嗑嚯x,φ(x)是分段函數(shù),當(dāng)dij

        (2)高密度距離的定義:大于自身局部密度的樣本點(diǎn)中,與離自身最近的樣本點(diǎn)之間的間距。對(duì)于任一點(diǎn)xi的高密度距離δi可表示為:

        2.2 特征加權(quán)的距離度量

        在密度峰值聚類中,距離度量方法會(huì)直接影響聚類算法的結(jié)果。常見(jiàn)的度量方法有歐式距離和馬氏距離。歐式距離又稱為歐幾里得距離,可以通過(guò)樣本之間的距離計(jì)算兩個(gè)樣本的相似度,距離越近就越相似[9]。在n維空間中,xi和xj間的歐式距離可表示為:

        上述的歐式距離公式中樣本點(diǎn)在每個(gè)位置的屬性對(duì)樣本集的影響認(rèn)為是均等的,沒(méi)有考慮樣本各個(gè)維度之間的尺度不一致的問(wèn)題,會(huì)導(dǎo)致判定結(jié)果產(chǎn)生誤差。本文提出的屬性加權(quán)距離度量方法直接作用到各個(gè)維度,將各個(gè)維度都滿足標(biāo)準(zhǔn)正態(tài)分布。兩個(gè)樣本點(diǎn)的加權(quán)歐式距離表示為:

        其中Sk表示第k維度的標(biāo)準(zhǔn)差。

        2.3 簇類中心和異常點(diǎn)的識(shí)別

        (1)簇類中心的識(shí)別

        簇類中心是同時(shí)具備較大局部密度和較大高密度距離的樣本點(diǎn),可表示為:

        由簇類中心的定義可知,當(dāng)樣本點(diǎn)i成為聚類中心點(diǎn)時(shí),其必然具有較大的密度ρ和距離δ,根據(jù)上述計(jì)算公式,此時(shí)樣本點(diǎn)也應(yīng)具有較大的γ值。該異常檢測(cè)算法以局部密度ρ為橫坐標(biāo)距離δ為縱坐標(biāo)進(jìn)行繪制據(jù)決策圖。圖1為28個(gè)樣本點(diǎn)的分布情況,圖2為依據(jù)局部密度和高密度距離都大的樣本點(diǎn)繪制的決策圖。從圖2可以看出樣本點(diǎn)1和樣本點(diǎn)具有較高的局部密度和高密度距離并可以選取為簇類中心。

        (2)異常點(diǎn)的識(shí)別

        為了識(shí)別異常點(diǎn)樣本,將屬于某一簇但是距離其他簇不超過(guò)d c的樣本點(diǎn)的集合定義為邊界區(qū)域,同時(shí)將邊界區(qū)域中局部密度最高的點(diǎn)定義為ρb。簇中局部密度等于或小于ρb的樣本點(diǎn)分離為異常點(diǎn)。

        圖1 樣本點(diǎn)分布

        圖2 決策圖

        2.4 算法流程

        基于密度峰值距離算法的學(xué)生異常行為檢測(cè)的步驟如下:

        輸入:高校學(xué)生數(shù)據(jù)樣本集X={x1,x2,x3,…,xm}

        過(guò)程:

        Step1:計(jì)算任意兩樣本點(diǎn)之間的距離d ij,構(gòu)造相似度矩陣。

        Step2:將矩陣前1%~2%的值作為截?cái)嗑嚯xdc。

        Step3:根據(jù)公式計(jì)算數(shù)據(jù)樣本集中各個(gè)對(duì)象的局部密度和高密度距離。

        Step4:生成有關(guān)的決策圖,標(biāo)識(shí)具有高局部密度和高密度距離的點(diǎn)為簇類中心。

        Step5:將非簇類中心分配到最近的高密度簇。

        Step6:將局部密度不超過(guò)邊界區(qū)密度的樣本點(diǎn)視為異常點(diǎn)。

        表1 月平均樣本數(shù)據(jù)(部分)

        表2 歸一化后的月平均樣本數(shù)據(jù)(部分)

        輸出:輸出學(xué)生樣本集的聚類簇以及學(xué)生異常點(diǎn)樣本。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

        本文所用的驗(yàn)證數(shù)據(jù)集均為在長(zhǎng)治學(xué)院智慧校園系統(tǒng)平臺(tái)上采集,將13個(gè)系部30個(gè)班級(jí)共1500名大學(xué)生作為觀察對(duì)象。采集數(shù)據(jù)分為消費(fèi)數(shù)據(jù)、出勤數(shù)據(jù)、教學(xué)數(shù)據(jù)、娛樂(lè)數(shù)據(jù)、圖書館借閱數(shù)據(jù)五大類。消費(fèi)數(shù)據(jù)包括學(xué)生食堂消費(fèi)金額、網(wǎng)購(gòu)快遞次數(shù)。出勤數(shù)據(jù)包括學(xué)生運(yùn)動(dòng)出勤時(shí)間、公益活動(dòng)時(shí)間、社團(tuán)活動(dòng)參與時(shí)間、食堂寢室時(shí)間、圖書館進(jìn)出次數(shù)。教學(xué)數(shù)據(jù)包括課程作業(yè)完成情況、課堂參與度、早晚自習(xí)、課程成績(jī)。網(wǎng)絡(luò)娛樂(lè)數(shù)據(jù)包括網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)追劇。圖書借閱數(shù)據(jù)包括借閱次數(shù)、借閱書籍類型。

        樣本集的標(biāo)準(zhǔn)化對(duì)實(shí)驗(yàn)結(jié)果影響很大,因此在聚類前需要對(duì)樣本點(diǎn)進(jìn)行歸一化處理,使得每個(gè)樣本的屬性值轉(zhuǎn)換為[0,1]之間的數(shù)值。

        樣本數(shù)據(jù)如表1所示。

        歸一化處理后的樣本數(shù)據(jù)如表2所示。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證算法的性能和效果,本文采用未加權(quán)的歐式距離密度峰值聚類算法和加權(quán)歐式距離的密度峰值聚類算法進(jìn)行比較,評(píng)價(jià)指標(biāo)包括檢測(cè)率和誤檢率。檢測(cè)率用來(lái)表示被正確檢測(cè)的異常學(xué)生個(gè)體占整個(gè)異常學(xué)生個(gè)體的比例。誤檢率用來(lái)表示正常學(xué)生個(gè)體被檢測(cè)為異常學(xué)生個(gè)體數(shù)占整個(gè)正常學(xué)生個(gè)體數(shù)的比例。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 各算法聚類檢測(cè)率和誤檢率比較

        通過(guò)對(duì)有關(guān)班級(jí)輔導(dǎo)員和學(xué)生代表進(jìn)行詢問(wèn),實(shí)驗(yàn)結(jié)果篩選的部分學(xué)生異常個(gè)體符合對(duì)應(yīng)學(xué)生的日常生活和學(xué)習(xí)行為。部分學(xué)生異常個(gè)體如表4所示。

        表4 部分異常個(gè)體

        從表3可以分析得出,19***201和19***203兩位學(xué)生個(gè)體在校園活動(dòng)記錄較少,該生在圖書館進(jìn)出次數(shù)、運(yùn)動(dòng)次數(shù)都較少、校園消費(fèi)金額高、上網(wǎng)時(shí)間過(guò)長(zhǎng),該生可能存在不經(jīng)常參加校園活動(dòng)、作息不規(guī)律等行為,可將其認(rèn)定為異常學(xué)生個(gè)體。該生輔導(dǎo)員有必要對(duì)其學(xué)習(xí)和生活狀態(tài)進(jìn)行了解,并與其適當(dāng)進(jìn)行交流和督促。

        4 結(jié)語(yǔ)

        本文從高校校園大數(shù)據(jù)入手,采用密度峰值聚類算法設(shè)計(jì)并實(shí)現(xiàn)了異常學(xué)生個(gè)體的檢測(cè)方法,并在聚類過(guò)程中選擇特征加權(quán)的距離度量方法。通過(guò)實(shí)驗(yàn)證明,本文采用的檢測(cè)算法能夠獲得較好的聚類效果和異常識(shí)別效果。本文的研究有助于高校管理者充分分析學(xué)生行為特點(diǎn),而且能夠更深層次地挖掘?qū)W生異常行為。在今后的工作中,會(huì)進(jìn)一步研究學(xué)生屬性之間的關(guān)聯(lián)對(duì)聚類結(jié)果的影響。

        猜你喜歡
        高密度峰值聚類
        “四單”聯(lián)動(dòng)打造適齡兒童隊(duì)前教育峰值體驗(yàn)
        高密度電法在斷裂構(gòu)造探測(cè)中的應(yīng)用
        高密度電法在尋找地下水中的應(yīng)用
        基于DBSACN聚類算法的XML文檔聚類
        寬占空比峰值電流型準(zhǔn)PWM/PFM混合控制
        基于峰值反饋的電流型PFM控制方法
        城市高密度環(huán)境下的建筑學(xué)探討
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        高密度互連技術(shù)強(qiáng)勁發(fā)展
        婷婷久久精品国产色蜜蜜麻豆| 欧美日韩一线| 亚洲一区二区国产精品视频| 中文字幕亚洲精品专区| 蜜臀亚洲av无码精品国产午夜.| 狠狠色综合网站久久久久久久| 国产精品国产三级国产专播| 国产成人高清视频在线观看免费 | 成人av资源在线播放| 国产色欲av一区二区三区 | 2021国产精品视频| 日韩av一区二区三区在线观看| 末成年人av一区二区| 男女爱爱好爽视频免费看| 国产AV国片精品有毛| 在线亚洲精品一区二区三区| 无码少妇丰满熟妇一区二区| 亚洲av日韩av综合| 91福利国产在线观看网站| 亚洲精品在线一区二区| 无码人妻丰满熟妇区五十路| 18无码粉嫩小泬无套在线观看| 欧洲-级毛片内射| 麻豆人妻无码性色AV专区| 免费人成网站在线视频| 国产精品无码无在线观看| 久久人人玩人妻潮喷内射人人| 精品少妇一区一区三区| 亚洲成人av一区二区| 18禁裸男晨勃露j毛网站| 91spa国产无码| 久久中文字幕亚洲精品最新| 免费一区二区三区av| 中文字日产幕码三区的做法大全| 国产麻豆精品久久一二三| 久久道精品一区二区三区| 亚洲国产精品久久久婷婷| 色www永久免费视频| 久久免费大片| 国产福利一区二区三区在线观看| 国产精品h片在线播放|