亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MD-KNN算法在高校精準資助中的應(yīng)用

        2020-07-15 05:01:32王艷秋凌玉龍
        計算機技術(shù)與發(fā)展 2020年7期
        關(guān)鍵詞:分析學生

        李 博,李 霞,張 曉,王艷秋,李 恒,張 勇,凌玉龍

        (1.西北工業(yè)大學 計算機學院,陜西 西安 710129;2.西北工業(yè)大學 工信部大數(shù)據(jù)存儲與管理重點實驗室,陜西 西安 710129;3.西北工業(yè)大學 學生資助服務(wù)中心,陜西 西安 710129)

        0 引 言

        學生群體是社會中非常重要的群體,并且對社會的發(fā)展有重大影響,因此對學生行為的分析有很大的意義。但是由于學生群體是一個相似度比較高的群體,目前針對學生群體的數(shù)據(jù)挖掘算法還比較少。貧困學生的篩選與資助是很多高校的一項重要事務(wù),通過分析學生的家庭情況、消費和學習行為,可以找到需要資助的貧困學生群體,還可以預防甄別生活規(guī)律有異常的學生,從而進行相應(yīng)的幫助[1-5]。

        基于馬氏距離的KNN算法(Mahalanobis distance k-nearest neighbor algorithm,MD-KNN,馬氏KNN)是一種改進的KNN算法。相比于傳統(tǒng)的KNN算法,MD-KNN算法采用了馬氏距離,可以更好地處理一些非數(shù)值型數(shù)據(jù),比如:生源地、性別等因素。文中采用該算法,以西安某高校在校學生數(shù)據(jù)為樣本,進行實驗分析,探究MD-KNN算法在貧困學生資助工作中的效果。在通過MD-KNN算法篩選得到擬貧困學生名單后,與實際篩選名單進行對比,分析兩者的匹配率,以及學生的消費水平。在分析學生數(shù)據(jù)時發(fā)現(xiàn):貧困學生的在校就餐次數(shù)與就餐天數(shù)會有一定的規(guī)律,并通過實驗分析驗證了這一觀點。此外還發(fā)現(xiàn),學生吃早餐情況也與該生的學習成績之間有正相關(guān)的聯(lián)系[6-9]。

        1 研究現(xiàn)狀

        KNN分類算法是一種經(jīng)典且應(yīng)用廣泛的數(shù)據(jù)挖掘算法。隨著科學技術(shù)的發(fā)展,為了適應(yīng)一些新問題、新背景,在傳統(tǒng)KNN算法的基礎(chǔ)上也不斷提出新的改進方法,比如:AHP-KNN(analytic hierarchy process KNN)、FCD-KNN(feature correlation difference KNN)等。MD-KNN算法是在原先KNN算法的基礎(chǔ)上,采用馬氏距離(Mahalanobis distance)來計算樣本之間的距離,因此MD-KNN算法可以更多地考慮非數(shù)值型因素,從而提升算法的精度。根據(jù)在西安某高校收集的學生數(shù)據(jù),其中以數(shù)值型數(shù)據(jù)為主,如經(jīng)濟消費數(shù)據(jù)、學習成績、圖書館入館記錄、借書記錄等,也有部分非數(shù)值數(shù)據(jù),如生源地、性別、是否殘疾單親等。文中選用MD-KNN算法進行學生行為的分析,探索學生行為的規(guī)律,并篩選需要資助的學生,以及行為有異常的學生[10-12]。

        國內(nèi)外對于學生群體的行為分析由來已久,20世紀就有人開始進行研究。隨著時代的發(fā)展,學生的行為也變得復雜化,但是學生群體內(nèi)部依然具有較高的相似性。如何對貧困學生進行精確資助,以及分析學生行為,提高學生學習生活質(zhì)量,保障學生生活安全,成為了各個高校關(guān)心的熱點問題之一。隨著大數(shù)據(jù)技術(shù)的發(fā)展,從2014年起,很多團隊嘗試將大數(shù)據(jù)分析與精準資助相結(jié)合,如西北工業(yè)大學學生資助服務(wù)中心的李霞老師團隊。但是現(xiàn)有大部分高校的精準資助系統(tǒng)的算法具有局限性,過于主觀,某些高校的貧困學生通過老師或?qū)W生人工篩選推薦,缺乏科學的理論分析。文中采用MD-KNN算法來進行學生行為的分析,從大數(shù)據(jù)角度探究學生行為,推動困難學生精準資助領(lǐng)域的發(fā)展[13-15]。

        2 理論介紹

        2.1 MD-KNN算法介紹

        馬氏距離是由印度統(tǒng)計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離[14-15]。經(jīng)典的KNN算法采用的是歐氏距離,歐氏距離單純地考慮數(shù)值上的距離,但是當前在很多的實際場景中需要考慮非數(shù)值型的因素,并且很多因素之間并不是相互獨立的。馬氏距離認為屬性之間是存在聯(lián)系的,比如身高與鞋碼之間就是存在聯(lián)系的,所以在距離計算公式中引入了協(xié)方差。而如果是兩個完全獨立的變量,其協(xié)方差是0,在這種情況下就變成了歐氏距離。對于一個均值為μ=(μ1,μ2,…,μp)T,協(xié)方差矩陣為Σ的多變量向量x=(x1,x2,…,xp)T,其馬氏距離為:

        (1)

        其中,T是指矩陣的轉(zhuǎn)置。

        在馬氏距離的設(shè)計中,某一微小變量的作用可以被放大,這在某些應(yīng)用環(huán)境中會導致過度擬合的狀況。但不同于其他數(shù)據(jù),學生群體是一個具有高相似性的群體,大部分成員內(nèi)部之間生活作息規(guī)律比較相似,就餐時間、地點相對固定且有規(guī)律,不同學生樣本的行為也是大致相似。而如果通過分析發(fā)現(xiàn)一些奇異點,或者某些方面存在異常,則需要學校的額外注意。因此文中根據(jù)馬氏距離的這一特點,認為采用馬氏距離的MD-KNN算法更為適合學生數(shù)據(jù)分析。

        2.2 學生在食堂就餐天數(shù)與就餐次數(shù)的分析

        馬氏距離考慮了變量之間的相互聯(lián)系,文中分析這一設(shè)計思想,著重分析了貧困學生在學校食堂的就餐次數(shù)與就餐天數(shù)之間的聯(lián)系。通常而言,經(jīng)濟困難的在校大學生相比于經(jīng)濟富裕的在校大學生,其娛樂時間和消費水平會較低。而很多大學食堂會有補助,食堂飯菜的價格會略低于學校外飯店的價格。因此,潛在的困難大學生的在校天數(shù)和在食堂就餐次數(shù)可能更多。文中根據(jù)在校學生在學校食堂刷卡產(chǎn)生的消費記錄進行分析,列出以下公式:

        N=(X+Y)/Z

        (2)

        其中,X和Y分別表示午餐數(shù)和晚餐數(shù),Z是根據(jù)該學生的就餐情況(午餐和晚餐),推斷出的該學生在校天數(shù),再乘以2得到的數(shù)字(該生在食堂應(yīng)該就餐次數(shù))。最終N越大說明該學生在校天數(shù)以及食堂就餐數(shù)之間的比例高,該生在校食堂就餐的頻率高,也更有可能是經(jīng)濟較為困難的同學。理論上,X和Y可以為不超過在校天數(shù)任意大的整數(shù),也可以為0。文中默認設(shè)置每位學生每天只吃一頓午餐(晚餐),即:某位學生在中午時段有多次刷卡記錄(比如分開打菜和米飯),文中也會將金額累計,認為是一次消費記錄。

        圖1 學生在食堂就餐天數(shù)與就餐次數(shù)對比

        根據(jù)式(2),由每個學生在一段時間內(nèi)的就餐情況得到N值(有對應(yīng)的X+Y,Z)。所有學生消費行為所對應(yīng)的點,都會落在陰影區(qū)域里,即:每個樣本點得到N值的最大值不會超過1,最小值不會小于0.5,(0.5≤N≤1)。如圖1所示,文中取一個分析區(qū)間為30天,則應(yīng)該就餐數(shù)目為60頓(午餐和晚餐)??梢苑治鲞@條線上的A、B兩點,A點是最理想狀態(tài),該生在校30天,就餐60頓,N=1。而B點,該生就餐30次,在校30天,N=0.5,這名同學的情況很極端,他是每天只吃午餐或晚餐,連續(xù)30天(比如連續(xù)30天只吃午餐),則也可以推導出其在校30天,但是N=0.5。如果一位同學連續(xù)多天均不在食堂消費,則X與Y都會相應(yīng)減少,他的數(shù)據(jù)點會位于該陰影區(qū)域的左下角部分,趨向于0點。

        再沿平行x軸方向分析線B,線B上有兩個點,B和C,這兩點都是就餐次數(shù)為30次,但是由于點B的行為,他的在校天數(shù)是點C的兩倍(點C的在校天數(shù)是15天)。但是分析推斷樣本B點學生的行為更有規(guī)律。通過進一步的分析,推測在學校內(nèi)消費次數(shù)越多和越平均的學生樣本更有可能是需要資助的貧困學生。當加入早餐的因素時,圖1的變化如圖2所示。

        圖2 學生在食堂就餐天數(shù)與就餐次數(shù)對比(含早餐)

        此時Z的含義為:根據(jù)早中晚餐實際就餐次數(shù)推算出來的該生實際在校天數(shù),再乘以3,得到的該生應(yīng)當就餐次數(shù)。根據(jù)分析,經(jīng)濟困難的學生的數(shù)據(jù)點更有可能落在陰影區(qū)域的右上角區(qū)域范圍(所有學生的數(shù)據(jù)點都會集中在這個陰影三角形區(qū)域),即貧困學生的在校食堂消費次數(shù)更多,消費天數(shù)更多,消費次數(shù)也更均勻、更規(guī)律。

        3 實驗分析

        文中搭建Eclipse+Tomcat實驗環(huán)境,使用Java語言編程,以西安某高校2016和2017級碩士研究生,2012至2017級博士研究生在2017年11月至2018年4月(約180天)的學生行為數(shù)據(jù)(主要是食堂消費數(shù)據(jù)、圖書館進出信息、學習成績等數(shù)據(jù))進行實驗分析。其中男生7 636人(約占68.36%),女生3 534人(約占31.64%),共計11 170人。該高校有2個校區(qū),A校區(qū)位于西安大唐西市附近,整體消費水平較高;B校區(qū)位于郊區(qū),物價相對較低;且該高校不同學院位于不同校區(qū)。在進行數(shù)據(jù)分析時,將校區(qū)、學院等差異考慮在內(nèi)。針對所研究的問題,設(shè)計了如下三個實驗:(1)使用該校實際貧困生名單的實際生活消費數(shù)據(jù),對前述學生食堂就餐次數(shù)與在校天數(shù)的分析進行相應(yīng)的驗證;(2)使用MD-KNN算法,對該高校學生進行貧困學生的篩選,然后比較與已有的,由人工認定貧困學生的名單的差異;(3)為了更好地對比實驗(2)和人工認定貧困學生的名單,將這兩份名單中的學生進行經(jīng)濟消費水平的對比。

        3.1 關(guān)于經(jīng)濟困難學生在食堂就餐次數(shù)、就餐天數(shù)的分析

        通過分析,經(jīng)濟困難學生會更多地在校內(nèi)食堂就餐,因此其校內(nèi)食堂就餐次數(shù)與就餐天數(shù)會相對較高,獲得資助的同學其數(shù)據(jù)實驗結(jié)果會落在圖1所示三角區(qū)域的右上角部分。文中通過采集西安某高校人工認定的200多名貧困學生在2017年11月至2018年4月間,學校食堂的早餐、午餐、晚餐的就餐情況的數(shù)據(jù)進行驗證,結(jié)果如圖3所示。

        圖3 貧困學生在食堂就餐天數(shù)與就餐次數(shù)對比圖

        如圖3所示,該校人工篩選的貧困學生就餐情況是符合文中分析的,學生在食堂的就餐次數(shù)與就餐天數(shù)兩種因素與學生的貧困與否是一種正相關(guān)的條件,貧困學生相比于非貧困學生會在學校食堂就餐次數(shù)更多,這也為今后貧困學生資助工作提供了一種新的參考因素。

        3.2 MD-KNN算法的實驗分析

        根據(jù)收集到的實驗樣本數(shù)據(jù),使用MD-KNN算法進行分析,設(shè)置經(jīng)濟、消費、學習、生源地、是否有生源地貧困證明、是否殘疾等二十余項標簽,然后進行迭代的實驗分析。在得到初步的貧困學生名單后,再在結(jié)果中設(shè)置篩選學生名單條件,即:擬評選人數(shù)、助學金等級等,這樣就得到了由MD-KNN算法篩選推薦的貧困學生名單,篩選出的部分學生名單見表1。將由MD-KNN算法篩選得到的名單與實際人工審核推薦的學生名單進行對比。兩份名單的匹配率大致在50%左右,這一概率并不算高,但分析原因可能有兩方面:(1)使用的MD-KNN算法或許還需要進行改進,以更好適應(yīng)高校貧困學生篩選的應(yīng)用環(huán)境;(2)人工篩選名單具有很大的不確定性,老師、學生很多情況下是通過申請表、平時的認知(甚至并不認識)來進行篩選推薦,人工篩選貧困學生也存在一些漏洞。因此通過實驗3.3,對兩份名單中的學生進行消費情況的分析。

        表1 MD-KNN算法篩選得到的經(jīng)濟困難學生名單(部分)

        3.3 MD-KNN算法與線下人工篩選名單的對比

        針對3.2節(jié)實驗分析的結(jié)果,對兩份名單中的學生進行進一步的分析。還是以2017年11月至2018年4月之間的學生消費數(shù)據(jù)來進行對比,實驗結(jié)果如圖4所示。

        圖4 日均消費金額對比

        通過對比發(fā)現(xiàn),由文中篩選的學生名單的消費水平(圖4)明顯低于由學校提供的,由實際人員參與評審所得到的貧困學生名單,這就說明所設(shè)計的貧困學生篩選算法是有效的。雖然一些經(jīng)濟困難學生由于身體或疾病原因可能會有較高的消費數(shù)據(jù),但總體而言,大部分經(jīng)濟困難的學生在學生群體中的消費數(shù)據(jù)應(yīng)該是較低的。因此,MD-KNN算法在篩選困難學生的過程中是一種有效的算法,并值得進一步的分析研究。

        4 結(jié)束語

        學生群體是一個相似度較高的群體,具有很多共性,對學生群體進行行為分析,篩選出應(yīng)該資助的貧困學生,是當前很多高校的一項重要事務(wù)。通過分析MD-KNN的特性,將其應(yīng)用到貧困學生篩選資助的過程中,設(shè)置學生的屬性標簽、消費行為標簽、學習行為標簽(相同條件下最后考慮學習成績)進行篩選,發(fā)現(xiàn)與實際得到的貧困學生名單相比,通過MD-KNN算法篩選出來的學生名單消費水平更低,有更高的精確度。同時發(fā)現(xiàn),經(jīng)濟水平較低的學生的在校食堂消費天數(shù)與消費次數(shù)更高,以及學習成績與吃早餐次數(shù)具有正相關(guān)的關(guān)系。因此該研究是有效的,有助于貧困學生資助工作的發(fā)展。

        猜你喜歡
        分析學生
        快把我哥帶走
        隱蔽失效適航要求符合性驗證分析
        《李學生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        趕不走的學生
        學生寫話
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        學生寫的話
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        精品国产三级a∨在线欧美| 51久久国产露脸精品国产| 国产日韩网站| 亚洲一区二区三区免费av在线| 亚洲嫩模一区二区三区视频| 青青青视频手机在线观看| 看女人毛茸茸下面视频| 在厨房拨开内裤进入毛片| 亚洲一区二区三区中文字幂| 国产成人无码A区在线观| 日本久久一级二级三级| 国内久久婷婷六月综合欲色啪| 小说区激情另类春色| 久久精品人人做人人爽| 香蕉视频在线观看国产| 国产目拍亚洲精品区一区| 亚洲一区二区av天堂| 国产亚洲超级97免费视频| 国产成人亚洲综合色婷婷| 精品乱子伦一区二区三区| av天堂在线免费播放| 国产精品国产三级国产专区不| 欧美激情视频一区二区三区免费| 无码人妻久久一区二区三区不卡| 老熟妇Av| 亚洲精品国产av一区二区| 国产实拍日韩精品av在线| 精品福利一区二区三区免费视频| 久久久老熟女一区二区三区| 亚洲av中文无码字幕色三| 亚洲AV秘 片一区二区三| 日本黄色高清视频久久| 欧美v国产v亚洲v日韩九九| 欲色天天网综合久久| 亚洲AV秘 无码一区二区三区 | 亚洲国产成人手机在线电影| 激情内射亚洲一区二区| 精品国产日韩一区2区3区| 亚洲va无码手机在线电影| 91spa国产无码| 在线精品亚洲一区二区三区 |