亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        精準扶貧視角下高校家庭經(jīng)濟困難學生認定預測機制探究

        2021-06-20 22:01:22呂剛王雪梅新奎
        高教學刊 2021年3期
        關鍵詞:精準資助特征選擇大數(shù)據(jù)

        呂剛 王雪 梅新奎

        摘? 要:近來,關于全面推進家庭經(jīng)濟困難學生認定工作精準資助為高校學生資助體系構建提供了一個嶄新視角。如何更好的利用學生信息完成家庭經(jīng)濟困難精準認定工作是文章重點工作。文章以機器學習為基礎,將學生信息庫進行清洗,利用基于差分進化的特征選擇為數(shù)據(jù)進行預處理,去除冗余特征,降低數(shù)據(jù)維度,以2個標準數(shù)據(jù)集與1個采集數(shù)據(jù)集對特征選擇結果在2個分類器上進行有效性驗證。以近2000名學生的信息為數(shù)據(jù)樣本,通過K近鄰分類預測算法預測學生家庭經(jīng)濟困難程度,驗證了算法的可行性以及準確性。為大數(shù)據(jù)在高校教育中的應用提供了新的模式和方法。

        關鍵詞:精準資助;大數(shù)據(jù);差分進化;特征選擇;K近鄰預測

        中圖分類號:G640? ? ? ? 文獻標志碼:A? ? ? ? ?文章編號:2096-000X(2021)03-0076-05

        Abstract: Recently, the comprehensive promotion of family financial difficulties students to identify the work of precision funding for colleges and universities has provided a new perspective for the construction of student funding system. How to make better use of student information to complete the accurate identification of family financial difficulties is the key work of this paper. Based on machine learning, the student information base is cleaned, and the feature selection based on differential evolution is used to preprocess the data to remove redundant features and reduce the data dimension. The validity of feature selection results on two classifiers is verified by two standard data sets and one acquisition data set. Based on the information of nearly 2000 students as data samples, the K nearest neighbor classification and prediction algorithm is used to predict the economic difficulties of students' families, and the feasibility and accuracy of the algorithm are verified. It provides a new model and method for the application of big data in college education.

        Keywords: accurate funding; big data; differential evolution; feature selection; K neighbor prediction

        一、研究背景和目的

        2018年12月,教育部、財政部等六部門聯(lián)合印發(fā)了《關于做好家庭經(jīng)濟困難學生認定工作的指導意見》(以下簡稱指導意見),其中特別指出,做好家庭經(jīng)濟困難認定工作,是貫徹黨中央、國務院決策部署,全面推進精準資助,確保資助政策有效落實的迫切需要。[1]教育部部長陳寶生在《進一步加強學生資助工作》一文中提到:“我們要把思想和認識統(tǒng)一到黨的十九大精神和習近平總書記重要指示上來,充分認識到學生資助工作是一項重要的長期工作,是2018年教育‘奮進之筆的一項重要內(nèi)容,要清醒看到個別地方還存在不精準、不規(guī)范的問題”[2]。精準資助是做好高校學生資助工作重要一環(huán),是落實“不讓一個學生因家庭經(jīng)濟困難而失學”、促進學生資助工作取得新成就的有效手段。

        二、精準扶貧視角下的精準資助工作創(chuàng)新思路

        習近平總書記在黨的十九大報告中明確指出:“堅持精準扶貧、精準脫貧”和“健全學生資助制度”[3]。教育部部長陳寶生曾提到:“精準不僅是扶貧工作的基本要求,也是學生資助工作的基本要求。精準資助,就是要做到資助對象精準、資助標準精準、資金發(fā)放精準?!盵2]精準資助為高校學生資助體系構建提供了一個嶄新視角。精準資助的前提和基礎是做到認定對象精準,實施精準認定就是要重點解決高校開展家庭經(jīng)濟困難認定工作過程中的面對的認定材料可信度、民主測評公正度、地域差異度、學生隱私程度等共性問題,進而開展家庭經(jīng)濟困難學生的“扶貧”與“扶智”工作?!秶鴦赵宏P于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)[2015]50號)明確指出,要“建立‘用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新的管理機制,實現(xiàn)基于數(shù)據(jù)的科學決策”,在互聯(lián)網(wǎng)+大發(fā)展的環(huán)境視域下,有效應用大數(shù)據(jù)技術,采取數(shù)據(jù)預處理、特征選擇、群體預測,采取定性與定量相結合的方式預測家庭經(jīng)濟困難學生群體,能夠促使家庭經(jīng)濟困難認定工作更加科學化、客觀化和準確化。

        大數(shù)據(jù)技術預測家庭經(jīng)濟困難學生群體不同于傳統(tǒng)的紙質(zhì)認定模式,學生信息的變化引起信息庫的變化,冗余或者不相關特征也隨之出現(xiàn)。選取相關聯(lián)信息,摒棄冗余信息是加快預測速度,提高準確率的關鍵所在,本文主要采取數(shù)據(jù)處理、特征選擇等方式付諸實施,以家庭經(jīng)濟困難認定工作為背景,探索基于K近鄰的預測算法和基于差分進化的特征選擇算法,通過特征預處理,優(yōu)化搜索機制,選擇相關特征摒棄榮譽特征,達到特征降維的目的,通過K近鄰預測,完成等級或?qū)哟蔚恼{(diào)查,實現(xiàn)精準認定,創(chuàng)新資助工作模式。本文首先利用標準UCI數(shù)據(jù)集通過算法對比驗證了所提出算法的有效性,隨后以近2000名學生的真實數(shù)據(jù)為數(shù)據(jù)集,通過數(shù)據(jù)預處理、拆分、訓練、預測與評估等步驟,最終驗證算法的可行性與準確率。

        三、精準扶貧視角下的貧困生認定工作中大數(shù)據(jù)技術應用

        (一)特征選擇

        特征選擇也稱特征子集選擇,是解決數(shù)據(jù)“維度災難”的重要法寶,能夠剔除冗余特征,從而減少特征數(shù)目提高模型精度,減少運行時間。常用的搜索機制分為完全搜索,啟發(fā)式搜索,隨機搜索。評價函數(shù)是評價特征子集好壞的主要工具,主要分為過濾器、封裝器兩大類,本文中采用簡單實用的過濾器。

        (二)差分進化算法

        差分進化算法(Differential Evolution,DE)于1997年由Rainer Storn和Kenneth Price在遺傳算法等進化思想的基礎上為求解切比雪夫多項式而提出的[4],屬于演化計算技術中的進化算法類,其應用生物學啟發(fā)的運算符,例如交叉,變異和選擇。

        在精準扶貧視角下,可選用差分進化算法完成特征選擇尋優(yōu)過程,進而實現(xiàn)家庭經(jīng)濟困難學生的精準認定,大大提高家庭經(jīng)濟困難學生認定效率。該算法的主要步驟包括:

        1. 群體初始化

        假設在m個個體構成的n維空間中,種群X表示為(X1,X2,...Xn)。在本文中我們選擇二進制初始化方式,第i個個體的第j維位置為:

        (1)

        其中, U(0,1)是在(0,1)之間的隨機量,Lmax和Lmin為預定義的最大值和最小值。

        2. 變異操作

        DE算法的變異機制有很多種,基本變異方式如公式(2)所示,每個解決方案向量經(jīng)歷突變以擴展搜索空間。在第g次迭代中,從種群中隨機選擇三個個體Xp1(g),Xp2(g),Xp3(g),且p1≠p2≠p3≠i,生的變異向量為:

        (2)

        其中? ? ? ? ? ? ? ? ? ? ? ? 是差分向量,F(xiàn)是縮放因子,決定種群個體差分步長的大小。

        3. 交叉操作

        常用的交換準則有:二項交叉與指數(shù)交叉,其中二項交叉指針對每個分量產(chǎn)生一個0到1的隨機小數(shù),若該隨機數(shù)小于交叉算子cr則進行交換。

        交叉公式如下:

        4. 選擇操作

        選擇操作即選擇好的個體為下一代種群個體。具體操作方式如公式(4),其中f(expression)為適應度函數(shù)。在當前解決方案Xi和試驗解決方案Ui之間應用貪婪選擇。

        如果Ui優(yōu)于Xi,則Ui代表下一代而不是Xi。

        (三)信息論

        互信息(Mutual Information)用來度量兩個事件集合之間的相關性(mutual dependence),是信息論中的一個重要概念[5]。假設兩個離散隨機變量X、Y,它們的聯(lián)合分布律為p(x,y),邊緣分布律為p(x),p(y),互信息表示為:

        由上式可知,當屬性X和屬性Y不相關或相互獨立時,互信息I(X;Y)為0,這表示兩個屬性之間沒有依賴關系;反之,兩個屬性間的相關性越高,互信息的值越大,所擁有的信息重合的地方就越多。

        四、基于差分進化特征選擇的K近鄰分類預測應

        用于家庭經(jīng)濟困難認定

        (一)學生信息采集,構建學生畫像

        目前,在國內(nèi)各高校之中,學生信息采集工作已相對完善,基于學生個人成長的信息數(shù)據(jù)源已具備海量篩選條件,韓鳳霞老師提出了建立學生畫像來構建學校數(shù)據(jù)倉庫[6],形成學生基本屬性、家庭信息特征、學習成績等多種屬性構成的高質(zhì)量學生信息中心。為分析學生特征和需求做了大量準備工作,精準描述了學生群體特征。為了更好獲取實驗樣本,本次實驗對近2000名學生開展數(shù)據(jù)信息采集,獲取其自入學至今的各項指標與基本數(shù)據(jù),利用懷卡托智能分析環(huán)境[7]將數(shù)據(jù)集進行離散化處理,并將貧困生等級分為0、1、2級,分別表示該生家庭經(jīng)濟狀況良好,存在一定困難,特別困難。

        (二)基于差分進化的特征選擇算法

        在開展家庭經(jīng)濟困難認定工作過程中,通過分析學生畫像數(shù)據(jù)集可以實時了解學生各方面特征,掌握家庭經(jīng)濟困難情況,但家庭經(jīng)濟困難特征僅為學生畫像數(shù)據(jù)庫中的一小部分,如果利用全部特征不僅要增加計算時間同時也會減少預測準確性。本文針對這種情況,對學生畫像進行了第二次預處理,通過基于差分進化的特征選擇對原始數(shù)據(jù)集進行降維處理,摒棄冗余特征,以達到選擇較少的特征來反映所有特征的預測情況,并提高分類準確性的目的。

        本文基于特征與類別向量的信息熵度量構建適應度函數(shù),采用滕旭陽等提出的互信息適應度函數(shù)[8],體現(xiàn)了進化過程對優(yōu)良個體的保留,對低劣個體的淘汰。具體適應度函數(shù)設計如下:

        fit=I×S (6)

        式中:I為特征與類別相關性;S為特征子集規(guī)??刂啤<僭O當前候選特征子集為在全部n維特征中選出的p維特征。

        S=(7)

        基于差分進化的特征選擇算法(DEFS)的執(zhí)行流程如圖1所示。

        (三)利用KNN分類預測

        K-最近鄰(k-nearest neighbor,KNN)算法是統(tǒng)計分類領域最常用的算法之一[9]。基本思想是:如果一個實例在特征空間中的K個最相似(即特征空間中最近鄰)的實例中的大多數(shù)屬于某一個類別,則該實例也屬于這個類別。本文中,我們利用KNN進行特征選擇后的學生家庭經(jīng)濟困難情況的分類預測,預測過程如圖2所示。

        五、實驗驗證

        本文通過分析在不同數(shù)據(jù)集下的分類準確性驗證特征選擇算法的有效性以及KNN分類預測結果的準確性驗證文中所提方法的優(yōu)越性。

        本實驗運行環(huán)境為MATLAB2014a與weka3.8。實驗通過對近2000名學生靜態(tài)數(shù)據(jù)以及動態(tài)數(shù)據(jù)整理后的數(shù)據(jù)集進行實驗驗證,其中包括靜態(tài)特征20個動態(tài)特征16個,總計36個特征信息,形成數(shù)據(jù)集(student),采用MDL方法對離散化的數(shù)據(jù)處理。本文另外選擇2個不同維度的UCI數(shù)據(jù)集共同驗證算法有效性。選擇Australian信用卡申請類數(shù)據(jù)集,Dermatology皮膚病數(shù)據(jù)集[10]作為參照以供對比分析。

        (一)分析在不同數(shù)據(jù)集下的分類準確性驗證特征選擇算法的有效性

        實驗對比的特征選擇算法有IG(information gain)信息增益[8]、GA[11],為了驗證算法性能選擇SVM、和Na?觙ve Bayes兩個分類器,并使用10折交叉驗證方法。來驗證不同數(shù)據(jù)集下各個算法所選擇特征子集的分類有效性。對于GA、DE這兩種進化搜索方法,實驗得出每個算法運行10次的平均分類準確率。而IG在試驗中對數(shù)據(jù)集中特征進行排序選擇前p個特征,具體分類結果如表1所示。

        通過表1與表2的結果可見,本文所提出的差分進化算法較傳統(tǒng)的過濾式特征選擇方法與GA都具有較好的分類準確性,驗證了差分進化算法在不同規(guī)模數(shù)據(jù)集下分類性能的有效性。無論在SVM分類器下還是Na?觙ve Bayes分類器下,DE均展現(xiàn)出更好的分類準確性。因此可以得出結論,本文所提出的特征選擇方法在進化過程中能夠產(chǎn)生較優(yōu)秀個體,獲得較高適應度值,從而能夠獲得較小的特征子集,達到數(shù)據(jù)降維的目的,并能夠取得更好的分類準確率。

        (二)分析KNN分類預測結果的準確性

        為了驗證預測結果準確性,首先,利用基于查分進化的特征選擇算法對于本實驗student數(shù)據(jù)集進行處理,結果發(fā)現(xiàn)從初始36個特征中,選擇了17個特征作為特征子集,達到了特診高緯度下降三分之二的效果。本實驗利用選擇出來的特征子集利用KNN分類預測算法,將新的學生數(shù)據(jù)集進行分類,分類結果如圖3所示,通過將分類信息與學院信息庫進行核對,發(fā)現(xiàn)96.53%的分類結果是準確的。在預測過程中,類別0和2的錯誤率很低,分別為1.3%和5.7%,結果較好,但類別1的錯誤率相對較高達到29%,需要下一步采集特征標簽更大的子集,并深入研究家庭經(jīng)濟困難認定影響因素。但總體來看,本文已經(jīng)實現(xiàn)了較好的分類效果。

        六、結論

        家庭經(jīng)濟困難認定是高校資助工作的重要一環(huán),采用開學之初學生信息采集,并通過不斷迭代動態(tài)信息來維護學生信息集,使用“線上+線下”的操作模式,使家庭經(jīng)濟困難認定更加簡潔、方便、安全、無遺漏且無虛報。本文通過利用基于差分進化的特征選擇方法,達到了將海量學生信息進行降維的目的,并通過KNN分類預測算法,完成學生家庭經(jīng)濟狀況的分類預測,經(jīng)過實驗證明,該算法是有效的且高效的。進一步為高校學生管理提供了新思路、新方法,并能夠適用于高校資助體制。下一步,我們將利用線上監(jiān)控措施來重點觀測學生課堂學習狀況,為學生期末成績做出預測和預警,為高校細信息化管理提供新思路。

        參考文獻:

        [1]教育部.關于做好家庭經(jīng)濟困難學生認定工作指導意見[EB/OL].學信網(wǎng),2018.11.https://www.chsi.com.cn/jyzx/201811/20181

        107/1736219869.html.

        [2]陳寶生.進一步加強學生資助工作[N].人民日報,2018-03-01(13).

        [3]習近平.決勝全面建成小康社會 奪取新時代中國特色社會主義偉大勝利——在中國共產(chǎn)黨第十九次全國代表大會上的報告(2017年10月18日)[R].前進,2017(11).

        [4]Storn R, Price K. Differential evolution-A simple and efficient heuristic for global optimization over continuous spaces [J]. Journal of Global Optimization, 1997,11(4):341-359.

        [5]宋勇,蔡志平.大數(shù)據(jù)環(huán)境下基于信息論的入侵檢測數(shù)據(jù)歸一化方法[J].武漢大學學報(理學版),2018,64(2):121-126.

        [6]韓鳳霞.大數(shù)據(jù)時代高校學籍預警機制的探索與研究[J].中國教育信息化,2015(19):46-49.

        [7]E. Frank, M. Hall, G. Holmes, R. Kirkby, B. Pfahringer, and I. H. Witten, “WEKA”[J]. Data Mining and Knowledge Discovery Handbook, pp. 1306-1314,2005.

        [8]滕旭陽,董紅斌,孫靜.面向特征選擇問題的協(xié)同演化方法面向特征選擇問題的協(xié)同演化方法[J].智能系統(tǒng)學報,2017,12(1):24-31.

        [9]Jinmeng L I, Lin Y, Zhu T. k-Nearest Neighbor Classification Algorithm Based on Hubness and Class Weighting [J]. Computer Engineering, 2018.

        [10]UC Irvine Machine Learning Repository. http://archive.ics.uci.edu/ml/index.php.

        [11]金仙力,李金剛.基于遺傳算法的多目標路徑優(yōu)化算法的研究[J].計算機技術與發(fā)展,2018(2):54-58.

        猜你喜歡
        精準資助特征選擇大數(shù)據(jù)
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        高職院校精準資助模式探究
        民辦高校精準資助對策研究
        淺析高校學生精準資助的理論與實踐
        科技視界(2016年23期)2016-11-04 18:04:11
        優(yōu)化中職助學政策提高資助精準度策略研究
        成才之路(2016年28期)2016-10-31 18:36:39
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        聯(lián)合互信息水下目標特征選擇算法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        日本三级欧美三级人妇视频| 国产熟女盗摄一区二区警花91| 国产亚洲精品美女久久久m| 狠狠色噜噜狠狠狠888米奇视频| 久草国产视频| 亚洲高清在线视频网站| 成人国产精品一区二区八戒网| 成年女人色毛片| 国产欧美成人| 日韩成精品视频在线观看| 亚洲国产一区二区三区| 久久99精品九九九久久婷婷| 国产99re在线观看只有精品| 亚洲一区极品美女写真在线看| www.五月激情| 国产成人av三级三级三级在线| 少妇性l交大片7724com | 日日猛噜噜狠狠扒开双腿小说| 久久综合视频网站| 亚洲精品久久麻豆蜜桃| 成人艳情一二三区| 国产熟妇搡bbbb搡bb七区| 国产视频不卡在线| 国产91精品清纯白嫩| 丰满女人猛烈进入视频免费网站| 久久露脸国产精品| 亚洲黄色在线看| 久久亚洲精品一区二区三区| av国产传媒精品免费| 国产人妻黑人一区二区三区| 国产精品系列亚洲第一| 亚洲av资源网站手机在线| 久久久久国产精品| 国产精品一区二区久久精品| 国产精品视频免费一区二区三区 | 亚洲美女主播内射在线| 日韩精品视频一区二区三区| 日韩激情小视频| 国产亚洲成年网址在线观看 | 亚洲国产天堂久久综合| 日韩在线看片|