亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)分析下的助學(xué)金發(fā)放判斷輔助模型

2021-02-04 06:53:46仲蓓鑫孔蘇鵬

軟件導(dǎo)刊 2021年1期

仲蓓鑫，孔蘇鵬，程實(shí)，張恒

（1.南通大學(xué) 信息科學(xué)技術(shù)學(xué)院；2.南通大學(xué) 阿里云大數(shù)據(jù)學(xué)院，江蘇南通 226019）

0 引言

保障貧困家庭學(xué)生順利入學(xué)并完成學(xué)業(yè)，是促進(jìn)教育公平的重要舉措［1］。隨著高校招生并軌政策實(shí)施，招生規(guī)模呈逐年增加趨勢(shì)，并且伴隨收費(fèi)制度的進(jìn)一步改革，高校貧困生問(wèn)題逐步凸顯［2］。如何更精準(zhǔn)有效地資助貧困大學(xué)生成為亟待解決的重要問(wèn)題。

人類(lèi)大數(shù)據(jù)時(shí)代的開(kāi)啟，在理念和技術(shù)上為創(chuàng)新資助工作模式提供了科學(xué)依據(jù)，使得創(chuàng)新資助工作得以快捷、高效、精準(zhǔn)實(shí)施［3］。如依據(jù)大學(xué)生一定時(shí)間內(nèi)的一卡通數(shù)據(jù)，根據(jù)大學(xué)生的經(jīng)濟(jì)水平、消費(fèi)能力和日常行為界定該大學(xué)生是否為真實(shí)的貧困學(xué)生，這種界定需要借助大數(shù)據(jù)挖掘與分析技術(shù)，通過(guò)數(shù)學(xué)建模進(jìn)行分析研究，從而實(shí)現(xiàn)資助工作的精準(zhǔn)厘定，使得助學(xué)資金精準(zhǔn)到達(dá)每一位貧困生手中，確保每一筆助學(xué)金落到實(shí)處，助力貧困家庭的學(xué)生順利完成學(xué)業(yè)［4］。由此可見(jiàn)，利用大數(shù)據(jù)挖掘與分析技術(shù)對(duì)大學(xué)生在校期間的消費(fèi)數(shù)據(jù)進(jìn)行精準(zhǔn)挖掘具有較強(qiáng)現(xiàn)實(shí)意義。

1 現(xiàn)狀分析

近年來(lái)，國(guó)家在教育領(lǐng)域的投入可謂不遺余力，國(guó)內(nèi)高校響應(yīng)國(guó)家號(hào)召，不斷擴(kuò)大招生規(guī)模，提升教學(xué)水平，相繼申請(qǐng)或設(shè)立各種國(guó)家級(jí)、省級(jí)和校內(nèi)助學(xué)金或費(fèi)用減免、免息貸款、勤工儉學(xué)等直接或間接資助項(xiàng)目，以減輕貧困家庭的經(jīng)濟(jì)壓力，助力寒門(mén)學(xué)子順利完成學(xué)業(yè)［5］。

為了實(shí)現(xiàn)資助對(duì)象精準(zhǔn)、資金分配精準(zhǔn)、資助標(biāo)準(zhǔn)精準(zhǔn)和資金發(fā)放精準(zhǔn)的目標(biāo)，高校在貧困生的資助流程上大多采用當(dāng)事人申請(qǐng)舉證、逐級(jí)評(píng)審和定期公示的方式，即：當(dāng)事人提出書(shū)面申請(qǐng)和證明材料，通過(guò)班組篩選、輔助導(dǎo)員評(píng)議和院委會(huì)復(fù)核，并對(duì)復(fù)核通過(guò)的學(xué)生名單進(jìn)行公示，如無(wú)異議，貧困生資格才正式確定，助學(xué)資金將定期發(fā)放至該貧困生手中，資助流程才算完成［6］。

現(xiàn)階段，這種依靠書(shū)面申請(qǐng)和材料舉證的貧困生評(píng)定方式存在人為干預(yù)和標(biāo)準(zhǔn)模糊的弊端，無(wú)法通過(guò)定量分析對(duì)貧困學(xué)生的真實(shí)情況進(jìn)行量化對(duì)比，造成助學(xué)資金分配不精準(zhǔn)，甚至分配對(duì)象不合理，從而使得真正的貧困學(xué)生無(wú)法獲得急需的助學(xué)資金，無(wú)法真正實(shí)現(xiàn)助學(xué)金的精準(zhǔn)發(fā)放，也就失去了其存在的意義［7］。國(guó)際通用做法：一是調(diào)查大學(xué)生消費(fèi)水平［8］，二是調(diào)查大學(xué)生家庭財(cái)務(wù)狀況［9］。這種方法的缺陷是認(rèn)定標(biāo)準(zhǔn)單一，需要建立在大量的調(diào)查基礎(chǔ)上，并且要耗費(fèi)較長(zhǎng)一段時(shí)間［10］。

本文基于大數(shù)據(jù)分析學(xué)生日常消費(fèi)習(xí)慣、日常行動(dòng)軌跡等數(shù)據(jù)，通過(guò)GBDT 分類(lèi)器和SVM 建立精確預(yù)測(cè)模型，客觀(guān)預(yù)測(cè)大學(xué)生助學(xué)金發(fā)放情況。實(shí)際應(yīng)用效果表明，該模型輔助大學(xué)生助學(xué)金發(fā)放效果明顯，實(shí)現(xiàn)了精準(zhǔn)資助。

2 數(shù)據(jù)說(shuō)明及分析

DataCastle 大數(shù)據(jù)競(jìng)賽平臺(tái)曾公開(kāi)一組某高校貧困生資助數(shù)據(jù)［11-12］，以2016-2017、2017-2018 兩個(gè)學(xué)年的助學(xué)金發(fā)放實(shí)情為標(biāo)簽［13］，以2012-2016、2016-2017 兩個(gè)學(xué)年的學(xué)生在校活動(dòng)情況作為原始數(shù)據(jù)，如門(mén)禁、消費(fèi)、圖書(shū)借閱等數(shù)據(jù)，以助學(xué)金發(fā)放金額為結(jié)果數(shù)據(jù)，兩相結(jié)合進(jìn)行模型優(yōu)化與評(píng)價(jià)，從而依據(jù)學(xué)生2017/09—2018/09 的數(shù)據(jù)對(duì)2018 年的助學(xué)金發(fā)放情況進(jìn)行預(yù)測(cè)。顯然，訓(xùn)練集與測(cè)試集的數(shù)據(jù)在2016 年9 月—2018 年9 月這段時(shí)間出現(xiàn)了混合交叉，但這并不影響學(xué)生的行為數(shù)據(jù)和助學(xué)金數(shù)據(jù)的正確性。

2.1 數(shù)據(jù)說(shuō)明

訓(xùn)練集和測(cè)試集是數(shù)據(jù)的兩種分組模式，每一組均含有約10 000 名學(xué)生的個(gè)人信息。

（1）圖書(shū)借閱數(shù)據(jù)borrow_train.txt 和borrow_test.txt（見(jiàn)表1）。

（2）一卡通數(shù)據(jù)card_train.txt 和card_test.txt（見(jiàn)表2）。

（3）寢室門(mén)禁數(shù)據(jù)dorm_train.txt 和dorm_test.txt（見(jiàn)表3）。

（4）圖書(shū)館門(mén)禁數(shù)據(jù)library_train.txt 和library_test.txt（見(jiàn)表4）。

（5）學(xué)生成績(jī)數(shù)據(jù)score_train.txt 和score_test.txt（見(jiàn)表5）。

（6）助學(xué)金獲獎(jiǎng)數(shù)據(jù)subsidy_train.txt 和subsidy_test.txt（見(jiàn)表6）。

Table 1 Book-borrowing data表1 圖書(shū)借閱數(shù)據(jù)

Table 2 One-card data表2 一卡通數(shù)據(jù)

Table 3 Dormitory access control data表3 寢室門(mén)禁數(shù)據(jù)

Table 4 Library access control data表4 圖書(shū)館門(mén)禁數(shù)據(jù)

Table 5 Student achievement data表5 學(xué)生成績(jī)數(shù)據(jù)

Table 6 Data of grants and awards表6 助學(xué)金獲獎(jiǎng)數(shù)據(jù)

2.2 數(shù)據(jù)分析

在Python 環(huán)境下完成數(shù)據(jù)分析和建模。

（1）助學(xué)金分布可視化（見(jiàn)圖1）?？梢钥闯?，一等助學(xué)金發(fā)放比例為3%，二等助學(xué)金發(fā)放比例為5%，三等助學(xué)金發(fā)放比例為8%。

Fig.1 Financial Aid distribution圖1 助學(xué)金分布

（2）一卡通表信息簡(jiǎn)要統(tǒng)計(jì)（見(jiàn)表7）。由表7 可知，總消費(fèi)額最高達(dá)到30 000 元以上，中值為8 903 元；單筆消費(fèi)額最大為4 407 元，中值為300 元；有的學(xué)生歷史消費(fèi)單筆最低93 元，從數(shù)據(jù)上分析該學(xué)生要么家境優(yōu)越要么經(jīng)常幫人帶飯，而負(fù)數(shù)應(yīng)當(dāng)是屬于退款或其它異?？劭?，具體情況還需要專(zhuān)業(yè)知識(shí)進(jìn)行判斷。從保有金額看，最大4 399 元，中值316 元，基本貼近大學(xué)生實(shí)際情況。

Table 7 One card table summary statistical information表7 一卡通表簡(jiǎn)要統(tǒng)計(jì)信息

（3）深夜出入寢室人員過(guò)濾（見(jiàn)圖2）。2 131 多條記錄中，共涉及1 297 人，最多的34 次，最少的1 次，平均2.08次。

（4）學(xué)生出入圖書(shū)館數(shù)據(jù)展示。如圖3 所示，最多的是1 485 次，最少的是兩年只去1 次，平均122 次。

Fig.2 Students'late night access to dormitories圖2 學(xué)生深夜出入寢室情況

Fig.3 Students'access to the library圖3 學(xué)生出入圖書(shū)館情況

（5）出入圖書(shū)館次數(shù)與學(xué)習(xí)成績(jī)之間的關(guān)系。如圖4所示，實(shí)線(xiàn)代表去圖書(shū)館的次數(shù)，虛線(xiàn)代表成績(jī)排名。累計(jì)去圖書(shū)館1 269 次的同學(xué)比764 次的同學(xué)成績(jī)要高出許多。

Fig.4 The relationship between the number of library visits and academic performance圖4 出入圖書(shū)館次數(shù)與學(xué)習(xí)成績(jī)之間的關(guān)系

3 預(yù)測(cè)模型建立

3.1 機(jī)器學(xué)習(xí)原理

解決分類(lèi)問(wèn)題是采用機(jī)器學(xué)習(xí)的最終目的，例如電子郵件的區(qū)分，將垃圾郵件和正常郵件進(jìn)行分類(lèi)處理，評(píng)判歸類(lèi)訪(fǎng)問(wèn)日志的異常與否，百度蜘蛛對(duì)不同網(wǎng)站在訪(fǎng)問(wèn)頻次和深度上進(jìn)行區(qū)分等。在助學(xué)金發(fā)放方面，則是分出哪些人屬于貧困學(xué)生，哪個(gè)貧困學(xué)生發(fā)放1 000 元，哪個(gè)貧困學(xué)生發(fā)放1 500 元，這些都需要分類(lèi)解決。

通常情況下，解決這些問(wèn)題的方法是編輯規(guī)則條件，如果滿(mǎn)足條件是一類(lèi)，如果不滿(mǎn)足條件或滿(mǎn)足另外的條件則又是另外一類(lèi)。然而，問(wèn)題過(guò)于復(fù)雜而無(wú)法寫(xiě)出規(guī)則予以判斷分類(lèi)，又或者所寫(xiě)出的規(guī)則過(guò)于繁雜，這時(shí)可以考慮采用機(jī)器學(xué)習(xí)方法予以解決。

機(jī)器學(xué)習(xí)過(guò)程如圖5 所示［14］。

機(jī)器學(xué)習(xí)需要兩種數(shù)據(jù)：一種是起到標(biāo)識(shí)作用的特征數(shù)據(jù)，它是一個(gè)人或物體的基本特征，例如學(xué)生每一次的消費(fèi)數(shù)據(jù)（消費(fèi)次數(shù)、消費(fèi)總也、單筆最大額和最小額等）；另一種是標(biāo)記分類(lèi)的答案數(shù)據(jù)，或者說(shuō)它是一種編輯好的已知規(guī)則，機(jī)器按照這個(gè)規(guī)則對(duì)特征數(shù)據(jù)進(jìn)行篩選歸類(lèi)。當(dāng)兩種數(shù)據(jù)都具備了，就選擇可行的算法，讓機(jī)器進(jìn)行學(xué)習(xí)訓(xùn)練，從而形成模型。特征數(shù)據(jù)和答案數(shù)據(jù)量越大，機(jī)器學(xué)習(xí)量也就越大，智能化越高，模型也就越豐富，預(yù)測(cè)愈加準(zhǔn)確［15］。機(jī)器學(xué)習(xí)預(yù)測(cè)過(guò)程如圖6 所示。

被預(yù)測(cè)的數(shù)據(jù)應(yīng)當(dāng)與特征數(shù)據(jù)在格式上保持一致，名稱(chēng)、順序和結(jié)構(gòu)的少許變動(dòng)都會(huì)使得預(yù)測(cè)結(jié)果出現(xiàn)偏差，導(dǎo)致模型預(yù)測(cè)結(jié)果不準(zhǔn)確。

3.2 算法選擇

本文選取學(xué)生的日常消費(fèi)數(shù)據(jù)構(gòu)建特征數(shù)據(jù)與標(biāo)記數(shù)據(jù)，通過(guò)日常消費(fèi)數(shù)據(jù)分析，確保助學(xué)金資助精準(zhǔn)落地。

特征數(shù)據(jù)與標(biāo)記數(shù)據(jù)是一一對(duì)應(yīng)關(guān)系，它們都是一行描述一個(gè)數(shù)據(jù)對(duì)象，可以是人，也可以是物體，且每一行都是唯一存在的數(shù)字類(lèi)型的數(shù)據(jù)，若是字典類(lèi)型，也應(yīng)以數(shù)字取代，如婚否采用0、1 表示。特征數(shù)據(jù)與標(biāo)記數(shù)據(jù)選取完成后，就要選取合適的機(jī)器學(xué)習(xí)算法，通常有K 近鄰（KNN）［16］、決策樹(shù)［17］、支持向量機(jī)（SVM）［18］、隨機(jī)森林［19］和迭代決策樹(shù)GBDT［20］這幾種算法。

Fig.5 Machine learning training process圖5 機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程

Fig.6 Machine learning predictive processes圖6 機(jī)器學(xué)習(xí)預(yù)測(cè)過(guò)程

算法選取與原始數(shù)據(jù)有著緊密聯(lián)系，至于如何選擇，則需要具備一定經(jīng)驗(yàn)，采用多種分類(lèi)器將每一類(lèi)的效果進(jìn)行對(duì)比后進(jìn)行選擇是一種比較常見(jiàn)的方法。當(dāng)模型構(gòu)建訓(xùn)練完成，就可以實(shí)施預(yù)測(cè)，在計(jì)算方法上，預(yù)測(cè)數(shù)據(jù)同特征數(shù)據(jù)基本一致，此處不再贅述。本文使用GBDT 分類(lèi)器和SVM 進(jìn)行實(shí)驗(yàn)，預(yù)測(cè)結(jié)果如表8 所示。

Table 8 The two models were compared表8 兩種模型預(yù)測(cè)對(duì)比

綜合考慮，GBDT 優(yōu)于SVM。

3.3 模型優(yōu)化

對(duì)GBDT 模型進(jìn)行優(yōu)化，過(guò)程如圖7 所示。

Fig.7 Model optimization process圖7 模型優(yōu)化過(guò)程

（1）重采樣。由于樣本數(shù)據(jù)有失均衡，必然造成分類(lèi)結(jié)果偏差，使得準(zhǔn)確率虛高，例如全部預(yù)測(cè)資助為“0”。本次樣本數(shù)據(jù)中，只有約15% 的學(xué)生獲得了資助，倘若不對(duì)數(shù)據(jù)實(shí)施過(guò)采樣，必然對(duì)訓(xùn)練結(jié)果造成一定影響。

要想數(shù)據(jù)均衡，必選用采樣方式將小分類(lèi)數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)。在特征數(shù)據(jù)中找到1 000、1 500 和2 000 的資助金數(shù)據(jù)并分揀出來(lái)，分別命名為DF 表T1、T15、T20 進(jìn)行保存。將數(shù)據(jù)進(jìn)行過(guò)濾，1 000 資助金提高5 倍，1 500 的資助金提高8 倍，2 000 的資助金提高10 倍，繪制餅圖，這樣訓(xùn)練數(shù)據(jù)的分布情況便可直觀(guān)展現(xiàn)出來(lái)，如圖8 所示。

這里的5、8、10 只是一個(gè)經(jīng)驗(yàn)值，在最后階段可根據(jù)需要進(jìn)行微調(diào)整。

Fig.8 The distribution of training data after oversampling圖8 訓(xùn)練數(shù)據(jù)過(guò)采樣后的分布

（2）參數(shù)優(yōu)化。子模型數(shù)量（n_estimators）和隨機(jī)對(duì)象（random_state）是GBDT 經(jīng)常用到的兩個(gè)參數(shù)，前者越大精度越高，這并非好事，反而會(huì)因?yàn)樾纬蛇^(guò)擬合而導(dǎo)致預(yù)測(cè)效果欠佳，因此，參數(shù)優(yōu)化是個(gè)難題。

（3）維度選擇。一個(gè)模型能否成功，關(guān)鍵在于是否具備扎實(shí)的業(yè)務(wù)能力，是否能夠做出優(yōu)質(zhì)的維度特征數(shù)據(jù)。如果在數(shù)據(jù)分析中只采用消費(fèi)數(shù)據(jù)，而忽略成績(jī)、圖書(shū)館、教室等維度，會(huì)造成模型預(yù)測(cè)偏差。

維度多寡和質(zhì)量高低是影響模型成功的關(guān)鍵因素，通常而言，維度越多越豐富，越有利于模型精準(zhǔn)構(gòu)建，然而并非所有維度都能夠起到積極作用，一旦引入這些起負(fù)面作用的維度，就會(huì)影響模型優(yōu)劣。

模型優(yōu)化前后預(yù)測(cè)結(jié)果如表9 所示。

Table 9 Prediction results before and after model optimization表9 模型優(yōu)化前后預(yù)測(cè)結(jié)果

4 結(jié)語(yǔ)

現(xiàn)階段高校在貧困生的認(rèn)定標(biāo)準(zhǔn)上缺乏科學(xué)性、合理性，且過(guò)于盲目主觀(guān)，缺乏客觀(guān)的必要手段，無(wú)法精準(zhǔn)評(píng)定出資助對(duì)象，使得高校資助工作事倍功半，助學(xué)資金落地出現(xiàn)偏差。本文采用機(jī)器學(xué)習(xí)結(jié)合大學(xué)生助學(xué)金數(shù)據(jù)，研究精準(zhǔn)資助預(yù)測(cè)模型，解決了不平衡訓(xùn)練數(shù)據(jù)訓(xùn)練參數(shù)選擇問(wèn)題，并對(duì)GBDT 進(jìn)行優(yōu)化。結(jié)果表明，精度比傳統(tǒng)的GBDT 算法提高2 個(gè)百分點(diǎn)。同時(shí)，研究中也存在一些問(wèn)題，比如標(biāo)注的樣本數(shù)據(jù)偏少，只有2019-2020 年的數(shù)據(jù)，造成訓(xùn)練模型過(guò)擬合。下一步工作是對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注，提高預(yù)測(cè)精度。