摘要:高校貧困生認(rèn)定工作一直是高校資助管理工作中一項(xiàng)重要的任務(wù),隨著大數(shù)據(jù)技術(shù)的日益成熟,用戶畫像技術(shù)逐漸成為國內(nèi)外研究熱點(diǎn),能夠?qū)⒂脩舢嬒窦夹g(shù)應(yīng)用于貧困生認(rèn)定工作中,將給整個(gè)資助管理工作帶來巨大的便利。本文從高校貧困生認(rèn)定的實(shí)際出發(fā),研究高校貧困生用戶畫像的構(gòu)建、系統(tǒng)設(shè)計(jì)和數(shù)據(jù)處理的關(guān)鍵性技術(shù)。
關(guān)鍵詞:貧困生認(rèn)定;數(shù)據(jù)挖掘;用戶畫像
一、研究背景與意義
目前高校資助管理主要圍繞兩大工作:貧困生認(rèn)定工作和貧困生資助工作,精準(zhǔn)認(rèn)定貧困生是開展學(xué)生資助工作的前提,也是判斷資助政策是否落實(shí)到位的重要標(biāo)準(zhǔn)。中共中央、國務(wù)院以及各級(jí)地方政府都先后出臺(tái)了一系列的資助政策,從多方面資助在校貧困大學(xué)生。隨著資助力度的不斷強(qiáng)化、資助金額的不斷提高,2019年資助認(rèn)定流程簡化,民政部門取消家庭情況證明,由學(xué)生本人提出貧困生認(rèn)定申請(qǐng),部分學(xué)生在金錢的誘惑下出現(xiàn)虛報(bào)家庭經(jīng)濟(jì)情況的現(xiàn)象,高校如果沒有科學(xué)有效的認(rèn)定方法,將會(huì)出現(xiàn)部分“偽貧困生”,他們不僅占用了國家資助資金,影響高校資助工作的開展,更破壞了學(xué)校風(fēng)氣,違背了“貧困助學(xué)”的初衷。如何認(rèn)定困難學(xué)生,更加有效的落實(shí)各項(xiàng)資助政策,合理展開資助工作已成為高校資助管理工作的一大難題。
2017年教育部辦公廳發(fā)布《教育部辦公廳關(guān)于進(jìn)一步加強(qiáng)和規(guī)范高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作的通知》,通知指出高校應(yīng)利用大數(shù)據(jù)采集、分析,深入、準(zhǔn)確了解學(xué)生家庭經(jīng)濟(jì)狀況,及時(shí)排除不困難卻受助的學(xué)生,實(shí)現(xiàn)資金合理分配,因此我們需要一個(gè)客觀的評(píng)判標(biāo)準(zhǔn),輔助判別學(xué)生的經(jīng)濟(jì)狀況。
使用數(shù)據(jù)挖掘技術(shù)從大數(shù)據(jù)中抽取潛在價(jià)值信息,對(duì)在校生基本信息、消費(fèi)數(shù)據(jù)進(jìn)行挖掘分析,結(jié)合高校貧困生數(shù)據(jù)庫,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到貧困生認(rèn)定工作中,生成貧困生用戶畫像,貧困生認(rèn)定工作會(huì)更科學(xué)更準(zhǔn)確。
二、用戶畫像技術(shù)國內(nèi)外研究現(xiàn)狀
“用戶畫像”理論是由Cooper交互設(shè)計(jì)公司創(chuàng)始人Alan?Cooper提出,是一個(gè)抽象標(biāo)簽化的用戶模型,基于數(shù)據(jù)挖掘技術(shù)。用戶畫像最核心的技術(shù)是為研究對(duì)象貼上合適的“標(biāo)簽”,這些“標(biāo)簽”是通過數(shù)據(jù)挖掘技術(shù)采集分析數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行高度概括后產(chǎn)生。
早在2005年,國外的很多專家就開始通過調(diào)研不同對(duì)象的國家、文化背景、風(fēng)俗習(xí)慣、語言習(xí)慣等,將用戶畫像跟產(chǎn)品設(shè)計(jì)、軟件系統(tǒng)設(shè)計(jì)結(jié)合。目前很多企業(yè)將用戶畫像應(yīng)用在企業(yè)營銷和管理當(dāng)中,技術(shù)已經(jīng)非常成熟。騰訊公司利用QQ、微信等社交平臺(tái)收集社交信息,同時(shí)收集用戶的身份信息、興趣偏好、位置信息等。騰訊的數(shù)據(jù)結(jié)構(gòu)越來越豐富,數(shù)據(jù)類型也越來越廣泛。
隨著企業(yè)用戶畫像技術(shù)的成熟,一些高校也逐漸開始進(jìn)行學(xué)生畫像研究,利用用戶畫像技術(shù)把握學(xué)生動(dòng)態(tài)、精準(zhǔn)定位,有效挖掘、分析教學(xué)管理過程中的大數(shù)據(jù),給每位同學(xué)進(jìn)行用戶畫像,形成自動(dòng)預(yù)警機(jī)制,為校園管理開啟一扇新的大門。目前大部分高校用戶畫像系統(tǒng)分析維度比較少,各維度的數(shù)據(jù)缺乏協(xié)同性、數(shù)據(jù)源廣度也不夠,僅僅從教學(xué)資源、思想政治、圖書管理等方面進(jìn)行分析,沒有將其他維度(課程預(yù)警、貧困生信息等)有機(jī)結(jié)合構(gòu)建多維度的用戶畫像。
三、用戶畫像的構(gòu)建
用戶畫像是真實(shí)用戶的虛擬代表,是建立在真實(shí)屬性數(shù)據(jù)之上的用戶模型。貧困生畫像構(gòu)建技術(shù)是根據(jù)學(xué)生在校期間的行為數(shù)據(jù),構(gòu)建學(xué)生的基礎(chǔ)信息、消費(fèi)能力、學(xué)習(xí)成績等標(biāo)簽集合。
構(gòu)建用戶畫像需遵循以下兩個(gè)原則:
(1)必須從工作任務(wù)出發(fā),解決實(shí)際問題,比如根據(jù)不同的指標(biāo)確定如何更好的完成學(xué)生消費(fèi)能力評(píng)估;
(2)設(shè)計(jì)用戶畫像標(biāo)簽時(shí),明確用戶特征、屬性和習(xí)慣偏好以便更好的完成數(shù)據(jù)匯總。
用戶畫像的構(gòu)建分析主要通過以下四個(gè)步驟:
(1)需求評(píng)估分析:通過需求分析,對(duì)用戶畫像的價(jià)值,預(yù)期效果和意義進(jìn)行分析評(píng)估和預(yù)測(cè)。
(2)維度分解:根據(jù)需求分析結(jié)合實(shí)際工作需求,確定用戶畫像的維度,從學(xué)生基本信息入手,以個(gè)人信息、家庭成員基本情況、在校消費(fèi)能力情況、學(xué)習(xí)情況等屬性為基礎(chǔ),確定數(shù)據(jù)畫像維度。
(3)確定關(guān)鍵技術(shù)、完成數(shù)據(jù)清理:目前有很多數(shù)據(jù)清理工具,如Python中的?Sklearn和Pandas模塊。通常用替換常量、填充均值、預(yù)測(cè)回歸等方法處理重復(fù)值、異常值和缺失值。
(4)應(yīng)用流程:完成以上三步后,最后生成用戶畫像,應(yīng)用在實(shí)際工作中。
四、系統(tǒng)功能設(shè)計(jì)
系統(tǒng)功能設(shè)計(jì)通過分析學(xué)生的基本屬性、統(tǒng)計(jì)屬性、分析屬性,確定用戶畫像的維度?;緦傩燥@示學(xué)生學(xué)號(hào)、姓名、性別、學(xué)院、專業(yè)、班級(jí)、入學(xué)年份、民族、生源地、聯(lián)系電話、父母親情況等標(biāo)簽。統(tǒng)計(jì)屬性顯示學(xué)生的學(xué)業(yè)成績、校園卡消費(fèi)、使用手機(jī)品牌、持有計(jì)算機(jī)品牌配置、網(wǎng)上購物數(shù)據(jù)等。分析屬性比對(duì)高校貧困生數(shù)據(jù)庫,根據(jù)基本屬性和統(tǒng)計(jì)屬性顯示貧困生的預(yù)測(cè)結(jié)果。
根據(jù)預(yù)測(cè)結(jié)果,將學(xué)生進(jìn)行分類:特別貧困、比較貧困、不貧困。使用數(shù)據(jù)挖掘技術(shù)中的決策樹分類算法完成,該算法提供一定數(shù)量的樣本,這些樣本的屬性和類別要完整,經(jīng)過對(duì)比產(chǎn)生分類器,利用決策樹算法,根據(jù)學(xué)生往年數(shù)據(jù),對(duì)今年貧困生進(jìn)行預(yù)測(cè),挖掘?qū)W生真實(shí)的經(jīng)濟(jì)情況,準(zhǔn)確評(píng)估、動(dòng)態(tài)管理。
決策樹算法首先完成數(shù)據(jù)清洗、轉(zhuǎn)換和泛化等預(yù)處理工作,再生成貧困生決策樹,并對(duì)決策樹進(jìn)行剪枝處理,形成最終決策樹,對(duì)貧困生的貧困程度進(jìn)行預(yù)測(cè)。
五、數(shù)據(jù)獲取與預(yù)處理
選取北海藝術(shù)設(shè)計(jì)學(xué)院近幾年1300名遞交貧困生申請(qǐng)的學(xué)生信息,完成數(shù)據(jù)分析和處理。綜合考慮影響貧困生家庭的主要原因,選擇了如下標(biāo)簽:
(1)父母情況:是否健在、是否健康、是否離異;
(2)人均收入:家庭人均年收入狀況;
(3)戶口的類型:城市或者農(nóng)村;
(4)家庭總?cè)丝跀?shù):學(xué)生直系親屬數(shù)量;
(5)證明材料:是否有建檔立卡、低保、殘疾證明等;
(6)成績狀況:該生各科成績情況、不及格課程的數(shù)量;
(7)校園卡消費(fèi):校園卡每年的消費(fèi)情況;
(8)其他情況:手機(jī)、電腦使用情況。
預(yù)處理部分采用離散化處理和數(shù)據(jù)泛化處理。離散化處理將數(shù)據(jù)區(qū)間范圍化,比如將家庭人均年收入分成4個(gè)區(qū)間:0-1500、1500-3000、3000-5000和5000以上。數(shù)據(jù)泛化把數(shù)據(jù)從復(fù)雜概念轉(zhuǎn)換成邏輯判斷,比如將父母情況字段的三個(gè)取值、泛化成3個(gè)字段,健在、健康、離異分別取“是”或“否”。
六、總結(jié)
為了充分發(fā)揮高校在全國脫貧攻堅(jiān)中的作用,在資助管理工作執(zhí)行過程中,特別是貧困生認(rèn)定工作中要充分利用大數(shù)據(jù)技術(shù)帶來的便利。用戶畫像在貧困生認(rèn)定中具有巨大的發(fā)展?jié)摿Α1疚膹挠脩舢嬒竦膰鴥?nèi)外研究現(xiàn)狀出發(fā)、分析了用戶畫像的構(gòu)建、系統(tǒng)結(jié)構(gòu)分析、數(shù)據(jù)收集和預(yù)處理等關(guān)鍵性技術(shù)。
通過用戶畫像完成貧困生認(rèn)定,建立貧困生數(shù)據(jù)庫,資助部門既掌握貧困生基本信息,又能對(duì)數(shù)據(jù)進(jìn)行有效分析,使高校資助管理工作更加公平、準(zhǔn)確。
參考文獻(xiàn):
[1] 劉玉霞.大數(shù)據(jù)背景下高校精準(zhǔn)資助路徑探析[J].未來與發(fā)展,2016.09
[2] ?孫夢(mèng);高峰.大數(shù)據(jù)時(shí)代精準(zhǔn)識(shí)別高校貧困生研究[J].北京勞動(dòng)保障職業(yè)學(xué)院學(xué)報(bào),2017.06
[3] ?伍智鑫.基于一卡通數(shù)據(jù)挖掘的高校貧困生精準(zhǔn)扶貧應(yīng)用研究[J].湖南科技學(xué)院學(xué)報(bào),2019-04
[4] ?楊長春;徐筱;宦娟;田迎春;經(jīng)德林.基于隨機(jī)森林的學(xué)生畫像特征選擇方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019.10
作者簡介:
呂雅婷(1984.4),性別?女,籍貫(河南省漯河市),單位(北海藝術(shù)設(shè)計(jì)學(xué)院),學(xué)歷(碩士)職稱(講師)
基金項(xiàng)目:
本論文是2019年度廣西高校中青年教師科研基礎(chǔ)能力提示項(xiàng)目“高校學(xué)生資助管理系統(tǒng)開發(fā)與研究——以北海藝術(shù)設(shè)計(jì)學(xué)院為例”階段性成果,項(xiàng)目編號(hào):2019KY0953
(作者單位:北海藝術(shù)設(shè)計(jì)學(xué)院)