朱 錦 龍
(亳州學院電子與信息工程系, 安徽 亳州 236800)
2008年,在《Nature》雜志首次出現(xiàn)了“大數(shù)據(jù)(Big Data)”這一概念[1]。大數(shù)據(jù)一般指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是在新處理模式下才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[2]。隨著高校教育信息化的不斷發(fā)展,校園一卡通管理系統(tǒng)、教務管理系統(tǒng)、學工系統(tǒng)、圖書管理系統(tǒng)、校園WiFi、智能樓宇等系統(tǒng)的廣泛應用,智慧校園平臺累積了大量學生校園行為日常數(shù)據(jù)。這些日常數(shù)據(jù)就構(gòu)成了高校學生行為大數(shù)據(jù),這些數(shù)據(jù)基本能夠客觀、真實地反映學生校園生活狀況。我們可以利用智慧平臺累積的大數(shù)據(jù),充分挖掘發(fā)揮數(shù)據(jù)在學生管理和行為預警中的價值,通過大學生綜合行為畫像,分析學生的行為習慣和特點,從而更好地了解和引導學生。
行為畫像是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)之上的目標人的模型[3]。運用數(shù)據(jù)挖掘技術進行模型計算和標簽化處理,用數(shù)據(jù)對大學生進行綜合行為畫像,可以多維度準確展現(xiàn)大學生的真實生活動態(tài)。授課教師借助畫像信息可以改進教學方式、進行學習指導;輔導員借助畫像信息可以及時進行行為預警和干預,改變管理手段和管理水平;學生本人也可以及時約束自己,改善學習方法,糾正不良生活、作息習慣。大學生綜合行為畫像可以概括為,基于校園大數(shù)據(jù)將學生行為信息標簽化[4]。本次研究主要探討如何收集、處理各類數(shù)據(jù),將數(shù)據(jù)標簽化,從而構(gòu)建大學生校園生活動態(tài)的綜合行為畫像。大學生綜合行為畫像構(gòu)建流程如圖1所示。
智慧校園平臺通過業(yè)務管理系統(tǒng)、硬件設備和瀏覽網(wǎng)站累積了海量大學生校園生活行為數(shù)據(jù)。從這些數(shù)據(jù)中抽取出所需數(shù)據(jù),并通過進一步數(shù)據(jù)挖掘,即可全面展示一個大學生的綜合信息。這些數(shù)據(jù)包括靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù),以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。靜態(tài)數(shù)據(jù)主要包括學生的基本信息,如姓名、年齡、性別、民族、專業(yè)年級、考試成績等;動態(tài)數(shù)據(jù)主要包括課程學習數(shù)據(jù)、作息時間數(shù)據(jù)、校園卡消費數(shù)據(jù)、網(wǎng)絡訪問數(shù)據(jù)、圖書借閱數(shù)據(jù)等。結(jié)構(gòu)化數(shù)據(jù)主要包括智慧校園平臺數(shù)據(jù)庫中按照一定數(shù)據(jù)標準存儲的規(guī)范數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)主要包括網(wǎng)頁、CSV文件、Excel文件、圖片信息、視頻信息等數(shù)據(jù)。數(shù)據(jù)采集工作中,應采集有用信息,剔除冗余信息,確定綜合行為畫像中用到的信息數(shù)據(jù)。
采集的原始數(shù)據(jù)來源于不同系統(tǒng),多是不規(guī)范、不完整、重復、異常的“臟數(shù)據(jù)”。對于“臟數(shù)據(jù)”,應先進行清洗,完成異構(gòu)多數(shù)據(jù)源的數(shù)據(jù)整合,以實現(xiàn)不同數(shù)據(jù)源間的數(shù)據(jù)同步。
按照一定的數(shù)據(jù)標準,連接訪問不同業(yè)務系統(tǒng)的數(shù)據(jù)庫。對于不規(guī)范數(shù)據(jù),進行創(chuàng)建、瀏覽、刪除和修改,形成統(tǒng)一數(shù)據(jù)庫,存儲于數(shù)據(jù)倉庫中。對于不完整的數(shù)據(jù),一般采用機器學習的方式插補,自動完成整合。如,有的數(shù)據(jù)庫存在“空”值,通常以“0”或平均值予以替換。當系統(tǒng)無法自動完成時,采用人工干預的方式來完成。異常數(shù)據(jù)是指超過正常數(shù)值范圍的數(shù)據(jù),對此類數(shù)據(jù)需篩選出來另行處理或刪除。
畫像展示(向輔導員、授課教師、學生本人)
標簽通常是指人工定義的高度精煉的特征符號標識,是特征的一種呈現(xiàn)方式[5]。它有兩個明顯特征:一是語義化,便于幫助人們理解標簽的含義;二是短文本,有利于機器提取標準化信息。數(shù)據(jù)標簽化是指對原始數(shù)據(jù)進行分析,抽取學生行為相關變量或?qū)傩裕槠滟N上“標簽”。各個標簽從不同的角度描述數(shù)據(jù)對象,既有區(qū)別又有聯(lián)系,從而共同構(gòu)成學生行為畫像整體。
根據(jù)大學生校園行為原始數(shù)據(jù),挖掘出有用的綜合行為畫像信息,進而進行模型計算、分析和評價。特征標簽分為靜態(tài)特征標簽和動態(tài)特征標簽:靜態(tài)特征標簽主要包括姓名、年齡、性別、專業(yè)年級、考試成績等;動態(tài)特征標簽包括學習水平、上網(wǎng)習慣、作息習慣、消費水平、飲食規(guī)律、社交關系等。大學生行為畫像特征標簽如表1所示。
表1 大學生行為畫像特征標簽
大學生綜合行為畫像是現(xiàn)實生活中實際樣本的數(shù)學建模,構(gòu)建基礎是從大學生校園行為軌跡中抽象而來的各種特征標簽。通過一系列信息標簽,可勾勒出學生的校園生活形象,進而為其學習管理、成績分析、行為預警提供幫助。
(1) 構(gòu)建原則。綜合行為畫像來源于數(shù)據(jù),構(gòu)建的原則是能夠真實反映本體?;诒倔w的個體畫像,集成了行為建模的概念和屬性,是行為個體畫像與本體論相結(jié)合的產(chǎn)物[6]?;诒倔w的知識表示方法,通常由實例、類、關系、函數(shù)和公理等部分組成。在計算機科學與信息科學領域,本體是指一種形式化的對于共享概念體系的明確說明。它是一種共享詞表,是一種特殊類型的術語集,是對特定領域之中某類概念及其相互之間關系的形式化表達,是人們以自己興趣領域的知識為素材、運用信息科學的本體論原理而編寫出來的作品[7]。描述這樣一個畫像模型,需要一套數(shù)據(jù)化、符號化、形式化的標準知識體系,通過機器去理解、推理這套知識體系,使其進一步形式化。畫像構(gòu)建原則如圖2所示。
圖2 畫像構(gòu)建原則
(2) 構(gòu)建方法。遵循樸素的行為特征表示規(guī)律,依據(jù)現(xiàn)實,建立模型,給出標簽。行為畫像需要表現(xiàn)的是現(xiàn)實生活中業(yè)務系統(tǒng)對應的特征學生,應先建立學生特征模型,進一步通過符號化抽象成學生特征的符號,即標簽,而標簽又能代表現(xiàn)實生活中的實體。比如某個學生個體有“上課紀律好”“學習成績好”“經(jīng)常去圖書館”等特征,則可以用“學霸”這個詞作為符號和標簽,表示這位同學的學習水平。
用于綜合行為畫像的數(shù)據(jù)來源于不同的業(yè)務系統(tǒng),代表不同的特征標簽,數(shù)據(jù)的單位、數(shù)量級別、取值范圍都不一樣。有的數(shù)據(jù)取值范圍特別大,會導致算法的訓練時間過長,收斂較慢;取值范圍大的數(shù)據(jù)在模式分類中的貢獻也可能偏大,而取值范圍小的數(shù)據(jù)貢獻就可能非常小,數(shù)據(jù)之間的可比性較差。因此,需要對特征標簽數(shù)據(jù)進行歸一化處理,歸納統(tǒng)一樣本的統(tǒng)計分布性,在保持數(shù)據(jù)之間相對關系的同時,使無可比性的數(shù)據(jù)具有可比性。歸一化就是將數(shù)據(jù)映射到[0,1]或[-1,1]區(qū)間,如歸一為(0.1,0.9)。
在機器學習算法和數(shù)據(jù)挖掘工作中,歸一化環(huán)節(jié)可以簡化計算方式,將有量綱的表達式變換為無量綱的表達式,變?yōu)榧兞俊@缭趹肧VM之前,數(shù)據(jù)縮放非常重要,它可以避免小數(shù)值區(qū)間的屬性過多地被大數(shù)值區(qū)間的屬性所支配,同時降低計算過程中數(shù)值的復雜度。常用的數(shù)據(jù)歸一化包括線性函數(shù)歸一化(Min-Max Scaling)和0均值標準化(Z-Score Standardization)。
(1) 線性函數(shù)歸一化。線性函數(shù)歸一化是將原始特征標簽數(shù)據(jù)通過線性化方式映射到[0,1]區(qū)間,歸一化函數(shù)如下:
該函數(shù)能夠?qū)崿F(xiàn)對原始特征標簽數(shù)據(jù)的等比例縮放,其中Xn為歸一化后的數(shù)據(jù),X為轉(zhuǎn)換前值,Xmax和Xmin分別為原始值集的最大值和最小值。函數(shù)實現(xiàn):LaTex:{X}_{n}=frac{X-Xmin}{Xmax-Xmin}。
(2) 0均值標準化。0均值標準化是指對原始特征標簽數(shù)據(jù)的均值和標準差進行數(shù)據(jù)標準化處理,將原始數(shù)據(jù)值X通過Z-score標準化到Xn。標準化后的數(shù)據(jù)呈正態(tài)分布,即均值為0,標準差為1,在一定程度上改變了特征的分布。函數(shù)如下:
該歸一化函數(shù)能夠處理原始數(shù)據(jù)的分布,近似為高斯分布數(shù)據(jù)。其中,Xn為標準化后的新數(shù)據(jù),X為原數(shù)據(jù)值,μ為均值,σ為標準差。函數(shù)實現(xiàn):LaTex:{X}_{n}=frac{X-mu }{sigma }。
通常在分類、聚類算法中,需要使用距離來度量相似性的時候,或者使用PCA技術進行降維的時候,0均值標準化方法表現(xiàn)更好;而在不涉及距離度量、協(xié)方差計算、數(shù)據(jù)屬性不符合正態(tài)分布的時候,可以采用線性函數(shù)歸一化方法。比如,圖像處理中,將RGB圖像轉(zhuǎn)換為灰度圖像后,將其值限定在[0,255]區(qū)間。
綜合行為畫像主要從學習、三餐習慣、作息習慣、社交關系、消費水平、上網(wǎng)習慣等方面進行分析評價。
(1) 學習。這里主要對準點率、出勤率、成績進行加權(quán)求和,得到學習指數(shù),通過學習指數(shù)反映學生的學習基礎與學習態(tài)度。學習指數(shù)L:L=f(s),其中f(s)為歸一化函數(shù),s為各個指標的評價值。特征標簽評價等級分為:學霸、學優(yōu)、學良、學中和學差。
(2) 三餐習慣。三餐習慣用規(guī)律度表示,即按照飲食指數(shù)設定等級,并給予評價。
飲食指數(shù)歸一化函數(shù):
pm=-1×(21.362-0.003p-0.330p2)
s=sl-ss
pn=-1×(21.050-0.027p′-0.330p′2)
式中:Y為飲食指數(shù);pm為早餐評價;td用餐標準差評價;pn為夜宵評價;p為早餐頻率;t為三餐平均標準差;s為消費差評價;sl和ss分別為午餐和晚餐的日均消費金額;p′為夜宵餐比例。
(3) 作息習慣。作息習慣用規(guī)律度表示,根據(jù)睡眠時間、入睡時間和起床時間等計算作息指數(shù),對作息指數(shù)設定等級,進行作息習慣評價。
作息指數(shù)函數(shù):
式中:S為作息指數(shù);f(x)為歸一化函數(shù);tc為睡眠時間評價;t0為平均睡眠時長;ti為入睡時間評價;t1為平均入睡時間;tu為起床時間評價;t2為平均起床時間。
(4) 社交關系。由于大學生社交圈人數(shù)有限,這里以間隔5位同學作為目標同學的共現(xiàn)對。如同學k,所在隊列中獲取有效共現(xiàn)對[(xk-5,xk),(xk-4,xk+1),…(xk,xk+5)],收集并計算共現(xiàn)對出現(xiàn)的次數(shù)。通過Louvain社區(qū)發(fā)現(xiàn)算法識別學生的關系群體,從而發(fā)現(xiàn)社群中離群索居的對象。
(5) 消費水平。通過學生日均消費金額c,計算消費力指數(shù)Sp,評價學生的消費水平,Sp=f(c)。結(jié)合學生用餐消費和消費場所、位置等判定消費水平及消費行為。
(6) 上網(wǎng)習慣。以日均上網(wǎng)時長為主要因素計算上網(wǎng)指數(shù)N,日均上網(wǎng)時長t與網(wǎng)絡成癮度具有線性相關性[8]。以上網(wǎng)指數(shù)N評價學生上網(wǎng)健康度:N=f(1.725+0.321t)。
下面就綜合行為畫像與學習成績相關度特征標簽數(shù)據(jù)進行分析,數(shù)據(jù)如表2所示。
表2 學習成績相關度
可以看出,上網(wǎng)類型和上網(wǎng)行為對成績有較大的影響。多瀏覽文庫、參考資料網(wǎng)站,在教學區(qū)上網(wǎng)時間長等行為指標對成績有幫助,而瀏覽低俗網(wǎng)站,進行高強度聊天、看小說、玩游戲等行為指標對成績不利。消費方面,學習支出多及經(jīng)常在校就餐等行為指標對成績有正面作用,晚餐消費和普通餐飲特色消費行為指標影響學習指數(shù)。指數(shù)方面,良好的飲食作息,周末多去室外活動對成績也有正面作用?;拘畔⒎矫?,不同生源對成績模型有不同影響。如,華北地區(qū)生源對成績的影響度一般較低,西北地區(qū)生源對成績的影響度較高。此外,男生取得高分的比例較低,貧困也是影響學生取得高分的重要原因。
當前,高校智慧校園建設不斷深入,大學生行為數(shù)據(jù)累積量越來越大。在信息化社會里,數(shù)據(jù)即資源,數(shù)據(jù)即價值,這一點被越來越多人所認同。借助大數(shù)據(jù)挖掘、分析技術,充分發(fā)揮數(shù)據(jù)價值,為大學生進行綜合行為畫像,可以及時掌握學生學習狀況和生活動態(tài),為教師教學、領導決策、學生管理、行為預警等提供準確信息。