摘要:基于高校圖書館大數(shù)據(jù)的大學(xué)生成績預(yù)測對于推動高校圖書館的服務(wù)創(chuàng)新和高等教育數(shù)字化轉(zhuǎn)型具有重要意義。文章針對鮮有圖書館利用數(shù)據(jù)用于大學(xué)生成績預(yù)測模型構(gòu)建的現(xiàn)狀,結(jié)合高校教務(wù)處學(xué)業(yè)數(shù)據(jù)和圖書館利用數(shù)據(jù),基于機(jī)器學(xué)習(xí)方法構(gòu)建了大學(xué)生成績預(yù)測模型。實(shí)驗(yàn)結(jié)果表明,對邏輯思維要求較高的科目對學(xué)生成績有顯著的正相關(guān)性;圖書館利用數(shù)據(jù)(如圖書借閱、入館次數(shù)等)與平均學(xué)分績點(diǎn)(Grade Point Average,GPA)呈現(xiàn)明顯的正相關(guān)關(guān)系。該研究旨在為高校圖書館精準(zhǔn)化服務(wù)提供有力支持,并為高等教育數(shù)字化轉(zhuǎn)型提供有益參考。
關(guān)鍵詞:教育數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);大學(xué)生成績預(yù)測模型;高校圖書館
中圖分類號:G258.6" 文獻(xiàn)標(biāo)志碼:A文獻(xiàn)標(biāo)志碼
基金項(xiàng)目:2023年南京航空航天大學(xué)本科教育教學(xué)改革研究項(xiàng)目;項(xiàng)目名稱:基于圖書館大數(shù)據(jù)的大學(xué)生學(xué)業(yè)預(yù)警模型研究;項(xiàng)目編號:2023JGTS15Z。
作者簡介:劉存杰(1976— ),男,館員,碩士;研究方向:大數(shù)據(jù)分析與決策。
*通信作者:李小濤(1986— ),男,副研究館員,博士;研究方向:信息計(jì)量與科學(xué)評價(jià)。
0" 引言
教育數(shù)據(jù)挖掘(Education Data Mining,EDM)是近年來備受研究者關(guān)注的領(lǐng)域之一,是基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)對教育大數(shù)據(jù)系統(tǒng)進(jìn)行探索和研究的領(lǐng)域[1]。該領(lǐng)域的經(jīng)典預(yù)測問題之一是預(yù)測學(xué)生成績,發(fā)現(xiàn)在學(xué)業(yè)上最有可能失敗的學(xué)生,以便提供幫助和支持。同時(shí),教育數(shù)據(jù)挖掘可以幫助教師和管理者在設(shè)計(jì)課程時(shí)做出更明智的決策。例如,知道哪門課程對學(xué)生的成績影響最大,可以鼓勵(lì)教育者對這類課程給予更多的關(guān)注,并提供更多的資源。
國內(nèi)外學(xué)者對學(xué)生成績預(yù)測工作進(jìn)行了大量研究,大多數(shù)研究使用3類數(shù)據(jù)集:來自問卷調(diào)查或?qū)W生的自我報(bào)告數(shù)據(jù)、學(xué)生學(xué)院/大學(xué)數(shù)據(jù)庫的數(shù)據(jù)和在線學(xué)習(xí)平臺的數(shù)據(jù)[2-4]。與此同時(shí),隨著智慧圖書館的興起,圖書館利用行為與學(xué)習(xí)成績的相關(guān)性研究也成為研究的熱點(diǎn),國內(nèi)外已經(jīng)有不少學(xué)者通過量化研究的方法進(jìn)行了積極探索。國外研究起步較早,Stone等[5-9]研究發(fā)現(xiàn)本科生圖書館利用行為,如圖書借閱、資源使用、入館次數(shù)等與GPA呈現(xiàn)明顯的正相關(guān)關(guān)系;國內(nèi),吳英梅等[10-13]的研究同樣證明了高校圖書館利用行為對于本科生學(xué)業(yè)的促進(jìn)作用。
以上研究表明,國外學(xué)者的相關(guān)研究理論體系完備,實(shí)證研究豐富;而國內(nèi)研究因起步較晚,近年才出現(xiàn)相對成熟的研究成果。以往的研究在研究方法、研究對象、作用關(guān)系等方面具有以下特點(diǎn):(1)從研究方法來看,國內(nèi)外的各項(xiàng)研究大多采用了問卷調(diào)查的研究方法,雖然可以獲取如電子資源利用、館員服務(wù)等更多維度的圖書館利用數(shù)據(jù),但難免受到調(diào)查對象自身主觀情緒和環(huán)境影響,調(diào)查結(jié)果客觀性與準(zhǔn)確性存疑。(2)在研究對象的選擇上存在著樣本量偏小、所在專業(yè)單一等問題,可能會導(dǎo)致研究結(jié)果偏差。(3)從作用關(guān)系來看,雖然研究表明圖書館利用與學(xué)業(yè)發(fā)展存在正相關(guān)關(guān)系,但并不能直接基于學(xué)業(yè)數(shù)據(jù)和圖書館利用數(shù)據(jù)等特征來預(yù)測學(xué)生的成績,并為他們提供影響其學(xué)業(yè)成績關(guān)鍵因素及時(shí)干預(yù)的目標(biāo)。
本文旨在提出一種基于監(jiān)督機(jī)器學(xué)習(xí)方法的預(yù)測分析模型,根據(jù)學(xué)生的歷史學(xué)習(xí)成績和圖書館利用行為預(yù)測學(xué)生的GPA。本文研究使用的數(shù)據(jù)集源自高校本科一年級教育數(shù)據(jù),包括教務(wù)處學(xué)業(yè)數(shù)據(jù)和圖書館利用數(shù)據(jù),基于機(jī)器學(xué)習(xí)方法構(gòu)建大學(xué)生成績預(yù)測模型,并對模型性能進(jìn)行評估。研究有2個(gè)主要目標(biāo):一是確定影響學(xué)生學(xué)業(yè)成績的關(guān)鍵因素,為學(xué)校和教師提供有效的預(yù)警和決策支持工具,實(shí)現(xiàn)精準(zhǔn)教育目標(biāo)。二是幫助厘清高校圖書館影響本科生學(xué)習(xí)成效的具體因素,為高校圖書館未來的創(chuàng)新建設(shè)和精準(zhǔn)化服務(wù)提供實(shí)質(zhì)性建議,深化高校圖書館“以人為本,讀者至上”服務(wù)原則[14]。
1" 研究設(shè)計(jì)
1.1" 研究框架
為了構(gòu)建大學(xué)生成績預(yù)測模型并將其應(yīng)用于高校學(xué)生,本文基于教務(wù)處學(xué)業(yè)數(shù)據(jù)和圖書館利用數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)方法預(yù)測學(xué)生的GPA。隨后,確定哪些特征影響學(xué)生的學(xué)業(yè)成績,并進(jìn)一步研究圖書館利用行為對于學(xué)生學(xué)業(yè)成績的影響。本文提出的研究框架包括3個(gè)階段,第一階段收集和整合數(shù)據(jù),第二階段對數(shù)據(jù)進(jìn)行預(yù)處理,第三階段構(gòu)建和評估模型。每個(gè)階段都有一些具體步驟,如圖1所示。
第一階段,原始數(shù)據(jù)集來自2個(gè)數(shù)據(jù)源,即包含學(xué)生成績的教務(wù)系統(tǒng)和包含圖書借閱的圖星系統(tǒng)。它們被集成到包含學(xué)生信息的唯一數(shù)據(jù)集。
第二階段對該數(shù)據(jù)集進(jìn)行預(yù)處理,選取特征(采用簡單Pearson相關(guān)系數(shù)),去除缺失值、異常值和噪聲值,然后,轉(zhuǎn)換為歸一化的數(shù)據(jù)集。
第三階段是模型的建立和評估。歸一化處理后,按照給定的比例將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。隨后,將選擇的機(jī)器學(xué)習(xí)算法應(yīng)用在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí)并構(gòu)建模型。使用測試數(shù)據(jù)集來評估這些模型,并通過均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)等多種指標(biāo)來評估模型的性能。測試結(jié)果展示了機(jī)器學(xué)習(xí)算法在該數(shù)據(jù)集上對學(xué)生成績預(yù)測的能力。
1.2" 數(shù)據(jù)來源
本文的數(shù)據(jù)來源于南京航空航天大學(xué)教務(wù)處及學(xué)校圖書館提供的教育數(shù)據(jù),包括教務(wù)處學(xué)業(yè)數(shù)據(jù)和圖書館利用數(shù)據(jù)。本研究的目標(biāo)是在高等教育的早期階段預(yù)測學(xué)生的最終表現(xiàn),因此使用了本科一年級基礎(chǔ)課程比較集中的學(xué)業(yè)成績,并將主機(jī)專業(yè),即航空學(xué)院、能源與動力學(xué)院和機(jī)電學(xué)院的學(xué)生數(shù)據(jù)作為本研究的實(shí)驗(yàn)樣本基礎(chǔ)。
1.3" 數(shù)據(jù)預(yù)處理
在教務(wù)處提供的原始數(shù)據(jù)集中,每個(gè)學(xué)生被表示為多行。例如,如果一個(gè)學(xué)生學(xué)習(xí)了20門課程,那么數(shù)據(jù)將擁有20行或更多,每門課程至少有一行。而本實(shí)驗(yàn)的數(shù)據(jù)格式為(X,Y),其中:X為特征因子,Y為擬合目標(biāo)。因此,在對原始數(shù)據(jù)集進(jìn)行檢查后,本文編寫了一個(gè)數(shù)據(jù)處理程序來設(shè)計(jì)樣本數(shù)據(jù)集,使其更適合預(yù)測GPA的目的。
教務(wù)處學(xué)業(yè)成績中除了必修課之外,選修課占據(jù)很大部分,為了能達(dá)到樣本和特征數(shù)量的平衡,采取的方案如下:根據(jù)主機(jī)專業(yè)的學(xué)生課程成績數(shù)量,按照從高到低進(jìn)行排序,選取前n門課作為特征,然后計(jì)算全部選擇這些課程的學(xué)生數(shù)量,作為樣本量。譬如主機(jī)專業(yè)2018級,選擇前20門課程,樣本量達(dá)到904條。
本文以各個(gè)科目課程成績、借閱冊數(shù)、入館次數(shù)為特征因子,GPA為擬合目標(biāo),其中科目為“數(shù)理統(tǒng)計(jì)Ⅱ”“線性代數(shù)”“創(chuàng)業(yè)基礎(chǔ)”“計(jì)算思維導(dǎo)論實(shí)驗(yàn)”“高等數(shù)學(xué)Ⅱ2”“C++語言課程設(shè)計(jì)”“大學(xué)英語Ⅳ”“C++語言程序設(shè)計(jì)”“計(jì)算思維導(dǎo)論”“大學(xué)生心理健康教育”“大學(xué)生職業(yè)生涯發(fā)展與規(guī)劃”“毛澤東思想和中國特色社會主義理論體系概論”“電工與電子技術(shù)課程設(shè)計(jì)”“大學(xué)物理實(shí)驗(yàn)Ⅰ2”“高等數(shù)學(xué)Ⅱ1”“中國近現(xiàn)代史綱要”“思想道德修養(yǎng)與法律基礎(chǔ)”“大學(xué)物理實(shí)驗(yàn)Ⅰ1”“理論力學(xué)Ⅰ”“大學(xué)英語Ⅲ”。
模型訓(xùn)練前,數(shù)據(jù)須要進(jìn)行預(yù)處理(如對輸入變量進(jìn)行min-max標(biāo)準(zhǔn)化),課程成績均采用百分制,同時(shí)把借閱冊數(shù)、入館次數(shù)映射到0~100范圍內(nèi),減少數(shù)據(jù)表征方式對模型結(jié)果的影響。研究使用Python3編程語言完成數(shù)據(jù)處理工作,形成的樣本數(shù)據(jù)集如表1所示。
1.4" 模型訓(xùn)練
本文采用了深度學(xué)習(xí)(Deep Learning)、決策樹(Decision Tree)、隨機(jī)森林(Random Forest)、梯度提升樹(Gradient Boosted Tree)和廣義線性回歸(Generalized Linear Model)5種分類和回歸模型來預(yù)測學(xué)生的GPA成績,運(yùn)用網(wǎng)格搜索方法進(jìn)行模型訓(xùn)練和參數(shù)優(yōu)化,將最優(yōu)參數(shù)下的模型運(yùn)用于測試數(shù)據(jù)集。將均方根誤差、平均絕對誤差作為模型評價(jià)指標(biāo),進(jìn)行各模型性能的比較。使用WEKA完成建模,采用十折交叉驗(yàn)證,將數(shù)據(jù)集劃分為訓(xùn)練集(90%)和測試集(10%)進(jìn)行評估。
經(jīng)過參數(shù)優(yōu)化,當(dāng)算法模型達(dá)到最優(yōu)性能時(shí),決策樹最大深度為4;隨機(jī)森林最優(yōu)樹數(shù)量為100,最大深度為7;梯度提升樹最優(yōu)樹數(shù)量為90,最大深度為2,學(xué)習(xí)率為0.1。
2" 結(jié)果與分析
2.1" 模型性能評估
本文構(gòu)建的大學(xué)生成績預(yù)測模型主要關(guān)注預(yù)測結(jié)果的準(zhǔn)確度,因此評價(jià)各個(gè)算法模型的指標(biāo)選擇均方根誤差。此指標(biāo)主要用于衡量預(yù)測值和真值之間的偏差,能夠很好地反映預(yù)測的精密度[15],均方根誤差值越小,表示模型的預(yù)測值與實(shí)際觀測值之間的差異越小,模型的性能越好。模型性能評價(jià)指標(biāo)如表2所示。
根據(jù)以上對比情況可以看出,廣義線性回歸的預(yù)測值與實(shí)際觀測值之間差異最小,此模型性能在預(yù)測成績的準(zhǔn)確度上最好,后續(xù)可以優(yōu)先利用此算法構(gòu)建的大學(xué)生成績預(yù)測模型進(jìn)行部署推理。
2.2" 特征因子重要性分析
在大學(xué)生成績預(yù)測中,不同因子的特征重要性(Importance of Feature,IF)表示每個(gè)因子在預(yù)測中具有不同的強(qiáng)度,其范圍為0.145~0.736,如圖2所示。
從圖2可以看出,理論力學(xué)、數(shù)學(xué)類(“高等數(shù)學(xué)”“概率論與數(shù)理統(tǒng)計(jì)”“線性代數(shù)”)以及編程類(“C++語言課程設(shè)計(jì)”)等需要邏輯思維的課程與最后的GPA之間存在顯著的正相關(guān)性。進(jìn)一步增加或改變模型的維度和數(shù)據(jù)量,研究不同的特征因子組合對模型精度的影響,是后續(xù)研究的重要方向。
圖書館“入館次數(shù)”相較于人文社科類課程(如“中國近代史綱要”“思想道德修養(yǎng)與法律基礎(chǔ)”等)更能正向影響大學(xué)生的成績,初步分析可能的原因主要有以下幾點(diǎn):(1)學(xué)生的入館次數(shù)基本反映了學(xué)習(xí)時(shí)間,表明了時(shí)間特征在學(xué)生成績預(yù)測中的重要性。(2)圖書館可以為學(xué)生提供一個(gè)相對安靜、專注的學(xué)習(xí)環(huán)境,進(jìn)而提升學(xué)生學(xué)習(xí)效率。(3)在圖書館可以隨時(shí)獲取學(xué)習(xí)需要的圖書、期刊等實(shí)體資源和電子資源,能夠及時(shí)滿足學(xué)生學(xué)習(xí)需求。
3" 結(jié)論與建議
3.1" 大學(xué)生成績預(yù)測模型的發(fā)現(xiàn)
本文利用高等教育大數(shù)據(jù)作為驅(qū)動,基于機(jī)器學(xué)習(xí)方法構(gòu)建了大學(xué)生成績預(yù)測模型,主要研究結(jié)論如下。
(1)對決策樹、深度學(xué)習(xí)、隨機(jī)森林、梯度提升樹和廣義線性回歸5種成績預(yù)測模型進(jìn)行了性能比較,廣義線性回歸模型在模型性能評估、預(yù)測準(zhǔn)確率、運(yùn)行時(shí)間等方面均表現(xiàn)優(yōu)異,能夠提供較為可靠的成績預(yù)測結(jié)果。
(2)理論力學(xué)、數(shù)學(xué)類、編程類等對邏輯思維要求較高的課程對于大學(xué)生成績具有顯著的正相關(guān)關(guān)系,可以指導(dǎo)學(xué)生對這類課程給予更多的關(guān)注。
(3)圖書館利用(尤其是入館次數(shù))相較于人文社科類課程更能正向影響最后的平均學(xué)分績點(diǎn),表明了時(shí)間特征對于大學(xué)生成績的重要性。
3.2" 對高校圖書館實(shí)施精準(zhǔn)化服務(wù)的建議
根據(jù)以上結(jié)論,本文為高校圖書館提出了相關(guān)建議,以推動高校圖書館未來建設(shè)更注重“以人為本”的服務(wù)原則,促進(jìn)高等教育高質(zhì)量發(fā)展。
3.2.1" 融合物理與虛擬空間的高校圖書館空間建設(shè)
圖書館空間與學(xué)生學(xué)習(xí)環(huán)境直接相關(guān),直接影響學(xué)生的學(xué)習(xí)效果。在數(shù)字化環(huán)境下教育變革的背景之下,原有空間布局難以滿足用戶多元化、個(gè)性化的需求,在教育數(shù)字化背景下,高校圖書館應(yīng)對未來學(xué)習(xí)場景進(jìn)行重新定義和探索創(chuàng)造,更多關(guān)注個(gè)性化、定制化、多樣化和協(xié)作化??臻g建設(shè)的探索主要包括豐富物理空間建設(shè)與加強(qiáng)虛擬空間建設(shè)2個(gè)方面:(1)在物理空間建設(shè)方面,可以設(shè)立靈活、多功能的學(xué)習(xí)區(qū)域,包括小組研討室、獨(dú)立研究區(qū)域、實(shí)驗(yàn)室等,滿足不同學(xué)習(xí)活動的需求。(2)具備虛擬現(xiàn)實(shí)技術(shù)的虛擬空間可以為用戶提供如遠(yuǎn)程實(shí)驗(yàn)、虛擬實(shí)踐和在線協(xié)作等服務(wù),為用戶提供更富有趣味性和互動性的學(xué)習(xí)體驗(yàn),深化對類似理論力學(xué)、編程類學(xué)科等抽象、晦澀學(xué)科知識的理解。
3.2.2" 文獻(xiàn)流視角下的高校圖書館信息資源管理
高校圖書館的信息資源建設(shè)對學(xué)術(shù)研究和教育等方面有著重要意義,面向用戶精準(zhǔn)化服務(wù)的信息資源整合,關(guān)鍵在于感知用戶信息資源需求,提升用戶使用體驗(yàn)。從文獻(xiàn)流的角度優(yōu)化圖書館信息資源建設(shè),包括信息資源建設(shè)、開發(fā)和利用3個(gè)環(huán)節(jié)。
(1)信息資源建設(shè)。高校圖書館信息資源建設(shè)在支持教學(xué)科研服務(wù)上具有重要意義,圖書館應(yīng)嵌入教學(xué)和科研全過程,拓展信息資源的學(xué)科廣度和學(xué)術(shù)深度,既要關(guān)注重點(diǎn)學(xué)科的信息資源建設(shè),也要關(guān)注非公開發(fā)表的特色館藏資源積累,促進(jìn)信息資源的數(shù)字化轉(zhuǎn)型。例如在南京航空航天大學(xué),圖書館可以針對邏輯思維要求較高的課程,通過構(gòu)建知識圖譜建立知識點(diǎn)之間的關(guān)聯(lián),將晦澀難懂的知識以結(jié)構(gòu)化的方式組織,使其更容易被理解和檢索,提升學(xué)生學(xué)習(xí)效率。
(2)信息資源開發(fā)。在信息化時(shí)代,數(shù)字化存儲和網(wǎng)絡(luò)信息資源的開發(fā)利用已經(jīng)在高校成為主流。目前圖書館信息資源的開發(fā)更多停留在信息資源的外部特征,將來為用戶提供更加智能化、個(gè)性化的資源,要求高校圖書館不斷細(xì)化文獻(xiàn)資源的組織與揭示粒度,強(qiáng)化文獻(xiàn)資源內(nèi)容層面的語義關(guān)聯(lián)與知識重組,對信息資源進(jìn)行更深層次的知識整合,提高文獻(xiàn)資源與讀者需求的適配度。
(3)信息資源利用。高校圖書館可以嘗試通過連接人、空間和數(shù)字化資源,打通校內(nèi)外資源渠道,拓展文信息資源傳播與利用的渠道和方式,為用戶提供更加開放、便捷、廣泛的信息資源,實(shí)現(xiàn)用戶隨時(shí)隨地獲得信息資源的目標(biāo)。
3.2.3" 基于數(shù)字化驅(qū)動的服務(wù)創(chuàng)新
服務(wù)作為圖書館業(yè)務(wù)流程中極為關(guān)鍵的一環(huán),未來圖書館的建設(shè)要適應(yīng)多樣化、學(xué)習(xí)化、個(gè)性化、現(xiàn)代化的學(xué)習(xí)需求。隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)為高校圖書館的服務(wù)創(chuàng)新提供了重要路徑。高校圖書館可利用數(shù)字畫像等技術(shù)識別學(xué)生學(xué)習(xí)興趣和潛在需求,為學(xué)生匹配個(gè)性化學(xué)習(xí)路徑,推薦與個(gè)人密切相關(guān)的學(xué)習(xí)資源,例如推薦與績點(diǎn)密切相關(guān)的學(xué)科學(xué)習(xí)資源。另外,加強(qiáng)館員隊(duì)伍建設(shè)是提升圖書館服務(wù)效能的關(guān)鍵舉措,圖書館應(yīng)注重加強(qiáng)館員綜合素質(zhì)和業(yè)務(wù)能力培養(yǎng),開展館員專業(yè)能力培訓(xùn),提升館員數(shù)字素養(yǎng)和服務(wù)能力。
基于機(jī)器學(xué)習(xí)的大學(xué)生成績預(yù)測方法因具有較高的計(jì)算效率和較好的非線性表達(dá)能力,逐漸推動高等教育步入大數(shù)據(jù)時(shí)代。隨著圖書館利用數(shù)據(jù)的不斷豐富,為基于數(shù)據(jù)驅(qū)動的圖書館精準(zhǔn)化服務(wù)創(chuàng)新成為可能。高校圖書館在新時(shí)代堅(jiān)守“以人為本”的服務(wù)原則,依托新興數(shù)字化、網(wǎng)絡(luò)化和智能化技術(shù),加強(qiáng)空間建設(shè)、資源建設(shè)和服務(wù)建設(shè),以提供精準(zhǔn)服務(wù)和有力支撐,推動高等教育實(shí)現(xiàn)個(gè)性化和智慧化學(xué)習(xí)的目標(biāo)。
參考文獻(xiàn)
[1]HAN J,KAMBER M.Data mining:concepts and techniques[M].San Francisco:Morgan Kaufmann,2001.
[2]陸根書.大數(shù)據(jù)在高等教育領(lǐng)域中的應(yīng)用及面臨的挑戰(zhàn)[J].重慶高教研究,2022(4):31-38.
[3]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào),2015(11):3026-3042.
[4]ALANGARI N,ALTURKI R.Predicting students final GPA using 15 classification algorithms[J].Romanian Journal of Information Science and Technology,2020(3):238-249.
[5]STONE G,RAMSDEN B.Library impact data project: looking for the link between library usage and student attainment[J].College amp; Research Libraries,2013(6):546-559.
[6]SORIA K M,F(xiàn)RANSEN J,NACKERUD S.Library use and undergraduate student outcomes:new evidence for students’ retention and academic success[J].Portal:Libraries and the Academy,2013(2):147-164.
[7]STEMMER J K,MAHAN D M.Investigating the relationship of library usage to student outcomes[J].College amp; Research Libraries,2016(3):359-375.
[8]JAN S U,ANWAR M A,WARRAICH N F.Library anxiety,library use and academic performance of undergraduate students in Pakistan[J].Library Review,2016(8/9):564-577.
[9]BANLEMAN K,ADJOA Y F.An analysis of the correlation between academic library use and student’s academic performance:a case study of UDS-Wa campus[J].Information and Knowledge Management,2017(3):13-20.
[10]吳英梅,何璨.高校圖書館對學(xué)生學(xué)業(yè)科研影響的實(shí)證研究:以北京師范大學(xué)為例[J].圖書情報(bào)工作,2014(20):73-77,90.
[11]王凌.大學(xué)生利用圖書館與學(xué)習(xí)成績的關(guān)聯(lián)性實(shí)證研究:以首都醫(yī)科大學(xué)為例[J].圖書情報(bào)工作,2017(24):39-44.
[12]李倩.本科生圖書館利用與學(xué)業(yè)成績的相關(guān)性實(shí)證研究:以南京林業(yè)大學(xué)為例[J].農(nóng)業(yè)圖書情報(bào),2019(11):72-79.
[13]沈迎新,丁國勇.圖書借閱能提升大學(xué)生學(xué)業(yè)表現(xiàn)嗎:基于傾向得分匹配方法的實(shí)證研究[J].揚(yáng)州大學(xué)學(xué)報(bào)(高教研究版),2021(4):89-95.
[14]王世華.基于用戶需求的高校圖書館智慧服務(wù)大數(shù)據(jù)分析系統(tǒng)構(gòu)建:以上海大學(xué)為例[J].高校圖書館工作,2022(6):43-47.
[15]賈俊平.統(tǒng)計(jì)學(xué)基礎(chǔ)[M].北京:中國人民大學(xué)出版社,2010.
(編輯" 沈" 強(qiáng))
Research on university student performance prediction model based on library big data
LIU" Cunjie1, XIE" Ling2, LI" Xiaotao1*
(1.Library,Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China;
2.College of Economics and Management,Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
Abstract: The prediction of college students’ grades based on big data from university libraries is of great significance for promoting service innovation and digital transformation of higher education in university libraries. The article focuses on the current situation where few libraries use data to construct prediction models for college students’ grades. Combining academic data from university academic affairs offices and library utilization data, a college student grade prediction model is constructed based on machine learning methods. The experimental results show that subjects with high requirements for logical thinking have a significant positive correlation with students’ grades; There is a significant positive correlation between library utilization data (such as book borrowing, number of entries, etc.) and average GPA. This study aims to provide strong support for the precision services of university libraries and provide useful references for the digital transformation of higher education.
Key words: education data mining; machine learning; university student performance prediction model; university library