但詩瑤,黃文杰,石凱
(樂山師范學(xué)院 數(shù)理學(xué)院,四川 樂山)
現(xiàn)今,隨著信息社會的飛速發(fā)展,工作的類型也越來越多樣化,在招生人數(shù)不停增加、社會就業(yè)競爭激烈的情況下,傳統(tǒng)的培養(yǎng)模式會導(dǎo)致學(xué)生的就業(yè)品質(zhì)不高,職業(yè)的穩(wěn)定性也不好。這一現(xiàn)象引起了一些學(xué)者的注意。在大數(shù)據(jù)與機器學(xué)習飛速發(fā)展的時代,已有學(xué)者利用了不同方法探尋學(xué)生發(fā)展方向與各種因素之間的關(guān)系。尉建文[1]研究了父母的社會地位與社會資本對大學(xué)生求職意愿的影響,發(fā)現(xiàn)這兩個方面對大學(xué)生就業(yè)的影響存在很大差異。張楊和王琴[2]發(fā)現(xiàn)家庭稟賦和人力資本對大學(xué)生出國意愿產(chǎn)生了不同程度的影響。丁彤[3]探究了影響考研的客觀因素。陳迎明[4]回顧了大學(xué)生就業(yè)影響因素十年研究,并將這些因素劃分為內(nèi)部因素和外部因素、單因素和多因素,并指出已有研究對于解決大學(xué)生就業(yè)問題的期望仍有一定差距。孫笑飛[5]在基于數(shù)據(jù)分析的高職學(xué)生發(fā)展趨勢預(yù)測算法實踐中利用了K-Means算法作為學(xué)生預(yù)測的核心算法,引入判別函數(shù)等來對K-Means算法進行改進,開展了對高職學(xué)生的發(fā)展趨勢預(yù)測。孫怡帆[6]等人在大學(xué)生畢業(yè)方向預(yù)測中使用機器學(xué)習領(lǐng)域的Lasso-Logistic算法,構(gòu)建了精準度高達70%以上畢業(yè)生去向的預(yù)測模型??v觀對大學(xué)生發(fā)展方向的研究,其中對于影響因素的探究較多,而對于預(yù)測算法的研究則較少。
本文在基于已有的對大學(xué)生發(fā)展方向的研究結(jié)果中客觀選擇影響因素,利用機器學(xué)習中的logistic回歸算法建立并不斷訓(xùn)練模型,找尋其中關(guān)聯(lián)度最高的影響因素來建立預(yù)測模型,并保證較高的預(yù)測精確度。旨在為高校研究大學(xué)生發(fā)展方向提供一定的參考,為學(xué)校和社會尋覓到更適合學(xué)生發(fā)展的培養(yǎng)方案提供幫助,讓高校學(xué)生可以正確定位自己。本文所提供的理論參考和預(yù)測模型能使院校工作者在進行人才培養(yǎng)工作時有據(jù)可依,有利于完成人才培養(yǎng)的目標,提升資源的利用率和辦學(xué)質(zhì)量。同時也能為社會制定大學(xué)生相關(guān)政策提供建議,促進社會發(fā)展。
回歸分析(regression analysis)是一種運用十分廣泛的數(shù)理統(tǒng)計方法。它主要用于確定兩種或兩種以上變量間相互影響程度,該方法側(cè)重考查變量之間的數(shù)量變化規(guī)律?;貧w分析通過建立回歸方程研究變量之間的密切程度,幫助人們尋找隱藏在數(shù)據(jù)中的統(tǒng)計規(guī)律性,明確變量受一個或多個變量的具體影響程度,使得人們對變量間的關(guān)系了解得更直觀、透徹,并能高效提取出有效信息。對變量進行合理的回歸分析,還能為今后的預(yù)測提供科學(xué)的依據(jù)?;貧w分析預(yù)測法是回歸分析在變量預(yù)測方向上的一個推廣,它將建立在變量之間的回歸方程作為預(yù)測模型,篩選出對因變量產(chǎn)生影響的主要因素,并根據(jù)自變量在預(yù)測范圍內(nèi)的數(shù)量變化來預(yù)測因變量在該范圍內(nèi)的結(jié)果。
回歸分析是剖析數(shù)據(jù)和建模的重要工具,回歸模型就是基于回歸分析所建立的。當因變量是二分類或多分類型變量時,無法借助一般線性回歸模型進行研究。因為它不能滿足一般線性回歸模型對因變量取值的要求,且違反了回歸模型的前提假定,如不再滿足同方差。因此,當因變量為定性變量時,采用logistic回模型。當因變量為二分類變量時,采用二項logistic回歸模型;當因變量為多分類變量時,采用多項logistic回歸模型。
1、二項logistic回歸模型
當因變量為二分類變量時,無法采用一般線性回歸模型進行分析??梢詫σ蜃兞孔鲆恍┳儞Q,使它滿足一般線性回歸模型建模的要求。一元線性回歸模型的可表示為后者是對當自變量為x1i時因變量均值的預(yù)測。對于二分類因變量來說,就是當自變量為 x1i時因變量為1的概率的預(yù)測。此時,一元線性回歸方程的一般形式可寫為:
概率P在此處并不滿足一般線性回歸模型對因變量取值的要求,需要對P采取合理的變換。變換后的P需要同時滿足實際取值范圍在 ~+?∞ ∞之間且與自變量之間的關(guān)系是非線性,即回歸函數(shù)應(yīng)該是限制在區(qū)間[0,1]內(nèi)的連續(xù)曲線。常常采用Logit變換對P進行處理來解決該問題。
首先引入邏輯斯蒂函數(shù)(logistic distribution)概念[7]。
邏輯斯蒂函數(shù)取值范圍為(0,1),它由下列公式定義:
其中,μ和γ分別為位置參數(shù)和形狀參數(shù)(γ>0)。
邏輯斯蒂函數(shù)的圖像形如S形曲線,所以又稱為sigmoid函數(shù)。二項logistic回歸模型是一種分類模型,由條件概率分布 P( x| y )表示,形式即為參數(shù)化的邏輯斯蒂分布。
圖1 logistic函數(shù)圖像
圖2 logistic密度函數(shù)圖像
可以看出,在線性回歸模型中引入邏輯斯蒂函數(shù)可以使概率P滿足一般線性回歸模型對因變量的取值要求。引入Logit變換:
一件事件的幾率(Odds,也稱為優(yōu)勢)是指該事件發(fā)生的概率與改時間不發(fā)生的概率的比值[2]。如果事件發(fā)生的概率是P,那么該事件的幾率是,該事件的對數(shù)幾率(log odds)或logit 函數(shù)是
以上對P作的兩步變換即為Logit變換,并且logit( p) 往往和自變量呈線性關(guān)系。我們可利用一元線性回歸模型寫出 logit( p ) 與自變量的多元分析模型:
其的中 第 xji表個示觀第測j值個,自 β變j量則,為x第ji表j個示自第變j量個所自變對應(yīng)的回歸系數(shù)。以上即為二項logistic回歸模型。
2、多項logistic回歸模型
當因變量為多分類變量時,采用多項logistic回歸模型。多項logistic回歸模型又分有序和無序。
以包含3個水平的因變量為例介紹有序多項logistic回歸模型。假設(shè)因變量取值分別為1、2、3,所對應(yīng)的概率分別為 p1、 p2、 p3,且按照擬合二項logi stic回歸模型的步驟,對自變量擬合2個模型:
易知模型中自變量所對應(yīng)的系數(shù) jβ并不改變,改變的只是常數(shù)項α。
同理可寫出無序多項logistic回歸模型:
模型中 ijβ表示第i個模型中第j個自變量所對應(yīng)的回歸系數(shù)。大量研究表明,分類數(shù)據(jù)利用該模型建模效果很好。
對logistic回歸對數(shù)似然方程的求解,常采用梯度下降法。
本研究以四川樂山某高校本科院校畢業(yè)大學(xué)生為研究對象,旨在探索畢業(yè)大學(xué)生的在校狀況與個人發(fā)展方向的關(guān)系,建立模型,為在校大學(xué)生選擇發(fā)展個人方向提供參考。數(shù)據(jù)主要由學(xué)校各學(xué)院、各部門的負責人所提供。數(shù)據(jù)包括畢業(yè)生的性別、籍貫、政治面貌、家庭戶口、家庭月收入、進出圖書館次數(shù)、學(xué)分加權(quán)平均分、是否師范類、是否貧困生。
所調(diào)查的院校是一所師范類本科院校,調(diào)查對象主要是該院校剛畢業(yè)的大學(xué)生,通過數(shù)據(jù)整理分析可得出:畢業(yè)后選擇做教師的學(xué)生則占總體學(xué)生的52.8%,選擇就業(yè)的學(xué)生占總體學(xué)生的28.0%,而選擇讀研的學(xué)生占總體學(xué)生的19.2%。樣本中女生占了總體的77.6%,男生則有22.4%;女生中畢業(yè)后選擇教師的占55.2%,選擇就業(yè)的占23.2%,選擇讀研的則占21.6%;男生中畢業(yè)后選擇教師的占44.4%,選擇就業(yè)的占44.4%,選擇讀研的則占11.1%。樣本中專業(yè)是師范類的占總體的74.5%,非師范類的則占25.5%;師范類中選擇教師的占68.4%,選擇讀研的占23.3%,選擇就業(yè)的占8.3%;非師范類中選擇就業(yè)的占85.4%,選擇讀研的占7.3%,選擇教師的占7.3%。對數(shù)據(jù)進行簡單分析可得出,女性比男性更愿意選擇繼續(xù)深造;師范類專業(yè)的畢業(yè)生近七成會選擇做教師工作,而非師范類專業(yè)的畢業(yè)生八成選擇畢業(yè)后直接就業(yè);可見,是否師范類對畢業(yè)生選擇發(fā)展方向影響顯著。
表1 數(shù)據(jù)情況
本文在歸納和整理研究大學(xué)生發(fā)展方向影響因素的相關(guān)文獻后,結(jié)合調(diào)查院校的實際情況,對學(xué)生的綜合素質(zhì)、家庭情況、學(xué)業(yè)水平進行了分析。最終選取了3個顯著的自變量擬合模型。其中是否師范類為定性變量,學(xué)分加權(quán)平均分、圖書館進出次數(shù)為定量變量。因變量是畢業(yè)大學(xué)生所選發(fā)展方向,為定性變量,取值為就業(yè)、教師、研究生。
表2 變量摘要
根據(jù)所取得的數(shù)據(jù),建立無序多項logistic回歸模型進行分析。假設(shè)模型如下:
本文運用SPSS 23.0軟件進行l(wèi)ogistic回歸分析。利用這三個自變量建立與畢業(yè)去向的無序多項logistic回歸模型:
表3 模型擬合信息
表3是對模型進行似然比檢驗的結(jié)果,檢驗的原假設(shè)是所有自變量偏回歸系數(shù)全為0,從反饋結(jié)果可看出,自由度為6,顯著性 p< 0.001,則應(yīng)該拒絕原假設(shè),表明至少有一個偏回歸系數(shù)不為0。
表4 似然比檢驗
從表4中的檢驗結(jié)果可以看出,自變量顯著性p均小于0.05,則偏回歸系數(shù)不為0,說明模型中引入的自變量是有統(tǒng)計學(xué)意義的,對模型的貢獻均為顯著的,引入合理。擬合出的模型分別為:
其中 3( 0)x= 表示當學(xué)生專業(yè)不是師范類時取值為1,反之則為0。
對于logistic模型擬合優(yōu)度的測量,崔黨群[9]曾在相關(guān)文獻中提出一種方法,他闡述了logistic曲線回歸方程因含有回歸參數(shù)a、b和常量 K,不適宜用一般曲線回歸的假設(shè)測驗方法進行擬合優(yōu)度檢驗,并提出可以利用實際值和預(yù)測值,運用適合性 χ2測驗,進行擬合優(yōu)度檢驗。
將模型預(yù)測值與實際值進行 χ2檢驗:
表5 畢業(yè)去向交叉表
從表5中可以看出,僅有一個單元格的期望頻數(shù)小于5,并不超過整個單元格數(shù)量的百分之二十,可以使用卡方檢驗進行分析。
表6 卡方檢驗
表7 模型預(yù)測情況
從表7返回的預(yù)測結(jié)果得出,擬合的模型對樣本預(yù)測的正確率為77.6%,效果較好。
本文使用R語言中的nnet包對模型的預(yù)測效果進行分析。對樣本進行500次隨機抽樣,每一次按照7:3的比例劃分為訓(xùn)練集和測試集。利用訓(xùn)練集擬合無序多項logistic回歸模型,將測試集數(shù)據(jù)代入模型并計算出模型的預(yù)測正確率。對每次計算出的預(yù)測正確率求和取均值,得到模型的平均預(yù)測正確率為76.7%。結(jié)果表明無序多項logistic回歸模型對大學(xué)生發(fā)展方向的預(yù)測具有較高準確率。
從調(diào)查結(jié)果可以看出,學(xué)生的籍貫、政治面貌、家庭戶口、家庭月收入以及是否貧困生對學(xué)生選擇個人發(fā)展方向并無顯著影響。在普通師范類本科院校中,學(xué)生的考研率并不高,只占了總體學(xué)生的兩成。其中學(xué)分加權(quán)平均分與進出圖書館次數(shù)對學(xué)生發(fā)展方向有著正向影響。即分數(shù)越高、進出圖書館次數(shù)越多的學(xué)生更傾向選擇繼續(xù)深造。非師范類的學(xué)生在選擇繼續(xù)深造與直接就業(yè)中更傾向于畢業(yè)直接就業(yè),師范類的學(xué)生在這兩者中更傾向于選擇繼續(xù)深造。Logistic回歸模型在對大學(xué)生發(fā)展方向的研究中擬合效果顯著,預(yù)測正確率較高,本文可為相關(guān)研究提供一定參考。
對于本科學(xué)生來說,在師范類院校選擇當教師的學(xué)生較多,在該環(huán)境下一些非師范類的學(xué)生也會選擇當教師,這時就需要同學(xué)認真思考自己,結(jié)合自身興趣、家庭等因素考慮發(fā)展方向,通過網(wǎng)絡(luò)數(shù)據(jù)庫可以得到研究生的平均薪資會高一些,因此大部分同學(xué)可以繼續(xù)深造,提高生活水平和自身專業(yè)素質(zhì)。對于本科院校來說,本科專業(yè)為師范類的同學(xué)畢業(yè)去向大多是當老師,選擇深造的同學(xué)較少,在當今社會,本科出身達不到一些中學(xué)當教師的要求,院校在早期培養(yǎng)學(xué)生時,要多注重學(xué)生專業(yè)基礎(chǔ),提高學(xué)生的學(xué)習自主性。并可適當鼓動同學(xué)繼續(xù)深造,提高學(xué)歷、豐富自身涵養(yǎng)??佳新试黾右矔沟迷盒?诒兒?,引進更優(yōu)秀的學(xué)生團隊與教師團隊。在利用本文分析各學(xué)生的自身定位后,可以根據(jù)學(xué)生定位進行資源的分配,提高資源的利用率。對于社會來說,提高國民專業(yè)素質(zhì)是有利于社會發(fā)展的,國民素質(zhì)越高,社會發(fā)展越有利,可適當討論擴招方面的政策,提高國民專業(yè)素質(zhì),但同時還要考慮社會競爭關(guān)系,擴招幅度應(yīng)循序漸進,不宜過大導(dǎo)致研究生綜合水平降低。