摘 要:為探討畢業(yè)生的就業(yè)情況,使用python軟件,對(duì)195位畢業(yè)生,從大學(xué)學(xué)業(yè)成績(jī)、就業(yè)地點(diǎn)、就業(yè)薪資等方面進(jìn)行數(shù)據(jù)分析.結(jié)果表明,生源地與就業(yè)地點(diǎn)之間存在一定的關(guān)聯(lián)性,生源地在三、四線城市的學(xué)生更傾向于一線城市就業(yè).學(xué)業(yè)成績(jī)與就業(yè)薪資之間也具有一定的關(guān)聯(lián)性,優(yōu)秀的成績(jī)往往使畢業(yè)生獲得更好的就業(yè)機(jī)會(huì)和更高的薪資. 此外,不同的單位類型、所屬行業(yè)、職業(yè)類型對(duì)畢業(yè)生的初次就業(yè)薪資也有一定的影響,而初次就業(yè)地點(diǎn)、學(xué)生畢業(yè)去向以及性別對(duì)學(xué)生就業(yè)薪資水平的影響則相對(duì)較小.
關(guān)鍵詞:隨機(jī)森林算法;關(guān)聯(lián)規(guī)則;python;學(xué)業(yè)成績(jī);薪資
中圖分類號(hào):G 647.38" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):1007-6883(2024)03-0068-08
DOI:10.19986/j.cnki.1007-6883.2024.03.009
為了研究高校畢業(yè)生就業(yè)影響因素,已有不少學(xué)者利用統(tǒng)計(jì)分析等方法對(duì)大學(xué)生的就業(yè)情況展開(kāi)研究.呂奕虹[1]等對(duì)中國(guó)地質(zhì)大學(xué)英語(yǔ)專業(yè)畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行研究,利用SPSS軟件進(jìn)行分析發(fā)現(xiàn)英語(yǔ)專業(yè)畢業(yè)生就業(yè)預(yù)期與就業(yè)實(shí)際情況存在落差.趙軍祥[2]等根據(jù)整群抽樣的原則,對(duì)廣西師范大學(xué)等三所高校2019屆師范生就業(yè)數(shù)據(jù)進(jìn)行研究,分析影響廣西師范生就業(yè)的因素.李曉紅[3]等基于計(jì)算機(jī)信息技術(shù),從學(xué)生和學(xué)校兩個(gè)方面分析了國(guó)內(nèi)會(huì)計(jì)專業(yè)大學(xué)生就業(yè)能力相對(duì)低的原因,并提出了相應(yīng)的對(duì)策.張婷[4]以貴州醫(yī)科大學(xué)口腔醫(yī)學(xué)院2017屆至2019屆本科畢業(yè)生為研究對(duì)象,分析了口腔醫(yī)學(xué)畢業(yè)生的就業(yè)現(xiàn)狀,并提出相關(guān)的對(duì)策.賈新嵐[5]以2017屆青海民族大學(xué)法學(xué)專業(yè)畢業(yè)生的就業(yè)數(shù)據(jù)作為依據(jù),分析該專業(yè)畢業(yè)生就業(yè)現(xiàn)狀及存在的問(wèn)題,并從本科生培養(yǎng)模式、畢業(yè)生就業(yè)指導(dǎo)等若干方面給出法學(xué)專業(yè)本科畢業(yè)生就業(yè)的應(yīng)對(duì)策略.關(guān)于統(tǒng)計(jì)學(xué)專業(yè)畢業(yè)生的就業(yè)情況,目前只有少數(shù)學(xué)者開(kāi)展研究,祝長(zhǎng)華[6]等依據(jù)韶關(guān)學(xué)院統(tǒng)計(jì)學(xué)專業(yè)2012屆至2015屆畢業(yè)生的就業(yè)數(shù)據(jù),分析了韶關(guān)學(xué)院統(tǒng)計(jì)學(xué)專業(yè)畢業(yè)生就業(yè)的特點(diǎn),但并沒(méi)有研究影響薪資的主要因素.基于以上的研究現(xiàn)狀,本文旨在運(yùn)用python軟件,深入分析統(tǒng)計(jì)學(xué)專業(yè)畢業(yè)生初次就業(yè)的情況,探討影響薪資的主要因素,為大學(xué)生的職業(yè)發(fā)展規(guī)劃和就業(yè)方向提供建議和指導(dǎo).
1 數(shù)據(jù)來(lái)源及數(shù)據(jù)預(yù)處理
收集了韓山師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院2020屆至2022屆畢業(yè)生本科期間共14 200條成績(jī)信息和210條學(xué)生個(gè)人就業(yè)信息,原始數(shù)據(jù)的例子參看圖1和圖2(數(shù)據(jù)已去掉涉及學(xué)生隱私的相關(guān)信息).
使用python軟件對(duì)所獲得的成績(jī)進(jìn)行處理,分別提取每位學(xué)生的學(xué)位課、專業(yè)課、專業(yè)任選課的課程成績(jī)以及核心課課程成績(jī)計(jì)算學(xué)生的加權(quán)平均績(jī)點(diǎn),并將計(jì)算出來(lái)的績(jī)點(diǎn)按照學(xué)號(hào)合并存為成績(jī)表格,加權(quán)平均績(jī)點(diǎn)計(jì)算公式見(jiàn)公式(1).同時(shí)去掉含缺失值及未就業(yè)的學(xué)生數(shù)據(jù),留下195位學(xué)生的就業(yè)信息進(jìn)行分析,并按表1對(duì)相關(guān)變量進(jìn)行賦值且保存為就業(yè)信息表格.最終,將成績(jī)表格和就業(yè)信息表格按學(xué)號(hào)進(jìn)行合并,獲得分析所需要的數(shù)據(jù)集.
因?yàn)榧訖?quán)績(jī)點(diǎn)和核心課程績(jī)點(diǎn)的分布范圍不同,為了數(shù)據(jù)分析結(jié)果更加明顯,于是有表1中成績(jī)的劃分.同時(shí),表1中城市級(jí)別的劃分根據(jù)參考文獻(xiàn)[7]的方法進(jìn)行劃分.上文所描述的數(shù)據(jù)預(yù)處理及分析的具體算法邏輯如下:
Step1:收集數(shù)據(jù),將文件保存為xlsx后綴文件;
Step2:使用函數(shù)pd.read_excel讀取學(xué)生在校成績(jī)和學(xué)生就業(yè)信息數(shù)據(jù),去掉缺失數(shù)據(jù)及未就業(yè)學(xué)生的數(shù)據(jù),并按照學(xué)生學(xué)號(hào)建立數(shù)據(jù)集;
Step3:使用groupby函數(shù),提取出所有學(xué)生的學(xué)位課、專業(yè)課、專業(yè)任選課的成績(jī),并計(jì)算學(xué)生的加權(quán)平均績(jī)點(diǎn),計(jì)算公式如下:
[Zn=i=1mXni×Ynii=1mYni , n=1, 2, …, 195,] (1)
式中[Zn]代表第[n]個(gè)學(xué)生的加權(quán)平均績(jī)點(diǎn),[m]代表學(xué)生修讀課程數(shù),[Xni]和[Yni]分別代表第[n]個(gè)學(xué)生的第[i]門課程的績(jī)點(diǎn)和學(xué)分;
Step4:根據(jù)城市經(jīng)濟(jì)發(fā)展水平的劃分標(biāo)準(zhǔn),將城市劃分為一線城市、二線城市等;
Step5:使用replace函數(shù)將職業(yè)類型、單位類型、單位所屬行業(yè)等因素里的類別用數(shù)值代替;
Step6:畫圖展示計(jì)算結(jié)果,關(guān)聯(lián)規(guī)則分析、隨機(jī)森林算法分析.
本文的整體算法框架如圖3,同時(shí)下文將會(huì)介紹本研究所使用的相關(guān)算法.
2 研究方法及數(shù)據(jù)挖掘算法
基于隨機(jī)森林算法及關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)條形圖等分析方法,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析.關(guān)聯(lián)規(guī)則分析[8]是指尋找兩個(gè)或多個(gè)變量取值之間存在的一類重要的可被發(fā)現(xiàn)的某種規(guī)律性.關(guān)聯(lián)規(guī)則通過(guò)計(jì)算支持度(Support)和置信度(Confidence)來(lái)確定關(guān)聯(lián)的重要性,具體計(jì)算方法如下
[support=NX,YN," " Confidence=NX,YNX,]
式中[NX,Y]代表事務(wù)[X]和[Y]同時(shí)出現(xiàn)的頻數(shù),[N]代表事務(wù)的總數(shù),[NX]代表事務(wù)[X]出現(xiàn)的頻數(shù).
隨機(jī)森林[9]算法是基于Bagging框架設(shè)計(jì)的一種集成分類算法,它以決策樹(shù)作為基分類器進(jìn)行集成,最終通過(guò)投票方式確定分類屬性,算法實(shí)現(xiàn)流程如圖4[10].
隨機(jī)森林算法可以結(jié)合決策樹(shù)的分枝過(guò)程和信息增益等指標(biāo)來(lái)評(píng)估特征的重要性,幫助確定哪些特征對(duì)于結(jié)果最為重要.例如,趙慶媛[11]等為了減少氣動(dòng)目標(biāo)識(shí)別微動(dòng)特征集的冗余,進(jìn)一步降低特征維度,引入隨機(jī)森林對(duì)多維微動(dòng)特征進(jìn)行重要性評(píng)估.本文研究薪資水平與就業(yè)因素相互影響的特征,屬于隨機(jī)森林算法的應(yīng)用范圍,因此選擇該算法.下文將展示相應(yīng)的數(shù)據(jù)分析結(jié)果,并給出相應(yīng)的分析結(jié)論.
3 結(jié)果與分析
3.1 生源地與就業(yè)地點(diǎn)分析
對(duì)2020屆至2022屆畢業(yè)生的就業(yè)地點(diǎn)與生源地進(jìn)行分析得到圖5的結(jié)果(圖5中antecedents列的(3)、(4)分別代表生源地在三、四線城市,consequents列的(1)代表就業(yè)地點(diǎn)在一線城市).
基于圖5與關(guān)聯(lián)規(guī)則分析的結(jié)果,生源地在三、四線城市的學(xué)生初次就業(yè)選擇到一線城市的置信度分別是0.606 383和0.573 529.置信度0.606 383意味著有60.6%生源地在三線城市的學(xué)生選擇初次就業(yè)地點(diǎn)在一線城市.這一發(fā)現(xiàn)表明,統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生有較大傾向選擇城市配套更好的一線城市作為初次就業(yè)的地點(diǎn),這也與一線城市就業(yè)機(jī)會(huì)更多有一定的關(guān)系.
對(duì)2020屆至2022屆畢業(yè)生的就業(yè)地點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到圖6.從圖6可以看出,統(tǒng)計(jì)學(xué)專業(yè)的畢業(yè)生無(wú)論男女,都有超過(guò)一半的人初次就業(yè)地點(diǎn)選擇在一線城市,在三、四線城市就業(yè)的畢業(yè)生則比較少.值得注意的是,女性選擇在三、四線城市就業(yè)的頻率為23.5%,這比男性在三、四線城市就業(yè)的頻率高8.2%.此次分析的195位畢業(yè)生中,有57人回到生源地就業(yè),其中男性20人,占總?cè)藬?shù)比10.3%;女性37人,占總?cè)藬?shù)比19.0%.可見(jiàn),統(tǒng)計(jì)學(xué)專業(yè)的女性相較于男性,生源地城市就業(yè)比例更高.這與朱紅霞[12]關(guān)于女性職業(yè)選擇的外部影響因素的研究結(jié)論相對(duì)應(yīng).
3.2 薪資影響因素分析
基于隨機(jī)森林算法對(duì)2020屆至2022屆畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行分析,得到圖7的結(jié)果.從圖7可以看出,學(xué)習(xí)成績(jī)對(duì)初次就業(yè)的薪資水平的影響程度最高.可見(jiàn),較好的學(xué)習(xí)成績(jī),初次就業(yè)有較大的可能性獲得比同專業(yè)的同學(xué)更高的薪資.其次,單位所屬行業(yè)、職業(yè)類型和單位類型對(duì)學(xué)生薪資水平也有一定的影響,而生源地、就業(yè)地點(diǎn)、畢業(yè)去向和性別對(duì)學(xué)生初次就業(yè)薪資水平的影響相對(duì)較?。挛膶⒒谶@個(gè)發(fā)現(xiàn),對(duì)成績(jī)、單位所屬行業(yè)、職業(yè)類型、單位類型這四個(gè)因素單獨(dú)展開(kāi)分析.
以加權(quán)績(jī)點(diǎn)、核心課程的加權(quán)績(jī)點(diǎn)(如:概率論與數(shù)理統(tǒng)計(jì),多元統(tǒng)計(jì)分析,時(shí)間序列分析)為自變量,初次就業(yè)薪資水平為因變量,給出不同績(jī)點(diǎn)區(qū)間學(xué)生初次就業(yè)的平均薪資水平,見(jiàn)圖8.
從圖8可以看出,學(xué)生在校時(shí)的學(xué)習(xí)成績(jī)與初次就業(yè)薪資之間呈現(xiàn)出明顯的正相關(guān)關(guān)系,二者間的相關(guān)系數(shù)為0.82.可見(jiàn)學(xué)習(xí)成績(jī)?cè)絻?yōu)異,初次就業(yè)的薪資水平會(huì)更高.此外,核心課程作為衡量本專業(yè)學(xué)生專業(yè)技能高低的指標(biāo),同樣也發(fā)現(xiàn)了類似的相關(guān)性.掌握核心課程所涵蓋的專業(yè)知識(shí)和相關(guān)技術(shù),對(duì)于提高畢業(yè)生就業(yè)競(jìng)爭(zhēng)力至關(guān)重要.因此,統(tǒng)計(jì)學(xué)專業(yè)的教師可以通過(guò)優(yōu)化核心課程的課程設(shè)計(jì),或者采用多樣化的教學(xué)方式,提高學(xué)生核心課程知識(shí)的掌握程度,以幫助學(xué)生打下堅(jiān)實(shí)的基礎(chǔ),從而提高本專業(yè)學(xué)生初次就業(yè)的競(jìng)爭(zhēng)力.
圖9展示了不同行業(yè)男女生平均薪資水平的情況.從圖9可以看出,不同行業(yè)下男女的平均薪資水平存在顯著差異.在軟件與信息技術(shù)服務(wù)業(yè)、服務(wù)業(yè)、運(yùn)輸業(yè)這三個(gè)行業(yè),男性的平均薪資水平會(huì)明顯高于女性的平均薪資水平.而在互聯(lián)網(wǎng)和相關(guān)服務(wù)業(yè)、科技推廣和應(yīng)用服務(wù)業(yè)、研究和試驗(yàn)發(fā)展這三個(gè)行業(yè)中,女性的平均薪資水平會(huì)遠(yuǎn)高于男性的平均薪資水平.另外,從事研究和試驗(yàn)發(fā)展行業(yè)的畢業(yè)生平均薪資水平最高,進(jìn)一步研究發(fā)現(xiàn),從事該行業(yè)的學(xué)生成績(jī)普遍較好且就業(yè)地點(diǎn)也集中在一線城市.該結(jié)論也符合現(xiàn)實(shí)生活的經(jīng)驗(yàn),即從事研究需要有較強(qiáng)的專業(yè)能力.
圖10展示了不同職業(yè)類型、不同單位類型男女的平均薪資條形圖.從平均工資折線圖可以看出,工程技術(shù)人員的薪資水平高于其它職業(yè)類型.進(jìn)一步分析發(fā)現(xiàn),從事該職業(yè)的學(xué)生就業(yè)地點(diǎn)都集中在一、二線城市.同時(shí),通過(guò)條形圖觀察發(fā)現(xiàn),公務(wù)員的男女薪資水平差異較大,但檢查數(shù)據(jù)后發(fā)現(xiàn),這三屆學(xué)生中考上公務(wù)員的男性只有1人且就業(yè)地點(diǎn)在一線城市.因此,圖10中男女公務(wù)員薪資水平存在差異這一結(jié)果,不具代表性.從圖10中可以觀察到,國(guó)有企業(yè)的薪資水平最高.教育業(yè)、國(guó)家機(jī)關(guān)類工作雖然工作穩(wěn)定,但是相較于其他行業(yè)的薪資水平顯得沒(méi)有優(yōu)勢(shì).
4 結(jié)論與建議
以韓山師范學(xué)院統(tǒng)計(jì)學(xué)專業(yè)2020屆至2022屆畢業(yè)生在校成績(jī)及初次就業(yè)信息為研究對(duì)象,使用python軟件,利用關(guān)聯(lián)規(guī)則分析、隨機(jī)森林算法等數(shù)據(jù)挖掘算法,從就業(yè)地點(diǎn)、學(xué)業(yè)成績(jī)、性別、職業(yè)類型、單位類型等方面進(jìn)行數(shù)據(jù)分析.結(jié)果表明,薪資水平與學(xué)業(yè)成績(jī),尤其是核心課程成績(jī)有明顯的正相關(guān)性.同時(shí)不論男女都傾向于一線城市就業(yè),尤其是生源地在三線城市、四線城市的學(xué)生.根據(jù)分析的結(jié)果,結(jié)合統(tǒng)計(jì)學(xué)專業(yè)學(xué)生的就業(yè)特點(diǎn),本文給出如下結(jié)論:
(1)統(tǒng)計(jì)學(xué)專業(yè)學(xué)生應(yīng)努力學(xué)習(xí)專業(yè)知識(shí),強(qiáng)化數(shù)學(xué)和統(tǒng)計(jì)基礎(chǔ),學(xué)好數(shù)據(jù)分析工具和編程語(yǔ)言,為就業(yè)打下扎實(shí)的專業(yè)基礎(chǔ).
(2)統(tǒng)計(jì)專業(yè)學(xué)生應(yīng)進(jìn)行自我定位,了解自己感興趣的領(lǐng)域,明確自己的目標(biāo),努力學(xué)好核心課程,提高核心專業(yè)技術(shù).女同學(xué)可以考慮從事教育或者研究和試驗(yàn)發(fā)展行業(yè),男同學(xué)可以考慮從事軟件與信息技術(shù)服務(wù)業(yè).
(3)學(xué)校及學(xué)院應(yīng)更加重視核心課的教學(xué)質(zhì)量,聘請(qǐng)高水平和有經(jīng)驗(yàn)的教師來(lái)講授核心課程,幫助學(xué)生更好地掌握核心課程.同時(shí),要注重培養(yǎng)學(xué)生的實(shí)踐動(dòng)手能力,讓學(xué)生能夠?qū)⒗碚撝R(shí)應(yīng)用于解決實(shí)際問(wèn)題上.
參考文獻(xiàn):
[1]呂奕虹,胡毓靖,岳華琳,等.理工類院校英語(yǔ)專業(yè)學(xué)生就業(yè)分析與建議——以中國(guó)地質(zhì)大學(xué)(北京)為例[J].就業(yè)與保障,2022(11):115-117.
[2]趙軍祥,凡文吉.廣西普通高校師范生就業(yè)問(wèn)題與對(duì)策——基于三所師范院校的調(diào)查分析[J].高教論壇,2020(10):82-85.
[3]李曉紅,王迪.大數(shù)據(jù)背景下會(huì)計(jì)專業(yè)大學(xué)生就業(yè)能力探討[J].中國(guó)管理信息化,2019,22(8):199-200.
[4]張婷.醫(yī)學(xué)生就業(yè)現(xiàn)狀研究及就業(yè)教育對(duì)策——以貴州醫(yī)科大學(xué)口腔醫(yī)學(xué)專業(yè)學(xué)生為例[J].開(kāi)封文化藝術(shù)職業(yè)學(xué)院學(xué)報(bào),2020,40(10):110-111.
[5]賈新嵐.法學(xué)專業(yè)畢業(yè)生就業(yè)質(zhì)量分析——以2017屆青海民族大學(xué)法學(xué)院畢業(yè)生為例[J].武漢冶金管理干部學(xué)院學(xué)報(bào),2019,29(1):64-66.
[6]祝長(zhǎng)華,吳映絢.韶關(guān)學(xué)院統(tǒng)計(jì)學(xué)專業(yè)就業(yè)現(xiàn)狀分析[J].韶關(guān)學(xué)院學(xué)報(bào),2017,38(8):35-38.
[7]百度百科.中國(guó)城市新分級(jí)名單[EB/OL].(2023-03-23)[2023-08-31].https://baike.baidu.com/item/中國(guó)城市新分級(jí)名單?fromModule=lemma_search-box#3_1.
[8](加)韓家煒·坎伯(Kamber,M.)數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)[M]范明,孟小鋒譯.北京:機(jī)械工業(yè)出版社,2012.
[9]魯偉.機(jī)器學(xué)習(xí)-公式推導(dǎo)與代碼實(shí)現(xiàn)(第1版)[M].北京:人民郵電出版社,2022.
[10]周佳寧,張潔,李天宏.基于MODIS影像和隨機(jī)森林算法的河北壩上林地動(dòng)態(tài)監(jiān)測(cè)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,54(4):792-800.
[11]趙慶媛,葉春茂,魯耀兵.基于隨機(jī)森林的微動(dòng)特征重要性評(píng)估研究[J].現(xiàn)代防御技術(shù),2022,50(4):124-131.
[12]朱紅霞.影響女性職業(yè)選擇的外部因素分析[J].生涯發(fā)展教育研究,2013(1):1-6.
Employment Analysis of College Students Based
on Data Mining Algorithm
——A Case Study of the Statistics Major of Hanshan Normal University
CHEN Shuo-quan1,ZHONG Yin-ting1,SHE Zi-run2,SHE Zi-hang1*
(1. College of Mathematics and Statistics,Hanshan Normal University,Chaozhou,Guangdong,521041;2. Faculty of Economics and Business Management,Vitebsk State Technological University,Vitebsk,Belarus,211322)
Abstract:To explore the employment situation of graduates,Python software was used to analyze data on 195 graduates in terms of university academic performance,employment location,and employment salary. The results show a correlation between the birth place and employment location,and students from third and fourth tier cities are more inclined to work in first tier cities. There is also a certain correlation between academic performance and employment salary. Higher academic performance often leads to better employment opportunities and higher salaries for graduates. Additionally,different types of units,industries,and occupations also have a certain impact on the initial employment salary of graduates,while the impact of initial employment locations,whereabouts after graduation,and gender on the employment salary level of students is relatively small.
Key words:random forest algorithm;association rules;Python;academic performance;salary
責(zé)任編輯 朱本華
韓山師范學(xué)院學(xué)報(bào)2024年3期