賀冰心 陳 恒
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)
基于大數(shù)據(jù)技術(shù)的高校就業(yè)預(yù)測平臺旨在通過收集、分析和利用大數(shù)據(jù),為學(xué)生、高校管理部門和用人單位提供準(zhǔn)確的就業(yè)預(yù)測和指導(dǎo)。該高校就業(yè)預(yù)測平臺的硬件部分采用先進的服務(wù)器和存儲設(shè)備。服務(wù)器選用型號Dell PowerEdge R740,搭載Intel Xeon Gold 6240處理器和128GB DDR4 ECC 內(nèi)存以及2TB NVMe SSD 存儲和千兆以太網(wǎng)接口,在Linux CentOS 7.0 操作系統(tǒng)中運行。存儲設(shè)備采用NetApp FAS8200,具有100TB 的存儲容量,結(jié)合固態(tài)硬盤(SSD)和機械硬盤(HDD)組合,采用RAID 6 級別保障數(shù)據(jù)安全。此外,平臺還使用云平臺服務(wù),選擇Amazon Web Services (AWS)作為云服務(wù)提供商,通過Amazon EC2虛擬機實例(c5.4xlarge)提供4 個vCPU 和16GB RAM 的計算資源以及100GB SSD 存儲。這些硬件設(shè)備的選擇旨在提供高性能和可靠性,以支持大規(guī)模數(shù)據(jù)處理和并發(fā)請求的需求。就業(yè)預(yù)測平臺架構(gòu)圖如圖1 所示。
圖1 高校就業(yè)大數(shù)據(jù)預(yù)測平臺架構(gòu)圖
除硬件設(shè)計外,平臺中包括數(shù)據(jù)采集與預(yù)處理模塊、特征選擇及新特征的構(gòu)建、預(yù)測模型構(gòu)建與訓(xùn)練模塊等多個模塊。數(shù)據(jù)采集模塊負(fù)責(zé)獲取高校就業(yè)相關(guān)數(shù)據(jù),然后通過數(shù)據(jù)清洗等方式進行預(yù)處理,保證數(shù)據(jù)的質(zhì)量和一致性,對數(shù)據(jù)進行分析與挖掘等獲取數(shù)據(jù)特征及關(guān)聯(lián)規(guī)則,然后構(gòu)建預(yù)測模型與訓(xùn)練模塊建立高校就業(yè)的預(yù)測平臺。平臺中各組件和模塊協(xié)同工作,為高校提供基于大數(shù)據(jù)的就業(yè)趨勢分析和預(yù)測服務(wù)。
數(shù)據(jù)采集和清洗是構(gòu)建基于大數(shù)據(jù)技術(shù)的高校就業(yè)預(yù)測平臺中的重要環(huán)節(jié)[1]。基于大數(shù)據(jù)的高校就業(yè)預(yù)測平臺的數(shù)據(jù)源包括政府就業(yè)統(tǒng)計報告、招聘網(wǎng)站數(shù)據(jù)和高校就業(yè)服務(wù)中心數(shù)據(jù)。一方面,利用爬蟲程序自動從網(wǎng)頁中提取所需數(shù)據(jù)。通過指定網(wǎng)頁的URL、解析HTML 內(nèi)容、提取數(shù)據(jù)等步驟實現(xiàn)數(shù)據(jù)采集。另一方面,訪問提供數(shù)據(jù)的API 接口,通過認(rèn)證、授權(quán)等方式獲取訪問權(quán)限,然后使用API 的請求方式獲取數(shù)據(jù)。數(shù)據(jù)采集完成后進行數(shù)據(jù)清洗等預(yù)處理工作,在該環(huán)節(jié)去除重復(fù)數(shù)據(jù)、處理缺失值和異常值,將數(shù)據(jù)轉(zhuǎn)換為合適的格式,以便于后續(xù)特征選擇和建模。數(shù)據(jù)清洗的步驟如下。
對數(shù)據(jù)集中的重復(fù)數(shù)據(jù)進行識別和刪除,保證數(shù)據(jù)集中的每條記錄都是唯一的,以避免重復(fù)數(shù)據(jù)對分析結(jié)果的干擾,從而提供準(zhǔn)確的就業(yè)數(shù)據(jù)用于后續(xù)分析和建模。
使用均值、中位數(shù)或眾數(shù)來填充缺失值,均值Mean和標(biāo)準(zhǔn)差StandardDeviation的計算如公式(1)、公式(2)所示。
式中:∑x為所有觀測值的總和;n為觀測值的數(shù)量。
式中:x為觀測值;μ為均值。對就業(yè)數(shù)據(jù)進行統(tǒng)計,獲取每個屬性的均值和標(biāo)準(zhǔn)差,并將缺失值替換為相應(yīng)的統(tǒng)計指標(biāo)值,從而補全缺失的信息,提供高質(zhì)量的就業(yè)數(shù)據(jù),為后續(xù)的數(shù)據(jù)分析、挖掘和預(yù)測模型構(gòu)建提供可靠的數(shù)據(jù)基礎(chǔ)。
使用箱線圖識別數(shù)據(jù)中的異常值,箱線圖通過繪制數(shù)據(jù)的五數(shù)概括(最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大值)以及異常值的范圍來可視化數(shù)據(jù)的分布情況,根據(jù)上下四分位數(shù)和離群點的定義,計算四分位數(shù)和離群點的范圍,上下四分位距的計算如公式(3)所示。
式中:Q1為下四分位數(shù);Q3為上四分位數(shù)。
異常值的上限(Upperfence)和下限(Lowerfence)計算如公式(4)所示。
式中:k為異常值的判斷倍數(shù),通常取1.5 或3。通過比較數(shù)據(jù)與異常值范圍,可以判斷是否存在異常值,以進行刪除異常值或使用合理的替代值進行填充等處理。
經(jīng)過上述操作可消除數(shù)據(jù)中的噪聲和不完整性,從而得到高質(zhì)量的數(shù)據(jù)集,為預(yù)測模型提供更可靠的輸入,提高預(yù)測結(jié)果的準(zhǔn)確性和可靠性,從而提高整個平臺的性能和效果。
特征選擇是基于大數(shù)據(jù)技術(shù)的高校就業(yè)預(yù)測平臺中的關(guān)鍵步驟之一,旨在從眾多特征中選擇與目標(biāo)變量最相關(guān)的特征,以提高預(yù)測模型的準(zhǔn)確性和效果[2]?;诖髷?shù)據(jù)技術(shù)的高校就業(yè)預(yù)測平臺中,使用相關(guān)性分析和主成分分析法選擇最相關(guān)的特征。相關(guān)性分析如公式(5)所示。
式中:x和y分別為2 個特征;n為樣本數(shù)量。相關(guān)系數(shù)的取值范圍為-1~1,正值為正相關(guān),負(fù)值為負(fù)相關(guān),而接近0 的值為無相關(guān)性。通過計算特征之間的協(xié)方差來度量每對特征之間的線性關(guān)系,并應(yīng)用最小-最大歸一化方法進行歸一化處理,將特征的取值范圍線性映射到[0, 1]的指定區(qū)間內(nèi),消除不同特征之間的量綱差異,以選擇與目標(biāo)變量相關(guān)性較高的特征,如公式(6)所示。
式中:x為原始特征的取值;x'為歸一化后的特征取值。最小-最大歸一化將特征的取值映射到0~1,保留了原始數(shù)據(jù)的分布形態(tài),適用于大部分特征值分布較為集中的情況。然后對特征進行均值和標(biāo)準(zhǔn)差的轉(zhuǎn)換,使特征的取值符合標(biāo)準(zhǔn)正態(tài)分布(均值為0,標(biāo)準(zhǔn)差為1)。計算如公式(7)所示。
式中:mean(x)為特征的均值;std為特征的標(biāo)準(zhǔn)差。通過標(biāo)準(zhǔn)化處理,消除特征間的量綱差異,使模型的訓(xùn)練更穩(wěn)定。
高校就業(yè)預(yù)測涉及眾多特征,例如學(xué)生的個人信息、學(xué)業(yè)成績、實習(xí)經(jīng)驗和專業(yè)領(lǐng)域等。這些特征的數(shù)量龐大且復(fù)雜,其中可能存在冗余、無效或噪聲特征。通過特征提取可以從中挖掘更具預(yù)測能力的特征,以減少維度災(zāi)難和信息冗余,提高模型的泛化能力,提升預(yù)測的準(zhǔn)確性和實用性。
高校就業(yè)市場的變化和趨勢對學(xué)生和高校就業(yè)服務(wù)機構(gòu)具有重要意義。就業(yè)趨勢分析與建模階段旨在通過分析歷史就業(yè)數(shù)據(jù)和相關(guān)指標(biāo),探索就業(yè)市場的發(fā)展趨勢,并構(gòu)建就業(yè)情況預(yù)測模型,預(yù)測高校學(xué)生的未來就業(yè)情況。
首先,使用小二乘法(OLS)構(gòu)建線性回歸模型進行數(shù)據(jù)分析,預(yù)測學(xué)生的就業(yè)情況和薪資水平。假設(shè)目標(biāo)變量與特征變量之間存在線性關(guān)系,通過擬合一條最佳擬合直線來預(yù)測目標(biāo)變量。線性回歸模型如公式(8)所示。
式中:Y為目標(biāo)變量(如薪資水平);X1、X2、...、Xn為特征變量;β0、β1、β2、...、βn為模型參數(shù)。其次,通過最小化預(yù)測值與實際觀測值之間的殘差平方和,估計模型參數(shù)。使用最小二乘法,利用蟻群算法求解最佳的模型參數(shù)值,使模型與觀測數(shù)據(jù)之間的差異最小化,實現(xiàn)建模,如圖2 所示。
圖2 基于大數(shù)據(jù)技術(shù)的高校畢業(yè)生就業(yè)預(yù)測過程
完成建模后,進行模型評估判斷模型的性能和準(zhǔn)確度。該平臺將均方誤差(Mean Squared Error,MSE)、決定系數(shù)(R-squared)作為模型評估指標(biāo)。MSE 衡量模型預(yù)測值與實際觀測值之間的平均平方差,計算如公式(9)所示。
式中:n為樣本數(shù)量;y_pred為模型預(yù)測的值;y_actral為實際觀測的值。MSE的值越小,為模型的預(yù)測結(jié)果與實際觀測值越接近,模型的預(yù)測性能越好。MSE的優(yōu)點是對誤差的較大值給予較高的懲罰,因此對異常值和離群點比較敏感。
決定系數(shù)衡量了模型對觀測數(shù)據(jù)變異性的解釋程度,為模型能夠解釋因變量的變異程度的比例。計算如公式(10)所示。
式中:SS_res為回歸模型的殘差平方和;SS_total為總平方和。決定系數(shù)的取值范圍在0~1,越接近1 說明模型對觀測數(shù)據(jù)的解釋能力越強,模型的預(yù)測準(zhǔn)確度越高。然后使用訓(xùn)練好的模型,輸入學(xué)生就業(yè)的特征數(shù)據(jù),進行就業(yè)情況和薪資水平的預(yù)測,根據(jù)預(yù)測結(jié)果,進行就業(yè)趨勢分析,探索學(xué)生就業(yè)市場的變化趨勢和影響因素。
為驗證基于大數(shù)據(jù)技術(shù)的高校就業(yè)預(yù)測平臺的性能和準(zhǔn)確度,該文設(shè)計平臺測試試驗。試驗?zāi)康氖窃u估構(gòu)建的預(yù)測模型在實際應(yīng)用中的表現(xiàn),并發(fā)現(xiàn)模型的局限性、比較不同模型的性能,為模型的優(yōu)化和改進提供指導(dǎo)。
5.1.1 服務(wù)器
使用1臺高性能的服務(wù)器,型號為Dell PowerEdge R740,配置為2 個英特爾至強(Intel Xeon)Gold 6240處理器;每個處理器具有18 個核心和36 個線程,以支持高性能的數(shù)據(jù)處理和并行計算;服務(wù)器內(nèi)存為128GB ECC DDR4 RAM,具備高速的數(shù)據(jù)處理和并發(fā)計算能力。
5.1.2 存儲設(shè)備
使用高速的企業(yè)級固態(tài)硬盤作為存儲設(shè)備,型號為Samsung PM983,容量為2TB,具備高速的讀寫性能和可靠的數(shù)據(jù)存儲能力。
5.1.3 網(wǎng)絡(luò)設(shè)備
使用高速以太網(wǎng)接口和網(wǎng)絡(luò)交換機,以提供穩(wěn)定和高帶寬的網(wǎng)絡(luò)連接。
5.1.4 數(shù)據(jù)源
收集具有代表性的高校就業(yè)數(shù)據(jù),包括學(xué)校、專業(yè)、就業(yè)行業(yè)、職位以及薪資等信息。
5.2.1 數(shù)據(jù)預(yù)處理
對收集的高校就業(yè)數(shù)據(jù)進行清洗,去除重復(fù)項和缺失值,并處理異常值,進行數(shù)據(jù)轉(zhuǎn)換和歸一化,以保證數(shù)據(jù)的統(tǒng)一性和可比性。
5.2.2 劃分訓(xùn)練集和測試集
采用隨機抽樣的方式,將收集的數(shù)據(jù)按照一定比例劃分為訓(xùn)練集和測試集,將70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測試集。劃分過程需要保證數(shù)據(jù)的隨機性和代表性,以確保試驗結(jié)果的可靠性和泛化能力。
5.2.3 設(shè)置不同的測試條件評估高校就業(yè)預(yù)測平臺的性能和效果
使用不同規(guī)模的數(shù)據(jù)集進行測試,例如小型數(shù)據(jù)集和大型數(shù)據(jù)集,評估平臺在不同數(shù)據(jù)規(guī)模下的處理能力和預(yù)測準(zhǔn)確度。使用不同的特征選擇方法,如相關(guān)性分析和主成分分析方法,選擇最相關(guān)的特征用于預(yù)測模型的訓(xùn)練,比較不同方法對預(yù)測準(zhǔn)確度的影響。應(yīng)用不同的數(shù)據(jù)預(yù)處理方法,例如標(biāo)準(zhǔn)化處理和缺失值處理,確定最佳的數(shù)據(jù)預(yù)處理策略,提高預(yù)測模型的性能。使用不同的預(yù)測模型算法,例如決策樹和邏輯回歸算法比較其在平臺的表現(xiàn)和預(yù)測準(zhǔn)確度。
5.2.4 使用測試集對訓(xùn)練好的模型進行評估,計算各項評估指標(biāo)
試驗評估指標(biāo)包括準(zhǔn)確率、召回率、F1值和AUC-ROC值。準(zhǔn)確率計算如公式(11)所示。
召回率(Recall)用于衡量模型對正例的識別能力,計算如公式(12)所示。
式中:TP為真正例(預(yù)測為正例且實際為正例)的數(shù)量;TN為真反例(預(yù)測為反例且實際為反例)的數(shù)量;EP為假正例(預(yù)測為正例但實際為反例)的數(shù)量;FN為假反例(預(yù)測為反例但實際為正例)的數(shù)量。
F1值(F1-score)綜合了準(zhǔn)確率和召回率,通過計算準(zhǔn)確率和召回率的調(diào)和平均值來評估模型性能,計算公式為F1值= 2×(準(zhǔn)確率×召回率)/ (準(zhǔn)確率+召回率)。AUC-ROC值是根據(jù)模型的預(yù)測結(jié)果和真實結(jié)果繪制的ROC曲線下的面積,用于評估模型的分類能力,越接近1 說明模型的性能越好。
經(jīng)過平臺運行試驗可以深入了解預(yù)測模型的優(yōu)勢、局限性以及適用范圍,試驗結(jié)果見表1。
表1 平臺測試結(jié)果
由表1 可知,對小型數(shù)據(jù)集,平臺展現(xiàn)了較高的準(zhǔn)確率、召回率、F1值和AUC值。隨著數(shù)據(jù)集增大,性能指標(biāo)逐漸提升,表明平臺能夠處理更大規(guī)模的數(shù)據(jù),并提供更準(zhǔn)確的預(yù)測。不同特征選擇方法的結(jié)果良好,證明平臺對不同方法的適配度較高,標(biāo)準(zhǔn)化和歸一化在準(zhǔn)確率、召回率、F1值和AUC值上表現(xiàn)相似,都能夠提高平臺的預(yù)測性能,并提高對不同特征取值范圍的適應(yīng)能力,缺失值處理對平臺性能的影響相對較小。平臺在處理包括缺失值的數(shù)據(jù)過程中,依然能夠保持穩(wěn)定的性能,說明平臺具有一定的容錯能力和魯棒性。最后,不同算法的選擇均具有出色的表現(xiàn)。高校就業(yè)預(yù)測平臺能夠基于多種算法提供提供穩(wěn)定且可靠的預(yù)測結(jié)果。綜上所述,平臺能夠根據(jù)數(shù)據(jù)集大小、特征選擇方法、預(yù)處理方法和算法選擇等條件的變化,提供可靠且準(zhǔn)確的預(yù)測結(jié)果,展現(xiàn)了較高的魯棒性,說明高校就業(yè)預(yù)測平臺在不同條件下均具有穩(wěn)定性和適應(yīng)性。
綜上所述,該文基于大數(shù)據(jù)技術(shù)構(gòu)建高校就業(yè)預(yù)測平臺。在設(shè)計和實現(xiàn)過程中,通過數(shù)據(jù)采集、清洗和提取特征,保證使用的數(shù)據(jù)質(zhì)量高并準(zhǔn)確;應(yīng)用機器學(xué)習(xí)算法建立預(yù)測模型,并通過準(zhǔn)確率、召回率、F1值和AUC-ROC值等指標(biāo)來評估模型的性能。試驗結(jié)果表明,平臺能夠提供可靠、準(zhǔn)確地預(yù)測和分析結(jié)果。能夠幫助畢業(yè)生了解就業(yè)市場的趨勢。然而,平臺的發(fā)展仍面臨數(shù)據(jù)的獲取和更新、模型的優(yōu)化和更新等挑戰(zhàn)。未來的工作須進一步完善和優(yōu)化平臺,提高預(yù)測和分析的精度和實用性,增加更多的數(shù)據(jù)源和特征,提供更全面和智能化的功能,以滿足用戶的需求和期望,為高校畢業(yè)生的就業(yè)規(guī)劃和職業(yè)發(fā)展提供有力支持。