賀冰心
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)
隨著社會(huì)不斷發(fā)展和就業(yè)競(jìng)爭(zhēng)加劇,大學(xué)生就業(yè)問(wèn)題日益凸顯[1]。大學(xué)生們面臨龐大的就業(yè)市場(chǎng)和復(fù)雜的職業(yè)選擇,往往很難準(zhǔn)確把握個(gè)人的職業(yè)發(fā)展方向,從而導(dǎo)致就業(yè)匹配度和就業(yè)成功率較低[2]。針對(duì)該問(wèn)題,該文設(shè)計(jì)了基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)。畫像技術(shù)作為一種綜合利用個(gè)人特征和行為數(shù)據(jù)的分析方法,有助于深入了解用戶的需求、興趣、技能和價(jià)值觀等個(gè)人特征,從而提供個(gè)性化的推薦服務(wù)。在大學(xué)生就業(yè)領(lǐng)域,利用畫像技術(shù)進(jìn)行個(gè)性化推薦可以為大學(xué)生提供精準(zhǔn)的就業(yè)資源推薦,幫助他們更好地適應(yīng)職場(chǎng)需求,提高就業(yè)競(jìng)爭(zhēng)力[3]。該文旨在設(shè)計(jì)一種基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng),以解決大學(xué)生就業(yè)過(guò)程中的問(wèn)題。該系統(tǒng)將利用大學(xué)生的個(gè)人畫像信息,包括學(xué)歷、專業(yè)、技能以及興趣愛(ài)好等,通過(guò)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法建立個(gè)人畫像模型。然后,基于該模型,系統(tǒng)將有針對(duì)性地為每個(gè)大學(xué)生提供就業(yè)資源,幫助其找到與個(gè)人特征匹配的職位機(jī)會(huì)。該系統(tǒng)可以為大學(xué)生就業(yè)資源的個(gè)性化推薦提供一種有效的解決方案,有助于大學(xué)生更好地應(yīng)對(duì)就業(yè)挑戰(zhàn),提高就業(yè)成功率。
基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)的總框架設(shè)計(jì)可以劃分為數(shù)據(jù)層、服務(wù)層和應(yīng)用層,具體如圖1所示。
圖1 系統(tǒng)總框架
數(shù)據(jù)層主要負(fù)責(zé)采集、存儲(chǔ)和管理數(shù)據(jù),收集大學(xué)生的個(gè)人信息、求職意向、期望以及就業(yè)資源等相關(guān)信息,例如公司招聘信息、崗位需求等。將采集的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中,確保數(shù)據(jù)的安全性和可用性。對(duì)數(shù)據(jù)進(jìn)行清洗、預(yù)處理和標(biāo)注,以便進(jìn)行建模和分析。
服務(wù)層是系統(tǒng)的核心組成部分,主要負(fù)責(zé)數(shù)據(jù)處理、建模和推薦服務(wù),基于收集的大學(xué)生個(gè)人信息構(gòu)建個(gè)人畫像模型,例如使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)對(duì)個(gè)人畫像進(jìn)行表示和建模。從收集的就業(yè)資源中提取相關(guān)特征,例如公司規(guī)模、行業(yè)類型以及職位描述等,可以使用自然語(yǔ)言處理技術(shù)進(jìn)行文本分析和特征提取?;诖髮W(xué)生個(gè)人畫像和就業(yè)資源特征構(gòu)建推薦模型,可以使用協(xié)同過(guò)濾、內(nèi)容過(guò)濾以及深度學(xué)習(xí)等推薦算法實(shí)現(xiàn)個(gè)性化的推薦服務(wù)[4]。使用歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練,并通過(guò)評(píng)估和優(yōu)化模型來(lái)提高推薦效果和準(zhǔn)確性。
應(yīng)用層是用戶與系統(tǒng)進(jìn)行交互的接口,可以提供用戶友好的界面和功能,用戶可以填寫個(gè)人信息、修改和管理個(gè)人信息、求職意向以及期望。用戶還可以瀏覽系統(tǒng)收集的就業(yè)資源信息,例如公司招聘信息、崗位需求等。根據(jù)用戶的個(gè)人畫像和就業(yè)資源特征,系統(tǒng)推薦符合用戶需求的就業(yè)資源,包括推薦列表、推薦排序等[5]。用戶可以對(duì)推薦結(jié)果進(jìn)行反饋和評(píng)價(jià),系統(tǒng)可以利用用戶反饋數(shù)據(jù)對(duì)推薦模型進(jìn)行優(yōu)化。
數(shù)據(jù)層是基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)的基礎(chǔ)層,負(fù)責(zé)采集、存儲(chǔ)和管理數(shù)據(jù)。數(shù)據(jù)采集通過(guò)線上問(wèn)卷調(diào)查的方式收集大學(xué)生的個(gè)人信息,例如年齡、性別、專業(yè)以及學(xué)歷等基本信息;收集大學(xué)生的求職意向和期望,例如行業(yè)、職位以及薪資等;收集就業(yè)資源的相關(guān)信息,例如公司招聘信息、崗位需求以及薪資水平等。
將采集的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中,保障數(shù)據(jù)安全。采用 MySQL 關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù),根據(jù)需求選擇合適的數(shù)據(jù)存儲(chǔ)方案。在數(shù)據(jù)管理過(guò)程中,需要先對(duì)采集的數(shù)據(jù)進(jìn)行清洗,處理缺失值、異常值等問(wèn)題,使用均值、中位數(shù)以及眾數(shù)等統(tǒng)計(jì)量填充缺失值,刪除包括缺失值的數(shù)據(jù)行或數(shù)據(jù)列,保證數(shù)據(jù)的質(zhì)量和一致性。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括特征縮放、標(biāo)準(zhǔn)化以及離散化等操作,以提高后續(xù)分析和建模的效果。將特征值線性映射到指定范圍進(jìn)行特征縮放,最小-最大縮放公式如公式(1)所示。
式中:x為原始特征值;min為特征值的最小值;max為特征值的最大值;xscaled為縮放后的特征值。
對(duì)特征值進(jìn)行標(biāo)準(zhǔn)化處理,如公式(2)所示。
式中:mean為特征值的平均值(均值);std為特征值的標(biāo)準(zhǔn)差;xstand為經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的特征值。
在完成一系列預(yù)處理后,對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,給數(shù)據(jù)添加標(biāo)簽或類別,方便后續(xù)的推薦和分類分析。
服務(wù)層是基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)的核心部分,負(fù)責(zé)數(shù)據(jù)處理、建模和推薦服務(wù),個(gè)人畫像建模流程如圖2所示。
圖2 個(gè)人畫像建模
由圖2可知,對(duì)采集的個(gè)人信息進(jìn)行處理,例如特征縮放、標(biāo)準(zhǔn)化以及編碼等,根據(jù)個(gè)人信息提取有代表性的特征,例如年齡、性別以及專業(yè)相關(guān)性等,將個(gè)人信息轉(zhuǎn)化為可供模型使用的特征向量或特征矩陣,使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù),將個(gè)人信息映射到1個(gè)表示個(gè)人畫像的模型中。均方誤差(Mean Squared Error,MSE)計(jì)算預(yù)測(cè)值與實(shí)際值間的平方差的平均值,如公式(3)所示。
式中:n為樣本數(shù)量;ypred,i為第i個(gè)樣本的預(yù)測(cè)值;yactual,i為第i個(gè)樣本的實(shí)際值。
服務(wù)層可以對(duì)收集的就業(yè)資源信息進(jìn)行處理,從而提取就業(yè)資源特征,例如文本清洗、分詞以及去除停用詞等。使用詞袋模型、TF-IDF以及詞嵌入自然語(yǔ)言處理技術(shù)將就業(yè)資源文本轉(zhuǎn)化為數(shù)值特征。根據(jù)就業(yè)資源的其他屬性,例如公司規(guī)模、行業(yè)類型等,提取相關(guān)特征,將就業(yè)資源的特征轉(zhuǎn)化為可供模型使用的特征向量或特征矩陣。構(gòu)建推薦模型需要將個(gè)人畫像特征和就業(yè)資源特征組合成訓(xùn)練樣本或特征矩陣。根據(jù)具體需求和數(shù)據(jù)特點(diǎn),使用歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練,通過(guò)優(yōu)化算法、損失函數(shù)等使模型可以學(xué)習(xí)個(gè)性化推薦規(guī)則。使用評(píng)估指標(biāo)(例如準(zhǔn)確率、召回率以及F1值(F1值是綜合評(píng)估分類模型性能的指標(biāo),它結(jié)合了精確率(Precision)和召回率(Recall))等)對(duì)模型進(jìn)行評(píng)估,并根據(jù)評(píng)估結(jié)果進(jìn)行模型優(yōu)化。準(zhǔn)確率Accuracy如公式(4)所示。
式中:TP為真正例(True Positive)的數(shù)量;TN為真負(fù)例(True Negative)的數(shù)量;FP為假正例(Positive)的數(shù)量;FN為假負(fù)例(Negative)的數(shù)量。
召回率Recall如公式(5)所示。
召回率可以衡量模型對(duì)正例樣本的查全率,即模型能夠正確識(shí)別多少實(shí)際正例樣本,召回率較高表示模型能夠較好地捕捉正例樣本,減少漏識(shí)別的情況。F1值(F1-score)綜合考慮了模型的精確率(Precision)和召回率(Recall),是精確率和召回率的調(diào)和平均,F(xiàn)1如公式(6)所示。
式中:Precision為精確率。
綜合使用準(zhǔn)確率、召回率和F1值可以更全面地評(píng)估模型的性能,并根據(jù)評(píng)估結(jié)果進(jìn)行模型優(yōu)化、參數(shù)調(diào)整或特征工程等操作,以提高模型的性能和適應(yīng)實(shí)際應(yīng)用需求。
應(yīng)用層是基于個(gè)性化推薦系統(tǒng)的最上層,它負(fù)責(zé)根據(jù)數(shù)據(jù)層和服務(wù)層提供的結(jié)果為用戶提供個(gè)性化的就業(yè)資源推薦和相應(yīng)的應(yīng)用功能,具體流程如圖3所示。
圖3 應(yīng)用層工作流程
應(yīng)用層通過(guò)與用戶交互、用戶注冊(cè)、問(wèn)卷調(diào)查以及用戶行為分析等方式獲取用戶的個(gè)人信息、興趣偏好以及職業(yè)意向等需求信息?;谟脩粜枨蠛头?wù)層提供的推薦結(jié)果,應(yīng)用層使用推薦算法將最相關(guān)和合適的就業(yè)資源推薦給用戶,通過(guò)計(jì)算用戶間的相似度找到相似興趣的用戶,用戶間的相似度計(jì)算如公式(7)所示。
式中:rui為用戶u對(duì)項(xiàng)目i的評(píng)分;I為項(xiàng)目集合;rvi為用戶v對(duì)項(xiàng)目i的評(píng)分。
應(yīng)用層可以以列表形式、卡片形式或其他方式將個(gè)性化推薦的結(jié)果呈現(xiàn)給用戶。用戶通過(guò)界面交互與推薦結(jié)果進(jìn)行互動(dòng),標(biāo)記喜歡或不喜歡的資源,提供反饋和評(píng)價(jià)等。應(yīng)用層收集用戶的反饋信息,包括用戶的評(píng)分、點(diǎn)擊行為以及評(píng)論等,從而改進(jìn)推薦算法、優(yōu)化模型和提高個(gè)性化推薦效果。
為了測(cè)試基于畫像技術(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)是否運(yùn)行流暢,試驗(yàn)使用1臺(tái)配置高性能的Dell XPS 15計(jì)算機(jī),該計(jì)算機(jī)配備Intel Corei7或更高級(jí)別的處理器、16GB或更大容量的內(nèi)存以及大容量的固態(tài)硬盤(SSD)。存儲(chǔ)設(shè)備選擇高容量且可靠的西部數(shù)據(jù)(Western Digital)My Passport外置移動(dòng)硬盤,容量為2 TB或更大。GPU加速器選擇NVIDIA GeForce RTX 3070,這些顯卡具有強(qiáng)大的計(jì)算能力和高速的顯存,可以滿足深度學(xué)習(xí)在系統(tǒng)中的運(yùn)作需求。上述設(shè)備將為試驗(yàn)提供足夠的計(jì)算資源和存儲(chǔ)空間,以確保系統(tǒng)的高效性能和穩(wěn)定運(yùn)行。試驗(yàn)選擇包括100個(gè)大學(xué)生個(gè)人信息、1 000個(gè)職位需求信息和10 000個(gè)求職歷史記錄的真實(shí)數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。從數(shù)據(jù)集中隨機(jī)選擇200個(gè)大學(xué)生用戶進(jìn)行測(cè)試,確保樣本的多樣性和代表性,將200個(gè)用戶分為4個(gè)試驗(yàn)組,一組50個(gè)人,以平均數(shù)據(jù)作為試驗(yàn)結(jié)果。
3.2.1 響應(yīng)時(shí)間
在系統(tǒng)性能測(cè)試中,響應(yīng)時(shí)間為系統(tǒng)處理用戶請(qǐng)求的平均時(shí)間(單位為ms),該系統(tǒng)的響應(yīng)時(shí)間測(cè)試數(shù)據(jù)見(jiàn)表1。
表1 測(cè)試響應(yīng)時(shí)間
通過(guò)對(duì)比不同試驗(yàn)組的數(shù)據(jù)可以評(píng)估系統(tǒng)在不同條件下的響應(yīng)速度,平均響應(yīng)時(shí)間、最長(zhǎng)響應(yīng)時(shí)間較短意味系統(tǒng)能夠快速處理用戶請(qǐng)求,為用戶提供及時(shí)響應(yīng)?;诋嬒窦夹g(shù)的大學(xué)生就業(yè)資源個(gè)性化推薦系統(tǒng)在不同試驗(yàn)組下具有較短的響應(yīng)時(shí)間,因此可以快速處理用戶請(qǐng)求。
3.2.2 推薦準(zhǔn)確度
系統(tǒng)根據(jù)用戶畫像推薦的就業(yè)資源與用戶實(shí)際需求的匹配程度,使用準(zhǔn)確率、召回率和F1值進(jìn)行推薦準(zhǔn)確度評(píng)估,具體數(shù)據(jù)見(jiàn)表2。
表2 推薦準(zhǔn)確度
由表2可知,不同試驗(yàn)組的準(zhǔn)確率為0.80~0.87,準(zhǔn)確率較高表示系統(tǒng)能夠準(zhǔn)確地推薦與用戶畫像匹配的就業(yè)資源,用戶找到滿意職位的概率更高。召回率為0.75~0.81,召回率較高表示系統(tǒng)能夠涵蓋更多與用戶畫像匹配的就業(yè)資源,可以提高用戶獲取多樣化就業(yè)機(jī)會(huì)的可能性。不同試驗(yàn)組的F1值在0.80左右,F(xiàn)1值較高表示系統(tǒng)能夠在準(zhǔn)確率和召回率間取得平衡,同時(shí)兼顧推薦準(zhǔn)確度和覆蓋率,F(xiàn)1值提高意味系統(tǒng)能夠在個(gè)性化推薦中實(shí)現(xiàn)更好的平衡效果,提供更全面、更準(zhǔn)確的推薦結(jié)果。因此,系統(tǒng)在不同試驗(yàn)組下均展現(xiàn)了較高的推薦準(zhǔn)確度,能夠準(zhǔn)確地根據(jù)用戶的畫像進(jìn)行個(gè)性化的就業(yè)資源推薦。
通過(guò)分析和挖掘大學(xué)生的個(gè)人畫像信息,該系統(tǒng)能夠?yàn)槠涮峁┚珳?zhǔn)、個(gè)性化的就業(yè)資源推薦。系統(tǒng)通過(guò)數(shù)據(jù)層、服務(wù)層和應(yīng)用層的架構(gòu),結(jié)合特征工程、推薦算法和深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)了對(duì)大學(xué)生進(jìn)行畫像分析和就業(yè)推薦的功能。經(jīng)過(guò)試驗(yàn)驗(yàn)證,該系統(tǒng)性能較高,大學(xué)生可以通過(guò)該系統(tǒng)更高效地獲取符合自身需求的就業(yè)資源,提高就業(yè)匹配度和就業(yè)成功率。未來(lái),將進(jìn)一步提高系統(tǒng)的算法模型和數(shù)據(jù)挖掘能力,提高系統(tǒng)的推薦精度和效果,考慮引入用戶反饋機(jī)制,進(jìn)一步優(yōu)化個(gè)性化推薦過(guò)程,提供更準(zhǔn)確、更貼近用戶需求的推薦結(jié)果。