劉西祥
摘要:分析了傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法和改進(jìn)的基于用戶的協(xié)同過濾推薦算法的算法思想和算法步驟,并對(duì)2種推薦算法在高職院校就業(yè)推薦系統(tǒng)中的應(yīng)用結(jié)果進(jìn)行了對(duì)比,證實(shí)了改進(jìn)的基于用戶的協(xié)同過濾推薦算法更適用于高職院校就業(yè)推薦系統(tǒng),提高了相似學(xué)生推薦的準(zhǔn)確性,推薦的結(jié)果也更加符合實(shí)際。
關(guān)鍵詞:協(xié)同過濾推薦算法;就業(yè)推薦系統(tǒng);聚類分析
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2020)23-68-4
0引言
就業(yè)推薦系統(tǒng)的推薦算法是整個(gè)推薦系統(tǒng)中最核心、最關(guān)鍵的部分,目前關(guān)于就業(yè)推薦系統(tǒng)的算法研究主要有:吳迪的基于經(jīng)驗(yàn)公式的算法、魏麗芹的基于歷史信息的就業(yè)推薦算法、陳玉峰的ID3算法以及基于內(nèi)容和Item-based協(xié)同過濾的組合推薦算法等,他們研究的對(duì)象一般比較廣泛,采用的算法也比較傳統(tǒng),不適用高職院校就業(yè)推薦工作。本文采用基于用戶的協(xié)同過濾推薦算法(學(xué)生當(dāng)作用戶,就業(yè)單位當(dāng)作項(xiàng)目)來進(jìn)行就業(yè)推薦。首先根據(jù)所有學(xué)生(含往屆畢業(yè)學(xué)生和應(yīng)屆畢業(yè)學(xué)生)對(duì)就業(yè)單位簽約情況、感興趣程度,發(fā)現(xiàn)與應(yīng)屆畢業(yè)學(xué)生對(duì)就業(yè)單位興趣度相似的往屆畢業(yè)學(xué)生最相鄰學(xué)生,然后根據(jù)該相鄰的往屆畢業(yè)學(xué)生的簽約情況,為該應(yīng)屆畢業(yè)學(xué)生推薦就業(yè)單位,實(shí)現(xiàn)就業(yè)推薦功能。
1傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法
1.1相似度計(jì)算
查找最近鄰居是基于用戶的協(xié)同過濾推薦算法的主要工作,通過應(yīng)、往屆畢業(yè)學(xué)生對(duì)就業(yè)單位的評(píng)分矩陣,可以計(jì)算出他們之間的相似度,相似度越高,他們?cè)浇咏?。把?yīng)屆畢業(yè)學(xué)生與往屆畢業(yè)學(xué)生之間的相似度定義為( , ),每一個(gè)學(xué)生對(duì)就業(yè)單位的評(píng)分可以看作是一個(gè)維的向量,應(yīng)屆畢業(yè)學(xué)生與往屆畢業(yè)學(xué)生之間的相似度就可以用不同的維向量間的相似度來進(jìn)行度量。通過Cosine相似度(余弦相似度)來計(jì)算他們之間的相似度,設(shè)應(yīng)屆畢業(yè)學(xué)生與往屆畢業(yè)學(xué)生在維對(duì)象空間上的評(píng)分表示為向量,,則( , )的相似度計(jì)算方法如公式(1)所示。
1.2推薦實(shí)現(xiàn)
通過計(jì)算相似度得到了應(yīng)屆畢業(yè)學(xué)生的最近鄰居集(最相似的往屆畢業(yè)學(xué)生),然后就可以通過最近鄰居集進(jìn)行預(yù)測(cè)評(píng)分,計(jì)算方法為:
1.3推薦算法步驟及流程圖
(1)推薦算法步驟
①通過應(yīng)、往屆畢業(yè)生對(duì)企業(yè)評(píng)分表分別構(gòu)建應(yīng)、往屆畢業(yè)生評(píng)分矩陣。
②構(gòu)建應(yīng)屆畢業(yè)生和往屆畢業(yè)生的相似度矩陣。
③根據(jù)相似度矩陣求出個(gè)與該應(yīng)屆畢業(yè)生相鄰的往屆畢業(yè)生。
④根據(jù)統(tǒng)計(jì)的相鄰的節(jié)點(diǎn)個(gè)數(shù),預(yù)測(cè)該應(yīng)屆畢業(yè)生對(duì)企業(yè)的評(píng)分值。
⑤根據(jù)預(yù)測(cè)的評(píng)分值,按降序排列得出TOP-個(gè)企業(yè)推薦給應(yīng)屆畢業(yè)生。
(2)推薦算法程序流程圖。
傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法流程圖如圖1所示。
2改進(jìn)的基于用戶的協(xié)同過濾推薦算法
傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法只考慮了應(yīng)屆畢業(yè)學(xué)生和往屆畢業(yè)學(xué)生對(duì)就業(yè)單位的興趣度,即評(píng)分矩陣的評(píng)分值只是針對(duì)簽約單位和感興趣的就業(yè)單位來進(jìn)行的,而沒有考慮應(yīng)屆畢業(yè)生和往屆畢業(yè)生本身的相似度,比如專業(yè)、性別、專業(yè)考證、是否學(xué)生干部、生源地、職業(yè)素養(yǎng)、專業(yè)課成績(jī)、外語成績(jī)、綜合評(píng)定、身高及畢業(yè)時(shí)間等特征屬性。實(shí)際就業(yè)推薦過程中,必須首先考慮學(xué)生的基本特征和綜合素質(zhì),因?yàn)榛咎卣骱途C合素質(zhì)相當(dāng)?shù)膶W(xué)生才能勝任類似的工作,而就業(yè)單位在招聘應(yīng)屆畢業(yè)生的時(shí)候也會(huì)參考?xì)v年招聘的往屆畢業(yè)生的基本特征和綜合素質(zhì),即招聘條件在近期內(nèi)不會(huì)有太大的變化。當(dāng)然,隨著時(shí)間的推移,往屆畢業(yè)學(xué)生數(shù)據(jù)庫的數(shù)據(jù)越來越多,所以在計(jì)算應(yīng)屆畢業(yè)生和往屆畢業(yè)生相似度的時(shí)候還要考慮畢業(yè)時(shí)間的因素,加入時(shí)間權(quán)值。另外,高職院校畢業(yè)生就業(yè)專業(yè)比較對(duì)口,可以對(duì)就業(yè)推薦的對(duì)象先分類,再推薦。即進(jìn)行相似度計(jì)算和推薦之前,先對(duì)應(yīng)、往屆畢業(yè)生按專業(yè)進(jìn)行聚類分析,然后按專業(yè)進(jìn)行就業(yè)推薦。
2.1學(xué)生聚類分析
如果每次相似度計(jì)算都以全校所有畢業(yè)學(xué)生數(shù)據(jù)來進(jìn)行,推薦復(fù)雜度和推薦效率勢(shì)必受到影響,不是理想的方法。所以在進(jìn)行相似度計(jì)算和推薦之前首先對(duì)應(yīng)屆畢業(yè)生和往屆畢業(yè)生按專業(yè)進(jìn)行聚類分析,形成新的數(shù)據(jù)庫。
2.2興趣企業(yè)最近鄰
對(duì)應(yīng)屆畢業(yè)生和往屆畢業(yè)生按專業(yè)進(jìn)行了聚類分析,縮小了推薦范圍。而相同專業(yè)的應(yīng)、往屆畢業(yè)生,由于有些專業(yè)人數(shù)特別多,故往屆畢業(yè)生對(duì)同一企業(yè)感興趣的情況也會(huì)經(jīng)常出現(xiàn),所以可以利用興趣企業(yè)最近鄰方法來進(jìn)一步縮小計(jì)算范圍。把與應(yīng)屆畢業(yè)生有共同感興趣的企業(yè)(共同給予評(píng)分)的相關(guān)往屆畢業(yè)生的所有評(píng)分進(jìn)行求和,然后根據(jù)得分排名從高到低選擇個(gè)往屆畢業(yè)生與應(yīng)屆畢業(yè)生進(jìn)行相似度計(jì)算。找出與應(yīng)屆畢業(yè)生有共同感興趣的企業(yè)(共同給予評(píng)分值較高)的相關(guān)往屆畢業(yè)生進(jìn)行相似度計(jì)算,而那些與該應(yīng)屆畢業(yè)生無共同感興趣企業(yè)(無共同給予評(píng)分或共同給予評(píng)分值較低)的往屆畢業(yè)生沒有推薦能力,不參與相似度計(jì)算,大大改善了推薦實(shí)時(shí)性,降低了數(shù)據(jù)稀疏性。