文/龐超 劉倩 王穎 寧福旺
隨著郵政企業(yè)培訓(xùn)事業(yè)的蓬勃發(fā)展,中國郵政網(wǎng)絡(luò)培訓(xùn)學(xué)院(以下簡稱“中郵網(wǎng)院”)的各項(xiàng)培訓(xùn)業(yè)務(wù)規(guī)模不斷擴(kuò)大,遠(yuǎn)程培訓(xùn)資源在數(shù)量也呈爆炸式增長,面對大量的教學(xué)資源,學(xué)員很難從中發(fā)現(xiàn)適合自己的課程信息,受到信息過載和信息迷航的困擾。因此針對學(xué)員的個(gè)性化推薦服務(wù)成為郵政企業(yè)遠(yuǎn)程培訓(xùn)系統(tǒng)亟待研究和解決的問題。
本文提出一種適用于郵政企業(yè)培訓(xùn)的基于混合推薦技術(shù)的郵政企業(yè)學(xué)習(xí)資源個(gè)性化推薦模式。通過引入個(gè)性化推薦技術(shù),對學(xué)習(xí)資源進(jìn)行過濾,對學(xué)員的學(xué)習(xí)行為進(jìn)行數(shù)據(jù)分析,提取學(xué)員學(xué)習(xí)的興趣點(diǎn),將學(xué)員對資源的被動(dòng)接受轉(zhuǎn)變?yōu)橄到y(tǒng)對學(xué)員的主動(dòng)推送,實(shí)現(xiàn)課程資源的個(gè)性化推薦服務(wù),對實(shí)現(xiàn)資源的有效利用,提升企業(yè)培訓(xùn)效能都有重要的現(xiàn)實(shí)意義。
近幾年,隨著中郵網(wǎng)院業(yè)務(wù)發(fā)展,微課在總量上逐年增加,種類不斷豐富,上升趨勢明顯。
(1)從課程點(diǎn)播情況分析,發(fā)現(xiàn)影響點(diǎn)播率的主要因素包括:培訓(xùn)需求、業(yè)務(wù)需求、技能需求三個(gè)方面。值得關(guān)注得是“標(biāo)題吸睛”在影響因素中排名第四位,這說明吸引人的課程名稱,也可以極大提升課程的關(guān)注度。
(2)從課程類別分析,發(fā)現(xiàn)點(diǎn)播課程主要集中于管理類、職業(yè)素養(yǎng)類和金融類,其種類分布不均衡,應(yīng)加大微課資源建設(shè)力度,豐富課程類型和內(nèi)容。
圖1:混合推薦模型
圖2:個(gè)性化推薦整體框架
(3)從課程評價(jià)反饋分析,建議將點(diǎn)贊、評論、推薦、打分、收藏、轉(zhuǎn)發(fā)等評價(jià)因素綜合考量,建立多維度指標(biāo)評價(jià)體系,更加立體化反映學(xué)習(xí)效果。
(1)按照共性與個(gè)性邊界清晰,緊密結(jié)合工作實(shí)踐的要求,從人力資源管理系統(tǒng),篩選出10 項(xiàng)員工信息的關(guān)鍵指標(biāo):出生日期、進(jìn)入系統(tǒng)時(shí)間、用工形式、政治面貌、最高學(xué)歷或?qū)W位等級、所屬板塊、部門類別、崗位序列、專業(yè)類別、崗位對應(yīng)職業(yè)。
(2)按照學(xué)習(xí)前、學(xué)習(xí)中、學(xué)習(xí)后的階段劃分要求,梳理學(xué)員的學(xué)習(xí)記錄數(shù)據(jù),篩選出能夠反映學(xué)習(xí)過程的關(guān)鍵行為指標(biāo):學(xué)習(xí)行為5 類、學(xué)習(xí)時(shí)長6 類、學(xué)習(xí)情境2 類、學(xué)習(xí)方式2 類、課程評價(jià)5 類等相結(jié)合,分析員工學(xué)習(xí)行為模式。
2.1.1 指標(biāo)降維
不論員工個(gè)人信息,還是課程資源信息,很多指標(biāo),其數(shù)據(jù)指標(biāo)取值范圍非常大,導(dǎo)致數(shù)據(jù)運(yùn)算維度過高,耗費(fèi)時(shí)間和資源成倍增長。在盡量保持原有數(shù)據(jù)特征和信息量的基礎(chǔ)上,通過降低指標(biāo)維度,簡化數(shù)據(jù)量,可以極大地減少運(yùn)算量,提升運(yùn)算效率。
2.1.2 顯示評分與隱式評分
顯示評分是指學(xué)員學(xué)習(xí)完課程后,對課程直接評分過程。
隱式評分是將那些可以體現(xiàn)學(xué)員對課程偏好的行為因素加以記錄,然后將行為記錄轉(zhuǎn)換成學(xué)員對課程的評分。
將隱式評分歸為5類:瀏覽(L)、點(diǎn)播(P)、點(diǎn)贊(D)、收藏(C)、推薦(T),各類之間可以通過組合生成綜合評價(jià),評分越高越能反映學(xué)員對此課程或此類課程的喜愛程度。
2.1.3 雙評分矩陣
郵政有近百萬員工,各類課程信息上千門,基于學(xué)員-課程評分生成的矩陣維度非常高,且往往評分信息不足,使得推薦系統(tǒng)計(jì)算性能和效率非常低,會(huì)導(dǎo)致相似度產(chǎn)生偏差。
通過數(shù)據(jù)分析發(fā)現(xiàn),學(xué)員在一段時(shí)間內(nèi)選擇學(xué)習(xí)的課程,呈現(xiàn)出系統(tǒng)化、體系化的特點(diǎn)。學(xué)員對某一門課程的偏好,在一定程度上也代表著學(xué)員對此類課程屬性的偏好,選擇同類課程的學(xué)員相似度更高。
在學(xué)員-課程評分矩陣的基礎(chǔ)上,引入學(xué)員-課程屬性偏好評分矩陣,采用雙評分矩陣模式,將學(xué)員對課程的偏好轉(zhuǎn)化為學(xué)員對課程屬性的偏好,可以把高維評分矩陣映射到相對低維空間中,從而降低了近鄰搜索的時(shí)空開銷,提高了系統(tǒng)響應(yīng)速度、降低了數(shù)據(jù)的稀疏性。
將聚類分析應(yīng)用于協(xié)同過濾推薦算法,將對課程屬性偏好相似的學(xué)員歸到同一簇內(nèi),而不同簇之間的學(xué)員相異性則盡可能大。
根據(jù)學(xué)員-課程屬性評分的歐式距離進(jìn)行計(jì)算,選取距離最大兩個(gè)學(xué)員作為聚類中心,重復(fù)此過程,直到找到K 個(gè)初始聚類中心。計(jì)算剩余學(xué)員到初始聚類中心的歐式距離,將學(xué)員劃分到距離最小的簇,計(jì)算每個(gè)簇中所有對象的均值,得到新的聚類中心,重復(fù)此步驟直至聚類中心不再發(fā)生變化。然后在相近的若干個(gè)簇中查找最近鄰居,這種聚類算法能夠在盡量少的學(xué)員空間上查詢到盡量多的最近鄰居。
本文研究的混合推薦模型,在傳統(tǒng)推薦模型基礎(chǔ)上,更注重分析學(xué)員的學(xué)習(xí)行為數(shù)據(jù),引入隱式評分機(jī)制更好的反映出學(xué)員對課程的偏好程度。通過聚類分析技術(shù),發(fā)揮大數(shù)據(jù)分析技術(shù)優(yōu)勢,有效提升推薦過程查找最近鄰居效率,更強(qiáng)調(diào)學(xué)員之間或課程之間的多屬性綜合相似性的度量,基于學(xué)員-課程評分和學(xué)員-課程屬性偏好評分,為學(xué)員推薦資源,提升資源推薦準(zhǔn)確率。如圖1所示。
個(gè)性化推薦引擎是個(gè)性化推薦整體架構(gòu)核心模塊,也是學(xué)習(xí)資源個(gè)性化推薦實(shí)現(xiàn)的中樞,如圖2所示。
在人力資源管理系統(tǒng)、中郵網(wǎng)院培訓(xùn)系統(tǒng),抽取近三年的培訓(xùn)數(shù)據(jù)及課程資源,將本文研究的個(gè)性化資源推薦模型實(shí)例化,并進(jìn)行應(yīng)用評測與效能分析。
根據(jù)方案設(shè)計(jì)需求,構(gòu)建學(xué)員特征表、課程屬性表、學(xué)習(xí)行為表、學(xué)員-課程評分表、學(xué)員-課程屬性評分表的數(shù)據(jù)庫表結(jié)構(gòu);根據(jù)已經(jīng)設(shè)計(jì)好的數(shù)據(jù)表,進(jìn)行數(shù)據(jù)降維、標(biāo)準(zhǔn)化處理,存儲(chǔ)到數(shù)據(jù)表,為后續(xù)計(jì)算分析做好數(shù)據(jù)準(zhǔn)備。
在抽取1200 名學(xué)員及其1635 門課程中,設(shè)定聚類數(shù)目為40 時(shí)候,搜索40%的學(xué)員空間能找到學(xué)員將近75%的最近鄰居,并且其系統(tǒng)耗費(fèi)時(shí)間與平均絕對誤差值(MAE)在四種方案效率比最高。
獲取學(xué)員聚類結(jié)果后,目標(biāo)學(xué)員的最近鄰居可以在相近的若干個(gè)簇中進(jìn)行查找。分別對學(xué)員-課程評分矩陣、學(xué)員-課程屬性偏好矩陣,采用修正余弦相似性算法的相似性度量方法進(jìn)行計(jì)算,并將兩種度量方法相結(jié)合考慮學(xué)員相似性。
獲得最近鄰居集合后,目標(biāo)學(xué)員對于未評分課程的評分,就可以根據(jù)最近鄰集合學(xué)員與目標(biāo)學(xué)員的相似度值以及鄰居學(xué)員對項(xiàng)目評分?jǐn)?shù)據(jù),計(jì)算目標(biāo)學(xué)員對其未評分過的項(xiàng)目的預(yù)測評分,最終按照預(yù)測評分排序,生成對學(xué)員的推薦結(jié)果。
如本文抽取的目標(biāo)學(xué)員“龍玉儀”,其最近鄰居“康江朝”(相似度0.762)和“李金”(相似度0.785),通過計(jì)算將“李金”學(xué)習(xí)過的“郵保安康產(chǎn)品理賠規(guī)劃”、“其美多吉:雪線郵路,我一生的路”兩門課程推薦目標(biāo)學(xué)員“龍玉儀”。
在測試集數(shù)據(jù)中選取部分學(xué)員,對其學(xué)習(xí)資源個(gè)性化推薦課程,通過郵件方式發(fā)放調(diào)查問卷,完成應(yīng)用培訓(xùn)效能評測反饋。
培訓(xùn)效能評估的關(guān)注點(diǎn),主要集中在個(gè)人學(xué)習(xí)效率、個(gè)人學(xué)習(xí)效果提升方面,共計(jì)發(fā)放問卷40 份,收回問卷30 份,有效占比為75%,其中3 分及以上(有提升)占比80.4%,2 分及以下(無提升)占比19.6%。問卷調(diào)查結(jié)果說明,基于學(xué)習(xí)資源個(gè)性化推薦模式能夠有效提升培訓(xùn)效能。
利用大數(shù)據(jù)分析的方式,通過郵政企業(yè)培訓(xùn)課程資源體系、學(xué)員學(xué)習(xí)行為模式研究這兩個(gè)視角作為切入點(diǎn),提出亟待解決的學(xué)員培訓(xùn)需求個(gè)性化與學(xué)習(xí)資源利提供方式單一化兩者間矛盾,通過對個(gè)性化推薦模式研究的解決方案,能夠有效提升課程資源利用率,又調(diào)動(dòng)了學(xué)員培訓(xùn)的積極主動(dòng)性。
將個(gè)性化推薦技術(shù)引郵政企業(yè)培訓(xùn)的實(shí)際應(yīng)用中,通過構(gòu)建學(xué)習(xí)資源的個(gè)性化推薦模式,將課程資源體系、學(xué)習(xí)行為模式、培訓(xùn)效能提升緊密結(jié)合,打造“三位一體”的學(xué)習(xí)資源個(gè)性化推薦模式新應(yīng)用,并結(jié)合中郵網(wǎng)院平臺(tái),進(jìn)行了初步的應(yīng)用與評測。
更正
茲有吳青衡同志刊于《電子技術(shù)與軟件工程》雜志2019年1月上半月刊,第243頁《基于大數(shù)據(jù)時(shí)代視角下人工智能實(shí)踐》一文,原文摘要中“職能”改為“智能”、去掉第一個(gè)“實(shí)現(xiàn)”;第3 要點(diǎn)中“任然”改為“仍然”;結(jié)束語中“不在”改為“不再”、“發(fā)展的中”改為“發(fā)展中的”。
《電子技術(shù)與軟件工程》編輯部
2019年5月