周萌 徐慶 李丹 李崇 齊鵬
【摘要】? ? 隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)社區(qū)己經(jīng)深入到了廣大互聯(lián)網(wǎng)用戶的生活中,其正在以驚人的速度不斷地影響著互聯(lián)網(wǎng)用戶的學(xué)習(xí)。隨著平臺使用時間的積累,許多的平臺都擁有龐大的閱讀資源,學(xué)習(xí)資源和用戶后臺數(shù)據(jù)。從而出現(xiàn)了資源過載、學(xué)習(xí)迷航等新的閱讀和學(xué)習(xí)問題。本文通過ALS矩陣分解算法,實現(xiàn)了大數(shù)據(jù)平臺的基于用戶的協(xié)同過濾推薦算法,從而提升網(wǎng)絡(luò)資源需求的個性化和細(xì)致化,最終為黨建平臺的用戶提供個性化的閱讀和學(xué)習(xí)資源推薦服務(wù),并在一定程度上對平臺中的課程教學(xué)起到現(xiàn)實的指導(dǎo)意義。
【關(guān)鍵詞】? ? 大數(shù)據(jù)? ? 學(xué)習(xí)資源? ? 機器學(xué)習(xí)? ? 智能推薦系統(tǒng)
緒論
學(xué)習(xí)習(xí)近平關(guān)于大數(shù)據(jù)戰(zhàn)略的要求背景下,深入研究“大數(shù)據(jù)是信息化發(fā)展的新階段”、“要運用大數(shù)據(jù)提升國家治理現(xiàn)代化水平”的指導(dǎo)思想,將黨的建設(shè)工作和經(jīng)濟社會的發(fā)展進行深度融合,不僅可以提升黨的建設(shè)工作效果還可以幫助社會經(jīng)濟的可持續(xù)發(fā)展。因此,在黨建工作的中提出基于大數(shù)據(jù)的推薦系統(tǒng)的設(shè)計,正是在大數(shù)據(jù)戰(zhàn)略背景下,將科學(xué)技術(shù)應(yīng)用到黨的建設(shè)工作中來的典型課題。本文以基于ALS模型的協(xié)同過濾算法來實現(xiàn)石油黨建APP學(xué)習(xí)資料推薦系統(tǒng),正是基于此課題的研究成果,該系統(tǒng)的實現(xiàn)可以為黨建工作提升精準(zhǔn)性和實效性,具有重要的實踐意義。
一、推薦算法及推薦系統(tǒng)研究現(xiàn)狀
推薦算法是當(dāng)前大數(shù)據(jù)背景下的重要工具,是針對性解決用戶需求提升數(shù)據(jù)準(zhǔn)確性和效率的重要手段。目前常用的推薦算法有基于人口統(tǒng)計學(xué)、內(nèi)容協(xié)同過濾以及混合等的推薦機制,被廣泛應(yīng)用于各個領(lǐng)域。其中SPARK是專用為了處理大數(shù)據(jù)而開發(fā)的計算機引擎,是基于分布式的計算平臺,與Map Reduce它的優(yōu)勢是可以將運算的結(jié)果保存在內(nèi)存中從而更好的適用于數(shù)據(jù)挖掘和矩陣分解等算法。而在推薦系統(tǒng)中應(yīng)用最為廣泛的為個性化推薦算法,該算法的概念是上世紀(jì)90年代提出的,是一種可以針對不同行業(yè)進行個性化計算而迭代出更加適用的結(jié)果,主要應(yīng)用于電影行業(yè)、新聞推送、音樂推薦以及媒體廣告等的商業(yè)領(lǐng)域,如Movie Lens、Ad Wards等。
二、基于大數(shù)據(jù)的推薦系統(tǒng)設(shè)計
2.1大數(shù)據(jù)的基本概念
當(dāng)前對于數(shù)據(jù)的定義雖然還沒有統(tǒng)一,但是其涵蓋的內(nèi)容基本一致,通常是指那些包含了有價值信息的,但無法通過常規(guī)的計算機工具來提取、存儲、搜索等處理的龐大信息。其中IDC對大數(shù)據(jù)的特征進行了總結(jié),具備巨大的信息規(guī)模、迅速的數(shù)據(jù)流轉(zhuǎn)性、多樣化的數(shù)據(jù)類型以及準(zhǔn)確性。
2.2大數(shù)據(jù)平臺架構(gòu)介紹
本文針對SPARK平臺來進行展開討論,該生態(tài)系統(tǒng)下包含了流計算、結(jié)構(gòu)化數(shù)據(jù)的處理、圖計算以及機器學(xué)習(xí)等子項目,是用以管理大數(shù)據(jù)的重要工具和手段,在此基礎(chǔ)上SPARK還可以提供如Flume、Kafka、HDFS等具有分布式數(shù)據(jù)特性的集成方式,來實現(xiàn)大數(shù)據(jù)的管理工作,以及各種算法的應(yīng)用與實現(xiàn)。
2.3智能推薦算法
1.協(xié)同過濾算法介紹
基于鄰域和近鄰的內(nèi)存推薦和基于模型的推薦是協(xié)同過濾推薦算法的兩種基本類型。其中以基于內(nèi)存的推薦算法為例,是通過相似偏好或者特征的方式來對用戶的需求進行推薦,因此進行實施推薦前需要先讀取用戶的內(nèi)存信息從而實現(xiàn)比對與識別。而基于模型的算法則是通過建立的各類用戶的喜好模型來進行推薦。相比而言基于內(nèi)存的算法要更加有效,但是由于運算時需要讀取大量數(shù)據(jù),因此會造成一定的局限性,冷啟動和數(shù)據(jù)稀疏都會對其造成一定地影響。
2.基于ALS模型的推薦方法
在模型推薦算法較為流行的是ALS模式算法,該推薦方法是基于評價數(shù)據(jù)集而建立的用戶與項目的評分矩陣,一般表示為N*M,公式中N表示為用戶數(shù)量,M表示為項目數(shù)量。在實際推薦算法的運算過程中,由于用戶并不會對每一個項目進行評分,因此會造成項目數(shù)據(jù)集的稀疏性,也就是說所形成的矩陣集是非常稀疏的。因此,為了使算法更加趨于準(zhǔn)確,會在已有數(shù)據(jù)規(guī)律的基礎(chǔ)上進行數(shù)據(jù)模擬填充,從而得到任意用戶對任意項目的評分,最后獲得預(yù)測得分,以此來實現(xiàn)推薦。
三、基于大數(shù)據(jù)的智能推薦實現(xiàn)與效果——以石油黨建App為例
3.1石油黨建App的大數(shù)據(jù)架構(gòu)和推薦系統(tǒng)架構(gòu)
本文基于Spark構(gòu)建的石油黨建APP學(xué)習(xí)資料推薦系統(tǒng)主要分為兩個部分進行(如圖1所示):離線計算部分和實時在線計算部分,該系統(tǒng)是一個可以結(jié)合離線計算與在線計算的架構(gòu),能夠解決一些推薦系統(tǒng)的實時性需求,還能利用批量的離線數(shù)據(jù)進行推薦。
從架構(gòu)的縱向組織結(jié)構(gòu)分析,整個系統(tǒng)包括兩個子系統(tǒng)組成:離線推薦與在線推薦。從數(shù)據(jù)流可以看出,兩個子系統(tǒng)都按照數(shù)據(jù)輸入、中間處理、結(jié)果數(shù)據(jù)輸出等步驟進行,為增加系統(tǒng)實時性,從這三個層面均使用了高性能的設(shè)計。
3.2石油黨建平臺學(xué)習(xí)資源的用戶行為現(xiàn)狀
石油黨建平臺是獲取用戶數(shù)據(jù)的關(guān)鍵來源,而用戶行為數(shù)據(jù)的收集與整理,從而建立起用戶與項目之間的評分,可以為其它用戶實現(xiàn)有效的推薦,并隨著使用用戶的數(shù)量增加而推薦趨于準(zhǔn)確。利用ALS算法來對學(xué)習(xí)者的隱性信息進行收集,包括用戶的課程互動天數(shù)、次數(shù)以及在論壇中的活躍程度等行為數(shù)據(jù)。通過SPARK平臺中Ndayact數(shù)據(jù)項來對用戶的相關(guān)數(shù)據(jù)進行收集,從數(shù)據(jù)庫統(tǒng)計結(jié)果來看共記錄了21234條用戶行為數(shù)據(jù)。其中課程互動天數(shù)和人數(shù)的分布數(shù)據(jù),在分析后發(fā)現(xiàn)存在持續(xù)下降的趨勢。其中互動天數(shù)最少的僅為1天,而用戶人數(shù)最多時達到了3232人,占到了總用戶人數(shù)的43%左右。互動天數(shù)保持時間最長的有1人,共持續(xù)了167天,平均互動天數(shù)為4.2天。通過模型的創(chuàng)建發(fā)現(xiàn),第36天和第55天存在顯著差異,也就是說36天以內(nèi)保持互動的用戶最多且較為頻繁,而大于55天的數(shù)據(jù)顯示,用戶活躍度存在非常明顯的下降。所以石油黨建APP針對用戶在36天和55天時,采取鼓勵和監(jiān)督機制,以促進學(xué)習(xí)的持續(xù)性和效果的保證。
3.3大數(shù)據(jù)智能推薦對石油黨建App學(xué)習(xí)資源的指導(dǎo)
1.充分運用大數(shù)據(jù)分析提升黨建學(xué)習(xí)的精準(zhǔn)性
在大數(shù)據(jù)時代,可以通過推薦算法將各組織部門對于石油黨建學(xué)習(xí)的重點內(nèi)容進行快速識別,從而起到快速定位的作用。對于各地區(qū)學(xué)習(xí)的進度和效果進行實時的采集并分析,從而便于高效的指導(dǎo),促進黨建學(xué)習(xí)工作的有效開展。同時,通過對個人數(shù)據(jù)的采集與大數(shù)據(jù)的比對,可以為個人學(xué)習(xí)提供差異性分析,從而為個體的學(xué)習(xí)計劃提出建議,并實現(xiàn)學(xué)習(xí)資料和課程的個性化推薦,實現(xiàn)黨建學(xué)習(xí)工作的精準(zhǔn)性。
2.充分運用大數(shù)據(jù)分析提升黨的制度建設(shè)的實效性
通過石油黨建學(xué)習(xí)工作的內(nèi)容以及學(xué)習(xí)行為分析,可以對黨建工作的規(guī)劃以及相關(guān)制度建設(shè)進行監(jiān)督,并利用大數(shù)據(jù)分析的方式來識別當(dāng)前黨建學(xué)習(xí)相關(guān)制度的建設(shè)情況,以及實施有效性,從而起到發(fā)現(xiàn)問題解決問題的目的。并依據(jù)當(dāng)前地區(qū)黨建學(xué)習(xí)現(xiàn)狀進行基于黨建資料和課程的推薦,從制度建設(shè)和資源精準(zhǔn)推薦的角度來使問題得以快速的解決,從而針對性的通過石油黨建APP來幫助石油黨建學(xué)習(xí)制度的建設(shè)和制度實施有效性,解決石油黨建最后一公里的問題。
四、總結(jié)與展望
本文是基于大數(shù)據(jù)平臺相關(guān)技術(shù)以及當(dāng)前主流推薦算法和系統(tǒng)的研究為基礎(chǔ),來對石油黨建APP學(xué)習(xí)資料的推薦系統(tǒng)進行設(shè)計,采用基于ALS模型的協(xié)同過濾算法優(yōu)化方案,來實現(xiàn)石油黨建APP的系統(tǒng)?;贏SPARK大數(shù)據(jù)平臺的石油黨建APP資料推薦的功能的實現(xiàn),可以提升黨建學(xué)習(xí)工作的精準(zhǔn)性以及制度建設(shè)的實效性。但是本系統(tǒng)目前還無法有效的對在線推薦的信息進行準(zhǔn)確的更新,在系統(tǒng)延遲方面還有待改進。此外在數(shù)據(jù)倉庫管理方面,由于對于大量用戶行為數(shù)據(jù)的分析工作比較粗淺,因此還需要進一步引入數(shù)據(jù)挖掘技術(shù)來進行提升,從而建立起高效數(shù)據(jù)倉庫的推薦引擎,為更好的提供學(xué)習(xí)資料的推薦提供支持。
參? 考? 文? 獻
[1]姚敦紅.基于教育大數(shù)據(jù)的課程授課教師推薦系統(tǒng)設(shè)計[J].電腦知識與技術(shù),2020,16(26):8-9+22.
[2]胡赫薇.基于大數(shù)據(jù)下的智能推薦系統(tǒng)設(shè)計[J].電腦編程技巧與維護,2020(07):126-128.
[3]薛琳蘭. 基于大數(shù)據(jù)技術(shù)的電商推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].青島大學(xué),2020.
[4]吳榮,段宏濤.基于Hadoop平臺的Spark快數(shù)據(jù)推薦算法解析——以其在圖書推薦系統(tǒng)中的應(yīng)用為例[J].數(shù)字技術(shù)與應(yīng)用,2020,38(06):115-117.
[5]朱麗,付海濤,馮宇軒,裴欣彤,孫宇.基于大數(shù)據(jù)平臺的課程教學(xué)資源推薦系統(tǒng)應(yīng)用探究[J].計算機產(chǎn)品與流通,2020(06):209.
[6]謝路倫. 基于Spark的電商用戶行為分析與研究[D].北方民族大學(xué),2019.