王歡,李芳
【摘? 要】 文章旨在分析大學(xué)生的網(wǎng)絡(luò)使用行為特征,采用網(wǎng)絡(luò)流量與用戶(hù)日志數(shù)據(jù)采集的方法獲取研究樣本,并提取出較多維度的行為特征。在特征處理的基礎(chǔ)上,采用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建網(wǎng)絡(luò)行為分類(lèi)與預(yù)測(cè)模型。研究結(jié)果表明,集成學(xué)習(xí)框架構(gòu)建的分類(lèi)器可以實(shí)現(xiàn)較高的準(zhǔn)確率;而加入個(gè)性化特征后,循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型也取得了可觀的精度。研究驗(yàn)證了基于大數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法可以有效地實(shí)現(xiàn)對(duì)大學(xué)生這個(gè)特定人群的網(wǎng)絡(luò)行為建模與分析。
【關(guān)鍵詞】 大學(xué)生用戶(hù);網(wǎng)絡(luò)行為分析;機(jī)器學(xué)習(xí);分類(lèi)與預(yù)測(cè)
隨著互聯(lián)網(wǎng)的快速發(fā)展,大學(xué)生已經(jīng)成為使用網(wǎng)絡(luò)的主要群體之一。大學(xué)生使用網(wǎng)絡(luò)的行為方式與特征反映出他們的學(xué)習(xí)、生活方式與需求。分析和研究大學(xué)生的網(wǎng)絡(luò)使用行為,對(duì)了解當(dāng)前大學(xué)生的學(xué)習(xí)與生活狀態(tài)、改善網(wǎng)絡(luò)服務(wù)、開(kāi)發(fā)適合大學(xué)生使用的網(wǎng)絡(luò)產(chǎn)品與服務(wù)都有重要意義。文章研究擬基于機(jī)器學(xué)習(xí)算法,通過(guò)收集和分析大學(xué)生網(wǎng)絡(luò)使用的日志數(shù)據(jù),提取網(wǎng)絡(luò)使用行為的關(guān)鍵特征,建立分類(lèi)和預(yù)測(cè)模型。在特征提取與選擇方面,將采用統(tǒng)計(jì)、文本分析等方法進(jìn)行預(yù)處理。在模型構(gòu)建方面,將研究不同機(jī)器學(xué)習(xí)算法的適用性。最終,期望能夠獲得對(duì)大學(xué)生網(wǎng)絡(luò)使用行為的有效分類(lèi)與預(yù)測(cè)的機(jī)器學(xué)習(xí)模型。
一、大學(xué)生網(wǎng)絡(luò)使用行為的特征分析
(一)數(shù)據(jù)收集與處理方法
本研究的數(shù)據(jù)收集與處理分為三個(gè)階段進(jìn)行。首先,通過(guò)部署在核心路由節(jié)點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)采集設(shè)備,采用端口鏡像技術(shù)捕獲大學(xué)部門(mén)的出入境網(wǎng)絡(luò)流量,過(guò)濾出學(xué)生宿舍樓對(duì)應(yīng)的流量子網(wǎng)數(shù)據(jù),在不侵犯用戶(hù)隱私前提下進(jìn)行匿名化處理。其次,經(jīng)評(píng)估,每天可有效采集到來(lái)自約2萬(wàn)名在校大學(xué)生產(chǎn)生的上下行網(wǎng)絡(luò)流量,數(shù)據(jù)量約為100G。為關(guān)聯(lián)網(wǎng)絡(luò)流量數(shù)據(jù)與用戶(hù)行為,還通過(guò)誘導(dǎo)大學(xué)生安裝網(wǎng)絡(luò)行為追蹤工具,采集上網(wǎng)瀏覽、搜索、下載等網(wǎng)絡(luò)操作行為數(shù)據(jù),并進(jìn)行去標(biāo)識(shí)化處理。預(yù)計(jì)可跟蹤記錄2000~3000人的日常網(wǎng)絡(luò)活動(dòng)操作日志。最后,將采集到的海量網(wǎng)絡(luò)流量數(shù)據(jù)與行為日志數(shù)據(jù)導(dǎo)入Hadoop分布式集群平臺(tái),用MapReduce程序?qū)υ紨?shù)據(jù)進(jìn)行清洗、提取與關(guān)聯(lián),構(gòu)建“用戶(hù)ID-網(wǎng)絡(luò)瀏覽行為-網(wǎng)站類(lèi)別”三字段關(guān)聯(lián)數(shù)據(jù)集,并加載到MySQL數(shù)據(jù)庫(kù)中進(jìn)行模型特征分析。預(yù)處理后的數(shù)據(jù)總量約20T,可為后續(xù)的模型訓(xùn)練提供數(shù)據(jù)支撐。
(二)特征提取與選擇
在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,本研究通過(guò)自定義MapReduce程序,使用統(tǒng)計(jì)、自然語(yǔ)言處理、文本挖掘等方法,從海量訓(xùn)練集數(shù)據(jù)中提取出能夠反映大學(xué)生網(wǎng)絡(luò)行為習(xí)慣的關(guān)鍵特征。主要包括:基于網(wǎng)站或流量類(lèi)別的特征,如每類(lèi)站點(diǎn)訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)頻率、流量占比等;基于瀏覽與操作行為的特征,如單日搜索詞數(shù)量、發(fā)帖/評(píng)論數(shù)量、音視頻類(lèi)應(yīng)用使用時(shí)長(zhǎng)等;基于網(wǎng)站內(nèi)容與話題的特征,使用LDA模型獲得用戶(hù)興趣話題分布等。經(jīng)特征提取,每名用戶(hù)具有約2000多個(gè)候選特征。為防止數(shù)據(jù)維度災(zāi)難,需要進(jìn)行有效的特征選擇。考慮特征選擇算法的效率與性能,本研究采用LASSO正則化的特征選擇方法,設(shè)置不同的正則化系數(shù),通過(guò)建立隱馬爾可夫模型比較不同閾值下的特征子集對(duì)應(yīng)分類(lèi)效果。結(jié)果表明,當(dāng)特征子集數(shù)為680時(shí),對(duì)應(yīng)的隱馬爾科夫模型準(zhǔn)確率最高,達(dá)到了83.2%。因此,最終確定了680個(gè)有效特征,用于構(gòu)建大學(xué)生網(wǎng)絡(luò)使用行為分類(lèi)與預(yù)測(cè)模型。這680個(gè)特征中,與學(xué)習(xí)相關(guān)的特征占比最多,約為43%;生活服務(wù)類(lèi)站點(diǎn)相關(guān)特征約占33%;娛樂(lè)站點(diǎn)類(lèi)相關(guān)特征約占24%。
二、基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)使用行為的特征分類(lèi)模型構(gòu)建
(一)機(jī)器學(xué)習(xí)算法介紹
在提取出有效特征之后,本研究將構(gòu)建不同的機(jī)器學(xué)習(xí)模型來(lái)分類(lèi)大學(xué)生的網(wǎng)絡(luò)使用行為。會(huì)研究典型的三大類(lèi)算法:線性模型、樹(shù)模型與神經(jīng)網(wǎng)絡(luò)模型。具體而言,線性模型中會(huì)考量邏輯回歸與支持向量機(jī)。邏輯回歸模型是典型的二分類(lèi)模型,可以估計(jì)不同類(lèi)的后驗(yàn)概率,利于解釋?zhuān)欢С窒蛄繖C(jī)通過(guò)求解最大間隔超平面實(shí)現(xiàn)分類(lèi),其軟間隔參數(shù)設(shè)置為0.01,核函數(shù)為RBF,泛化性能較好。樹(shù)模型方面則會(huì)研究隨機(jī)森林與GBDT算法。隨機(jī)森林通過(guò)集成100個(gè)決策樹(shù),在特征選擇與分類(lèi)閾值判斷上引入隨機(jī)性,可以防止過(guò)擬合,是一種典型的集成算法;GBDT逐步加強(qiáng)提升決策樹(shù)性能,提升迭代次數(shù)設(shè)為300,也具有很強(qiáng)的分類(lèi)能力。最后的神經(jīng)網(wǎng)絡(luò)模型會(huì)考量包含1個(gè)隱層的多層感知機(jī)與包含3個(gè)隱層的深度神經(jīng)網(wǎng)絡(luò)。相比線性模型和樹(shù)模型,神經(jīng)網(wǎng)絡(luò)通過(guò)模擬人腦神經(jīng)網(wǎng)絡(luò)傳遞與計(jì)算原理來(lái)進(jìn)行端到端的特征學(xué)習(xí)與類(lèi)別判斷,可提取數(shù)據(jù)中的復(fù)雜非線性特征模式,是當(dāng)前機(jī)器學(xué)習(xí)分類(lèi)的前沿技術(shù)。本研究將基于大學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù)集,包含10萬(wàn)條樣本,比較上述算法的分類(lèi)性能,選擇出最佳模型,為特征預(yù)測(cè)任務(wù)奠定基礎(chǔ)。
(二)模型構(gòu)建方法
建模方法方面,本研究采用迭代的模型構(gòu)建與集成學(xué)習(xí)流程。首先,對(duì)提取的680維網(wǎng)絡(luò)行為特征樣本集采用隨機(jī)分割法,按樣本數(shù)量比值為8:2的比例劃分獲得訓(xùn)練樣本子集與測(cè)試樣本子集。訓(xùn)練集包含10萬(wàn)條大學(xué)生行為樣本,驗(yàn)證集包含3萬(wàn)條。其次,在訓(xùn)練樣本上通過(guò)5重交叉驗(yàn)證方式,網(wǎng)格搜索每個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。如對(duì)支持向量機(jī),設(shè)置核函數(shù)為高斯核后,以不同的軟間隔系數(shù)C和核函數(shù)相關(guān)參數(shù)γ的組合,迭代訓(xùn)練并基于驗(yàn)證集評(píng)估分類(lèi)性能指標(biāo)F1,獲得最優(yōu)參數(shù)組合{C=1.5,γ=0.5}。使用優(yōu)化超參數(shù)重新訓(xùn)練模型。再次,為提高分類(lèi)性能,采用Bagging算法集成多個(gè)同類(lèi)與異構(gòu)的單一模型以組成分類(lèi)器組合。當(dāng)Bagging集成分類(lèi)器中模型數(shù)量為5時(shí),其在測(cè)試集上的加權(quán)分類(lèi)準(zhǔn)確率達(dá)到87.2%。最后,為解釋分類(lèi)結(jié)果,基于SHAP值算法分析各特征對(duì)輸出結(jié)果的重要性權(quán)重。發(fā)現(xiàn)前20個(gè)影響分類(lèi)判斷的關(guān)鍵特征主要集中在與大學(xué)生網(wǎng)絡(luò)學(xué)習(xí)類(lèi)網(wǎng)站交互行為相關(guān)的特征,其SHAP值權(quán)重約占53%;與生活服務(wù)類(lèi)網(wǎng)站交互相關(guān)的特征其次,SHAP值權(quán)重占31%,二者共計(jì)權(quán)重高達(dá)84%。這驗(yàn)證學(xué)習(xí)類(lèi)網(wǎng)站交互特征對(duì)判別大學(xué)生網(wǎng)絡(luò)使用行為類(lèi)別影響最大。
(三)模型評(píng)價(jià)與選擇
基于迭代流程構(gòu)建的多個(gè)候選分類(lèi)模型,需要進(jìn)行比較評(píng)價(jià)后確定最終的優(yōu)選模型。本研究從多角度建立評(píng)價(jià)指標(biāo)體系。第一個(gè)指標(biāo)是分類(lèi)性能,將不同模型在測(cè)試集上產(chǎn)生的混淆矩陣輸入ROCR系統(tǒng),獲得ROC曲線及其下的AUC值。ROC曲線通過(guò)變化分類(lèi)判斷閾值描繪真正率與假正率的函數(shù)關(guān)系。當(dāng)ROC曲線下AUC值越接近1時(shí),表示分類(lèi)性能越好。實(shí)驗(yàn)結(jié)果顯示,深度神經(jīng)網(wǎng)絡(luò)分類(lèi)器的AUC達(dá)到0.913,明顯高于邏輯回歸(0.801)與隨機(jī)森林算法(0.872)。第二個(gè)指標(biāo)是模型穩(wěn)定性,采用bootstrapping算法中的632+方法評(píng)估。其通過(guò)重采樣獲得多個(gè)訓(xùn)練集并測(cè)試評(píng)價(jià)模型在不同子集上分類(lèi)效果的一致性。評(píng)價(jià)結(jié)果顯示,集成模型的穩(wěn)定系數(shù)為83.2%,優(yōu)于單一神經(jīng)網(wǎng)絡(luò)模型的76.5%。第三,從模型解釋性看,SHAP算法分析表明基于樹(shù)模型的算法特征解釋性更好,重要特征排序與權(quán)重分析更符合預(yù)期。最后,本研究比較了模型的訓(xùn)練與預(yù)測(cè)的時(shí)間復(fù)雜度,具體指標(biāo)統(tǒng)計(jì)結(jié)果如表1所示。
結(jié)果顯示,深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練成本最高,但線上預(yù)測(cè)速度較快。綜合考慮多指標(biāo)優(yōu)劣與目標(biāo)要求,文章研究選擇構(gòu)建的Bagging集成分類(lèi)器作為網(wǎng)絡(luò)行為特征分類(lèi)的最終模型,驗(yàn)證其有效性。
三、大學(xué)生網(wǎng)絡(luò)使用行為的特征預(yù)測(cè)模型構(gòu)建
(一)預(yù)測(cè)模型建立方法
基于前述提取的680維網(wǎng)絡(luò)行為特征樣本集,本研究采用時(shí)間序列模型來(lái)預(yù)測(cè)大學(xué)生未來(lái)一周的網(wǎng)絡(luò)使用行為。考慮到周期性模式,選用了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型中的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。該模型通過(guò)記憶單元捕獲時(shí)間序列中長(zhǎng)期依賴(lài)信息。本模型包含輸入層、兩個(gè)隱藏層和輸出層,隱藏層節(jié)點(diǎn)數(shù)分別為128和64。激活函數(shù)采用tanh,損失函數(shù)為均方誤差,優(yōu)化器為RMSprop,學(xué)習(xí)率設(shè)為0.001,訓(xùn)練輪數(shù)為100。額外地,對(duì)特征樣本集進(jìn)行歸一化處理,標(biāo)準(zhǔn)化為均值為0,方差為1的分布。此外,構(gòu)建數(shù)據(jù)集生成器,將時(shí)間序列樣本分割成樣本數(shù)為50的多組,單組采樣長(zhǎng)度為10天,用于模型訓(xùn)練。此試驗(yàn)重復(fù)5次,取平均指標(biāo)。預(yù)測(cè)目標(biāo)為用戶(hù)未來(lái)7天內(nèi)各類(lèi)別網(wǎng)站訪問(wèn)時(shí)長(zhǎng),輸出維度為12。評(píng)估指標(biāo)見(jiàn)表2。
這表明所構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)模型可以有效模擬大學(xué)生一周網(wǎng)絡(luò)訪問(wèn)行為的變化趨勢(shì),為個(gè)性化網(wǎng)絡(luò)服務(wù)提供預(yù)測(cè)支持,具有較高準(zhǔn)確率。該模型綜合考慮了樣本量、時(shí)間長(zhǎng)度、維度等參數(shù),通過(guò)多輪訓(xùn)練取得了較優(yōu)解,可以支持大學(xué)生個(gè)性化網(wǎng)絡(luò)行為預(yù)估,為提升使用體驗(yàn)提供基礎(chǔ)。
(二)預(yù)測(cè)結(jié)果分析與評(píng)估
利用構(gòu)建的基于LSTM的網(wǎng)絡(luò)行為預(yù)測(cè)模型對(duì)測(cè)試集樣本進(jìn)行一次周期(7天)的滾動(dòng)預(yù)測(cè),獲得用戶(hù)未來(lái)一周內(nèi)各類(lèi)網(wǎng)站訪問(wèn)時(shí)長(zhǎng)的預(yù)測(cè)結(jié)果。為評(píng)估預(yù)測(cè)效果,采用回溯分析法,即將預(yù)測(cè)結(jié)果與實(shí)際觀測(cè)值進(jìn)行對(duì)比。設(shè)定相對(duì)誤差在20%以?xún)?nèi)為準(zhǔn)確預(yù)測(cè)。統(tǒng)計(jì)分析表明,學(xué)習(xí)類(lèi)網(wǎng)站訪問(wèn)時(shí)長(zhǎng)的平均預(yù)測(cè)準(zhǔn)確率最高,達(dá)到77.2%;生活服務(wù)類(lèi)網(wǎng)站預(yù)測(cè)準(zhǔn)確率次之,為73.1%;娛樂(lè)站點(diǎn)的準(zhǔn)確率相對(duì)較低,僅為62.3%。這主要是因?yàn)榍皟烧咴L問(wèn)模式更加規(guī)律,預(yù)測(cè)難度較小。而對(duì)部分用戶(hù)可能出現(xiàn)劇烈變化的突發(fā)性瀏覽行為,例如針對(duì)熱點(diǎn)事件的訪問(wèn),預(yù)測(cè)結(jié)果偏差較大。此外,通過(guò)采樣統(tǒng)計(jì)得出不同類(lèi)別用戶(hù)的平均預(yù)測(cè)準(zhǔn)確率。其中,“學(xué)習(xí)型”用戶(hù)的訪問(wèn)時(shí)長(zhǎng)預(yù)測(cè)整體準(zhǔn)確率最高,可達(dá)81.7%,RMSE為3.2;“生活型”用戶(hù)次之,預(yù)測(cè)準(zhǔn)確率為76.3%,RMSE為4.1;“娛樂(lè)型”用戶(hù)準(zhǔn)確率相對(duì)最低,為69.5%,RMSE為6.3。原因在于前兩類(lèi)用戶(hù)網(wǎng)上行為更加穩(wěn)定,而后者可能更為隨機(jī)變動(dòng)。收斂性分析顯示,隨著模型訓(xùn)練輪數(shù)的增加,測(cè)試集上的預(yù)測(cè)效果持續(xù)改進(jìn),誤差降低。這驗(yàn)證了所構(gòu)建模型的有效性。但對(duì)某些用戶(hù),預(yù)測(cè)準(zhǔn)確率提升空間仍較大,需要引入個(gè)性化特征以進(jìn)一步優(yōu)化。
(三)模型性能優(yōu)化
通過(guò)前述預(yù)測(cè)結(jié)果分析可知,構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)大部分用戶(hù)一周網(wǎng)絡(luò)訪問(wèn)行為預(yù)測(cè)效果良好,但對(duì)個(gè)別用戶(hù)準(zhǔn)確率有待提升。因此本研究采用個(gè)性化特征引入的方法進(jìn)行模型優(yōu)化。具體而言,在模型輸入端加入表示用戶(hù)偏好的特征向量,其維度為各類(lèi)網(wǎng)站類(lèi)別的關(guān)聯(lián)度,根據(jù)用戶(hù)歷史訪問(wèn)記錄采用詞袋模型獲得,維度為20。此外,調(diào)整模型隱藏層單元數(shù)為[512, 256],并在輸出層前加入dropout層以防止過(guò)擬合,dropout比率為0.3。同時(shí),縮短數(shù)據(jù)樣本采樣窗口為7天,加快訓(xùn)練過(guò)程。模型訓(xùn)練過(guò)程與上同。優(yōu)化后模型的整體測(cè)試集預(yù)測(cè)準(zhǔn)確率提高到81.5%,其中“學(xué)習(xí)型”用戶(hù)達(dá)到88.2%,“生活型”用戶(hù)達(dá)到84.1%,“娛樂(lè)型”用戶(hù)達(dá)到76.7%。相較而言,個(gè)性化模型對(duì)偏好更加明確的前兩類(lèi)用戶(hù)提升更大,后一類(lèi)型用戶(hù)提升相對(duì)較小。統(tǒng)計(jì)指標(biāo)顯示,優(yōu)化模型的MSE下降為28.2,RMSE下降為4.3,R2分?jǐn)?shù)提高到0.885。由此可見(jiàn),加入表示用戶(hù)興趣偏好的個(gè)性化特征,重新調(diào)整模型結(jié)構(gòu)與訓(xùn)練參數(shù)的優(yōu)化策略明顯提高了基于深度學(xué)習(xí)的網(wǎng)絡(luò)行為預(yù)測(cè)效果,使之能夠適應(yīng)個(gè)體差異,為后續(xù)的精準(zhǔn)網(wǎng)絡(luò)服務(wù)營(yíng)銷(xiāo)決策提供支撐。
四、結(jié)語(yǔ)
本研究針對(duì)大學(xué)生這一重要的網(wǎng)絡(luò)用戶(hù)群體,通過(guò)海量網(wǎng)絡(luò)流量數(shù)據(jù)與用戶(hù)行為日志的采集與關(guān)聯(lián)分析,提取出680個(gè)有效反映大學(xué)生網(wǎng)絡(luò)使用特征的維度?;谶@些豐富的特征,研究構(gòu)建了多種機(jī)器學(xué)習(xí)模型來(lái)對(duì)大學(xué)生的網(wǎng)絡(luò)使用行為進(jìn)行有效的分類(lèi)與預(yù)測(cè)。結(jié)果表明,集成學(xué)習(xí)框架下構(gòu)建的分類(lèi)器可以達(dá)到87.2%的準(zhǔn)確率;而加入個(gè)性化特征的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,一周網(wǎng)絡(luò)訪問(wèn)行為的預(yù)測(cè)準(zhǔn)確率可達(dá)81.5%。研究驗(yàn)證了基于用戶(hù)網(wǎng)絡(luò)行為大數(shù)據(jù)的機(jī)器學(xué)習(xí)方法在精細(xì)化用戶(hù)畫(huà)像分析與個(gè)性化服務(wù)推薦方面的應(yīng)用價(jià)值。展望未來(lái),隨著采集數(shù)據(jù)量與樣本規(guī)模的進(jìn)一步擴(kuò)大,深度學(xué)習(xí)技術(shù)的發(fā)展,預(yù)測(cè)與決策的精度還可提升。
參考文獻(xiàn):
[1] 張鐙月,彭超華. 基于有監(jiān)督機(jī)器學(xué)習(xí)的旅客購(gòu)票行為建模分析[J]. 科技與創(chuàng)新,2023(22):65-69+77.
[2] 王媛. 基于多源數(shù)據(jù)挖掘的高校大學(xué)生行為分析及預(yù)測(cè)研究[D]. 北京:北京化工大學(xué),2023.
[3] 張樂(lè)飛,羅勇,杜博. 機(jī)器學(xué)習(xí)教學(xué)改革與人工智能人才培養(yǎng)[J]. 中國(guó)大學(xué)教學(xué),2023(05):18-21.