徐江紅,趙婉芳
(北京電子科技職業(yè)學(xué)院,北京 100016)
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,各種各樣網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的出現(xiàn),使用戶的學(xué)習(xí)越來越方便。借助于各種各樣的終端設(shè)備,用戶可以通過互聯(lián)網(wǎng)在校內(nèi)和校外方便的連接到校園網(wǎng)絡(luò)上,提取自己所需的資源,實(shí)現(xiàn)隨時(shí)隨地學(xué)習(xí)。與此同時(shí),隨著教學(xué)改革的不斷深入,許多院校都做了大量的課程開發(fā)工作,開發(fā)出像教師資源庫,專業(yè)資源庫、課程資源庫、素材庫等,這些資源作為各個(gè)專業(yè)課程建設(shè)的一部分,極大地豐富了校園網(wǎng)站上的教學(xué)資源,也成為用戶課下自主學(xué)習(xí)的重要資源。校園網(wǎng)站的設(shè)計(jì)能否吸引用戶對(duì)這些資源庫進(jìn)行訪問,在很大程度上影響著用戶自學(xué)實(shí)踐的效果。如何讓網(wǎng)站的設(shè)計(jì)更人性化、個(gè)性化,吸引用戶對(duì)網(wǎng)站訪問,使得這些資源能夠被有效地利用起來,是每一個(gè)院校網(wǎng)站亟待解決的問題。結(jié)合北京電子科技職業(yè)學(xué)院校園網(wǎng)站,針對(duì)用戶對(duì)網(wǎng)站資源庫上信息訪問情況,使用DPI 技術(shù)挖掘出用戶行為特征,提出基于用戶行為的網(wǎng)站設(shè)計(jì)的改進(jìn)策略。
在當(dāng)今高速大容量的Internet 環(huán)境中,有許多人使用日志挖掘技術(shù),對(duì)網(wǎng)站用戶行為進(jìn)行過研究,通過協(xié)議識(shí)別對(duì)網(wǎng)絡(luò)進(jìn)行流量控制、網(wǎng)絡(luò)計(jì)費(fèi)、內(nèi)容過濾、以及流量管理,以達(dá)到優(yōu)化網(wǎng)絡(luò)管理,優(yōu)化帶寬策略的目的。比如,清華大學(xué)岑榮偉老師的“基于日志挖掘的搜索引擎用戶行為分析”,四川理工學(xué)院李鶯老師的“新一代WLAN 網(wǎng)絡(luò)監(jiān)控與用戶行為分析系統(tǒng)”等。他們研究的方向無一例外地都是以商業(yè)網(wǎng)站為背景,或研究分析移動(dòng)用戶的行為,或研究分析因特網(wǎng)的用戶行為,用以商業(yè)網(wǎng)站更好地優(yōu)化自身的網(wǎng)絡(luò)。
與此同時(shí),借助校園網(wǎng)站中優(yōu)秀資源庫完善課堂學(xué)習(xí)已經(jīng)成為一種必然的發(fā)展趨勢(shì)。對(duì)于院校網(wǎng)站而言,用戶對(duì)網(wǎng)站的訪問量、瀏覽興趣和行為模式直接成為網(wǎng)站設(shè)計(jì)的導(dǎo)航工具。北京電子科技職業(yè)學(xué)院作為國(guó)家級(jí)高職示范性學(xué)院,其課程開發(fā)一直走在高職隊(duì)伍的前列。學(xué)院針對(duì)每個(gè)專業(yè)都開發(fā)了大量的精品課程和網(wǎng)絡(luò)課程教學(xué)資源,大量的專業(yè)培養(yǎng)方案、課程教案、PPT、教學(xué)案例、動(dòng)畫演示、素材、實(shí)驗(yàn)方案、教學(xué)視頻等已經(jīng)掛到校園網(wǎng)絡(luò)上,供任課教師和學(xué)生學(xué)習(xí)之用。那么,如何合理設(shè)計(jì)優(yōu)化校園網(wǎng)站,以最大限度地吸引師生對(duì)網(wǎng)站資源的訪問,是不容忽視的課題。本課題以北京電子科技職業(yè)學(xué)院校園網(wǎng)站為背景對(duì)用戶訪問網(wǎng)站的行為做研究,通過收集和分析用戶訪問網(wǎng)站信息,發(fā)現(xiàn)用戶的瀏覽興趣和行為意圖,為web 系統(tǒng)的管理者提供策略,優(yōu)化Web 系統(tǒng)性能,改善web 站點(diǎn)結(jié)構(gòu),調(diào)整網(wǎng)頁的鏈接和內(nèi)容,并能向用戶提供個(gè)性化服務(wù)。總體來看,本研究與前人研究的不同有以下三點(diǎn):
(1)面向?qū)ο蟛煌?。前人研究的是商業(yè)網(wǎng)站用戶行為,而本研究是結(jié)合自己學(xué)院網(wǎng)站,研究用戶在校園網(wǎng)站上的用戶行為。
(2)采用的技術(shù)不同。前人研究是基于P2P 技術(shù),采用日志挖掘技術(shù)進(jìn)行研究;本研究基于DPI 技術(shù),對(duì)交換機(jī)端口的鏡像信息進(jìn)行抓包研究。DPI技術(shù)作為目前最新的協(xié)議識(shí)別技術(shù),應(yīng)用到校園網(wǎng)絡(luò)的用戶行為研究尚屬首次。
(3)研究的目的不同。前人研究網(wǎng)站用戶行為的目的是調(diào)控網(wǎng)絡(luò)流量和網(wǎng)絡(luò)計(jì)費(fèi);本研究的目的是優(yōu)化校園網(wǎng)站,優(yōu)化管理,優(yōu)化資源,更好地為用戶服務(wù)。
DPI(Deep Packet Inspect)稱為深度包檢測(cè)。所謂深度是和普通的報(bào)文分析層次相比較而言的,普通報(bào)文檢測(cè)僅分析IP 包4 層以下的內(nèi)容,包括源地址、目的地址、源端口、目的端口以及協(xié)議類型,而DPI 除了對(duì)前面的層次分析外,還增加了應(yīng)用層分析,識(shí)別各種應(yīng)用及其內(nèi)容。當(dāng)IP 數(shù)據(jù)包、TCP 或UDP 數(shù)據(jù)流經(jīng)過基于DPI 技術(shù)的帶寬管理系統(tǒng)時(shí),該系統(tǒng)通過深入讀取IP 包載荷的內(nèi)容來對(duì)OSI7 層協(xié)議中的應(yīng)用層信息進(jìn)行重組,從而得到整個(gè)應(yīng)用程序的內(nèi)容,對(duì)流量中的具體應(yīng)用類型和協(xié)議做到比較準(zhǔn)確的識(shí)別,然后按照系統(tǒng)定義的管理策略對(duì)流量進(jìn)行整形操作,從而有效管理網(wǎng)絡(luò)帶寬。DPI技術(shù)的關(guān)鍵能高效識(shí)別出網(wǎng)絡(luò)上的各種應(yīng)用,與日志挖掘技術(shù)相比較,其優(yōu)點(diǎn)包括:準(zhǔn)確性高、健壯性好、具有分類功能。準(zhǔn)確性高是由于該方法執(zhí)行精確特征匹配,因此極少存在誤判問題。健壯性好是由于可以處理數(shù)據(jù)包丟失、重組等,因此能適應(yīng)如今復(fù)雜的網(wǎng)絡(luò)應(yīng)用。具有分類功能是由于深層數(shù)據(jù)包檢測(cè)技術(shù)可以依據(jù)不同應(yīng)用的載荷特征來準(zhǔn)確分類各網(wǎng)絡(luò)應(yīng)用,因此可以為實(shí)施流量監(jiān)管策略提供準(zhǔn)確的信息。
本研究基于DPI 技術(shù),通過利用交換機(jī)端口鏡像,對(duì)網(wǎng)站使用數(shù)據(jù)挖掘技術(shù),收集并處理相關(guān)的數(shù)據(jù)信息,對(duì)用戶的行為和訪問意向進(jìn)行研究,發(fā)現(xiàn)用戶對(duì)網(wǎng)站的訪問模式和訪問趨勢(shì),并以此為依據(jù),及時(shí)調(diào)整網(wǎng)站的設(shè)計(jì)風(fēng)格和內(nèi)容,改善網(wǎng)站結(jié)構(gòu),調(diào)整內(nèi)容設(shè)置,更快捷地將信息提供給用戶,讓網(wǎng)站上的資源能夠更好地反映用戶需求,更好地服務(wù)于用戶。
DPI 系統(tǒng)在校園網(wǎng)中部署的位置和方式非常重要,不能因?yàn)镈PI 系統(tǒng)的加入,影響整個(gè)校園網(wǎng)絡(luò)的性能。因?yàn)镈PI 系統(tǒng)是對(duì)需要研究的數(shù)據(jù)流做實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的深度檢測(cè),如果部署的位置和方式不合適,使DPI 系統(tǒng)成為全網(wǎng)性能和可靠性的瓶頸,給網(wǎng)絡(luò)帶來沉重的負(fù)擔(dān),甚至?xí)?dǎo)致網(wǎng)絡(luò)的癱瘓。DPI系統(tǒng)的接入位置主要考慮盡可能只讓需要研究的數(shù)據(jù)包被采集,而不需要的數(shù)據(jù)不通過DPI 系統(tǒng)。部署的方式分串聯(lián)式和旁路式2種。其中,串聯(lián)式指DPI 系統(tǒng)被串聯(lián)在被監(jiān)控的鏈路中,實(shí)現(xiàn)網(wǎng)絡(luò)業(yè)務(wù)識(shí)別和流量管理;旁路式指DPI 系統(tǒng)通過流量分離設(shè)備獲取被監(jiān)控鏈路的流量復(fù)本,實(shí)現(xiàn)網(wǎng)絡(luò)業(yè)務(wù)識(shí)別,并通過被監(jiān)控鏈路的預(yù)留接口實(shí)現(xiàn)流量管理的一種方式。在選擇部署方式上主要考慮是否影響設(shè)備的性能和網(wǎng)絡(luò)鏈路上的數(shù)據(jù)包流量。
校園網(wǎng)的各種資源庫信息存放在服務(wù)器中,而服務(wù)器作為校園網(wǎng)絡(luò)DMZ 區(qū)域,有獨(dú)立的IP 地址段,并通過接入層交換機(jī)連接到核心交換機(jī)上,因此,所有進(jìn)出服務(wù)器的信息流量都必須經(jīng)過核心交換機(jī)與服務(wù)器組所在的接入層交換機(jī)相連接的GE接口。基于校園網(wǎng)站的DPI 系統(tǒng)由數(shù)據(jù)采集系統(tǒng)和數(shù)據(jù)分析系統(tǒng)兩部分組成。數(shù)據(jù)采集系統(tǒng)提供對(duì)數(shù)據(jù)包的采集和識(shí)別功能,通過對(duì)核心交換機(jī)GE 接口做端口鏡像,采集進(jìn)出服務(wù)器的數(shù)據(jù)包,通過DPI技術(shù)識(shí)別并解析IP 數(shù)據(jù)包成網(wǎng)絡(luò)呼叫詳細(xì)記錄,記作CDR(Called Detail Record)文件。數(shù)據(jù)分析功能提供對(duì)采集系統(tǒng)中CDR 文件信息的讀取、入庫處理、統(tǒng)計(jì)分析,最終完成策略呈現(xiàn)??紤]到校園網(wǎng)絡(luò)中訪問教學(xué)資源信息流量不是特別大,鏡像端口業(yè)務(wù)不會(huì)影響核心交換機(jī)轉(zhuǎn)發(fā)數(shù)據(jù)的性能,因此,在本設(shè)計(jì)中采用旁路接入的方式,如圖1 所示,DPI 系統(tǒng)和原網(wǎng)絡(luò)轉(zhuǎn)發(fā)數(shù)據(jù)的通路形成并聯(lián)方式,DPI 系統(tǒng)不會(huì)改變現(xiàn)有數(shù)據(jù)流的流向,不影響數(shù)據(jù)包正常的出入,成為相對(duì)獨(dú)立的功能系統(tǒng)。流經(jīng)服務(wù)器的數(shù)據(jù)包一方面正常轉(zhuǎn)發(fā),另一方面被DPI 系統(tǒng)采集處理,互不干涉。
DPI 技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)包從數(shù)據(jù)鏈路層一直到應(yīng)用層數(shù)據(jù)深度挖掘,能夠關(guān)聯(lián)網(wǎng)站結(jié)構(gòu)和語義信息。通過對(duì)應(yīng)用層數(shù)據(jù)的檢測(cè)、采集,獲得IP 包源地址、IP 包目的地址、協(xié)議類型、端口號(hào)、URL 地址、訪問路徑,對(duì)采集到的這些信息進(jìn)行歸類,形成具體所需的數(shù)據(jù)庫字段,保存到數(shù)據(jù)庫文件,然后對(duì)數(shù)據(jù)庫中統(tǒng)計(jì)的信息進(jìn)行分析,獲知用戶訪問的興趣習(xí)慣特征,依據(jù)用戶行為指定網(wǎng)站優(yōu)化策略。本研究結(jié)合校園網(wǎng)站資源信息的特點(diǎn),進(jìn)行數(shù)據(jù)庫設(shè)計(jì)(如表1 所示)。其中數(shù)據(jù)來源有兩種,一種是直接采集數(shù)據(jù)包就可獲得的,包括IP 地址信息、端口號(hào)、URL、協(xié)議名稱、登錄登出時(shí)間、用戶訪問頻率;另一種通過對(duì)采集后的數(shù)據(jù)包處理可以得到,即由目的IP 關(guān)聯(lián)而成,包括停留時(shí)間、目標(biāo)課程、目的文件名、資源類型等。這些信息都直接記錄了用戶訪問行為,反映了用戶行為習(xí)慣和興趣特征。
圖1 DPI 系統(tǒng)部署結(jié)構(gòu)圖
表1 DPI 數(shù)據(jù)庫表
本DPI 系統(tǒng)設(shè)計(jì)前提是保證用戶對(duì)網(wǎng)絡(luò)的正常訪問,在此基礎(chǔ)上獲取用戶實(shí)時(shí)訪問行為流量,從中提取用戶行為特征,并對(duì)這些行為特征進(jìn)行歸類、入庫、分析,得到用戶行為個(gè)性模式和共性模式,依據(jù)用戶的個(gè)性模式,推出用戶個(gè)性化服務(wù)策略;依據(jù)共性模式,調(diào)整校園網(wǎng)站內(nèi)容設(shè)計(jì),從而實(shí)現(xiàn)更科學(xué)地管理校園網(wǎng)。具體說來,基于用戶行為研究的校園網(wǎng)站改進(jìn)策略,主要有兩個(gè)方面。
(1)根據(jù)用戶行為推出個(gè)性化路徑策略
本DPI 系統(tǒng)通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)流的“特征”識(shí)別、應(yīng)用層網(wǎng)關(guān)識(shí)別、行為模式識(shí)別,了解用戶的個(gè)人偏好和潛在需求。例如,該用戶訪問時(shí)段、通過FTP服務(wù)器訪問還是頁面導(dǎo)航進(jìn)入、訪問資源所屬專業(yè)和課程名稱、對(duì)資源是在線瀏覽還是下載、從校內(nèi)訪問還是校外訪問等,繼而形成訪問習(xí)慣記錄保留到數(shù)據(jù)庫中,生成用戶個(gè)性化路徑策略。這樣當(dāng)用戶再次訪問網(wǎng)站時(shí),有針對(duì)性地按照訪問習(xí)慣迅速為用戶優(yōu)先定位到習(xí)慣訪問資源。通過DPI 系統(tǒng)對(duì)每個(gè)用戶訪問Web 頁面行為作深度挖掘和精細(xì)分析,獲知用戶的個(gè)性化習(xí)慣特征,依據(jù)用戶習(xí)慣特征生成的個(gè)性化路徑策略使網(wǎng)站服務(wù)更加主動(dòng)、豐富準(zhǔn)確,這樣可以大大節(jié)省用戶的訪問時(shí)間,提升用戶對(duì)校園網(wǎng)站的滿意度及忠誠(chéng)度。
(2)依據(jù)用戶的共性特征,調(diào)整網(wǎng)站內(nèi)容
網(wǎng)站上資源庫的內(nèi)容眾多,資源形式各異,涉及到不同學(xué)院不同專業(yè),通過對(duì)用戶行為的深度解析,可以統(tǒng)計(jì)分析哪些專業(yè)的網(wǎng)絡(luò)資源利用率高,哪些資源形式是用戶喜歡訪問的。例如經(jīng)常訪問網(wǎng)站的用戶身份,哪些專業(yè)的資源利用率更高,是否為正在修或者教的課程,課程是否為網(wǎng)絡(luò)課程或者精品課程。在素材、PPT、視頻、動(dòng)畫、課業(yè)等多種形式的資源訪問頻率有什么不同等。應(yīng)該說,用戶對(duì)網(wǎng)站資源的共性需求一定程度上反映了對(duì)所訪問資源形式和內(nèi)容的認(rèn)可度。學(xué)院根據(jù)用戶對(duì)資源的興趣特征,出臺(tái)鼓勵(lì)政策,對(duì)課程開發(fā)方向、內(nèi)容、形式等做調(diào)整,從而實(shí)現(xiàn)課程開發(fā)資源與用戶需求相匹配。例如如果統(tǒng)計(jì)出相對(duì)普通課程,網(wǎng)絡(luò)課程和精品課程資源訪問人數(shù)多,說明網(wǎng)絡(luò)課程和精品課程能很好地激發(fā)用戶對(duì)課程資源訪問的主動(dòng)性,這樣就可以得出從課程設(shè)計(jì)上,需要更多地變非網(wǎng)絡(luò)課程非精品課程為網(wǎng)絡(luò)課程和精品課程,從而出臺(tái)政策鼓勵(lì)教師們開發(fā)網(wǎng)絡(luò)課程和精品課程。
如何更加有效地利用校園網(wǎng)站資源為用戶提供優(yōu)質(zhì)的服務(wù),提升用戶對(duì)校園網(wǎng)站的滿意度,需要對(duì)校園網(wǎng)站用戶行為進(jìn)行深入挖掘研究,從用戶的興趣、習(xí)慣和需求出發(fā)建設(shè)校園網(wǎng)站。結(jié)合DPI 技術(shù),從DPI 系統(tǒng)部署、數(shù)據(jù)庫設(shè)計(jì)和網(wǎng)站優(yōu)化策略設(shè)計(jì)三個(gè)方面進(jìn)行了分析和設(shè)計(jì)。本研究最大的創(chuàng)新點(diǎn)是,把數(shù)據(jù)挖掘的目標(biāo)定位在改進(jìn)網(wǎng)站建設(shè)上,而不是控制網(wǎng)絡(luò)流量和帶寬。挖掘用戶行為是很復(fù)雜的過程,下一步將深入研究具體的挖掘算法,使DPI 系統(tǒng)的設(shè)計(jì)更具實(shí)效性和可行性。
[1]徐衛(wèi),陳麗亞,劉功申.基于用戶行為分析的網(wǎng)站廣告投放策略[J].計(jì)算機(jī)工程語應(yīng)用,2006(28):225-226.
[2]朱霖.深度包檢測(cè)系統(tǒng)(DP1)在江蘇有線網(wǎng)絡(luò)中的應(yīng)用[J].江蘇科技信息,2012(5):30-33.
[3]范智勇.基于用戶興趣度的校園網(wǎng)帶寬管理策略應(yīng)用研究[J].計(jì)算機(jī)與現(xiàn)代化,2012(7):127-131.