朱瑯 濟(jì)寧市第一人民醫(yī)院
Web日志中包含了大量的用戶瀏覽信息,如何針對Web日志中的用戶行為數(shù)據(jù),通過有效的數(shù)據(jù)
挖掘方法從中分析用戶訪問數(shù)據(jù),并根據(jù)分析結(jié)論對現(xiàn)有網(wǎng)站的結(jié)構(gòu)設(shè)計和交互設(shè)計提出有效的改進(jìn)建議,成為現(xiàn)有網(wǎng)站面臨的一個非常重要的課題?;谌罩镜难芯糠较蛑饕芯W(wǎng)站監(jiān)控、網(wǎng)絡(luò)安全、信息推薦等。
當(dāng)前我院研發(fā)的員工技術(shù)檔案系統(tǒng)實現(xiàn)了人力資源部、醫(yī)務(wù)部、護(hù)理部和藥學(xué)部相關(guān)科室的協(xié)同辦公,共享部分信息數(shù)據(jù),系統(tǒng)集成了職工的人事信息、職稱、學(xué)歷、培訓(xùn)、手術(shù)授權(quán)等數(shù)據(jù),并向全院職工開放個人查詢和校對的權(quán)限,得到了職工廣泛使用。本文介紹了一種基于我院員工技術(shù)檔案系統(tǒng)采集的員工行為日志,分析當(dāng)前醫(yī)院職工的行為特征并進(jìn)行可視化展示,預(yù)測未來一段時間內(nèi)職工可能關(guān)注的熱點信息,為科室下一步的工作安排提供有效的參考。
用戶的行為日志是指用戶每次訪問網(wǎng)站時,所有的行為數(shù)據(jù),包括:訪問、瀏覽、搜索、點擊、購買商品、收藏、評論等。通過采集并分析用戶行為日志,不僅可以描繪出用戶的行為軌跡,還可以挖掘用戶的興趣點,從而可以向用戶做出精確的信息推薦,提供個性化服務(wù),提高用戶粘性。
一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),同時提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方的能力。
記錄的日志信息主要包括:系統(tǒng)特征,比如所采用的操作系統(tǒng)、瀏覽器、域名和訪問速度等;訪問特征,包括停留時間、點擊的URL、頁面標(biāo)簽等;來源特征,包括來訪URL,來訪IP等。行為日志的深度分成四個級別:接口級,每次調(diào)用接口時記錄;行為級,用戶操作項目任何操作記錄,規(guī)定每一個操作對應(yīng)一個編號,前端緩存,批量傳入;點擊級,記錄每一次點擊的信息,包括沒有點擊功能點,包含點擊的位置信息; 細(xì)微級,網(wǎng)頁等鼠標(biāo)的留存位置等。不同的等級,獲取的數(shù)據(jù)的粗粒度不同,等級越低,獲取的數(shù)據(jù)也就越少,能分析出來的東西也就越少;等級越高,獲取的數(shù)據(jù)量也就很大,處理起來也就越麻煩,相應(yīng)的可以做到很多粗粒度等級所做不到的東西。
本文采用Log4net作為日志采集的工具。Log4net是.Net下一個非常優(yōu)秀的開源日志記錄組件,記錄日志的功能非常強(qiáng)大,它可以將日志分不同的等級,以不同的格式,輸出到不同的媒介。針對員工技術(shù)檔案系統(tǒng)的功能設(shè)計,以及日志分析功能的設(shè)計方案,日志深度采用接口級和行為級兩個級別,從不同粒度進(jìn)行記錄。為了實現(xiàn)分析某一時間段職工集中訪問的信息類型數(shù)據(jù),日志信息采集格式設(shè)計為:訪問時間,訪問IP,登錄賬號,訪問模塊,瀏覽器類型,字段信息間以制表符進(jìn)行分隔,其中訪問模塊主要指職工的信息類型,即基本信息、學(xué)歷學(xué)位、工作經(jīng)歷、職稱聘任、培訓(xùn)考核,手術(shù)授權(quán)。這樣,以結(jié)構(gòu)化格式存儲日志,方便進(jìn)一步的統(tǒng)計分析。采集到的日志信息輸出到txt文件中,以文件形式保存,以第一條日志記錄的時間和最后一條日志記錄的時間合并的字符串作為文件名。根據(jù)系統(tǒng)多個時間段的訪問頻率來看,每10000條日志記錄成一個txt文件是最好的選擇,避免了一個txt文件中日志時間跨度過長的問題,或者固定時間段內(nèi)日志數(shù)量忽多忽少的問題。
日志的可視化工具采用百度研發(fā)的ECharts,ECharts是一個使用JavaScript實現(xiàn)的開源可視化庫,可以流暢的運行在 PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器,提供了常規(guī)的折線圖、柱狀圖、散點圖、餅圖、K線圖,用于統(tǒng)計的盒形圖等多種圖形。
日志檢索功能是對采集到的日志可以按條件檢索出來進(jìn)行統(tǒng)計分析,本文設(shè)計了根據(jù)時間段檢索、根據(jù)訪問模塊檢索、根據(jù)登錄賬號檢索的功能。系統(tǒng)以當(dāng)前時間為終止時間,默認(rèn)將一個月前作為起始時間的日志文件全部讀入內(nèi)存,設(shè)置檢索時間段查詢區(qū)段日志,或者查看某個訪問模塊的瀏數(shù)據(jù)。
利用ECharts工具,將查詢到的日志分析統(tǒng)計后進(jìn)行圖形化展示。系統(tǒng)主要提供了以下幾種數(shù)據(jù)圖形:以柱狀圖展示某查詢時間段內(nèi)各個訪問模塊的訪問次數(shù),可以直觀看出時間段內(nèi)職工重點關(guān)注的模塊信息;以柱狀圖展示某查詢時間段內(nèi)某個職工瀏覽各個訪問模塊的訪問次數(shù);以折線圖展示系統(tǒng)訪問次數(shù),時間間隔為24小時,直觀統(tǒng)計系統(tǒng)訪問量;通過匯總登錄IP以餅狀圖展示各個科室關(guān)注的模塊信息。
利用日志的分析與可視化展示,直觀方便了展示信息熱點,為科室下一步工作安排提供重要參考,例如臨近每年職稱晉升的報名時間點,系統(tǒng)瀏覽職稱聘任模塊的日志記錄逐漸增多,與此對應(yīng)撥打電話到主管科室咨詢的次數(shù)也逐漸增多,因此通過直觀查看日志統(tǒng)計分析圖表可以預(yù)測科室接下來的工作熱點,提早進(jìn)行工作安排。今后可以對日志分析功能進(jìn)一步改進(jìn),利用日志數(shù)據(jù)增加推薦功能,提高個性化服務(wù)水平。