陳 榮新疆阿勒泰廣播電視大學(xué) (阿勒泰 836500)
?
應(yīng)用Web日志挖據(jù)構(gòu)建阿勒泰電大網(wǎng)絡(luò)個性化教育
陳 榮
新疆阿勒泰廣播電視大學(xué) (阿勒泰 836500)
摘 要以阿勒泰電大網(wǎng)絡(luò)為研究對象,對網(wǎng)絡(luò)教育用戶在學(xué)習(xí)過程中形成的日志信息進行挖掘,探討 Web日志挖掘的概念及其形成過程, 就如何滿足不同類型學(xué)習(xí)用戶的需求,實現(xiàn)網(wǎng)絡(luò)教育的個性化。
關(guān)鍵詞阿勒泰電大;WEB日志挖掘;網(wǎng)絡(luò)教育;個性化
Web日志挖掘是在 Web環(huán)境下通過數(shù)據(jù)挖掘技術(shù),從 Web日志文件中抽取非平凡模式與隱性數(shù)據(jù),這些被挖掘的信息數(shù)據(jù)是未知且具有潛在應(yīng)用價值的。Web日志挖掘也是一門綜合技術(shù),它是Web技術(shù)、數(shù)據(jù)挖掘技術(shù)、信息科學(xué)等多領(lǐng)域交叉而成的。Web日志挖掘的意義在于:可分類頁面內(nèi)容;2可得出有關(guān)用戶的訪問行為、方式信息;可根據(jù)挖掘出用戶信息為絡(luò)課程設(shè)計者和教師改進網(wǎng)絡(luò)課程提供意見,從而滿足學(xué)習(xí)需求。基本的 Web日志挖掘流程分源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析四個階段。
以阿勒泰電大網(wǎng)絡(luò)遠程教育網(wǎng)站為例,用戶訪問留下諸多數(shù)據(jù)信息,包括IP地址、服務(wù)器名、訪問時間、用戶名、出錯信息等,它們所形成的日志文件主要由以下類型:
(1)q Server log:
(2)Error log:
指存取請求失敗的數(shù)據(jù),如連接丟失,授權(quán)失敗,超時等。
(3)Cookie
一種客戶端持有的 Web server產(chǎn)生的標(biāo)記,表示用戶間會話,可自動標(biāo)記和跟蹤站點訪問者。
通過圖 2阿勒泰電大遠程教育網(wǎng)結(jié)構(gòu)圖和表 1的訪問序列可直觀闡述數(shù)據(jù)如何預(yù)處理。
圖2 阿勒泰電大遠程教育網(wǎng)結(jié)構(gòu)圖
2.1 用戶識別
(1)可根據(jù)用戶瀏覽器或操作系統(tǒng)來識別
(2)可根據(jù)用戶請求的引用與站點的網(wǎng)頁拓撲關(guān)系來識別用戶
(3)可根據(jù)學(xué)用戶的登陸 ID號來識別。
2.2 會話識別
識別出同一用戶的全部訪問后,接下來需要劃分出不同會話。如時間跨度很大的記錄,可能是用戶多次訪問站點的結(jié)果。 如何將用戶的訪問記錄劃分成單個會話需要依靠會話識別。 時間窗方式是最簡單的方法,如果不同訪問間的時差超過某個值,可推出用戶開啟開其他會話。 仍以圖 2和表 1為例,日志中用戶 1的時間窗界定為使用時間30分鐘,在前兩個的 1小時之后最后兩個引用發(fā)生,因此可識別為兩個會話。4個會話分別是 A-B-F-O-G, A-D,A-B-C-G, L-R。
2.3 路徑修補
重要的訪問信息是否被遺漏是事務(wù)識別的另一問題,稱為路徑修補。如果某被請求頁面,無法連接到前一個,但前一個頁面卻被列在歷史請求中,可以認定用戶通過向后援引緩存頁面實現(xiàn)了要連接的頁面。 同樣以圖 2和表 1為例,頁面 G無法直接連接頁面 O,日志分析時,可假設(shè)通過 B,G被訪問,這說明用戶返回到 B, 再到 G。 所以用戶1的 會話中包含頁面F和B 。通過路徑修補可以得出, 用戶1的會話有A-B-F-O-F-B-G, A-D,A-B-A-C-J, L-R。
2.4 事務(wù)識別
用戶的事務(wù)文件被劃分成多個有意義的用戶訪問序列片斷就是事務(wù)識別。常見識別方法如下:
(1)引用時長(Reference Length)
用戶在頁面上的使用時間與該頁面的輔助頁面或內(nèi)容頁面呈相關(guān)性。試驗得知,通常在輔助頁面上使用的時間越短,內(nèi)容頁面耗費時間越長。使用大可能估計算法,輔助頁面在日志中所占的比例的估計值,可通過劃分輔助頁面和內(nèi)容頁面的劃分時間來得出。劃分時間一旦確定,對照劃分時間,頁面可劃分為內(nèi)容或輔助兩類,不同事務(wù)可被劃分而出。
(2)最大前向指引(Maximal Forward Reference)
一組頁面的訪問可定義為一個事務(wù),可從用戶的初次引用到向后回溯為止。
前向指引是指一個頁面從未在事務(wù)集中出現(xiàn),后向指引指是指一個頁面已在前面事務(wù)中出現(xiàn)。一個前向指引出現(xiàn)標(biāo)志著一個新的事務(wù)開始(前提:頁面是最大前向指引頁面,輔助頁面是導(dǎo)向最大前向指引頁面的頁面)。
(3)時間窗(Time Window)
通過談定訪問間隔是否大于某特定參數(shù)來劃分事務(wù)的方法可稱為時間窗。
2.5 格式化
當(dāng)獲得一組事務(wù)集后,將處理結(jié)果表示成適合挖掘需要的形式就是格式化。如對于關(guān)聯(lián)規(guī)則挖掘時間屬性是無用的,而把它格式化成適于關(guān)聯(lián)規(guī)則,元組中的時間屬性是不可忽略的。
繼續(xù)依據(jù)阿勒泰電大網(wǎng)絡(luò)信息,完成用戶會話識別和事務(wù)識別后,就可進行模式發(fā)現(xiàn),常用技術(shù)包括有:
3.1 路徑分析
路徑分析可判定在阿勒泰電大網(wǎng)絡(luò)遠程教育站點中最頻繁訪問的路徑,其它路徑的信息也可判定得出。 例 如 : 70%的 用戶多是從/CBEcourse開始 , 經(jīng) 過 /CBEcourse/SimpleDescription, / CBEcourse/chapter1,最后訪問/CBEcourse/chapter2;65%的用戶瀏覽 小于等于4個頁面內(nèi)容后就離開了。通過以上信息,可改進站點的設(shè)計結(jié)構(gòu)。
3.2 關(guān)聯(lián)規(guī)則
在 Web的訪問事務(wù)中使用關(guān)聯(lián)規(guī)則法,可以發(fā)現(xiàn): 40% 的用戶 訪 問 頁 面/CBEcourse/chapter1 時 , 也 訪 問 了 /CBEcourse/chapter8; 30%的用戶在 訪 問 /CBEcourse/SimpleDescription時,也訪問了/CBEcourse/reference。通過上述相關(guān)性,站點的Web空間可以更好的組織,教學(xué)策略也會被有效執(zhí)行。
3.3 序列模式
有序的事務(wù)集中,“一些項跟隨另一個項”的內(nèi)部事務(wù)模式就屬于序列模式。例如:的用戶訪問/ CBEcourse/chapter1中,在過去的一個星期里80%的人曾在 yahoo中用查詢“計算機輔助教育”。 找到序列模式,可預(yù)測出用戶的訪問模式,對此可針對性的進行教學(xué)。
3.4 分類和聚類
分類用戶可用到分類規(guī)則,可對某個特殊群體的公共屬性給出識別性描述。如:學(xué)過/CBEcourse/ chapter2的用戶中40%是 20-30的年輕教師。聚類分析是辨別出具有相似特性的用戶的規(guī)則。在 Web事務(wù)日志中,聚類用戶信息有利于開發(fā)設(shè)計新的教學(xué)模式和用戶群。
在Web日志挖掘中,模式分析是最后一項步驟,也是非常重要的。選擇和觀察后,可將現(xiàn)有發(fā)現(xiàn)的規(guī)則、模式與統(tǒng)計值轉(zhuǎn)換為知識,在此基礎(chǔ)上進行模式分析,即可得出有價值的模式,如某種具有吸引力的規(guī)則、模式,最后利用可視化技術(shù),向用戶提供圖形界面方式的內(nèi)容。
在阿勒泰電大網(wǎng)絡(luò)中,Web日志挖掘?qū)nternet、WWW 和數(shù)據(jù)挖掘結(jié)合起來,是前沿研究領(lǐng)域,也是一種新技術(shù)。 我們發(fā)現(xiàn),它在個性化網(wǎng)絡(luò)教育中可廣泛應(yīng)用,在用戶信息提取、教學(xué)內(nèi)容設(shè)計、站點的分析和設(shè)計方面,其應(yīng)用遷建也是很好的。
參考文獻
[1]邢東山,沈鈞毅,宋擒豹.從Web日志中挖掘用戶瀏覽偏愛路徑[J].計算機學(xué)報.2013(11)
[2]李燕,馮博琴,魯曉鋒.Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].計算機工程.2009(11)
[3]李烈彪,張海鵬,周亞峰.Web日志挖掘中數(shù)據(jù)預(yù)處理方法的研究[J].計算機產(chǎn)技術(shù)與發(fā)展.2007(7).
(責(zé)任編輯:興安)
中圖分類號:G431
文獻標(biāo)識碼:A
文章編號:1003-3319(2016)02-00022-02