亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

應(yīng)用Web日志挖據(jù)構(gòu)建阿勒泰電大網(wǎng)絡(luò)個性化教育

2016-07-25 09:32:02榮新疆阿勒泰廣播電視大學(xué)阿勒泰836500

電大理工 2016年2期

陳榮新疆阿勒泰廣播電視大學(xué) （阿勒泰 836500）

陳榮
新疆阿勒泰廣播電視大學(xué) （阿勒泰 836500）

摘要以阿勒泰電大網(wǎng)絡(luò)為研究對象，對網(wǎng)絡(luò)教育用戶在學(xué)習(xí)過程中形成的日志信息進行挖掘，探討 Web日志挖掘的概念及其形成過程，就如何滿足不同類型學(xué)習(xí)用戶的需求，實現(xiàn)網(wǎng)絡(luò)教育的個性化。

關(guān)鍵詞阿勒泰電大；WEB日志挖掘；網(wǎng)絡(luò)教育；個性化

Web日志挖掘是在 Web環(huán)境下通過數(shù)據(jù)挖掘技術(shù)，從 Web日志文件中抽取非平凡模式與隱性數(shù)據(jù)，這些被挖掘的信息數(shù)據(jù)是未知且具有潛在應(yīng)用價值的。Web日志挖掘也是一門綜合技術(shù)，它是Web技術(shù)、數(shù)據(jù)挖掘技術(shù)、信息科學(xué)等多領(lǐng)域交叉而成的。Web日志挖掘的意義在于：可分類頁面內(nèi)容；2可得出有關(guān)用戶的訪問行為、方式信息；可根據(jù)挖掘出用戶信息為絡(luò)課程設(shè)計者和教師改進網(wǎng)絡(luò)課程提供意見，從而滿足學(xué)習(xí)需求。基本的 Web日志挖掘流程分源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析四個階段。

1 Web日志挖掘在個性化網(wǎng)絡(luò)教育中的源數(shù)據(jù)收集

以阿勒泰電大網(wǎng)絡(luò)遠程教育網(wǎng)站為例，用戶訪問留下諸多數(shù)據(jù)信息，包括IP地址、服務(wù)器名、訪問時間、用戶名、出錯信息等，它們所形成的日志文件主要由以下類型：

（1）q Server log：

（2）Error log：

指存取請求失敗的數(shù)據(jù)，如連接丟失，授權(quán)失敗，超時等。

（3）Cookie

一種客戶端持有的 Web server產(chǎn)生的標(biāo)記，表示用戶間會話，可自動標(biāo)記和跟蹤站點訪問者。

2 Web日志挖掘在個性化網(wǎng)絡(luò)教育中的數(shù)據(jù)預(yù)處理

通過圖 2阿勒泰電大遠程教育網(wǎng)結(jié)構(gòu)圖和表 1的訪問序列可直觀闡述數(shù)據(jù)如何預(yù)處理。

圖2 阿勒泰電大遠程教育網(wǎng)結(jié)構(gòu)圖

2.1 用戶識別

（1）可根據(jù)用戶瀏覽器或操作系統(tǒng)來識別

（2）可根據(jù)用戶請求的引用與站點的網(wǎng)頁拓撲關(guān)系來識別用戶

（3）可根據(jù)學(xué)用戶的登陸 ID號來識別。

2.2 會話識別

識別出同一用戶的全部訪問后，接下來需要劃分出不同會話。如時間跨度很大的記錄，可能是用戶多次訪問站點的結(jié)果。如何將用戶的訪問記錄劃分成單個會話需要依靠會話識別。時間窗方式是最簡單的方法，如果不同訪問間的時差超過某個值，可推出用戶開啟開其他會話。仍以圖 2和表 1為例，日志中用戶 1的時間窗界定為使用時間30分鐘，在前兩個的 1小時之后最后兩個引用發(fā)生，因此可識別為兩個會話。4個會話分別是 A-B-F-O-G， A-D，A-B-C-G， L-R。

2.3 路徑修補

重要的訪問信息是否被遺漏是事務(wù)識別的另一問題，稱為路徑修補。如果某被請求頁面，無法連接到前一個，但前一個頁面卻被列在歷史請求中，可以認定用戶通過向后援引緩存頁面實現(xiàn)了要連接的頁面。同樣以圖 2和表 1為例，頁面 G無法直接連接頁面 O，日志分析時，可假設(shè)通過 B，G被訪問，這說明用戶返回到 B，再到 G。所以用戶1的會話中包含頁面F和B 。通過路徑修補可以得出，用戶1的會話有A-B-F-O-F-B-G， A-D，A-B-A-C-J， L-R。

2.4 事務(wù)識別

用戶的事務(wù)文件被劃分成多個有意義的用戶訪問序列片斷就是事務(wù)識別。常見識別方法如下：

（1）引用時長（Reference Length）

用戶在頁面上的使用時間與該頁面的輔助頁面或內(nèi)容頁面呈相關(guān)性。試驗得知，通常在輔助頁面上使用的時間越短，內(nèi)容頁面耗費時間越長。使用大可能估計算法，輔助頁面在日志中所占的比例的估計值，可通過劃分輔助頁面和內(nèi)容頁面的劃分時間來得出。劃分時間一旦確定，對照劃分時間，頁面可劃分為內(nèi)容或輔助兩類，不同事務(wù)可被劃分而出。

（2）最大前向指引（Maximal Forward Reference）

一組頁面的訪問可定義為一個事務(wù)，可從用戶的初次引用到向后回溯為止。

前向指引是指一個頁面從未在事務(wù)集中出現(xiàn)，后向指引指是指一個頁面已在前面事務(wù)中出現(xiàn)。一個前向指引出現(xiàn)標(biāo)志著一個新的事務(wù)開始（前提：頁面是最大前向指引頁面，輔助頁面是導(dǎo)向最大前向指引頁面的頁面）。

（3）時間窗（Time Window）

通過談定訪問間隔是否大于某特定參數(shù)來劃分事務(wù)的方法可稱為時間窗。

2.5 格式化

當(dāng)獲得一組事務(wù)集后，將處理結(jié)果表示成適合挖掘需要的形式就是格式化。如對于關(guān)聯(lián)規(guī)則挖掘時間屬性是無用的，而把它格式化成適于關(guān)聯(lián)規(guī)則，元組中的時間屬性是不可忽略的。

3 Web日志挖掘在個性化網(wǎng)絡(luò)教育中的模式發(fā)現(xiàn)

繼續(xù)依據(jù)阿勒泰電大網(wǎng)絡(luò)信息，完成用戶會話識別和事務(wù)識別后，就可進行模式發(fā)現(xiàn)，常用技術(shù)包括有：

3.1 路徑分析

路徑分析可判定在阿勒泰電大網(wǎng)絡(luò)遠程教育站點中最頻繁訪問的路徑，其它路徑的信息也可判定得出。例如： 70%的用戶多是從/CBEcourse開始，經(jīng) 過 /CBEcourse/SimpleDescription， / CBEcourse/chapter1，最后訪問/CBEcourse/chapter2；65%的用戶瀏覽小于等于4個頁面內(nèi)容后就離開了。通過以上信息，可改進站點的設(shè)計結(jié)構(gòu)。

3.2 關(guān)聯(lián)規(guī)則

在 Web的訪問事務(wù)中使用關(guān)聯(lián)規(guī)則法，可以發(fā)現(xiàn)： 40% 的用戶訪問頁面/CBEcourse/chapter1 時，也訪問了 /CBEcourse/chapter8； 30%的用戶在訪問 /CBEcourse/SimpleDescription時，也訪問了/CBEcourse/reference。通過上述相關(guān)性，站點的Web空間可以更好的組織，教學(xué)策略也會被有效執(zhí)行。

3.3 序列模式

有序的事務(wù)集中，“一些項跟隨另一個項”的內(nèi)部事務(wù)模式就屬于序列模式。例如：的用戶訪問/ CBEcourse/chapter1中，在過去的一個星期里80%的人曾在 yahoo中用查詢“計算機輔助教育”。找到序列模式，可預(yù)測出用戶的訪問模式，對此可針對性的進行教學(xué)。

3.4 分類和聚類

分類用戶可用到分類規(guī)則，可對某個特殊群體的公共屬性給出識別性描述。如：學(xué)過/CBEcourse/ chapter2的用戶中40%是 20-30的年輕教師。聚類分析是辨別出具有相似特性的用戶的規(guī)則。在 Web事務(wù)日志中，聚類用戶信息有利于開發(fā)設(shè)計新的教學(xué)模式和用戶群。

4 模式分析

在Web日志挖掘中，模式分析是最后一項步驟，也是非常重要的。選擇和觀察后，可將現(xiàn)有發(fā)現(xiàn)的規(guī)則、模式與統(tǒng)計值轉(zhuǎn)換為知識，在此基礎(chǔ)上進行模式分析，即可得出有價值的模式，如某種具有吸引力的規(guī)則、模式，最后利用可視化技術(shù)，向用戶提供圖形界面方式的內(nèi)容。

5 結(jié)語

在阿勒泰電大網(wǎng)絡(luò)中，Web日志挖掘?qū)nternet、WWW 和數(shù)據(jù)挖掘結(jié)合起來，是前沿研究領(lǐng)域，也是一種新技術(shù)。我們發(fā)現(xiàn)，它在個性化網(wǎng)絡(luò)教育中可廣泛應(yīng)用，在用戶信息提取、教學(xué)內(nèi)容設(shè)計、站點的分析和設(shè)計方面，其應(yīng)用遷建也是很好的。

參考文獻

［1］邢東山，沈鈞毅，宋擒豹.從Web日志中挖掘用戶瀏覽偏愛路徑［J］.計算機學(xué)報.2013（11）

［2］李燕，馮博琴，魯曉鋒.Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)［J］.計算機工程.2009（11）

［3］李烈彪，張海鵬，周亞峰.Web日志挖掘中數(shù)據(jù)預(yù)處理方法的研究［J］.計算機產(chǎn)技術(shù)與發(fā)展.2007（7）.

（責(zé)任編輯：興安）

中圖分類號：G431

文獻標(biāo)識碼：A

文章編號：1003-3319（2016）02-00022-02