亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于用戶訪問序列挖掘的站點(diǎn)路徑優(yōu)化分析

2009-04-27 10:03:32楊思

圖書館界 2009年1期

楊　思

[摘要]由于網(wǎng)站的結(jié)構(gòu)設(shè)計(jì)，對(duì)特定用戶而言信息獲取的代價(jià)與所經(jīng)過的瀏覽路徑長度成正比，這些位于路徑中間的不必要的文檔就無疑增加了用戶獲取信息的代價(jià)。本文利用Web挖掘的方法和技術(shù)對(duì)用戶所訪問的頁面序列進(jìn)行挖掘，構(gòu)建路徑優(yōu)化的模型，實(shí)現(xiàn)對(duì)當(dāng)前站點(diǎn)排序方式的優(yōu)化，從而最大限度地優(yōu)化用戶訪問體驗(yàn)，提高當(dāng)前站點(diǎn)信息獲取的整體效率。

[關(guān)鍵詞]站點(diǎn)路徑優(yōu)化；Web挖掘；訪問序列

[中圖分類號(hào)]G250.76[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]1005-6041(2009)-01-0064-04

傳統(tǒng)的Web網(wǎng)站以系統(tǒng)自身為中心，為了容納大量的信息，以圖結(jié)構(gòu)組織網(wǎng)站，頁面之間存在著比較復(fù)雜的層次關(guān)系。這些預(yù)先設(shè)計(jì)好的瀏覽路徑(網(wǎng)站的結(jié)構(gòu))嚴(yán)格按照設(shè)計(jì)者編輯好的層次返回頁面，因此，為了獲取特定的信息，從同一頁面出發(fā)的所有用戶都不得不重復(fù)地經(jīng)過很多與自己毫無關(guān)系的、不希望看到的中間鏈接頁面，使得用戶為了獲取少量的信息付出較大的代價(jià)^[1]。如果在確保網(wǎng)頁內(nèi)容的前提下，實(shí)現(xiàn)網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織，就可以避免混亂。站點(diǎn)路徑優(yōu)化實(shí)際上就是站點(diǎn)管理者優(yōu)化其站點(diǎn)結(jié)構(gòu)，它的出現(xiàn)就是為了提高用戶的訪問效率以及用戶對(duì)站點(diǎn)的忠誠度。

1 站點(diǎn)個(gè)性化與路徑優(yōu)化

Web站點(diǎn)結(jié)構(gòu)設(shè)計(jì)好壞的衡量標(biāo)準(zhǔn)之一是用戶為獲取所需信息所付出的平均代價(jià)，而這種代價(jià)則可以理解為所經(jīng)過的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。用戶的瀏覽路徑優(yōu)化就是在盡量不破壞Web系統(tǒng)原有結(jié)構(gòu)，即不刪除系統(tǒng)原有文檔和超鏈的前提下，通過增加新的超鏈或文檔來減少用戶獲取信息所需付出的平均代價(jià)^[2]。

所謂站點(diǎn)個(gè)性化實(shí)質(zhì)上就是為站點(diǎn)用戶提供個(gè)性化的站點(diǎn)訪問體驗(yàn)。對(duì)于一般站點(diǎn)而言，站點(diǎn)管理者進(jìn)行路徑優(yōu)化的直接目的就是提高用戶點(diǎn)擊行為的效用度，最終目的是提高用戶滿意度與忠誠度。站點(diǎn)路徑的優(yōu)化實(shí)際上就是優(yōu)化站點(diǎn)結(jié)構(gòu)，消除站點(diǎn)實(shí)際安排與用戶期望之間差異的過程，它為站點(diǎn)個(gè)性化提供了一種思路，即用戶一系列的瀏覽行為所遍及的頁面序列就是用戶針對(duì)目標(biāo)頁面的尋找過程，此時(shí)站點(diǎn)設(shè)計(jì)可以考慮調(diào)整網(wǎng)站的結(jié)構(gòu)、在頻繁訪問路徑處添加指向目標(biāo)頁面的鏈接，或者是將常見瀏覽路徑加入緩存，如圖1所示。

圖1 網(wǎng)狀結(jié)構(gòu)中的路徑優(yōu)化

網(wǎng)站的頻繁瀏覽路徑體現(xiàn)了特定的用戶在特定時(shí)期內(nèi)的活動(dòng)規(guī)律，是站點(diǎn)路徑優(yōu)化的依據(jù)。它包括兩個(gè)方面的內(nèi)容：首先是個(gè)體用戶在其瀏覽歷史區(qū)域中多次重復(fù)出現(xiàn)的瀏覽路徑，另一方面即用戶群體在一定時(shí)期中瀏覽歷史區(qū)域內(nèi)出現(xiàn)的瀏覽重復(fù)行為，即瀏覽模式。

個(gè)體用戶的一條瀏覽路徑對(duì)應(yīng)于用戶的一段信息探求過程。根據(jù)個(gè)體用戶的重復(fù)瀏覽路徑，就可以形成用戶興趣視圖，并依據(jù)用戶興趣視圖完成個(gè)性化推薦，為用戶提供定制的訪問體驗(yàn)。而用戶群體在較長時(shí)期內(nèi)穩(wěn)定的行為模式則為網(wǎng)站結(jié)構(gòu)的改進(jìn)和路徑的優(yōu)化提供了參考依據(jù)。如果在一定時(shí)期內(nèi)大多數(shù)用戶都表現(xiàn)出訪問路徑的相似性，此時(shí)Web站點(diǎn)就要做相應(yīng)的訪問路徑優(yōu)化。

前者可以為用戶提供“一對(duì)一”的具備自適應(yīng)性的在線動(dòng)態(tài)智能個(gè)性化服務(wù)，這種智能個(gè)性化服務(wù)可大大縮短用戶在網(wǎng)絡(luò)上的訪問延遲，使得提供給用戶的網(wǎng)絡(luò)信息服務(wù)質(zhì)量得到最大限度的提高。后者則通過離線修改實(shí)施改進(jìn)，用以優(yōu)化用戶瀏覽體驗(yàn)，提高當(dāng)前站點(diǎn)信息獲取的整體效率，同時(shí)提高用戶滿意度和忠誠度。2 基于Web挖掘的路徑優(yōu)化模型

Web挖掘從數(shù)據(jù)挖掘發(fā)展而來，但Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先，Web挖掘的對(duì)象是大量、不同和分散型的Web文件；其次，Web文件本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的，因此Web挖掘所得到的模式可能是關(guān)于內(nèi)容的，也可能是關(guān)于結(jié)構(gòu)的；最后，有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘，即使可以用也需要建立在對(duì)Web文件進(jìn)行預(yù)先處理的基礎(chǔ)之上^[3]。

2.1 訪問序列挖掘?qū)崿F(xiàn)過程的理論分析

為了跟蹤用戶以往瀏覽的網(wǎng)頁，對(duì)網(wǎng)頁訪問數(shù)據(jù)進(jìn)行挖掘，Web挖掘技術(shù)以Web日志為數(shù)據(jù)源。因?yàn)槊慨?dāng)用戶在點(diǎn)擊鏈接向站點(diǎn)發(fā)出頁面瀏覽請(qǐng)求時(shí)，該用戶的IP地址、瀏覽日期和時(shí)間、瀏覽頁面URL及引用頁面等信息會(huì)被記錄在Web日志中，用戶瀏覽點(diǎn)擊頁面就按照時(shí)間順序以頁面URL序列的形式隱藏在Web日志中^[4]。用戶訪問序列挖掘即通過對(duì)Web日志進(jìn)行系統(tǒng)的分析和預(yù)處理，將用戶以往的瀏覽序列從日志中提取及表示出來，并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網(wǎng)頁瀏覽順序，探索總結(jié)出用戶瀏覽網(wǎng)頁的規(guī)則和模式。在獲得用戶瀏覽規(guī)律之后，通過模式分析識(shí)別用戶需求的鏈接，確定用戶瀏覽行為的目標(biāo)就可以提高用戶瀏覽的總體性能，幫助改進(jìn)網(wǎng)頁的設(shè)計(jì)和網(wǎng)站的鏈接結(jié)構(gòu)，同時(shí)確定可以用于緩存的瀏覽網(wǎng)頁信息^[5]。

從服務(wù)器的角度分析，挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息，挖掘結(jié)果可以幫助改善網(wǎng)站的設(shè)計(jì)。從用戶的點(diǎn)擊序列分析，可以發(fā)現(xiàn)一個(gè)(或者一組)用戶的信息，可幫助實(shí)現(xiàn)網(wǎng)頁的預(yù)存取和緩存^[6]。

2.2 站點(diǎn)路徑優(yōu)化的模型構(gòu)建

以Web日志為數(shù)據(jù)源進(jìn)行的站點(diǎn)路徑優(yōu)化的挖掘模型，采用了數(shù)據(jù)挖掘及Web日志挖掘的相關(guān)技術(shù)和算法獲取用戶瀏覽規(guī)則與模式，為網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、站點(diǎn)重構(gòu)提供參考及個(gè)性化服務(wù)推薦設(shè)計(jì)提供了依據(jù)。據(jù)此站點(diǎn)路徑優(yōu)化的模型可分為數(shù)據(jù)預(yù)處理和站點(diǎn)路徑優(yōu)化實(shí)現(xiàn)兩個(gè)部分，站點(diǎn)路徑優(yōu)化部分可從兩個(gè)方面來考慮^[7]：一是通過對(duì)Web日志的挖掘，發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于實(shí)際位置的訪問頻率，可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接，從而實(shí)現(xiàn)對(duì)Web站點(diǎn)的優(yōu)化。二是通過對(duì)Web日志的挖掘，發(fā)現(xiàn)用戶訪問頁面的相關(guān)性，從而對(duì)密切聯(lián)系的頁面之間增加鏈接，方便用戶使用。如圖2所示。

圖2 利用Web挖掘技術(shù)的路徑優(yōu)化模型

3 站點(diǎn)路徑優(yōu)化的實(shí)現(xiàn)

3.1 Web日志數(shù)據(jù)收集

Web服務(wù)系統(tǒng)是一個(gè)多層次的邏輯結(jié)構(gòu)，包括客戶端、代理服務(wù)器端、Web服務(wù)器端。本文挖掘的是本站點(diǎn)用戶的頻繁訪問路徑、用戶聚類等，因此適合采用Web服務(wù)器端的用戶訪問模式挖掘^[8]。Web服務(wù)器日志由三部分組成：訪問日志、引用日志和代理日志，包括用戶訪問Web站點(diǎn)時(shí)，所訪問的頁面、時(shí)間、用戶ID等信息。

3.2 站點(diǎn)數(shù)據(jù)預(yù)處理

Web站點(diǎn)及訪問數(shù)據(jù)預(yù)處理部分主要包括站點(diǎn)結(jié)構(gòu)數(shù)據(jù)預(yù)處理、內(nèi)容數(shù)據(jù)預(yù)處理和Web日志數(shù)據(jù)預(yù)處理。其中，結(jié)構(gòu)數(shù)據(jù)預(yù)處理的任務(wù)是描述站點(diǎn)的拓?fù)浣Y(jié)構(gòu)圖、站點(diǎn)頁面文件鏈接有向圖，并明確站點(diǎn)各個(gè)頁面文件鏈接的請(qǐng)求(Request)方法，如GET、POST、HEAD等。站點(diǎn)內(nèi)容數(shù)據(jù)預(yù)處理包括將文本、圖片、腳本和其他多媒體文件轉(zhuǎn)變?yōu)橛脩魧?duì)站點(diǎn)瀏覽模式記錄信息的開發(fā)與利用有用的格式^[9]。

用戶訪問序列挖掘的Web日志數(shù)據(jù)源預(yù)處理包括數(shù)據(jù)過濾、格式轉(zhuǎn)換、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)全和事務(wù)識(shí)別，預(yù)處理過程是保證后繼挖掘質(zhì)量的關(guān)鍵。

3.3 基于Web日志挖掘的路徑優(yōu)化實(shí)現(xiàn)

在數(shù)據(jù)預(yù)處理之后，對(duì)所形成的用戶會(huì)話文件，利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來發(fā)現(xiàn)隱藏的模式規(guī)則。由于傳統(tǒng)的手工決策規(guī)則系統(tǒng)方法、基于內(nèi)容的過濾代理系統(tǒng)方法、協(xié)作過濾系統(tǒng)方法的種種不足，并且就分析和建立模型的技術(shù)而言站點(diǎn)路徑挖掘和傳統(tǒng)的數(shù)據(jù)挖掘差別并不是特別大，所以路徑優(yōu)化模式除了可以運(yùn)用Web數(shù)據(jù)挖掘的很多方法和算法思想，也可以采用一般的統(tǒng)計(jì)方法和在線分析處理方法，如聚類分析方法、關(guān)聯(lián)規(guī)則分析方法和序列模式分析方法等^[10]。

站點(diǎn)路徑優(yōu)化可以分為兩類：用戶群訪問模式挖掘的路徑優(yōu)化和個(gè)性化挖掘的路徑優(yōu)化。一般訪問模式挖掘的路徑優(yōu)化通過分析在特定時(shí)間點(diǎn)的特定用戶群的訪問記錄來了解用戶的瀏覽模式和傾向，以改進(jìn)站點(diǎn)的組織結(jié)構(gòu)；而個(gè)性化挖掘的路徑優(yōu)化則傾向于分析個(gè)別用戶的偏好，其目的是根據(jù)用戶的訪問模式，為其提供定制服務(wù)。

3.3.1個(gè)性化的瀏覽路徑優(yōu)化。Web站點(diǎn)的鏈接結(jié)構(gòu)是Web設(shè)計(jì)者根據(jù)一定的策略建立起來的，可能與用戶期望的鏈接結(jié)構(gòu)之間存在一定的差距。如圖3.1所示，目標(biāo)頁面X放在頁面B₁下，但是用戶瀏覽路徑是F→A₂→B₂，因此用戶期望頁面X的位置在A₂或B₂下。如果事先能了解用戶的期望位置，從而在A₂(或B₂)和頁面X之間建立導(dǎo)航鏈接，自然就方便了用戶，提高了網(wǎng)站的訪問效率^[1]。

(1)發(fā)現(xiàn)用戶期望位置。

設(shè){P₁，P₂，...，P_n}為用戶訪問過的頁面，P_n是一個(gè)目標(biāo)頁面，B=Ф；∥B為回溯點(diǎn)的集合；

圖3 用戶訪問站點(diǎn)路徑

For(i=2；i<=n-2；i++)

{if(P_i-1=Pⁱ⁺¹) or (no link from P_i to P_i+1) add P_i to B} ∥Pi是一個(gè)回溯點(diǎn)；

If (B not empty) add n

圖書館界2009年1期

圖書館界的其它文章: 長尾理論在圖書館工作中的應(yīng)用; 美國公共圖書館學(xué)習(xí)實(shí)踐與思考; 試論東莞城市圖書館的可持續(xù)發(fā)展策略; 編目外包與編目員角色轉(zhuǎn)換; 高師院校圖書情報(bào)系統(tǒng)文獻(xiàn)采訪新探; ＣＡＬＩＳ古籍編目與文獻(xiàn)資源共享