亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶瀏覽行為分析的用戶興趣度計(jì)算

        2012-07-25 06:49:32李建廷湯志軍
        關(guān)鍵詞:網(wǎng)頁(yè)頁(yè)面次數(shù)

        李建廷,郭 曄,湯志軍

        (1.西安財(cái)經(jīng)學(xué)院 信息學(xué)院,陜西 西安710100;2.西安市人事考試中心,陜西 西安710065)

        0 引 言

        在用戶通過(guò)互聯(lián)網(wǎng)進(jìn)行信息檢索的過(guò)程中,依據(jù)用戶的實(shí)際興趣為用戶返回個(gè)性化的檢索結(jié)果是提高信息檢索查全率以及查準(zhǔn)率的主要途徑之一,同時(shí)也是目前個(gè)性化搜索引擎的主要研究?jī)?nèi)容之一。

        當(dāng)前,用戶興趣的獲取一般有兩種方式:一種是通過(guò)顯式的方法在信息檢索之前通過(guò)用戶對(duì)自己興趣程度的標(biāo)注,實(shí)現(xiàn)用戶興趣的獲取。這種方式一般能夠獲得較為準(zhǔn)確的用戶興趣表現(xiàn),但在現(xiàn)實(shí)的應(yīng)用過(guò)程中,用戶經(jīng)常并不愿意直接參與對(duì)頁(yè)面的興趣標(biāo)注,直接進(jìn)行用戶的興趣標(biāo)注一方面很容易造成一部分用戶隱私數(shù)據(jù)的泄露,也不可避免的影響了用戶的正常瀏覽過(guò)程,同時(shí),即使用戶標(biāo)注了自己感興趣的程度,也未必能夠準(zhǔn)確地反映用戶的實(shí)際興趣。第二種方式是通過(guò)利用數(shù)據(jù)挖掘技術(shù)從用戶實(shí)際瀏覽行為中挖掘、提取用戶的興趣表現(xiàn)來(lái)估算興趣度,這種方法不需用戶直接參與,同時(shí)用戶實(shí)際瀏覽行為也正是用戶當(dāng)前實(shí)際興趣的表現(xiàn),這種方法已成為目前獲取用戶興趣模型的主流方法之一[1-2]。

        用戶在實(shí)際頁(yè)面瀏覽過(guò)程中的行為多種多樣,既有用戶對(duì)頁(yè)面本身所采取的操作,又有用戶對(duì)鼠標(biāo)和鍵盤的操作,還有用戶的生理、情緒變化等。利用用戶的瀏覽行為估算用戶的興趣愛(ài)好,其關(guān)鍵問(wèn)題之一是在收集用戶的瀏覽行為之前,需要確定哪些瀏覽行為能真正的反映用戶興趣;其次,對(duì)于收集來(lái)的用戶實(shí)際瀏覽行為如何進(jìn)行量化,最終合理的表示用戶的實(shí)際興趣也是應(yīng)用的關(guān)鍵問(wèn)題之一。

        1 用戶瀏覽行為分類

        大量研究指出,用戶對(duì)網(wǎng)頁(yè)的興趣度與其在該網(wǎng)頁(yè)上的瀏覽行為密切相關(guān)。用戶的很多瀏覽行為暗示出用戶的喜好與興趣,如查詢、瀏覽頁(yè)面、標(biāo)記書簽、反饋信息、點(diǎn)擊鼠標(biāo)、拖動(dòng)滾動(dòng)條、前進(jìn)、后退等。用戶訪問(wèn)頁(yè)面時(shí)的停留時(shí)間、訪問(wèn)次數(shù)、保存、編輯、修改等動(dòng)作同樣表現(xiàn)用戶興趣[3-5]。

        根據(jù)瀏覽行為反映用戶興趣的方式,可以將用戶的瀏覽行為分為生理行為、顯著行為和間接行為3類。生理行為指反映用戶在瀏覽過(guò)程中思想和情緒波動(dòng)的瀏覽行為,生理心理學(xué)研究表明,當(dāng)人發(fā)現(xiàn)自己感興趣的事物時(shí),在生理上會(huì)發(fā)生一系列反應(yīng),如用戶眼睛的移動(dòng),心跳的變化,皮膚溫度的變化和用戶的表情等。

        顯著行為指可以直接反映用戶興趣的瀏覽行為,主要包括保存頁(yè)面、打印頁(yè)面、頁(yè)面加入收藏夾、頻繁訪問(wèn)同一頁(yè)面等。顯著行為一旦發(fā)生,可以確定用戶對(duì)頁(yè)面感興趣的程度很高。

        間接行為指間接反映用戶興趣的瀏覽行為,主要包括在頁(yè)面上駐留的時(shí)間,瀏覽頁(yè)面時(shí)拖動(dòng)滾動(dòng)條,移動(dòng)或點(diǎn)擊鼠標(biāo),按 UP/Down鍵滾動(dòng)頁(yè)面,按Pageup/PageDown鍵翻頁(yè)等。間接行為本身并不能確定用戶是否對(duì)頁(yè)面感興趣,但間接行為發(fā)生的次數(shù)和持續(xù)時(shí)間可以反映用戶的興趣度。

        在用戶的瀏覽行為中,生理行為因?yàn)榧夹g(shù)上的限制暫時(shí)不能用于用戶興趣度計(jì)算,顯著行為和間接行為均可以用于用戶的興趣度計(jì)算。一些研究指出,用戶興趣度計(jì)算的最小瀏覽行為組合可以為以下5種:保存頁(yè)面、打印頁(yè)面、將頁(yè)面加入收藏夾、訪問(wèn)同一頁(yè)面的次數(shù)、在頁(yè)面上的瀏覽時(shí)間[6]。

        分析上面的5種最小瀏覽行為的關(guān)系,可以明顯的發(fā)現(xiàn),如果保存頁(yè)面、打印頁(yè)面和收藏頁(yè)面這些行為一旦發(fā)生,表明用戶對(duì)頁(yè)面的興趣度較高,而打印頁(yè)面在平常的瀏覽行為中出現(xiàn)的幾率很小,保存頁(yè)面與將頁(yè)面加入收藏夾這兩種行為可以看成一種類型的行為。除此之外,在頁(yè)面瀏覽時(shí)的某些瀏覽動(dòng)作比如:對(duì)頁(yè)面內(nèi)容的復(fù)制、粘貼、剪切等,這些瀏覽動(dòng)作一旦發(fā)生也同樣反映用戶對(duì)當(dāng)前頁(yè)面有著較強(qiáng)的興趣。

        用戶的各種瀏覽行為之間既互相聯(lián)系,又互相獨(dú)立,而用戶本身的瀏覽習(xí)慣也千差萬(wàn)別。利用瀏覽行為分析用戶的興趣如果選擇的瀏覽行為太少,則很容易造成描述用戶興趣的精度不高;如果為提高用戶興趣描述的精度,盲目選擇過(guò)多的瀏覽行為,又會(huì)造成興趣計(jì)算方法復(fù)雜、各種瀏覽行為之間難以量化的問(wèn)題,因此,選擇哪些瀏覽行為以及如何量化這些瀏覽行為也就顯得非常重要。

        綜合考慮用戶的瀏覽行為,確定從3個(gè)方面估算用戶的興趣程度:用戶的實(shí)際瀏覽動(dòng)作、對(duì)頁(yè)面的訪問(wèn)次數(shù)、在頁(yè)面上的瀏覽時(shí)間。

        2 基于瀏覽行為的興趣度計(jì)算

        設(shè)用戶在某時(shí)間段內(nèi)共按照順序依次瀏覽了多個(gè)頁(yè)面,同時(shí),用戶也可能多次訪問(wèn)同一個(gè)頁(yè)面,由于用戶建模關(guān)注的是用戶對(duì)各不相同的頁(yè)面的興趣度,記用戶在此時(shí)間段內(nèi)瀏覽的各不相同的頁(yè)面為w1,w2,…,wn。

        分析用戶瀏覽行為時(shí),用戶的瀏覽動(dòng)作 (包括保存頁(yè)面、收藏頁(yè)面,打印頁(yè)面以及對(duì)頁(yè)面內(nèi)容的復(fù)制、粘貼等操作),對(duì)頁(yè)面的訪問(wèn)次數(shù)和在頁(yè)面上的瀏覽時(shí)間這3類典型的瀏覽行為可以近似地代替所有典型的瀏覽行為,從而用戶對(duì)頁(yè)面的興趣度可以看成是上述3類行為的函數(shù)。

        令I(lǐng)nterest(w)為用戶對(duì)頁(yè)面w的興趣度,則Interest(w)可以表示為

        定義用戶興趣度的取值范圍為0~1,即Interest(w)∈[0,1]。其中,InterestActive(w)、InterestFreq(w)、InterestTime(w)分別為用戶網(wǎng)頁(yè)瀏覽動(dòng)作、訪問(wèn)同一頁(yè)面的次數(shù)、在頁(yè)面上的瀏覽時(shí)間這3類行為的興趣度計(jì)算函數(shù)。

        2.1 基于瀏覽動(dòng)作的用戶興趣度計(jì)算

        利用用戶對(duì)頁(yè)面進(jìn)行瀏覽時(shí)所發(fā)生的瀏覽動(dòng)作進(jìn)行興趣度計(jì)算,選擇保存頁(yè)面、打印頁(yè)面、收藏頁(yè)面以及對(duì)頁(yè)面內(nèi)容的復(fù)制操作4個(gè)瀏覽動(dòng)作作為計(jì)算基礎(chǔ),即將瀏覽器菜單中的 “另存為”、“打印”、“收藏”、“復(fù)制”4個(gè)菜單命令及相應(yīng)的命令按鈕進(jìn)入瀏覽行為的統(tǒng)計(jì)數(shù)據(jù)。從而得到基于瀏覽動(dòng)作的用戶興趣度計(jì)算函數(shù)

        同樣定義基于瀏覽動(dòng)作的用戶興趣度取值范圍為0~1,即InterestActive(w)[0,1]。其中,Save(w)、Keep(w)、Print(w)和Copy(w)分別為保存頁(yè)面、收藏頁(yè)面、打印頁(yè)面、對(duì)頁(yè)面內(nèi)容的進(jìn)行復(fù)制和粘貼操作這4個(gè)瀏覽動(dòng)作的函數(shù)。分析這4個(gè)瀏覽動(dòng)作可以看出,這4種動(dòng)作的產(chǎn)生只有發(fā)生或不發(fā)生兩個(gè)狀態(tài),不存在計(jì)算幅度問(wèn)題。同時(shí)如果這4種動(dòng)作一旦發(fā)生,則很明顯的表明用戶對(duì)該頁(yè)面具有很高的興趣度。此時(shí)再分析用戶對(duì)頁(yè)面的訪問(wèn)次數(shù)和在頁(yè)面上的瀏覽時(shí)間也就沒(méi)有太多的意義。因此,定義以上4種行為一旦發(fā)生,設(shè)置InterestActive(w)為最大興趣度取值l。

        基于用戶瀏覽動(dòng)作的興趣度InterestActive(w)表示為一個(gè)二值函數(shù)

        在實(shí)際的用戶瀏覽行為中,保存頁(yè)面、收藏頁(yè)面和打印頁(yè)面行為很少發(fā)生。大部分頁(yè)面的興趣度需要通過(guò)用戶的訪問(wèn)次數(shù)和在頁(yè)面上的瀏覽時(shí)間來(lái)估計(jì)。對(duì)于訪問(wèn)頁(yè)面的次數(shù)和在頁(yè)面上瀏覽的時(shí)間這兩個(gè)行為存在幅度上的變化,幅度的不同意味著用戶不同的興趣度。例如兩個(gè)頁(yè)面w1和w2,若在同一時(shí)間段內(nèi),用戶訪問(wèn)w1的次數(shù)是1次,訪問(wèn)w2的次數(shù)是10次,那么明顯用戶對(duì)頁(yè)面w2的興趣度要高于對(duì)頁(yè)面w1的興趣度,頁(yè)面瀏覽時(shí)間具有相同的特點(diǎn)。因此,這兩種瀏覽行為的量化成為計(jì)算用戶興趣度的關(guān)鍵指標(biāo)。

        2.2 基于訪問(wèn)次數(shù)的用戶興趣度計(jì)算

        如果用戶訪問(wèn)了某一頁(yè)面,就可以認(rèn)為其對(duì)該頁(yè)面感興趣。用戶感興趣的程度即興趣度的計(jì)算依賴于用戶對(duì)頁(yè)面的訪問(wèn)頻度。定義用戶在某一時(shí)間段內(nèi)瀏覽的同一頁(yè)面的次數(shù)為Freq(w),則Freq(w)越大,用戶興趣Interest(w)越大?;谠L問(wèn)次數(shù)的用戶興趣度可描述為[7-8]

        式中:W——某一時(shí)間段內(nèi)用戶訪問(wèn)的所有頁(yè)面的集合。

        需要注意的是,該方法是一種定量測(cè)度用戶興趣的方法。隨著時(shí)間的積累,用戶對(duì)某個(gè)網(wǎng)頁(yè)的點(diǎn)擊次數(shù)同樣會(huì)逐漸積累到很多,而這些歷史的積累并不一定能夠準(zhǔn)確的反應(yīng)用戶當(dāng)前的興趣。因此,合理的定義統(tǒng)計(jì)瀏覽次數(shù)的時(shí)間段,同時(shí)設(shè)置相應(yīng)的更新機(jī)制就顯得尤為關(guān)鍵。實(shí)際使用中,設(shè)置周為統(tǒng)計(jì)周期,每隔一周,則進(jìn)行瀏覽次數(shù)的更新。

        更新方法:設(shè)置Freqold(w)和Freqnew(w)分別為某一頁(yè)面上一統(tǒng)計(jì)周期和當(dāng)前統(tǒng)計(jì)周期的瀏覽次數(shù),p為該頁(yè)面瀏覽次數(shù)的更新比例,定義

        若p<0.5,即用戶在上一統(tǒng)計(jì)周期和當(dāng)前統(tǒng)計(jì)周期中對(duì)某一頁(yè)面瀏覽次數(shù)的變化程度不足,則認(rèn)為用戶對(duì)該頁(yè)面的興趣隨著時(shí)間的推移并未有較大的轉(zhuǎn)移,置

        若p≥0.5,即用戶在上一統(tǒng)計(jì)周期和當(dāng)前統(tǒng)計(jì)周期中對(duì)某一頁(yè)面瀏覽次數(shù)的變化程度較大,則認(rèn)為用戶對(duì)該頁(yè)面的興趣已經(jīng)隨著時(shí)間的推移有了較大的改變,置

        2.3 基于瀏覽速度的用戶興趣度計(jì)算

        用戶訪問(wèn)當(dāng)前頁(yè)面時(shí)花費(fèi)的瀏覽時(shí)間越長(zhǎng),則從一定程度上可以表明用戶對(duì)該頁(yè)面的興趣度較高。當(dāng)然,從另一方面來(lái)說(shuō),用戶訪問(wèn)頁(yè)面的瀏覽時(shí)間與用戶的操作習(xí)慣、操作速度以及頁(yè)面大小等因素密切相關(guān),為更好的綜合各種因素,將瀏覽時(shí)間和用戶當(dāng)前的瀏覽速度相對(duì)應(yīng)。使用基于瀏覽速度來(lái)計(jì)算網(wǎng)頁(yè)的興趣度,不僅考慮用戶在頁(yè)面的駐留時(shí)間,而且還需考慮頁(yè)面大小的影響[9-10]。

        定義用戶訪問(wèn)頁(yè)面w的瀏覽速度Speed(w)為

        式中:Size(w)——當(dāng)前所訪問(wèn)頁(yè)面的大小,Time(w)——當(dāng)前所訪問(wèn)頁(yè)面的瀏覽時(shí)間。

        當(dāng)前頁(yè)面的瀏覽時(shí)間Time(w)與很多因素有關(guān),如用戶的操作速度、用戶的瀏覽速度、當(dāng)前網(wǎng)絡(luò)的傳輸延遲、服務(wù)器的相應(yīng)延遲等,綜合考慮各種因素,將Time(w)定義為訪問(wèn)兩次頁(yè)面的時(shí)間差,即:Time(wi)=T(wj)-T(wi),其中j=i+1,wj為緊跟頁(yè)面wi的下一個(gè)頁(yè)面,T(wi)為頁(yè)面wi的請(qǐng)求時(shí)間。

        瀏覽速度表示了單位時(shí)間內(nèi)當(dāng)前用戶瀏覽的字節(jié)數(shù),對(duì)于每個(gè)頁(yè)面w來(lái)說(shuō),該用戶瀏覽速度越快,即Speed(w)越大,表明用戶對(duì)頁(yè)面w越不感興趣,也就是說(shuō),用戶對(duì)網(wǎng)頁(yè)的興趣度Interest(w)和用戶的瀏覽速度Speed(w)存在反比關(guān)系,也就與用戶的頁(yè)面瀏覽時(shí)間成正比,與頁(yè)面大小成反比。進(jìn)而得到用戶對(duì)網(wǎng)頁(yè)的興趣度計(jì)算公式

        在網(wǎng)絡(luò)的實(shí)際瀏覽過(guò)程中,不同用戶的瀏覽行為存在相當(dāng)大的差異,用戶的瀏覽速度也相差很大,因此,對(duì)瀏覽速度采用非線性歸一化,用戶對(duì)頁(yè)面w的興趣度可以通過(guò)下式得到

        顯然,0≤InterestTime(w)≤1。

        實(shí)際應(yīng)用中,用戶本身的瀏覽狀態(tài)及瀏覽環(huán)境非常復(fù)雜,經(jīng)常會(huì)出現(xiàn)異常的駐留時(shí)間。例如用戶打開(kāi)某個(gè)頁(yè)面后離開(kāi)了,但并沒(méi)有關(guān)閉頁(yè)面,再如用戶通過(guò)頁(yè)面觀看在線視頻時(shí),這些情況都會(huì)導(dǎo)致用戶在該頁(yè)面上的駐留時(shí)間遠(yuǎn)遠(yuǎn)大于正常駐留時(shí)間,從而導(dǎo)致用戶的興趣度接近于0,從而無(wú)法很好區(qū)分正常的興趣度[11]。

        為了排除用戶的異常瀏覽行為對(duì)用戶興趣度計(jì)算的影響,設(shè)置處理異常的駐留時(shí)間的處理策略如下:當(dāng)用戶在頁(yè)面上的駐留時(shí)間超過(guò)了某個(gè)預(yù)先設(shè)定的閾值時(shí),就將其設(shè)定為某個(gè)最大駐留時(shí)間,對(duì)于小于閾值的駐留時(shí)間,保持其原值。處理的過(guò)程中,閾值大小的選擇是關(guān)鍵。如果閾值設(shè)置過(guò)大,大部分頁(yè)面的興趣度都將接近0,失去了使用閾值的意義;反之如果閾值設(shè)置過(guò)小,則大部分頁(yè)面的興趣度都將接近1,不利于區(qū)分頁(yè)面的興趣度。T2,……Tm為當(dāng)前統(tǒng)計(jì)周期內(nèi)所瀏覽頁(yè)面的瀏覽時(shí)間。當(dāng)用戶的瀏覽時(shí)間超過(guò)該閾值時(shí),取Time(w)=Tmax。

        另外,用戶在瀏覽網(wǎng)頁(yè)的過(guò)程中,還經(jīng)常會(huì)存在一些用戶根本不感興趣的廣告、消息等非正常頁(yè)面,這些頁(yè)面造成瀏覽時(shí)間很短或者干脆直接被一些工具軟件關(guān)閉掉。這部分對(duì)用戶瀏覽行為的統(tǒng)計(jì)數(shù)據(jù)影響較大,但又無(wú)實(shí)際意義或者無(wú)法正確判斷,同樣需要將這部分網(wǎng)頁(yè)排除在統(tǒng)計(jì)范圍之外。

        設(shè)置最小瀏覽時(shí)間Tmin和網(wǎng)頁(yè)窗口類型判斷策略,如果用戶瀏覽該網(wǎng)頁(yè)的時(shí)間小于設(shè)定Tmin或者彈出的網(wǎng)頁(yè)窗口沒(méi)有菜單欄及工具按鈕欄,則可以判斷該網(wǎng)頁(yè)為可以清除的網(wǎng)頁(yè)。即網(wǎng)頁(yè)瀏覽時(shí)間的最終取值范圍為

        現(xiàn)有的研究表明,一篇文章的閱讀時(shí)間小于3~5s則無(wú)法放映用戶的實(shí)際興趣[13-14],再考慮網(wǎng)絡(luò)的傳輸延遲、服務(wù)器的相應(yīng)延遲、用戶反應(yīng)速度等因素,因此,將Tmin值定位為6s,以處理這些異常頁(yè)面。

        2.4 3種興趣度的結(jié)合

        在計(jì)算用戶興趣度時(shí),首先判斷InterestActive(w)的取值,若InterestActive(w)=1,則置Interest(w)=1,即單前頁(yè)面w具有最高興趣度。

        若InterestActive(w)=0,為得到更合理的頁(yè)面興趣度,綜合考慮用戶頁(yè)面訪問(wèn)次數(shù)和訪問(wèn)速度下的用戶興趣度取值,利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行二者的融合。BP神經(jīng)網(wǎng)絡(luò)由輸入層、輸出層和若干隱含層構(gòu)成。隱含層的數(shù)量可以為1層或多層,隱含層層數(shù)越多,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜,所需要的訓(xùn)練時(shí)間越長(zhǎng)。通常情況下,三層網(wǎng)絡(luò)結(jié)構(gòu)即可滿足應(yīng)用要求,本文選擇三層為網(wǎng)絡(luò)層的層數(shù)。

        首先將用戶瀏覽動(dòng)作、用戶頁(yè)面訪問(wèn)次數(shù)和訪問(wèn)速度這3類瀏覽行為下的用戶興趣度作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),輸出數(shù)據(jù)為融合后的最終用戶興趣度。根據(jù)神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)和輸出數(shù)據(jù),確定神經(jīng)網(wǎng)絡(luò)的輸入層包含2個(gè)節(jié)點(diǎn),輸出層包含1各節(jié)點(diǎn),隱含層節(jié)點(diǎn)數(shù)為6個(gè),BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。利用Matlab軟件中神經(jīng)網(wǎng)絡(luò)工具箱,實(shí)現(xiàn)該神經(jīng)網(wǎng)絡(luò)。同時(shí),合理選擇訓(xùn)練樣本數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行用戶興趣度的數(shù)據(jù)融合。

        3 訓(xùn)練樣本選取與實(shí)驗(yàn)分析

        為了實(shí)現(xiàn)利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行興趣度融合,需要大量的訓(xùn)練樣本數(shù)據(jù)。為了驗(yàn)證本文興趣度算法的合理性,同樣需要大量的實(shí)驗(yàn)數(shù)據(jù)。在具體實(shí)驗(yàn)中,為了獲得原始實(shí)驗(yàn)數(shù)據(jù),利取在IE瀏覽器內(nèi)嵌入瀏覽器幫助程序?qū)ο螅˙HO)與Windows鉤子函數(shù)捕獲網(wǎng)頁(yè)及用戶瀏覽行為。BHO能夠在瀏覽器打開(kāi)的同時(shí)自動(dòng)加載,主要負(fù)責(zé)掛接鉤子函數(shù)并捕獲網(wǎng)頁(yè)的打開(kāi)、關(guān)閉、文檔開(kāi)始下載以及文檔下載完成、URL改變、狀態(tài)變化等內(nèi)容,鉤子函數(shù)主要負(fù)責(zé)準(zhǔn)確捕獲如:瀏覽時(shí)間、菜單命令、鼠標(biāo)動(dòng)作、鍵盤操作、頁(yè)面滾動(dòng)等的用戶的有效瀏覽動(dòng)作[15-16]。

        圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        通過(guò)采集、清洗特定用戶群在1個(gè)月內(nèi)瀏覽http://www.qq.com網(wǎng)站中300余張網(wǎng)頁(yè)的瀏覽日志,通過(guò) Web日志挖掘獲得原始瀏覽行為數(shù)據(jù)3183條,對(duì)這些瀏覽行為分別計(jì)算基于瀏覽動(dòng)作、基于瀏覽次數(shù)與基于瀏覽速度下的用戶興趣度,將獲得的結(jié)果數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù),對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        在原始記錄數(shù)據(jù)中選擇不同主題下具有代表性的頁(yè)面100張,再次通過(guò)Web日志挖掘?qū)@100張網(wǎng)頁(yè)進(jìn)行瀏覽行為數(shù)據(jù)采集,計(jì)算基于瀏覽動(dòng)作、基于瀏覽次數(shù)與基于瀏覽速度下的興趣度,并利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行興趣度融合,得到網(wǎng)頁(yè)最終的興趣度。同時(shí)通過(guò)對(duì)特定用戶群進(jìn)行統(tǒng)計(jì)調(diào)查,讓用戶自己評(píng)價(jià)對(duì)網(wǎng)頁(yè)的興趣度,將用戶主觀的評(píng)價(jià)結(jié)果與根據(jù)計(jì)算得到的網(wǎng)頁(yè)興趣度進(jìn)行比較,表1描述了部分典型數(shù)據(jù)的比較結(jié)果。

        表1 用戶興趣度計(jì)算與用戶自評(píng)的比較示例

        4 結(jié)束語(yǔ)

        用戶的瀏覽行為從一定程度上可以反映用戶的實(shí)際興趣,針對(duì)用戶瀏覽行為及用戶興趣之間的關(guān)系,把能反映用戶興趣的典型瀏覽行為歸納為頁(yè)面瀏覽動(dòng)作、頁(yè)面瀏覽次數(shù)、頁(yè)面瀏覽時(shí)間3類行為。針對(duì)這3類瀏覽行為下的用戶興趣度分別進(jìn)行計(jì)算,并且在分析基于網(wǎng)頁(yè)駐留時(shí)間和瀏覽次數(shù)計(jì)算網(wǎng)頁(yè)興趣度的算法的基礎(chǔ)上,考慮網(wǎng)頁(yè)大小、用戶反應(yīng)速度、網(wǎng)絡(luò)傳輸延遲等影響因素,使用基于瀏覽速度計(jì)算網(wǎng)頁(yè)興趣度的算法計(jì)算用戶興趣度。

        在分別計(jì)算出不同類型瀏覽行為下的用戶興趣度后,利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行興趣度的融合,通過(guò)對(duì)實(shí)驗(yàn)樣本數(shù)據(jù)的計(jì)算,驗(yàn)證了所采用算法的有效性及合理性,也為下一步用戶興趣模型的建立打下了基礎(chǔ)。

        [1]SHAO Zhifeng.A research on user profile model based on Chinese library classification [J].Computer Applications and Software,2007,24 (8):86-88 (in Chinese). [邵志峰.基于中圖分類法的用戶興趣模型研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2007,24 (8):86-88.]

        [2]ZHOU Xiaolan.Web data mining user interest model design[J].Journal of Xiangtan Normal University (Natural Science Edition),2009,31 (2):55-58 (in Chinese).[周曉蘭.Web數(shù)據(jù)挖掘中用戶興趣模型設(shè)計(jì) [J].湘潭師范學(xué)院學(xué)報(bào) (自然科學(xué)版),2009,31 (2):55-58.]

        [3]Georgakis A,Li H.User behavior modeling and content based speculative Web page prefetching [J].Data & Knowledge Engineering,2006,59 (3):770-788.

        [4]WANG Jimin,PENG Bo.User behavior analysis for a largescale search engine [J].Journal of Intelligence,2006,25(2):154-162 (in Chinese).[王繼民,彭波.搜索引擎用戶點(diǎn)擊行為分析 [J].情報(bào)學(xué)報(bào),2006,25 (2):154-162.]

        [5]XU Bo,ZHANG Jiekui,ZHOU Jun.A user interest model based on the analysis of user behaviors [J].Journal of Intelligence,2009,18 (5):166-169 (in Chinese). [許波,張結(jié)魁,周軍.基于行為分析的用戶興趣建模 [J].情報(bào)學(xué)報(bào),2009,18 (5):166-169.]

        [6]YIN Chun-h(huán)ui,DENG Wei.Extracting user interests based on analysis of user behaviors [J].Computer Technology and Development,2008,18 (5):37-39 (in Chinese).[尹春暉,鄧偉.基于用戶瀏覽行為分析的用戶興趣獲取 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18 (5):37-39.]

        [7]LU Jia.Web user access patterns clustering based on interest degree[J].Computer Engineering and Design,2007,28 (10):2403-2407(in Chinese).[呂佳.基于興趣度的Web用戶訪問(wèn)模式分析 [J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28 (10):2403-2407.]

        [8]DAI Ge.Research and realization of key technologies of Web information system [D].Changsha:Central South University,2008(in Chinese).[戴戈.網(wǎng)絡(luò)信息提取系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn) [D].長(zhǎng)沙:中南大學(xué),2008.]

        [9]SHAN Rong.New user’s interest model updated based on browsing behaviors[J].Electronic Design Engineering,2010,18 (4):61-62(in Chinese).[單蓉.一種基于用戶瀏覽行為更新的興趣模型[J].電子設(shè)計(jì)工程,2010,18 (4):61-62.]

        [10]YIN Chun-h(huán)ui.Research and implementation on user interests modeling for personalized information retrieval [D].Suzhou:Suzhou University,2008 (in Chinese). [尹春暉.面向個(gè)性化信息檢索的用戶建模研究與實(shí)現(xiàn) [D].蘇州:蘇州大學(xué),2008.]

        [11]ZHU Zheng-yu,ZHOU Zhi,LUO Ying,et al.Extraction of user-interested web page based on the browsing action quantitative analysis [J].Journal of Chongqing Institute of Technology (Natural Science),2009,23 (7):79-84 (in Chinese).[朱征宇,周智,羅穎,等.基于瀏覽行為量化分析的興趣網(wǎng)頁(yè)提取 [J].重慶工學(xué)院學(xué)報(bào) (自然科學(xué)),2009,23 (7):79-84.]

        [12]ZENG Li-fang,ZHU Zheng-yu,CHEN Ye.The calculation of user interest based on web logs and Web page feature contents [J].Microprocessors,2010,31 (4):86-90 (in Chinese).[曾麗芳,朱征宇,陳燁.基于Web日志和網(wǎng)頁(yè)特征內(nèi)容的用戶興趣度計(jì)算 [J].微處理機(jī),2010,31 (4):86-90.]

        [13]ZHANG Chuan-fu.Research on user interest based on behavior [D].Beijing:Beijing University of Posts and Telecommunications,2008 (in Chinese). [張傳福.基于行為的用戶興趣研究 [D].北京:北京郵電大學(xué),2008.]

        [14]LI Youjun.Users’Web browsing behaviors pattern mining and its application in the online teaching system [D].Beijing:North China University of Technology,2009 (in Chinese).[李幼軍.用戶行為模式發(fā)掘及其在網(wǎng)絡(luò)教學(xué)系統(tǒng)中的應(yīng)用[D].北京:北方工業(yè)大學(xué),2009.]

        [15]ZHOU Zhi.The analysis of user interest Webpage based on quantitative calculation of browsing behavior [D ].Chongqing:Chongqing University,2009 (in Chinese). [周智.基于瀏覽行為量化計(jì)算的用戶興趣網(wǎng)頁(yè)分析 [D].重慶:重慶大學(xué),2009.]

        [16]CHEN Yu’e.Study and design of user model in personalized service [D].Qingdao:Shandong University of Scienceand Technology,2007 (in Chinese). [陳玉娥.個(gè)性化服務(wù)中用戶模型的研究與設(shè)計(jì) [D].青島:山東科技大學(xué),2007.]

        猜你喜歡
        網(wǎng)頁(yè)頁(yè)面次數(shù)
        大狗熊在睡覺(jué)
        刷新生活的頁(yè)面
        機(jī)場(chǎng)航站樓年雷擊次數(shù)計(jì)算
        2020年,我國(guó)汽車召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        一類無(wú)界算子的二次數(shù)值域和譜
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        依據(jù)“次數(shù)”求概率
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        天堂av一区二区在线| 高潮毛片无遮挡高清免费| 一区二区无码中出| 午夜男女视频一区二区三区| 91精品久久久老熟女91精品 | 少妇免费av一区二区三区久久 | 蜜桃久久精品成人无码av| 亚洲成a人片在线| 淫欲一区二区中文字幕| 三级日韩视频在线观看| 三年的高清电影免费看| 国产亚洲精久久久久久无码77777| 中国免费av网| 国产精品又湿又黄九九九久久嫩草 | 日本久久久精品免费免费理论| 综合亚洲伊人午夜网| 人妻av中文字幕无码专区| 综合无码综合网站| 亚洲精品综合一区二区| 精品香蕉99久久久久网站| 9lporm自拍视频区| 亚洲国产欧美另类va在线观看| 日本一区二区视频免费在线观看| 精品亚洲成a人在线观看| 国产chinese男男gay视频网| 欧美日韩a级a| 精品久久一区二区三区av制服| 欧美精品国产综合久久| 亚洲另类自拍丝袜第五页| 免费人人av看| 丰满人妻中文字幕一区三区| 免费操逼视频| 国产成人美女AV| 操国产丝袜露脸在线播放| 99久久精品免费看国产| 香蕉久久久久久久av网站| 亚洲一级无码AV毛片久久| 国产女同舌吻1区2区| 人妻有码中文字幕| 岛国大片在线免费观看| 亚洲美女一区二区三区三州|