張雁,劉才銘
(樂(lè)山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,樂(lè)山 614000)
網(wǎng)頁(yè)訪問(wèn);訪問(wèn)目的;訪問(wèn)活動(dòng);類型編碼;類型特征
網(wǎng)頁(yè)是一種包含了豐富內(nèi)容的互聯(lián)網(wǎng)信息表達(dá)形式,其包含的內(nèi)容既可以是文本、圖片、語(yǔ)音等靜態(tài)性的信息,也可以是能夠被瀏覽器解析執(zhí)行的腳本源代碼程序、嵌入的其他網(wǎng)頁(yè)或組件等動(dòng)態(tài)性內(nèi)容。當(dāng)瀏覽器端根據(jù)訪問(wèn)地址向Web服務(wù)器請(qǐng)求網(wǎng)頁(yè)內(nèi)容時(shí),Web服務(wù)器直接將靜態(tài)的HTML文件或者通過(guò)解析后生成的HTML文件響應(yīng)給上網(wǎng)用戶的瀏覽器端。無(wú)論Web服務(wù)器以何種方式生成網(wǎng)頁(yè)內(nèi)容,其都在應(yīng)用層采用HTTP協(xié)議向?yàn)g覽器端返回以HTML格式編寫(xiě)的網(wǎng)頁(yè)文件。
互聯(lián)網(wǎng)用戶瀏覽網(wǎng)頁(yè)也稱為訪問(wèn)網(wǎng)頁(yè),由于基于瀏覽器的簡(jiǎn)單操作就可以實(shí)現(xiàn)網(wǎng)頁(yè)訪問(wèn),所以網(wǎng)頁(yè)不再是簡(jiǎn)單地提供靜態(tài)信息,而是可以提供豐富的基于Web的應(yīng)用程序功能。近年來(lái),各種基于Web的應(yīng)用技術(shù)陸續(xù)推出,使得人們?cè)L問(wèn)網(wǎng)頁(yè)的目的不再局限于被動(dòng)地接收靜態(tài)信息,而是可以通過(guò)與Web服務(wù)器及其附加組件進(jìn)行交互,實(shí)現(xiàn)基于C/S架構(gòu)能夠處理的數(shù)據(jù)處理功能,例如:OA(辦公自動(dòng)化)、游戲、購(gòu)物、網(wǎng)銀、視頻、電子郵件等。
隨著網(wǎng)頁(yè)功能的日益豐富,人們?cè)L問(wèn)網(wǎng)頁(yè)的目的也逐漸多樣化,如何識(shí)別網(wǎng)頁(yè)訪問(wèn)目的的類型,并對(duì)其進(jìn)行分析,以便達(dá)到分類的目的,已經(jīng)成為網(wǎng)絡(luò)管理的一項(xiàng)重要工作。通過(guò)對(duì)網(wǎng)頁(yè)訪問(wèn)目的進(jìn)行分類,可以識(shí)別用戶的上網(wǎng)習(xí)慣,還能夠綜合分析網(wǎng)絡(luò)流量的分布情況,因此具有較好的應(yīng)用價(jià)值。已有的研究主要集中在針對(duì)網(wǎng)頁(yè)的分類[1],這些研究既有采用網(wǎng)頁(yè)內(nèi)容特征進(jìn)行分類的技術(shù),也有針對(duì)URL模式進(jìn)行分類的技術(shù),例如,文獻(xiàn)[2]介紹了一種結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)特征進(jìn)行分類的方法,文獻(xiàn)[3]基于網(wǎng)頁(yè)的URL信息進(jìn)行分類,文獻(xiàn)[4]綜合分析URL、主機(jī)信息和網(wǎng)頁(yè)內(nèi)容的特征信息對(duì)網(wǎng)頁(yè)進(jìn)行分類。但是,針對(duì)網(wǎng)頁(yè)訪問(wèn)目的進(jìn)行分類的研究還不多,部分文獻(xiàn)結(jié)合用戶行為特征和網(wǎng)頁(yè)內(nèi)容特征,對(duì)用戶訪問(wèn)的網(wǎng)頁(yè)進(jìn)行分類[5],但這還不是嚴(yán)格意義的針對(duì)網(wǎng)頁(yè)訪問(wèn)目的的分類。為了對(duì)網(wǎng)頁(yè)訪問(wèn)目的進(jìn)行可行的分類,本文設(shè)計(jì)了一種對(duì)網(wǎng)頁(yè)訪問(wèn)目的進(jìn)行分類的方法,以期為復(fù)雜多變的網(wǎng)頁(yè)訪問(wèn)目的提供一種有效的分類途徑。
本文構(gòu)建訪問(wèn)目的類型編碼庫(kù)、訪問(wèn)目的類型特征庫(kù),將監(jiān)視到的網(wǎng)絡(luò)訪問(wèn)活動(dòng)信息,通過(guò)特征掃描方法與訪問(wèn)目的類型的特征記錄進(jìn)行匹配,一旦掃描到符合匹配條件的特征記錄,則將訪問(wèn)活動(dòng)判斷為該特征記錄映射的訪問(wèn)目的類型。同時(shí),為了識(shí)別出網(wǎng)頁(yè)訪問(wèn)目的的新類型,本文還考慮了網(wǎng)頁(yè)訪問(wèn)目的類型及其特征的動(dòng)態(tài)擴(kuò)充。具體地,本文設(shè)計(jì)的網(wǎng)頁(yè)訪問(wèn)目的的分類方法的關(guān)鍵技術(shù)如下所述。
(1)訪問(wèn)目的類型編碼庫(kù)
構(gòu)建訪問(wèn)目的類型編碼庫(kù)數(shù)據(jù)表,用于存儲(chǔ)用戶訪問(wèn)網(wǎng)頁(yè)的主觀目的的類型,其表結(jié)構(gòu)如表1所示。該表含有三個(gè)字段,分表存儲(chǔ)訪問(wèn)目的類型編號(hào)(整型數(shù)據(jù)類型)、類型名稱(可變長(zhǎng)度字符類型)、備注信息(可變長(zhǎng)度字符類型)。
表1 訪問(wèn)目的類型編碼庫(kù)數(shù)據(jù)表結(jié)構(gòu)
《第33次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[6]將網(wǎng)絡(luò)用戶的上網(wǎng)目的在宏觀上主要分為搜索引擎、社交網(wǎng)站、電商應(yīng)用、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)游戲、移動(dòng)互聯(lián)網(wǎng)共六個(gè)方面[7],網(wǎng)頁(yè)訪問(wèn)活動(dòng)與傳統(tǒng)意義的上網(wǎng)活動(dòng)還有具有較大的區(qū)別,雖然網(wǎng)站系統(tǒng)的應(yīng)用已發(fā)展到相當(dāng)高的技術(shù)水平,但是,由于其實(shí)現(xiàn)技術(shù)的特殊性,目前其達(dá)到的目的還受到了一定的限制。根據(jù)當(dāng)前基于瀏覽器的網(wǎng)頁(yè)訪問(wèn)可以實(shí)現(xiàn)的功能,可以將網(wǎng)頁(yè)訪問(wèn)目的的類型歸納為以下幾種:信息查詢、新聞瀏覽、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)購(gòu)物、網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)銀行、網(wǎng)上辦公、文件下載等。
(2)訪問(wèn)目的類型特征庫(kù)
構(gòu)建訪問(wèn)目的類型特征庫(kù)數(shù)據(jù)表,用于存儲(chǔ)訪問(wèn)目的類型表達(dá)出的訪問(wèn)活動(dòng)特征信息,其表結(jié)構(gòu)如表2所示。該表的字段包括特征編號(hào)、訪問(wèn)目的類型編號(hào)(映射到上一小節(jié)中的訪問(wèn)目的類型編碼庫(kù)數(shù)據(jù)表)、訪問(wèn)時(shí)間、訪問(wèn)地址、訪問(wèn)網(wǎng)頁(yè)名稱、訪問(wèn)網(wǎng)頁(yè)的標(biāo)題、備注信息,其中,訪問(wèn)目的類型編號(hào)通過(guò)外鍵關(guān)聯(lián)到訪問(wèn)目的類型編碼庫(kù)數(shù)據(jù)表的類型編號(hào)字段,通過(guò)訪問(wèn)目的類型編號(hào),可以查到一條特征記錄對(duì)應(yīng)的訪問(wèn)目的類型的名稱,多條特征記錄可以對(duì)應(yīng)到同一個(gè)訪問(wèn)目的類型。
表2 訪問(wèn)目的類型特征庫(kù)數(shù)據(jù)表結(jié)構(gòu)
(3)網(wǎng)頁(yè)訪問(wèn)活動(dòng)的監(jiān)視
為了識(shí)別用戶訪問(wèn)網(wǎng)頁(yè)的目的,需要監(jiān)視網(wǎng)頁(yè)訪問(wèn)活動(dòng),并從訪問(wèn)活動(dòng)中提取出能夠反映用戶瀏覽網(wǎng)頁(yè)目的的關(guān)鍵特征信息,這些信息包括:訪問(wèn)時(shí)間、域名或URL地址、網(wǎng)頁(yè)文件名稱、網(wǎng)頁(yè)標(biāo)題。
監(jiān)視網(wǎng)頁(yè)訪問(wèn)活動(dòng)的方法可以根據(jù)實(shí)際需求來(lái)確定,總體來(lái)說(shuō)可以分為實(shí)時(shí)監(jiān)視方法和離線監(jiān)視方法。實(shí)時(shí)監(jiān)視方法主要有以下兩種:(1)在操作系統(tǒng)層面監(jiān)視用戶訪問(wèn)網(wǎng)頁(yè)的操作行為,當(dāng)用戶訪問(wèn)網(wǎng)頁(yè)時(shí),從瀏覽器地址欄或網(wǎng)頁(yè)文件中提取網(wǎng)頁(yè)訪問(wèn)活動(dòng)的特征信息;(2)捕獲實(shí)時(shí)的網(wǎng)絡(luò)數(shù)據(jù)流,篩選出傳輸網(wǎng)頁(yè)的網(wǎng)絡(luò)數(shù)據(jù)包,以分析網(wǎng)頁(yè)數(shù)據(jù)包的特征信息作為網(wǎng)頁(yè)訪問(wèn)活動(dòng)的特征信息。離線監(jiān)視方法主要是從網(wǎng)站服務(wù)器或用戶計(jì)算機(jī)的日志信息里分析用戶的網(wǎng)頁(yè)訪問(wèn)記錄,并從這些記錄中提取網(wǎng)頁(yè)訪問(wèn)活動(dòng)的特征信息。
(4)網(wǎng)頁(yè)訪問(wèn)目的類型的特征掃描
當(dāng)監(jiān)視到網(wǎng)頁(yè)訪問(wèn)活動(dòng)后,構(gòu)建出該活動(dòng)的基本信息,設(shè)為a=<activityID,訪問(wèn)時(shí)間,地址,網(wǎng)頁(yè)文件名稱,網(wǎng)頁(yè)標(biāo)題>,并將其在訪問(wèn)目的類型特征庫(kù)中進(jìn)行掃描。為了判斷活動(dòng)a屬于何種訪問(wèn)目的類型,需要采用一定的掃描方法,取出訪問(wèn)目的類型特征庫(kù)的特征記錄f,計(jì)算a與f的匹配程度,如果其達(dá)到了設(shè)定的閾值,則表示活動(dòng)a符合特征f映射的訪問(wèn)目的類型編碼庫(kù)中的訪問(wèn)目的類型。
按照表 2中的定義,得到f=<featureID,classID,URL,pageName,pageTitle,remark>。設(shè) a與 f的匹配方法為Match()、匹配閾值為δ,如果訪問(wèn)目的類型特征庫(kù)中存在一條f滿足Match(a,f)≥δ,則網(wǎng)頁(yè)訪問(wèn)活動(dòng)a訪問(wèn)類型即為f.classID外鍵關(guān)聯(lián)的訪問(wèn)目的類型編碼庫(kù)的purposeClass字段表示的訪問(wèn)目的類型。
(5)網(wǎng)頁(yè)訪問(wèn)目的類型及其特征的動(dòng)態(tài)擴(kuò)充
訪問(wèn)目的類型編碼庫(kù)表中存儲(chǔ)經(jīng)典的和已經(jīng)明確的網(wǎng)頁(yè)訪問(wèn)目的的類型信息,隨著基于B/S(瀏覽器/服務(wù)器)架構(gòu)技術(shù)的不斷發(fā)展,用戶通過(guò)網(wǎng)頁(yè)將實(shí)現(xiàn)越來(lái)越多的功能,因此網(wǎng)頁(yè)訪問(wèn)目的的類型也將與日俱增。為了表達(dá)出訪問(wèn)目的類型的變化,需要定義出新的訪問(wèn)目的類型的信息,并將其添加至訪問(wèn)目的類型編碼表中,對(duì)訪問(wèn)目的類型進(jìn)行擴(kuò)充。同時(shí),也需要?jiǎng)討B(tài)擴(kuò)充訪問(wèn)目的類型的特征,先將新構(gòu)建的特征映射到訪問(wèn)目的類型編碼庫(kù)表,再將其添加至訪問(wèn)目的類型特征數(shù)據(jù)表。
網(wǎng)絡(luò)用戶帶著一定的主觀傾向去訪問(wèn)網(wǎng)頁(yè),其訪問(wèn)網(wǎng)頁(yè)的目的種類繁多,通過(guò)對(duì)網(wǎng)頁(yè)訪問(wèn)目的進(jìn)行分類,可以促進(jìn)網(wǎng)絡(luò)管理和網(wǎng)站應(yīng)用設(shè)計(jì)的優(yōu)化。本文通過(guò)監(jiān)視網(wǎng)頁(yè)訪問(wèn)活動(dòng),并將獲得的網(wǎng)頁(yè)訪問(wèn)活動(dòng)信息與訪問(wèn)目的類型特征進(jìn)行匹配,同時(shí)考慮到了網(wǎng)頁(yè)訪問(wèn)目的類型及其特征的動(dòng)態(tài)擴(kuò)充問(wèn)題,這種分類方法具有一定的準(zhǔn)確性,為復(fù)雜多變的網(wǎng)頁(yè)訪問(wèn)目的提供了一種有效的分類方法。