摘要:信息時(shí)代的到來(lái),網(wǎng)站信息量呈現(xiàn)出的爆炸式發(fā)展導(dǎo)致用戶(hù)無(wú)法定位其中信息,使用網(wǎng)站信息可視化輔助用戶(hù)導(dǎo)航網(wǎng)站是解決上述問(wèn)題的主要方法。由于網(wǎng)站中信息復(fù)雜多變,如何融合展現(xiàn)網(wǎng)站中的各類(lèi)信息是目前的難點(diǎn)問(wèn)題。在此使用RadialView樹(shù)型布局算法繪制由超鏈接信息組成的網(wǎng)站拓?fù)浣Y(jié)構(gòu)。提出一種可視化規(guī)則在網(wǎng)站結(jié)構(gòu)圖的基礎(chǔ)上添加對(duì)網(wǎng)頁(yè)關(guān)聯(lián)、熱度等使用信息的可視化;以聚變數(shù)據(jù)庫(kù)網(wǎng)站為實(shí)際應(yīng)用案例,分析了該文關(guān)于網(wǎng)站信息可視化方面的工作在輔助用戶(hù)導(dǎo)航網(wǎng)站方面的效果。
關(guān)鍵詞:網(wǎng)站信息可視化;結(jié)構(gòu)信息;網(wǎng)站使用信息;聚變數(shù)據(jù)庫(kù)
中圖分類(lèi)號(hào):TN91134文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1004373X(2012)18006704
引言
隨著網(wǎng)站信息量的擴(kuò)展,網(wǎng)站結(jié)構(gòu)愈加復(fù)雜,如何迅速在網(wǎng)站中尋找信息越來(lái)越困難。使用網(wǎng)站信息可視化方法對(duì)網(wǎng)站進(jìn)行導(dǎo)航是解決上述問(wèn)題的主要途徑[1],因此網(wǎng)站的信息可視化逐漸成為一個(gè)熱點(diǎn)研究領(lǐng)域。早期使用可視化技術(shù)主要關(guān)注網(wǎng)站的結(jié)構(gòu)信息,如E.H.Chi在文獻(xiàn)[2]中使用conetree的可視化技術(shù)展現(xiàn)WebSpace結(jié)構(gòu),文獻(xiàn)[3]使用圖布局技術(shù)可視化網(wǎng)站等。但是上述研究無(wú)一例外地忽視了網(wǎng)站的一個(gè)重要組成因素:網(wǎng)站用戶(hù)。隨著網(wǎng)站用戶(hù)的增多以及網(wǎng)站使用信息量的擴(kuò)充,分析并可視化網(wǎng)站使用信息逐漸被提及和關(guān)注,如文獻(xiàn)[45]中可視化了諸如用戶(hù)的訪(fǎng)問(wèn)模式、網(wǎng)頁(yè)的訪(fǎng)問(wèn)頻率等網(wǎng)站使用信息。其中如何將網(wǎng)站的結(jié)構(gòu)信息與日志文件中所包含的使用信息相融合,并以容易理解的方式可視化出來(lái)是一個(gè)難點(diǎn)問(wèn)題。鑒于此,JiyangChen在文獻(xiàn)[6]中提出了一種新的多邊形可視化技術(shù),可以在保持網(wǎng)站原有鏈接結(jié)構(gòu)的基礎(chǔ)上,展示一種及多種網(wǎng)站使用信息;Makiko在文獻(xiàn)[7]中融合展現(xiàn)了網(wǎng)站鏈接結(jié)構(gòu)信息和訪(fǎng)問(wèn)模式信息。
基于上述已有的一些網(wǎng)站信息可視化工作,本文提出使用RadialView[8]樹(shù)型布局算法對(duì)網(wǎng)站的結(jié)構(gòu)信息進(jìn)行了可視化;并在網(wǎng)站結(jié)構(gòu)信息可視化結(jié)果的基礎(chǔ)上添加網(wǎng)站使用信息的可視化效果。在此認(rèn)為,對(duì)網(wǎng)站的此類(lèi)信息進(jìn)行可視化能夠輔助用戶(hù)在網(wǎng)站中尋找信息,有利于重構(gòu)網(wǎng)站即對(duì)網(wǎng)站內(nèi)容重新布局。
1方法概述
有很多利用信息可視化方法輔助導(dǎo)航網(wǎng)站用戶(hù)的案例,其可視化信息內(nèi)容的主要關(guān)注點(diǎn)有:一個(gè)是關(guān)注網(wǎng)站本身的信息結(jié)構(gòu),因?yàn)橐粋€(gè)清晰的信息空間結(jié)構(gòu)和網(wǎng)頁(yè)結(jié)構(gòu)有利于簡(jiǎn)化迷失方向的問(wèn)題;另一個(gè)是可視化網(wǎng)站的使用信息。總之使用網(wǎng)站信息可視化結(jié)果對(duì)輔助用戶(hù)導(dǎo)航網(wǎng)站效果較為顯著。
所以本文提出并實(shí)現(xiàn)了一種可視化網(wǎng)站的結(jié)構(gòu)信息和使用信息的方法,具體過(guò)程見(jiàn)圖1所示。主要包括以下幾個(gè)步驟:
(1)為了讓用戶(hù)可以從總體上把握整個(gè)網(wǎng)站的內(nèi)容分布,對(duì)網(wǎng)站結(jié)構(gòu)一目了然,本文使用網(wǎng)絡(luò)爬蟲(chóng)工具抓取網(wǎng)站的超鏈接結(jié)構(gòu)信息,使用點(diǎn)線(xiàn)的布局算法,即節(jié)點(diǎn)代表網(wǎng)頁(yè),線(xiàn)代表網(wǎng)頁(yè)間的超鏈接關(guān)系,繪制網(wǎng)站的結(jié)構(gòu)圖形,生成網(wǎng)站地圖。
(2)本文還從網(wǎng)站的服務(wù)器日志中提取網(wǎng)頁(yè)的熱度信息和關(guān)聯(lián)信息,目的讓用戶(hù)可以選擇對(duì)熱度值較高的網(wǎng)頁(yè)進(jìn)行訪(fǎng)問(wèn),同時(shí)在選擇某個(gè)網(wǎng)頁(yè)時(shí),與該網(wǎng)頁(yè)相關(guān)的一系列網(wǎng)頁(yè)呈現(xiàn)給用戶(hù),從而減少用戶(hù)導(dǎo)航網(wǎng)站時(shí)間,提高信息命中率。
(3)為了在一個(gè)可視化空間內(nèi)有效展現(xiàn)網(wǎng)站中各類(lèi)信息,本文定義一套可視化策略,用以融合顯示網(wǎng)站背后隱藏的使用信息和網(wǎng)站結(jié)構(gòu)信息。
由圖1可知,本文關(guān)于網(wǎng)站信息可視化的工作主要分為兩部分,即網(wǎng)站信息的提取和具體信息的可視化。
2網(wǎng)站信息的提取
網(wǎng)站信息可視化的前提是要獲取網(wǎng)站中的各類(lèi)信息,本文實(shí)現(xiàn)網(wǎng)站信息可視化的數(shù)據(jù)主要來(lái)源于:
(1)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工作構(gòu)建的網(wǎng)站拓?fù)浣Y(jié)構(gòu)信息。
(2)通過(guò)網(wǎng)站服務(wù)器日志獲取的網(wǎng)頁(yè)關(guān)聯(lián)和熱度信息。
本文使用的服務(wù)器日志數(shù)據(jù)默認(rèn)是標(biāo)準(zhǔn)的格式,即收錄了網(wǎng)站用戶(hù)的IP、訪(fǎng)問(wèn)的網(wǎng)頁(yè)URL和時(shí)間等信息。
2.1結(jié)構(gòu)信息的提取
網(wǎng)站中負(fù)責(zé)頁(yè)面間跳轉(zhuǎn)的是網(wǎng)頁(yè)中的超鏈接信息,可以將超鏈接視為線(xiàn),網(wǎng)頁(yè)視為結(jié)點(diǎn),這樣就組成了一個(gè)圖的結(jié)構(gòu),被稱(chēng)之為網(wǎng)站的拓?fù)浣Y(jié)構(gòu)。本文使用基于htmlparser[9]的網(wǎng)絡(luò)爬蟲(chóng)工具提取網(wǎng)頁(yè)中的超鏈接信息,同時(shí)剔除了網(wǎng)頁(yè)中夾雜的無(wú)效鏈接、多媒體鏈接和站外鏈接。由于網(wǎng)站拓?fù)浣Y(jié)構(gòu)呈現(xiàn)出來(lái)是圖結(jié)構(gòu),不利于用戶(hù)的理解和導(dǎo)航,本文擬將其組織成層次性結(jié)構(gòu),所以本文特別設(shè)計(jì)了圖的廣度遍歷算法將網(wǎng)站的拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)換成樹(shù)型結(jié)構(gòu),以便用戶(hù)認(rèn)知和使用。
2.2使用信息的提取
(1)網(wǎng)頁(yè)間關(guān)聯(lián)信息的提取
網(wǎng)頁(yè)關(guān)聯(lián)關(guān)系的提取過(guò)程如圖2所示,首先對(duì)網(wǎng)站服務(wù)器日志進(jìn)行預(yù)處理,識(shí)別出其中的會(huì)話(huà),如圖2(a)中對(duì)會(huì)話(huà)期間訪(fǎng)問(wèn)的網(wǎng)頁(yè)進(jìn)行標(biāo)識(shí);接著使用關(guān)聯(lián)規(guī)則算法分析會(huì)話(huà)期間訪(fǎng)問(wèn)的網(wǎng)頁(yè)集合,如圖2(b)所示,得到最終的最大頻繁項(xiàng)集,可以認(rèn)為該項(xiàng)集中的網(wǎng)頁(yè)具有一定潛在的關(guān)聯(lián)關(guān)系。
(2)網(wǎng)頁(yè)熱度信息的提取
使用一般的統(tǒng)計(jì)方法抽取網(wǎng)頁(yè)的熱度信息,以標(biāo)識(shí)a的網(wǎng)頁(yè)為例,從處理過(guò)后的日志數(shù)據(jù)中可以得到所有網(wǎng)頁(yè)出現(xiàn)的次數(shù):maxValue,網(wǎng)頁(yè)a出現(xiàn)的次數(shù)為a.num,那么可以認(rèn)為網(wǎng)頁(yè)a的熱度信息值:a.hot=f(a.num/maxValue)3網(wǎng)站信息的可視化
本文的基礎(chǔ)工作是對(duì)網(wǎng)站結(jié)構(gòu)信息的可視化。由于網(wǎng)站結(jié)構(gòu)復(fù)雜,不利于用戶(hù)理解和認(rèn)知,所以本文在對(duì)網(wǎng)站結(jié)構(gòu)進(jìn)行可視化的同時(shí),提出一種可視化策略,用以融合網(wǎng)頁(yè)的熱度信息和關(guān)聯(lián)信息。其中熱度信息用于簡(jiǎn)化網(wǎng)站的拓?fù)浣Y(jié)構(gòu),關(guān)聯(lián)信息用于增強(qiáng)網(wǎng)站信息可視化的使用效果。
3.1結(jié)構(gòu)信息的可視化
在網(wǎng)站的信息可視化中,所使用的信息可視化技術(shù)不僅要增強(qiáng)單個(gè)頁(yè)面的可理解性,還要揭示整個(gè)網(wǎng)站的結(jié)構(gòu)。本文采用點(diǎn)線(xiàn)的方式繪制網(wǎng)站結(jié)構(gòu),結(jié)點(diǎn)代表網(wǎng)頁(yè),線(xiàn)代表網(wǎng)頁(yè)間的超鏈接關(guān)系,當(dāng)視某個(gè)網(wǎng)頁(yè)為根節(jié)點(diǎn)時(shí),該網(wǎng)頁(yè)中超鏈接所指向的網(wǎng)頁(yè)作為其子節(jié)點(diǎn),這種鏈接關(guān)系被描述成圖3所示的父親孩子結(jié)構(gòu)。
鑒于網(wǎng)站內(nèi)容組織結(jié)構(gòu)具有層次性的特點(diǎn),在此采用樹(shù)型結(jié)構(gòu)來(lái)展現(xiàn)網(wǎng)站。此外網(wǎng)站信息結(jié)構(gòu)的還具有如下特點(diǎn):
(1)網(wǎng)站鏈接結(jié)構(gòu)具有層次性,網(wǎng)頁(yè)結(jié)點(diǎn)繁多,可視化樹(shù)的葉子結(jié)點(diǎn)數(shù)量龐大。
(2)網(wǎng)站中有效數(shù)據(jù)大都分布在樹(shù)型結(jié)構(gòu)中葉子結(jié)點(diǎn)頁(yè)面。