亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網站結構優(yōu)化系統(tǒng)研究

        2011-08-29 05:39:50程舒通
        科技傳播 2011年24期
        關鍵詞:優(yōu)化結構用戶

        程舒通

        1.浙江大學計算機科學與技術學院,浙江杭州 310027

        2.杭州科技職業(yè)技術學院,浙江杭州 310012

        0 引言

        隨著互聯(lián)網和電子商務的發(fā)展,對網站技術的開發(fā)提出了更高的要求,建設一個更合理、注重個性化和相關性的網站成為研究的熱點,很多的學者從不同角度、不同方向提出了網站結構優(yōu)化技術[1-4],也開發(fā)了相應的系統(tǒng)或模型,但是尚未從整體上去把握網站結構優(yōu)化技術。本文設計了一個較為常用的網站結構優(yōu)化系統(tǒng),并仔細分析每一階段的特點。

        我們認為網站結構優(yōu)化是指Web結構挖掘內容,其對象是網站本身的超連接,即對Web文檔的結構進行挖掘。我們利用相應的算法,發(fā)現(xiàn)Web文檔之間鏈接情況的有用信息,由于文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關系,因此引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。

        1 網站結構優(yōu)化系統(tǒng)

        本文設計的網站結構優(yōu)化系統(tǒng),包括4個主要階段:分別是數(shù)據采集、數(shù)據預處理、模式發(fā)現(xiàn)和模式分析等。

        圖1 網站結構優(yōu)化系統(tǒng)基本框架圖

        1.1 數(shù)據采集

        網站數(shù)據采集是網站結構優(yōu)化的前期步驟,也是后續(xù)工作的基礎。簡單的說就是獲取網站的原始數(shù)據和相關信息。此階段主要分為四種形式,Web服務器端數(shù)據采集、客戶端的數(shù)據采集、應用服務器數(shù)據采集以及代理服務器端數(shù)據采集等。Web服務器段數(shù)據采集是指從Web服務器獲取原始的日志文件,這些日志文件中記錄很了多的網站信息。客戶端的數(shù)據采集主要是根據客戶對網站服務器的點擊行為,產生的IP地址、點擊時間、次數(shù)以及點擊的序列,可以從中獲取用戶對網站不同頁面的關注度的數(shù)據,從而得到相應用戶的興趣度。針對網站數(shù)據采集設計的方法和系統(tǒng)很多,但是最為常見的還是Web服務器端和客戶端的數(shù)據采集,如文獻[5]闡述了通用網上商店自動數(shù)據采集引擎的設計流程,提出了應用XML和關系型數(shù)據庫的解決方案,為利用已有的大量廉價以至免費的數(shù)據信息。文獻[6]提出基于用戶瀏覽行為的客戶端數(shù)據采集的方式,有效解決Web使用記錄挖掘中數(shù)據采集問題。

        1.2 數(shù)據預處理

        從網站中獲取的信息比較復雜,包含各種各樣的錯誤和無效信息。這些數(shù)據需要提前預處理,轉化成為適合數(shù)據挖掘的數(shù)據格式。數(shù)據預處理階段包括日志預處理、數(shù)據清理、識別用戶和路徑修補4個模塊:日志預處理模塊包括將日志文件導人到數(shù)據庫中,期間的字段根據日志格式中的字段進行選擇定義;數(shù)據清理從Web日志文件中過濾無關的頁面請求(如圖形等)以及不成功的頁面請求,在某些文獻中被定義成為數(shù)據凈化,就是指刪除一些與Web日志挖掘無關的數(shù)據;識別用戶是指從Web日志記錄中找出訪問網站的用戶,可以采用IP+Agent機制實現(xiàn);路徑修補(或者稱為路徑完善)將由于緩沖而造成日志文件中丟失的重要用戶訪問鏈接記錄根據站點結構補充完整,以便后續(xù)結構優(yōu)化模塊提供更為準確的用戶訪問記錄。很多的學者對Web數(shù)據的預處理做了相應的研究,如文獻[7]設計了用戶識別、訪問操作識別和路徑完善三個步驟的關鍵算法。

        1.3 模式發(fā)現(xiàn)

        模式發(fā)現(xiàn)階段包括序列模式挖掘、關聯(lián)規(guī)則挖掘技術和聚類分類分析三部分,這三部分都是數(shù)據挖掘領域的研究熱點。

        序列模式挖掘是指挖掘相對于時間或其他模式出現(xiàn)頻率高的模式。該技術被廣泛地應用于各種序列數(shù)據集中,如以單詞作為文檔序列,研究在不同文檔中單詞序列的出現(xiàn)概率;網站點擊流數(shù)據,用于挖掘用戶的頻繁點擊模式等。

        在網站結構優(yōu)化中,關聯(lián)規(guī)則主要用于發(fā)現(xiàn)用戶之間、頁面之間以及用戶瀏覽頁面和網上行為之間存在的潛在關系,即挖掘出用戶在一個訪問期間(Session)從服務器上訪問的頁面或文件之間的聯(lián)系。

        聚類是將數(shù)據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性,而分類也能起到相似的作用。

        1.4 模式分析

        模式分析是從一批數(shù)據中尋找普遍關系的過程。它逐漸成為許多學科的核心,從神經網絡到所謂句法模式識別,從統(tǒng)計模式識別到機器學習和數(shù)據挖掘,模式分析的應用覆蓋了從生物信息學到文檔檢索的廣泛領域。我們這里所指的模式分析階段是指網站結構優(yōu)化過程中的最后一個重要步驟包括序列模式分析和頻繁訪問模式分析兩部分。

        最常見的模式分析形式是像SQL那樣的知識查詢機制,另一種方法是把Web使用數(shù)據裝入數(shù)據倉庫,以便執(zhí)行OLAP 操作[8]。

        2 網站結構優(yōu)化中主要算法研究

        梳理相關文獻,不少學者和文獻都從本系統(tǒng)中的某一階段提出了相應的優(yōu)化算法,有統(tǒng)計分析、人工神經算法、關聯(lián)規(guī)則、決策規(guī)則、貝葉斯分類、最近鄰分類、聚類分析、模糊集合、模糊邏輯、趨勢分析,轉折點檢測等,這些算法不外乎在我們設計的系統(tǒng)里面,覆蓋了每一個階段的內容,其最終目的是尋找頻繁序列,即用戶點擊流產生的頻繁路徑,在削減算法的時空占用基礎上做到高效的數(shù)據挖掘。

        文獻[9]利用云計算的分布式處理和虛擬化技術的優(yōu)勢,設計一種基于云計算的Hadoop 集群框架的Web 日志分析平臺,提出一種能夠在云計算環(huán)境中進行分布式處理的混合算法。

        文獻[10]提出一種基于待挖掘站點首頁的用戶會話識別方法。該方法根據用戶瀏覽站點的習慣,以站點首頁作為用戶新會話開始標識,并增強了用戶會話的定義。

        3 結論

        網站結構優(yōu)化作為當前一個非常重要的研究和應用領域,產生了許多非常有價值的研究成果。未來的研究方向是如何提高每一階段算法的時間和空間效率,降低運算的成本。本文論述了網站結構優(yōu)化模型及特點,目前完成了相應的理論研究,我們接下來的工作就是針對每一個階段,對比前人的研究成果,設計出更為有效的算法。這對于開發(fā)一些目的性強的網站具有較大幫助(如電子商務網站),可以提高web用戶的服務質量,使用戶享用到滿意的個性化服務。

        [1]N akayama T, Kato H, Yamane Y.Discovering the gap between Web site designers’expectations and users’behavior[J].Computer Networks, 2000, 33: 823-835.

        [2]Garofalakis J, Kappos P, Mourloukos M.Web site optimization using page popularity [J].IEEE Internet Computing, 1999:22-29.

        [3]Wang YW, Wang DW, Design strategy of web page for e-supermarket, Jiang Pingyu et.al, 2001 International Conference on eCommerce Engineering 2001.Xi’an: China Machine Press,2001.

        [4]Kim J, Yoo B.Toward the optimal link structure of the cyber shopping mall [J].Int J.Human-Computer Studies,2000, 52: 531-551.

        [5]李煜, 陸建德.通用網上商店自動數(shù)據采集引擎的設計[J].計算機應用研究,2001(11):100-103.

        [6]李鵬,喬曉東,韓烽,王繼田,梁健,張寅生.基于用戶瀏覽行為的數(shù)據采集及應用[J].現(xiàn)代圖書情報技術,2008(11):56-59.

        [7]何波,涂飛,程勇軍.Web 日志挖掘數(shù)據預處理研究[J].微電子學與計算機,2011,28(4):111-114.

        [8]陳恩紅,徐涌,王煦法.Web使用挖掘:從Web數(shù)據中發(fā)現(xiàn)用戶使用模式[J].計算機科學,2001,28(5):85-88.

        [9]程苗,陳華平.基于Hadoop的Web日志挖掘[J].計算機工程,2011,37(11):37-38.

        [10]周愛武,程博,李孫長,夏松.Web日志挖掘中的會話識別方法[J].計算機工程與設計,2010,31(5):936-938.

        猜你喜歡
        優(yōu)化結構用戶
        超限高層建筑結構設計與優(yōu)化思考
        房地產導刊(2022年5期)2022-06-01 06:20:14
        《形而上學》△卷的結構和位置
        哲學評論(2021年2期)2021-08-22 01:53:34
        民用建筑防煙排煙設計優(yōu)化探討
        關于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        論結構
        中華詩詞(2019年7期)2019-11-25 01:43:04
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        論《日出》的結構
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        日韩有码在线一区二区三区合集| 日韩乱码人妻无码中文字幕久久| 亚洲综合激情五月丁香六月| 亚洲男人第一av网站| 区无码字幕中文色| 青青草视频在线免费观看91| 偷拍韩国美女洗澡一区二区三区| 四虎国产成人永久精品免费| 国产av永久无码天堂影院| 日产精品久久久久久久蜜臀| 狠狠躁夜夜躁人人爽天天| 欧美h久免费女| 国产偷国产偷亚洲高清| 亚洲av成人精品一区二区三区| 亚洲热线99精品视频| 欧美v亚洲v日韩v最新在线| 亚洲国产精品中文字幕日韩| 久久国产亚洲av高清色| 男男啪啪激烈高潮无遮挡网站网址| 丰满少妇高潮惨叫久久久| 一本一道久久综合久久| 国产精品 高清 尿 小便 嘘嘘| 免费国产99久久久香蕉| 日本一区人妻蜜桃臀中文字幕| 99久久无色码中文字幕人妻蜜柚| 国产精品熟女视频一区二区| 亚洲白白色无码在线观看| 精品国产成人一区二区不卡在线| 人妻熟女翘屁股中文字幕| 亚洲av无码专区在线观看下载| 乱码午夜-极国产极内射| 亚洲精品一区二区三区播放| 那有一级内射黄片可以免费看| 久久www免费人成—看片| 国产极品美女高潮抽搐免费网站 | 精品国产日产av在线| 人人鲁人人莫人人爱精品| 真人男女做爰无遮挡免费视频| 成年人男女啪啪网站视频| 国产精品国产自产拍高清| 全黄性性激高免费视频|