亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web數(shù)據(jù)挖掘技術(shù)綜述

        2009-07-16 09:33:54
        新媒體研究 2009年8期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        孟 叢

        [摘要]Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應用,Web數(shù)據(jù)具有本身的特點,Web數(shù)據(jù)挖掘可以分為三類,各自有其相關(guān)技術(shù),Web數(shù)據(jù)挖掘技術(shù)有著廣泛的應用,而且隨著Internet的不斷發(fā)展,必將有著更加開闊的應用前景。

        [關(guān)鍵詞]數(shù)據(jù)挖掘 內(nèi)容挖掘 結(jié)構(gòu)挖掘 日志挖掘

        中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0420044-01

        數(shù)據(jù)挖掘(Data Mining,DM)是近年來發(fā)展迅速的知識發(fā)現(xiàn)的一個重要步驟,在科學研究和社會應用領(lǐng)域都得到了廣泛的應用。目前數(shù)據(jù)挖掘沒有一個完全公認的定義,一般認為:數(shù)據(jù)挖掘是運用計算機及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識的高級過程。Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來,是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中的應用。Web數(shù)據(jù)挖掘是一項綜合技術(shù),通過從Internet上的資源中抽取信息來提高Web技術(shù)的利用效率,也就是從Web文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式[1]。

        一、Web數(shù)據(jù)挖掘的特點

        傳統(tǒng)的數(shù)據(jù)挖掘是以數(shù)據(jù)庫為基礎,對結(jié)構(gòu)化的數(shù)據(jù)源進行信息的加工、分析和模式挖掘。從理論上講,數(shù)據(jù)挖掘的各種理論和技術(shù)都可以直接或間接地應用于Web數(shù)據(jù)挖掘,然而由于Web的自身特點,使得Web數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有很大的不同[2]。

        (一)分布式數(shù)據(jù)。相關(guān)主題的信息雜亂地散布在Web站點上的多個目錄下, 這樣就需要有一個強大的搜索引擎,通過查找關(guān)鍵字,來定位超文本的位置。

        (二)Web上數(shù)據(jù)特點。特點一是動態(tài)性,Internet本身就是一個時刻在動態(tài)更新和變化的系統(tǒng),需要借鑒數(shù)據(jù)倉庫的技術(shù),以此保存Web上動態(tài)更新的數(shù)據(jù);特點二是多樣性, Web數(shù)據(jù)經(jīng)過過濾后,既有數(shù)值型,又有分類數(shù)據(jù)、性質(zhì)描述數(shù)據(jù)以及Web特有的數(shù)據(jù)類型;特點三是數(shù)據(jù)源之間可能存在冗余、不一致甚至矛盾。

        (三)用戶目標的模糊性。Web挖掘用戶對挖掘的主題提不出明確的目標,因此需要數(shù)據(jù)挖掘系統(tǒng)具有一定的智能性和學習機制,不斷地跟蹤用戶的興趣,直至獲得所需的結(jié)果。

        (四)異構(gòu)數(shù)據(jù)庫環(huán)境。數(shù)據(jù)庫本身、運行環(huán)境和非結(jié)構(gòu)化的數(shù)據(jù)都存在差異。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點之間的信息和組織都不一樣,構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。

        (五)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)大多是HTML格式,數(shù)據(jù)復雜,沒有特定的模型描述,因此是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的主要特點。

        二、Web數(shù)據(jù)挖掘的分類及技術(shù)現(xiàn)狀

        Web上信息的多樣性決定了Web挖掘任務的多樣性,按照處理對象的不同我們將Web挖掘分為三大類[3]。

        (一)Web內(nèi)容挖掘。Web內(nèi)容挖掘是指對Web頁面內(nèi)容進行挖掘,從Web文檔的內(nèi)容信息中抽取知識。它分為Web文本挖掘和Web多媒體挖掘,針對的對象分別是Web文本信息和Web多媒體信息。Web內(nèi)容挖掘的重點是頁面分類和聚類。Web頁面的分類是根據(jù)頁面的不同特征,將其劃歸為事先建立起來的不同的類。Web頁面的聚類是指在沒有給定主題類別的情況下,將Web頁面集合聚成若干個簇,并且同一簇的頁面內(nèi)容相似性盡可能大,而簇間相似度盡可能小。

        (二)Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對Web頁面之間的超鏈結(jié)構(gòu),Web頁面內(nèi)部結(jié)構(gòu)和URL中的目錄路徑結(jié)構(gòu)進行挖掘,從中抽取知識。Web在邏輯上可以用有向圖表示出來,頁面對應圖中的點,超級鏈接對應圖中的邊。超鏈也體現(xiàn)了Web頁面之間的某種關(guān)系,WebKB就是通過對超級鏈接的分類來辨別instructor-of, members-of-department等關(guān)系實例。PageRa

        -nk方法則是通過分析頁面的引用次數(shù)和引用關(guān)系來發(fā)現(xiàn)重要頁面。Spertus對Web頁面的內(nèi)部結(jié)構(gòu)和URL做了研究并提出一些啟發(fā)式規(guī)則,用于收索新頁面和自動索引。

        (三)Web日志挖掘。個人瀏覽Web服務器時,服務器方會產(chǎn)生三種類型日志文件:Server Logs,Error Logs,Cookie Logs,記錄了關(guān)于用戶訪問和交互的信息。Web日志挖掘正是對這三種日志文件進行挖掘,從而發(fā)現(xiàn)用戶的訪問模式、相似用戶群體、頻繁路徑等知識[4]。

        Web日志挖掘方法可分為基于Web事物的方法和基于數(shù)據(jù)立方的方法。前者是將用戶會話劃分成事物序列,然后采用數(shù)據(jù)挖掘的方法挖掘頻繁路徑等知識,后者則將Web日志組織成數(shù)據(jù)立方用于數(shù)據(jù)挖掘和OLAP,WAP2Mine采用的是第一種方法。

        三、Web數(shù)據(jù)挖掘的應用

        數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應用于金融業(yè)、零售業(yè)、遠程通信業(yè)、政府管理、制造業(yè)、醫(yī)療服務和體育等行業(yè)中,而它在網(wǎng)絡中的應用(即Web挖掘)已經(jīng)成為當今國際學術(shù)界的研究熱點,并開始在許多行業(yè)得到應用。

        Web數(shù)據(jù)挖掘的典型應用領(lǐng)域是在搜索引擎中的應用,通過引入Web挖掘技術(shù)可以提高搜索引擎的查詢速度、關(guān)鍵詞匹配的相關(guān)度以及網(wǎng)頁的權(quán)重,改善檢索效果。

        另一個典型應用是網(wǎng)站設計, 通過對網(wǎng)站內(nèi)容的Web挖掘可以有效地組織網(wǎng)站信息,如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;以結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,有助于開展網(wǎng)站信息推送服務以及個人信息的定制服務。

        在電子商務中的應用也是一個成功的范例,通過對客戶訪問日志數(shù)據(jù)應用神經(jīng)元網(wǎng)絡、模型化算法和其它信息處

        理技術(shù),進行分析加工,可獲得商家用于向特定消費群體或個體進行定向營銷的決策信息。

        四、結(jié)語

        Web數(shù)據(jù)挖掘是把Internet、WWW和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù),Web數(shù)據(jù)挖掘的應用非常廣泛,不但涉及頁面信息的提取、站點的分析和設計,在基于Internet的電子商務方面也有很好的應用前景。目前,在國內(nèi)Web挖掘的研究仍處于起步階段,是前沿性的研究領(lǐng)域,有待進一步研究的課題有:Web知識庫的動態(tài)維護和更新方法;各種知識和模式的綜合評價方法;數(shù)據(jù)挖掘的語言及評價標準的制定;滿足實時性和深層分析的算法等。

        參考文獻:

        [1]馬保國、侯存軍、王文豐等,Web數(shù)據(jù)挖掘技術(shù)與應用[J].計算機與數(shù)字工程,2006,6:20-22.

        [2]蔣良孝、蔡之華,Web挖掘及其應用研究[J].現(xiàn)代計算機,2003,3:24-27.

        [3]張小松、竇炳琳,Web挖掘研究[J].唐山學院學報,2003,12:80-84.

        [4]高祥華,Web2.0中的技術(shù)及應用[J].中國科技信息,2006,13:127-128.

        作者簡介:

        孟叢,女,漢族,山東濟南人,碩士,濟南職業(yè)學院技術(shù)教育部,助教,主要研究方向:數(shù)據(jù)庫,數(shù)據(jù)挖掘,信息管理,電子商務。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘在高校圖書館中的應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        一本大道久久精品 东京热| 亚洲午夜久久久久久久久电影网 | 国内视频偷拍一区,二区,三区| 国产精品亚洲最新地址| 国产精华液一区二区三区| 欧美俄罗斯40老熟妇| 欧美亚洲高清日韩成人| 免费在线观看视频专区| 极品尤物精品在线观看| 日韩国产成人无码av毛片蜜柚 | 免费人成网站在线视频| 丝袜美腿一区二区三区| 放荡的闷骚娇妻h| 亚洲红杏AV无码专区首页| 一区二区三区四区亚洲免费| 国内最真实的xxxx人伦 | 思思99热| 中文字幕人妻av四季| 帅小伙自慰videogay男男| 国产乱子伦视频大全| 91精品国产高清久久久久| 亚洲第一女人的天堂av| 97在线观看播放| 天天综合天天色| 亚洲一区二区三区亚洲| 免费观看a级毛片| 中文字幕人成乱码中文| 国产精品无套一区二区久久 | 国产精品va在线观看无码| 亚洲加勒比无码一区二区在线播放 | 99蜜桃在线观看免费视频| 无码aⅴ精品一区二区三区浪潮| 激情偷乱人伦小说视频在线| 日本精品一区二区在线看| 成人大片免费观看视频| 国产成人无码一区二区在线播放| 亚洲一区二区三区av链接| 熟女少妇av一区二区三区 | 国产丝袜爆操在线观看| 人妻少妇精品中文字幕av| 亚洲AV秘 无码一区二区三区1|