亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web數(shù)據(jù)挖掘技術(shù)

2011-08-15 00:54:11李培培北京吉利大學信息學院中國北京102202

科技視界 2011年23期

李培培曹芳（北京吉利大學信息學院中國北京 102202）

0 引言

隨著Internet/Intranet技術(shù)的發(fā)展，尤其是Web的全球普及使得Web上信息量無比豐富，Web已經(jīng)成為人們獲取信息的重要途徑，但最先進的搜索引擎也只能找到Web網(wǎng)頁上面很少的網(wǎng)頁，而且無論怎么選擇關(guān)鍵詞都會返回大量并不需要的結(jié)果。如何從非格式化數(shù)據(jù)信息中有效地挖掘出有用的信息是對數(shù)據(jù)挖掘領域的一個新挑戰(zhàn)。

Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫。它主要是些大量的、異質(zhì)的Web信息資源，文檔結(jié)構(gòu)性差，其數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)化，信息不能清楚地用數(shù)據(jù)模型來表示。因此在Web的數(shù)據(jù)挖掘需要用到很多不同于單個數(shù)據(jù)倉庫挖掘的技術(shù)。

1 Web數(shù)據(jù)挖掘概述

1.1 Web數(shù)據(jù)挖掘概念

Web數(shù)據(jù)挖掘是一項綜合技術(shù)，是利用數(shù)據(jù)挖掘技術(shù)從WWW數(shù)據(jù)資源中抽取信息的過程，結(jié)合了數(shù)據(jù)挖掘、信息處理、可視化、數(shù)理統(tǒng)計等領域的成熟技術(shù)，是對Web數(shù)據(jù)資源中蘊含的未知的有潛在應用價值的模式的提取。

1.2 Web數(shù)據(jù)挖掘原理

通常Web挖掘過程可以分為以下幾個處理階段：資源發(fā)現(xiàn)、數(shù)據(jù)抽取及數(shù)據(jù)預處理、數(shù)據(jù)匯總及模式識別、分折驗證。目標數(shù)據(jù)集根據(jù)用戶需求，從Web數(shù)據(jù)源中提取的相關(guān)數(shù)據(jù)，Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取；預處理過程從數(shù)據(jù)中去除明顯錯誤或冗余的數(shù)據(jù)，并將數(shù)據(jù)轉(zhuǎn)換成為有效和易于理解的形式；模式分析對發(fā)現(xiàn)的模式進行解釋和評估；最后將發(fā)現(xiàn)的知識以用戶能理解的方式提供給用戶。

1.3 Web數(shù)據(jù)挖掘分類

根據(jù)挖掘?qū)ο蟮牟煌?，Web挖掘可以分為三類，Web內(nèi)容挖掘（WCM)、Web結(jié)構(gòu)挖掘（WSM）和 Web使用挖掘（WUM）。

1.3.1 Web內(nèi)容挖掘

Web內(nèi)容挖掘?qū)嶋H上是從Web文檔及描述中獲取知識，具體來說就是對Web上大量的文檔集合的內(nèi)容進行摘要、分類、聚類、關(guān)聯(lián)分析、以及利用Web文檔進行趨勢預測等。Web內(nèi)容挖掘的對象包括文本、圖像、音頻、視頻、多媒體等各種類型的數(shù)據(jù)。其中聚類是事先沒有確定類別，但要求把相似度高的文檔歸于相同的類。

1.3.2 Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導知識的過程。主要是通過對Web站點的結(jié)構(gòu)進行歸納、分析和變形，將Web頁面進行分類，以利于信息搜索。HTML頁面所包含的知識不僅存在于各個頁面的內(nèi)容中，也存在于這些頁面之間的相互鏈接中。利用這方面的知識可以對頁面進行排序以發(fā)現(xiàn)重要的頁面。

1.3.3 Web使用挖掘

Web使用挖掘就是對用戶訪問Web時在服務器留下的訪問記錄進行挖掘，也叫網(wǎng)絡使用挖掘。挖掘?qū)ο笫窃诜掌魃系娜罩拘畔ⅲ卜QWeb日志挖掘。它通過分析日志記錄中的規(guī)律，可以識別用戶的忠實度、喜好、滿意度，發(fā)現(xiàn)潛在用戶，增強站點的服務競爭力。Web使用記錄數(shù)據(jù)除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。

2 Web數(shù)據(jù)挖掘的關(guān)鍵技術(shù)

Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有路徑分析技術(shù)和數(shù)據(jù)挖掘領域常用的關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)以及中文分詞處理和詞頻統(tǒng)計技術(shù)等。

2.1 路徑分析技術(shù)

使用路徑分析技術(shù)進行Web數(shù)據(jù)挖掘時，最常用的是圖。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖，網(wǎng)站上的頁面定義為節(jié)點，頁面之間的超鏈接定義為圖中的邊?；赪eb的數(shù)據(jù)挖掘，就是從圖中確定最頻繁的路徑訪問模式。

2.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中，它負責挖掘出用戶在一個訪問期間從服務器上訪問的頁面/文件之間的聯(lián)系，這些頁面之間可能并不存在直接的參引關(guān)系。

2.3 序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘負責挖掘交易集之間的有時間序列的模式。例如，最出名的尿布與啤酒，這種信息對于電子商務網(wǎng)站非常有用。

2.4 聚類分類技術(shù)

分類規(guī)則可以挖掘某些共同的特性。這個特性可用來對新添到數(shù)據(jù)庫里的數(shù)據(jù)項進行分類。

2.5 中文分詞處理技術(shù)

中文信息處理的一大障礙是詞與詞之間沒有物理的分隔符。因此在進行詞頻統(tǒng)計等處理前先要進行詞條切分處理。中文文本的分詞方法有很多種，一般采用較為簡單的基于詞典的正向匹配遍歷分詞方法。詞典的選取通常根據(jù)挖掘目標建立專業(yè)的分詞詞典，以提高系統(tǒng)的運行效率。

3 Web數(shù)據(jù)挖掘的方法

3.1 Web數(shù)據(jù)的半結(jié)構(gòu)化

3.1.1 異構(gòu)數(shù)據(jù)庫環(huán)境

從數(shù)據(jù)庫研究的角度出發(fā)，Web網(wǎng)站上的信息也可以看作一個更大、更復雜的數(shù)據(jù)庫，每個站點之間的信息和組織都不一樣。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘，首先必須要研究站點之間異構(gòu)數(shù)據(jù)的集成問題，只有將這些站點的數(shù)據(jù)都集成起來，提供給用戶一個統(tǒng)一的視圖，才有可能從巨大的數(shù)據(jù)資源中獲取信息。其次還要解決Web上的數(shù)據(jù)查詢問題，因為如果不能有效地得到所需的信息，則對這些數(shù)據(jù)進行分析、集成、處理就無從談起。

3.1.2 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)

Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同，Web上的每一站點的數(shù)據(jù)都各自獨立設計，數(shù)據(jù)沒有特定的模型描述，并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而，Web上的數(shù)據(jù)這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。

3.2 用XML技術(shù)進行Web數(shù)據(jù)挖掘

針對Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點，XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型，可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應起來，實施精確的查詢與模型抽取。

XML是一種中介標示語言，可提供描述結(jié)構(gòu)化資料的格式。XML解決了兩個Web問題，即Internet發(fā)展速度快而接入速度慢的問題，以及可利用的信息多，但難以找到自己需要的信息的問題。運用XML的擴展功能不僅能從Web服務器下載大量的信息，還能大大減少網(wǎng)絡業(yè)務量。

3.3 具體實現(xiàn)

其實現(xiàn)過程可以由以下四個步驟來實現(xiàn)：第一步得到XHTML格式的源信息，即確定了信息源，將數(shù)據(jù)從HTML轉(zhuǎn)換成XML，目前在高級語言中例如JAVA、VC等都有專門的函數(shù)或類來實現(xiàn)；第二步查找數(shù)據(jù)的引用點，完成這一任務的最簡單的辦法通常是，檢查Web頁面，然后使用XML。只需要看一下頁面，記下觀察到的內(nèi)容，考慮頁面所生成的XHTML，并將把記錄的信息作為引用點；第三步將數(shù)據(jù)映射成XML，找到了這個引用點，就可以創(chuàng)建實際抽取數(shù)據(jù)的代碼；第四步合并與處理結(jié)果，需要反復執(zhí)行抽取過程，把結(jié)果合并到單個XML數(shù)據(jù)文件中。可以再次使用XSL執(zhí)行，也可以創(chuàng)建類的方法把在當前抽取中獲得的數(shù)據(jù)合并到包含以前抽取數(shù)據(jù)的文檔中。

4 總結(jié)

基于WWW技術(shù)的應用正以驚人的速度向社會生活的方方面面滲透，人類交互信息不可避免地電子化和海量化，從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的重要的知識是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的是一個重要研究和應用領域。本文討論了Web數(shù)據(jù)挖掘的一些基本知識、方法、技術(shù)。Web挖掘是一項綜合技術(shù)涉及多個領域，目前隨著XML技術(shù)的成熟，研究利用XML技術(shù)進行Web的數(shù)據(jù)挖掘必將越來越深入。

［1］王志明，沙莎.Web 數(shù)據(jù)挖掘技術(shù)及其應用.軟件導刊，2006，10.

［2］李健.Web 的數(shù)據(jù)挖掘.電腦知識與技術(shù)，2006.

［3］原嬌杰，趙杰文.基于 Web 的數(shù)據(jù)挖掘.軟件導刊，2006，10.

［4］于升峰.Web 使用挖掘的模式發(fā)現(xiàn).情報學報，2006－10－25.

［5］崔建群，何炎祥.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究.計算機工程，2006－10－32.