亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web數(shù)據(jù)挖掘及常用技術淺析

        2012-10-21 14:55:59鄧紅梅
        卷宗 2012年5期
        關鍵詞:數(shù)據(jù)源結構化頁面

        摘要:Web挖掘是通過挖掘Web日志記錄來發(fā)現(xiàn)客戶訪問Web頁面的模式。用戶在面對大量的網(wǎng)上信息束手無策時,Web挖掘技術為用戶提供了方便快捷的解決方案。

        關鍵詞:Web 挖掘;數(shù)據(jù)挖掘

        引 言

        近年來,Internet在不斷地普及,WWW在迅速地發(fā)展,人們可以通過網(wǎng)絡方便地得到自己需要的信息,但是網(wǎng)上信息的大量涌現(xiàn)使得用戶經(jīng)常感到束手無策,甚至常常不知道如何查找自己所需要的信息,用戶為此苦惱萬分。Web數(shù)據(jù)挖掘技術提供一個很好的解決方法,它不但可以為訪問用戶提供方便,而且對提高站點效率、吸引客戶等都有很大的幫助。

        在現(xiàn)實當中人們常常將Web挖掘與Web信息檢索或信息抽取等同起來。實際上它們不是等同的,并且是有區(qū)別的:一、信息檢索只能以關鍵詞去查找與關鍵字匹配的簡單目標,如果用戶給出的不是關鍵字,而是信息樣本,這時信息檢索就無法滿足用戶的要求,但是挖掘系統(tǒng)是可以滿足用戶要求的,它能夠從文本中提取出目標信息的特征,然后根據(jù)目標特征在網(wǎng)絡中有目的地進行搜索,最后將搜索結果返給用戶。二、信息檢索實際上是在一定的領域內(nèi)對特定的信息進行查找和檢索,在某種程度上可以看作是Web挖掘中文檔分類的一種特殊情況。三、信息檢索只是一部分使用到了數(shù)據(jù)挖掘技術,正是因為這樣,在信息檢索中在一般情況下是很難發(fā)現(xiàn)隱式的數(shù)據(jù)聯(lián)系,而Web挖掘卻不同,它能從大量看似無關的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)聯(lián)系和知識,并對于決策給予支持。

        1 Web挖掘

        Web挖掘是利用數(shù)據(jù)挖掘技術從Web頁面內(nèi)容、頁面之間的關系與結構、用戶的訪問記錄等Web數(shù)據(jù)中提取滿足用戶目標的有用知識、有用信息,以便為Web用戶的訪問提供方便或為網(wǎng)站經(jīng)營者改善站點結構提供決策支持等[1]。Web挖掘不是一個單一的技術,涉及互聯(lián)網(wǎng)技術、統(tǒng)計學、信息學等多個領域[2]。Web挖掘過程可分為多個處理階段:確定挖掘目標、準備源數(shù)據(jù)、數(shù)據(jù)選擇及數(shù)據(jù)預處理、數(shù)據(jù)挖掘及模式識別、分析評價等階段。

        傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)都是結構化的數(shù)據(jù),而Web上的數(shù)據(jù)是半結構化的,半結構化是相對于數(shù)據(jù)庫中的結構化數(shù)據(jù)而言的。由于Web的異構性、動態(tài)性與開放性等特點,要從這些分散的、沒有統(tǒng)一管理的、異構的大量數(shù)據(jù)中準確、迅速地獲取信息是Web挖掘要解決的問題,這也決定了在進行Web挖掘時不能完全依賴于數(shù)據(jù)庫的挖掘技術。面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫的數(shù)據(jù)挖掘要復雜很多,進行Web挖掘要考慮很多問題[3]。

        1.數(shù)據(jù)來源分析。進行Web挖掘時所需要的數(shù)據(jù)主要來自于三個方面:Web服務器上記錄的訪問日志、Web服務器上的頁面所包含的信息以及客戶的相關資料信息。用戶訪問Web 站點時,站點會記錄其訪問記錄。借助一些工具可以處理和分析Web服務器上的日志文件從而得到有意義、有價值的信息。Web服務器還可以記錄用戶其他的訪問信息,例如:Cookie和用戶提交的查詢信息等。與此同時,服務器也記錄文件的相關屬性,例如文件的創(chuàng)建者、修改時間等。而注冊用戶的資料信息存儲在資料數(shù)據(jù)庫中,內(nèi)容如:客戶的姓名、年齡,對于產(chǎn)品的看法,顧客的個人偏好等。Web挖掘的一個難點就是如何從非結構化數(shù)據(jù)信息中進行有效地信息和數(shù)據(jù)挖掘。

        2.異構數(shù)據(jù)庫環(huán)境。從數(shù)據(jù)庫角度來看,Web網(wǎng)站上的信息也可以被當作一種特殊的、復雜的數(shù)據(jù)庫。互聯(lián)網(wǎng)上的任何站點都是數(shù)據(jù)源,而且都是異構的數(shù)據(jù)源,因而站點之間的信息和組織都是有差別的,這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。如果想在這個巨大的異構數(shù)據(jù)庫上進行數(shù)據(jù)挖掘必須解決幾個問題。第一,必須要想辦法把這些分布的數(shù)據(jù)集成起來,只有將這些不同站點的數(shù)據(jù)都集成在一起,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的信息或知識。第二,還要解決Web上的數(shù)據(jù)查詢問題,如果不能快速、準確地查找這些數(shù)據(jù),就不能對這些數(shù)據(jù)進行分析、集成和處理。

        3.半結構化的數(shù)據(jù)結構。數(shù)據(jù)庫中的數(shù)據(jù)和Web上的數(shù)據(jù)有著很大的不同,數(shù)據(jù)庫中的數(shù)據(jù)都是根據(jù)一定的數(shù)據(jù)模型來進行具體描述的。而Web上的數(shù)據(jù)則不同,它沒有特定的數(shù)據(jù)模型來描述,各Web站點的數(shù)據(jù)是獨立設計出來的,之間的差異很大,并且在自述性和動態(tài)性上也表現(xiàn)得相當?shù)拇蟮牟町?。因而,Web上的數(shù)據(jù)的結構性不是很強,只能說有一定的結構性,同時因自述層次的存在,Web上的數(shù)據(jù)是一種非完全結構化的或者是半結構化數(shù)據(jù)。半結構化是Web上數(shù)據(jù)的最大特點。

        4.半結構化的數(shù)據(jù)源問題的解決。由于數(shù)據(jù)源的特殊性,要進行Web數(shù)據(jù)挖掘第一步就建立半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型,解決其中的集成和查詢難題。這就必須要建立一個模型來來對Web上的數(shù)據(jù)進行描述。Web上的半結構化的數(shù)據(jù)需要定義一個半結構化的數(shù)據(jù)模型和模型的抽取技術來對現(xiàn)有數(shù)據(jù)自動地的抽取半結構化模型。面向Web數(shù)據(jù)挖掘的前提條件就是半結構化模型和半結構化數(shù)據(jù)模型抽取技術這種技術。

        Web挖掘的基本構架如下圖所示:

        2 Web數(shù)據(jù)挖掘中的常用技術

        常用的Web數(shù)據(jù)挖掘中技術包括:路徑分析技術,關聯(lián)規(guī)則挖掘技術、序列模式挖掘技術和聚類分類技術等[3]。下面對它們進行簡單的分析:

        1.路徑分析技術

        對Web數(shù)據(jù)挖掘時,路徑分析技術比較常用的是運用圖的方法。因為我們可以用一個有向圖來表示W(wǎng)eb站點,即:G=(P,I),P代表了頁面的集合,每一個頂點就是一個頁面,I表示的事頁面之間的超連接的集合,有向圖中的邊被定義為頁面之間的超鏈接。以頂點v為頭的邊來表示對v的引用,以頂點v為尾的邊定義為v引用了其他的頁面值,這樣形成網(wǎng)站結構圖[4]。

        2.關聯(lián)規(guī)則挖掘技術

        數(shù)據(jù)挖掘中最常用、最易被人們所接受的研究方法就是關聯(lián)規(guī)則挖掘。使用關聯(lián)規(guī)則技術可以從Web訪問事務中找到有價值的知識,這些有價值的知識是隱藏在數(shù)據(jù)集中的,是事先未知的,不是簡單通過數(shù)據(jù)庫的邏輯操作可以推出的,需要經(jīng)過仔細分析才能得到。例如:75%的用戶在訪問頁面A的同時也訪問了頁面B,A與B之間的關聯(lián)性就屬于隱式的知識。最常用的是用APRIOR算法,從事務數(shù)據(jù)庫中挖掘出最大頻繁訪問項集,它就是挖掘出來的用戶訪問模式。

        3.序列模式挖掘技術

        序列模式是指在時間有序的事務集上找出那些時間上有先后次序的數(shù)據(jù)項,也就是尋找那些形如“一些項跟在另一些項后面”的內(nèi)部事務模式。例如:訪問過頁面A的客戶中有60%的人在上一禮拜內(nèi)也訪問過與頁面A相似的頁面B。發(fā)現(xiàn)序列模式可以預測用戶的訪問興趣。

        4.聚類分類技術[4]

        分類規(guī)則可以挖掘出識別特殊群體的公共特性的描述,這個特性可以用來對數(shù)據(jù)庫里的新數(shù)據(jù)項進行分類。分類算法的研究比較多,常用的算法有:CART 、C4.5、 ID3等。聚類是將物理的或抽象的對象分為幾個組或群體,每個組內(nèi)的對象很相似,不同組內(nèi)的對象不相似,與分類最大的不同是事先并不知道類結構及每個對象所屬的類。聚類技術則是對符合某一規(guī)律特征訪問的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。

        3 結語

        隨著互聯(lián)網(wǎng)應用業(yè)務的不斷展開,互聯(lián)網(wǎng)已經(jīng)發(fā)展成為商業(yè)、政府等機構從事業(yè)務和信息傳播的重要渠道。建立互聯(lián)網(wǎng)動態(tài)應用模型,已經(jīng)成為互聯(lián)網(wǎng)應用中最活躍的研究領域之一。Web挖掘是利用數(shù)據(jù)挖掘技術從Web頁面內(nèi)容、頁面之間的關系與結構、用戶的訪問記錄等Web數(shù)據(jù)中提取來滿足用戶目標的有用知識、有用信息的。通過分析和探究Web日志記錄中的規(guī)律,可識別網(wǎng)站的潛在客戶,增強對最終客戶的國際網(wǎng)絡信息服務品質(zhì),并改進Web站點的結構、運營形式、Web服務器系統(tǒng)的性能和結構。

        參考文獻

        [1] Perkowitz M, Etzioni 0.Adaptive sites: automatically learning from user access patterns.6th Int. World Wide Web Conf.SantaClara, Califormia, 1997

        [2] Hahn U,Schnattinger K.Deep Knowledge discovery from natural language texts.In Proc Of the 3rd Intl Conf on Knowledge Discovery and Data Mining.New port Beach,1997,pp.175-178

        [3] Tan P N,Steinbach M,Kumar V.《數(shù)據(jù)挖掘?qū)д摗?范明等譯.北京:人民郵電出版社,2006年第95頁

        [4] 王欣如:《基于關聯(lián)規(guī)則的Web日志挖掘技術研究》[D],《重慶大學碩士學位論文》,2007年。

        作者簡介:

        鄧紅梅(1977-),女(漢),廣東省輕工業(yè)高級技工學校教師,研究方向:計算機科學與技術。

        猜你喜歡
        數(shù)據(jù)源結構化頁面
        大狗熊在睡覺
        刷新生活的頁面
        促進知識結構化的主題式復習初探
        結構化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
        基于圖模型的通用半結構化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        基于軟信息的結構化轉(zhuǎn)換
        分布式異構數(shù)據(jù)源標準化查詢設計與實現(xiàn)
        国产99视频精品免费视频免里| 亚洲av福利天堂一区二区三| 日本高清一区二区三区不卡| 亚洲国产精品午夜一区| 婷婷久久精品国产色蜜蜜麻豆| 成人午夜特黄aaaaa片男男| 国产精品熟妇视频国产偷人| 日韩久久无码免费看A| 在线观看在线观看一区二区三区| 天天爽夜夜爽人人爽| 免费无码av片在线观看| yw193.can尤物国产在线网页| 国产午夜精品视频在线观看| 大学生粉嫩无套流白浆| 又爽又黄禁片视频1000免费| 亚洲女同系列高清在线观看| 高潮内射主播自拍一区| 最新国产福利在线观看精品| 亚洲国产AV无码男人的天堂| 日本精品人妻在线观看| 国产一区二区精品亚洲| 欧美俄罗斯40老熟妇| 亚洲av日韩aⅴ无码电影| 91九色精品日韩内射无| 国产乱子伦精品无码专区 | 日本一区二区三区视频国产| 中文字幕精品久久久久人妻红杏ⅰ | 欧美人与动人物牲交免费观看久久| 国产AV无码专区久久精品网站| 91久久精品一区二区喷水喷白浆| 91精品国产综合久久熟女| 无套内射无矿码免费看黄| 中文字幕一区二区三区人妻精品| 日韩av在线手机免费观看| 乱色精品无码一区二区国产盗| 国产黄色片在线观看| 国产成版人性视频免费版| 亚洲youwu永久无码精品| 国产在线无码制服丝袜无码| 亚洲一级无码AV毛片久久| 中文字幕人妻在线少妇|