亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web數(shù)據(jù)挖掘技術研究

        2015-06-02 11:15:04張躍等
        電腦知識與技術 2015年9期
        關鍵詞:數(shù)據(jù)挖掘分類

        張躍等

        摘要:基于Web的數(shù)據(jù)挖掘是采用數(shù)據(jù)挖掘技術對網頁資源進行挖掘的一個熱門研究方向,此文分析了了網頁數(shù)據(jù)挖掘的概念、分類、挖掘原理以及相關技術。

        關鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;分類;挖掘技術

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)09-0016-02

        Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology

        Key words: data mining; web data mining; classification; mining technology

        互聯(lián)網的不斷得到發(fā)展,網頁中數(shù)據(jù)量迅速增加,如何從這么多的網頁信息中獲取有用的數(shù)據(jù)已經成功數(shù)據(jù)挖掘領域的一個熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進行信息獲取的一個重要渠道, 尤其大量運用與社會和科學的方方面面。一般來說數(shù)據(jù)挖掘主要利用計算機和相關的信息技術,把有用的數(shù)據(jù)從海量的網頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運用?;诰W頁的數(shù)據(jù)挖掘是一門技術的綜合研究方向,它的思想是從Internet中提取網頁中的大量數(shù)據(jù),也就是從網頁的數(shù)據(jù)結構中發(fā)現(xiàn)隱含的模式[1]。

        1 數(shù)據(jù)挖掘的特點

        1)數(shù)據(jù)挖掘的特點之一就是半結構化,這個特別算是網頁數(shù)據(jù)挖掘的最大特點[2],因為網頁上的數(shù)據(jù)分布沒有規(guī)律,非常復雜,沒有任何固定的模式能夠很好的描述它的特點。因此稱它為半結構化。

        2)數(shù)據(jù)挖掘的特點之二是網頁中的數(shù)據(jù)比較分散,這些網頁數(shù)據(jù)存在世界各地的很多服務器上,因此是一種數(shù)據(jù)源分散的結構。

        3) 數(shù)據(jù)挖掘的特點之三是數(shù)據(jù)庫的結構存在不同,因為互聯(lián)網上的一個網站可以存為一個數(shù)據(jù)源,它們的結構互不相關,異構性特點比較強,由它們構成的數(shù)據(jù)庫自然而然也屬于一種異構的形式。

        4) 數(shù)據(jù)挖掘的特點之四是動態(tài)性強,網站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網站與網站的直接訪問的鏈接是形式變化的。

        2 數(shù)據(jù)挖掘過程

        基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網頁上的信息是半結構化的或非結構化、不容易識別、變化的,正因為它這些特點,要想在網頁上開展直接數(shù)據(jù)挖掘,可謂很費功夫,就要借助一些方法來預處理數(shù)據(jù),才能方便挖掘。通常進行網頁數(shù)據(jù)挖掘可分為的如圖1所示的四個步奏。

        1)數(shù)據(jù)源的獲取,在網站的各個頁面中獲取數(shù)據(jù)信息,組成目標數(shù)據(jù)信息源,再從這些信息源中找到相關有用的數(shù)據(jù)。這個過程的目的就是從像網頁文檔、email、網頁記錄、新聞信息、各種網站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。

        2)把獲取的數(shù)據(jù)進行加工處理,網頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關,如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對數(shù)據(jù)源進行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進行下一步的分析。

        3)對數(shù)據(jù)經過提純處理后,進入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經常會使用到一些相關的方法,例如聚類分析法、關聯(lián)規(guī)則發(fā)等挖掘方法。

        4)在對數(shù)據(jù)模式發(fā)現(xiàn)后,需要對這些模式進行挖掘,也就是知識的轉換過程,把提取到的模式再進行信息轉化,轉化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。

        3 數(shù)據(jù)挖掘分類

        在進行數(shù)據(jù)挖掘的時候,針對不同的數(shù)據(jù)結構,會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網頁使用挖掘、網頁結構挖掘、網頁內容挖 [3],如圖2所示。

        4 數(shù)據(jù)挖掘相關技術

        互聯(lián)網的發(fā)展促進網頁數(shù)據(jù)挖掘得到越來越多的應用,于是針對網頁挖掘的各種方法和技術不斷出現(xiàn),就這些相關的技術[4],下面分別一一介紹。

        4.1 網頁內容挖掘

        4.1.1 網頁文檔挖掘

        網頁文檔挖掘就是分析網站上存在的數(shù)量很多的網頁文檔采用聚類、分類、關聯(lián)處理等多種方法進行分析,然后根據(jù)網頁文檔進行預測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網頁文檔出現(xiàn),要采集這些網頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進數(shù)據(jù)庫,把這些記錄用來表示文檔內容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對數(shù)據(jù)分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數(shù)據(jù)進行分析的時間就相對少,如果選取不好,將要花很長時間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關聯(lián)等方法來進行提取信息,然后對這些提取的信息進行評價分析,找到有用的信息,為后續(xù)的決策工作提供指導。

        4.1.2 挖掘網頁多媒體

        在進行網頁多媒體挖掘主要關注的是特征提取,這點網頁內容挖掘不一樣。在網頁多媒體挖掘中提取的多媒體特征主要關注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進行數(shù)據(jù)挖掘。

        4.2挖掘網頁結構

        挖掘網站空間中的知識,不僅關注包含在各個網頁內容中的信息數(shù)據(jù),同時也關注網站與網站之間的網頁結構和超級鏈接結構,這也是非常重要的。進行網頁結構挖掘主要分析網頁結構之間的特征,利用聚類和分類來分析頁面結構特征,找到特征模式。

        4.3 網頁使用挖掘

        網頁使用挖掘也是挖掘網頁記錄,實際就是挖掘用戶在網頁上留下的相關的記錄信息,網頁使用挖掘就是分析用戶留言記錄的相關信息,通過這些信息時報未來需要發(fā)展的用戶; 網頁使用挖掘通常使用擴展有向樹模型分析用戶的各種瀏覽行為習慣,挖掘出用戶的日志信息,以及用戶關心、關注的興趣領域,把這些信息存放在知識庫中,未下一步的分析工作提供數(shù)據(jù), 對網頁使用日志挖掘可分為三個步驟:日志預分析、分析方法處理、 模式分析階段。在網頁使用分析中,關注網頁服務器記錄的相關信息,這些信息主要包括用戶訪問的時間、URL、IP、使用方法、代理、返回結構、傳輸數(shù)據(jù)等相關信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進行提純處理。一旦數(shù)據(jù)處理后,就能采用關聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術來分析日志,獲取有用的信息。

        5 結束語

        本文介紹了網頁數(shù)據(jù)挖掘的相關概念、挖掘過程、分類方法以及相關技術。在Internet發(fā)展的今天, 網頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關注如何對這些網頁數(shù)據(jù)的處理。網頁數(shù)據(jù)挖掘在各個方面,特別在結合語言問題、查詢半結構化、數(shù)據(jù)庫方面會得到不斷發(fā)展。

        參考文獻:

        [1] ITU–T Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.

        [2] 范亞芹, 劉穎. Web數(shù)據(jù)挖掘原理及實現(xiàn)[J]. 吉林大學學報, 2003(4):370-373.

        [3] 朱明編. 數(shù)據(jù)挖掘[M]. 安徽:中國科學技術大學出版社, 2002:105-122.

        [4] 左鐵鏞. 全面推進素質教育, 培養(yǎng)21世紀新型人才[EB/OL]. http://tjjs .bjedu.gov.cn/ acade/001. htm.

        猜你喜歡
        數(shù)據(jù)挖掘分類
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        給塑料分分類吧
        黑色丝袜秘书夹住巨龙摩擦| 久久精品蜜桃美女av| 喷水白浆视频在线观看| 精品久久久无码人妻中文字幕豆芽 | 国产av一区二区凹凸精品| 亚洲成a人片在线网站| 偷拍自拍一区二区三区| 日本免费一区二区在线看片| 特黄熟妇丰满人妻无码| 99久久免费看少妇高潮a片特黄| 国产精品欧美日韩在线一区| 国产在线精品亚洲视频在线| 一本色道久久88—综合亚洲精品| 欧美性色黄大片手机版| 欧美中文字幕在线| 亚洲在线视频一区二区| 日韩精品一区二区三区在线视频| 国产女人高潮叫床视频| 亚洲精品有码在线观看| 亚洲无av高清一区不卡| 亚洲一区二区二区视频| 日本一卡2卡3卡四卡精品网站 | 久久av粉嫩一区二区| 亚洲精品无码久久久影院相关影片| 国产精品多人P群无码| 中文字幕一区二区va| 亚洲天堂一区av在线| 人妻暴雨中被强制侵犯在线| 亚洲h电影| 91色综合久久熟女系列| 国产精品妇女一二三区| 可以免费观看的毛片| 国产精品国产三级在线专区| 日韩欧美中文字幕公布 | 国产av一区仑乱久久精品| 午夜福利理论片在线观看播放| 老熟女高潮一区二区三区| 亚洲精品国产不卡在线观看| 亚州无吗一区二区三区| 我爱我色成人网| 午夜a福利|