亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XML的Web數(shù)據(jù)挖掘系統(tǒng)模型的設(shè)計

        2010-01-25 02:29:26黃淑芹
        通化師范學(xué)院學(xué)報 2010年12期
        關(guān)鍵詞:頁面數(shù)據(jù)挖掘用戶

        黃淑芹

        (安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院, 安徽 蚌埠 233030)

        Internet的飛速發(fā)展,使其成為全球信息傳遞與共享的日益重要和最具潛力的資源,同時Web上信息也在爆炸性的增長,出現(xiàn)了“信息豐富知識匱乏”的現(xiàn)象,使人們迫切需要一種能夠快速、有效地從豐富的Web資源中發(fā)現(xiàn)大量潛在價值知識或者模式的工具.如何從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,獲得有用的知識,數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘[1]技術(shù)扮演著重要的角色.但由于Web的內(nèi)容呈現(xiàn)多元化,包含了文本、音頻、視頻、圖形、圖像等多種元素,顯示形式也不拘一格,所以Web數(shù)據(jù)具有動態(tài)、異構(gòu)、半結(jié)構(gòu)化的特點[2].傳統(tǒng)數(shù)據(jù)挖掘的對象多是數(shù)據(jù)庫中規(guī)則化的數(shù)據(jù)[3],對這樣的數(shù)據(jù)已顯得力不從心.而W3C開發(fā)的XML[4]是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,具有“自描述”、“樹形結(jié)構(gòu)”、“結(jié)構(gòu)嵌套”等特點,能夠使來源于不同結(jié)構(gòu)化的數(shù)據(jù)很容易結(jié)合在一起.它不僅可以很好地兼容原有的Web應(yīng)用,而且可以更好地實現(xiàn)Web中的信息共享與交換,它自然地成為Web數(shù)據(jù)挖掘良好的中間載體,使Web挖掘工作變得更容易.

        1 XML和Web數(shù)據(jù)挖掘技術(shù)

        1.1 Web數(shù)據(jù)挖掘概念

        Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web文檔及Web 服務(wù)中自動發(fā)現(xiàn)并提取人們感興趣的信息[2].通常Web數(shù)據(jù)挖掘過程分為以下幾個階段:資源發(fā)現(xiàn),數(shù)據(jù)抽取及數(shù)據(jù)預(yù)處理階段,數(shù)據(jù)匯總及模式識別階段,分析驗證階段.由于Web的開放性、動態(tài)性、異構(gòu)化與半結(jié)構(gòu)化等特點,要從這些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速準(zhǔn)確的獲取信息成為Web 數(shù)據(jù)挖掘的難點.顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多.Web數(shù)據(jù)挖掘要充分考慮數(shù)據(jù)來源分析,異構(gòu)數(shù)據(jù)環(huán)境,半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),解決半結(jié)構(gòu)化的數(shù)據(jù)源問題等幾個方面.

        1.2 XML在Web數(shù)據(jù)挖掘中的應(yīng)用優(yōu)勢

        XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,它可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng)起來,實施精確地查詢與模型抽取,XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘難點提供了很好的解決方法.XML能增加結(jié)構(gòu)和語義信息,使計算機和服務(wù)器即時處理多種形式的信息.XML沒有固定的標(biāo)記,能描述數(shù)據(jù)的形式和結(jié)構(gòu),并且數(shù)據(jù)和顯示形式分開,從而能方便地實現(xiàn)網(wǎng)絡(luò)應(yīng)用和信息共享.XML的自定義性及可擴展性,使它足以表達各種類型的數(shù)據(jù),客戶收到數(shù)據(jù)后可以進行處理,也可以在不同數(shù)據(jù)庫間進行傳遞,XML在這類應(yīng)用中解決了數(shù)據(jù)的統(tǒng)一接口問題.XML是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理.XML解決了Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題.XML為組織、軟件開發(fā)者、Web站點和終端使用者提供了許多有利條件.

        2 基于XML的Web數(shù)據(jù)挖掘系統(tǒng)的模型

        2.1 系統(tǒng)模型圖

        由于XML具有簡單、開放、高效且可擴充、支持復(fù)用,能處理不同結(jié)構(gòu)的數(shù)據(jù),實現(xiàn)異構(gòu)數(shù)據(jù)交換和共享,且內(nèi)容和顯示形式分離,表現(xiàn)數(shù)據(jù)能力較強,所以本文基于XML建立了Web數(shù)據(jù)挖掘系統(tǒng)的模型,模型分三個層次:數(shù)據(jù)獲取層,數(shù)據(jù)存儲層,數(shù)據(jù)挖掘?qū)?結(jié)構(gòu)如圖1所示:

        圖1 系統(tǒng)模型圖

        2.2 系統(tǒng)模型各部分功能

        系統(tǒng)模型各部分互相協(xié)調(diào),統(tǒng)一合作,各部分功能如下:

        數(shù)據(jù)獲取層:從Web頁獲取各種異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù),包括HTML數(shù)據(jù)或XML數(shù)據(jù),及Web服務(wù)器日志數(shù)據(jù),對這些數(shù)據(jù)進行清洗、抽取、轉(zhuǎn)換,將HTML文檔進行規(guī)范化處理;把規(guī)范化后的HTML文檔轉(zhuǎn)化為XML文檔,得到結(jié)構(gòu)良好的數(shù)據(jù).

        數(shù)據(jù)存儲層:將上一層獲取的數(shù)據(jù)存儲起來,以結(jié)構(gòu)化數(shù)據(jù)庫形式進行存儲.由于XML是一種半結(jié)構(gòu)化數(shù)據(jù),強調(diào)數(shù)據(jù)語義與元素之間的關(guān)系,可以很容易將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來.在數(shù)據(jù)存儲層建立多層次Web數(shù)據(jù)庫,提供Web的多維分析與層次化視圖.

        數(shù)據(jù)挖掘?qū)樱禾峁└鞣N數(shù)據(jù)挖掘算法和有效的解決方案以及結(jié)合用戶的興趣模型,得出挖掘結(jié)果,對結(jié)果進行評價,若不滿足用戶需求,再提出新的挖掘要求,重新挖掘,最終為用戶挖掘到所需要的信息,有效完成各種數(shù)據(jù)挖掘任務(wù).數(shù)據(jù)挖掘的結(jié)果可用來完善用戶模型,改善服務(wù)效率,改進站點結(jié)構(gòu)設(shè)計.

        3 系統(tǒng)實現(xiàn)中的關(guān)鍵技術(shù)

        3.1 數(shù)據(jù)預(yù)處理

        預(yù)處理是整個挖掘系統(tǒng)中的一個重要環(huán)節(jié).Web頁面內(nèi)容預(yù)處理的目的是把文本、圖片、腳本和其他一些多媒體文件所包含的信息轉(zhuǎn)換成可以實施Web挖掘算法的規(guī)格化形式.預(yù)處理包括清洗、抽取、轉(zhuǎn)換等步驟.

        數(shù)據(jù)清洗的原理是利用數(shù)據(jù)清洗的規(guī)則和策略、數(shù)理統(tǒng)計方法和數(shù)據(jù)挖掘技術(shù)對“臟數(shù)據(jù)”進行清洗,使其變?yōu)闈M足應(yīng)用要求的數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量[5].數(shù)據(jù)清洗主要是解決多個數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題.包括空值處理、異常數(shù)據(jù)處理和不一致性數(shù)據(jù)處理等.具體為刪除無關(guān)緊要的數(shù)據(jù),避免無關(guān)數(shù)據(jù)對后續(xù)步驟的影響,合并某些記錄,對用戶請求頁面時發(fā)生錯誤的記錄進行適當(dāng)?shù)奶幚恚瑱z測數(shù)據(jù)中存在的錯誤和不一致,剔除或者改正它們,提高數(shù)據(jù)的質(zhì)量.

        數(shù)據(jù)抽取是對前面獲得的數(shù)據(jù)抽取出代表其特征的元數(shù)據(jù),以方便進一步處理.數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面.基于XML的信息抽取[6]是基于網(wǎng)頁特征結(jié)構(gòu)的抽取策略,該方法先將HTML轉(zhuǎn)化成XHTML,然后根據(jù)抽取規(guī)則對XHTML進行處理.

        數(shù)據(jù)轉(zhuǎn)換是把非XML的網(wǎng)頁轉(zhuǎn)換為相應(yīng)的XML文檔.使用Web包裝器,結(jié)合TIDY軟件將HTML數(shù)據(jù)源頁面轉(zhuǎn)換成XML代碼的網(wǎng)頁,以便進行挖掘.

        3.2 權(quán)威頁面的確定[7]

        HITS算法如下:

        輸入:把WWW看作一個引導(dǎo)圖W,查詢請求q,n×n的鄰接矩陣M,其元素

        輸出:權(quán)威頁面的集合A,中心頁面的集合H.

        (1)R=SE(W,q);A,H初始化:A=(1,1,…,1),H=(1,1,…,1).

        (2)B=R∪{指向R的鏈接}∪{來自R的鏈接}.

        (3)G(B,E)=由B導(dǎo)出的W的子圖.

        (4)重復(fù)迭代A=MTH,H=MA,迭代后泛化A、H,A、H收斂于MTM,MMT的主特征向量.

        (5)按Authority和Hub的權(quán)重逆序排列Authority頁和Hub頁,輸出具有較大權(quán)重的Authorities頁和Hubs頁.

        (6)結(jié)束

        3.3 用戶模型的建立

        首先根據(jù)用戶登錄信息建立初始興趣模型,然后根據(jù)用戶訪問信息對初始興趣模型進行動態(tài)更新,建立相對穩(wěn)定的用戶模型.動態(tài)變化部分主要通過cookies分析模塊、收藏夾分析模塊和瀏覽動作捕捉模塊[8]來分析用戶對一個Web頁的訪問時間、頻率、頁內(nèi)被訪問的鏈接與未被訪問的鏈接比、訪問時長以及是否被作為收藏夾等計算用戶對一個Web頁的訪問興趣.根據(jù)分析這些數(shù)據(jù),改進站點內(nèi)容和結(jié)構(gòu),更好的服務(wù)于用戶.也可以利用分類技術(shù),通過訓(xùn)練得到用戶分類模型,在訓(xùn)練好分類器以后用來推斷未知統(tǒng)計特性的訪問者的統(tǒng)計特性.

        本文設(shè)計的模型充分應(yīng)用XML的優(yōu)勢,以它為中介,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,同時充分將XML和個性化技術(shù)結(jié)合起來,挖掘出潛在的有價值的信息.

        參考文獻:

        [1]曼麗春,朱宏.Web數(shù)據(jù)挖掘研究與探討[J].西南民族大學(xué)學(xué)報,2005(2).

        [2]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社,2009.

        [3]陳景霞,張鵬偉.基于XML的Web數(shù)據(jù)挖據(jù)模型的研究[J].情報雜志,2006(11).

        [4]范立峰.XML實用教程[M].北京:人民郵電出版社,2009.

        [5]邱英.基于XML的Web數(shù)據(jù)存儲與數(shù)據(jù)清洗技術(shù)研究與實現(xiàn)[D].武漢:武漢理工大學(xué),2008.

        [6]陳俊彬.Web信息抽取策略及其實現(xiàn)方法研究[J].科技情報開發(fā)與經(jīng)濟,2008(23).

        [7]毛國君,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.

        [8]周曉蘭.基于XML的WEB的數(shù)據(jù)挖掘系統(tǒng)的框架探析[J].湘潭師范學(xué)院學(xué)報:自然科學(xué)版,2008(9)

        猜你喜歡
        頁面數(shù)據(jù)挖掘用戶
        大狗熊在睡覺
        刷新生活的頁面
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        如何獲取一億海外用戶
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        波多野结衣av一区二区全免费观看 | 国产精品综合女同人妖| 亚洲 欧美 综合 在线 精品| 高级会所技师自拍视频在线| 人妻少妇乱子伦精品| 欧美性受xxxx黑人xyx性爽| 日韩不卡无码三区| 国产av一区二区三区国产福利| 亚洲av毛片在线网站| 又粗又黄又猛又爽大片免费| 国产成人精品日本亚洲18| 女人被躁到高潮嗷嗷叫| 国产av熟女一区二区三区蜜臀| 久久精品国产91精品亚洲| 2021久久精品国产99国产精品| 亚洲男女免费视频| 日本高清在线一区二区三区| 精品亚洲成av人在线观看| www国产无套内射com| 手机色在线| 精品国产亚洲av高清日韩专区| 超碰97人人射妻| 变态 另类 欧美 大码 日韩 | 视频精品亚洲一区二区| 91精品国产综合久久久密臀九色 | 明星性猛交ⅹxxx乱大交| 98国产精品永久在线观看| 国产亚洲一区二区精品| 久久亚洲日韩精品一区二区三区| 天码av无码一区二区三区四区 | 亚洲天堂精品一区入口| 久久久受www免费人成| 亚洲婷婷丁香激情| 日本熟妇裸体视频在线| 日本视频在线观看二区| 777精品久无码人妻蜜桃| 国产午夜无码视频免费网站| 午夜宅男成人影院香蕉狠狠爱| 日日摸夜夜添夜夜添高潮喷水| 久久亚洲精品无码va大香大香| 中文字幕一区二区人妻痴汉电车 |