亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web的數(shù)據(jù)挖掘技術(shù)研究

        2015-03-02 12:37:00胡秀
        軟件導(dǎo)刊 2015年1期

        胡秀

        摘要:隨著因特網(wǎng)的迅速發(fā)展,數(shù)據(jù)資源量越來越龐大,為從這些資源里迅速、準(zhǔn)確找到需要的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。介紹了基于Web的數(shù)據(jù)挖掘技術(shù),闡述了該技術(shù)的特征并分類作了介紹,對(duì)數(shù)據(jù)挖掘技術(shù)的幾大研究方向作了展望。

        關(guān)鍵詞:Web;數(shù)據(jù)挖掘技術(shù);XML

        DOIDOI:10.11907/rjdk.143785

        中圖分類號(hào):TP392

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)001014902

        1 Web挖掘簡(jiǎn)述

        數(shù)據(jù)挖掘指從隨機(jī)又模糊的龐大數(shù)據(jù)里,把那些潛在但很實(shí)用的信息、趨勢(shì)或模式提取出來。

        被視為新興領(lǐng)域的Web挖掘,實(shí)質(zhì)是數(shù)據(jù)挖掘的升級(jí)版。Web信息有著極為特殊之處,這樣在數(shù)據(jù)挖掘上必須添加匹配的新特性。這些特性包含:①在挖掘?qū)ο笊希琖eb挖掘的數(shù)據(jù)源全部是異構(gòu)的;② Web文檔是機(jī)器理解不到或者沒有結(jié)構(gòu)、半結(jié)構(gòu)的語義。

        2 Web挖掘特性

        2.1 缺乏智能化理解

        Web中的數(shù)據(jù)的格式幾乎都是HTML,與主題相關(guān)的信息往往雜亂地在Web站點(diǎn)的目錄下散布開來。因此,必須有非常強(qiáng)大的一個(gè)搜索引擎,通過對(duì)關(guān)鍵字查找,實(shí)現(xiàn)對(duì)超文本位置的定位。數(shù)據(jù)格式不盡相同,必須有一個(gè)智能化的系統(tǒng)對(duì)自然語言陳述的數(shù)據(jù)作理解。然而,當(dāng)下自然語言理解的有關(guān)技術(shù)還不成熟,所以很難對(duì)所有數(shù)據(jù)都理解到位。另外,數(shù)據(jù)源冗余或極為矛盾等問題也對(duì)此產(chǎn)生影響。

        2.2 數(shù)據(jù)源過于龐大

        Web對(duì)于有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言似乎太大了[1]。目前在計(jì)算上,Web數(shù)據(jù)已經(jīng)達(dá)到用幾百兆字節(jié)來表示的地步,并朝著更大單位來表示的趨勢(shì)發(fā)展,有兩點(diǎn)特別明顯:

        (1)動(dòng)態(tài)性強(qiáng)。因特網(wǎng)時(shí)時(shí)刻刻都在變化、更新中,于是需要借用某些數(shù)據(jù)倉庫技術(shù),才能保留Web上已更新過的數(shù)據(jù)。

        (2)多樣性。過濾后的Web數(shù)據(jù)包含4種:①以實(shí)型、整型為實(shí)例的數(shù)值型;②布爾型;③描述數(shù)據(jù)及分類數(shù)據(jù);④郵箱地址、網(wǎng)址等僅為Web所有的數(shù)據(jù)型。新的數(shù)據(jù)類型有新的特征,原先的挖掘方式行不通,必須對(duì)原有方式作擴(kuò)充、改進(jìn)。

        2.3 用戶目標(biāo)極為模糊

        在基于因特網(wǎng)下作數(shù)據(jù)挖掘,用戶往往對(duì)挖掘主題認(rèn)識(shí)很粗淺,說不出特別準(zhǔn)確的目標(biāo)。因此,數(shù)據(jù)挖掘系統(tǒng)必須具備學(xué)習(xí)機(jī)制及智能化特征,對(duì)用戶的興趣不斷跟蹤,才能詳細(xì)、清晰地對(duì)挖掘結(jié)果做出闡述。它涵蓋Web的結(jié)構(gòu)、存取模式及動(dòng)態(tài)查找,由此表明Web挖掘極具挑戰(zhàn)性。

        3 Web挖掘分類

        3.1 基于內(nèi)容的Web挖掘

        指在Web文件內(nèi)容、描述信息中,取得潛在但實(shí)用的知識(shí)、模式的過程,分為文本挖掘、多媒體挖掘。

        (1)文本挖掘。特指對(duì)文本文檔的挖掘。在Web龐大文檔里,可對(duì)內(nèi)容作出分類別、總結(jié)、關(guān)聯(lián)性分析及趨勢(shì)分析等。

        (2)多媒體挖掘。指對(duì)多媒體文檔的挖掘,即對(duì)Web上圖像、音視頻預(yù)處理,利用挖掘技術(shù)對(duì)有意義的、潛在信息及模式作挖掘的一個(gè)過程。提取特征不同是多媒體與文本挖掘最不一樣的地方。在挖掘時(shí),對(duì)文件或者視頻的鍵值表、文件名、顏色向量及類型等進(jìn)行提取。

        3.2 基于結(jié)構(gòu)的Web挖掘

        在結(jié)構(gòu)上,Web包括超鏈接結(jié)構(gòu)、樹形結(jié)構(gòu)及目錄路徑結(jié)構(gòu)等[2]。這樣,在結(jié)構(gòu)上,可用有向圖對(duì)Web進(jìn)行表示,有向圖中點(diǎn)對(duì)應(yīng)的是頁面,有向圖中邊對(duì)應(yīng)的是超級(jí)鏈接。用此方法可得到站點(diǎn)的主頁到任一定點(diǎn)的最短路徑,也就是用較小代價(jià)獲取最多文檔。

        (1)HITS算法。對(duì)一給定的話題進(jìn)行搜索,往往不只期望獲取相關(guān)聯(lián)的Web頁,還期望被檢索出的頁面質(zhì)量高且具權(quán)威性。而Web不只包含頁面,還包含超鏈接。超鏈接簡(jiǎn)單說就是一個(gè)頁面向另一個(gè)頁面指向。若作者先建立一個(gè)頁面,接著又讓該頁面向另一頁面指向,就可認(rèn)為作者對(duì)另一頁面持認(rèn)可態(tài)度。同一頁面,收集源自不同作者的不同注解,便能反映此頁面的重要性,而且可非常自然地用作權(quán)威頁面??墒窃阪溄咏Y(jié)構(gòu)上,Web有一定的局限:①并非每個(gè)超鏈接都認(rèn)可此尋找;②商業(yè)競(jìng)爭(zhēng)中,不可能有Web頁面與自家競(jìng)爭(zhēng)的頁面指向;③難有權(quán)威頁面具備特別性描述。鑒于以上情形,研究者不得不提出另一種Web頁面(俗名Hub頁面)。一個(gè)Hub頁面可代替一個(gè)或多個(gè)Web頁面,提供的是集合性鏈接。同時(shí),任何話題,Hub頁面都向著最顯眼的鏈接指向。

        (2)PageRank算法。Web超鏈接有下列幾種假設(shè):①網(wǎng)頁A的作者向網(wǎng)頁B推薦;②網(wǎng)頁A、B在主題相同時(shí),超鏈接便把兩個(gè)網(wǎng)頁連接;③基于前兩種,某頁面數(shù)次被引用,說明此頁面也許特別重要;④某頁面雖然未被數(shù)次引用,但卻被某重要頁面引用,說明它也很重要。此算法便是針對(duì)上述4種情形做的專門研發(fā)。

        3.3 基于訪問的Web挖掘

        網(wǎng)頁點(diǎn)擊數(shù)、瀏覽量、獨(dú)立IP 等是顯示網(wǎng)站訪問情形的核心指標(biāo)[3]??杉?xì)致分析網(wǎng)站關(guān)聯(lián)的LOG文件,取得關(guān)系訪問情形的詳盡數(shù)據(jù),這種挖掘歸屬于靜態(tài)訪問,這對(duì)完善網(wǎng)站極為有益。譬如:對(duì)訪問者來源細(xì)致分析,可使網(wǎng)站內(nèi)容更有針對(duì)性;對(duì)在不同時(shí)段訪問者人數(shù)的細(xì)致分析,可依據(jù)時(shí)段來更新,這種Web挖掘利用極為廣泛。不只是靜態(tài)研究,動(dòng)態(tài)訪問研究也很熱門。

        4 Web挖掘研究方向

        4.1 搜索引擎挖掘

        當(dāng)下的搜索引擎幾乎全是基于關(guān)鍵字,搜出的文檔數(shù)量極大,高質(zhì)量的內(nèi)容卻極少。加上某些文檔跟話題是關(guān)聯(lián)的,但關(guān)鍵詞:找不出來,這就使得搜索結(jié)果不全面。針對(duì)這種情形,某些專家提出用概念層或多義字的辦法對(duì)文檔進(jìn)行搜索。

        4.2 日志挖掘

        對(duì)日志文件(Web服務(wù)器)細(xì)致分析,會(huì)發(fā)現(xiàn)用戶訪問網(wǎng)站所用的瀏覽模式,這對(duì)有效改進(jìn)網(wǎng)站提供了信息。信息包含:對(duì)系統(tǒng)設(shè)計(jì)作改進(jìn)、對(duì)導(dǎo)航功能作改善等。日志挖掘有3個(gè)階段:①預(yù)處理數(shù)據(jù);②挖掘數(shù)據(jù);③分析模式。由于存在代理服務(wù)器及防火墻,使得日志數(shù)據(jù)難以準(zhǔn)確,所以在第一階段便必須做用戶識(shí)別、數(shù)據(jù)凈化、路徑補(bǔ)充、會(huì)話識(shí)別工作。挖掘階段指依據(jù)語義,將用戶的會(huì)話作分割,形成一項(xiàng)項(xiàng)事務(wù),利用挖掘算法,對(duì)識(shí)別結(jié)果作出規(guī)則、模式。

        4.3 XML結(jié)合Web挖掘

        4.3.1 XML簡(jiǎn)述

        XML由萬維網(wǎng)協(xié)會(huì)設(shè)計(jì),是特別為Web應(yīng)用服務(wù)做的一個(gè)分支[4]。XML是一種典型的中介標(biāo)識(shí)語言,它為結(jié)構(gòu)化資料提供對(duì)應(yīng)的格式。

        半結(jié)構(gòu)化是Web數(shù)據(jù)所有特征中最顯著的一點(diǎn),因?yàn)橹挥邪寻虢Y(jié)構(gòu)化對(duì)應(yīng)的抽取技術(shù)作為前提,才能面向Web做需求的數(shù)據(jù)挖掘。新生代的www環(huán)境把XML作為基礎(chǔ),它可直接面向Web 數(shù)據(jù)。一方面兼容已有的Web應(yīng)用,另一方面對(duì)Web中的信息更好地交換、共享。XML可看作是半結(jié)構(gòu)化下的數(shù)據(jù)模型,所以它能把屬性(關(guān)系數(shù)據(jù)庫)與文檔描述一一對(duì)應(yīng),實(shí)施模型抽取、精確查詢。

        4.3.2 XML應(yīng)用

        XML已經(jīng)成為正式規(guī)范[5]。開發(fā)時(shí),XML格式可當(dāng)作數(shù)據(jù)標(biāo)記。在三層架構(gòu)情況下,用XML對(duì)數(shù)據(jù)處理是最好的方法。運(yùn)用XML,設(shè)計(jì)員不僅能對(duì)文字、圖形進(jìn)行創(chuàng)建,還可對(duì)數(shù)據(jù)樹、超鏈接結(jié)構(gòu)、樣式表、元數(shù)據(jù)等進(jìn)行構(gòu)建。

        Web數(shù)據(jù)挖掘是非常復(fù)雜的一項(xiàng)技術(shù),因XML的出現(xiàn),使Web挖掘中遇到的問題迎刃而解。因?yàn)閄ML可以讓來源不同的結(jié)構(gòu)化數(shù)據(jù)輕松地結(jié)合在一起,讓不兼容的多樣數(shù)據(jù)庫搜索變成可能。由于XML具備靈活性、可擴(kuò)展性,因此對(duì)不同類型應(yīng)用軟件中的數(shù)據(jù)XML都能描述,從而對(duì)Web中的各種數(shù)據(jù)記錄也能描述;再加上XML下的數(shù)據(jù)全為自我描述,所以即使在內(nèi)部描述數(shù)據(jù)完全缺乏時(shí),處理、交換一樣可實(shí)現(xiàn)。

        4.4 未來趨勢(shì)

        目前, Web挖掘研究處于初始階段,有價(jià)值的幾大研究方向是:①動(dòng)態(tài)更新;②Web知識(shí)庫維護(hù);③內(nèi)在機(jī)制研究;④專注多媒體挖掘,研發(fā)出高效算法;⑤圖像、文本對(duì)應(yīng)的挖掘算法(結(jié)構(gòu)、半結(jié)構(gòu)下);⑥搭建自組織網(wǎng)站時(shí),對(duì)序列模式、關(guān)聯(lián)規(guī)則進(jìn)行細(xì)致研究。

        參考文獻(xiàn):

        [1] 李澤文.基于Web的數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代計(jì)算機(jī),2011,3(15):5158.

        [2] 陳二忠.基于Web的數(shù)據(jù)挖掘技術(shù)[D].沈陽:東北財(cái)經(jīng)大學(xué),2012.

        [3] 姜麗華.基于Web的數(shù)據(jù)挖掘技術(shù)[J].微機(jī)發(fā)展,2012,8(12):3142.

        [4] 史秦格.基于Web的數(shù)據(jù)挖掘技術(shù)研究[D].西安:西安工業(yè)大學(xué),2012.

        [5] 馬麗娜.基于Web的數(shù)據(jù)挖掘技術(shù)應(yīng)用[D].濟(jì)南:山東師范大學(xué),2012.

        亚洲免费国产中文字幕久久久| 午夜不卡亚洲视频| 中文字幕中文一区中文字幕| 亚洲国产中文字幕精品| 成人影院yy111111在线| 韩日美无码精品无码| 久久青草亚洲AV无码麻豆| 国产黄色一级大片一区二区| 久久久亚洲av波多野结衣| 大陆极品少妇内射aaaaa| 亚洲VA欧美VA国产VA综合| 日本老熟女一区二区三区| 国产三级a三级三级| 精品人妻一区二区三区四区| 国产黑色丝袜在线观看视频| 看一区二区日本视频免费| 午夜dy888国产精品影院| 人妻少妇av无码一区二区| 91免费国产| 亚洲久无码中文字幕热| 偷拍女厕尿尿在线免费看| 国产实拍日韩精品av在线 | 高清破外女出血av毛片| 亚洲永久精品ww47永久入口| 精品国产3p一区二区三区| 亚洲国产婷婷香蕉久久久久久| 国产精品人妻一码二码尿失禁| 亚洲av成人一区二区三区网址| 国产精品美女主播一区二区| 亚洲va欧美va日韩va成人网 | 亚洲国产精品500在线观看| 中文字幕亚洲乱码熟女1区2区| 成视频年人黄网站免费视频| 亚洲精品自产拍在线观看| 中国老太老肥熟女视频| 国产亚洲精品色婷婷97久久久 | 亚洲女同同性少妇熟女| 国产一区av男人天堂| 国产特级毛片aaaaaaa高清| 亚洲色偷拍一区二区三区| 国内精品毛片av在线播放|