亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web挖掘研究

        2009-10-26 09:34:32謝海艇
        電腦知識(shí)與技術(shù) 2009年22期
        關(guān)鍵詞:信息檢索數(shù)據(jù)挖掘

        摘要:隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個(gè)研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對(duì)比,介紹了Web挖掘的概念、分類(lèi)及步驟,最后給出了Web挖掘的研究方向。

        關(guān)鍵詞:Web挖掘;數(shù)據(jù)挖掘;信息檢索

        隨著數(shù)字化信息時(shí)代的到來(lái),網(wǎng)絡(luò)日漸成為人們獲得信息的重要途徑。然而網(wǎng)絡(luò)中信息量巨大且分散無(wú)序,Web用戶(hù)經(jīng)常發(fā)現(xiàn)難以找到其所需的信息,造成“信息過(guò)載,知識(shí)匱乏”[1]的現(xiàn)狀。通用搜索引擎給人們提供了進(jìn)行信息檢索的方法,但也存在查準(zhǔn)率不高、查全率不能保證等問(wèn)題。Web挖掘技術(shù)正是應(yīng)這一需求而出現(xiàn)的一項(xiàng)新技術(shù)。人們運(yùn)用Web挖掘技術(shù),尋找網(wǎng)絡(luò)中有趣的、潛在的、有用的模式或隱藏的信息,并利用這些信息加快用戶(hù)檢索的效率,從而使網(wǎng)絡(luò)資源更好的為人們服務(wù)。

        1 Web挖掘定義與相關(guān)研究

        1.1 Web挖掘的定義

        Web挖掘[2]就是從Web頁(yè)面和Web用戶(hù)訪(fǎng)問(wèn)活動(dòng)中發(fā)現(xiàn)、抽取有用模式和隱藏的信息。它是以從Web上挖掘有用知識(shí)為目標(biāo),以數(shù)據(jù)挖掘、文本挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)、人工智能、信息檢索等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來(lái)的一門(mén)新興學(xué)科。

        1.2 Web挖掘與數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘[3]是從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、潛在有用信息的頻繁過(guò)程。從廣義觀(guān)點(diǎn)來(lái)說(shuō),數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程。

        Web 挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),在研究方法上有很多相似之處。但是,Web 挖掘與數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先,Web 挖掘的對(duì)象是大量、異質(zhì)、分布的 Web 文檔。其次,Web 在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此 Web 挖掘所得到的模式可能是關(guān)于 Web 內(nèi)容的,也可能是關(guān)于Web 結(jié)構(gòu)的。

        1.3 Web挖掘與信息檢索

        信息檢索[4]是自動(dòng)獲取相關(guān)文檔的同時(shí)盡可能少的獲取不相關(guān)文檔,其主要的目標(biāo)是索引文本,尋找有用的文檔。

        Web挖掘與信息檢索在一些方面有所不同。首先,信息檢索是目標(biāo)驅(qū)動(dòng)的,用戶(hù)需要明確提出查詢(xún)要求,其目的在于幫助用戶(hù)發(fā)現(xiàn)資源;Web 挖掘是機(jī)會(huì)主義的,其結(jié)果獨(dú)立于用戶(hù)的信息需求,揭示文檔中隱含的知識(shí)是它的目標(biāo);第二,信息檢索使用精度和查全率來(lái)評(píng)價(jià)其性能;而 Web挖掘采用受益度、置信度、簡(jiǎn)潔性等來(lái)衡量所發(fā)現(xiàn)知識(shí)的有效性、可用性和可理解性。

        2 Web挖掘的分類(lèi)

        Web挖掘大致分為三類(lèi):Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)、Web使用記錄挖掘(Web usage mining).下圖為Web挖掘的分類(lèi)圖:

        xieht01.tif

        2.1 Web內(nèi)容挖掘

        Web內(nèi)容挖掘是指從 Web上的網(wǎng)頁(yè)內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)模式,以實(shí)現(xiàn)Web資源的自動(dòng)檢索,提高Web數(shù)據(jù)利用率的過(guò)程。Web內(nèi)容挖掘根據(jù)不同的標(biāo)準(zhǔn),有多種不同的分類(lèi)方法。按挖掘?qū)ο髞?lái)劃分包括對(duì)文本文檔的挖掘和多媒體文檔的挖掘 ;按方法來(lái)劃分有信息查詢(xún)觀(guān)點(diǎn)的挖掘和數(shù)據(jù)庫(kù)觀(guān)點(diǎn)的挖掘;按內(nèi)容又可分為對(duì)Web 文檔的挖掘和對(duì)搜索結(jié)果的挖掘。

        2.2 Web結(jié)構(gòu)挖掘

        Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個(gè)有向圖,它的頂點(diǎn)是Web頁(yè)面,頁(yè)面間的超鏈接就是有向圖的邊。然后利用圖論對(duì) Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。這種思想源于引文分析,即通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立Web自身的鏈接結(jié)構(gòu)模式。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的兩個(gè)算法是:PageRank算法和HITS算法。它們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之間的超鏈接質(zhì)量,從而得到頁(yè)面的權(quán)重。

        2.3 Web使用記錄挖掘

        Web使用記錄挖掘又稱(chēng)為Web日志挖掘,主要目標(biāo)是從Web的訪(fǎng)問(wèn)記錄中發(fā)現(xiàn)感興趣的模式;分析不同Web站點(diǎn)的訪(fǎng)問(wèn)日志可以幫助人們理解用戶(hù)的行為和Web結(jié)構(gòu),從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩?hù)提供個(gè)性化的服務(wù)。Web使用挖掘的基本流程包括四個(gè)階段:數(shù)據(jù)預(yù)處理、挖掘算法實(shí)施、模式分析、可視化。

        3 Web挖掘的過(guò)程

        Web挖掘的處理流程[5]包括如下四個(gè)步驟:資源發(fā)現(xiàn)、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。

        1)資源發(fā)現(xiàn)

        網(wǎng)絡(luò)爬蟲(chóng)在線(xiàn)收集Web文檔、網(wǎng)站的日志等數(shù)據(jù),并從中得到有用的數(shù)據(jù)。

        2)信息選擇和預(yù)處理

        剔除Web資源中無(wú)用信息并將信息進(jìn)行必要的整理,如Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、英文單詞的詞干提取、高額低頻詞的過(guò)濾、漢語(yǔ)詞的切分等。

        3)模式發(fā)現(xiàn)

        自動(dòng)進(jìn)行模式發(fā)現(xiàn)。可以在同一個(gè)站點(diǎn)內(nèi)部或多個(gè)站點(diǎn)之間進(jìn)行,以自動(dòng)發(fā)現(xiàn)Web站點(diǎn)的共有模式。

        4)模式分析

        驗(yàn)證、解釋上一步驟產(chǎn)生的模式,并進(jìn)行可視化。

        4 Web挖掘研究方向

        Web挖掘的應(yīng)用非常廣闊,不但涉及頁(yè)面信息的提取、站點(diǎn)的分析和設(shè)計(jì),而且在基于Internet 的電子商務(wù)方面也有很好的應(yīng)用前景。

        今后幾年Web挖掘研究的主要方向有:(1)Web知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的融合、提升,以及知識(shí)的評(píng)價(jià)綜合方法;(2)基于Web挖掘和信息檢索的、高效的、具有自動(dòng)導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;(3)研究和開(kāi)發(fā)基于Web的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢(xún)語(yǔ)言,優(yōu)化和維護(hù)機(jī)制;(4)現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時(shí)效性的研究;(5)Web挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等。

        5 總結(jié)

        隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個(gè)研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對(duì)比,介紹了Web挖掘的概念、分類(lèi)及步驟,最后給出了Web挖掘的研究方向。

        參考文獻(xiàn):

        [1]Raymond Kosala,and Hendrik Blockeel.Web Mining Research: A Survey[J]. SKGKDD Explorations,July 2000.

        [2] 韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-410.

        [3] Jiawei Han,Micheline Kamber 。范明譯。數(shù)據(jù)挖掘概念與技術(shù)[M]。北京,機(jī)械工業(yè)出版社,2000.

        [4] 王繼成,蕭嶸,孫正興,等.Web信息檢索研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2001(2).

        [5]Yuefeng Lia,Ning Zhong.Web mining mobel and its applications for information gathering[J].Knowledge-Based Systems,2004(17):207-217.

        收稿日期:2009-04-28

        作者簡(jiǎn)介: 謝海艇(1982-),男,山東淄博人。研究方向:信息檢索、數(shù)據(jù)挖掘等。

        猜你喜歡
        信息檢索數(shù)據(jù)挖掘
        基于同態(tài)加密支持模糊查詢(xún)的高效隱私信息檢索協(xié)議
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        在網(wǎng)絡(luò)環(huán)境下高職院校開(kāi)設(shè)信息檢索課的必要性研究
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        亚洲av无码av吞精久久| 一区二区三区日韩亚洲中文视频| 中国娇小与黑人巨大交| 久久久久人妻精品一区蜜桃| 欧美国产小视频| 日本熟妇精品一区二区三区| 男女性行为免费视频网站| 日本熟妇美熟bbw| 欧美性大战久久久久久久| 国产精品久久婷婷婷婷| 中文字幕亚洲综合久久久| 久久亚洲av无码精品色午夜| 乌克兰粉嫩xxx极品hd| 久久精品一品道久久精品9| 日本中文字幕人妻精品| 人妻少妇偷人精品久久性色av| 久久久久成人片免费观看蜜芽 | 公和我做好爽添厨房| 国产69精品久久久久999小说| 亚洲AV永久无码精品导航| 日韩中文字幕一区二十| 无码专区人妻系列日韩精品| 明星性猛交ⅹxxx乱大交| 日韩精品网| 在线不卡av一区二区| 女人被男人爽到呻吟的视频| 国产乱子伦精品免费无码专区| 中文字幕有码高清| 偷拍一区二区三区四区视频| 一本色道久久88精品综合| 久久精品国产丝袜| 成人激情视频一区二区三区 | 日本护士xxxx视频| 97se在线观看| 蜜桃在线观看视频在线观看| 国产成人久久精品一区二区三区| 女人下面毛多水多视频| 亚洲嫩模高清在线视频| 亚洲国产最新免费av| 天天碰免费上传视频| 亚洲中文字幕每日更新|