亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web數(shù)據(jù)挖掘在搜索引擎中的運用

        2013-12-31 00:00:00王剛張順
        計算機光盤軟件與應(yīng)用 2013年16期

        摘 要:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在網(wǎng)絡(luò)中數(shù)據(jù)與信息不斷增多的背景下,就需要利用數(shù)據(jù)搜索引擎的方式來尋找出用戶想要查詢的信息,進而達到收集信息的目的。本文主要探討的是Web挖掘技術(shù)在搜索引擎中的應(yīng)用,首先分析了Web挖掘的概念及其內(nèi)容,在此基礎(chǔ)上闡述了搜索引擎存在的不足,最后敘述了Web挖掘技術(shù)在搜索引擎中的應(yīng)用。

        關(guān)鍵詞:數(shù)據(jù)挖掘;互聯(lián)網(wǎng);搜索引擎

        中圖分類號:TP391.3

        1 Web挖掘的概念及其內(nèi)容

        對于Web挖掘來說,經(jīng)過了幾年的發(fā)展我們并不陌生,但是對于不同人來說Web挖掘都有著不同的理解方式,而現(xiàn)階段的Web挖掘內(nèi)容主要包含著三個方面。

        1.1 Web內(nèi)容挖掘

        Web內(nèi)容挖掘是整個Web數(shù)據(jù)挖掘技術(shù)的核心,對互聯(lián)網(wǎng)中的信息進行分析后我們可以看出,其主要是通過互聯(lián)網(wǎng)中的各種類型的服務(wù)、數(shù)據(jù)源以及信息源組成的,例如FTP、Telnet和WWW等。由于Web內(nèi)容挖掘具有很多優(yōu)勢,因此數(shù)字圖書館、政府辦公和電子商務(wù)等都是采用Web的方式來對數(shù)據(jù)庫進行訪問的。同時Web內(nèi)容挖掘所涉及的范圍也是非常廣泛的,除了圖像和文本外,還包含了視頻、音頻以及多媒體等。

        1.2 Web結(jié)構(gòu)挖掘

        對于Web結(jié)構(gòu)挖掘來說主要是針對Web中的文檔結(jié)構(gòu)進行分析,從組織之間的結(jié)構(gòu)模式來獲取有價值的信息。Web的結(jié)構(gòu)挖掘技術(shù)具體來說就是在互聯(lián)網(wǎng)中的超鏈接之間的關(guān)系和Web文檔自身的結(jié)構(gòu)綜合到一起而推導(dǎo)出的一種超出Web以外的信息。

        1.3 Web行為挖掘

        所謂Web行為挖掘技術(shù),就是通過互聯(lián)網(wǎng)中的Web服務(wù)器所包含的日志文件以及互聯(lián)網(wǎng)中用戶的信息進行統(tǒng)計與處理進而獲取有用的信息反饋給查詢者。具體的工作模式是在WWW服務(wù)器中用戶登錄的信息進行后臺備份后進行歸類并分析,最終達到獲取用戶行為的目標。

        2 現(xiàn)階段搜索引擎的不足

        由于在互聯(lián)網(wǎng)中主要是通過HTML語言規(guī)范來對信息進行描述的,并且對互聯(lián)網(wǎng)中的信息進行包裝、傳輸以及發(fā)布也都是經(jīng)過Web的方式來處理的。但是值得注意的是HTML主要是一種標記類型的語言,這種語言類型決定著Web的數(shù)據(jù)挖掘過程中是非常困難與繁瑣的。也就是說每一個站點的數(shù)據(jù)都是相互獨立,平時我們都認為Web的數(shù)據(jù)是很有條理的,但是由于每個數(shù)據(jù)都是獨立存在的,進而形成了一種半結(jié)構(gòu)化數(shù)據(jù)的模式,這也是當前互聯(lián)網(wǎng)中數(shù)據(jù)最大的特點。就是這種半結(jié)構(gòu)化數(shù)據(jù)的模式導(dǎo)致了數(shù)據(jù)處理技術(shù)相對落后,現(xiàn)階段主要存在著以下兩個方面的問題:首先在搜索引擎的使用過程中,所查詢到的信息中沒有關(guān)系的信息太多,并且準確率較低,即使瀏覽成百上千條信息也查詢不到有價值的信息。其次是搜索引擎中查詢到的信息一般情況下順序都是比較亂的,對所查詢的信息沒有很好的分類與排序。因此在以后的研究過程中應(yīng)該從以上幾個方面問題入手,完善互聯(lián)網(wǎng)中的搜索引擎技術(shù)。

        3 Web挖掘技術(shù)在搜索引擎中的應(yīng)用

        我們都知道Web數(shù)據(jù)挖掘技術(shù)和搜索引擎之間的關(guān)系是相互補充的,并不是搜索引擎完全依靠Web數(shù)據(jù)挖掘的。另一方面,正是通過Web數(shù)據(jù)挖掘技術(shù)才使得搜索引擎中的檢索效率得到了很大程度的改善,現(xiàn)階段Web挖掘技術(shù)在搜索引擎中的技術(shù)主要包含了以下三個方面。

        3.1 Web文檔挖掘技術(shù)在搜索引擎中的應(yīng)用

        搜索引擎技術(shù)是由傳統(tǒng)的檢索技術(shù)而演變來的,因此在對Web的文檔處理不夠徹底,那么就需要利用Web文檔挖掘技術(shù)對搜索引擎進行優(yōu)化,其中主要包含了文本總結(jié)技術(shù)、文本分類技術(shù)與文本聚類技術(shù)三個方面。

        對于文本總結(jié)技術(shù)來說,主要是指從互聯(lián)網(wǎng)中的每個文檔中提取出一些關(guān)鍵的信息,并且對文檔信息進行書簽標記。在這種背景下互聯(lián)網(wǎng)用戶就可以通過瀏覽每個文檔的關(guān)鍵詞就可以確認該文檔是否符合查詢的標準,對大致的內(nèi)容進行了解后對在決定對其是否收取。

        其次是文本分類技術(shù),該類文檔挖掘技術(shù)主要是計算機對文檔集合中所有的文檔進行分類,因此在用戶檢索的過程中就會到制定的文檔集合中進行搜索。本文分類技術(shù)的主要目標是縮小用戶在互聯(lián)網(wǎng)中的檢索范圍而提升檢索效率。

        最后是文本聚類技術(shù),文本類聚的工作原理與文本分類技術(shù)的工作原理是相反的,也就是說需要要求同一簇內(nèi)的文檔之間的相似性盡可能大,另外而簇與簇之間的關(guān)系盡可能小,這些簇就相當于分類表中的類目。

        3.2 Web結(jié)構(gòu)挖掘在搜索引擎中的應(yīng)用

        此外,對于互聯(lián)網(wǎng)的用戶來說,他們都希望可以搜索到對自己有用的信息,并且這些信息都是具有權(quán)威性的,那么就需要通過Web結(jié)構(gòu)挖掘來進行完善,當前Web結(jié)構(gòu)挖掘技術(shù)主要有兩個方面。

        3.2.1 頁面等級(Page-rank)方法

        頁面等級的方法主要是在其中的一個Web文檔中建立另外一個Web文檔作為超鏈接的時候,就可以將其理解為該Web文檔是另外一個文檔的注解,也就是說他們之間存在著一種引用與被引用的關(guān)系。具體來說,就是一個Web文檔被引用的次數(shù)越多,就證明該文檔頁面的登記越高,那么在互聯(lián)網(wǎng)中該Web文檔所處的位置也就越重要。另外,一個Web文檔被一個高等級頁面引用后,那么這個Web文檔等級也就隨之變高。采用這種頁面等級的搜索引擎方法,可以首先對檢索的提問進檢索,在此基礎(chǔ)上在對檢索的結(jié)果進行頁面等級分析,最終達到輸出最重要的頁面的一種形式。

        3.2.2 關(guān)鍵頁/權(quán)威頁(Hub/Authority)方法

        關(guān)于關(guān)鍵頁/權(quán)威頁的方法,其執(zhí)行的主要思想是在互聯(lián)網(wǎng)中存在著一種重要的頁面,那么這種重要的頁面一定在某種學科中處于權(quán)威的、重要的位置,但是這種關(guān)鍵頁/權(quán)威頁并不是具有很多個連接的。對于這種類型的關(guān)鍵頁,不但起到了隱含性的說明了其他Web文檔中重要性外,還體現(xiàn)了關(guān)鍵頁所能發(fā)揮的作用。作為權(quán)威頁來說,它應(yīng)該是被多個關(guān)鍵頁所引用的,并且每個引用的關(guān)鍵頁也具有很多個權(quán)威頁的連接,進而計算機就會根據(jù)算法來計算出用戶所要查詢的網(wǎng)頁。

        3.3 Web行為挖掘在搜索引擎中的應(yīng)用

        最后是Web行為挖掘,最近幾年主要體現(xiàn)在電子商務(wù)的運用,而對于搜索引擎來說,Web行為挖掘主要是通過挖掘來對用戶的檢索行為進行歸類與統(tǒng)計。并且互聯(lián)網(wǎng)的信息檢索行為也是研究的主要對象,搜索引擎通過采用Web行為挖掘?qū)τ脩羝綍r所檢索的內(nèi)容進行分析,其中包括檢索詞、檢索時間以及檢索方式等。也就是說采用Web行為挖掘的模式對檢索日志進行分析后可以簡單的判斷,對用戶所潛在的共同檢索行為進行統(tǒng)計,進而可以更好的對搜索引擎的效果進行反饋,經(jīng)過一系列的總結(jié)與歸納后可以進一步完善搜索引擎。

        4 總結(jié)

        通過對文章的分析可以看出,經(jīng)過了多年的發(fā)展后Web的數(shù)據(jù)挖掘技術(shù)已經(jīng)可以很好的融入到搜索引擎當中,但是值得注意的是Web數(shù)據(jù)挖掘技術(shù)所能實現(xiàn)的功能不止是這些,其在搜索引擎中的功能也沒有徹底的發(fā)揮出來,在以后的工作當中應(yīng)該從搜索引擎的查全率和查準率等方面進行進一步的完善。另外,關(guān)于個性化搜索和語義相關(guān)性搜索也是未來研究的主要方向。

        參考文獻:

        [1]阮忠,鄧春燕.Web文本挖掘的方法及其應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2008(09).

        [2]董彩云,呂秀榮.數(shù)據(jù)挖掘技術(shù)在個性化學習指導(dǎo)中的應(yīng)用[J].山東廣播電視大學學報,2010(01).

        [3] 付曉翠,許盈.基于Web數(shù)據(jù)挖掘的個性化搜索引擎研究綜述[J].現(xiàn)代計算機(專業(yè)版),2008(03).

        [4]鄒芳紅.Web數(shù)據(jù)挖掘與個性化搜索引擎綜述[J].計算機與現(xiàn)代化,2007(08).

        国产国产人精品视频69| 亚洲中文字幕高清在线视频一区| 女女同性av一区二区三区| 日本一区二区三级免费| 免费视频无打码一区二区三区| 亚洲av精品一区二区三区| 国产中文欧美日韩在线| 久草热8精品视频在线观看| 精品国产免费Av无码久久久| 国产精品久久久精品三级18| 一区二区在线观看视频高清| 夜夜躁日日躁狠狠久久av| 精品人妻中文无码av在线| 日本乱子人伦在线视频| 精品久久久久久午夜| 久久黄色精品内射胖女人| 99久久精品免费看国产一区二区三区| 久久精品99久久香蕉国产色戒| 午夜视频网址| 女同av免费在线播放| 亚洲国产精品成人av网| 疯狂做受xxxx高潮视频免费| 中日av乱码一区二区三区乱码| 国产精品无码久久久一区蜜臀 | 无码伊人66久久大杳蕉网站谷歌| 中文字幕亚洲精品一二三区| 日韩精品熟女中文字幕| 三年在线观看免费大全下载| 亚洲Av午夜精品a区| 少妇呻吟一区二区三区| 欧美伦费免费全部午夜最新| 国产95在线 | 欧美| 18禁国产美女白浆在线| 丰满少妇av一区二区三区 | 久久国产A√无码专区亚洲| 日本精品人妻一区二区三区| 亚洲中文字幕舔尻av网站| 野外亲子乱子伦视频丶| 最新国产一区二区精品久久| 青青自拍视频成人免费观看| 色和尚色视频在线看网站|