亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用

        2013-04-29 00:44:03張欣郭廣楠張瑜
        電腦迷 2013年5期
        關(guān)鍵詞:信息檢索網(wǎng)頁文檔

        張欣 郭廣楠 張瑜

        摘 要 本文闡述了數(shù)據(jù)挖掘的基本理論,及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用,分析了數(shù)據(jù)挖掘?qū)W(wǎng)絡(luò)信息資源、網(wǎng)絡(luò)信息檢索結(jié)果、用戶檢索需求等方面性能的提升,并對(duì)網(wǎng)絡(luò)信息檢索未來發(fā)展進(jìn)行了展望。

        關(guān)鍵詞 數(shù)據(jù)挖掘 網(wǎng)絡(luò)信息檢索 數(shù)據(jù)挖掘

        中圖分類號(hào):TP311.138 文獻(xiàn)標(biāo)識(shí)碼:A

        目前,網(wǎng)絡(luò)信息資源數(shù)據(jù)形式豐富多樣,數(shù)量巨大,并呈幾何級(jí)數(shù)的速度增長(zhǎng),基本滿足了人們的信息檢索的量的需求,然而如何快速、高效地找到自己所需要的信息,網(wǎng)絡(luò)信息檢索在查全率和查準(zhǔn)率上還相對(duì)欠缺。網(wǎng)絡(luò)搜索引擎通常會(huì)返回給用戶成千上萬檢索到的網(wǎng)頁,其中大部分與用戶的檢索要求無關(guān),另外就網(wǎng)絡(luò)上的知識(shí)發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索更精確高效的、能包含網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在內(nèi)的新的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求下產(chǎn)生并迅速發(fā)展起來的。但是,數(shù)據(jù)庫(kù)領(lǐng)域采用的數(shù)據(jù)挖掘技術(shù)所涉及的多是結(jié)構(gòu)化數(shù)據(jù),為了處理網(wǎng)絡(luò)上的異質(zhì)、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘研究的一個(gè)重要分支。

        1 網(wǎng)絡(luò)信息檢索

        網(wǎng)絡(luò)信息檢索一般指因特網(wǎng)檢索,是通過網(wǎng)絡(luò)接口軟件,用戶可以在一處終端查詢各地上網(wǎng)的信息資源。網(wǎng)絡(luò)信息檢索主要依靠計(jì)算機(jī)科學(xué)技術(shù)、網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)的確切特征來創(chuàng)建相應(yīng)的索引結(jié)構(gòu)、數(shù)據(jù)庫(kù)等,能很好地處理已經(jīng)發(fā)生或存在的靜態(tài)信息。網(wǎng)絡(luò)信息檢索工具包括傳統(tǒng)的服務(wù)工具:遠(yuǎn)程登錄、文件傳輸服務(wù)、電子郵件、電子公告牌、廣域消息服務(wù)、Gopher、WWW、基于Z39.50的信息檢索服務(wù)、代理服務(wù)器和NAT,以及搜索引擎和中外著名網(wǎng)絡(luò)數(shù)據(jù)庫(kù)檢索。這些工具都能有效地組織和檢索海量數(shù)據(jù),但對(duì)數(shù)據(jù)未來的變化趨勢(shì)等動(dòng)態(tài)信息缺乏有效的統(tǒng)計(jì)和預(yù)測(cè)。

        2 數(shù)據(jù)挖掘及Web數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘(Data Mining),即從大量模糊的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題的技術(shù),是一種還處于發(fā)展中,已經(jīng)部分投入實(shí)際生產(chǎn)實(shí)踐的技術(shù)框架。

        Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘技術(shù)發(fā)展而來,簡(jiǎn)單地說是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web上,也稱為Web挖掘。其技術(shù)性的定義是:Web數(shù)據(jù)挖掘,是一項(xiàng)涉及Web、數(shù)據(jù)挖掘、信息學(xué)、計(jì)算機(jī)語言學(xué)等多個(gè)領(lǐng)域的綜合技術(shù)。Web數(shù)據(jù)挖掘的目的是為了揭示網(wǎng)絡(luò)信息中隱含的知識(shí),它是比信息檢索層次更高、更精確的一種技術(shù)。它能夠根據(jù)用戶個(gè)性化定義的要求,根據(jù)目標(biāo)的特征信息在網(wǎng)絡(luò)上或者數(shù)據(jù)庫(kù)中進(jìn)行有目的的信息檢索。Web數(shù)據(jù)挖掘中幾種常用的技術(shù)是:關(guān)聯(lián)規(guī)則技術(shù)、分類技術(shù)、聚類技術(shù)、路徑分析技術(shù)和序列模式技術(shù)。

        3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用

        目前,作為網(wǎng)絡(luò)信息檢索最重要最常用的工具:搜索引擎,只能處理用戶給出的特定關(guān)鍵詞形式表示的簡(jiǎn)單目標(biāo),而無法處理用戶給出的樣本形式的復(fù)雜模糊目標(biāo),對(duì)網(wǎng)絡(luò)數(shù)據(jù)未來的變化趨勢(shì)等動(dòng)態(tài)信息也缺乏有效的統(tǒng)計(jì)和預(yù)測(cè)。而將數(shù)據(jù)挖掘技術(shù)運(yùn)用的網(wǎng)絡(luò)信息檢索中,可以使網(wǎng)絡(luò)信息檢索過程及結(jié)果更加快速、精確、個(gè)性化。

        (1)數(shù)據(jù)挖掘提高網(wǎng)絡(luò)信息內(nèi)容自動(dòng)摘要的準(zhǔn)確率。網(wǎng)絡(luò)信息資源一般都有關(guān)鍵詞和內(nèi)容摘要供用戶檢索選擇之用,但大部分的自動(dòng)摘要都是簡(jiǎn)單的抽取網(wǎng)頁文檔的前幾句內(nèi)容,而僅僅是通過位置來確定的,這種方式很不準(zhǔn)確,不能精確的反映網(wǎng)頁的全部?jī)?nèi)容,所以保證自動(dòng)摘要的正確性非常重要。數(shù)據(jù)挖掘中的文本抽取就是從文檔中抽出關(guān)鍵信息,對(duì)文檔本身的內(nèi)容而不是位置來進(jìn)行文本內(nèi)容的總結(jié),以自然語言理解為基礎(chǔ),更可揭示網(wǎng)絡(luò)信息的主題特征知識(shí)及其之間的相互關(guān)聯(lián)知識(shí),對(duì)文檔進(jìn)行語義甚至語用的標(biāo)注,因此它更能反映出Web文檔中的真正信息,然后以簡(jiǎn)單的形式進(jìn)行摘要或表示,可以提煉出文檔最重要的信息生成關(guān)鍵字或摘要,使自動(dòng)摘要的質(zhì)量和準(zhǔn)確性很大的提高。

        (2)數(shù)據(jù)挖掘拓寬網(wǎng)絡(luò)信息資源量。網(wǎng)絡(luò)信息資源數(shù)量眾多,分布范圍很廣,大部分可以直接用網(wǎng)絡(luò)信息檢索工具查詢到的信息都是網(wǎng)頁中的文字、表格、圖形、圖像、聲音、視頻或好友網(wǎng)頁的鏈接及目錄結(jié)構(gòu)等。但是還有一些潛在網(wǎng)絡(luò)信息不容易被搜索引擎等工具查詢到,如用ASP,JSP或PHP生成的動(dòng)態(tài)網(wǎng)頁;一些專業(yè)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù);在Robot Exclusion框架協(xié)議下被拒絕搜索訪問的網(wǎng)站;由用戶的提問而動(dòng)態(tài)生成的結(jié)果;存在于商業(yè)數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)等,它們無法被索引,從而無法提供有效的檢索方式,這些結(jié)構(gòu)化的或用html標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)都可以用數(shù)據(jù)挖掘中的內(nèi)容挖掘進(jìn)行處理,網(wǎng)絡(luò)頁面內(nèi)容挖掘常采用的技術(shù)是文本挖掘和多媒體挖掘,可為這些網(wǎng)絡(luò)信息提供明確的摘要或索引,使得本來不容易搜索到,潛在隱藏的信息能被明確的搜索到,從而大大拓寬了網(wǎng)絡(luò)信息的資源量。

        4 網(wǎng)絡(luò)信息檢索的未來展望

        數(shù)據(jù)挖掘能發(fā)現(xiàn)網(wǎng)絡(luò)中隱含的有價(jià)值的信息和知識(shí),從而提高標(biāo)引、自動(dòng)摘要、自動(dòng)分類和自動(dòng)聚類等的準(zhǔn)確率;能促進(jìn)用戶興趣模型的構(gòu)建,從而為用戶提供更好的個(gè)性化信息服務(wù)。此外,它獨(dú)特的分析方法能發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)知識(shí)之間的各種關(guān)系,使網(wǎng)站建設(shè)和檢索結(jié)果的分布更加合理。隨著本體、網(wǎng)絡(luò)、自然語言處理、信息可視化和人工智能等技術(shù)的發(fā)展,將數(shù)據(jù)挖掘與這些技術(shù)進(jìn)行結(jié)合,未來的網(wǎng)絡(luò)信息檢索將朝這更加精準(zhǔn)、個(gè)性和智能化方向發(fā)展。

        參考文獻(xiàn)

        [1] 陳維.網(wǎng)絡(luò)環(huán)境下的信息檢索與數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代情報(bào),2009(5).

        [2] 李村合.網(wǎng)絡(luò)信息挖掘技術(shù)及其應(yīng)用研究[J].情報(bào)科學(xué),2008.

        猜你喜歡
        信息檢索網(wǎng)頁文檔
        有人一聲不吭向你扔了個(gè)文檔
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        五月丁香六月综合缴清无码| 国产性一交一乱一伦一色一情| 欧洲人体一区二区三区| 男女男生精精品视频网站| 一区二区三区av在线| 亚洲国产精品久久精品| 少妇高潮流白浆在线观看| 国产嫖妓一区二区三区无码| 久久久国产不卡一区二区| 国产成人自拍视频在线观看网站| 精品日本一区二区三区| 亚洲av香蕉一区区二区三区| 激情综合一区二区三区| 亚洲国产精品线观看不卡| 综合激情中文字幕一区二区| 全亚洲最大的私人影剧院在线看 | 中字幕人妻一区二区三区| 亚洲精品永久在线观看| 欧美xxxxx精品| 亚洲国产91精品一区二区| 人妻少妇偷人精品免费看| 中文字幕久久久人妻无码| 人人狠狠综合久久亚洲婷婷| 伊人影院在线观看不卡| 玖玖资源站亚洲最大的网站| 国产av无码国产av毛片| 国内a∨免费播放| 国产精品国产三级国产AvkTV| 亚洲av天堂在线免费观看| www婷婷av久久久影片| 55夜色66夜色国产精品视频| 无码不卡一区二区三区在线观看| 国产伦精品一区二区三区在线| 蜜臀av毛片一区二区三区| 国产一区内射最近更新| 中文字幕美人妻亅u乚一596| 中文字幕色视频在线播放| 亚洲精品国产一区二区免费视频| 亚洲av综合色区| 久久日本三级韩国三级| 久久精品国产亚洲av麻豆四虎|