亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在搜索引擎上的應(yīng)用研究

        2023-05-24 04:51:46李國(guó)海程瀟
        科技資訊 2023年8期
        關(guān)鍵詞:搜索引擎數(shù)據(jù)挖掘互聯(lián)網(wǎng)

        李國(guó)海 程瀟

        摘要:隨著計(jì)算機(jī)快速發(fā)展,數(shù)字化的生活和溝通方式會(huì)信息的產(chǎn)生與堆積產(chǎn)生大量的數(shù)據(jù),為了將這些大量的數(shù)據(jù)轉(zhuǎn)化成需要的、可以利用的信息和知識(shí),便形成了數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是人工智能和大數(shù)據(jù)的結(jié)合,其可以從大量冗雜混亂的信息挖掘出需要的信息。通過(guò)分析、整合、挖掘大量的數(shù)據(jù),可以使人們更加有效地獲得有用的信息,方便了企業(yè)信息流通速度,精簡(jiǎn)了商務(wù)管理的過(guò)程,使信息的獲取變得高效起來(lái)。在搜索引擎上應(yīng)用數(shù)據(jù)挖掘技術(shù)更可以使搜索變?yōu)闃O為方便簡(jiǎn)潔。文章先介紹數(shù)據(jù)挖掘和搜索引擎的概念和原理,論述了數(shù)據(jù)挖掘給搜索引擎帶來(lái)的方便,為網(wǎng)上的用戶提供了有效的查詢服務(wù),提高了搜索引擎的效率。

        關(guān)鍵詞:數(shù)據(jù)挖掘??搜索引擎??互聯(lián)網(wǎng)??web數(shù)據(jù)挖掘

        中圖分類號(hào):TP391.3;TP311.13????文獻(xiàn)標(biāo)識(shí)碼:A

        Research?on?the?Application?of?Data?Mining?Technology?in?Search?Engines

        LI?Guohai1???CHENG?Xiao2

        (1.Guangxi?Minzu?University,?Nanning?,?Guangxi?Zhuang?Autonomous?Region,?530000?China;2.Hubei?Minzu?University,Enshi,Hubei?Province,445000?China)

        Abstract:?With?the?rapid?development?of?computers,?digital?ways?of?life?and?communication?lead?to?the?creation?and?accumulation?of?information,?generating?a?large?amount?of?data.?In?order?to?transform?these?large?amounts?of?data?into?the?information?and?knowledge?we?need?and?can?use,?data?mining?is?formed.?Data?mining?is?a?combination?of?artificial?intelligence?and?big?data,?which?can?mine?the?information?we?need?from?a?large?amount?of?messy?information.?By?analyzing,?integrating,?and?digging?up?large?amounts?of?data,?people?can?get?useful?information?more?effectively,?which?facilitates?the?speed?of?enterprise?information?circulation,?streamlines?the?process?of?business?management,?and?makes?information?acquisition?more?efficient.?Applying?data?mining?technology?to?the?search?engine?can?make?the?search?extremely?convenient?and?concise.?This?article?first?introduces?the?concepts?and?principles?of?data?mining?and?the?search?engine,?and?discusses?the?convenience?brought?by?data?mining?to?search?engines,?provides?effective?query?services?for?online?users,?and?improves?the?efficiency?of?search?engines.

        Key?Words:?Data?mining;?Search?engine;?Internet;?Web?data?mining

        在20世紀(jì)90年代,數(shù)據(jù)庫(kù)系統(tǒng)的大量應(yīng)用、互聯(lián)網(wǎng)技術(shù)的快速發(fā)展、硬件技術(shù)不斷的更新,由此產(chǎn)生了大量的信息,這些信息包括圖像、音頻、文字、視頻等,過(guò)多的信息使信息的查詢、整合利用變得極為麻煩,數(shù)據(jù)庫(kù)可以存儲(chǔ)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行索引和查詢處理等服務(wù),但是無(wú)法高效地處理海量的數(shù)據(jù),在這樣的環(huán)境下,數(shù)據(jù)挖掘便由此誕生。數(shù)據(jù)挖掘的出現(xiàn)滿足了用戶對(duì)信息高精度、準(zhǔn)確度、高效性的需求,同時(shí)也極大地促進(jìn)了搜索引擎的發(fā)展。目前數(shù)據(jù)挖掘已是搜索引擎的關(guān)鍵技術(shù)之一,文章將在探討搜索引擎的基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘進(jìn)行研究,為數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用提出參考。

        1?搜索引擎概念及闡述

        1.1?搜索引擎的定義

        搜索引擎(Search?Engine)是指用戶根據(jù)自己的需求,通過(guò)程序固定的算法從互聯(lián)網(wǎng)中提供搜索用戶所需要的信息。搜索引擎是一個(gè)交互式的尋求信息過(guò)程,在搜索過(guò)程中用戶需要提供自己所要信息的關(guān)鍵部分,然后計(jì)算機(jī)根據(jù)所要信息的關(guān)鍵字等,從互聯(lián)網(wǎng)上通過(guò)搜索程序抓取符合相關(guān)條件的信息,然后將符合的信息呈現(xiàn)到搜索用戶面前。在搜索引擎運(yùn)行的過(guò)程中需要處于聯(lián)網(wǎng)狀態(tài),它是一種處于互聯(lián)網(wǎng)的應(yīng)用搜索工具,搜索引擎設(shè)計(jì)的目的是為用戶更加方便、快捷地查找利用信息,所得到的信息不僅包括文字、圖片、音頻等[1]。

        1.2?搜索引擎的分類

        1.2.1?全文搜索引擎

        通常人們生活中最常用到的搜索引擎就是全文搜索引擎,全文搜索引擎就是用戶提供搜索的關(guān)鍵信息,然后搜索引擎根據(jù)用戶所提供的信息進(jìn)行搜索檢查。

        全文搜索引擎就是我們提供所需要的信息,搜索程序通過(guò)數(shù)據(jù)庫(kù)進(jìn)行相關(guān)搜索,在數(shù)據(jù)庫(kù)找到相關(guān)信息,根據(jù)信息相關(guān)度與權(quán)重,將信息進(jìn)行排列,然后呈現(xiàn)出來(lái)。通常這個(gè)權(quán)重與用戶瀏覽量、點(diǎn)擊量成正比,即網(wǎng)上用戶點(diǎn)擊越多、瀏覽越多的信息,在搜索與之相關(guān)的信息的時(shí)候,越容易出現(xiàn)在你的面前。反正點(diǎn)擊越少、瀏覽越少的信息就排名越低[2]。

        1.2.2?目錄搜索引擎

        目錄,搜索引擎將網(wǎng)上屬性相同的資源信息分類,搜索用戶可以在界面通過(guò)搜索引擎已經(jīng)分類好的資源逐步獲得需要的信息。這種搜索引擎不需要用戶的輸入查詢,類似于人們的視頻App,將電影分類,如喜劇片、科幻片等,然后根據(jù)自己的喜好選擇想要看的已經(jīng)分類好的電影[3]。

        1.2.3?元搜索引擎

        指搜索引擎在接受用戶搜索要求后,在多個(gè)不同的其他搜索引擎上進(jìn)行多元搜索,并將多個(gè)搜索引擎的搜索結(jié)果按照一定規(guī)則排序然后呈現(xiàn)到用戶眼前。

        1.3?工作原理

        1.3.1?信息的收集

        搜索結(jié)果引擎通常會(huì)自動(dòng)派出一個(gè)在網(wǎng)際互聯(lián)網(wǎng)上進(jìn)行收集、抓取搜索信息的應(yīng)用程序,這個(gè)抓取程序一般被人們稱為蜘蛛(spider)。蜘蛛搜索程序引擎會(huì)按照搜索程序中的要求周期性地獲取信息,然后將蜘蛛收集的這些信息全部?jī)?chǔ)存在一個(gè)搜索程序引擎的蜘蛛數(shù)據(jù)庫(kù)里,在蜘蛛抓取這些信息的整個(gè)過(guò)程中,搜索程序引擎通過(guò)一個(gè)蜘蛛爬行程序搜索爬行尋找到一個(gè)網(wǎng)頁(yè),然后從該頁(yè)的網(wǎng)頁(yè)開(kāi)始繼續(xù)搜索爬行尋找到下一頁(yè)的網(wǎng)頁(yè),一般會(huì)對(duì)某些權(quán)重高的網(wǎng)頁(yè)優(yōu)先爬行。在蜘蛛程序爬行的過(guò)程中,也會(huì)對(duì)爬行獲取的內(nèi)容進(jìn)行重復(fù)的檢查,當(dāng)檢查到大量重復(fù)的內(nèi)容時(shí),有可能就會(huì)停止爬行。此外,爬行程序在運(yùn)到已經(jīng)爬行過(guò)的網(wǎng)站也會(huì)停止爬行[4]。

        1.3.2?索引的建立

        在搜索引擎爬行結(jié)束,完成對(duì)互聯(lián)網(wǎng)上信息的收集后,便開(kāi)始對(duì)收集的信息進(jìn)行處理,這個(gè)過(guò)程包括對(duì)網(wǎng)站信息文字與圖片等信息的提取、網(wǎng)站類型的分類、相同內(nèi)容的刪除等。其中,最為復(fù)雜的是建立索引數(shù)據(jù)庫(kù),搜索引擎程序須要對(duì)所獲得的信息進(jìn)行提純處理,即從大量的信息中提取網(wǎng)站信息的關(guān)鍵詞,關(guān)鍵詞是搜索引擎更具網(wǎng)站相關(guān)度算法,對(duì)網(wǎng)站信息進(jìn)行大量復(fù)雜計(jì)算的結(jié)果。最后搜索程序?qū)㈥P(guān)鍵詞與網(wǎng)頁(yè)進(jìn)行關(guān)聯(lián),完成最后索引數(shù)據(jù)庫(kù)的建立。

        1.3.3?排序

        建立索引數(shù)據(jù)庫(kù)后,就搜索引擎就需要給關(guān)鍵詞與所對(duì)應(yīng)的網(wǎng)站進(jìn)行排名。排名的先后順序與搜索引擎技術(shù)關(guān)鍵詞與網(wǎng)站的相關(guān)度有關(guān),通常情況下關(guān)聯(lián)度度越高的排名位置越靠前。此外,隨著網(wǎng)上用戶的增多,網(wǎng)站的先后排名還與搜索用戶的點(diǎn)擊量和瀏覽時(shí)間有關(guān),當(dāng)一個(gè)網(wǎng)站的瀏覽量和點(diǎn)擊量高時(shí),其對(duì)應(yīng)的排名會(huì)有所提升[5]。

        2?搜索引擎上數(shù)據(jù)挖掘過(guò)程及步驟

        2.1?數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是指從大量復(fù)雜、不清楚、繁雜的信息中,尋到挖掘用戶所需要的可以利用的信息。數(shù)據(jù)挖掘的本質(zhì)是對(duì)信息的分析提取,從廣泛的信息中提取出有用的信息。

        2.2?數(shù)據(jù)挖掘基本步驟

        2.2.1?挖掘目標(biāo)與信息收集

        在進(jìn)行數(shù)據(jù)挖掘時(shí)需要足夠信息,數(shù)據(jù)挖掘是為了處理大量數(shù)據(jù)而形成的技術(shù),少量的數(shù)據(jù)沒(méi)有挖掘的必要,有一個(gè)清楚明確的挖掘?qū)ο笫菙?shù)據(jù)挖掘的前提,只有清楚地知道挖掘?qū)ο?,才能有效制定挖掘方式及算法,這是能夠很好發(fā)揮數(shù)據(jù)挖掘作用的關(guān)鍵。在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,必須明確挖掘的具體目標(biāo),然后才能進(jìn)一步了解挖掘相關(guān)知識(shí)的重點(diǎn),了解挖掘信息的關(guān)鍵內(nèi)容,制定合理的挖掘策略。再者,信息品質(zhì)也會(huì)影響數(shù)據(jù)挖掘的結(jié)果好與壞,高品質(zhì)的信息,會(huì)帶來(lái)高品質(zhì)的挖掘結(jié)果。很多錯(cuò)誤的挖掘結(jié)果,大多是信息有誤導(dǎo)致的。

        2.2.2?數(shù)據(jù)預(yù)處理

        在確定挖掘的對(duì)象后,就要開(kāi)始對(duì)挖掘數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理是指對(duì)收集到的信息進(jìn)行一個(gè)優(yōu)化加工的過(guò)程。

        (1)數(shù)據(jù)清理。數(shù)據(jù)挖掘就是類似從垃圾場(chǎng)找到有價(jià)值的東西,因?yàn)閿?shù)據(jù)挖掘收集到的數(shù)據(jù)多而繁雜,甚至部分?jǐn)?shù)據(jù)可能出現(xiàn)重復(fù)、錯(cuò)誤等,如空缺數(shù)據(jù)、噪聲數(shù)據(jù)、不一致數(shù)據(jù)。這些數(shù)據(jù)便須要將其將其清理成系統(tǒng)可以利用的數(shù)據(jù)。例如:將全局常量代替空缺數(shù)據(jù),或者用評(píng)價(jià)值代替空缺數(shù)據(jù),對(duì)含有噪聲的數(shù)據(jù)用回歸算法等[6]。

        (2)數(shù)據(jù)集成。當(dāng)一個(gè)類型的數(shù)據(jù)有多個(gè)數(shù)據(jù)源的時(shí)候,需要對(duì)信息進(jìn)行一個(gè)集合處理。以筆者為例,“我的姓名:李國(guó)海→英文名字:Liguohai→廣西民族大學(xué)學(xué)號(hào):2020211255001369”,這3個(gè)信息都是指向我的一個(gè)信息,在數(shù)據(jù)的實(shí)體識(shí)別上要屬于同一實(shí)體。此外數(shù)據(jù)格式不同的信息和數(shù)據(jù)冗余也要進(jìn)行集合處理,例如:某些信息用“kg”來(lái)表示物體的重量,而某些信息來(lái)源用“g”或者“斤”等表示物體重量,雖然寫法不同但都是重量的計(jì)量單位。

        (3)數(shù)據(jù)規(guī)約。數(shù)據(jù)挖掘的執(zhí)行是一件需要大量時(shí)間的計(jì)算過(guò)程,而某些大類型的數(shù)據(jù)更是需要時(shí)間。數(shù)據(jù)規(guī)約是在保證數(shù)據(jù)完整性的條件下,有條件地減少數(shù)據(jù)分析量,加快數(shù)據(jù)挖掘計(jì)算過(guò)程,而且對(duì)最終產(chǎn)生的結(jié)果幾乎沒(méi)有影響。

        (4)數(shù)據(jù)變換。數(shù)據(jù)變換也稱數(shù)據(jù)轉(zhuǎn)換,就是將復(fù)雜或者某些不好計(jì)量的數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的高效利用的數(shù)據(jù)。例如:用0來(lái)表示性別為男,用1表示性別為女等。

        2.2.3?數(shù)據(jù)挖掘算法設(shè)計(jì)

        數(shù)據(jù)挖掘的算法設(shè)計(jì)是數(shù)據(jù)挖掘的核心,挖掘目的、挖掘領(lǐng)域的不同,所要用的算法也不同,對(duì)不同類型的數(shù)據(jù)要采取的挖掘算法也不盡相同,越是復(fù)雜的知識(shí)對(duì)于算法的要求也越高。

        2.2.4?挖掘評(píng)估

        對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行評(píng)估,看挖掘結(jié)果是非達(dá)到預(yù)期目的,如果沒(méi)有挖掘出想要的結(jié)果,需要對(duì)挖掘算法及數(shù)據(jù)進(jìn)行重新設(shè)計(jì)處理,直到挖掘達(dá)到滿意的結(jié)果[7]。

        3?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用

        3.1?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用方法

        隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘也不僅局限于固定的數(shù)據(jù)庫(kù)系統(tǒng)里進(jìn)行挖掘,Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用。

        數(shù)據(jù)挖掘起初只是用于在固定資料上的數(shù)據(jù)挖掘,類似于人們生活中的在沒(méi)有聯(lián)網(wǎng)上的計(jì)算機(jī)系統(tǒng),尋找已經(jīng)儲(chǔ)存事實(shí)上存在的資料。而隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)變得越來(lái)越多,人們對(duì)于數(shù)據(jù)的儲(chǔ)存方式、利用方式也慢慢發(fā)生改變。在以前人們習(xí)慣將資料存儲(chǔ)在固定的硬盤里面,科技的改革和網(wǎng)絡(luò)的便攜化在網(wǎng)上儲(chǔ)存資料和尋找資料已經(jīng)成為了比較普遍的現(xiàn)象,例如,人們?nèi)粘S^看的視頻都是直接儲(chǔ)存在互聯(lián)網(wǎng)上的,不需要下載在指定的硬盤里,可以通過(guò)移動(dòng)網(wǎng)絡(luò)直接利用,對(duì)于其他資料也是如此。Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用[8]。Web挖掘是面向萬(wàn)維網(wǎng)信息挖掘知識(shí)提取的過(guò)程,互聯(lián)網(wǎng)里面包含著大量的信息,很多信息無(wú)法被用戶直接識(shí)別利用,這時(shí)便需要對(duì)信息進(jìn)行精練和提純,Web挖掘便是對(duì)信息進(jìn)行篩選的過(guò)程。

        3.2?Web挖掘在搜索引擎的子任務(wù)

        (1)資源發(fā)現(xiàn):資源發(fā)現(xiàn)是從互聯(lián)網(wǎng)中尋找資源,主要是搜索那些用戶名難以找到與利用的有用信息,這是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)模式下的信息收集過(guò)程。

        (2)信息提?。簭囊呀?jīng)尋找的資源中,進(jìn)而提取到可以被人們能夠理解利用的信息,這也是數(shù)據(jù)挖掘的核心部分。

        (3)概括:對(duì)挖掘的信息進(jìn)行系統(tǒng)化的轉(zhuǎn)述,變成人們可以理解利用的信息資源。

        總體來(lái)說(shuō),Web挖掘和數(shù)據(jù)挖掘并沒(méi)有區(qū)別,Web挖掘是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上衍生品,是將數(shù)據(jù)挖掘作用于互聯(lián)網(wǎng)上的新技術(shù),數(shù)據(jù)挖掘包含著Web挖掘[9]。

        3.3?Web數(shù)據(jù)挖掘搜索引擎中的種類

        3.3.1?Web內(nèi)容挖掘

        Web內(nèi)容挖掘是指直接挖掘網(wǎng)頁(yè)頁(yè)面內(nèi)容,以及網(wǎng)頁(yè)后臺(tái)、數(shù)據(jù)庫(kù)等各個(gè)來(lái)源的信息。Web內(nèi)容挖掘是從網(wǎng)站現(xiàn)有的數(shù)據(jù)內(nèi)容中發(fā)現(xiàn)有用的信息。Web內(nèi)容挖掘還可以挖掘各網(wǎng)站之間的結(jié)構(gòu)和鏈接關(guān)系。Web內(nèi)容挖掘有兩大分類,即Web文本挖掘和Web多媒體挖掘。Web文本挖掘是對(duì)網(wǎng)頁(yè)上的大量文本集合的內(nèi)容進(jìn)行總結(jié)、分析、篩選等。Web多媒體挖掘是指從多媒體數(shù)據(jù)挖掘相關(guān)的內(nèi)容,著寫信息包括音頻、視頻、數(shù)據(jù)和圖像等。目前,Web內(nèi)容挖掘多于Web文本挖掘,相比較Web多媒體挖掘,Web內(nèi)容挖掘更加容易,使用的也更多。在內(nèi)容挖掘上,可以利用文檔上標(biāo)題和開(kāi)頭提高挖掘的效率和準(zhǔn)確性。

        3.3.2?Web日志挖掘

        Web日志挖掘也被稱為Web使用記錄挖掘,Web日志挖掘是指通過(guò)挖掘服務(wù)器上用戶的使用記錄作為數(shù)據(jù)源,對(duì)其進(jìn)行分析作為,從中尋找到有用的信息。這些用戶的使用記錄不僅包含瀏覽地址、頁(yè)面、頁(yè)面訪問(wèn)時(shí)間和日期、用戶點(diǎn)擊、存留時(shí)間等。在進(jìn)行日志挖掘時(shí),可以通過(guò)兩種方法尋找出使用者的點(diǎn)擊、瀏覽記錄。一類是對(duì)日志文件進(jìn)行預(yù)處理,對(duì)其進(jìn)行數(shù)據(jù)挖掘;另一種是對(duì)用戶點(diǎn)擊過(guò)程進(jìn)行收集分析發(fā)現(xiàn)其行為過(guò)程。Web日志挖掘可以在大量的樣本基礎(chǔ)上,為用戶提供準(zhǔn)確的參考信息,可以使檢索的結(jié)果向大眾普遍喜好的方向靠攏,對(duì)個(gè)性化搜索引擎的方向起到里促進(jìn)的作用。根據(jù)日志挖掘的信息,調(diào)用個(gè)性化的搜索方式,可以有效地提高用戶的搜索滿意度,甚至可以根據(jù)用戶提供的搜索條件和點(diǎn)擊等為用戶提供感興趣的知識(shí)與信息等。

        3.3.3?Web結(jié)構(gòu)挖掘

        信息使用者不僅能從網(wǎng)頁(yè)上獲取的信息,也能從超鏈接獲得信息。超鏈接是有一定聯(lián)系的,通過(guò)超鏈接用戶可以更大、更廣范圍地尋找有用的信息。但是對(duì)于個(gè)人用戶而言更想找到質(zhì)量更高,更加準(zhǔn)確和權(quán)威的信息可利用Web結(jié)構(gòu)挖掘便是對(duì)網(wǎng)頁(yè)的超鏈接結(jié)構(gòu)進(jìn)行挖掘,有用的信息不僅包含在網(wǎng)站頁(yè)面的內(nèi)容中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的網(wǎng)站,可以通過(guò)結(jié)構(gòu)挖掘發(fā)現(xiàn)其中包含、引用或者從屬關(guān)系。Web結(jié)構(gòu)挖掘主要有以下兩種方法。

        4?數(shù)據(jù)挖掘在搜索引擎上的發(fā)展前景與挑戰(zhàn)

        4.1?發(fā)展前景

        如今信息溝通交流方式以及極為便捷,信息儲(chǔ)存和下載變得廉價(jià)和高效。手機(jī)電腦也由以前的奢侈品,變成人們能夠普遍購(gòu)買一般消費(fèi)品。在此基礎(chǔ)上,對(duì)于搜索引擎也有了更高的要求,即個(gè)性化搜索引擎。在信息化的現(xiàn)代,不同人的之間存在的較大的興趣偏差、文化差異等。不同的瀏覽者對(duì)信息和數(shù)據(jù)的要求存在變化,從整體到個(gè)人的角度上看,用戶對(duì)信息的需求是隨機(jī)變化的,對(duì)于同一搜索結(jié)果,人們的滿意度也是不同的。

        個(gè)性化搜索引擎是搜索引擎未來(lái)發(fā)展的重要趨勢(shì),個(gè)性化搜索引擎成立的先決條件之一就是個(gè)人用戶數(shù)據(jù)的保留。也就是說(shuō)保留個(gè)人用戶的活動(dòng)信息,這點(diǎn)現(xiàn)今已經(jīng)能夠做到,例如:通過(guò)賬號(hào)注冊(cè)成為百度用戶,就可以保留自己在搜索器上的活動(dòng)信息,通過(guò)保留用戶的活動(dòng)數(shù)據(jù),發(fā)現(xiàn)用戶對(duì)于搜索結(jié)果的偏好,提供用戶滿意的結(jié)果,這便是個(gè)性化搜索引擎。

        個(gè)性化搜索引擎的形成要求在數(shù)據(jù)挖掘過(guò)程中,必選全面地挖掘出各種偏差信息,以滿足不同用戶的差異化需求。在進(jìn)行數(shù)據(jù)挖掘的過(guò)程中,加入更多的參數(shù)變化,如瀏覽歷史、偏好、性別等,然后通過(guò)關(guān)聯(lián)、分析建立相應(yīng)的模型,實(shí)現(xiàn)針對(duì)用戶的全方位挖掘。另外,還可以根據(jù)同類用戶的相同需求進(jìn)行關(guān)聯(lián),建立相應(yīng)的關(guān)聯(lián)數(shù)據(jù)庫(kù),從而優(yōu)化數(shù)據(jù)挖掘的過(guò)程[11]。

        4.2?未來(lái)挑戰(zhàn)

        搜索引擎誕生至今已經(jīng)有著很大的進(jìn)步,從前只能用文字搜索,到現(xiàn)在已出現(xiàn)圖片搜索功能,但仍面臨著很多調(diào)整。數(shù)據(jù)挖掘更是搜索引擎的關(guān)鍵技術(shù),一個(gè)好的數(shù)據(jù)挖掘算法可以為用戶更加精準(zhǔn)地提供搜索信息。目前數(shù)據(jù)挖掘在搜索引擎上面臨的挑戰(zhàn)有以下幾點(diǎn)。

        4.2.1?數(shù)據(jù)抓取

        以前的互聯(lián)網(wǎng)只有小部分人是數(shù)據(jù)的提供者,只有一小部分人產(chǎn)生制作信息,5G技術(shù)的到來(lái)意味著信息更加泛濫,人人都能制作信息,小到寫一篇小說(shuō),大到拍一個(gè)小視頻等。這便要求數(shù)據(jù)挖掘過(guò)程中對(duì)信息收集的高效率要求,此外互聯(lián)的信息是流動(dòng)的,一個(gè)信息在一天前是熱點(diǎn),但過(guò)一段時(shí)間便會(huì)消散,要信息的權(quán)重比便因此發(fā)生了改變。因此需要時(shí)刻挖掘信息,重新排列權(quán)重比。

        4.2.2?海量數(shù)據(jù)的誕生

        硬件的更新?lián)Q代,存儲(chǔ)空間的不斷擴(kuò)大,互聯(lián)網(wǎng)上的信息只可能不斷增多。這對(duì)于信息的檢索和挖掘帶來(lái)巨大的麻煩,一些大型網(wǎng)站上面甚至有千萬(wàn)級(jí)別的頁(yè)面,檢索這些頁(yè)面變得耗時(shí)、耗力。

        5?結(jié)語(yǔ)

        搜索引擎是數(shù)據(jù)挖掘集大成者,它們都有著相同的目標(biāo)—為使用者尋找有用的信息,數(shù)據(jù)挖掘?yàn)樗阉饕娴陌l(fā)展提供了借鑒的方向,是搜索引擎的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘應(yīng)用于搜索引擎上可以為搜索引擎提供更加精準(zhǔn)無(wú)誤地反饋結(jié)果,也提高了搜索引擎搜索的廣度和深度。

        參考文獻(xiàn)

        [1] 霍雨佳.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)在智能制造中的應(yīng)用探究[J].數(shù)碼世界,2019,12(2):16-17.

        [2] 鄭亦梁.Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究[J].通訊世界,2016,8(5):11-13.

        [3] 苗雷.Web數(shù)據(jù)挖掘技術(shù)在信息管理中的應(yīng)用[J].黑龍江科學(xué),2021,15(9):32-33.

        [4] 程斐斐,王子牛,侯立鐸.決策樹算法在Weka平臺(tái)上的數(shù)據(jù)挖掘應(yīng)用[J].微型電腦應(yīng)用,2015,6(6):22-24.

        [5] 郭偉偉,吳文臣,隋亮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2020,10(8):38-40.

        [6] 王彬彬.“互聯(lián)網(wǎng)+”時(shí)代下數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].北京印刷學(xué)院學(xué)報(bào),2021,12(4):41-42.

        [7] 劉武萍.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].無(wú)線互聯(lián)科技,2022,10(1):3-4.

        [8] 王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].計(jì)算機(jī)與網(wǎng)絡(luò),2021,14(20):15-16.

        [9] 王春明.在軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用探索[J].科技資訊,2021,12(19):42-44.

        [10] 董倩玉.基于傳播學(xué)視角研究搜索引擎的發(fā)展[D].北京:北京外國(guó)語(yǔ)大學(xué),2021(6):32-33.

        [11] 孫雨生,李沁蕓,劉陽(yáng),等.國(guó)內(nèi)可視化搜索引擎研究進(jìn)展:領(lǐng)域應(yīng)用與系統(tǒng)實(shí)現(xiàn)[J].圖書館理論與實(shí)踐,2018(3):14-15.

        猜你喜歡
        搜索引擎數(shù)據(jù)挖掘互聯(lián)網(wǎng)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
        今傳媒(2016年9期)2016-10-15 22:06:04
        互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
        考試周刊(2016年79期)2016-10-13 23:23:28
        以高品質(zhì)對(duì)農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        廣告主與搜索引擎的雙向博弈分析
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        av网站大全免费在线观看| 国产中文aⅴ在线| 亚洲AV无码AV色| 久久综合激情的五月天| 亚洲女同人妻在线播放| 国产av综合网站不卡| 玩50岁四川熟女大白屁股直播| 成人免费一区二区三区| 综合网五月| 国产一级自拍av播放| 亚洲综合视频一区二区| 国产七十六+老熟妇| 蜜桃精品免费久久久久影院| 激情亚洲的在线观看| 91九色极品探花内射| 性生交片免费无码看人| 国产98在线 | 日韩| 亚洲AV无码成人品爱| 淫秽在线中国国产视频| 性欧美丰满熟妇xxxx性久久久| 免费视频爱爱太爽了| 日韩www视频| 一区二区三区不卡在线| 国产一区二区美女主播| 人妻熟妇乱又伦精品视频| 色偷偷久久一区二区三区| 中日韩欧美高清在线播放| 亚洲日本高清一区二区| 欧美成人aaa片一区国产精品| 在线免费毛片| 熟女系列丰满熟妇av| 国产精品中文字幕日韩精品| 狠狠摸狠狠澡| 亚洲国产高清在线观看视频| 亚洲国产日韩精品综合| 国产高清在线视频一区二区三区| 亚洲人成未满十八禁网站| 国产日韩精品一区二区在线观看播放| 一区二区三区亚洲免费| 欧美激情一区二区三区| 欧美一欧美一区二三区性|