劉思皖
摘 要:隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,構(gòu)建智能化搜索引擎是滿足現(xiàn)代網(wǎng)絡(luò)應(yīng)用的重要舉措。傳統(tǒng)的搜索引擎所提供的信息比較多,不利于精準(zhǔn)服務(wù),因此文章提出一種將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎體系中,以此實現(xiàn)搜索引擎智能化,為用戶提供最精準(zhǔn)的信息搜索模型。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);智能;搜索引擎
中圖分類號:TP391.3 文獻標(biāo)志碼:A 文章編號:2095-2945(2018)36-0039-02
Abstract: With the continuous development of big data technology, the construction of intelligent search engine is an important measure to meet the needs of modern network applications. Traditional search engines provide more information, which is not conducive to accurate services, so this paper proposes a data mining technology applied to the search engine system, in order to achieve intelligent search engines and provide users with the most accurate information search model.
Keywords: data mining technology; intelligence; search engine
引言
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,尤其是大數(shù)據(jù)技術(shù)在社會各領(lǐng)域的應(yīng)用,網(wǎng)絡(luò)已經(jīng)成為人們獲悉信息的主要渠道。傳統(tǒng)的搜索引擎功能需要從大量的信息數(shù)據(jù)庫中獲得需要的信息,這樣一來容易出現(xiàn)搜索的信息數(shù)量比較大,有用信息較少的現(xiàn)象。而且依賴于傳統(tǒng)檢索技術(shù)查詢的信息顯示比較混亂,有效性比較差,影響用戶的使用,因此本文利用數(shù)據(jù)挖掘技術(shù)的優(yōu)勢,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎中,以此改善檢索結(jié)果的組織,提高檢索的準(zhǔn)確性與有效性,增強用戶的滿意度。
1 數(shù)據(jù)挖掘技術(shù)與搜索引擎的概述
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘用戶感興趣的或者存在潛在價值的知識。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)成為當(dāng)前互聯(lián)網(wǎng)領(lǐng)域研究的熱點課題。一般數(shù)據(jù)挖掘模式主要包括:(1)廣義知識;(2)關(guān)聯(lián)知識,就是反映了數(shù)據(jù)庫中一個屬性和其它屬性之間的存在關(guān)系;(3)分類知識;
(4)偏差型知識等等。數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)分析的有力工具,其主要需要滿足以下功能,例如可以準(zhǔn)確的表達出不同數(shù)據(jù)的關(guān)聯(lián)性,能夠從多抽象層交互挖掘知識等等。
搜索引擎就是在眾多的網(wǎng)絡(luò)信息中搜索對自己有用的信息,以此滿足需要。搜索引擎由四個部分組成:搜索器、索引器、檢索器以及用戶接口。搜索引擎已經(jīng)成為用戶瀏覽網(wǎng)絡(luò)所必須的服務(wù)工具。其工作原理就是當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜索,以便快速的找到與用戶需求相匹配的網(wǎng)站,并且采取特殊的算法按照一定的排序順序等將其反饋給用戶。實現(xiàn)搜索引擎需要完成以下三個步驟:在網(wǎng)絡(luò)中發(fā)現(xiàn)并且搜集網(wǎng)頁信息;對信息進行提取并且組織建立索引數(shù)據(jù)庫;在利用檢索器對數(shù)據(jù)進行查詢,并且計算相關(guān)度,將輸出的結(jié)果反饋給用戶。
2 數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用
隨著用戶需求的精確性要求,實現(xiàn)個性化、智能化搜索引擎是大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展的主要趨勢。傳統(tǒng)的搜索引擎在精確性、個性化服務(wù)上存在缺陷。因此本文利用數(shù)據(jù)挖掘技術(shù)的特性設(shè)計一款基于數(shù)據(jù)挖掘的個性化信息檢索系統(tǒng)(PIRSBDM),重點是為用戶提供精確化、個性化的信息查詢結(jié)果。在該系統(tǒng)中主要應(yīng)用數(shù)據(jù)挖掘中的類別規(guī)則挖掘、基于關(guān)鍵詞向量的文檔分類挖掘以及基于SOM文檔聚類挖掘方法以此滿足個性化信息需求。具體的步驟為:首先通過對用戶的個人信息的觀察后,對用戶的興趣進行提取、描述等建立“用戶個性化信息庫”,對用戶的訪問日志采取關(guān)聯(lián)規(guī)則的挖掘方法,同時不斷地更新用戶數(shù)據(jù)庫。用戶經(jīng)過反饋將感興趣的文檔進行聚類挖掘,以此更新用戶個性特征向量表。
2.1 PIRSBDM系統(tǒng)體系結(jié)構(gòu)
基于數(shù)據(jù)挖掘技術(shù)的智能搜索引擎系統(tǒng)的結(jié)構(gòu)運行流程為:首先用戶根據(jù)自己的信息需求提交查詢請求,中介數(shù)據(jù)庫對用戶查詢主題進行模式化、以此產(chǎn)生精準(zhǔn)化的檢索模式,結(jié)合用戶個人的特征向量表、關(guān)鍵詞表等給用戶提供最佳的搜索引擎模塊;其次對于提供的最佳搜索引擎模塊信息會提交“信息檢索中心”,當(dāng)然檢索中心所提供的信息可能會存在不符合用戶興趣的內(nèi)容,因此結(jié)合用戶的個性興趣等,例如數(shù)據(jù)挖掘技術(shù)中的分類挖掘等技術(shù)將重復(fù)的信息或者對用戶不感興趣的信息過濾掉,以此得到個性化的信息。
(1)用戶。為了幫助用戶準(zhǔn)確的查詢到自己感興趣的信息,設(shè)計用戶輸入模塊,其主要包括:模板、詞典、關(guān)鍵詞以及同義詞。用戶模塊是智能搜索引擎構(gòu)建的基礎(chǔ),也是智能搜索引擎設(shè)計的關(guān)鍵。
(2)最優(yōu)檢索式最優(yōu)搜索引擎模塊。該模塊主要接收經(jīng)過中介索引庫轉(zhuǎn)化的用戶請求,將其變?yōu)槟軌虮凰阉饕孀R別的格式,結(jié)合用戶關(guān)鍵詞表,如果用戶搜索的關(guān)鍵詞在該數(shù)據(jù)庫中說明用戶查詢過,對此系統(tǒng)就會直接為用戶提供相應(yīng)的查詢結(jié)果。但是如果該關(guān)鍵詞在數(shù)據(jù)中沒有,則表明用戶沒有查詢過,對此系統(tǒng)就會對該關(guān)鍵詞進行歸類,如果在“關(guān)鍵詞表”中存在該類別,則只需要將該關(guān)鍵詞作為已有的屬性值,如果沒有則需要添加,以此更新“關(guān)鍵詞表”。本模塊主要完成的功能是,接收用戶的轉(zhuǎn)換后的“查詢請求”,結(jié)合“用戶個性化信息庫”和“搜索引擎信息庫”選擇最優(yōu)搜索引擎進行搜索,同時可以不斷的更新“用戶查詢關(guān)鍵詞表”。
(3)聚類挖掘模塊。該模塊的主要功能就是更新“用戶信息庫”中的用戶特征向量表。實現(xiàn)個性化搜索引擎的關(guān)鍵就是根據(jù)用戶的特征為其提供相應(yīng)的信息,例如該模塊所具備的跟蹤用戶學(xué)習(xí)、記憶用戶興趣可以增強搜索引擎的效率。實現(xiàn)該模塊的方法主要是用戶將自己感興趣的信息按照特定的格式提交系統(tǒng)或者用戶興趣學(xué)習(xí)。
(4)關(guān)聯(lián)規(guī)則挖掘模塊。該模塊出于用戶與用戶數(shù)據(jù)庫之間,其作用主要是通過對用戶日志的挖掘,尋求用戶各個檢索關(guān)鍵詞之間的關(guān)聯(lián)規(guī)則,以此發(fā)現(xiàn)用戶潛在的興趣,并且更新用戶關(guān)鍵詞表信息。挖掘的對象是以關(guān)鍵詞作為列的內(nèi)容,而以每次的檢索事務(wù)中所查詢的關(guān)鍵詞組合成一行,通過對日志的挖掘形成的“用戶查詢關(guān)鍵詞表”,挖掘出的用戶的個性化信息。
(5)搜索引擎信息庫。信息庫是支撐搜索引擎的基礎(chǔ),搜索引擎信息庫能夠及時根據(jù)用戶檢索需求而提供相應(yīng)的數(shù)據(jù)。搜索引擎信息庫的構(gòu)建應(yīng)該具備網(wǎng)站、中文名字等等信息。
2.2 PIRSBDM系統(tǒng)關(guān)鍵技術(shù)
構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的智能搜索引擎需要重點利用以下關(guān)鍵技術(shù):
(1)關(guān)聯(lián)規(guī)則挖掘
該技術(shù)是數(shù)據(jù)挖掘技術(shù)的重要組成部分,它可以發(fā)現(xiàn)數(shù)據(jù)庫中項或?qū)傩蚤g的有趣關(guān)系。由于這些關(guān)系具有隱蔽性或者預(yù)先未知,因此難以依靠數(shù)據(jù)庫邏輯實現(xiàn),必須要通過關(guān)聯(lián)規(guī)則挖掘技術(shù)進行實現(xiàn)。關(guān)聯(lián)規(guī)則挖掘的過程分成兩個步驟。第一步發(fā)現(xiàn)所有的頻繁項目集,即支持度大于給定最小支持度閾值的項集;第二步根據(jù)所獲得的頻繁項目集產(chǎn)生關(guān)聯(lián)規(guī)則,根據(jù)定義,這些規(guī)則必須滿足最小置信度閾值。對于關(guān)聯(lián)規(guī)則的算法主要采取的是Apriori算法。首先找出頻繁1-項集,記為L1;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環(huán)下去直到無法發(fā)現(xiàn)更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數(shù)據(jù)庫一遍。
(2)基于關(guān)鍵詞向量的文檔分類挖掘
文檔分類是實現(xiàn)智能搜索引擎的關(guān)鍵,文檔顧名思義就是用來描述一定規(guī)則的文檔,文檔歸類就是將大量的文檔按照一個主題進行歸類的過程。因此文檔的分類直接關(guān)系到搜索引擎體系的構(gòu)建。文檔分類就是根據(jù)數(shù)據(jù)庫信息種類屬性進行特征歸類,以此準(zhǔn)確的為用戶提供信息檢索服務(wù)。當(dāng)然在文檔歸類挖掘前必須要對文檔相識度進行計算以及保證文檔歸類的合理性。例如文檔相識度越接近,這樣就可以更好的對屬性相同的文檔進行統(tǒng)一歸類,便于提高檢索速度,提升用戶的滿意度。
(3)基于SOM的Web文檔層次聚類方法
聚類是一種無監(jiān)督分類法,在聚類之前沒有預(yù)先指定的類別。SOM網(wǎng)絡(luò)的優(yōu)點在于:可以實現(xiàn)實時學(xué)習(xí),網(wǎng)絡(luò)具有自穩(wěn)定性,無須外界給出評價函數(shù),能夠識別向量空間中最有意義的特征,抗噪音能力強。Web文檔的聚類:首先訓(xùn)練SOM網(wǎng)絡(luò)。構(gòu)造SOM聚類神經(jīng)網(wǎng)絡(luò):以訓(xùn)練樣本的N個(N=182)特征詞作為SOM網(wǎng)絡(luò)的輸入神經(jīng)元,人為限定M個(M=10)文檔類別作為SOM網(wǎng)絡(luò)的輸出神經(jīng)元,構(gòu)成一個二層的Web文檔自組織聚類訓(xùn)練SOM網(wǎng)絡(luò)。提取文檔特征詞,構(gòu)造輸入向量序列Xk。將輸入向量逐一輸入SOM網(wǎng)絡(luò),進行學(xué)習(xí)訓(xùn)練;其次聚類用戶感興趣的文檔。聚類用戶感興趣文檔的處置流程為:中文文檔經(jīng)過預(yù)處理提取主題詞,然后生成輸入模式向量、文檔自組織映射。預(yù)處理模塊的主要作用就是為了利用SOM方法對文檔進行有效地編碼,例如在預(yù)處理模塊需要對文檔中的圖形、非文字等信息進行處理,以此保證可以準(zhǔn)確的提取到關(guān)鍵詞,最終輸入到訓(xùn)練好的SOM網(wǎng)絡(luò)中進行層次聚類。對于輸入向量,則是通過SOM網(wǎng)絡(luò)所進行點積運算,以此獲得相應(yīng)的輸出獲勝結(jié)點,該結(jié)點也就是聚類中心。相應(yīng)的聚類中心所構(gòu)成的文檔會形成同一類別的文檔。如果某文檔所包含的文檔越多,說明用戶對該方面的信息需求比較多。在實際的系統(tǒng)應(yīng)用設(shè)計中需要注意以下兩個問題:一是由于SOM屬于多層次系統(tǒng),因此可以采取多層聚類,這樣可以減少系統(tǒng)的計算工作任務(wù),以此更好的提高運行效率;二是要對用戶的文檔進行定時機制設(shè)計,例如可以設(shè)計夜里執(zhí)行層次聚類的模式,這樣可以增強信息儲存量。
3 結(jié)束語
總之基于大數(shù)據(jù)技術(shù)的發(fā)展,用戶對搜索引擎性能的要求越來越高,如何為用戶提供個性化的信息檢索是當(dāng)前搜索引擎發(fā)展的主要趨勢。數(shù)據(jù)挖掘技術(shù)依托自身存在的優(yōu)勢應(yīng)用到搜索引擎體系建設(shè)中,不僅實現(xiàn)了精確化信息檢索服務(wù),而且還為用戶構(gòu)建了個性化的服務(wù)模式,大大提高了信息檢索的速度,提高了用戶的滿意度。
參考文獻:
[1]李娟.數(shù)據(jù)挖掘技術(shù)在智能搜索引擎中的應(yīng)用[D].長春理工大學(xué),2010.
[2]楊子墨.智能技術(shù)在搜索引擎中的應(yīng)用[J].科技與創(chuàng)新,2017(03).
[3]趙丁.數(shù)據(jù)挖掘技術(shù)在船舶邊檢管理信息系統(tǒng)中的應(yīng)用[D].河北科技大學(xué),2017.
[4]Jason Bell,等.ASP.NET程序員參考手冊[M].清華大學(xué)出版社,2002.
[5]韓家煒,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.