馮 雷 魏巍巍
北京信息職業(yè)技術(shù)學(xué)院 100018
數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的運用
馮 雷 魏巍巍
北京信息職業(yè)技術(shù)學(xué)院 100018
網(wǎng)絡(luò)信息檢索對于幫助人們迅速獲取有效信息,提升知識儲備具有非常重要的意義。數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用將能夠有效提升檢索效率。這項技術(shù)的應(yīng)用將能夠使得網(wǎng)絡(luò)信息檢索變得更加精準(zhǔn)、更加個性化和智能化。本文將重點探討數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的運用情況。
數(shù)據(jù)挖掘;網(wǎng)絡(luò)信息;結(jié)構(gòu)挖掘
在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下,人們看到的信息也是海量增長。在海量信息海洋中如何快速有效獲取自身有用信息是人們高效率工作的關(guān)鍵。為了能夠達(dá)到這一目的就需要提升網(wǎng)絡(luò)信息檢索水平,通過利用數(shù)據(jù)挖掘技術(shù)從而達(dá)到快速獲取有用信息的目的。
所謂數(shù)據(jù)挖掘?qū)嶋H上就是要從大量數(shù)據(jù)中利用專門算法來搜索隱藏其中的特定信息的過程。在互聯(lián)網(wǎng)時代數(shù)據(jù)挖掘技術(shù)在實際工作中所發(fā)揮的影響越來越大,加強(qiáng)對這門技術(shù)的研究已經(jīng)成為當(dāng)務(wù)之急。通過數(shù)據(jù)挖掘就是要把那些沒有加工的數(shù)據(jù)轉(zhuǎn)變成有用信息。在網(wǎng)絡(luò)信息檢索過程中利用數(shù)據(jù)挖掘技術(shù)間將能夠進(jìn)一步增強(qiáng)信息檢索能力。不僅如此還能夠?qū)崿F(xiàn)對數(shù)據(jù)未來走勢的科學(xué)預(yù)測。應(yīng)該看到數(shù)據(jù)挖掘是一種比信息檢索層次更高的技術(shù)。信息時代數(shù)據(jù)挖掘技術(shù)所發(fā)揮的影響將會越來越大。
當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠郑曰ヂ?lián)網(wǎng)依靠,各種信息實現(xiàn)了快速傳播。網(wǎng)絡(luò)信息資源變得異常豐富,在互聯(lián)網(wǎng)上人們將能夠獲取各種信息。當(dāng)前的網(wǎng)絡(luò)信息已經(jīng)成為知識和信息的集合,已經(jīng)成為當(dāng)前一種非常寶貴的財富。同傳統(tǒng)信息相比,網(wǎng)絡(luò)信息有其自身特點,深入分析就會發(fā)現(xiàn)其具有以下特點:
(一)數(shù)量龐大、種類繁多以及傳播范圍廣?;ヂ?lián)網(wǎng)上的信息是非常龐大的,從種類上來看也能夠分為多種類別。圖文、文本、數(shù)據(jù)、視頻、圖像以及音頻是典型的信息傳播載體。從信息內(nèi)容上來看不僅有健康信息,同時也是有虛假和有害信息的。有害和虛假信息將會對人們產(chǎn)生很大危害。因此就需要采取措施來對這些信息進(jìn)行有效甄別。網(wǎng)絡(luò)信息分類的一個很重要的功能就是要防止這些信息流傳。
(二)管理困難。從當(dāng)前實際情況來看網(wǎng)絡(luò)信息資源更新快、傳播范圍廣、影響更大。再這樣的背景下要想實現(xiàn)對網(wǎng)絡(luò)信息的有效管理就顯得非常難。網(wǎng)絡(luò)信息本身是自由發(fā)布的,從信息來源上來看也是非常廣泛的,信息源的差異性就會對信息質(zhì)量產(chǎn)生直接影響,信息質(zhì)量難以得到保證是網(wǎng)絡(luò)信息的典型特征。對此在今后工作中必須要引起認(rèn)識。
(三)管理機(jī)制多樣。從當(dāng)前對網(wǎng)絡(luò)信息的管理來看,目前還沒有統(tǒng)一的管理機(jī)制,因此這就會使得網(wǎng)絡(luò)信息安全會缺乏一定保障。不少大型網(wǎng)絡(luò)公司雖然設(shè)計了一些管理制度,但是從實際情況來看仍然存在著管理機(jī)制多樣化的問題。這樣在實際管理過程中就會變得困難。
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用已經(jīng)成為今后發(fā)展的必然趨勢,在實際應(yīng)用過程中所發(fā)揮的影響將會變得越來越大。對于其具體應(yīng)用情況,本文認(rèn)為主要是表現(xiàn)在以下幾個方面:
(一)結(jié)構(gòu)挖掘。結(jié)構(gòu)挖掘是數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的典型應(yīng)用,結(jié)構(gòu)挖掘?qū)嶋H上就是要挖掘Web潛在鏈結(jié)構(gòu)模式,之后通過Web組織結(jié)構(gòu)和鏈接關(guān)系將能夠提供豐富的信息,這些信息大多是關(guān)于Web內(nèi)容相關(guān)質(zhì)量、結(jié)構(gòu)方面的信息。通過結(jié)構(gòu)挖掘?qū)⒛軌虬l(fā)揮非常重要的作用。
結(jié)構(gòu)挖掘本身可以分為網(wǎng)絡(luò)引用挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘這兩種形式。引用挖掘?qū)嶋H上就是要對各個Web站點之間的鏈接關(guān)系來進(jìn)行分析,通過對這一關(guān)系的分析將能夠使得人們了解哪些網(wǎng)頁被連接次數(shù)最多,這樣就能夠分析出哪些網(wǎng)頁是比較重要的。結(jié)構(gòu)挖掘?qū)嶋H上就是要對網(wǎng)站結(jié)構(gòu)進(jìn)行科學(xué)分析。
(二)內(nèi)容挖掘。所謂內(nèi)容挖掘?qū)嶋H上就是要從網(wǎng)絡(luò)內(nèi)容、數(shù)據(jù)、文檔中來發(fā)現(xiàn)有用信息。從實際情況來看Web資源分布范圍是非常廣泛且類型多樣的。在實際工作中為了能夠準(zhǔn)確獲取信息就需要網(wǎng)絡(luò)頁面內(nèi)容挖掘和搜索結(jié)果再挖掘。對于頁面內(nèi)容通常是要采用文本挖掘的方式,利用文本挖掘來直接挖掘Web文檔內(nèi)容或者關(guān)鍵信息,之后還要通過間接形式來對文檔內(nèi)容進(jìn)行摘要或者解釋。對于搜索結(jié)果的挖掘?qū)嶋H上就是要利用其他信息檢索工具來對檢索結(jié)果進(jìn)行再次挖掘。有些系統(tǒng)就是通過對搜索引擎查詢結(jié)果的分析從而來提煉出更加合適的結(jié)果。URL、內(nèi)容類型、超文本鏈接等都是可以進(jìn)行專門提煉的。在提煉之后則是要對其分類并且文檔可視化從而顯示出來。
(三)使用挖掘。通過網(wǎng)絡(luò)信息用法挖掘,可以充分的了解用戶的網(wǎng)絡(luò)數(shù)據(jù)實際意義。網(wǎng)絡(luò)信息內(nèi)容挖掘和網(wǎng)絡(luò)信息結(jié)構(gòu)挖掘主要是針對原始數(shù)據(jù)的,而網(wǎng)絡(luò)信息用法挖掘主要是針對用戶和網(wǎng)絡(luò)交互的過程中產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)類型包括很多:用戶對網(wǎng)絡(luò)服務(wù)器的訪問記錄、瀏覽器日志記錄、用戶的個人信息、用戶額交易信息等等。運用網(wǎng)絡(luò)信息用法挖掘技術(shù)能夠有效的從服務(wù)器以及瀏覽器端的日志記錄中發(fā)現(xiàn)隱藏在網(wǎng)絡(luò)數(shù)據(jù)中的一些無法通過索引獲取的模式信息,還可以了解用戶對網(wǎng)絡(luò)系統(tǒng)的訪問模式以及在網(wǎng)絡(luò)上所進(jìn)行的行為模式,從而對其作出預(yù)測性分析。
數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用是時代發(fā)展的必然趨勢,在今后工作中為了能夠滿足實際需要就應(yīng)該加強(qiáng)對數(shù)據(jù)挖掘技術(shù)的研究,通過對此研究從而來了解今后發(fā)展趨勢。
[1]李村合.網(wǎng)絡(luò)信息挖掘技術(shù)及其應(yīng)用研究[J].情報科學(xué),2008.
[2]葉云,萬明明.網(wǎng)絡(luò)信息挖掘技術(shù)探討[J].廣西大學(xué)學(xué)報,2007.
[3]黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社,2005.1.
馮雷(1978-),女,北京人,北京信息職業(yè)技術(shù)學(xué)院軟件與信息工程學(xué)院,教師,工程碩士,從事計算機(jī)信息管理專業(yè),市場調(diào)查等方向研究。
魏巍巍(1980-),女,北京人,北京信息職業(yè)技術(shù)學(xué)院軟件與信息工程學(xué)院,教師,工程碩士,從事計算機(jī)信息管理專業(yè),空間信息技術(shù)等方向研究。