【摘 要】隨著網(wǎng)絡(luò)使用者的數(shù)量與日俱增,使得網(wǎng)絡(luò)在使用過程中受到的限制和數(shù)據(jù)傳輸遲緩性加劇,網(wǎng)絡(luò)服務(wù)質(zhì)量受到了很大的影響,針對(duì)這種情況就需要對(duì)技術(shù)進(jìn)行不斷研發(fā),數(shù)據(jù)挖掘技術(shù)在未來將會(huì)占有廣闊的市場(chǎng)。數(shù)據(jù)挖掘技術(shù)主要對(duì)不同的用戶進(jìn)行分析和歸類,對(duì)Web中的數(shù)據(jù)進(jìn)行預(yù)讀,提高網(wǎng)絡(luò)使用速度。本文主要介紹了數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的使用規(guī)則和使用方法。
【關(guān)鍵詞】數(shù)據(jù)挖掘 Web預(yù)取 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,越來越多的行業(yè)和領(lǐng)域開始利用網(wǎng)絡(luò)這一平臺(tái)來進(jìn)行自我發(fā)展?;ヂ?lián)網(wǎng)的使用使得人們的生活方式更加趨于多樣性。其中WWW以其自身的傳輸方式和較好的交互性能使得其獲得了廣泛的應(yīng)用。雖然在近些年的發(fā)展中,網(wǎng)絡(luò)速度大大提高,但由于使用人數(shù)眾多,為網(wǎng)絡(luò)質(zhì)量帶來了較大的影響。WWW采用請(qǐng)求和數(shù)據(jù)服務(wù)的方式運(yùn)行,但由于其中存在的協(xié)議沒有固定的狀態(tài),使得網(wǎng)絡(luò)服務(wù)器不能夠?yàn)橛脩籼峁┯行У姆?wù)。在現(xiàn)有的瀏覽器中使用緩沖機(jī)制,控制用戶發(fā)送的請(qǐng)求頻率,減少遠(yuǎn)程服務(wù)器的發(fā)送頻率。利用Web預(yù)取技術(shù)能夠根據(jù)用戶發(fā)出的訪問請(qǐng)求進(jìn)行未來請(qǐng)求的預(yù)測(cè),在用戶進(jìn)行網(wǎng)頁瀏覽時(shí)對(duì)預(yù)測(cè)的內(nèi)容進(jìn)行保存,這樣就有力的減少了訪問過程中產(chǎn)生的緩沖和延遲。預(yù)取技術(shù)的使用有效地縮短了用戶的數(shù)據(jù)獲得時(shí)間。
一、以Agent技術(shù)為基礎(chǔ)的智能數(shù)據(jù)挖掘系統(tǒng)
在現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)中,存在各種不同的數(shù)據(jù)挖掘方式,這些系統(tǒng)有著各自不同的特點(diǎn),但由于其智能性尚不夠完善,因此在使用過程中受到了一定的影響。在Agent技術(shù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,是將Agent本身使用到數(shù)據(jù)挖掘過程中,能夠?qū)⑵浔旧砭哂械奶攸c(diǎn)使用到數(shù)據(jù)挖掘過程中,賦予了數(shù)據(jù)挖掘系統(tǒng)自治性、自動(dòng)反應(yīng)性以及對(duì)于環(huán)境的適應(yīng)特點(diǎn),在整體的結(jié)構(gòu)中包括:數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、決策,最后是人機(jī)界面,供操作者進(jìn)行使用。在進(jìn)行數(shù)據(jù)與處理的過程中Agent主要對(duì)執(zhí)行的任務(wù)進(jìn)行確定,根據(jù)數(shù)據(jù)建立起相應(yīng)的模型,對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析和數(shù)據(jù)的處理以及數(shù)據(jù)的變換。在對(duì)數(shù)據(jù)進(jìn)行處理的過程中主要包括:對(duì)其中的不安全數(shù)據(jù)進(jìn)行有效消除、對(duì)于缺少的數(shù)據(jù)進(jìn)行推導(dǎo),同時(shí)對(duì)系統(tǒng)中存在的重復(fù)性的記錄進(jìn)行有效消除。在數(shù)據(jù)產(chǎn)生變化的過程中通常包括按照數(shù)據(jù)特征進(jìn)行選擇的過程以及將現(xiàn)有的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換的過程。
數(shù)據(jù)挖掘功能主要對(duì)完成的數(shù)據(jù)模式進(jìn)行識(shí)別,對(duì)于新的模式或新的規(guī)則進(jìn)行確定。Agent功能主要是對(duì)數(shù)據(jù)挖掘出的結(jié)果作出相應(yīng)的解釋,同時(shí)和人機(jī)界面、數(shù)據(jù)挖掘以及數(shù)據(jù)的預(yù)處理進(jìn)行進(jìn)一步的協(xié)調(diào),對(duì)于存在的冗余數(shù)據(jù)要進(jìn)行刪除或重新運(yùn)行,例如對(duì)數(shù)據(jù)進(jìn)行重新選擇、使用新的數(shù)據(jù)轉(zhuǎn)換方式、重新設(shè)定參數(shù)等。在人機(jī)界面中Agent主要是采用人工挖掘數(shù)據(jù)的方式,對(duì)其過程進(jìn)行有效調(diào)節(jié),并實(shí)現(xiàn)過程的提速,人機(jī)之間實(shí)現(xiàn)良好的交互。在發(fā)現(xiàn)新的數(shù)據(jù)時(shí)通知用戶,這種功能需要具有較強(qiáng)的語法和語義功能。在Agent基礎(chǔ)上進(jìn)行的數(shù)據(jù)挖掘能夠?qū)π畔⑦M(jìn)行收集和預(yù)處理,并對(duì)查詢到的知識(shí)進(jìn)行自動(dòng)提取和深度挖掘,使得整個(gè)系統(tǒng)更具有知識(shí)性和技能性。
二、以Agent為基礎(chǔ)的Web預(yù)取系統(tǒng)
在Web系統(tǒng)中使用Agent智能數(shù)據(jù)挖掘系統(tǒng)能夠建立起響應(yīng)的Web預(yù)取系統(tǒng),在整體結(jié)構(gòu)中包括本地Cache、數(shù)據(jù)預(yù)處理Agent、瀏覽器、挖掘Agent、人機(jī)交互界面、知識(shí)庫、決策Agent。
在Web預(yù)取系統(tǒng)中又分為數(shù)據(jù)預(yù)處理功能,其主要是對(duì)WWW數(shù)據(jù)模型中產(chǎn)生的數(shù)據(jù)進(jìn)行處理,對(duì)其中相關(guān)的詞干進(jìn)行抽取,并對(duì)使用到的詞條按照性質(zhì)進(jìn)行分類。數(shù)據(jù)挖掘模塊主要是講搜索相關(guān)的知識(shí)庫進(jìn)行定期的更新,為了提高系統(tǒng)在使用中產(chǎn)生的效率和靈活程度,用戶能夠?qū)ζ溥M(jìn)行更新時(shí)間設(shè)定。決策模塊主要是對(duì)用戶的行為進(jìn)行實(shí)時(shí)監(jiān)測(cè),其能夠從瀏覽器中獲取用戶需要的頁面,根據(jù)用戶產(chǎn)生的行為對(duì)其將要使用的頁面進(jìn)行預(yù)測(cè),同時(shí)將Web頁面存放到本地的高速緩存之中。決策模塊主要是根據(jù)相關(guān)的知識(shí)庫對(duì)使用的增量算法進(jìn)行有效調(diào)整,并能夠?qū)?shù)據(jù)挖掘時(shí)間進(jìn)行靈活調(diào)動(dòng),不僅提高了系統(tǒng)的整體運(yùn)行效率,同時(shí)也實(shí)現(xiàn)了相關(guān)知識(shí)庫信息和用戶行為有效地做到了同步進(jìn)行。
三、瀏覽器模型改進(jìn)和機(jī)器學(xué)習(xí)
在Web預(yù)取的過程中使用數(shù)據(jù)挖掘的算法,要實(shí)現(xiàn)對(duì)于瀏覽器的使用就需要在原有的系統(tǒng)使用基礎(chǔ)上加以改進(jìn),例如:可以采用為用戶提供操作歷史記錄和訪問歷史數(shù)據(jù)保存的方式。在用戶進(jìn)行頁面瀏覽的過程中,利用預(yù)測(cè)模型對(duì)用戶將要訪問到的數(shù)據(jù)進(jìn)行保存,并將網(wǎng)頁中的內(nèi)容保存到客戶端中,之后,如果用戶對(duì)相連接的頁面進(jìn)行訪問,就能夠直接從本地緩存中獲取數(shù)據(jù),提高了服務(wù)器的使用效率。
數(shù)據(jù)挖掘技術(shù)的產(chǎn)生主要是由于機(jī)器的不斷改進(jìn)和學(xué)習(xí)的不斷深入。在進(jìn)行網(wǎng)絡(luò)的使用過程中由于人和人之間存在著差異,以及在進(jìn)行網(wǎng)頁瀏覽的過程中存在著一定的隨意性,因此就影響到了管聯(lián)規(guī)則在計(jì)算的過程中失準(zhǔn),使得緩存不能夠使用,寬帶不能夠發(fā)揮正常的作用。針對(duì)這種情況,就要不斷地調(diào)整預(yù)測(cè)模型,從而保證預(yù)測(cè)的準(zhǔn)確性。只有保證了其精準(zhǔn)性,才能夠使上網(wǎng)速度大大提高。
四、結(jié)束語
本文主要針對(duì)數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)模型中使用的數(shù)據(jù)進(jìn)行挖掘,從而獲得和用戶興趣相關(guān)聯(lián)的規(guī)則,并在此基礎(chǔ)上對(duì)用戶的下一步行為進(jìn)行預(yù)測(cè),將用戶接下來可能會(huì)使用到的網(wǎng)頁保存在本地文件夾中,保證之后的數(shù)據(jù)提取速度,從而提高瀏覽器的使用速度。將Web預(yù)取和數(shù)據(jù)挖掘以及Agent技術(shù)相結(jié)合,能夠有效保證網(wǎng)頁的使用質(zhì)量,在未來的市場(chǎng)中將獲得更大的發(fā)展前景。
參考文獻(xiàn):
[1]張衛(wèi)豐,徐寶文.Web 搜索引擎框架研究[J].計(jì)算機(jī)研究與發(fā)展,2010(37).
[2]鄒濤,等.WWW上的信息挖掘技術(shù)及實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2009(8).