蒲道北
【摘要】? ? 從海量、復雜的Web數據中獲取有價值的信息一直以來都是互聯(lián)網研究的熱點,本文在基于Web數據挖掘的研究中,優(yōu)化出一種新的面向Web的數據挖掘模型,該模型利用Robot程序采集到的Web數據與特征信息進行匹配規(guī)范,然后在數據層中進行容差處理,調整差值數據,最終通過模式分析得到有用信息。實驗結果表明,利用提出的模型對Web數據的挖掘結果質量上有了明顯的改善和提升。
【關鍵詞】? ? Web數據? ? 數據挖掘? ? 模型? ? 數據智能
引言:
Web有著分布廣泛的、全球性的信息,成為人們獲取信息的主要渠道。然而如何在Web上搜索找到適合它使用者興趣的信息呢?目前,人們主要通過3中主要方式查找:1.使用基于關鍵字或主路徑瀏覽的搜索引擎,如百度或Google,它們通過使用關鍵字索引或人工建立路徑來查找文檔;2.查詢深度Web資源。如amazon.com的書籍數據和realtor.com的固定資產數據;3.隨機訪問,通過網頁鏈接一頁一頁瀏覽[1-2]。盡管基于關鍵字、IP地址和主題的搜索引擎支持Web信息搜索,但還存在著返回結果太多、查詢質量低、查詢覆蓋面小、缺乏多維分析和數據挖掘支持等缺點。為了克服以上缺點,業(yè)界提出將數據挖掘技術應用在Web數據上,并形成一個新的研究方向,本文就現有的web數據挖掘技術基礎上優(yōu)化出一種新的Web數據挖掘的模型,該模型充分利用了XML的優(yōu)點,采用Robot程序采集Web中的有用數據,并將得到的數據與特征信息進行匹配,匹配成功后在數據層中進行數據容差處理,調整差值數據,得到數據模式,通過模式分析最終得到有用數據。
一、Web數據挖掘技術
Web數據挖掘是指將數據挖掘方法運用到 Web信息挖掘上,針對web頁面的內容、頁面之間的關系和結構、使用者所需要訪問的信息、電子商務資料等各類Web數據,應用數據挖掘手段和方法去分析并發(fā)現其所蘊含的、不可預測的、具有潛在價值的模型等過程。
1.1 Web數據挖掘的任務
為了更好地獲得Web上的信息,通過Web進行商業(yè)決策,在Web上有效應用數據挖掘技術,必須完成以下任務和解決研究中的問題:
1.分析Web搜索引擎得到的數據;
2.分析Web的鏈接結構;
3.Web文檔自動分類;
4.挖掘Web頁面語義結構和內容;
5.挖掘Web動態(tài)特征;
6.建立多層和多維Web信息庫。
1.2常用Web數據挖掘技術
1.路徑分析技術:主要采用圖進行分析,將網站上的頁面定義成節(jié)點,頁面之間的超鏈接定義成圖中的邊,從圖中確定最頻繁的路徑訪問模式或最大參引訪問序列[1]。
2.關聯(lián)規(guī)則挖掘技術:挖掘出用戶在一個訪問期間從服務器上訪問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引關系。
3.序列模式挖掘技術:要挖掘出頁面上交易集之間的有時間序列的模式[2]。例如,有70%的用戶訪問了頁面A 之后在一定的時間內又訪問了頁面B,也就是70%以上的用戶對頁面A和頁面B都敢興趣。
4.聚類分類技術:按照某個特定標準把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性,從而以挖掘出某些共同的特性。
二、Web數據智能挖掘模型和實現分析
為了更好的對Web信息進行挖掘和運用,本文對現有Web數據挖掘模型進行了優(yōu)化,優(yōu)化后的模型可以向用戶提供個性化的深層次服務,不僅能提供原始的Web資料,還可以根據用戶的需求對內容和結構進行充分的挖掘,包括數據采集層、數據層、數據分析層等。
2.1 數據采集層
整個過程主要分六個步驟[4-6]來完成:
1.用戶接口:根據用戶提供的目標信息,將信息與系統(tǒng)相連。
2. 提取特征信息:根據目標信息中的信息,提取相應的特征向量,并根據特征向量計算出對應的權值;
3.Web信息獲取:即先用搜索引擎選擇待采集Web站點,再利用Robot程序采集靜態(tài)Web頁面文檔,利用XML結構信息作為搜索條件,通過對其標記的匹配率進行文檔過濾。
4.信息特征匹配:即提取“文檔暫存庫”中的信息特征向量,將符合閥值條件的信息送入下一步。
5.數據規(guī)范:采用XML結構存儲規(guī)范。例如中國電信業(yè)務可采用“電信業(yè)務cnXML”作為規(guī)范。
6.文檔知識庫:按照數據規(guī)范將規(guī)范好的數據存入數據庫中,建立一個電子數據交換規(guī)范庫,并階段性地更新數據庫中的信息。
2.2 數據層
采用XML形式存儲數據,并檢查、糾正數據中可能存在的錯誤信息,再采用矢量空間模型法(VSM)進行元數據處理,最后,將提取的元數據發(fā)送到數據分析層[7]。
2.3 數據分析層
在數據分析層中,首先是把查詢結果按照優(yōu)先級進行排序,再進行模式提取,得到有用的模式。在此分析的方法很多,有回歸分析、遺傳算法、聚類分析等數十種,在實際分析時,應針對其目標采用適當的分析方法。最后還需要將結果通過友好的界面提供給用戶。
三、仿真實例及其分析
根據模型的思路開發(fā)出一個仿真系統(tǒng),并在該系統(tǒng)上主要進行了計算機編程軟件的搜索實驗。并將得到數據進行分析和處理,最終得到預期的結果。
實驗如下:
第一步:在仿真系統(tǒng)上查詢java核心編程、Windows核心編程兩個主題得到如下數據:
第二步:選擇前100項搜索結果進行篩選,得到有用如下數據的比例:
第三步:將得到的數據建立文檔知識庫,采用聚類算法對采集到的數據進行有效的分析。
通過仿真實驗的結果可以看出,該模型能夠成功地在網上進行資源查找,并建立文檔知識庫,通過數據挖掘算法對文檔知識庫中的內容進行有效地挖掘,得到有利于數據決策地信息。達到了預期的效果。
四、結束語
由于Web信息大多數是異質、異構的半結構化或非結構化信息[8],因而Web數據挖掘一直以來都是業(yè)界研究的熱點,本文在基于Web數據挖掘的研究中,優(yōu)化出一種新的面向Web的數據挖掘模型,可以提高對Web數據的采集和分析性能,可為業(yè)界Web數據挖掘提供參考。
參? 考? 文? 獻
[1]方傳霞, 閆仁武. 基于Web挖掘的電子商務推薦系統(tǒng)研究[J]. 電子設計工程, 2015, 000(011):30-32,35.
[2]王玉珍. 基于電子商務的Web挖掘技術研究[J]. 北京電子科技學院學報(4):22-25.
[3]王劍鋒, 喬冬, 麻麗娜,等. 基于潛在語義分析的網頁文本分類研究[J]. 應用能源技術, 2009, 000(011):41-44.
[4]王劍霞, 邢晶晶. 基于WEB數據挖掘的網絡輿情分析研究[J]. 數字化用戶, 2014, 000(005):126-127,129.
[5]張麗霞. 基于Web的數據挖掘模型[J]. 菏澤學院學報, 2007, 29(2):44-46.
[6]魏和平. Web內容大數據挖掘的特征匹配法探究[J]. 信息技術與信息化, 2020, No.242(05):70-71.
[7]王琦超, 李廣輝. 云計算在Web數據挖掘技術中的應用[J]. 九江學院學報:自然科學版, 2020(1):74-76.
[8]劉愛琴, 趙慧敏, 尚珊. Web環(huán)境下語義挖掘模型的構建[J]. 圖書館理論與實踐, 2018, 228(10):61-65.