【摘 要】隨著網(wǎng)絡(luò)信息的迅速發(fā)展,網(wǎng)絡(luò)信息量日益增加,怎樣從海量的網(wǎng)絡(luò)上提取有用的信息是Web文本挖掘技術(shù)的重要應(yīng)用方向。本文提出一種Web文本挖掘系統(tǒng)的設(shè)計(jì)模型,為實(shí)現(xiàn)更深層次的信息處理做準(zhǔn)備。
【關(guān)鍵詞】文本挖掘 Web 信息處理
【中圖分類號(hào)】TP393 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-4810(2011)10-0032-01
一 引言
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),因此,其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處,Web挖掘的對(duì)象是大量、異質(zhì)、分布的Web文檔。由于Web文檔本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,且缺乏機(jī)器可理解的語(yǔ)義,因此,有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可用也需要建立在對(duì)Web文檔進(jìn)行預(yù)處理的基礎(chǔ)之上。
二 Web文本挖掘系統(tǒng)的設(shè)計(jì)
Web文本挖掘系統(tǒng)能自由漫游Web站點(diǎn),在Web上能按照某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索與獲取,并將挖掘文本集合在系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。系統(tǒng)原型圖,見(jiàn)圖1。
1.文檔采集器
利用信息訪問(wèn)技術(shù)將分布在多個(gè)Web服務(wù)器上的待挖掘文檔集成在Web挖掘系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。
2.文本預(yù)處理器
利用啟發(fā)式規(guī)則和自然語(yǔ)言處理技術(shù)從文本中抽取出代表其特征的元數(shù)據(jù),并存放在文本特征庫(kù)中,作為文本挖掘的基礎(chǔ)。
3.文本分類器
利用其內(nèi)部知識(shí)庫(kù),按照預(yù)定義的類別層次,對(duì)文檔集合或者其中的部分子集合內(nèi)容進(jìn)行分類。
4.文本聚類器
利用其內(nèi)部知識(shí)庫(kù)對(duì)文檔集合或其中的部分子集的內(nèi)容進(jìn)行聚類。
5.多維文本分析引擎
Web文本挖掘系統(tǒng)以引進(jìn)文本超立方體模型和多維文本分析技術(shù),為用戶提供關(guān)于文檔的多維視圖。多維文本分析引擎還具有統(tǒng)計(jì)、分析功能,從而能夠揭示文檔集合的特征分布和趨勢(shì)。此外,多維文本分析引擎還可以對(duì)大量文檔的集合進(jìn)行特征修剪,包括橫向文檔選擇和縱向特征投影兩種方式。
6.用戶接口模塊
在用戶與多維文本分析引擎之間起橋梁作用。它為用戶提供可視化的接口,將用戶的請(qǐng)求轉(zhuǎn)化為專用語(yǔ)言傳遞給多維文本分析引擎,并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶。
三 Web文檔的采集
1.Web文檔采集器的設(shè)計(jì)
文檔采集器設(shè)計(jì)圖如圖2所示,搜索代理模塊相當(dāng)于搜集控制模塊的子進(jìn)程。功能是從管道里獲取URL,通過(guò)操作系統(tǒng)提供的SOCKET套接字STREAMS通訊方式,利用HTTP協(xié)議,獲取指定URL的HTML文檔。此模塊也是一個(gè)客戶進(jìn)程,它向遠(yuǎn)程WWW服務(wù)器發(fā)出請(qǐng)求,再根據(jù)返回狀態(tài)信息進(jìn)行處理。
通過(guò)對(duì)HTML文檔的遍歷,發(fā)現(xiàn)文檔中ANCHOR所對(duì)應(yīng)URL于它的相關(guān)值。系統(tǒng)中維護(hù)一個(gè)URL鏈表,若URL是符合要求的,就把它和相關(guān)值寫入U(xiǎn)RL鏈表。否則忽略掉它,最后把URL鏈表傳給搜集控制模塊。
2.Web抓取
搜集代理模塊讀取管道中URL,根據(jù)一個(gè)個(gè)URL調(diào)用loadfile下載網(wǎng)頁(yè),同時(shí)將這些下載后的HTML文檔和圖片保持原有的相對(duì)關(guān)系,放在應(yīng)用程序所在的目錄之下。
搜集代理模塊直接對(duì)放入管道的URL進(jìn)行分析,將不符合條件的URL剔除。將符合條件的URL根據(jù)它的路徑信息一級(jí)一級(jí)地創(chuàng)建文件夾,在創(chuàng)建的同時(shí)改變路徑,最后調(diào)用loadtofile從URL指定的Web站點(diǎn)上獲取一個(gè)被請(qǐng)求的文檔或圖片。當(dāng)管道中所有URL都處理完后,下載完畢。
四 結(jié)論
通過(guò)對(duì)Web文本挖掘,從來(lái)自異構(gòu)數(shù)據(jù)源的大規(guī)模文本信息資源中,在知識(shí)層面上更加準(zhǔn)確地過(guò)濾和提取符合需要的部分,整理成簡(jiǎn)潔、精煉、可理解的知識(shí),從側(cè)面提高信息化的水平,為國(guó)家的信息化建設(shè)服務(wù)。
參考文獻(xiàn)
[1]史忠植.中國(guó)計(jì)算機(jī)學(xué)會(huì)學(xué)術(shù)著作叢書:知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002
〔責(zé)任編輯:王以富〕
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文