亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

WEB文本信息的提取

2011-12-31 00:00:00易麗萍章勝江

學(xué)園 2011年10期

【摘要】隨著網(wǎng)絡(luò)信息的迅速發(fā)展，網(wǎng)絡(luò)信息量日益增加，怎樣從海量的網(wǎng)絡(luò)上提取有用的信息是Web文本挖掘技術(shù)的重要應(yīng)用方向。本文提出一種Web文本挖掘系統(tǒng)的設(shè)計(jì)模型，為實(shí)現(xiàn)更深層次的信息處理做準(zhǔn)備。

【關(guān)鍵詞】文本挖掘 Web 信息處理

【中圖分類號(hào)】TP393 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674－4810（2011）10－0032－01

一引言

Web挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái)，因此，其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是，Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處，Web挖掘的對(duì)象是大量、異質(zhì)、分布的Web文檔。由于Web文檔本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的，且缺乏機(jī)器可理解的語(yǔ)義，因此，有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘，即使可用也需要建立在對(duì)Web文檔進(jìn)行預(yù)處理的基礎(chǔ)之上。

二 Web文本挖掘系統(tǒng)的設(shè)計(jì)

Web文本挖掘系統(tǒng)能自由漫游Web站點(diǎn)，在Web上能按照某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索與獲取，并將挖掘文本集合在系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。系統(tǒng)原型圖，見(jiàn)圖1。

1．文檔采集器

利用信息訪問(wèn)技術(shù)將分布在多個(gè)Web服務(wù)器上的待挖掘文檔集成在Web挖掘系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。

2．文本預(yù)處理器

利用啟發(fā)式規(guī)則和自然語(yǔ)言處理技術(shù)從文本中抽取出代表其特征的元數(shù)據(jù)，并存放在文本特征庫(kù)中，作為文本挖掘的基礎(chǔ)。

3．文本分類器

利用其內(nèi)部知識(shí)庫(kù)，按照預(yù)定義的類別層次，對(duì)文檔集合或者其中的部分子集合內(nèi)容進(jìn)行分類。

4．文本聚類器

利用其內(nèi)部知識(shí)庫(kù)對(duì)文檔集合或其中的部分子集的內(nèi)容進(jìn)行聚類。

5．多維文本分析引擎

Web文本挖掘系統(tǒng)以引進(jìn)文本超立方體模型和多維文本分析技術(shù)，為用戶提供關(guān)于文檔的多維視圖。多維文本分析引擎還具有統(tǒng)計(jì)、分析功能，從而能夠揭示文檔集合的特征分布和趨勢(shì)。此外，多維文本分析引擎還可以對(duì)大量文檔的集合進(jìn)行特征修剪，包括橫向文檔選擇和縱向特征投影兩種方式。

6．用戶接口模塊

在用戶與多維文本分析引擎之間起橋梁作用。它為用戶提供可視化的接口，將用戶的請(qǐng)求轉(zhuǎn)化為專用語(yǔ)言傳遞給多維文本分析引擎，并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶。

三 Web文檔的采集

1．Web文檔采集器的設(shè)計(jì)

文檔采集器設(shè)計(jì)圖如圖2所示，搜索代理模塊相當(dāng)于搜集控制模塊的子進(jìn)程。功能是從管道里獲取URL，通過(guò)操作系統(tǒng)提供的SOCKET套接字STREAMS通訊方式，利用HTTP協(xié)議，獲取指定URL的HTML文檔。此模塊也是一個(gè)客戶進(jìn)程，它向遠(yuǎn)程WWW服務(wù)器發(fā)出請(qǐng)求，再根據(jù)返回狀態(tài)信息進(jìn)行處理。

通過(guò)對(duì)HTML文檔的遍歷，發(fā)現(xiàn)文檔中ANCHOR所對(duì)應(yīng)URL于它的相關(guān)值。系統(tǒng)中維護(hù)一個(gè)URL鏈表，若URL是符合要求的，就把它和相關(guān)值寫入U(xiǎn)RL鏈表。否則忽略掉它，最后把URL鏈表傳給搜集控制模塊。

2．Web抓取

搜集代理模塊讀取管道中URL，根據(jù)一個(gè)個(gè)URL調(diào)用loadfile下載網(wǎng)頁(yè)，同時(shí)將這些下載后的HTML文檔和圖片保持原有的相對(duì)關(guān)系，放在應(yīng)用程序所在的目錄之下。

搜集代理模塊直接對(duì)放入管道的URL進(jìn)行分析，將不符合條件的URL剔除。將符合條件的URL根據(jù)它的路徑信息一級(jí)一級(jí)地創(chuàng)建文件夾，在創(chuàng)建的同時(shí)改變路徑，最后調(diào)用loadtofile從URL指定的Web站點(diǎn)上獲取一個(gè)被請(qǐng)求的文檔或圖片。當(dāng)管道中所有URL都處理完后，下載完畢。

四結(jié)論

通過(guò)對(duì)Web文本挖掘，從來(lái)自異構(gòu)數(shù)據(jù)源的大規(guī)模文本信息資源中，在知識(shí)層面上更加準(zhǔn)確地過(guò)濾和提取符合需要的部分，整理成簡(jiǎn)潔、精煉、可理解的知識(shí)，從側(cè)面提高信息化的水平，為國(guó)家的信息化建設(shè)服務(wù)。

參考文獻(xiàn)

［1］史忠植.中國(guó)計(jì)算機(jī)學(xué)會(huì)學(xué)術(shù)著作叢書：知識(shí)發(fā)現(xiàn)［M］.北京：清華大學(xué)出版，2002

〔責(zé)任編輯：王以富〕

注：本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文

學(xué)園2011年10期

學(xué)園的其它文章: 撿魚的小孩; 論合唱指揮的基本素質(zhì); 淺議掃盲工作的新跨越; 淺談中職學(xué)前教育專業(yè)“計(jì)算機(jī)應(yīng)用基礎(chǔ)”教學(xué)設(shè)計(jì); “仿真演練”提高技能; 家庭教育的重要性