亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WEB文本信息的提取

        2011-12-31 00:00:00易麗萍章勝江
        學(xué)園 2011年10期

        【摘 要】隨著網(wǎng)絡(luò)信息的迅速發(fā)展,網(wǎng)絡(luò)信息量日益增加,怎樣從海量的網(wǎng)絡(luò)上提取有用的信息是Web文本挖掘技術(shù)的重要應(yīng)用方向。本文提出一種Web文本挖掘系統(tǒng)的設(shè)計(jì)模型,為實(shí)現(xiàn)更深層次的信息處理做準(zhǔn)備。

        【關(guān)鍵詞】文本挖掘 Web 信息處理

        【中圖分類號(hào)】TP393 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-4810(2011)10-0032-01

        一 引言

        Web挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),因此,其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處,Web挖掘的對(duì)象是大量、異質(zhì)、分布的Web文檔。由于Web文檔本身是半結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的,且缺乏機(jī)器可理解的語(yǔ)義,因此,有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可用也需要建立在對(duì)Web文檔進(jìn)行預(yù)處理的基礎(chǔ)之上。

        二 Web文本挖掘系統(tǒng)的設(shè)計(jì)

        Web文本挖掘系統(tǒng)能自由漫游Web站點(diǎn),在Web上能按照某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索與獲取,并將挖掘文本集合在系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。系統(tǒng)原型圖,見(jiàn)圖1。

        1.文檔采集器

        利用信息訪問(wèn)技術(shù)將分布在多個(gè)Web服務(wù)器上的待挖掘文檔集成在Web挖掘系統(tǒng)的本地?cái)?shù)據(jù)庫(kù)中。

        2.文本預(yù)處理器

        利用啟發(fā)式規(guī)則和自然語(yǔ)言處理技術(shù)從文本中抽取出代表其特征的元數(shù)據(jù),并存放在文本特征庫(kù)中,作為文本挖掘的基礎(chǔ)。

        3.文本分類器

        利用其內(nèi)部知識(shí)庫(kù),按照預(yù)定義的類別層次,對(duì)文檔集合或者其中的部分子集合內(nèi)容進(jìn)行分類。

        4.文本聚類器

        利用其內(nèi)部知識(shí)庫(kù)對(duì)文檔集合或其中的部分子集的內(nèi)容進(jìn)行聚類。

        5.多維文本分析引擎

        Web文本挖掘系統(tǒng)以引進(jìn)文本超立方體模型和多維文本分析技術(shù),為用戶提供關(guān)于文檔的多維視圖。多維文本分析引擎還具有統(tǒng)計(jì)、分析功能,從而能夠揭示文檔集合的特征分布和趨勢(shì)。此外,多維文本分析引擎還可以對(duì)大量文檔的集合進(jìn)行特征修剪,包括橫向文檔選擇和縱向特征投影兩種方式。

        6.用戶接口模塊

        在用戶與多維文本分析引擎之間起橋梁作用。它為用戶提供可視化的接口,將用戶的請(qǐng)求轉(zhuǎn)化為專用語(yǔ)言傳遞給多維文本分析引擎,并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶。

        三 Web文檔的采集

        1.Web文檔采集器的設(shè)計(jì)

        文檔采集器設(shè)計(jì)圖如圖2所示,搜索代理模塊相當(dāng)于搜集控制模塊的子進(jìn)程。功能是從管道里獲取URL,通過(guò)操作系統(tǒng)提供的SOCKET套接字STREAMS通訊方式,利用HTTP協(xié)議,獲取指定URL的HTML文檔。此模塊也是一個(gè)客戶進(jìn)程,它向遠(yuǎn)程WWW服務(wù)器發(fā)出請(qǐng)求,再根據(jù)返回狀態(tài)信息進(jìn)行處理。

        通過(guò)對(duì)HTML文檔的遍歷,發(fā)現(xiàn)文檔中ANCHOR所對(duì)應(yīng)URL于它的相關(guān)值。系統(tǒng)中維護(hù)一個(gè)URL鏈表,若URL是符合要求的,就把它和相關(guān)值寫入U(xiǎn)RL鏈表。否則忽略掉它,最后把URL鏈表傳給搜集控制模塊。

        2.Web抓取

        搜集代理模塊讀取管道中URL,根據(jù)一個(gè)個(gè)URL調(diào)用loadfile下載網(wǎng)頁(yè),同時(shí)將這些下載后的HTML文檔和圖片保持原有的相對(duì)關(guān)系,放在應(yīng)用程序所在的目錄之下。

        搜集代理模塊直接對(duì)放入管道的URL進(jìn)行分析,將不符合條件的URL剔除。將符合條件的URL根據(jù)它的路徑信息一級(jí)一級(jí)地創(chuàng)建文件夾,在創(chuàng)建的同時(shí)改變路徑,最后調(diào)用loadtofile從URL指定的Web站點(diǎn)上獲取一個(gè)被請(qǐng)求的文檔或圖片。當(dāng)管道中所有URL都處理完后,下載完畢。

        四 結(jié)論

        通過(guò)對(duì)Web文本挖掘,從來(lái)自異構(gòu)數(shù)據(jù)源的大規(guī)模文本信息資源中,在知識(shí)層面上更加準(zhǔn)確地過(guò)濾和提取符合需要的部分,整理成簡(jiǎn)潔、精煉、可理解的知識(shí),從側(cè)面提高信息化的水平,為國(guó)家的信息化建設(shè)服務(wù)。

        參考文獻(xiàn)

        [1]史忠植.中國(guó)計(jì)算機(jī)學(xué)會(huì)學(xué)術(shù)著作叢書:知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002

        〔責(zé)任編輯:王以富〕

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文

        欧美在线播放一区二区| 人人爽久久久噜人人看| 亚洲熟妇少妇任你躁在线观看无码 | 国产精品偷窥熟女精品视频| 国产无遮挡又黄又爽在线观看| 日本免费人成视频播放| 国产丝袜高跟美腿一区在线| 伊人久久大香线蕉av色婷婷色| 国产精品理论片| 亚洲乱码视频在线观看| 在线不卡中文字幕福利| 手机久草视频福利在线观看| 最新中文字幕av无码不卡| 手机看片久久国产免费| 亚洲乱码中文字幕综合| 久久一二区女厕偷拍图| 人妻无码一区二区视频| 亚洲 成人 无码 在线观看| 国产精品又黄又爽又色| 精品亚洲一区二区三区四 | 狠狠久久亚洲欧美专区| 亚洲中文字幕乱码一二三区| 国产精品亚洲一级av第二区| 十八禁在线观看视频播放免费| 99久久久久国产| 中文字幕中文字幕人妻黑丝| 久久综合99re88久久爱| 在线观看午夜亚洲一区| 亚洲第一区无码专区| 漂亮人妻出轨中文字幕| 亚洲娇小与黑人巨大交| 日日摸夜夜欧美一区二区| 日本黄色高清视频久久| 国产 高潮 抽搐 正在播放| 成人无码一区二区三区网站| 国产成人av综合色| 久久人妻一区二区三区免费| 曰本大码熟中文字幕| 国产成人一区二区三区免费观看| 国产精品视频一区二区久久| 亚洲国产精品无码久久久|