亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新聞網(wǎng)頁關(guān)鍵信息的提取算法

        2016-09-29 17:40:26向菁菁耿光剛李曉東
        計算機(jī)應(yīng)用 2016年8期

        向菁菁 耿光剛 李曉東

        摘要:針對網(wǎng)頁正文提取算法缺乏通用性,以及對新聞網(wǎng)頁的提取缺乏標(biāo)題、時間、來源信息的問題,提出一種新聞關(guān)鍵信息的提取算法newsExtractor。該算法首先通過預(yù)處理將網(wǎng)頁轉(zhuǎn)換成行號和文本的集合,然后根據(jù)字?jǐn)?shù)最長的一句話出現(xiàn)在新聞?wù)牡母怕蕵O高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞?wù)?,根?jù)最長公共子串算法提取標(biāo)題,構(gòu)造正則表達(dá)式并以行號輔助判斷提取時間,根據(jù)來源的格式特點并輔以行號提取來源;最后構(gòu)造了數(shù)據(jù)集與國外開源軟件newsPaper進(jìn)行提取準(zhǔn)確率的對比實驗。實驗結(jié)果表明,newsExtractor在正文、標(biāo)題、時間、來源的平均提取準(zhǔn)確率上均優(yōu)于newsPaper,具有通用性和魯棒性。

        關(guān)鍵詞:網(wǎng)頁信息提?。恍侣勑畔⑻崛?;網(wǎng)頁去噪

        中圖分類號:TP391

        文獻(xiàn)標(biāo)志碼:A

        0引言

        信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進(jìn)行組織和結(jié)合的方法,該概念的提出是為了解決互聯(lián)網(wǎng)中信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。在近20年的發(fā)展中,已有諸多學(xué)者針對不同的抽取需求提出了不同的信息抽取方法。在網(wǎng)頁信息提取方面,被提及最多的是網(wǎng)頁正文提取算法,但目前網(wǎng)頁正文提取算法尚存在缺點:首先,算法普遍存在缺乏通用性的問題;其次,在某些應(yīng)用場合(如:新聞溯源)除正文之外還需要新聞的標(biāo)題、時間和來源信息,但目前尚沒有能夠完全滿足需求的方法。因此,本文主要基于此展開研究。

        1相關(guān)研究

        針對不同的信息抽取需求,不同的學(xué)者提出的算法也不盡相同。

        比如,識別網(wǎng)頁中的實體(如:人名、地名、事件名、時間等),文獻(xiàn)[2]提出了一種算法用于識別生物期刊摘要中的人體蛋白質(zhì)名稱;根據(jù)抽取規(guī)則生成方式的不同,又可以分為自動生成[3-4]和半自動生成[5]兩類。

        對于網(wǎng)頁正文的提取算法,國內(nèi)外也已有許多方法,簡單歸類如下:

        1)基于網(wǎng)頁標(biāo)簽[6-8]。這類方法依賴HTML語言中的閉合標(biāo)簽對(如:

        )或起分割作用標(biāo)簽(如:

        、

        )進(jìn)行提取。但HTML語言本身對使用者來說不具有標(biāo)準(zhǔn)的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁面內(nèi)容變得更為復(fù)雜,因此,該方法并不具備魯棒性。

        2)基于模板[5,9-10]。這類方法通過給定的模板將需要的網(wǎng)頁信息輸出,優(yōu)點在于準(zhǔn)確率較其他方法高;缺點是如果為每個待提取的網(wǎng)頁都設(shè)計模板,計算和時間開銷大,缺乏通用性。

        3)基于文檔對象模型(Document Object Model, DOM)樹結(jié)構(gòu)[11-13]。HTML網(wǎng)頁可以解析成DOM樹的結(jié)構(gòu),然后根據(jù)DOM樹的結(jié)構(gòu)特性提取正文。文獻(xiàn)[11]中就提出了一種方法:首先確定部分正文內(nèi)容,然后依據(jù)路徑相似度尋找其他正文,最終合并為網(wǎng)頁正文。文獻(xiàn)[12]則在文獻(xiàn)[11]的基礎(chǔ)上進(jìn)行了改進(jìn)。

        4)基于布局相似性[14-16]。網(wǎng)頁所屬網(wǎng)站的網(wǎng)頁具有布局相似的特點,在同一個網(wǎng)站多個網(wǎng)頁中頻繁出現(xiàn)的內(nèi)容具有極大概率為噪聲。該方法不具備實時性,在對于某一網(wǎng)頁進(jìn)行提取時,必須先獲取與其布局類似的其他網(wǎng)頁。

        5)基于視覺熱區(qū)[17]。這種方法主要依據(jù)人們在瀏覽網(wǎng)頁時視覺頻繁停留的區(qū)域去判斷正文的位置進(jìn)行提取。該方法的理論支撐不足,同時也缺乏大量的視覺數(shù)據(jù)支持

        此外,還有學(xué)者使用了不同方法的結(jié)合[18]以及融合了機(jī)器學(xué)習(xí)的方法[19]。

        綜上所述,以上提及的方法或過時(例如基于網(wǎng)頁標(biāo)簽的方法中依賴

        的方法,早期沒有CSS,主要使用

        国产精品爽爽v在线观看无码| 久久久精品人妻一区二区三区免费| 美女脱掉内裤扒开下面让人插| 少妇高潮太爽了在线视频| 中国a级毛片免费观看| 最新国产精品亚洲二区| 亚洲图文一区二区三区四区 | 中国精品久久久久国产| 开心五月骚婷婷综合网| 亚洲国产精品无码久久| 亚洲首页一区任你躁xxxxx| 亚洲成a人片在线观看中| 亚洲av综合色一区二区| 亚洲日韩av一区二区三区中文| 极品熟妇大蝴蝶20p| 亚洲国产日韩精品综合| 日本a级特级黄色免费| 国精产品推荐视频| 永久国产盗摄一区二区色欲| 国产99久久久国产精品免费| 色翁荡息又大又硬又粗视频| 国产人与禽zoz0性伦| www.日本一区| 中文字幕中文字幕777| 人妻丰满熟妇无码区免费| 国产精品嫩草影院AV| 91蜜桃国产成人精品区在线| 97cp在线视频免费观看| 成人精品一区二区三区中文字幕 | 日韩放荡少妇无码视频| 亚洲综合欧美在线| 国产一区二区一级黄色片| 日本少妇高潮喷水视频| 五月天激情婷婷婷久久| 久久精品国产亚洲AV古装片| 精品国产亚洲第一区二区三区| 色www视频永久免费| 无码人妻系列不卡免费视频| 亚洲一区域二区域三区域四| 人妻丰满av无码中文字幕| 真人男女做爰无遮挡免费视频|