亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DOM的網(wǎng)頁(yè)信息識(shí)別提取技術(shù)研究

        2013-04-29 00:44:03陳瑩朱益多
        電腦迷 2013年9期
        關(guān)鍵詞:提取貝葉斯

        陳瑩 朱益多

        摘 要 網(wǎng)絡(luò)作為巨大的數(shù)據(jù)源,如何從中提取人們所關(guān)心的信息,濾除無用信息,是當(dāng)今研究的熱點(diǎn)。網(wǎng)絡(luò)輿情分析中網(wǎng)頁(yè)信息提取技術(shù)的研究應(yīng)運(yùn)而生。本文提出了一種基于DOM的網(wǎng)頁(yè)信息識(shí)別提取技術(shù),采用貝葉斯函數(shù)模型與閾值判別相結(jié)合的方式,有效提取網(wǎng)頁(yè)信息。通過大量實(shí)驗(yàn)證明,此算法適用范圍廣且精確度高。

        關(guān)鍵詞 網(wǎng)頁(yè)信息 貝葉斯 提取

        中圖分類號(hào):TP393.02 文獻(xiàn)標(biāo)識(shí)碼:A

        網(wǎng)絡(luò)輿情分析中的網(wǎng)頁(yè)信息提取技術(shù)通過對(duì)網(wǎng)頁(yè)進(jìn)行處理,用一組信息描述所需要提取的信息,將其結(jié)構(gòu)化后保存到數(shù)據(jù)庫(kù)中,方便用戶獲取和利用這些信息。網(wǎng)頁(yè)信息抽取的關(guān)鍵是保證信息抽取算法的準(zhǔn)確性和健壯性。但是該技術(shù)主要的問題是要面對(duì)不斷變化、更新的海量信息,并且大多數(shù)是以用于瀏覽,而不是用于數(shù)據(jù)操作和應(yīng)用的HTML文檔的形式出現(xiàn)。這就為網(wǎng)頁(yè)信息抽取帶來了極大的不方便。

        目前,常見的提取技術(shù)有很多種,下面例舉幾種。傅里葉變換提取技術(shù),該技術(shù)采用窗口分段的方法把文字分段,對(duì)各個(gè)文本分段分別進(jìn)行傅里葉變換,用頻域的歐式距離計(jì)算信號(hào)特性的差異程度來評(píng)價(jià)組間及組內(nèi)元素的差異程度。內(nèi)容相似度提取算法,該算法將復(fù)雜的網(wǎng)頁(yè)腳本進(jìn)行簡(jiǎn)化,并映射成一棵易于操作的樹型結(jié)構(gòu),利用文本相似度計(jì)算方法,通過計(jì)算樹節(jié)點(diǎn)中文本內(nèi)容與各級(jí)標(biāo)題的相似度判定小塊文本信息的有用性,由此進(jìn)行網(wǎng)頁(yè)清洗與正文抽取,獲得網(wǎng)頁(yè)文本信息?;跀?shù)據(jù)挖掘的抽取技術(shù),該技術(shù)使用文本分類、聚類、隱馬爾科夫模型等數(shù)據(jù)挖掘算法對(duì)網(wǎng)頁(yè)進(jìn)行分析,將網(wǎng)頁(yè)代碼線性化重構(gòu)清理后,將頁(yè)面中的文本按格進(jìn)行析取并聚類,最終生成正文。以上算法對(duì)于普通網(wǎng)頁(yè)可以得到很好的結(jié)果,但對(duì)于表格及圖片多的網(wǎng)頁(yè)不能適應(yīng)。因此,本文提出了一種基于DOM的網(wǎng)頁(yè)信息識(shí)別提取算法。

        1 算法思想

        觀察分析大量網(wǎng)頁(yè)可以發(fā)現(xiàn)雖然互聯(lián)網(wǎng)中網(wǎng)站復(fù)雜繁多,每個(gè)網(wǎng)站擁有各自的布局風(fēng)格,但是每個(gè)網(wǎng)站的版塊中,各個(gè)子網(wǎng)頁(yè)的布局在一定時(shí)期內(nèi)是基本相同的,這是因?yàn)檫@些網(wǎng)站在建立時(shí)運(yùn)用了統(tǒng)一模板發(fā)帖。利用這一特性,本文提出了基于DOM結(jié)構(gòu)的網(wǎng)頁(yè)正文提取方法,這一方法采用數(shù)學(xué)模型對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行識(shí)別并提取,對(duì)于表格與圖片同樣適用。提取過程中采用時(shí)間分段方式,每隔一段時(shí)間下載大量網(wǎng)頁(yè),從中選取最大的網(wǎng)頁(yè)提取模式并保存,之后利用該模式為其他的網(wǎng)頁(yè)提取正文。

        2 方法步驟

        具體算法步驟如下:(1)下載大量網(wǎng)頁(yè), 選取最大的網(wǎng)頁(yè)建立DOM樹, 在代碼中添加路徑信息并清理布局樣式;(2)用遞歸的方法遍歷子樹。遍歷過程中采用貝葉斯函數(shù)構(gòu)建識(shí)別系統(tǒng);(3)構(gòu)建閾值P進(jìn)行判別,如果大于閾值,則重復(fù)第二步;如果小于閾值則提取,結(jié)束。

        以某網(wǎng)站論壇提取為例,通過爬蟲系統(tǒng)下載該論壇中的大量網(wǎng)頁(yè),挖掘系統(tǒng)從中選取代碼篇幅較大的一個(gè)網(wǎng)頁(yè)作分析。貝葉斯函數(shù)識(shí)別會(huì)影響到其他網(wǎng)頁(yè)的正文提取,所以該部分需要很高的準(zhǔn)確率,篇幅最大的網(wǎng)頁(yè)一般具有較長(zhǎng)的正文,選取這種網(wǎng)頁(yè)可以提高模式提取的準(zhǔn)確性。

        對(duì)該網(wǎng)頁(yè)建立DOM樹,并對(duì)網(wǎng)頁(yè)進(jìn)行必要的規(guī)范化處理。為了防止后續(xù)處理破壞了DOM樹的結(jié)構(gòu),導(dǎo)致后續(xù)無法找到原有的行進(jìn)路徑,所以要給每個(gè)標(biāo)簽添加上路徑編號(hào),記錄該子樹為父節(jié)點(diǎn)的孩子編號(hào)。

        在處理過程中,我們只關(guān)心網(wǎng)頁(yè)上顯示的內(nèi)容,而不關(guān)心網(wǎng)頁(yè)的布局、樣式等,因此刪除只影響布局的子樹,即刪除不包含文本內(nèi)容的子樹。在頁(yè)面中,除正文外,一般占有較大比重的是導(dǎo)航欄部分。這部分代碼擁有大量的超鏈接,并且這部分DOM樹的大部分子樹只含有少量文字或超鏈接,清除這部分代碼可以有效提高正文部分在網(wǎng)頁(yè)中所占的比重。根據(jù)這一性質(zhì),若某樹中只含有少量文字或超鏈接的子樹數(shù)占總子樹的比率超過了閥值T,那么認(rèn)為該樹是導(dǎo)航欄,并將它刪除。

        經(jīng)過前面步驟的清理之后,文字內(nèi)容長(zhǎng)度已大大縮短,正文部分的字?jǐn)?shù)在整個(gè)網(wǎng)頁(yè)文字內(nèi)容中所占的比重大大增加,因此遞歸提取出當(dāng)前DOM樹的最小子樹,即所要提取的正文部分。

        3 閾值P的確定

        在清理導(dǎo)航欄步驟實(shí)驗(yàn)中,因?yàn)檫€有后續(xù)的處理,所以不能完全清理導(dǎo)航欄是可以接受的,但是將正文內(nèi)容誤判當(dāng)成是導(dǎo)航欄是不可接受的,因此實(shí)驗(yàn)過程中引入簡(jiǎn)單的效果評(píng)判機(jī)制:若導(dǎo)航欄完全被清除,則得2分;若只有部分導(dǎo)航欄被清除,則得1分;若完全沒有效果或出現(xiàn)了誤判,則得0分。在實(shí)驗(yàn)過程中,選取來自15個(gè)網(wǎng)站各8個(gè)版塊總共58張網(wǎng)頁(yè),對(duì)閥值P取不同的數(shù)值,計(jì)算每一個(gè)數(shù)值得到的清理效果得分總和。實(shí)驗(yàn)結(jié)果顯示:當(dāng)P小于0.4時(shí),所有網(wǎng)頁(yè)出現(xiàn)了誤判;當(dāng)P = 0.5、0.9時(shí)部分網(wǎng)頁(yè)也有一定的效果;大部分網(wǎng)頁(yè)在閥值P取值為0.6、0.7、0.8的時(shí)候有較好的效果,當(dāng)P = 0.6時(shí)效果略微優(yōu)于P = 0.7或0.8,然而在處理某個(gè)論壇的網(wǎng)頁(yè)時(shí),取值0.6、0.7出現(xiàn)了誤判,在0.8、0.9時(shí)有較好的處理效果。最終當(dāng)P取0.9時(shí)得到了最好的導(dǎo)航欄清理效果,因此根據(jù)以上實(shí)驗(yàn)結(jié)果,最終取P = 0.9。

        4 結(jié)論

        通過對(duì)多網(wǎng)站的測(cè)試,證明該算法對(duì)論壇的各種網(wǎng)頁(yè)有較好的提取效果,極少正文網(wǎng)頁(yè)、大量圖片網(wǎng)頁(yè)也能夠正確提取,準(zhǔn)確率得到了97%。對(duì)于網(wǎng)頁(yè)的處理時(shí)間僅用時(shí)2秒多,每個(gè)論壇版塊一般只需要很少的字節(jié)來保存路徑信息,且不需要人工干預(yù),這比過去的算法有了很大提高,可以滿足輿情挖掘系統(tǒng)的快速處理要求。這說明基于DOM結(jié)構(gòu)采用貝葉斯函數(shù)進(jìn)行識(shí)別提取的方法具有實(shí)際應(yīng)用意義。

        猜你喜歡
        提取貝葉斯
        基于貝葉斯解釋回應(yīng)被告人講述的故事
        法律方法(2021年4期)2021-03-16 05:34:38
        貝葉斯公式及其應(yīng)用
        現(xiàn)場(chǎng)勘查中物證的提取及應(yīng)用
        土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
        中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
        淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
        蝦蛄殼中甲殼素的提取工藝探究
        科技視界(2016年22期)2016-10-18 17:02:00
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        美艳善良的丝袜高跟美腿| 中文字幕人成人乱码亚洲av| 久久国产劲爆∧v内射| 亚洲 卡通 欧美 制服 中文| 国产乱子伦一区二区三区| 91精品国产91久久久久久青草| 蜜臀av人妻一区二区三区 | 精品久久久无码中字| 色婷婷激情在线一区二区三区| 日本第一区二区三区视频| 免费国人成人自拍视频| 精品黑人一区二区三区久久hd| 男女男精品视频网站免费看| 美丽人妻在夫前被黑人| 99精品国产兔费观看久久99| 狼色在线精品影视免费播放| 国产高清不卡二区三区在线观看| 日本av一区二区三区在线| 婷婷久久香蕉五月综合加勒比| 五十路熟妇高熟无码视频| 熟女俱乐部五十路二区av| 国产熟女av一区二区三区四季| 人妻系列中文字幕av| 亚洲图片自拍偷图区| 日产无人区一线二线三线乱码蘑菇 | 国产自产自现在线视频地址| 北条麻妃在线中文字幕| 国产精品久久久久9999| 中文国产日韩欧美二视频| 91最新免费观看在线| 午夜一区二区三区在线观看| 日韩精品人妻中文字幕有码在线| 中文字幕人妻中文| 欧美a视频在线观看| 国产肉体XXXX裸体784大胆| 一二区视频免费在线观看| 免费人成视频网站在在线| 欧美私人情侣网站| 国产哟交泬泬视频在线播放 | 无码任你躁久久久久久久| 国产成人户外露出视频在线|