亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于超鏈接分析的網(wǎng)頁正文提取方法

        2010-09-14 13:30:36翔,劉
        泰山學(xué)院學(xué)報(bào) 2010年3期
        關(guān)鍵詞:正文網(wǎng)頁標(biāo)簽

        任 翔,劉 彬

        (泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

        基于超鏈接分析的網(wǎng)頁正文提取方法

        任 翔,劉 彬

        (泰山學(xué)院信息科學(xué)技術(shù)學(xué)院,山東泰安 271021)

        隨著網(wǎng)絡(luò)的迅猛發(fā)展,w eb服務(wù)已經(jīng)成為研究的熱點(diǎn)之一.本文介紹了一種文件類型網(wǎng)頁文件的文本信息預(yù)處理技術(shù).該方法能夠解析網(wǎng)頁文件的組成結(jié)構(gòu),并從中提取出主體文本以供處理.測試表明該方法能快速有效地得到大部分HTML網(wǎng)頁的主體部分.

        網(wǎng)頁正文;w eb服務(wù);超鏈接

        0 引言

        1 超鏈接的作用

        人們在設(shè)計(jì)網(wǎng)頁的時(shí)候,總是準(zhǔn)備了一定的素材,這些素材是設(shè)計(jì)者希望通過網(wǎng)頁傳達(dá)給訪問者的信息.但是由于孤立的網(wǎng)頁很難被訪問,設(shè)計(jì)者會(huì)增加一些內(nèi)容來連接不同的頁面,例如增加超鏈接目錄或者具有搜索功能的表單等.增加的文字僅僅起向?qū)У淖饔?內(nèi)容通常和頁面原有的內(nèi)容不重疊,因而它們的加入會(huì)影響網(wǎng)頁內(nèi)容的原貌.

        我們把網(wǎng)頁設(shè)計(jì)者為了輔助網(wǎng)站組織而增加的文字定義為“噪聲”,把原本要表達(dá)的文字素材稱為“主題內(nèi)容”.網(wǎng)頁含有指向其它網(wǎng)頁的一些超鏈接文字,它們通常聚集成塊,且獨(dú)立于主題內(nèi)容,僅僅起向?qū)У淖饔?這一類正是我們要去除的噪聲;網(wǎng)頁中含有的超鏈接文字出現(xiàn)在正文文字中間,具有向?qū)Ш完愂龅碾p重作用,即它們引向另一個(gè)網(wǎng)頁的同時(shí)也是當(dāng)前頁面主題內(nèi)容的一部分,如圖1所示,姚明和休斯頓火箭這兩個(gè)超鏈接可以說明這個(gè)網(wǎng)頁是介紹NBA火箭隊(duì)和中國球星姚明的事情的,這兩個(gè)關(guān)鍵詞可以代表網(wǎng)頁內(nèi)容.因此這種超鏈接是不能去除的,并且對網(wǎng)頁描述的意義重大.

        圖1 超鏈接示例

        2 網(wǎng)頁正文提取

        2.1 現(xiàn)有的網(wǎng)頁正文提取方法

        網(wǎng)頁文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,其數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,復(fù)雜程度遠(yuǎn)遠(yuǎn)高于普通的文本文檔,其數(shù)據(jù)結(jié)構(gòu)隱含、模式信息量大、模式變化快.

        當(dāng)前對網(wǎng)頁文檔的正文提取方法有很多,文獻(xiàn)[3]的方法是對于使用同一個(gè)模板生成的網(wǎng)頁集,找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁集中共同出現(xiàn)較少的內(nèi)容塊就是有效的網(wǎng)頁正文.實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限在基于同一個(gè)模板的網(wǎng)頁集,而web上的網(wǎng)頁模板不計(jì)其數(shù),因此該方法顯然不夠通用.

        還有一種比較流行的方法是通過對網(wǎng)頁劃分為多個(gè)塊,然后根據(jù)某種算法進(jìn)行取舍,找到正文所在的那個(gè)塊,提取出來.現(xiàn)在存在多種網(wǎng)頁劃分成塊的方式,如基于DOM的分割[4],基于位置的分割[5],還有V ision-based Page Segm en tation[6].在文獻(xiàn)[7]中,作者使用Site Style Tree(SST)來描述網(wǎng)頁的版面和內(nèi)容,并定義了SST中節(jié)點(diǎn)的重要程度,通過節(jié)點(diǎn)的刪剪來得到網(wǎng)頁正文.

        以上方法都是對HTML語義結(jié)構(gòu)進(jìn)行分析,找到網(wǎng)頁正文所在的位置進(jìn)行處理,提取出網(wǎng)頁的正文.但這些方法對于網(wǎng)頁結(jié)構(gòu)出現(xiàn)非常規(guī)現(xiàn)象時(shí),效果不好.比如網(wǎng)頁的正文極短,而該網(wǎng)頁中的廣告欄含有的文字量很大,這樣會(huì)把廣告所在的部分當(dāng)成了正文部分提取出來,造成提取的失敗,并且由于加入了HTML語義分析,使得程序處理網(wǎng)頁的速度變慢,為了達(dá)到準(zhǔn)確率高和速度快并存的目標(biāo),本文提出了基于超鏈接分析的網(wǎng)頁正文提取方法.

        聽了陳誠的一番話,胡璉這位只有三十六歲的年輕將軍內(nèi)心很復(fù)雜。作為黃埔四期的高材生,他在抗戰(zhàn)中屢立戰(zhàn)功,從旅長到副師長,一直到現(xiàn)在成為肩扛將星的師長,多少次出生入死,他早已將生死置之度外。此時(shí),他不想多說什么,作為軍人,他只有服從命令,忠于職守,即使付出鮮血和生命,只要能夠取得勝利,那就是死得其所!想到這兒,他眼含熱淚,雙腳一并,向陳誠敬了一個(gè)標(biāo)準(zhǔn)的軍禮,大聲說:“請總司令放心,胡璉決心與石牌共存亡,不成功便成仁?!?/p>

        2.2 網(wǎng)頁預(yù)處理

        在使用超鏈接判斷之前,先要對網(wǎng)頁進(jìn)行預(yù)處理,去掉一些與正文無關(guān)的元素,分析如下:

        首先是網(wǎng)頁正文存放的位置,它是包含在之間,作為某個(gè)HTML元素的內(nèi)容出現(xiàn)的,比如

        元素的內(nèi)容.因此我們只需要對有內(nèi)容的元素進(jìn)行分析,而那些沒有內(nèi)容只有標(biāo)簽的元素可以刪掉.例如注釋標(biāo)簽,
        ,,


        等就被刪除.

        對于有內(nèi)容的HTML元素,例如style和scrip t等元素不包含正文.style元素主要是用來改善網(wǎng)頁的顯示效果的,它的內(nèi)容主要是設(shè)計(jì)網(wǎng)頁顯示的屬性,和網(wǎng)頁正文無關(guān);scrip t元素是腳本程序,用來設(shè)計(jì)動(dòng)態(tài)網(wǎng)頁,它的內(nèi)容也和網(wǎng)頁正文無關(guān).因此要將這兩個(gè)元素刪除.

        由于style元素,scrip t元素是必須有結(jié)束標(biāo)簽的,所以很容易定位這些元素所對應(yīng)的子字符串在網(wǎng)頁文檔總字符串s中的位置和長度,但考慮到很多網(wǎng)頁的不規(guī)范性,為提高程序的容錯(cuò)性能,采用了一種標(biāo)簽配對的方法,將這些要?jiǎng)h除的元素各部分補(bǔ)齊,然后再進(jìn)行匹配刪除.

        標(biāo)簽配對的方法如下:由于在style元素、scrip t元素的內(nèi)容中,除了存在注釋標(biāo)簽外,不會(huì)出現(xiàn)其他的標(biāo)簽,因此從開始標(biāo)簽向后查找,在除注釋標(biāo)簽之外的其他標(biāo)簽之前插入結(jié)束標(biāo)簽即可完成標(biāo)簽配對.

        雖然HTML協(xié)議允許出現(xiàn)元素的交叉,即的情況,但sty le元素,sc rip t元素不會(huì)出現(xiàn)這種情況,故在此不再考慮這種情況.網(wǎng)頁預(yù)處理結(jié)束后,再對超鏈接進(jìn)行分析過濾正文,這樣可以提高系統(tǒng)分析效率,加強(qiáng)準(zhǔn)確性.

        2.3 基于超鏈接分析的網(wǎng)頁正文提取

        利用超鏈接可以判斷網(wǎng)頁的正文,我們采用的具體啟發(fā)式規(guī)則如下:

        ①一篇有主題網(wǎng)頁中的正文通常是用成段的文字來描述,中間通常不會(huì)加入大量的超鏈接,而非正文信息通常是伴隨著大量超鏈接出現(xiàn)的.

        ②正文中的兩個(gè)超鏈接之間的文字個(gè)數(shù)不會(huì)太少,而兩個(gè)廣告超鏈接或?qū)Ш匠溄又g的中文文字個(gè)數(shù)很少,有時(shí)沒有,有時(shí)只有幾個(gè).因此在這里我們對兩個(gè)超鏈接之間的中文文字個(gè)數(shù)設(shè)置了一個(gè)閾值用來判斷是否為正文超鏈接,通過實(shí)驗(yàn)證明,15個(gè)字?jǐn)?shù)的區(qū)分度較為合適.

        本文基于以上的啟發(fā)式規(guī)則,提出了一種超鏈接判斷正文過濾法的新算法.該算法主要思想是通過判斷網(wǎng)頁中出現(xiàn)的超鏈接的性質(zhì),來判斷超鏈接前后的文字是否是網(wǎng)頁正文.

        在經(jīng)過網(wǎng)頁預(yù)處理后,這時(shí)只剩下超鏈接標(biāo)簽還沒有刪除,開始對標(biāo)記之后的HTML代碼做逐字掃描,以“

        超鏈接判斷正文過濾法的具體算法如算法1所示:

        算法1 超鏈接判斷正文過濾算法

        程序流程圖如圖2所示:

        圖2 程序模塊流程圖

        3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

        超鏈接判斷正文過濾法的程序?qū)崿F(xiàn)是采用的D elphi7設(shè)計(jì)的,開發(fā)的硬件平臺為:pen tium 4 2.4G的CPU,512M內(nèi)存.為了驗(yàn)證這個(gè)新算法的正確性,從各大網(wǎng)站下載了1萬張網(wǎng)頁進(jìn)行了實(shí)驗(yàn),并隨機(jī)抽取了1000張網(wǎng)頁的處理結(jié)果進(jìn)行驗(yàn)證,只有少數(shù)幾個(gè)網(wǎng)頁沒有抽取出正文,經(jīng)分析發(fā)現(xiàn)是由于該網(wǎng)頁是一個(gè)網(wǎng)站的首頁,全部是鏈接構(gòu)成的,沒有正文部分,故認(rèn)為程序是正確的.該程序在執(zhí)行效率上也是很好的,對一個(gè)1000字左右的網(wǎng)頁抽取正文,平均時(shí)間為17毫秒.并且本算法克服了分塊算法容易出現(xiàn)的錯(cuò)誤,即找錯(cuò)網(wǎng)頁正文所在的塊.如鏈接地址為h ttp://new s.sina.com.cn/w/p/2006-12-30/ 180811925138.sh tm l的網(wǎng)頁,它的正文部分只有一句話,而與正文無關(guān)的廣告卻占了很大篇幅,這樣就會(huì)造成網(wǎng)頁正文提取的失敗,而本算法可以順利提取出該網(wǎng)頁的正文部分.如圖3所示:

        圖3 網(wǎng)頁正文提取實(shí)例

        經(jīng)過一些有代表性的網(wǎng)站(見表1)測試,我們認(rèn)為,該方法能有效得到大部分HTML網(wǎng)頁的正文部分.

        表1 經(jīng)過測試的網(wǎng)站

        為了驗(yàn)證本算法的效果,采用聚類實(shí)驗(yàn)來檢驗(yàn).在聚類實(shí)驗(yàn)中,準(zhǔn)備五類網(wǎng)頁,分別為:時(shí)尚類、體育類、娛樂類、政治類、汽車類,每類網(wǎng)頁數(shù)為30.本文做了兩組實(shí)驗(yàn),在第一組實(shí)驗(yàn)中,沒有使用網(wǎng)頁正文提取而直接對網(wǎng)頁提取特征描述,然后采用遺傳算法與k-m eans結(jié)合的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在第二組實(shí)驗(yàn)中,先調(diào)用本文中的算法來得到網(wǎng)頁測試集的正文,然后得到網(wǎng)頁的特征描述,最后采用的與第一組相同的聚類方法聚類,記錄聚類的實(shí)驗(yàn)數(shù)據(jù).在這里,本文使用網(wǎng)頁的召回率和精確率來描述聚類的結(jié)果.

        兩組實(shí)驗(yàn)的數(shù)據(jù)結(jié)果對比如圖4、圖5所示:

        圖4 召回率對比

        圖5 精確率對比

        通過圖4、圖5所做的對比可知,在使用了本算法的第二組數(shù)據(jù)中,聚類的召回率和精確率都有了改進(jìn),特別是精確率有了明顯的提高.

        4 結(jié)束語

        網(wǎng)頁文檔是網(wǎng)上應(yīng)用最多的文件格式,處理好網(wǎng)頁文檔對處理網(wǎng)上的信息內(nèi)容有很大的意義.本文提出了一種網(wǎng)頁文檔提取正文的方法,該方法通過分析網(wǎng)頁中出現(xiàn)的超鏈接,得到網(wǎng)頁的正文.測試表明該方法能有效地得到大部分網(wǎng)頁的主體部分.本文中對HTML文件正文提取的方法不僅可以用于提取出HTML文件的主體文本,還可以用于網(wǎng)頁的特征提取以及網(wǎng)頁的分類、推薦等web服務(wù)領(lǐng)域,具有較強(qiáng)的推廣應(yīng)用價(jià)值.

        [1]Tkach D.Technology TextM in ing:Turn ing Inform ation into Know ledge[R].America:AW hite Paper from IBM,1998.

        [2]Baizilay R,ElhadadM.U sing LexicalChains for Text Summ arization[C].M adrid,Spain:Proceeding of the ACL’97/EACL’97W orkshop on Intelligent Scalable Text Summarization,1997.

        [3]Sh ianHuaL in,JanM ingHo.D iscovering inform ative contentblocks from W eb documents[C].Edmonton:SIGKDD,2002.

        [4]Chen J.,Zhou B.,Shi J.,Zhang H.-J.,Q iu F.Function Based ObjectModel TowardsW ebsite Adap tation[C].Hong kong:Procrrdingsof the 10 thW orldW ideW eb conference,2001.

        [5]KovaceivicM.,D iligentiM.,Gori,M.,M ilutinovic V..Recognition of Common A reas in aW eb Page U sing V isual Information[C]. M aebashi TERRSAA:A possible app lication in a page classification.Proceedings of 2002 IEEE International Conference on Data M ining( ICDMp02),2002.

        [6]Yu S.,CaiD.,W en J.-R.,M aW.-Y..Imp roving Pseudo Relevance Feedback inW eb Inform ation retrievalUsingW eb Page Segmentation[C].Budapest:Proceedingsof twelfthW orldW ideW eb Conference(WWW 2003),2003.

        [7]Lan Yi,B ing L iu,XiaoliL i.Elim inatingNoisy Inform ation inW eb Pages forDataM ing[C].W ashington:Proceed ingsof the nin th ACM SIGKDD international conference on Know ledge discovery and datam ining,2003.

        Research on M a in Tex t Ex traction for Ch ineseW eb Pages Based onW eb Hyper link

        REN X iang,L IU B in
        (Schoolof Info rm ation Science and Techno logy,Taishan University,Tai’an,271021,China)

        W ith the inc rease of In ternet,w eb service has been the focusof research.The paperp roposes a Chineseweb pagesp rep rocessingm ethod.Them ethod can parsew eb pages,and extract them ain part from theweb pages.The experim ent show s that them ethod is feasib le to parsew eb pages.

        m ain textofweb pages;web service;hyperlink

        TP391

        A

        1672-2590(2010)03-0044-05

        2010-03-28

        任 翔(1983-),男,山東泰安人,泰山學(xué)院信息科學(xué)技術(shù)學(xué)院教師.

        猜你喜歡
        正文網(wǎng)頁標(biāo)簽
        更正聲明
        傳媒論壇(2022年9期)2022-02-17 19:47:54
        更正啟事
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        標(biāo)簽化傷害了誰
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        小妖精又紧又湿高潮h视频69 | 毛片免费视频在线观看| 欧美黑人巨大xxxxx| 红杏性无码免费专区| 亚洲人妻御姐中文字幕| 国产精品午夜福利视频234区| 精品国模一区二区三区| 亚洲都市校园激情另类| 久久精品娱乐亚洲领先| 人妻无码Aⅴ中文系列| 99久久精品国产一区色| 国产中文字幕免费视频一区| 亚洲av无码乱码国产精品久久| 亚洲经典三级| 99视频全部免费精品全部四虎| 国产一精品一aⅴ一免费| 大香蕉视频在线青青草| 中文字幕在线日亚州9 | 国产一级内射视频在线观看| 亚洲色精品aⅴ一区区三区| 国产真人无遮挡免费视频| 人妻精品久久久一区二区| 亚洲 小说区 图片区 都市| 中文国产日韩欧美二视频| 国产精品刺激好大好爽视频| 亚洲一区精品一区在线观看| 日本一区二区三区高清在线视频 | 嫩草伊人久久精品少妇av| 大地资源中文第3页| 国产精品麻豆综合在线| 无码国产精品色午夜| 国产交换精品一区二区三区| 妺妺窝人体色www看美女| 亚洲精品国产字幕久久vr| 日韩精品一区二区三区免费观影| 人人妻人人澡人人爽国产| a级国产乱理论片在线观看| av无码特黄一级| 日韩肥臀人妻中文字幕一区| 久久精品国产自在天天线| 99久久久无码国产精品9|