亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究

        2017-08-10 09:52:39羅糧朱儒明
        現(xiàn)代計(jì)算機(jī) 2017年15期
        關(guān)鍵詞:新聞標(biāo)題

        羅糧,朱儒明

        (重慶城市管理職業(yè)學(xué)院,重慶 401331)

        基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究

        羅糧,朱儒明

        (重慶城市管理職業(yè)學(xué)院,重慶 401331)

        通過分析網(wǎng)頁信息抽取技術(shù)和正則表達(dá)式相關(guān)理論,提出基于正則表達(dá)式的Web信息抽取方法,并設(shè)計(jì)相應(yīng)的網(wǎng)頁信息抽取算法。通過對(duì)此算法實(shí)現(xiàn)的信息抽取系統(tǒng)進(jìn)行測(cè)試實(shí)驗(yàn)表明,所提出的Web頁面信息抽取方法能達(dá)到較高的召回率和準(zhǔn)確率。

        信息抽??;正則表達(dá)式;網(wǎng)頁信息

        0 引言

        隨著互聯(lián)網(wǎng)時(shí)代的到來,Internet上大量的Web信息已成為最大和最重要的數(shù)據(jù)來源,如何在這些海量信息中提取有價(jià)值、有針對(duì)性的數(shù)據(jù)信息,已越來越成為備受重視的研究課題。從Web中提取的信息,有很高的實(shí)用價(jià)值,不僅可為用戶直接提供其關(guān)注的有用信息,而且可為其他一些專家系統(tǒng)、大數(shù)據(jù)分析等提供有價(jià)值的數(shù)據(jù)源。

        互聯(lián)網(wǎng)上的Web信息有其特殊的結(jié)構(gòu)和組織方式,大部分基于HTML語言,具有半結(jié)構(gòu)化的特點(diǎn),如何從這些半結(jié)構(gòu)化的資源中抽取出有用有價(jià)值的信息,并將其用結(jié)構(gòu)化和可視化的形式呈現(xiàn)出來,是Web信息提取技術(shù)的核心。本文通過正則表達(dá)式(Regular Expression)準(zhǔn)確、強(qiáng)大的模式匹配和數(shù)據(jù)提取功能進(jìn)行信息抽取算法(或Web內(nèi)容信息抽取系統(tǒng))的設(shè)計(jì),具有較高的準(zhǔn)確率和抽全率,提高了信息提取及處理的自動(dòng)化效率,減少了人工手工操作工作量,對(duì)于其他專家系統(tǒng)如輿情分析系統(tǒng)、智能搜索引擎、大數(shù)據(jù)分析系統(tǒng)等也有很好的參考價(jià)值。

        1 Web信息特點(diǎn)與正則表達(dá)式

        1.1 Web 頁面信息格式分析

        互聯(lián)網(wǎng)中存在海量的Web信息資源,而這些資源大部分以Web網(wǎng)頁為信息的載體,主要采取不同版本的HTML語言或者其他類型的文本標(biāo)記語言編寫,在HT?ML文檔中,主要使用以“<”和“>”符號(hào)包含的特定字符串,稱為HTML標(biāo)記符,大部分標(biāo)記成對(duì)出現(xiàn),中間相夾正文內(nèi)容,或格式設(shè)置等命令。整個(gè)頁面文檔就由這些HTML標(biāo)記與各種離散文本,包括正文文本、鏈接、導(dǎo)航、廣告、版權(quán)信息等等字符串序列內(nèi)容共同組成??蛻舳藶g覽器會(huì)解析這些HTML編碼,從而呈現(xiàn)出用戶看到的各種文字、音視頻、圖片、動(dòng)畫等信息,而真正使這些信息能夠顯示的正是這些種類的超文本標(biāo)記語言。其中的HTML標(biāo)記控制著文字、音視頻、圖片等各種內(nèi)容的顯示,但本身不帶有語義,主要用于數(shù)據(jù)的表現(xiàn),其他離散的正文文本則是真正有價(jià)值的抽取信息,除此外還有導(dǎo)航、友情鏈接、廣告等一些噪音信息。

        總之,Web信息,大部分為HTML文檔格式,屬于一種半結(jié)構(gòu)化的文檔,存在著一些可以直接處理的結(jié)構(gòu)化的信息,但是語法語義信息的作用有限,還有一定量的噪音信息,使得固定抽取規(guī)則的編寫方式存在一定的難度。

        1.2 正則表達(dá)式

        正則表達(dá)式(Regular Expression)的功能和匹配規(guī)則都很強(qiáng)大,經(jīng)常用于字符串的模式匹配和查找搜索等操作,它是由兩類字符構(gòu)成的文本模式串,一類是普通的字符,如ASCII字符等,另一類則是特殊字符,被稱為正則表達(dá)式‘元字符’,如+、*、[、]等;這兩類字符可以共同構(gòu)成一種字符模式串,通過它可設(shè)置復(fù)雜的控制規(guī)則,從而匹配到一組或者一類特定的字符串,通過模式串與待查找原串的匹配,得到的結(jié)果就是要匹配或要搜索查找的那一組或一類字符串。因此,正則表達(dá)式常用來快速而高效地處理文本類信息。

        2 Web信息抽取算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)

        2.1 Web 頁面預(yù)處理

        Web頁面是一種半結(jié)構(gòu)化文檔,在信息提取前先要進(jìn)行預(yù)處理,即規(guī)范化處理,將其轉(zhuǎn)化為格式良好的XML格式文檔[3]。預(yù)處理主要包含以下內(nèi)容:

        (1)統(tǒng)一網(wǎng)頁編碼,包含漢語的頁面編碼主要有:國(guó)標(biāo)碼(GBK)、UTF-8、大五碼(Big5)及Unicode編碼等。需要統(tǒng)一為UTF-8或GBK等標(biāo)準(zhǔn)編碼。

        (2)每個(gè)網(wǎng)頁需有一個(gè)根元素,為。全部的html元素標(biāo)簽均統(tǒng)一轉(zhuǎn)換為小寫或大寫,以便后期HT?ML的遍歷與信息提取。

        (3)修正html元素標(biāo)簽,使每一個(gè)開始標(biāo)記,并且保證html標(biāo)簽的正確嵌套。如將修正為< XX>。

        (4)其他需修正的html規(guī)范,如html標(biāo)記的屬性,統(tǒng)一為屬性="值"的形式,屬性名要與屬性值一一對(duì)應(yīng),屬性值須用英文雙引號(hào)包含。

        2.2 網(wǎng)頁清洗

        網(wǎng)頁清洗即網(wǎng)頁去噪,即過濾掉html標(biāo)簽中與信息抽取無關(guān)的噪音信息。主要包含以下幾個(gè)方面的清洗:

        (1)多余的空白符、無實(shí)際內(nèi)容的嵌套標(biāo)記,如之類的空標(biāo)記。

        (2)注釋、一些格式標(biāo)記、排版標(biāo)記等,與正文相關(guān)性不大的網(wǎng)頁節(jié)點(diǎn),如script、div、style、object、type等。

        (3)廣告內(nèi)容和與正文相關(guān)性不大的友情鏈接等的網(wǎng)頁噪聲。根據(jù)統(tǒng)計(jì),這部分噪聲大都集中于部分table節(jié)點(diǎn)中。此步需根據(jù)統(tǒng)計(jì)原理,分析統(tǒng)計(jì)出有用字符數(shù)的比例,再根據(jù)正文相關(guān)度進(jìn)行篩選和清洗。

        2.3 正則表達(dá)式抽取模式串設(shè)計(jì)

        在利用正則表達(dá)式進(jìn)行Web信息抽取時(shí),首先需設(shè)計(jì)好要抽取信息對(duì)應(yīng)的正則表達(dá)式匹配模式串,然后把預(yù)處理的網(wǎng)頁信息處理成字符串形式,從而進(jìn)行匹配得到要提取的信息。實(shí)際應(yīng)用當(dāng)中,應(yīng)該根據(jù)不同的抽取需求編寫具體對(duì)應(yīng)的正則表達(dá)式模式串進(jìn)行匹配,例如常見的電郵和超鏈接的匹配模式串如下表所示:

        表1 正則表達(dá)式匹配模式串

        2.4 正則表達(dá)式抽取算法設(shè)計(jì)

        設(shè)定正則表達(dá)式匹配模式串集合為S={s1,s2,…,sn}F={fl,f2,…,fn},Web頁面節(jié)點(diǎn)集合 NodeSet= {node1,node2,…,nodeN}。

        (1)輸入:網(wǎng)頁URL(例如待抽取的為新聞頁面——網(wǎng)易,URL=WWW.163.COM)。

        (2)輸出:需提取的Web頁面信息,如正文中關(guān)鍵詞,新聞標(biāo)題、作者、鏈接等各種相關(guān)信息數(shù)據(jù)。

        (3)建立輸出數(shù)據(jù)信息集合節(jié)點(diǎn)ResultSetInfo,初始化為空集,主要用于存放輸出的文本信息節(jié)點(diǎn)。在正則表達(dá)式集合S中利用要抽取信息對(duì)應(yīng)的模式串s1|s2…|sn,從集合NodeSet中找到對(duì)應(yīng)信息項(xiàng)相關(guān)度最高的標(biāo)簽節(jié)點(diǎn)nodek(1≤k≤N)。

        (4)遞歸遍歷nodek中的節(jié)點(diǎn),通過正則表達(dá)式集S匹配到對(duì)應(yīng)文本信息節(jié)點(diǎn)TxtNodej(j≥1)存入集合ResultSetInfo,得到輸出集合ResultSetInfo={TxtNode1,TxtNode2,…,TxtNodej}。

        3 系統(tǒng)測(cè)試與實(shí)驗(yàn)結(jié)果分析

        通過上述Web頁面信息提取算法,就可以設(shè)計(jì)與實(shí)現(xiàn)出相應(yīng)的信息抽取系統(tǒng)。系統(tǒng)主要用Java語言實(shí)現(xiàn),后臺(tái)數(shù)據(jù)庫(kù)采用MySQL,同時(shí),再利用Java開源庫(kù)HTMLParser(小巧快速的純java編寫HTML解析庫(kù),主要用于改造或提取HTML),就可設(shè)計(jì)出接口統(tǒng)一、功能完備的通用Web信息抽取系統(tǒng)。

        利用Web信息抽取系統(tǒng)以不同網(wǎng)站為實(shí)例進(jìn)行抽取測(cè)試,得到召回率和準(zhǔn)確率等指標(biāo)數(shù)據(jù)如下表所示:

        表2 系統(tǒng)實(shí)驗(yàn)測(cè)試數(shù)據(jù)

        通過上述測(cè)試數(shù)據(jù)可發(fā)現(xiàn),本信息抽取算法具有良好的抽取效果,利用此算法設(shè)計(jì)的系統(tǒng),對(duì)新聞、論壇和博客、校園網(wǎng)等各類網(wǎng)站的信息抽取都能達(dá)到較高的召回率和準(zhǔn)確率。

        4 結(jié)語

        Web信息抽取技術(shù)對(duì)于從海量網(wǎng)絡(luò)資源中準(zhǔn)確、快速提取到我們需要的信息,以便進(jìn)行后期處理具有十分重要的意義。本文通過研究目前Web信息抽取方法的特點(diǎn),和正則表達(dá)式技術(shù),提出了一種基于正則表達(dá)式的網(wǎng)頁信息提取算法并設(shè)計(jì)了相應(yīng)的Web信息抽取系統(tǒng)。最后通過系統(tǒng)測(cè)試實(shí)驗(yàn)結(jié)果證明,本系統(tǒng)具有較高的準(zhǔn)確率與召回率,也可整合進(jìn)其他各種信息系統(tǒng),為其提供數(shù)據(jù)源,有較高的實(shí)用應(yīng)用價(jià)值。

        圖1 召回率與準(zhǔn)確率統(tǒng)計(jì)圖

        [1]Luke Welling等著,武欣譯.PHP和MySQL Web開發(fā)[M].北京:機(jī)械工業(yè)出版社,2014.

        [2]袁津生,蔡岳.搜索引擎原理與實(shí)踐[M].北京:北京郵電大學(xué)出版社,2008.

        [3]Basu S,Bilenko M,Mooney R.A Probabilistic Framework for Semi-Supervised Clustering.In:Proceedings of 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004.

        [4]Wang X,Wu H,Wei L,Zhou A.A Similarity-Based Analysis Model for Topic Distillation.International Journal of Computational Intelligence and Application,2002,2(3):267-275.

        [5]韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(12):3560-3564

        [6]李中言,李普躍.信息抽取技術(shù)在數(shù)字圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2007,10(10):96-97.

        [7]王磊,陳曙暉,蘇金樹等.深度報(bào)文檢測(cè)中基于GPU的正則表達(dá)式匹配引擎[J].計(jì)算機(jī)應(yīng)用研究,2010,27(11):4324-4327.

        [8]陳瓊,蘇文健.基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J].計(jì)算機(jī)工程,2005,15(20):54-55.

        [9]韓存鴿.Web信息抽取方法研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009.

        [10]黃穎,黃治平.HTML Parser提取網(wǎng)頁信息的設(shè)計(jì)與實(shí)現(xiàn)[J].江西理工大學(xué)學(xué)報(bào),2007,18(6):21-23.

        [11]張麗娜,陳俊杰,趙麗欣.基于HTMLParser的BT種子網(wǎng)頁信息抽取[J].電腦開發(fā)與應(yīng)用,2010.

        [12]靳小川,劉萬軍,趙雷.基于正則表達(dá)式的企業(yè)主頁信息抽取[J[.計(jì)算機(jī)系統(tǒng)應(yīng)用,2010.

        Research on Web Information Extraction Technology Based on Regular Expression

        LUO Liang,ZHU Ru-ming

        (Chongqing City Management College,Chongqing 401331)

        Through the analysis of Web information extraction technology and regular expression theory,proposes a Web information extraction meth?od based on regular expression and designs a corresponding Web page information extraction algorithm.The experiment results show that the information extraction system based on this algorithm can achieve high recall ratio and retrieval precision.

        羅糧(1977-),男,重慶沙坪壩人,碩士,講師,研究方向?yàn)榉植际接?jì)算、軟件復(fù)用

        2017-03-14

        2017-05-03

        重慶城市管理職業(yè)學(xué)院科研項(xiàng)目(No.2015kyxm017)、重慶市教委科學(xué)技術(shù)研究項(xiàng)目(No.KJ1503208)、重慶市教育科學(xué)“十三五”規(guī)劃2016年度課題(No.2016-GX-183)

        1007-1423(2017)15-0017-04

        10.3969/j.issn.1007-1423.2017.15.004

        朱儒明(1965-),男,重慶巴南人,本科,副教授,研究方向?yàn)檐浖こ?、自組織網(wǎng)絡(luò)

        Information Extraction;Regular Expression;Web Page Information

        猜你喜歡
        新聞標(biāo)題
        談新聞標(biāo)題的現(xiàn)實(shí)性
        活力(2019年22期)2019-03-16 12:49:06
        網(wǎng)絡(luò)新聞標(biāo)題與報(bào)紙新聞標(biāo)題的對(duì)比
        活力(2019年22期)2019-03-16 12:48:00
        古典詩詞在新聞標(biāo)題中的運(yùn)用
        新聞傳播(2018年11期)2018-08-29 08:15:34
        淺談?dòng)⒄Z新聞標(biāo)題的翻譯
        無意間擊中幽默的新聞標(biāo)題
        喜劇世界(2016年9期)2016-08-24 06:17:26
        事件新聞標(biāo)題中“人名”直引運(yùn)用淺析
        新聞傳播(2016年3期)2016-07-12 12:55:43
        語用預(yù)設(shè)在新聞標(biāo)題中的作用
        新聞傳播(2016年2期)2016-07-12 10:52:18
        新聞標(biāo)題的制作技巧
        新聞傳播(2015年5期)2015-07-18 11:10:25
        新聞標(biāo)題制作的技巧
        新聞傳播(2015年8期)2015-07-18 11:08:24
        淺談新聞標(biāo)題的裝扮技巧
        新聞傳播(2015年22期)2015-07-18 11:04:06
        性色做爰片在线观看ww| 国产一区二区三区中出| 97超碰国产成人在线| 公和我做好爽添厨房中文字幕| 久久久久亚洲av无码a片软件| 欧美精品v欧洲高清| 亚洲hd高清在线一区二区| 色偷偷色噜噜狠狠网站30根 | 亚洲午夜精品第一区二区| 亚洲av永久无码精品古装片| 日本大片在线看黄a∨免费| 国产亚洲欧美日韩国产片| 国产一区二区三区四区在线视频| 永久天堂网av手机版| 越南女子杂交内射bbwbbw| 777久久| 午夜影院免费观看小视频| 中文字幕日韩三级片| 妺妺窝人体色www在线图片| 视频网站在线观看不卡| 一区二区三区视频亚洲| 亚洲国产天堂久久综合| 五月天欧美精品在线观看| av在线男人的免费天堂| 国产av无码专区亚洲av果冻传媒| 国产熟妇人妻精品一区二区动漫| 久久精品国产亚洲黑森林| 日韩亚洲在线观看视频| 国产精品av在线| 人与嘼av免费| 亚洲av一二三又爽又爽又色| 免费人成视频网站网址| 内谢少妇xxxxx8老少交| 久久久久一| 日本在线观看一二三区| 奇米影视第四色首页| 在线欧美精品二区三区| 日本加勒比一道本东京热| 免费人成在线观看| 亚洲av成人精品日韩一区| 国内精品人人妻少妇视频|