亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究

2017-08-10 09:52:39羅糧朱儒明

現(xiàn)代計(jì)算機(jī) 2017年15期

關(guān)鍵詞：新聞標(biāo)題

羅糧，朱儒明

（重慶城市管理職業(yè)學(xué)院，重慶 401331）

基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究

羅糧，朱儒明

（重慶城市管理職業(yè)學(xué)院，重慶 401331）

通過分析網(wǎng)頁信息抽取技術(shù)和正則表達(dá)式相關(guān)理論，提出基于正則表達(dá)式的Web信息抽取方法，并設(shè)計(jì)相應(yīng)的網(wǎng)頁信息抽取算法。通過對(duì)此算法實(shí)現(xiàn)的信息抽取系統(tǒng)進(jìn)行測(cè)試實(shí)驗(yàn)表明，所提出的Web頁面信息抽取方法能達(dá)到較高的召回率和準(zhǔn)確率。

信息抽??；正則表達(dá)式；網(wǎng)頁信息

0 引言

隨著互聯(lián)網(wǎng)時(shí)代的到來，Internet上大量的Web信息已成為最大和最重要的數(shù)據(jù)來源，如何在這些海量信息中提取有價(jià)值、有針對(duì)性的數(shù)據(jù)信息，已越來越成為備受重視的研究課題。從Web中提取的信息，有很高的實(shí)用價(jià)值，不僅可為用戶直接提供其關(guān)注的有用信息，而且可為其他一些專家系統(tǒng)、大數(shù)據(jù)分析等提供有價(jià)值的數(shù)據(jù)源。

互聯(lián)網(wǎng)上的Web信息有其特殊的結(jié)構(gòu)和組織方式，大部分基于HTML語言，具有半結(jié)構(gòu)化的特點(diǎn)，如何從這些半結(jié)構(gòu)化的資源中抽取出有用有價(jià)值的信息，并將其用結(jié)構(gòu)化和可視化的形式呈現(xiàn)出來，是Web信息提取技術(shù)的核心。本文通過正則表達(dá)式(Regular Expression)準(zhǔn)確、強(qiáng)大的模式匹配和數(shù)據(jù)提取功能進(jìn)行信息抽取算法（或Web內(nèi)容信息抽取系統(tǒng)）的設(shè)計(jì)，具有較高的準(zhǔn)確率和抽全率，提高了信息提取及處理的自動(dòng)化效率，減少了人工手工操作工作量，對(duì)于其他專家系統(tǒng)如輿情分析系統(tǒng)、智能搜索引擎、大數(shù)據(jù)分析系統(tǒng)等也有很好的參考價(jià)值。

1 Web信息特點(diǎn)與正則表達(dá)式

1.1 Web 頁面信息格式分析

互聯(lián)網(wǎng)中存在海量的Web信息資源，而這些資源大部分以Web網(wǎng)頁為信息的載體，主要采取不同版本的HTML語言或者其他類型的文本標(biāo)記語言編寫，在HT?ML文檔中，主要使用以“<”和“>”符號(hào)包含的特定字符串，稱為HTML標(biāo)記符，大部分標(biāo)記成對(duì)出現(xiàn)，中間相夾正文內(nèi)容，或格式設(shè)置等命令。整個(gè)頁面文檔就由這些HTML標(biāo)記與各種離散文本，包括正文文本、鏈接、導(dǎo)航、廣告、版權(quán)信息等等字符串序列內(nèi)容共同組成?？蛻舳藶g覽器會(huì)解析這些HTML編碼，從而呈現(xiàn)出用戶看到的各種文字、音視頻、圖片、動(dòng)畫等信息，而真正使這些信息能夠顯示的正是這些種類的超文本標(biāo)記語言。其中的HTML標(biāo)記控制著文字、音視頻、圖片等各種內(nèi)容的顯示，但本身不帶有語義，主要用于數(shù)據(jù)的表現(xiàn)，其他離散的正文文本則是真正有價(jià)值的抽取信息，除此外還有導(dǎo)航、友情鏈接、廣告等一些噪音信息。

總之，Web信息，大部分為HTML文檔格式，屬于一種半結(jié)構(gòu)化的文檔，存在著一些可以直接處理的結(jié)構(gòu)化的信息，但是語法語義信息的作用有限，還有一定量的噪音信息，使得固定抽取規(guī)則的編寫方式存在一定的難度。

1.2 正則表達(dá)式

正則表達(dá)式（Regular Expression)的功能和匹配規(guī)則都很強(qiáng)大，經(jīng)常用于字符串的模式匹配和查找搜索等操作，它是由兩類字符構(gòu)成的文本模式串，一類是普通的字符，如ASCII字符等，另一類則是特殊字符，被稱為正則表達(dá)式‘元字符’，如+、*、[、]等；這兩類字符可以共同構(gòu)成一種字符模式串，通過它可設(shè)置復(fù)雜的控制規(guī)則，從而匹配到一組或者一類特定的字符串，通過模式串與待查找原串的匹配，得到的結(jié)果就是要匹配或要搜索查找的那一組或一類字符串。因此，正則表達(dá)式常用來快速而高效地處理文本類信息。

2 Web信息抽取算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)

2.1 Web 頁面預(yù)處理

Web頁面是一種半結(jié)構(gòu)化文檔，在信息提取前先要進(jìn)行預(yù)處理，即規(guī)范化處理，將其轉(zhuǎn)化為格式良好的XML格式文檔[3]。預(yù)處理主要包含以下內(nèi)容：

（1）統(tǒng)一網(wǎng)頁編碼，包含漢語的頁面編碼主要有：國(guó)標(biāo)碼（GBK）、UTF-8、大五碼（Big5）及Unicode編碼等。需要統(tǒng)一為UTF-8或GBK等標(biāo)準(zhǔn)編碼。

（2）每個(gè)網(wǎng)頁需有一個(gè)根元素，為。全部的html元素標(biāo)簽均統(tǒng)一轉(zhuǎn)換為小寫或大寫，以便后期HT?ML的遍歷與信息提取。

（3）修正html元素標(biāo)簽，使每一個(gè)開始標(biāo)記，并且保證html標(biāo)簽的正確嵌套。如將修正為< XX>。

（4）其他需修正的html規(guī)范，如html標(biāo)記的屬性，統(tǒng)一為屬性="值"的形式，屬性名要與屬性值一一對(duì)應(yīng)，屬性值須用英文雙引號(hào)包含。

2.2 網(wǎng)頁清洗

網(wǎng)頁清洗即網(wǎng)頁去噪，即過濾掉html標(biāo)簽中與信息抽取無關(guān)的噪音信息。主要包含以下幾個(gè)方面的清洗：

（1）多余的空白符、無實(shí)際內(nèi)容的嵌套標(biāo)記，如之類的空標(biāo)記。

（2）注釋、一些格式標(biāo)記、排版標(biāo)記等，與正文相關(guān)性不大的網(wǎng)頁節(jié)點(diǎn)，如script、div、style、object、type等。

（3）廣告內(nèi)容和與正文相關(guān)性不大的友情鏈接等的網(wǎng)頁噪聲。根據(jù)統(tǒng)計(jì)，這部分噪聲大都集中于部分table節(jié)點(diǎn)中。此步需根據(jù)統(tǒng)計(jì)原理，分析統(tǒng)計(jì)出有用字符數(shù)的比例，再根據(jù)正文相關(guān)度進(jìn)行篩選和清洗。

2.3 正則表達(dá)式抽取模式串設(shè)計(jì)

在利用正則表達(dá)式進(jìn)行Web信息抽取時(shí)，首先需設(shè)計(jì)好要抽取信息對(duì)應(yīng)的正則表達(dá)式匹配模式串，然后把預(yù)處理的網(wǎng)頁信息處理成字符串形式，從而進(jìn)行匹配得到要提取的信息。實(shí)際應(yīng)用當(dāng)中，應(yīng)該根據(jù)不同的抽取需求編寫具體對(duì)應(yīng)的正則表達(dá)式模式串進(jìn)行匹配，例如常見的電郵和超鏈接的匹配模式串如下表所示：

表1 正則表達(dá)式匹配模式串

2.4 正則表達(dá)式抽取算法設(shè)計(jì)

設(shè)定正則表達(dá)式匹配模式串集合為S={s1，s2，…，sn}F={fl，f2，…，fn}，Web頁面節(jié)點(diǎn)集合 NodeSet= {node1，node2，…，nodeN}。

（1）輸入：網(wǎng)頁URL（例如待抽取的為新聞頁面——網(wǎng)易，URL=WWW.163.COM）。

（2）輸出：需提取的Web頁面信息，如正文中關(guān)鍵詞，新聞標(biāo)題、作者、鏈接等各種相關(guān)信息數(shù)據(jù)。

（3）建立輸出數(shù)據(jù)信息集合節(jié)點(diǎn)ResultSetInfo，初始化為空集，主要用于存放輸出的文本信息節(jié)點(diǎn)。在正則表達(dá)式集合S中利用要抽取信息對(duì)應(yīng)的模式串s1|s2…|sn，從集合NodeSet中找到對(duì)應(yīng)信息項(xiàng)相關(guān)度最高的標(biāo)簽節(jié)點(diǎn)nodek（1≤k≤N）。

（4）遞歸遍歷nodek中的節(jié)點(diǎn)，通過正則表達(dá)式集S匹配到對(duì)應(yīng)文本信息節(jié)點(diǎn)TxtNodej（j≥1）存入集合ResultSetInfo，得到輸出集合ResultSetInfo={TxtNode1，TxtNode2，…，TxtNodej}。

3 系統(tǒng)測(cè)試與實(shí)驗(yàn)結(jié)果分析

通過上述Web頁面信息提取算法，就可以設(shè)計(jì)與實(shí)現(xiàn)出相應(yīng)的信息抽取系統(tǒng)。系統(tǒng)主要用Java語言實(shí)現(xiàn)，后臺(tái)數(shù)據(jù)庫(kù)采用MySQL，同時(shí)，再利用Java開源庫(kù)HTMLParser（小巧快速的純java編寫HTML解析庫(kù)，主要用于改造或提取HTML），就可設(shè)計(jì)出接口統(tǒng)一、功能完備的通用Web信息抽取系統(tǒng)。

利用Web信息抽取系統(tǒng)以不同網(wǎng)站為實(shí)例進(jìn)行抽取測(cè)試，得到召回率和準(zhǔn)確率等指標(biāo)數(shù)據(jù)如下表所示：

表2 系統(tǒng)實(shí)驗(yàn)測(cè)試數(shù)據(jù)

通過上述測(cè)試數(shù)據(jù)可發(fā)現(xiàn)，本信息抽取算法具有良好的抽取效果，利用此算法設(shè)計(jì)的系統(tǒng)，對(duì)新聞、論壇和博客、校園網(wǎng)等各類網(wǎng)站的信息抽取都能達(dá)到較高的召回率和準(zhǔn)確率。

4 結(jié)語

Web信息抽取技術(shù)對(duì)于從海量網(wǎng)絡(luò)資源中準(zhǔn)確、快速提取到我們需要的信息，以便進(jìn)行后期處理具有十分重要的意義。本文通過研究目前Web信息抽取方法的特點(diǎn)，和正則表達(dá)式技術(shù)，提出了一種基于正則表達(dá)式的網(wǎng)頁信息提取算法并設(shè)計(jì)了相應(yīng)的Web信息抽取系統(tǒng)。最后通過系統(tǒng)測(cè)試實(shí)驗(yàn)結(jié)果證明，本系統(tǒng)具有較高的準(zhǔn)確率與召回率，也可整合進(jìn)其他各種信息系統(tǒng)，為其提供數(shù)據(jù)源，有較高的實(shí)用應(yīng)用價(jià)值。

圖1 召回率與準(zhǔn)確率統(tǒng)計(jì)圖

[1]Luke Welling等著，武欣譯.PHP和MySQL Web開發(fā)[M].北京：機(jī)械工業(yè)出版社，2014.

[2]袁津生，蔡岳.搜索引擎原理與實(shí)踐[M].北京：北京郵電大學(xué)出版社，2008.

[3]Basu S，Bilenko M，Mooney R.A Probabilistic Framework for Semi-Supervised Clustering.In：Proceedings of 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2004.

[4]Wang X，Wu H，Wei L，Zhou A.A Similarity-Based Analysis Model for Topic Distillation.International Journal of Computational Intelligence and Application，2002，2（3）：267-275.

[5]韓忠明，李文正，莫倩.有效HTML文本信息抽取方法的研究[J].計(jì)算機(jī)應(yīng)用研究，2008，25（12）:3560-3564

[6]李中言，李普躍.信息抽取技術(shù)在數(shù)字圖書館中的應(yīng)用[J].現(xiàn)代情報(bào)，2007，10（10）:96-97.

[7]王磊，陳曙暉，蘇金樹等.深度報(bào)文檢測(cè)中基于GPU的正則表達(dá)式匹配引擎[J].計(jì)算機(jī)應(yīng)用研究，2010，27（11）:4324-4327.

[8]陳瓊，蘇文健.基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J].計(jì)算機(jī)工程，2005，15（20）:54-55.

[9]韓存鴿.Web信息抽取方法研究［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2009.

[10]黃穎，黃治平.HTML Parser提取網(wǎng)頁信息的設(shè)計(jì)與實(shí)現(xiàn)[J].江西理工大學(xué)學(xué)報(bào)，2007，18（6）:21-23.

[11]張麗娜，陳俊杰，趙麗欣.基于HTMLParser的BT種子網(wǎng)頁信息抽取[J].電腦開發(fā)與應(yīng)用，2010.

[12]靳小川，劉萬軍，趙雷.基于正則表達(dá)式的企業(yè)主頁信息抽取[J[.計(jì)算機(jī)系統(tǒng)應(yīng)用，2010.

Research on Web Information Extraction Technology Based on Regular Expression

LUO Liang，ZHU Ru-ming

（Chongqing City Management College，Chongqing 401331）

Through the analysis of Web information extraction technology and regular expression theory,proposes a Web information extraction meth?od based on regular expression and designs a corresponding Web page information extraction algorithm.The experiment results show that the information extraction system based on this algorithm can achieve high recall ratio and retrieval precision.

羅糧（1977-），男，重慶沙坪壩人，碩士，講師，研究方向?yàn)榉植际接?jì)算、軟件復(fù)用

2017-03-14

2017-05-03

重慶城市管理職業(yè)學(xué)院科研項(xiàng)目（No.2015kyxm017）、重慶市教委科學(xué)技術(shù)研究項(xiàng)目（No.KJ1503208）、重慶市教育科學(xué)“十三五”規(guī)劃2016年度課題（No.2016-GX-183）

1007-1423（2017）15-0017-04

10.3969/j.issn.1007-1423.2017.15.004

朱儒明（1965-），男，重慶巴南人，本科，副教授，研究方向?yàn)檐浖こ?、自組織網(wǎng)絡(luò)

Information Extraction;Regular Expression;Web Page Information