亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

正則表達(dá)式及其在信息抽取中的應(yīng)用

2009-04-29 00:00:00張靜張妍

電腦知識(shí)與技術(shù) 2009年15期

摘要:正則表達(dá)式是對(duì)一類字符串共性描述的規(guī)則，提供了一種從字符集合中搜尋特定字符串的機(jī)制。信息抽取的主要功能是從文本中抽取出特定的事實(shí)信息(factual information)。該文利用正則表示式快速匹配文本的特點(diǎn)，以抽取電子文檔的主要信息為例，介紹了正則表達(dá)式理論以及在信息抽取中的應(yīng)用。

關(guān)鍵詞:正則表達(dá)式;信息抽取

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)15-3867-02

Regular Expression and Application in Information Extraction

ZHANG Jing， ZHANG Yan

(Department of Teaching Administration，Tangshan teachers college， Hebei Tangshan 063000，China)

Abstract: Regular expression is the rules of describing strings with common property. It provides a method how to search especial strings from the set of strings. The main function of information extraction is to extract factual information from text document. This paper introduced the theory of regular expression， and take the web document and law document for example， demonstrated how to use regular expression to extract factual information from text document.

Key words:regular expression; information extraction

1 引言

因特網(wǎng)已經(jīng)成為人們獲取知識(shí)的不可或缺的手段，而因特網(wǎng)信息的表現(xiàn)形式大多為半結(jié)構(gòu)化的文本，降低了信息的利用率，經(jīng)過十幾年的發(fā)展，形成了以搜索引擎為代表的信息檢索技術(shù)，初步解決了信息檢索問題。人們信息抽取技術(shù)就是將獲取的信息根據(jù)預(yù)先定義的模板，從文本抽取特定的信息，形成結(jié)構(gòu)化的數(shù)據(jù)，幫助對(duì)信息內(nèi)容進(jìn)行分析和整理，因此信息抽取技術(shù)成為網(wǎng)絡(luò)信息處理中的新的研究熱點(diǎn)。

正則表達(dá)式是對(duì)一類字符串共性描述的規(guī)則，提供了一種從字符集合中搜尋特定字符串的機(jī)制。本文以抽取電子文檔的主要信息為例，介紹了正則表達(dá)式及其在信息抽取中的應(yīng)用。

2 正則表達(dá)式

正則表達(dá)式由美國(guó)數(shù)學(xué)家Stephen Kleene于1956年提出，主要用于描述正則集代數(shù)。隨后人們發(fā)現(xiàn)可以將此表達(dá)式應(yīng)用于實(shí)用Ken Thompson的計(jì)算搜索算法的一些早期研究。正則表達(dá)式的第一個(gè)實(shí)用應(yīng)用程序就是Unix中的qed編輯器。

正則表達(dá)式的形式為/匹配模式/，其中位于”/”定界符之間的部分就是將要在目標(biāo)對(duì)象中進(jìn)行匹配的模式。用戶只要把希望查找匹配對(duì)象的模式內(nèi)容放入”/”定界符之間即可。為了能夠更加靈活的定制模式內(nèi)容，正則表達(dá)式提供了專門的“元字符”。

所謂元字符就是指那些在正則表達(dá)式中具有特殊意義的專用字符，可以用來規(guī)定其前導(dǎo)字符(即位于元字符前面的字符)在目標(biāo)對(duì)象中的出現(xiàn)模式。

較為常用的元字符包括:”+”;”*”，以及”?”。其它主要元字符的使用方式如下:\\s用于匹配單個(gè)空格符，包括tab鍵和換行符;\\S用于匹配除單個(gè)空格符之外的所有字符;\\d用于匹配從0到9的數(shù)字;\\w用于匹配字母，數(shù)字或下劃線字符;\\W用于匹配所有于\\w不匹配的字符。

在正則表達(dá)式中，可以用方括號(hào)括起若干個(gè)字符來表示一個(gè)元字符。除元字符外，正則表達(dá)式支持限定符的概念。這些限定符可以指定正則表達(dá)式的一個(gè)給定組間必須要出現(xiàn)多少詞才能滿足匹配，因而可以適應(yīng)不知道要匹配多少字符時(shí)的不確定情況。限定符的使用說明如下:

1){n} n是一個(gè)非負(fù)整數(shù)。匹配確定的n次。例如，” o{2}”不能匹配”Bob”中的”o”，但是能匹配”food”中的兩個(gè)o。

2){n，} n是一個(gè)非負(fù)整數(shù)。至少匹配n次。例如，” o{2}”不能匹配”Bob”中的”o”，但是能匹配”fooooooood”中的所有o。”0{1，}”等價(jià)于”o+”，”o{0，}”則等價(jià)于”o*”。

3){n，m} m和n均是非負(fù)整數(shù)，其中n<=m。最少匹配n次且最多匹配m次。例如，

”o{1，3}”將匹配“fooooooood”中的前三個(gè)o。 “o{0，1}”等價(jià)于“o?”

正則表達(dá)式的優(yōu)點(diǎn)是簡(jiǎn)潔，結(jié)構(gòu)化，它提供了一種從字符集合著那個(gè)搜尋特定字符串的機(jī)制[2]。它可以讓用戶通過使用一系列的特殊字符構(gòu)建匹配模式，然后把匹配模式與數(shù)據(jù)文件、程序輸入等目標(biāo)對(duì)象進(jìn)行比較，根據(jù)目標(biāo)對(duì)象中是否包含匹配模式，執(zhí)行相應(yīng)的程序[3]。正則表達(dá)式有以下幾個(gè)主要功能，用于測(cè)試字符串的某個(gè)模式是否有效。如測(cè)試一個(gè)字符串是否符合E-mail的模式。替換文本功能，用于在文檔中使用匹配模式來標(biāo)識(shí)特定文字，然后將其刪除或進(jìn)行替換。提取子串功能，用于根據(jù)模式匹配，從字符串中提取一個(gè)子字符串。

3 信息抽取

隨著計(jì)算機(jī)的普及以及互聯(lián)網(wǎng)(WWW)的迅猛發(fā)展，大量的信息以電子文檔的形式出現(xiàn)在人們面前。為了應(yīng)對(duì)信息爆炸帶來的嚴(yán)重挑戰(zhàn)，迫切需要一些自動(dòng)化的工具幫助人們?cè)诤Ａ啃畔⒃粗醒杆僬业秸嬲枰男畔ⅰＰ畔⒊槿?Information Extraction)研究正是在這種背景下產(chǎn)生的。

信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息(factual information)。比如，從新聞報(bào)道中抽取出恐怖事件的詳細(xì)情況:時(shí)間、地點(diǎn)、作案者、受害人、襲擊目標(biāo)、使用的武器等;從經(jīng)濟(jì)新聞中抽取出公司發(fā)布新產(chǎn)品的情況:公司名、產(chǎn)品名、發(fā)布時(shí)間、產(chǎn)品性能等;從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄、檢驗(yàn)結(jié)果、處方等等。通常，被抽取出來的信息以結(jié)構(gòu)化的形式描述，可以直接存入數(shù)據(jù)庫(kù)中，供用戶查詢以及進(jìn)一步分析利用。

信息抽取處理的文本可分為三類:非結(jié)構(gòu)化文本、半結(jié)構(gòu)化文本和結(jié)構(gòu)化文檔。信息抽取最初目的是從非結(jié)構(gòu)化的普通文本中抽取有限的主要信息。非結(jié)構(gòu)化文本的信息抽取系統(tǒng)通常采用自然語言處理的方法，其抽取規(guī)則主要是通過建立在詞和詞類間句法關(guān)系的基礎(chǔ)上，需要結(jié)合機(jī)器學(xué)習(xí)等人工智能方面的技術(shù)對(duì)大量的文本進(jìn)行訓(xùn)練和學(xué)習(xí)。結(jié)構(gòu)化文本是根據(jù)某種約定格式生成的文本。從這樣的文本中抽取特定的信息只需按照約定的格式指定規(guī)則即可。半結(jié)構(gòu)化文本是一種介于非結(jié)構(gòu)化和結(jié)構(gòu)化文本之間的文本形式，如WEB網(wǎng)頁(yè)。另，如文本格式的法律條約，專利文獻(xiàn)等，看似為非結(jié)構(gòu)化的，但其內(nèi)容結(jié)構(gòu)都遵循有一定的模式結(jié)構(gòu)，因此也可以看作半結(jié)構(gòu)化的。

4 正則表達(dá)式在信息抽取中的應(yīng)用

對(duì)于信息抽取的任務(wù)，通常需要抽取的信息只是某一領(lǐng)域中數(shù)量有限的事件或關(guān)系。本文分別以web網(wǎng)頁(yè)和文本文檔為數(shù)據(jù)源，介紹了利用正則表達(dá)式，對(duì)其進(jìn)行信息抽取。

4.1 正則表達(dá)式在web新聞網(wǎng)頁(yè)中的信息抽取

信息網(wǎng)頁(yè)是具有很強(qiáng)開發(fā)價(jià)值的一類網(wǎng)頁(yè)，它具有時(shí)效性強(qiáng)，信息量大、結(jié)構(gòu)穩(wěn)定、更新快、需求廣泛、實(shí)用價(jià)值高等特點(diǎn)。其中各大門戶網(wǎng)站或新聞網(wǎng)站用來提供用戶檢索新聞之用的新聞頁(yè)面最具代表性。這類新聞網(wǎng)頁(yè)包含符合檢索條件的若干條新聞?dòng)涗?，可以用來指引用戶查閱新聞全文。這類新聞網(wǎng)頁(yè)其實(shí)就是各大網(wǎng)站給自己站內(nèi)的所有新聞網(wǎng)頁(yè)編的“索引”，能起到很好的說明和指示作用。

4.2 正則表達(dá)式在文本文檔中的信息抽取

電子文檔除上述web網(wǎng)頁(yè)格式外，還有一些信息是以文本格式存儲(chǔ)的。為充分利用現(xiàn)有資源，提高效率，將非結(jié)構(gòu)化的文本格式轉(zhuǎn)化成半結(jié)構(gòu)化的格式是必要的。下面本文介紹了如何將法律條文這種非結(jié)構(gòu)化的文件，利用正則表達(dá)式進(jìn)行信息抽取，轉(zhuǎn)化成半結(jié)構(gòu)化的形式。

對(duì)于法律條約，雖然是以非結(jié)構(gòu)化的格式存儲(chǔ)的，但其內(nèi)容本身是有結(jié)構(gòu)的。如每個(gè)條約包括序言和正文兩個(gè)組成部分;正文包含若干個(gè)章或編;每章包括若干個(gè)節(jié);每節(jié)包括若干個(gè)條;每條包含若干個(gè)款等。根據(jù)以上特點(diǎn)，我們可以使用正則表達(dá)式匹配條約正文中的特征文字，抽取相應(yīng)的信息，生成具有序言、章、節(jié)、條、款等層次結(jié)構(gòu)信息和其它屬性信息的法律條約。如抽取法律條約中的每一行內(nèi)容，其相應(yīng)的正則表達(dá)式為:”^([\\w\\W]*?)$” 其中，^表示一行的開始;()表示括號(hào)內(nèi)的內(nèi)容分組;[]表示里面的多個(gè)內(nèi)容中取一個(gè);\\w表示字母(a~z，A~Z)以外的字符;*表示后面接0個(gè)或多個(gè)字符;?表示后面接0個(gè)或一個(gè)字符;*?的結(jié)合表示后面可以接其它字符(不包含換行符);$表示行結(jié)束符。獲取章的標(biāo)題和內(nèi)容，并對(duì)每一章進(jìn)行節(jié)的解析;若不存在，直接進(jìn)行節(jié)的解析，則相關(guān)的正則表達(dá)式為:“^s\\*(第\\s*[^條節(jié)部分]{1，3}\\s*[章編])([\\w\\W]*?)$”。其中\(zhòng)\s表示空白字符(空格、tab 等);[^]除括號(hào)內(nèi)的符號(hào)外的其它符號(hào)(如[^條節(jié)]表示條、節(jié)的其它符號(hào));{1，3}表示前面的符號(hào)至少一個(gè)，至多三個(gè)。

5 結(jié)論

正則表達(dá)式是對(duì)一類字符串共性描述的規(guī)則，提供了一種從字符集合中搜尋特定字符串的機(jī)制。本文介紹了正則表達(dá)式的理論，并利用其快速匹配文本的特點(diǎn)，抽取Web文檔和法律條文兩種格式電子文檔中的主要信息，進(jìn)行信息抽取。通過以上實(shí)例，可以看出，對(duì)于半結(jié)構(gòu)化文本和結(jié)構(gòu)化文檔，正則表達(dá)式能夠很好的進(jìn)行信息抽取。而對(duì)于非結(jié)構(gòu)化的文檔，還有待進(jìn)一步研究。

參考文獻(xiàn):

[1] Liger F， Queen C M， Wilton P. C#字符串和正則表達(dá)式參考手冊(cè)[M].劉樂亭，譯.北京:清華大學(xué)出版社，2003.

[2] The Single Unix Specification，Version2[OL].Http://www.opengroup.org/onlinepubs/.

[3] 呂曉波.正則表達(dá)式使用詳解[OL].http://dev.csdn.net/article/8/8254.shtm.

[4] Harry R.Lweis， Christos H Papadimitriou.計(jì)算理論基礎(chǔ)[M]. 張立昂，劉田，譯. 北京:清華大學(xué)出版社，2000.

[5] 金成植，金英.編譯程序設(shè)計(jì)原理[M].北京:高等教育出版社，2007.

電腦知識(shí)與技術(shù)2009年15期

電腦知識(shí)與技術(shù)的其它文章: 基于續(xù)傳數(shù)據(jù)的動(dòng)態(tài)網(wǎng)絡(luò)交換模型; 基于ＷｅｂＳｅｒｖｉｃｅ企業(yè)級(jí)應(yīng)用分析與構(gòu)建; Ｐｅｔｒｉ網(wǎng)的工作流模型建模研究; 基于Ｊａｖａｓｃｒｉｐｔ的可編輯下拉列表框的設(shè)計(jì)與實(shí)現(xiàn); ＩＰｖ６地址實(shí)現(xiàn)機(jī)制; 公交優(yōu)先無線傳輸系統(tǒng)設(shè)計(jì)