亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文無關文法的數(shù)據(jù)抽取規(guī)則

        2010-08-15 00:52:52宋娜娜
        河南城建學院學報 2010年5期
        關鍵詞:文法字符串符號

        宋娜娜

        (鄭州航空工業(yè)管理學院信息科學學院,河南鄭州450000)

        通過分析大量的企業(yè)信息系統(tǒng)產(chǎn)生的文本數(shù)據(jù)的異同點,從文本數(shù)據(jù)攜帶的信息和數(shù)據(jù)結構形式出發(fā),將文本數(shù)據(jù)文件結構歸納為:

        文件名:在文件名中存在的一些重要數(shù)據(jù)應該被提取出來。

        文件內(nèi)容:文本文件的內(nèi)容是最重要的部分,從結構上又可將文件的內(nèi)容分為表頭、表體、表尾三大部分。分別表示實際數(shù)據(jù)的不同方面,綜合起來則可以表示完整的無缺失的數(shù)據(jù)。

        在對文本數(shù)據(jù)文件結構分析的基礎上,需要將這些數(shù)據(jù)的抽取規(guī)則[1]表示出來。文法是描述語言的語法結構的形式規(guī)則,這些規(guī)則是準確和易于理解的,而且有相當強的描述能力,足以描述各種不同的結構,上下文無關文法所定義的語法范疇是完全獨立于這種范疇可能出現(xiàn)的環(huán)境的[2],用上下文無關文法來表示數(shù)據(jù)抽取規(guī)則比較合適。

        1 上下文無關文法

        上下文無關文法包括四個組成部分:一組終結符號,一組非終結符號,一個開始符號以及一組產(chǎn)生式。

        形式上講,一個上下文無關文法G是一個四元式(Vt,Vn,S,Φ),其中:

        Vt是一個非空有限集,它的每個元素稱為終結符號;

        Vn是一個非空有限集,它的第個元素稱為非終結符號,Vt∩Vn=φ;

        S是一個非終結符號,稱為開始符號;

        Φ是一個產(chǎn)生式集合(非空有限集),每個產(chǎn)生式的形式是P→a,其中,P∈Vt,a∈(Vt∪Vn)*。開始符號S至少必須在某個產(chǎn)生式的左部出現(xiàn)一次。

        本文用::=代替→,用<>表示終結符號,用《》表示非終結符號。

        2 文件名結構分析

        大量的企業(yè)信息系統(tǒng)都有自己的一套文本數(shù)據(jù)文件名的生成規(guī)則,即在“.”后面放置有用的信息或在文件名的特定幾位上表示所需要的有用信息。

        若在有用信息與其它信息之間有某種特定的分隔符,則以這個特定的分隔符為標記,提取出有用信息。若在有用信息與其它信息之間沒有特定的分隔符,而是在特定的位上放置有用信息,則指定信息提取的起始位置和長度,并取出有用信息。

        文件名數(shù)據(jù)抽取規(guī)則的文法表示為:

        《文件名》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>《按分隔符抽取》

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件名中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        3 文件內(nèi)容分析

        將文件內(nèi)容的結構分為表頭、表體、表尾三部分分別進行研究。其中,表頭和表尾在某些文本數(shù)據(jù)文件中可能存在,也可能不存在,但表體作為表達數(shù)據(jù)信息的主體部分應該總是存在的。

        3.1 表頭數(shù)據(jù)的結構分析

        作為基本結構的開始,表頭部分往往包含著以下信息:

        ⑴需濾掉的說明信息行:指整個數(shù)據(jù)塊的說明部分,包括數(shù)據(jù)來源、對應的報表名稱等。

        ⑵需保留的數(shù)據(jù)行:相對于之前需濾掉的多余信息,這部分信息是需要保存到數(shù)據(jù)庫中的。不論這部分數(shù)據(jù)量的大小,它們都將被抽取出來,并與后面的表體數(shù)據(jù)和表尾數(shù)據(jù)組合成一個完整的數(shù)據(jù)行。

        對這些需保留的數(shù)據(jù)的抽取方法主要有以下兩種:

        ⑴從特定分隔字符后抽取指定長度的字符;

        ⑵從指定位置開始直接抽取指定長度的字符。

        綜合以上的分析,可以得到描述表頭結構及抽取規(guī)則的文法如下:

        《表頭數(shù)據(jù)》::=《行數(shù)據(jù)信息》《表頭數(shù)據(jù)》|《行數(shù)據(jù)信息》

        《行數(shù)據(jù)信息》::=《開始標志行》|《需過濾數(shù)據(jù)行》|《需保留數(shù)據(jù)行》

        《開始標志行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《需過濾數(shù)據(jù)行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《包含特征字符串行》::=<特征字符串><包含比較方法>

        《等于特征字符串行》::=<特征字符串><等于比較方法>

        《匹配特征字符串行》::=<特征字符串><匹配比較方法>

        《需保留數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>

        《按分隔符抽取》|<分隔符號><從第幾個符號開始><至第幾個符號結束>

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》|<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        <特征字符串>::=字符串

        <包含比較方法>::=判斷目標字符串是否包含特征字符串

        <等于比較方法>::=判斷目標字符串是否等于特征字符串

        <匹配比較方法>::=判斷目標字符串是否匹配特征字符串

        3.2 表體數(shù)據(jù)的結構分析

        表體部分作為數(shù)據(jù)的主體部分,包含著絕大部分需提取的信息,正確、高效地抽取出數(shù)據(jù)是進一步將數(shù)據(jù)加載到數(shù)據(jù)庫的關鍵[3]。表體數(shù)據(jù)包含了最終記錄中的主要字段值,它們主要通過兩種方式被抽取出來:

        第一種是通過特定的分隔符將各字段值分隔開,常用的有逗號、“?”、“|”等符號,各字段值的長度不是固定的,對這種類型的數(shù)據(jù)在抽取時要識別出分隔符,并以這些特定的符號為邊界抽取各個字段。

        第二種情況正好相反,各個字段值的長度是固定的,沒有特定的分隔符來分隔這些字段,對這類數(shù)據(jù)的抽取應當采取指定各個字段在數(shù)據(jù)行中的開始位置和長度的方法。

        綜合這兩種情況,可以得到描述表體數(shù)據(jù)的結構和抽取規(guī)則的文法為:

        《表體數(shù)據(jù)》::=《行數(shù)據(jù)信息》《表體數(shù)據(jù)》|《行數(shù)據(jù)信息》

        《行數(shù)據(jù)信息》::=《需過濾數(shù)據(jù)行》|《標準數(shù)據(jù)行》|《需字段填充數(shù)據(jù)行》|《需組合數(shù)據(jù)行》|《需字段替換數(shù)據(jù)行》

        《需過濾數(shù)據(jù)行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《包含特征字符串行》::=<特征字符串><包含比較方法>

        《等于特征字符串行》::=<特征字符串><等于比較方法>

        《匹配特征字符串行》::=<特征字符串><匹配比較方法>

        <特征字符串>::=針對具體應用的字符串

        <包含比較方法>::=判斷目標字符串是否包含特征字符串

        <等于比較方法>::=判斷目標字符串是否等于特征字符串

        <匹配比較方法>::=判斷目標字符串是否匹配特征字符串

        《標準數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>《按分隔符抽取》|<分隔符號><從第幾個符號開始><至第幾個符號結束>

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》|<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        《需字段填充數(shù)據(jù)行》::=《需填充字段》《需字段填充數(shù)據(jù)行》|《完整字段》《需字段填充數(shù)據(jù)行》|《需填充字段》|《完整字段》

        《需填充字段》::=《按分隔符抽取》|《按位置抽取》

        《完整字段》::=《按分隔符抽取》|《按位置抽取》

        《需字段替換數(shù)據(jù)行》::=《需替換字段》《需字段替換數(shù)據(jù)行》|《完整字段》《需字段替換數(shù)據(jù)行》|《需替換字段》|《完整字段》

        《需替換字段》::=《按分隔符抽取》|《按位置抽取》

        《完整字段》::=《按分隔符抽取》|《按位置抽取》

        《需組合數(shù)據(jù)行》::=《元素數(shù)據(jù)行》《需組合數(shù)據(jù)行》|《元素數(shù)據(jù)行》

        《元素數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        3.3 表尾數(shù)據(jù)結構分析

        表尾數(shù)據(jù)部分和表頭部分數(shù)據(jù)類似,往往都包含著記錄行的一些關鍵字段,也有一些多余的無用信息需要被過濾掉,在此不贅述。

        以上是對數(shù)據(jù)結構表示文法的分析。結合當前流行的XML語言的特點也可以使用XML來實現(xiàn)文本數(shù)據(jù)文件結構的表示文法。

        [1] 蔣立源,康慕寧.編譯原理[M].西安:西北工業(yè)大學出版社,2005.

        [2] 張云.談數(shù)據(jù)倉庫建設中的ETL過程[J].計算機系統(tǒng)應用,2005(8):36-37.

        [3] 王曉東.計算機算法設計與分析[M].北京:電子工業(yè)出版社,2001.

        猜你喜歡
        文法字符串符號
        學符號,比多少
        幼兒園(2021年6期)2021-07-28 07:42:14
        關于1940 年尼瑪抄寫的《托忒文文法》手抄本
        “+”“-”符號的由來
        Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
        變符號
        A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
        文法有道,為作文注入音樂美
        學生天地(2016年26期)2016-06-15 20:29:39
        圖的有效符號邊控制數(shù)
        一種新的基于對稱性的字符串相似性處理算法
        依據(jù)字符串匹配的中文分詞模型研究
        亚洲人成网站在线播放小说| 日本免费a级毛一片| 精品国产乱码久久久软件下载 | 亚洲大片一区二区三区四区| 日韩av一区二区三区激情在线| 特黄做受又硬又粗又大视频小说| 老熟妇高潮喷了╳╳╳| 亚洲精品国产不卡在线观看| 亚洲综合久久中文字幕专区一区 | 亚洲AV无码久久精品成人| 中文字幕乱码在线婷婷| 一个人看的www片免费高清视频| 精品一区二区三区免费播放| 国产丝袜精品不卡| 一区二区亚洲精美视频| 最新露脸自拍视频在线观看| 鲁鲁鲁爽爽爽在线视频观看| 亚洲国产成人无码影院| 亚洲国产丝袜美女在线| 天天干天天日夜夜操| 天天做天天爱天天爽综合网 | 在线亚洲+欧美+日本专区| 亚洲熟女av一区少妇| 人人妻人人澡人人爽人人精品av | 在线一区不卡网址观看| 极品少妇被后入内射视| 国产精品人成在线观看免费| 国产国拍精品av在线观看按摩 | 国产女主播喷水视频在线观看| 91美女片黄在线观看| 国产av一区二区网站| 久人人爽人人爽人人片av| 人禽无码视频在线观看| 亚洲美女性生活一级片| 日韩中文字幕在线观看一区 | 午夜视频国产在线观看| 亚洲av成人无码网站…| 999久久久免费精品国产牛牛| 国产交换精品一区二区三区| 国内精品人妻无码久久久影院| 日韩AV无码一区二区三区不卡毛片|