亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文無關文法的數(shù)據(jù)抽取規(guī)則

        2010-08-15 00:52:52宋娜娜
        河南城建學院學報 2010年5期
        關鍵詞:文法字符串符號

        宋娜娜

        (鄭州航空工業(yè)管理學院信息科學學院,河南鄭州450000)

        通過分析大量的企業(yè)信息系統(tǒng)產(chǎn)生的文本數(shù)據(jù)的異同點,從文本數(shù)據(jù)攜帶的信息和數(shù)據(jù)結構形式出發(fā),將文本數(shù)據(jù)文件結構歸納為:

        文件名:在文件名中存在的一些重要數(shù)據(jù)應該被提取出來。

        文件內(nèi)容:文本文件的內(nèi)容是最重要的部分,從結構上又可將文件的內(nèi)容分為表頭、表體、表尾三大部分。分別表示實際數(shù)據(jù)的不同方面,綜合起來則可以表示完整的無缺失的數(shù)據(jù)。

        在對文本數(shù)據(jù)文件結構分析的基礎上,需要將這些數(shù)據(jù)的抽取規(guī)則[1]表示出來。文法是描述語言的語法結構的形式規(guī)則,這些規(guī)則是準確和易于理解的,而且有相當強的描述能力,足以描述各種不同的結構,上下文無關文法所定義的語法范疇是完全獨立于這種范疇可能出現(xiàn)的環(huán)境的[2],用上下文無關文法來表示數(shù)據(jù)抽取規(guī)則比較合適。

        1 上下文無關文法

        上下文無關文法包括四個組成部分:一組終結符號,一組非終結符號,一個開始符號以及一組產(chǎn)生式。

        形式上講,一個上下文無關文法G是一個四元式(Vt,Vn,S,Φ),其中:

        Vt是一個非空有限集,它的每個元素稱為終結符號;

        Vn是一個非空有限集,它的第個元素稱為非終結符號,Vt∩Vn=φ;

        S是一個非終結符號,稱為開始符號;

        Φ是一個產(chǎn)生式集合(非空有限集),每個產(chǎn)生式的形式是P→a,其中,P∈Vt,a∈(Vt∪Vn)*。開始符號S至少必須在某個產(chǎn)生式的左部出現(xiàn)一次。

        本文用::=代替→,用<>表示終結符號,用《》表示非終結符號。

        2 文件名結構分析

        大量的企業(yè)信息系統(tǒng)都有自己的一套文本數(shù)據(jù)文件名的生成規(guī)則,即在“.”后面放置有用的信息或在文件名的特定幾位上表示所需要的有用信息。

        若在有用信息與其它信息之間有某種特定的分隔符,則以這個特定的分隔符為標記,提取出有用信息。若在有用信息與其它信息之間沒有特定的分隔符,而是在特定的位上放置有用信息,則指定信息提取的起始位置和長度,并取出有用信息。

        文件名數(shù)據(jù)抽取規(guī)則的文法表示為:

        《文件名》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>《按分隔符抽取》

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件名中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        3 文件內(nèi)容分析

        將文件內(nèi)容的結構分為表頭、表體、表尾三部分分別進行研究。其中,表頭和表尾在某些文本數(shù)據(jù)文件中可能存在,也可能不存在,但表體作為表達數(shù)據(jù)信息的主體部分應該總是存在的。

        3.1 表頭數(shù)據(jù)的結構分析

        作為基本結構的開始,表頭部分往往包含著以下信息:

        ⑴需濾掉的說明信息行:指整個數(shù)據(jù)塊的說明部分,包括數(shù)據(jù)來源、對應的報表名稱等。

        ⑵需保留的數(shù)據(jù)行:相對于之前需濾掉的多余信息,這部分信息是需要保存到數(shù)據(jù)庫中的。不論這部分數(shù)據(jù)量的大小,它們都將被抽取出來,并與后面的表體數(shù)據(jù)和表尾數(shù)據(jù)組合成一個完整的數(shù)據(jù)行。

        對這些需保留的數(shù)據(jù)的抽取方法主要有以下兩種:

        ⑴從特定分隔字符后抽取指定長度的字符;

        ⑵從指定位置開始直接抽取指定長度的字符。

        綜合以上的分析,可以得到描述表頭結構及抽取規(guī)則的文法如下:

        《表頭數(shù)據(jù)》::=《行數(shù)據(jù)信息》《表頭數(shù)據(jù)》|《行數(shù)據(jù)信息》

        《行數(shù)據(jù)信息》::=《開始標志行》|《需過濾數(shù)據(jù)行》|《需保留數(shù)據(jù)行》

        《開始標志行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《需過濾數(shù)據(jù)行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《包含特征字符串行》::=<特征字符串><包含比較方法>

        《等于特征字符串行》::=<特征字符串><等于比較方法>

        《匹配特征字符串行》::=<特征字符串><匹配比較方法>

        《需保留數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>

        《按分隔符抽取》|<分隔符號><從第幾個符號開始><至第幾個符號結束>

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》|<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        <特征字符串>::=字符串

        <包含比較方法>::=判斷目標字符串是否包含特征字符串

        <等于比較方法>::=判斷目標字符串是否等于特征字符串

        <匹配比較方法>::=判斷目標字符串是否匹配特征字符串

        3.2 表體數(shù)據(jù)的結構分析

        表體部分作為數(shù)據(jù)的主體部分,包含著絕大部分需提取的信息,正確、高效地抽取出數(shù)據(jù)是進一步將數(shù)據(jù)加載到數(shù)據(jù)庫的關鍵[3]。表體數(shù)據(jù)包含了最終記錄中的主要字段值,它們主要通過兩種方式被抽取出來:

        第一種是通過特定的分隔符將各字段值分隔開,常用的有逗號、“?”、“|”等符號,各字段值的長度不是固定的,對這種類型的數(shù)據(jù)在抽取時要識別出分隔符,并以這些特定的符號為邊界抽取各個字段。

        第二種情況正好相反,各個字段值的長度是固定的,沒有特定的分隔符來分隔這些字段,對這類數(shù)據(jù)的抽取應當采取指定各個字段在數(shù)據(jù)行中的開始位置和長度的方法。

        綜合這兩種情況,可以得到描述表體數(shù)據(jù)的結構和抽取規(guī)則的文法為:

        《表體數(shù)據(jù)》::=《行數(shù)據(jù)信息》《表體數(shù)據(jù)》|《行數(shù)據(jù)信息》

        《行數(shù)據(jù)信息》::=《需過濾數(shù)據(jù)行》|《標準數(shù)據(jù)行》|《需字段填充數(shù)據(jù)行》|《需組合數(shù)據(jù)行》|《需字段替換數(shù)據(jù)行》

        《需過濾數(shù)據(jù)行》::=《包含特征字符串行》|《等于特征字符串行》|《匹配特征字符串行》

        《包含特征字符串行》::=<特征字符串><包含比較方法>

        《等于特征字符串行》::=<特征字符串><等于比較方法>

        《匹配特征字符串行》::=<特征字符串><匹配比較方法>

        <特征字符串>::=針對具體應用的字符串

        <包含比較方法>::=判斷目標字符串是否包含特征字符串

        <等于比較方法>::=判斷目標字符串是否等于特征字符串

        <匹配比較方法>::=判斷目標字符串是否匹配特征字符串

        《標準數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        《按分隔符抽取》::=<分隔符號><從第幾個符號開始><至第幾個符號結束>《按分隔符抽取》|<分隔符號><從第幾個符號開始><至第幾個符號結束>

        <分隔符號>::=某個特定符號

        <從第幾個符號開始>::=開始分隔符編號(數(shù)字值)

        <至第幾個符號結束>::=結束分隔符編號(數(shù)字值)

        《按位置抽取》::=<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>《按位置抽取》|<數(shù)據(jù)開始位置><抽取數(shù)據(jù)長度>

        <數(shù)據(jù)開始位置>::=數(shù)據(jù)在文件中的開始位置值(數(shù)字值)

        <抽取數(shù)據(jù)長度>::=需提取的數(shù)據(jù)長度(字符個數(shù),數(shù)字值)

        《需字段填充數(shù)據(jù)行》::=《需填充字段》《需字段填充數(shù)據(jù)行》|《完整字段》《需字段填充數(shù)據(jù)行》|《需填充字段》|《完整字段》

        《需填充字段》::=《按分隔符抽取》|《按位置抽取》

        《完整字段》::=《按分隔符抽取》|《按位置抽取》

        《需字段替換數(shù)據(jù)行》::=《需替換字段》《需字段替換數(shù)據(jù)行》|《完整字段》《需字段替換數(shù)據(jù)行》|《需替換字段》|《完整字段》

        《需替換字段》::=《按分隔符抽取》|《按位置抽取》

        《完整字段》::=《按分隔符抽取》|《按位置抽取》

        《需組合數(shù)據(jù)行》::=《元素數(shù)據(jù)行》《需組合數(shù)據(jù)行》|《元素數(shù)據(jù)行》

        《元素數(shù)據(jù)行》::=《按分隔符抽取》|《按位置抽取》

        3.3 表尾數(shù)據(jù)結構分析

        表尾數(shù)據(jù)部分和表頭部分數(shù)據(jù)類似,往往都包含著記錄行的一些關鍵字段,也有一些多余的無用信息需要被過濾掉,在此不贅述。

        以上是對數(shù)據(jù)結構表示文法的分析。結合當前流行的XML語言的特點也可以使用XML來實現(xiàn)文本數(shù)據(jù)文件結構的表示文法。

        [1] 蔣立源,康慕寧.編譯原理[M].西安:西北工業(yè)大學出版社,2005.

        [2] 張云.談數(shù)據(jù)倉庫建設中的ETL過程[J].計算機系統(tǒng)應用,2005(8):36-37.

        [3] 王曉東.計算機算法設計與分析[M].北京:電子工業(yè)出版社,2001.

        猜你喜歡
        文法字符串符號
        學符號,比多少
        幼兒園(2021年6期)2021-07-28 07:42:14
        關于1940 年尼瑪抄寫的《托忒文文法》手抄本
        “+”“-”符號的由來
        Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
        變符號
        A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
        文法有道,為作文注入音樂美
        學生天地(2016年26期)2016-06-15 20:29:39
        圖的有效符號邊控制數(shù)
        一種新的基于對稱性的字符串相似性處理算法
        依據(jù)字符串匹配的中文分詞模型研究
        成人精品视频一区二区| 一区二区三区人妻在线| 日产一区日产2区日产| 久久亚洲色一区二区三区| 欧美成人精品一区二区综合 | 日本又黄又爽gif动态图| 国产精品国产三级国产专播| 亚洲人妻精品一区二区三区| 中文无码av一区二区三区| 乌克兰粉嫩xxx极品hd| 国产在线无码免费视频2021 | 亚洲最大在线视频一区二区| 日产学生妹在线观看| 欧美理论在线| 亚洲区一区二区三区四| 91丝袜美腿亚洲一区二区| 成人免费一区二区三区| 国产在线视频国产永久视频| 免费蜜桃视频在线观看| 久久精品国产字幕高潮| 亚洲精品国精品久久99热一| 99久久国语露脸国产精品| 放荡成熟人妻中文字幕| 亚洲精品无码av人在线播放| 亚洲自偷自拍另类图片小说| 一个人看的在线播放视频| 蜜桃视频插满18在线观看| 无套内谢的新婚少妇国语播放 | 中文字幕一区二区区免| 国产香蕉视频在线播放| 亚洲精品无播放器在线播放| 久久亚洲AV无码一区二区综合| 国产激情综合五月久久| 被三个男人绑着躁我好爽视频 | 2021年性爱喷水视频| 久久精品国产亚洲av影院毛片| 亚洲看片lutube在线观看| 99国产精品久久久蜜芽| 热久久久久久久| 麻豆激情视频在线观看| 99精品视频69v精品视频|