亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Web實體表格結構識別研究

2016-07-09 13:18:26張興蘭劉巖

軟件導刊 2016年6期

張興蘭劉巖

摘要：Web表格信息提取已成為構建本體的重要工作，它能自動將本體所需的屬性名和屬性值提取出來，節(jié)省大量人工勞動。提出了一種基于單元格類型和值長度的表格結構識別算法，能有效識別定位出的表格展開方式，對于表格信息提取具有重要意義。

關鍵詞：信息提取；表格信息抽?。槐砀窠Y構識別

DOIDOI：10.11907/rjdk.161203

中圖分類號：TP301文獻標識碼：A 文章編號：1672-7800（2016）006-0001-04

3結語

在構建知識庫時會用到本體的概念，本體的生成除了需專家人工參與外，在表格中提取本體的屬性成為一種非常重要的方式。本文對表格展開方式判別提供了一種方法，從表格屬性名和屬性值在類型和長度的差異中識別表格結構，構造了類型樹，使類型差異轉化為樹的路徑；同時引入方差概念，將字符串長度變化情況用方差來描述，不再單一依靠均值來描述字符串的長度。下一步的研究重點是進一步改進表格定位算法，實現(xiàn)表格的更準確定位，從而提升整個表格識別系統(tǒng)的準確率。

3結語

參考文獻：

[1]于靜.基于頁面主體提取的WEB信息抽取技術研究[D].南京：南京郵電大學，2013.

[2]張紅梅.基于塊的Web網(wǎng)頁信息提取[J].軟件導刊，2012，11（1）：132-134.

[3]程顯毅，朱倩，王進.中文信息抽取原理及應用[M].北京：科學出版社，2010.

[4]廖濤，劉宗田，孫榮.Web表格定位技術的研究與實現(xiàn)[J].計算機科學，2009，36（9）：227-230.

[5]CHEN H，TSAI S，TSAI J.Mining tables from large scale HTML texts[C].In Proceedings of the 18th International Conference on Computational Linguistics，New Jersey： Association for Computational Linguistics，2000：166-172.

[6]張凈.Web信息自動抽取技術的研究與實現(xiàn)[D].武漢：武漢理工大學，2009.

[7]TENGLI A，YANG Y，LI N.Machine learning table extractionfrom examples[C].In Proceeding of the 20th International Conference on Computational Linguistics（COLNG），New Jersey：Association for Computational Linguistics，2004：987-993.

[8]林琳.基于Ontology的web表格內容抽取的研究與實現(xiàn)[D].成都：電子科技大學，2006.

[9]廖濤.Web表格定位技術的研究與實現(xiàn)[J].計算機科學，2009（9）：227-230.

[10]賈云長.HTML表格向XML的智能轉換[J].計算機工程，2009（14）：32-34.

[11]張瑞.網(wǎng)上表格數(shù)據(jù)到XML的自動轉換[J].計算機工程與應用，2007（2）：190-192.

[12]徐飛.面向結構的Web表格數(shù)據(jù)抽取系統(tǒng)[J].西安工業(yè)大學學報，2009（6）：574-577.

軟件導刊2016年6期

軟件導刊的其它文章: 基于四元數(shù)互補濾波和PID控制算法的兩輪自平衡車系統(tǒng)設計; 基于云動態(tài)資源擴展的選課系統(tǒng)優(yōu)化實踐; 基于B/S結構的網(wǎng)絡運維知識訓練考核系統(tǒng)設計; 互聯(lián)網(wǎng)+質檢客戶服務系統(tǒng)設計; 基于云計算與移動互聯(lián)網(wǎng)的高校微門戶設計與開發(fā); 基于小波包跳頻估計的網(wǎng)絡入侵檢測算法