亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DOM樹(shù)的非規(guī)范化表格信息定位技術(shù)

        2016-05-14 15:49:00張興蘭劉巖
        軟件導(dǎo)刊 2016年7期
        關(guān)鍵詞:本體

        張興蘭 劉巖

        摘要摘要:Web表格信息提取已經(jīng)成為構(gòu)建本體的重要內(nèi)容之一,它能自動(dòng)將本體所需的屬性名和屬性值提取出來(lái),節(jié)省大量人工勞動(dòng)。關(guān)于非規(guī)范化表格信息提取的研究比較少,對(duì)本體構(gòu)建造成大量信息缺失。提供一種基于啟發(fā)式規(guī)則的非規(guī)范化表格信息定位算法,其對(duì)定位非規(guī)范化表格準(zhǔn)確率較高。

        關(guān)鍵詞關(guān)鍵詞:本體;非規(guī)范化表格;DOM樹(shù)

        DOIDOI:10.11907/rjdk.161193

        中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)007001004

        引言

        隨著Internet的迅速發(fā)展,人類進(jìn)入了信息爆炸時(shí)代。目前,各類信息服務(wù)網(wǎng)站提供了大量的信息資源,而在大量網(wǎng)頁(yè)資源中,Web表格極其重要而有規(guī)律,表格(Table)作為一種重要的表現(xiàn)形式已廣泛應(yīng)用于Web網(wǎng)頁(yè)中。

        在信息爆炸時(shí)代,人們想要精確獲取所希望的資料猶如大海撈針般困難。在這種背景下,人們希望提高有用信息獲取的效率。信息抽取首先是從文本信息抽取發(fā)展而來(lái)[1]。目前,Web信息獲取主要有兩種方法:通過(guò)搜索引擎查詢或者進(jìn)行Web信息抽取。搜索引擎幫助人們通過(guò)關(guān)鍵詞來(lái)獲取相關(guān)文檔,用戶從獲得的文檔中自己查找有用的信息。因?yàn)檫@些文檔并不考慮用戶的知識(shí)領(lǐng)域,對(duì)用戶來(lái)說(shuō)并不容易定位到自己需要的資源。然而,Web信息提取自動(dòng)從網(wǎng)絡(luò)里分析和發(fā)現(xiàn)有用的信息,過(guò)濾掉不需要的數(shù)據(jù),可充分提取用戶知識(shí)領(lǐng)域的知識(shí)。由于Web頁(yè)面大量使用表格元素,所以對(duì)表格進(jìn)行信息抽取具有重要的現(xiàn)實(shí)意義。

        1研究現(xiàn)狀

        從上世紀(jì)90年代開(kāi)始,國(guó)外信息抽取技術(shù)發(fā)展比較迅速,涌現(xiàn)出許多相關(guān)的研究項(xiàng)目,并且取得了一定成果。早期相關(guān)研究主要集中于自然語(yǔ)言處理領(lǐng)域,后來(lái)逐漸發(fā)展到計(jì)算機(jī)語(yǔ)言學(xué)、人工智能、語(yǔ)義網(wǎng)絡(luò)、知識(shí)庫(kù)建設(shè)、人類語(yǔ)言技術(shù)等其它領(lǐng)域。這些研究主要圍繞信息的表示、獲取、建模、理解、抽取、檢索等方面展開(kāi)。針對(duì)信息抽取的研究發(fā)展很快,因?yàn)橐婚_(kāi)始這些項(xiàng)目就面向?qū)嶋H應(yīng)用中出現(xiàn)的信息處理問(wèn)題。隨著信息抽取技術(shù)的成熟,許多相關(guān)研究,特別是有關(guān)信息獲取和信息抽取方面的研究,被廣泛應(yīng)用于各種領(lǐng)域。其中應(yīng)用最多的是情報(bào)領(lǐng)域。信息抽取方面的研究在涉及到恐怖活動(dòng)、風(fēng)險(xiǎn)投資、商業(yè)情報(bào)等領(lǐng)域的信息研究分析和咨詢決策中發(fā)揮著重要作用,而表格信息提取在信息提取領(lǐng)域舉足輕重。

        國(guó)外關(guān)于Web表格定位的研究中,Hurst[2]歸納了Web表格的兩種特征,即DOM特征(5個(gè))和幾何模型特征(3個(gè)),并利用兩種訓(xùn)練算法,即貝葉斯(Nave Bayes)相分離,可通過(guò)功能設(shè)備層實(shí)現(xiàn)不同的業(yè)務(wù)功能,支持相應(yīng)業(yè)務(wù)處理能力的集群式擴(kuò)展。例如,在功能設(shè)備層實(shí)現(xiàn)多種圖像格式向一種圖像格式的轉(zhuǎn)換,支持多圖像格式歸一化處理的并發(fā)性請(qǐng)求等。由此可見(jiàn),本文設(shè)計(jì)的集群調(diào)度體系具備較靈活的擴(kuò)展性。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]張峻,曾元祥.動(dòng)態(tài)數(shù)字出版理念的幾個(gè)核心問(wèn)題[J].新媒體研究,2015,1(14):1617.

        [2]北大方正電子有限公司,北京大學(xué).一種網(wǎng)絡(luò)文集制作成書(shū)籍的方法[P].CN200610113308.2,

        猜你喜歡
        本體
        Abstracts and Key Words
        灰鑄鐵缸體本體抗拉強(qiáng)度提升的研究
        眼睛是“本體”
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        領(lǐng)域本體的查詢擴(kuò)展和檢索研究
        山東冶金(2019年3期)2019-07-10 00:54:02
        本體在產(chǎn)品設(shè)計(jì)知識(shí)管理中的應(yīng)用研究
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        一種基于本體的語(yǔ)義檢索設(shè)計(jì)與實(shí)現(xiàn)
        媒介生存:關(guān)于新聞史研究本體的思考
        專題
        呦系列视频一区二区三区| 最新亚洲av日韩av二区一区| 偷亚洲偷国产欧美高清| 成人偷拍自拍在线视频| 亚洲国产91精品一区二区| 夜夜高潮夜夜爽夜夜爱爱一区| 中国熟妇人妻xxxxx| 美国黄色片一区二区三区| 加勒比特在线视频播放| 国产精品亚洲av无人区一区香蕉| 亚洲av日韩av无码污污网站 | 亚洲AⅤ无码国精品中文字慕| 亚洲黑寡妇黄色一级片| 亚洲国产精品高清一区| 日本高清视频wwww色| 伴郎粗大的内捧猛烈进出视频观看| 欧美日韩中文亚洲另类春色| 凹凸世界视频a一二三| 欧美做受又硬又粗又大视频| 亚洲色大成网站www永久一区 | 亚洲av熟女少妇久久| 国产精品综合一区二区三区| 久久久无码一区二区三区| 亚洲成AV人片在一线观看| 日本小视频一区二区三区| 亚洲男女内射在线播放| 伊人色综合视频一区二区三区| 欧美在线成人免费国产| 激情网色图区蜜桃av| 中文字幕久久久人妻人区| 男女做爰猛烈啪啪吃奶动| 国产午夜亚洲精品不卡福利| 久久精品国产亚洲av成人擦边 | 又硬又粗进去好爽免费| 婷婷五月综合丁香在线| 日韩在线不卡一区在线观看| 国产三区三区三区看三区| 欧美人伦禁忌dvd放荡欲情| 国产一级毛片卡| 国产一区二区三区在线av| 91成人自拍国语对白|