亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DOM樹(shù)的非規(guī)范化表格信息定位技術(shù)

        2016-05-14 15:49:00張興蘭劉巖
        軟件導(dǎo)刊 2016年7期
        關(guān)鍵詞:本體

        張興蘭 劉巖

        摘要摘要:Web表格信息提取已經(jīng)成為構(gòu)建本體的重要內(nèi)容之一,它能自動(dòng)將本體所需的屬性名和屬性值提取出來(lái),節(jié)省大量人工勞動(dòng)。關(guān)于非規(guī)范化表格信息提取的研究比較少,對(duì)本體構(gòu)建造成大量信息缺失。提供一種基于啟發(fā)式規(guī)則的非規(guī)范化表格信息定位算法,其對(duì)定位非規(guī)范化表格準(zhǔn)確率較高。

        關(guān)鍵詞關(guān)鍵詞:本體;非規(guī)范化表格;DOM樹(shù)

        DOIDOI:10.11907/rjdk.161193

        中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)007001004

        引言

        隨著Internet的迅速發(fā)展,人類進(jìn)入了信息爆炸時(shí)代。目前,各類信息服務(wù)網(wǎng)站提供了大量的信息資源,而在大量網(wǎng)頁(yè)資源中,Web表格極其重要而有規(guī)律,表格(Table)作為一種重要的表現(xiàn)形式已廣泛應(yīng)用于Web網(wǎng)頁(yè)中。

        在信息爆炸時(shí)代,人們想要精確獲取所希望的資料猶如大海撈針般困難。在這種背景下,人們希望提高有用信息獲取的效率。信息抽取首先是從文本信息抽取發(fā)展而來(lái)[1]。目前,Web信息獲取主要有兩種方法:通過(guò)搜索引擎查詢或者進(jìn)行Web信息抽取。搜索引擎幫助人們通過(guò)關(guān)鍵詞來(lái)獲取相關(guān)文檔,用戶從獲得的文檔中自己查找有用的信息。因?yàn)檫@些文檔并不考慮用戶的知識(shí)領(lǐng)域,對(duì)用戶來(lái)說(shuō)并不容易定位到自己需要的資源。然而,Web信息提取自動(dòng)從網(wǎng)絡(luò)里分析和發(fā)現(xiàn)有用的信息,過(guò)濾掉不需要的數(shù)據(jù),可充分提取用戶知識(shí)領(lǐng)域的知識(shí)。由于Web頁(yè)面大量使用表格元素,所以對(duì)表格進(jìn)行信息抽取具有重要的現(xiàn)實(shí)意義。

        1研究現(xiàn)狀

        從上世紀(jì)90年代開(kāi)始,國(guó)外信息抽取技術(shù)發(fā)展比較迅速,涌現(xiàn)出許多相關(guān)的研究項(xiàng)目,并且取得了一定成果。早期相關(guān)研究主要集中于自然語(yǔ)言處理領(lǐng)域,后來(lái)逐漸發(fā)展到計(jì)算機(jī)語(yǔ)言學(xué)、人工智能、語(yǔ)義網(wǎng)絡(luò)、知識(shí)庫(kù)建設(shè)、人類語(yǔ)言技術(shù)等其它領(lǐng)域。這些研究主要圍繞信息的表示、獲取、建模、理解、抽取、檢索等方面展開(kāi)。針對(duì)信息抽取的研究發(fā)展很快,因?yàn)橐婚_(kāi)始這些項(xiàng)目就面向?qū)嶋H應(yīng)用中出現(xiàn)的信息處理問(wèn)題。隨著信息抽取技術(shù)的成熟,許多相關(guān)研究,特別是有關(guān)信息獲取和信息抽取方面的研究,被廣泛應(yīng)用于各種領(lǐng)域。其中應(yīng)用最多的是情報(bào)領(lǐng)域。信息抽取方面的研究在涉及到恐怖活動(dòng)、風(fēng)險(xiǎn)投資、商業(yè)情報(bào)等領(lǐng)域的信息研究分析和咨詢決策中發(fā)揮著重要作用,而表格信息提取在信息提取領(lǐng)域舉足輕重。

        國(guó)外關(guān)于Web表格定位的研究中,Hurst[2]歸納了Web表格的兩種特征,即DOM特征(5個(gè))和幾何模型特征(3個(gè)),并利用兩種訓(xùn)練算法,即貝葉斯(Nave Bayes)相分離,可通過(guò)功能設(shè)備層實(shí)現(xiàn)不同的業(yè)務(wù)功能,支持相應(yīng)業(yè)務(wù)處理能力的集群式擴(kuò)展。例如,在功能設(shè)備層實(shí)現(xiàn)多種圖像格式向一種圖像格式的轉(zhuǎn)換,支持多圖像格式歸一化處理的并發(fā)性請(qǐng)求等。由此可見(jiàn),本文設(shè)計(jì)的集群調(diào)度體系具備較靈活的擴(kuò)展性。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]張峻,曾元祥.動(dòng)態(tài)數(shù)字出版理念的幾個(gè)核心問(wèn)題[J].新媒體研究,2015,1(14):1617.

        [2]北大方正電子有限公司,北京大學(xué).一種網(wǎng)絡(luò)文集制作成書(shū)籍的方法[P].CN200610113308.2,

        猜你喜歡
        本體
        Abstracts and Key Words
        灰鑄鐵缸體本體抗拉強(qiáng)度提升的研究
        眼睛是“本體”
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        領(lǐng)域本體的查詢擴(kuò)展和檢索研究
        山東冶金(2019年3期)2019-07-10 00:54:02
        本體在產(chǎn)品設(shè)計(jì)知識(shí)管理中的應(yīng)用研究
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        一種基于本體的語(yǔ)義檢索設(shè)計(jì)與實(shí)現(xiàn)
        媒介生存:關(guān)于新聞史研究本體的思考
        專題
        国语对白福利在线观看| 久久中文字幕日韩无码视频| 精品理论一区二区三区| 一区二区三区av在线| 韩国三级大全久久网站| 国产日产久久高清ww| 免费a级毛片无码a∨中文字幕下载| 中文无码制服丝袜人妻av| 国产自在自线午夜精品视频在 | 国产女人成人精品视频| 中文无码制服丝袜人妻AV| 亚洲日本中文字幕高清在线| 精品久久久久久久无码人妻热| 日韩精品一区二区三区视频| 亚洲熟妇夜夜一区二区三区| 婚外情长久的相处之道| 国产综合在线观看| 综合网自拍| 亚洲精品6久久久久中文字幕| 亚洲精品在线一区二区三区| 午夜性刺激免费看视频| 男女性高爱潮免费网站| 日本夜爽爽一区二区三区| 97久久成人国产精品免费| 国产精品一区二区偷拍| 人妻少妇偷人精品无码| 蜜臀av无码精品人妻色欲 | 人人爽人人爱| 九九在线精品视频xxx| 视频一区视频二区自拍偷拍| 成品人视频ww入口| 一二三四在线视频社区3| 中文字幕一区二区三区97| 亚洲国产精品一区二区成人av| 国产成熟人妻换╳╳╳╳| 国产成人精品日本亚洲专区6 | 国产亚洲一区二区三区| 亚洲а∨天堂久久精品2021| 无码一区二区三区网站| 中文字幕女同人妖熟女| 久久综合九色综合97欧美|