亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性權(quán)重的實(shí)體解析技術(shù)探討

        2018-06-27 02:38:48張晏李繼云
        無(wú)線互聯(lián)科技 2018年5期
        關(guān)鍵詞:大數(shù)據(jù)

        張晏 李繼云

        摘 要:大數(shù)據(jù)時(shí)代下,數(shù)據(jù)呈爆炸式的增長(zhǎng)態(tài)勢(shì),而這些數(shù)據(jù)結(jié)構(gòu)本身有一定的差異,這為數(shù)據(jù)解析帶來(lái)較大難題。根據(jù)既往研究資料中提及,考慮引入基于屬性權(quán)重的實(shí)體解析技術(shù),以此使數(shù)據(jù)解析與處理效率提升。文章對(duì)實(shí)體解析技術(shù)做簡(jiǎn)單介紹,分析屬性權(quán)重基本模型,在此基礎(chǔ)上提出屬性權(quán)重下實(shí)體解析的方法。

        關(guān)鍵詞:屬性權(quán)重;實(shí)體解析技術(shù);大數(shù)據(jù)

        數(shù)據(jù)海量的生成與處理為大多企業(yè)帶來(lái)較多難題,特別因?qū)嶓w表達(dá)形式不同,可能使錯(cuò)誤信息產(chǎn)生,這就使實(shí)體解析面臨極多問題。盡管以往實(shí)體解析法應(yīng)用下能夠處理多數(shù)據(jù)源記錄,且在發(fā)展中逐漸將數(shù)據(jù)預(yù)處理、比較函數(shù)選取以及特征向量選取等,但操作中仍可能將部分關(guān)鍵屬性忽視,降低解析結(jié)果準(zhǔn)確性。在此背景下,考慮將屬性權(quán)重引入,保證實(shí)體解析的效率與準(zhǔn)確度。因此,本文對(duì)屬性權(quán)重下實(shí)體解析技術(shù)的研究,具有十分重要的意義。

        1 實(shí)體解析技術(shù)相關(guān)解讀

        關(guān)于實(shí)體解析,覆蓋較多領(lǐng)域,如數(shù)據(jù)庫(kù)領(lǐng)域、機(jī)器學(xué)習(xí)領(lǐng)域、人工智能領(lǐng)域、信息檢索領(lǐng)域與統(tǒng)計(jì)學(xué)領(lǐng)域,各領(lǐng)域均強(qiáng)調(diào)利用實(shí)體解析技術(shù)做數(shù)據(jù)源的處理。如單一結(jié)構(gòu)數(shù)據(jù)集,引入實(shí)體解析技術(shù)一般做相似度計(jì)算,計(jì)算方法選擇距離函數(shù)模型,如編輯距離,計(jì)算中對(duì)記錄相似度分析,同時(shí)明確實(shí)體之間關(guān)系,可借助語(yǔ)義信息進(jìn)行記錄。再如結(jié)構(gòu)不同數(shù)據(jù),實(shí)體解析技術(shù)應(yīng)強(qiáng)調(diào)匹配計(jì)算異構(gòu)數(shù)據(jù)集,在明確數(shù)據(jù)集合的情況下,做匹配計(jì)算。需注意的是,因數(shù)據(jù)結(jié)構(gòu)不同,所以引入實(shí)體解析方法中可能面臨如何確定屬性權(quán)重。從既往研究資料中可發(fā)現(xiàn),一般認(rèn)為所有屬性均可呈現(xiàn)為匹配屬性,其意味各數(shù)據(jù)記錄均有相應(yīng)的屬性,所以在處理記錄匹配上能夠取得較高的效率。但這種處理方式應(yīng)用下,直接導(dǎo)致部分關(guān)鍵屬性被忽視。有研究中也指出在屬性權(quán)重分配中,直接由專家指定屬性,雖然滿足匹配屬性要求,但若專家來(lái)自不同領(lǐng)域,在數(shù)據(jù)集觀點(diǎn)上有一定差異,所以最終指定的屬性難以保證一致。針對(duì)這些問題,需考慮如何在實(shí)體解析技術(shù)上優(yōu)化[1]。

        2 屬性權(quán)重模型構(gòu)建

        2.1 屬性權(quán)重模型基本定義

        屬性權(quán)重模型是實(shí)體解析技術(shù)優(yōu)化的基礎(chǔ)。本次研究中從多個(gè)定義對(duì)屬性權(quán)重模型進(jìn)行分析,具體定義內(nèi)容包括:(1)匹配屬性,基于相似度的屬性匹配,例如部分研究中提及記錄中相似度的屬性均作為匹配屬性。(2)最佳分類屬性,主要指按相關(guān)的原則由匹配屬性集合內(nèi)挑選分類屬性,以信息增益方法為例,可計(jì)算各屬性信息增益值,這樣便可獲取權(quán)重,在此基礎(chǔ)上做最佳分類屬性的確定。(3)信息增益值,通過數(shù)據(jù)挖掘方法獲取信息增益,若得到的屬性信息增益值較大,意味屬性涵蓋的信息量較多,記錄中內(nèi)部分特征也會(huì)被呈現(xiàn)出來(lái)。(4)基本相似度,與匹配屬性概念不同,該定義下的相似度獲取通過基本相似度函數(shù)實(shí)現(xiàn),如編輯距離相似度函數(shù),通過做單個(gè)屬性計(jì)算,獲取相似度。(5)最終相似度,需以基本相似度為基礎(chǔ),取屬性權(quán)重加入,做復(fù)合運(yùn)算便能獲取最終結(jié)果[2]。

        2.2 屬性權(quán)重方法選擇

        屬性權(quán)重方法常見的有相似度衡量、專家制定方法。以相似度衡量方法為例,強(qiáng)調(diào)使匹配記錄保持一定的相似度,特別部分Web數(shù)據(jù)源較多情況下,實(shí)體識(shí)別中便需明確匹配記錄,取相似度最小值,這種方式對(duì)于確定屬性權(quán)重準(zhǔn)確度較高,但整個(gè)操作過程中涉及較大的計(jì)算量,重復(fù)匹配,同時(shí)在匹配結(jié)束后,不會(huì)對(duì)屬性賦予權(quán)重。另外一種方法即專家制定法,應(yīng)用中要求有相關(guān)領(lǐng)域的專家對(duì)屬性權(quán)重進(jìn)行確定,結(jié)合自身知識(shí)經(jīng)驗(yàn)對(duì)各屬性分配相應(yīng)比重,最后選擇其中權(quán)重較高的屬性計(jì)算,獲取相似度結(jié)果。盡管這種方法運(yùn)用下相對(duì)簡(jiǎn)單,但因不同領(lǐng)域?qū)<以跀?shù)據(jù)集認(rèn)知上有一定差異,所以所得出的結(jié)果準(zhǔn)確性難以保證。針對(duì)上述兩種方法應(yīng)用下存在的問題,本次研究中考慮引入其他兩種方式,包括信息增益、概率統(tǒng)計(jì),旨在使權(quán)重分配準(zhǔn)確率提高。其中信息增益法亦被稱之為IG法,實(shí)現(xiàn)的原理在于利用依托于數(shù)據(jù)挖掘,確定信息增益值后,若結(jié)果較大,意味屬性影響作用明顯,所以在最佳分類屬性集合中應(yīng)選擇信息增益值較高的屬性。而引入概率統(tǒng)計(jì)方法,強(qiáng)調(diào)借助數(shù)據(jù)工具將數(shù)據(jù)集合中的規(guī)律挖掘,如在訓(xùn)練數(shù)據(jù)集合利用下,檢驗(yàn)與計(jì)算各屬性字段,假定各屬性字段均以單獨(dú)匹配屬性形式呈現(xiàn),此時(shí)對(duì)屬性準(zhǔn)確度對(duì)比,可獲取權(quán)重結(jié)果。

        3 屬性權(quán)重下實(shí)體解析具體方法

        3.1 合理分配權(quán)重屬性

        考慮到屬性權(quán)重分配中,因忽略元組屬性加權(quán)重,將降低匹配準(zhǔn)確度,出現(xiàn)數(shù)據(jù)信息遺漏情況。所以,本次研究中強(qiáng)調(diào)依托于概率統(tǒng)計(jì)知識(shí)、信息增益方法,滿足賦予權(quán)重屬性要求。而具體分配屬性權(quán)重中,有相關(guān)的要求,包括:(1)數(shù)據(jù)集預(yù)處理。處理中應(yīng)保證數(shù)據(jù)集格式的規(guī)范,然后通過概率統(tǒng)計(jì)或信息增益,確定可以代表所有數(shù)據(jù)記錄的集合,稱其為最佳分類屬性集合。(2)權(quán)重計(jì)算。在信息增益方法運(yùn)用下,可將信息增加量計(jì)算出來(lái),然后由數(shù)據(jù)集內(nèi)選擇屬性,對(duì)各屬性信息增益值計(jì)算,在此基礎(chǔ)上完成權(quán)重分配計(jì)算過程。

        3.2 合理選擇最佳分類屬性

        屬性權(quán)重的獲取借助概率統(tǒng)計(jì)、信息增益變可實(shí)現(xiàn),而在最佳分類屬性確定中,則需引入其他相關(guān)的方法。本次研究中選擇兩種確定分類屬性的方法,其一為在抽取的所有屬性中,均被當(dāng)作匹配屬性,各屬性有相應(yīng)的權(quán)重,此時(shí)選擇其中權(quán)重較大的作為關(guān)鍵屬性,使實(shí)體解析準(zhǔn)確度提高。另外一種方法則細(xì)化為閾值與top-k方法,其中閡值方法運(yùn)用下要求做信息增益閾值α的確定,與α相比屬性信息增益值較大情況下,說(shuō)明這一屬性能夠充當(dāng)分類屬性,反之則將該屬性忽略。對(duì)于top-k方法,實(shí)現(xiàn)的原理在于通過權(quán)重排序,將排在前列的屬性納入屬性集合中。通過上述兩種屬性集合確定方法,有助于實(shí)體解析召回率的提高以及關(guān)鍵屬性的凸顯,實(shí)體解析準(zhǔn)確度因此得到保證。

        3.3 計(jì)算相似度

        相似度計(jì)算中,主要采用編輯距離方法實(shí)現(xiàn)。所謂編輯距離方法,指為取兩個(gè)字符串,將其中一個(gè)向另外一個(gè)轉(zhuǎn)換中需要的編輯次數(shù),若編輯距離較大,意味兩個(gè)字符串有較大差異,反之則相近。通過編輯距離相似度函數(shù)做基本相似度計(jì)算,在此基礎(chǔ)上與對(duì)應(yīng)屬性權(quán)重相乘,便會(huì)獲取相似度結(jié)果[3]。

        3.4 引ABlocking技術(shù)優(yōu)化

        關(guān)于Blocking技術(shù),主要指根據(jù)使用記錄已知信息,判斷記錄是否相似,若相似可劃入_組,該過程可稱為Block。從該方法應(yīng)用優(yōu)勢(shì)看,主要體現(xiàn)在利用快速識(shí)別技術(shù),做記錄匹配,由實(shí)體解析系統(tǒng)分析兩條記錄是否能夠匹配,假若可在同一聚類中放入可匹配記錄,說(shuō)明兩條記錄匹配成功,而系統(tǒng)若判定兩條記錄無(wú)法匹配,最后的聚類內(nèi)則無(wú)法放入匹配記錄。因此,實(shí)體解析中,為使實(shí)體解析效率提高,考慮將Blocking技術(shù)引入其中,技術(shù)運(yùn)用下在保證解析準(zhǔn)確度的同時(shí),將搜索空間縮小,實(shí)體或記錄比較此時(shí)也因此較少,這對(duì)于實(shí)體解析效率的提高有積極作用[4]。

        為驗(yàn)證以上方法應(yīng)用下所得到的結(jié)果,本次研究中設(shè)定一定的實(shí)驗(yàn)環(huán)境,評(píng)價(jià)解析結(jié)果情況。其中在實(shí)驗(yàn)環(huán)境方面,取Microsoft Windows7為操作系統(tǒng),選擇Intel core 2Quad 2.67 GHz CPU為硬件環(huán)境,C++編譯環(huán)境。同時(shí),選擇10 000條記錄數(shù)據(jù)集,各記錄被賦予10個(gè)屬性,解析后以F-measure綜合評(píng)價(jià)方法衡量評(píng)價(jià),如圖1所示,為最終評(píng)價(jià)結(jié)果。其中IG-W,PS-W,No -W分別表示信息增益方法、概率統(tǒng)計(jì)方法、無(wú)權(quán)重計(jì)算方法。由圖中可發(fā)現(xiàn),相比無(wú)權(quán)重計(jì)算方法,利用信息增益方法、概率統(tǒng)計(jì)方法取得的實(shí)體解析結(jié)果優(yōu)勢(shì)明顯。

        4 結(jié)語(yǔ)

        實(shí)體解析是當(dāng)前數(shù)據(jù)處理中的技術(shù)支撐。實(shí)際開展實(shí)體解析過程中,考慮做好屬性權(quán)重確定工作,該過程需引入概率統(tǒng)計(jì)與信息增益方法,使個(gè)屬性權(quán)重明確,與以往專家制定分配權(quán)重方法更能保證結(jié)果準(zhǔn)確性,且對(duì)比相似度衡量無(wú)需過多的計(jì)算量,因此,未來(lái)在實(shí)體解析研究中應(yīng)將這些屬性權(quán)重方法作為主要研究實(shí)踐方向。

        [參考文獻(xiàn)]

        [1]宮云寶,甘亮,黃九嗚.基于概率軟邏輯模型的實(shí)體解析[J]計(jì)算機(jī)工程,2017(8):188-192,199.

        [2]陳遠(yuǎn),康虹,張靜雅.基于IFC標(biāo)準(zhǔn)的BIM模型編程語(yǔ)言解析方法研究[J]土木建筑工程信息技術(shù),2017 (3):85-89.

        [3]高勁松,周習(xí)曼,梁艷琪面向關(guān)聯(lián)數(shù)據(jù)的實(shí)體鏈接發(fā)現(xiàn)方法研究[J]中國(guó)圖書館學(xué)報(bào),2016 (6):85-101.

        [4]李文鵬,王建彬,林澤琦,等面向開源軟件項(xiàng)目的軟件知識(shí)圖譜構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2017 (6):851-862.

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        亚洲欧美日韩一区二区三区在线| 人妻少妇偷人精品一区二区| 国产精品18久久久白浆| 日韩人妻无码精品久久| 亚洲香蕉视频| 中文字幕日本人妻一区| 亚洲一区二区三区精品视频| 国产专区一线二线三线码| 玩弄人妻少妇500系列网址| 亚洲中文字幕女同一区二区三区| 亚洲国产精品久久久婷婷| 青青草视频在线播放81| 美女在线一区二区三区视频 | 国产韩国一区二区三区| 欧洲美女熟乱av| 久久精品国产亚洲av麻| 最新手机国产在线小视频| 国产内射一级一片高清内射视频 | 午夜性刺激免费视频| 国产一区二区三区经典| 午夜视频在线观看一区二区小| 中文字幕一区二区三区人妻少妇 | 亚洲乱亚洲乱妇无码麻豆| 亚洲精品久久久久高潮| 99精品国产兔费观看久久| 亚洲色偷偷偷综合网另类小说| 亚洲全国最大的人成网站| 先锋影音人妻啪啪va资源网站| 妺妺窝人体色www聚色窝仙踪| 亚洲精品久久久久高潮| 久久精品国产亚洲一级二级| 国产高清一区二区三区四区色| 日本真人做人试看60分钟| 国自产偷精品不卡在线| 国产一起色一起爱| 国产av丝袜熟女丰满一区二区| 一区二区三区av波多野结衣| 无码国产精品一区二区免费97| 国产精品人成在线观看不卡| 又大又粗欧美黑人aaaaa片| 最新69国产成人精品视频免费|