亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動(dòng)態(tài)探針的企業(yè)數(shù)據(jù)空間實(shí)體關(guān)聯(lián)構(gòu)建方法

        2022-10-11 08:33:26郭帥童丁香乾侯瑞春初佃輝
        關(guān)鍵詞:數(shù)據(jù)量日志實(shí)例

        陶 冶,郭帥童,丁香乾,侯瑞春,初佃輝

        (1.青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266071;2.中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266000;3.哈爾濱工業(yè)大學(xué)(威海) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海 264209)

        0 引言

        企業(yè)業(yè)務(wù)系統(tǒng)普遍存在信息共享程度低、信息與業(yè)務(wù)流程和應(yīng)用相互脫節(jié)等問題,容易導(dǎo)致企業(yè)內(nèi)形成信息孤島[1]。特別是工業(yè)軟件公司為了實(shí)現(xiàn)工業(yè)流程和技術(shù)的程序化,需要龐大的技術(shù)數(shù)據(jù)支撐,這不僅需要企業(yè)內(nèi)部解決信息孤島問題實(shí)現(xiàn)數(shù)據(jù)共享,還需要與很多不同的工業(yè)企業(yè)的數(shù)據(jù)進(jìn)行融合[2]。因此,為了實(shí)現(xiàn)企業(yè)內(nèi)部或外部的數(shù)據(jù)融合,一些企業(yè)開始著手搭建數(shù)據(jù)空間,試圖將企業(yè)資源計(jì)劃(Enterprise Resource Planning, ERP)、客戶關(guān)系管理(Customer Relationship Management, CRM)、制造執(zhí)行系統(tǒng)(Manufacturing Execution System, MES)等工業(yè)軟件進(jìn)行整合,從而解決“信息孤島”問題。

        數(shù)據(jù)空間構(gòu)建過程中的一個(gè)主要問題是如何準(zhǔn)確建立實(shí)體之間的關(guān)聯(lián),即將多源數(shù)據(jù)庫中的異質(zhì)異構(gòu)數(shù)據(jù)通過實(shí)體匹配整合為一個(gè)全面的企業(yè)數(shù)據(jù)空間。盡管可以通過字典或語義庫的屬性列語義匹配、利用列內(nèi)容相似性判斷[3-4]和使用樸素貝葉斯學(xué)習(xí)算法計(jì)算屬性列相似概率等方法發(fā)現(xiàn)實(shí)體之間的關(guān)聯(lián),但是在應(yīng)對海量數(shù)據(jù)時(shí),上述方法存在普適性差、響應(yīng)慢和準(zhǔn)確率低等問題。

        為提升海量數(shù)據(jù)之間相互關(guān)聯(lián)的準(zhǔn)確性、完整性和時(shí)效性,一方面從數(shù)據(jù)的物理結(jié)構(gòu)入手,通過將數(shù)據(jù)元素的表示和關(guān)系抽取出來作為模式信息,通過模式匹配挖掘數(shù)據(jù)之間的相似關(guān)系。DOS REIS等[5]從多源異質(zhì)的大規(guī)模關(guān)系型數(shù)據(jù)庫中使用結(jié)構(gòu)化查詢語言提取數(shù)據(jù)庫名、模式名和表名等信息作為元數(shù)據(jù)集,集中保存于數(shù)據(jù)庫中。通過歐式距離分析元數(shù)據(jù)集之間的關(guān)聯(lián)性,從而建立源數(shù)據(jù)庫之間的關(guān)聯(lián)關(guān)系。BERLIN等[6]提出的系統(tǒng)主要基于貝葉斯學(xué)習(xí),將領(lǐng)域?qū)<摇坝成洹钡綄傩灾R數(shù)據(jù)庫。對匹配對象的屬性根據(jù)屬性知識數(shù)據(jù)庫的信息一一比較,得到量化值。然后基于最小成本最大流量網(wǎng)絡(luò)算法得到對象之間的總體最佳匹配。對于模式匹配中的本體語義相似性問題,孫海霞等[7]通過研究基于距離、信息內(nèi)容、屬性和混合式的語義相似度模型,發(fā)現(xiàn)將比較詞語轉(zhuǎn)換成本體中的概念詞,進(jìn)行語義相似度計(jì)算,可以對某領(lǐng)域的本體語義實(shí)現(xiàn)有針對性的準(zhǔn)確的有效衡量,從而提高了本體語義分析在模式匹配中的準(zhǔn)確度。模式匹配在處理少量數(shù)據(jù)時(shí)能夠根據(jù)所分析的信息有效地區(qū)分?jǐn)?shù)據(jù)之間的關(guān)聯(lián),且由于分析的元素固定,處理速度不會(huì)隨數(shù)據(jù)量的改變而顯著變化,以較少的資源就可以實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)匹配。但是當(dāng)數(shù)據(jù)量呈指數(shù)增長時(shí),由于模式信息的數(shù)量一定,不同類別數(shù)據(jù)的模型信息相似或相同的概率急劇增大,導(dǎo)致模式匹配分析數(shù)據(jù)的區(qū)分度效果減弱。

        另一方面數(shù)據(jù)自身可以作為數(shù)據(jù)的實(shí)例信息,從中挖掘數(shù)據(jù)之間的相似關(guān)系。如BAKHTOUCHI等[8]針對基于實(shí)例的數(shù)據(jù)融合中存在的數(shù)據(jù)沖突問題,提出了將沖突分為不確定沖突和矛盾沖突兩類,并分別給出了解決方案,實(shí)現(xiàn)了對同一表示形式的重復(fù)數(shù)據(jù)進(jìn)行融合,同時(shí)解決了同一屬性的不同值之間可能存在的沖突等問題。RAHM等[9]給出了如何將模式匹配中的名字和描述匹配等解決方案用于元素級別的實(shí)例分析的遷移思路。XU等[10]、SUTANTA等[11]針對實(shí)例的不同數(shù)據(jù)類型,提出了如何將實(shí)例數(shù)據(jù)進(jìn)行分類,并對不同類別的數(shù)據(jù)如何建立數(shù)據(jù)關(guān)聯(lián)提出了系統(tǒng)性的理論框架。實(shí)例分析與模式匹配在處理海量數(shù)據(jù)時(shí),對數(shù)據(jù)融合能夠保持一個(gè)較好的區(qū)分度,但是這往往需要耗費(fèi)較長的分析時(shí)間。此外,當(dāng)數(shù)據(jù)發(fā)生改變,特別是新增數(shù)據(jù)時(shí),實(shí)例分析往往要耗費(fèi)大量的時(shí)間和運(yùn)行資源修正數(shù)據(jù)關(guān)聯(lián)關(guān)系。

        除此之外,隨著深度學(xué)習(xí)與日志的結(jié)合,一些用日志來刻畫用戶與某類物品或某種事情之間關(guān)聯(lián)的研究也受到了大量關(guān)注。張有等[12]通過連續(xù)采集用戶的各種行為記錄,生成大規(guī)模異構(gòu)日志數(shù)據(jù),從而挖掘用戶的行為模式,然后通過行為模式是否改變來檢測用戶異于以往的行為特征,實(shí)現(xiàn)內(nèi)部威脅檢測這一目標(biāo)。MOHANTY等[13]使用物聯(lián)網(wǎng)收集網(wǎng)絡(luò)日志文件進(jìn)行清洗和學(xué)習(xí),通過建立用戶畫像和保存相似信息,提出了基于粗糙模糊聚類的網(wǎng)頁推薦系統(tǒng),實(shí)現(xiàn)了為用戶推薦電子商務(wù)購物網(wǎng)站的目的。日志中含有數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,但日志通常只涉及部分業(yè)務(wù)數(shù)據(jù),缺乏完整性,難以全面反映數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

        綜上所述,企業(yè)發(fā)展中不斷增加的數(shù)據(jù)源,導(dǎo)致數(shù)據(jù)的規(guī)模和類別不斷增加,而模式匹配、實(shí)例分析和日志挖掘等方法從單一維度對數(shù)據(jù)進(jìn)行分析,可能存在無法充分利用數(shù)據(jù)的多樣性、分析不全面和浪費(fèi)大量資源等問題,無法高效準(zhǔn)確地從海量數(shù)據(jù)中挖掘有價(jià)值的信息,幫助企業(yè)更好地發(fā)展。針對這些問題,本文通過整合模式、實(shí)例和日志,從多維對數(shù)據(jù)進(jìn)行分析,充分利用數(shù)據(jù)的多樣性建立實(shí)體關(guān)聯(lián)。

        通過在不同系統(tǒng)的業(yè)務(wù)邏輯層與數(shù)據(jù)訪問層之間部署動(dòng)態(tài)探針,獲取數(shù)據(jù)庫數(shù)據(jù)和日志信息。然后從數(shù)據(jù)結(jié)構(gòu)、實(shí)例和日志這3個(gè)維度建立相應(yīng)的模型,刻畫實(shí)體之間的相似程度,給出實(shí)體之間在不同維度上的相似值。數(shù)據(jù)在多個(gè)維度上的相似值之間不具備可比較性,本文采用基于模糊邏輯的方法[14-15],對不同維度上的相似值進(jìn)行歸一化處理,使其能夠相互比較,從而得到實(shí)體之間關(guān)聯(lián)的最佳匹配結(jié)果。

        1 模型框架

        如圖1所示為實(shí)體關(guān)聯(lián)映射模型,將企業(yè)業(yè)務(wù)系統(tǒng)中A和N等部門的多源數(shù)據(jù)如A1和N1等分別映射為數(shù)據(jù)空間的A1和N1等,屬性aij,nij分別為對應(yīng)的子節(jié)點(diǎn)。在此前研究中[16],筆者提出一種根據(jù)不同系統(tǒng)的全鏈路訪問日志,并據(jù)此建立了跨域?qū)嶓w間的可視化動(dòng)態(tài)關(guān)聯(lián)模型,以節(jié)點(diǎn)表示數(shù)據(jù)庫中包含有的屬性,線性粗細(xì)代表屬性之間關(guān)聯(lián)的強(qiáng)弱。在數(shù)據(jù)空間的實(shí)體關(guān)聯(lián)模型可依照類似模型進(jìn)行可視化,具體地,根據(jù)可統(tǒng)一衡量的歸一化實(shí)體間的相似值,建立實(shí)體之間的關(guān)聯(lián)關(guān)系,并通過線條的粗細(xì)體現(xiàn)實(shí)體之間關(guān)聯(lián)的強(qiáng)弱。如R1:sim=1表示其關(guān)聯(lián)的實(shí)體a13和n11之間的相似值為1,R2:sim=0.83表示其關(guān)聯(lián)的實(shí)體a21和n11之間的相似值為0.83,通過線條的粗細(xì)直觀清晰地展示了實(shí)體a13和n11之間的關(guān)聯(lián)比實(shí)體a21和n11之間的關(guān)聯(lián)強(qiáng)。

        如圖2所示,首先在企業(yè)各業(yè)務(wù)系統(tǒng)如ERP,CRM等的業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層中間分別部署動(dòng)態(tài)探針,實(shí)時(shí)監(jiān)聽并獲取業(yè)務(wù)執(zhí)行時(shí)產(chǎn)生的數(shù)據(jù)。為便于使用需要,將數(shù)據(jù)進(jìn)行持久化保存,業(yè)務(wù)邏輯層以日志的形式保存,其余數(shù)據(jù)使用關(guān)系型數(shù)據(jù)庫存儲。企業(yè)數(shù)據(jù)具有規(guī)模巨大和數(shù)據(jù)類型繁多等特點(diǎn),根據(jù)數(shù)據(jù)的特征和性質(zhì)對數(shù)據(jù)進(jìn)行預(yù)分類,從而加快數(shù)據(jù)的處理并提高實(shí)體間匹配的準(zhǔn)確度。動(dòng)態(tài)探針獲取的數(shù)據(jù)分為數(shù)據(jù)庫模式、數(shù)據(jù)庫實(shí)例和SQL日志,分別從以上3個(gè)維度進(jìn)行分析并分別計(jì)算實(shí)體之間的相似值。從屬性名和約束兩方面進(jìn)行模式匹配分析;實(shí)例分析根據(jù)數(shù)據(jù)類型的不同分為數(shù)值、字符和長文本3種分析方法;日志分析根據(jù)動(dòng)態(tài)探針?biāo)东@的SQL語句中包含的屬性關(guān)聯(lián)信息計(jì)算實(shí)體之間的相似值。最后,基于模糊邏輯分析器,根據(jù)實(shí)體在不同維度上的相似值,對實(shí)體之間的相似性進(jìn)行歸一化計(jì)算,從而在數(shù)據(jù)空間建立有效的實(shí)體關(guān)聯(lián)。

        1.1 模式相似模型

        雖然由于應(yīng)用場景和命名規(guī)范等因素導(dǎo)致數(shù)據(jù)庫設(shè)計(jì)人員所開發(fā)的數(shù)據(jù)庫千差萬別,但是數(shù)據(jù)庫設(shè)計(jì)中一般包含表和字段名、表結(jié)構(gòu)和數(shù)據(jù)類型等內(nèi)容。因此,提取數(shù)據(jù)庫中模式信息的屬性名和約束作為模式相似模型的分析內(nèi)容,衡量實(shí)體之間的相似性。

        1.1.1 屬性名

        屬性名分析分為樸素文本相似度和文本語義相似度分析兩種,屬性名之間的文本相似度計(jì)算方式為編輯距離算法,文本語義相似度通過語義庫的方式計(jì)算。編輯距離指在兩個(gè)單詞w1和w2之間,由單詞w1轉(zhuǎn)換為單詞w2所需要的最少單字符編輯操作次數(shù)[17-18]。根據(jù)編輯次數(shù)定義樸素文本相似值:

        (1)

        式中:l1,l2為屬性名w1和w2的字符長度;D為屬性名w1和w2的編輯距離。

        對于同一實(shí)體的描述可能有不同的表達(dá)方式,如企業(yè)數(shù)據(jù)庫中記錄某上游公司的信息,其屬性名由于場景的不同可以命名為CompanyID和SupplierID。針對此種情況,若只通過樸素文本分析很難發(fā)現(xiàn)屬性名之間的相似關(guān)系。因此,采用基于語義的相似度分析方法,具體地,對屬性名建立如圖3所示的樹狀語義層級關(guān)系,通過屬性名在樹狀圖中對應(yīng)的位置計(jì)算單詞之間的相似性。

        基于語義的相似性計(jì)算公式為:

        (2)

        式中:N1和N2分別表示單詞w1,w2與最近公共父節(jié)點(diǎn)詞w間的最短路徑;H表示從w到根節(jié)點(diǎn)的最短路徑。最終屬性名相似值為樸素文本相似度和文本語義相似度中的最大值,如式(3)所示:

        Sname=Max(Splain,Ssema)。

        (3)

        1.1.2 約束

        數(shù)據(jù)庫中的列在建立時(shí),設(shè)計(jì)人員會(huì)遵循一定的設(shè)計(jì)原則,如合適的數(shù)據(jù)類型、是否為空等。通過約束進(jìn)行列與列之間的相似匹配,需要篩選有代表性的約束,本文從數(shù)據(jù)庫中的眾多數(shù)據(jù)約束信息中篩選出屬性列類型、是否是主鍵或外鍵、是否允許空值和是否有注釋作為特征元素。

        表1 模式規(guī)范特征

        假設(shè)需要進(jìn)行約束相似度判別的兩列分別為A和B,Ai和Bi分別是兩列屬性對應(yīng)的第i個(gè)候選約束的取值,令:

        (4)

        式中n為候選約束個(gè)數(shù),則列A與列B的屬性約束相似度為

        (5)

        1.1.3 模式相似值

        由于模式分析器中包含屬性名和約束分析兩種,采用加權(quán)平均的方式,將式(6)的結(jié)果作為模式相似值:

        Sschema=α·Sname+(1-α)·Scons,

        α∈[0,1]。

        (6)

        式中α根據(jù)實(shí)際情況,調(diào)整參數(shù)屬性名Sname和約束Scons在模式分析中所占的比例。

        1.2 實(shí)例相似模型

        由于描述同類實(shí)體的數(shù)據(jù)集存在相似性,如取值區(qū)間、極值和關(guān)鍵詞等,從數(shù)據(jù)集中提取信息刻畫實(shí)體的基本特征,根據(jù)數(shù)據(jù)的特征信息判斷數(shù)據(jù)之間的相似性強(qiáng)弱,從而建立實(shí)體之間的關(guān)聯(lián)。其中數(shù)據(jù)類別是數(shù)據(jù)集的顯著特征,數(shù)據(jù)類別的不同導(dǎo)致選擇的刻畫數(shù)據(jù)集特征的屬性具有差異性。有針對性地對不同類別的數(shù)據(jù)集建立差異化的特征提取方案,可以提高實(shí)體間關(guān)聯(lián)匹配的準(zhǔn)確性。對數(shù)據(jù)庫中的數(shù)據(jù)類型按表2進(jìn)行歸類,不同類別的數(shù)據(jù)對應(yīng)不同的處理方案,一般數(shù)據(jù)類別不同的實(shí)體之間不相似。

        表2 數(shù)據(jù)類型歸類

        根據(jù)數(shù)據(jù)類型的不同,實(shí)例分析可以分為數(shù)值型、字符型和長文本型3種。其中數(shù)值型指表2中的整型和浮點(diǎn)型,字符型根據(jù)文本的長度不同又分為字符和長文本兩類。對數(shù)據(jù)進(jìn)行分類聚類后按照圖4所示流程分析數(shù)據(jù)之間的相似性。

        1.2.1 數(shù)值型

        對于統(tǒng)計(jì)性標(biāo)量,如加和、均值、方差、中位數(shù)等,可以從數(shù)值分布的角度考慮列與列之間的相似性。為了從不同方面體現(xiàn)數(shù)值型標(biāo)量的特征,重點(diǎn)從以下3個(gè)方面考慮特征的選取,能夠界定數(shù)據(jù)范圍的最大值和最小值,反映數(shù)據(jù)主要分布情況的平均值、算數(shù)中位數(shù)和眾數(shù),能夠反映數(shù)據(jù)離散程度的樣本標(biāo)準(zhǔn)偏差,這些指標(biāo)元素對數(shù)據(jù)量變化不敏感,可以用來作為計(jì)算列相似性的特征元素,而對于非空值的數(shù)量和數(shù)據(jù)的累計(jì)總和等指標(biāo),會(huì)隨數(shù)據(jù)量的變化而顯著變化,因此不適合作為特征元素。最后,計(jì)算每列對應(yīng)的特征向量,代入余弦相似度公式,將結(jié)果作為數(shù)值型的相似值。

        1.2.2 字符型

        字符型指短文本內(nèi)容,使用“詞頻—逆文本頻率”作為相似度計(jì)算算法。首先,將需要判斷相似度的列內(nèi)容合并,作為單獨(dú)的一個(gè)數(shù)據(jù)集;然后,求每列的列內(nèi)容對應(yīng)的向量;最后,將特征向量代入余弦相似度公式,計(jì)算字符型的相似值。

        1.2.3 長文本型

        長文本型指長文本內(nèi)容,將列中的記錄映射為向量,使用自編碼建立模型,根據(jù)模型計(jì)算列之間的相似值。假設(shè)A、B兩列均為長文本列,如圖5所示,為了防止在根據(jù)數(shù)據(jù)建立模型過程中,數(shù)據(jù)集的數(shù)量相差過大導(dǎo)致模型出現(xiàn)過擬合等問題,需要確保數(shù)據(jù)集的數(shù)量在同一量級上,因此對A、B兩列隨機(jī)抽取k條記錄作為抽樣集。自編碼的輸入要求是向量,因此將抽樣集中的文本轉(zhuǎn)化為向量。然后將其分為訓(xùn)練集和測試集,自編碼分別使用訓(xùn)練集建立模型后,根據(jù)測試集的準(zhǔn)確率計(jì)算A、B列的相似性。

        自編碼模型計(jì)算長文本列相似度,如算法1所示,自編碼器1中的輸入?yún)?shù)x1、x2和y對應(yīng)圖5中向量集中1、2和4所代表的數(shù)據(jù),自編碼器2中的x1,x2和y對應(yīng)圖5中向量集中3、4和2所代表的數(shù)據(jù),輸出參數(shù)分別記為λ1,θ1和λ2,θ2。根據(jù)測試集在自編碼器的準(zhǔn)確值來計(jì)算兩列相似值為:

        (7)

        算法1長文本相似度計(jì)算方法。

        輸入:

        訓(xùn)練自編碼器的數(shù)據(jù)集中的訓(xùn)練集x1,測試集x2;

        用于測試自編碼的測試集y,

        文本相似的閾值ω;

        輸出:

        x2對應(yīng)的測試準(zhǔn)確值λ,

        y對應(yīng)的測試準(zhǔn)確值θ。

        1.a_train, a_test=x1, x2; s_a_num, s_b_num=0,0

        2.b_test=y;

        3.a_num, b_num=len(a_test), len(b_test);

        4.input=a_train;

        5.encoded=Dense(input); //創(chuàng)建編碼器

        6.decoded=Dense(encoded); //根據(jù)編碼器創(chuàng)建解碼器

        7.autoencoded=Model(input, decoded); //訓(xùn)練自動(dòng)編碼器

        8.a_test_predict=autoencoded(a_test); //用x2測試訓(xùn)練過的自動(dòng)編碼器

        9.b_test_predict=autoencoded(b_test); //用y測試訓(xùn)練過的自動(dòng)編碼器

        10.FOR a, b ina_test, a_test_predict: //成對取測試集x2和自動(dòng)編碼器處理后的數(shù)據(jù)集

        11. IF similarity(a,b)≥ω: //計(jì)算數(shù)據(jù)的相似值并與閾值對比,統(tǒng)計(jì)大于閾值的數(shù)量

        12. s_a_num++

        14.FOR a, b inb_test, b_test_predict: //成對取測試集y和自動(dòng)編碼器處理后的數(shù)據(jù)集

        15. IF similarity(a,b)≥ω:

        16. s_b_num++

        1.3 日志相似模型

        分層架構(gòu)中的業(yè)務(wù)邏輯層主要是對實(shí)體的屬性和行為進(jìn)行封裝,雖然在不同業(yè)務(wù)邏輯中實(shí)體的表示方式不盡相同,但是同類實(shí)體具有類似的屬性和行為。通過分析業(yè)務(wù)邏輯層的載體日志中關(guān)于實(shí)體的信息,計(jì)算實(shí)體之間的相似值。日志記錄的SQL命令含有列之間的關(guān)聯(lián)關(guān)系,可以作為衡量列相似度的分析依據(jù)。通過統(tǒng)計(jì)日志文件中等價(jià)關(guān)系的次數(shù)可以得到列與列之間的相似度。

        假設(shè)a,b為對比列,則a,b列的日志相似值計(jì)算公式為:

        (8)

        式中:Na,Nb為日志中分別包含a,b值的SQL命令出現(xiàn)的次數(shù);Nab為日志中同時(shí)包含a,b屬性的SQL命令出現(xiàn)的次數(shù)。

        1.4 模糊邏輯相似性度量

        根據(jù)前文所述,用所提模型對數(shù)據(jù)進(jìn)行計(jì)算,能夠得到模式、實(shí)例和日志3個(gè)維度的相似值,由于不同維度上的相似值不具備直接的可比較性,需要將其統(tǒng)一成可直接比較的值。一般能夠?qū)⒍嗑S的數(shù)值轉(zhuǎn)為一個(gè)數(shù)值的方法有德爾菲法[19]、加權(quán)平均和模糊邏輯等。德爾菲法依賴于特定領(lǐng)域的知識,當(dāng)數(shù)據(jù)來源不定時(shí)其無法與數(shù)據(jù)很好地適配,而加權(quán)平均由于其形式固定,對于數(shù)據(jù)處理的方式比較單一,無法充分利用數(shù)據(jù)的特征。模糊邏輯中可以包含專家領(lǐng)域的知識[20]且其對數(shù)據(jù)進(jìn)行處理時(shí)能夠使用多個(gè)函數(shù)進(jìn)行數(shù)據(jù)擬合,其適配性和適應(yīng)性相對較好,因此選擇模糊邏輯來將多個(gè)維度的相似值進(jìn)行歸一化處理。

        設(shè)A和B為進(jìn)行相似性判別的兩列,將上述3個(gè)維度的分析結(jié)果作為模糊邏輯的輸入,并計(jì)算隸屬度。對數(shù)據(jù)進(jìn)行模糊化后,判斷其是否符合模糊規(guī)則。然后計(jì)算所有滿足模糊規(guī)則的情況,將計(jì)算結(jié)果進(jìn)行反模糊化后便可以得到歸一化的衡量列與列之間的相似值。以圖6為例,首先A和B經(jīng)過上述模式、實(shí)例和日志分析得到其在對應(yīng)維度上的相似值:scheme, instance, log分別為0.6、0.7和0.8,然后將相似值經(jīng)過一系列的模糊操作,最終得到A和B之間的相似值為0.71。

        2 實(shí)驗(yàn)驗(yàn)證

        為驗(yàn)證所提框架的可行性,收集某企業(yè)供應(yīng)商的數(shù)據(jù)集進(jìn)行驗(yàn)證。將各個(gè)供應(yīng)商根據(jù)企業(yè)要求提供的信息,如產(chǎn)品報(bào)價(jià)、產(chǎn)品供應(yīng)等信息整合到一起,通過與人工整合的結(jié)果進(jìn)行對比,驗(yàn)證模型的可用性,并記錄分析模型在運(yùn)行過程的表現(xiàn)情況。硬件環(huán)境為:Intel(R) Xeon(R) Silver 4210 CPU @ 2.20 GHz,64 GB RAM,RTX2080Ti*4。

        表3 數(shù)據(jù)匹配結(jié)果

        設(shè)計(jì)如下實(shí)驗(yàn):將供應(yīng)商提供的數(shù)據(jù)使用本節(jié)所設(shè)計(jì)的模型分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)導(dǎo)入到匯總表中(匯總表中需要預(yù)先存在需要導(dǎo)入的屬性及其對應(yīng)的部分?jǐn)?shù)據(jù))。表3是分別選取供應(yīng)商數(shù)據(jù)中3 000條記錄的匹配結(jié)果,其中每一行是每個(gè)供應(yīng)商的匹配結(jié)果信息。數(shù)據(jù)集屬性總數(shù)指供應(yīng)商提供的數(shù)據(jù)屬性的總數(shù),有效屬性總數(shù)是指能夠與匯總文件中某一列屬性對應(yīng)的數(shù)據(jù),正確關(guān)聯(lián)的屬性總數(shù)指的是將每個(gè)供應(yīng)商的數(shù)據(jù)通過模型匹配后,正確整合到匯總文件中對應(yīng)的列數(shù),正確率是正確關(guān)聯(lián)屬性的數(shù)目與有效屬性總數(shù)的比值。

        由結(jié)果可知,數(shù)據(jù)匹配的準(zhǔn)確度最佳表現(xiàn)能夠達(dá)到89%左右,能夠很好地作為輔助工具進(jìn)行數(shù)據(jù)的匹配,而對于第二列數(shù)據(jù)匹配的準(zhǔn)確度較低的結(jié)果進(jìn)行分析,發(fā)現(xiàn)其供應(yīng)商提供的數(shù)據(jù)中專有名稱和縮寫使用較多,且由于其業(yè)務(wù)涉及比較單一,內(nèi)容相似度較高,導(dǎo)致模型分析中的模式匹配結(jié)果準(zhǔn)確率不高,從而導(dǎo)致結(jié)果不理想,后續(xù)可以通過優(yōu)化模式匹配中的語義分析提高準(zhǔn)確性。

        2.1 數(shù)據(jù)空間實(shí)體關(guān)聯(lián)不同方案對比實(shí)驗(yàn)

        抽取收集的供應(yīng)商數(shù)據(jù)中的有效數(shù)據(jù)作為一個(gè)整體,并標(biāo)注其對應(yīng)匯總表中的位置,作為計(jì)算準(zhǔn)確度時(shí)的標(biāo)準(zhǔn),從每個(gè)供應(yīng)商的有效數(shù)據(jù)中等比例抽取相同數(shù)量的列作為樣本,然后分別基于模式、實(shí)例和本文所提的基于模糊邏輯的框架進(jìn)行數(shù)據(jù)匹配實(shí)驗(yàn),從時(shí)間和準(zhǔn)確率兩方面比對不同方法之間的優(yōu)劣。

        從圖7a中可以看出,在不同數(shù)據(jù)量的情況下,基于模式的實(shí)驗(yàn)所用時(shí)間最少,且時(shí)間消耗變化不明顯,基于實(shí)例的方法由于內(nèi)容分析全面,數(shù)據(jù)匹配時(shí)間在相同數(shù)據(jù)量下大幅增加,而本文所提方法雖然包含實(shí)例分析,但是由于在對實(shí)例分析時(shí)會(huì)對數(shù)據(jù)分類分析,減少了數(shù)據(jù)之間相互匹配的數(shù)量,從而消耗的時(shí)間比只有實(shí)例分析的少。

        從圖7b中可以發(fā)現(xiàn),在實(shí)驗(yàn)樣本低于600時(shí)基于實(shí)例的數(shù)據(jù)匹配準(zhǔn)確度最高;本文所提方法在800列后一直保持最高準(zhǔn)確率;基于模式的方法在數(shù)據(jù)量為1 400列后由于分析元素有限,數(shù)據(jù)規(guī)模變大導(dǎo)致同質(zhì)數(shù)據(jù)增多容易發(fā)生誤配事件導(dǎo)致數(shù)據(jù)匹配準(zhǔn)確率下降。整體而言,隨著數(shù)據(jù)量的增多,所有分析方法的數(shù)據(jù)匹配準(zhǔn)確率呈上升趨勢,這是由于在等比例抽樣時(shí),當(dāng)樣本較少時(shí)供應(yīng)商之間對應(yīng)的相似數(shù)據(jù)被抽到的數(shù)目較少,導(dǎo)致誤配情況發(fā)生的可能性增大;而當(dāng)抽樣數(shù)據(jù)增多覆蓋整體數(shù)據(jù)的比例上升時(shí),誤配情況大幅減少,從而數(shù)據(jù)匹配的正確率逐漸提升。

        結(jié)合圖7的對比實(shí)驗(yàn)可以發(fā)現(xiàn),在數(shù)據(jù)量適中的情況下,本文所提方法可以在短時(shí)間內(nèi)得到較高的準(zhǔn)確率。

        2.2 實(shí)例分析中長文本驗(yàn)證實(shí)驗(yàn)

        為了研究實(shí)例分析中不同維度的長文本在自編碼模型中的表現(xiàn)情況,在本節(jié)實(shí)驗(yàn)中,通過收集企業(yè)簡介作為數(shù)據(jù)集,并將其分為兩列,使用實(shí)例分析中的長文本分析方案,通過改變向量維度這一變量進(jìn)行驗(yàn)證。

        從圖8a可以看出,在相同數(shù)據(jù)量情況下,維度越高,實(shí)驗(yàn)所用時(shí)間越多。在數(shù)據(jù)行數(shù)是200 000時(shí),很明顯,維度是1 024所消耗的時(shí)間大約是維度是128的10倍。由圖8b可以發(fā)現(xiàn),在數(shù)據(jù)量較少的情況下,若維度過高會(huì)降低準(zhǔn)確率。這是由于自編碼的原理是通過對數(shù)據(jù)進(jìn)行降維提取關(guān)鍵信息,當(dāng)數(shù)據(jù)規(guī)模小時(shí),長文本中壓縮提取的數(shù)據(jù)特征有限,則高維的特征向量會(huì)混雜大量的噪聲數(shù)據(jù),導(dǎo)致準(zhǔn)確率低。隨著數(shù)據(jù)量的增加,從數(shù)據(jù)中可以提取出更多的數(shù)據(jù)特征,高維的特征向量可以更好地表示文本,因此有更高的準(zhǔn)確率。結(jié)合圖8可以發(fā)現(xiàn),在數(shù)據(jù)行數(shù)為30 000時(shí),維度是128和256的較低維度的數(shù)據(jù)匹配準(zhǔn)確率能維持一個(gè)較高的值且耗時(shí)較短,但是當(dāng)數(shù)據(jù)量增加到30 000以上時(shí),維度是512和1 024的高維度的數(shù)據(jù)匹配準(zhǔn)確度能夠隨數(shù)據(jù)量的增多而顯著變高,但是所耗時(shí)間也隨數(shù)據(jù)量的增大而顯著增多。

        3 結(jié)束語

        本文提出一種基于模式、實(shí)例和日志的混合實(shí)體匹配模型,通過前置探針獲取數(shù)據(jù),采用多層分析框架從模式、實(shí)例和日志3個(gè)維度完成相似度計(jì)算,并基于模糊邏輯推理將多個(gè)維度上的相似值進(jìn)行整合歸一化表示,根據(jù)模糊化得到的最終標(biāo)準(zhǔn)化相似值作為衡量數(shù)據(jù)匹配的標(biāo)準(zhǔn),從而為數(shù)據(jù)空間構(gòu)建過程中的實(shí)體融合提供參考依據(jù)。實(shí)驗(yàn)結(jié)果表明,與先前基于模式或?qū)嵗膯我黄ヅ浞椒ㄏ啾?,本文所提出的模型在?zhǔn)確率和處理大規(guī)模數(shù)據(jù)所消耗的時(shí)間等方面有更好地效果。后續(xù)研究將聚焦如何建立數(shù)據(jù)和權(quán)重之間的映射關(guān)系,建立權(quán)重分配指導(dǎo)方案,從而更好地處理多源異構(gòu)數(shù)據(jù)中數(shù)據(jù)的隨機(jī)性和多樣性對結(jié)果準(zhǔn)確度的影響這一問題。

        猜你喜歡
        數(shù)據(jù)量日志實(shí)例
        一名老黨員的工作日志
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        游學(xué)日志
        完形填空Ⅱ
        完形填空Ⅰ
        一種基于粗集和SVM的Web日志挖掘模型
        中国娇小与黑人巨大交| 国产精品国产三级国产AvkTV| 自拍偷拍一区二区三区四区| 日韩肥臀人妻中文字幕一区| 欧美日韩国产精品自在自线| 玩弄放荡人妻一区二区三区| 日韩AV无码乱伦丝袜一区| 日韩有码在线一区二区三区合集 | 少妇无码吹潮| 国产成人九九精品二区三区| 蜜桃一区二区三区在线视频| 亚洲av片无码久久五月| 久久夜色精品国产噜噜av| 日韩啪啪精品一区二区亚洲av| 手机在线播放成人av| 波多野结衣不打码视频| 久久久久亚洲av无码a片软件| 3亚洲日韩在线精品区| 蜜桃视频第一区免费观看| 国产成人精品白浆久久69| 特黄aa级毛片免费视频播放| 手机在线观看亚洲av| 男吃奶玩乳尖高潮视频| 国产欧美一区二区精品仙草咪| 加勒比日本东京热1区| 精品成人av人一区二区三区| 亚洲欧美色一区二区三区| 日本一区二区精品88| 国产在线视频网站不卡| 亚洲精一区二区三av| 精品人妻va出轨中文字幕| 精品91精品91精品国产片| 亚洲男人的天堂av一区| 性高朝大尺度少妇大屁股| 国品精品一区二区在线观看| av免费网站不卡观看| 亚洲中文字幕无码av永久| 伴郎粗大的内捧猛烈进出视频观看 | 欧美在线观看一区二区| 亚洲一区二区三区麻豆| 国产aⅴ无码专区亚洲av|