亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)編碼的真值發(fā)現(xiàn)*

        2021-09-23 01:22:34曹建軍翁年鳳陶嘉慶
        關(guān)鍵詞:真值數(shù)據(jù)源編碼

        曹建軍,常 宸,2,翁年鳳,陶嘉慶,3,江 春

        (1.國(guó)防科技大學(xué)第六十三研究所,江蘇 南京 210007;2.陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007; 3.南京工業(yè)大學(xué)工業(yè)工程系,江蘇 南京 210009)

        1 引言

        如今,數(shù)據(jù)在各行各業(yè)中發(fā)揮著越來越重要的作用,但數(shù)據(jù)中存在的各種問題也日益凸顯。由于缺乏有效的控制手段,不同互聯(lián)網(wǎng)平臺(tái)提供的數(shù)據(jù)質(zhì)量存在差異,錯(cuò)誤、過時(shí)、不完整數(shù)據(jù)的存在導(dǎo)致多個(gè)網(wǎng)站針對(duì)同一實(shí)體的描述存在沖突[1]。這里的沖突是指不同數(shù)據(jù)集對(duì)同一實(shí)體具有不一致的描述[2]。例如,不同網(wǎng)站對(duì)同一地點(diǎn)同一天的天氣情況提供不同的信息,各圖書網(wǎng)站為同一書籍提供不同的作者信息等。這些不一致信息可能來源于信息錄入錯(cuò)誤、語義理解偏差和數(shù)據(jù)抽取錯(cuò)誤等。低質(zhì)量的沖突數(shù)據(jù)可能會(huì)導(dǎo)致錯(cuò)誤的分析決策和預(yù)測(cè),對(duì)效益產(chǎn)生巨大的影響[3]。因此,解決數(shù)據(jù)沖突問題格外關(guān)鍵且迫在眉睫。真值發(fā)現(xiàn)研究如何從多個(gè)數(shù)據(jù)源提供的多個(gè)對(duì)象的沖突描述中為每一個(gè)對(duì)象找出最準(zhǔn)確的描述[4]。

        傳統(tǒng)真值發(fā)現(xiàn)方法分為基于迭代的方法、基于優(yōu)化的方法和基于概率圖模型的方法。這幾類方法假設(shè)數(shù)據(jù)源可靠度與觀測(cè)值可信度之間的關(guān)系可用簡(jiǎn)單函數(shù)表示,通過人工定義迭代規(guī)則或假設(shè)數(shù)據(jù)分布進(jìn)行真值發(fā)現(xiàn)。而實(shí)際上,數(shù)據(jù)源可靠度和觀測(cè)值可信度之間的關(guān)系通常是未知的,簡(jiǎn)單函數(shù)不足以表達(dá)這種復(fù)雜的關(guān)系,同時(shí)人工定義的條件難以反映數(shù)據(jù)的真實(shí)底層分布,導(dǎo)致真值發(fā)現(xiàn)的結(jié)果準(zhǔn)確性不高。近年來,神經(jīng)網(wǎng)絡(luò)被應(yīng)用到與真值發(fā)現(xiàn)類似的場(chǎng)景中,有學(xué)者利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)源可靠度與觀測(cè)值可信度之間的關(guān)系,提高了真值發(fā)現(xiàn)的效率和穩(wěn)定性,但僅適用于二值屬性的真值發(fā)現(xiàn),不適用于沖突消解的一般場(chǎng)景。

        與傳統(tǒng)真值發(fā)現(xiàn)方法不同,本文首先基于經(jīng)常提供相同觀測(cè)值的數(shù)據(jù)源應(yīng)具備相似可靠度的假設(shè),提出 “數(shù)據(jù)源-數(shù)據(jù)源”損失;基于可靠數(shù)據(jù)源更可能提供可信觀測(cè)值的假設(shè),提出“數(shù)據(jù)源-觀測(cè)值”損失。之后,設(shè)計(jì)雙損失深度網(wǎng)絡(luò)模型,對(duì)數(shù)據(jù)源可靠度與觀測(cè)值可信度進(jìn)行編碼。網(wǎng)絡(luò)優(yōu)化過程一方面使可靠的數(shù)據(jù)源與可信的觀測(cè)值在嵌入空間接近,另一方面使可靠的數(shù)據(jù)源在嵌入空間也彼此接近,并與不可靠的數(shù)據(jù)源遠(yuǎn)離。最后,利用數(shù)據(jù)源與觀測(cè)值的高維嵌入空間進(jìn)行真值發(fā)現(xiàn)。

        與傳統(tǒng)方法相比,本文利用神經(jīng)網(wǎng)絡(luò)表達(dá)數(shù)據(jù)源可靠度與觀測(cè)值可信度間復(fù)雜的關(guān)系,避免了人工定義和假設(shè)數(shù)據(jù)分布對(duì)真值發(fā)現(xiàn)結(jié)果的影響,更準(zhǔn)確地捕捉數(shù)據(jù)源與觀測(cè)值間的依賴關(guān)系。同時(shí),利用向量表達(dá)數(shù)據(jù)源可靠度與觀測(cè)值可信度較實(shí)數(shù)更準(zhǔn)確。與近期提出的基于神經(jīng)網(wǎng)絡(luò)的方法相比,所提方法TDNNE(Truth Discovery based on Neural Network Encoding)適用于真值發(fā)現(xiàn)的一般場(chǎng)景。實(shí)驗(yàn)結(jié)果也表明該方法優(yōu)于已知真值發(fā)現(xiàn)方法。

        2 相關(guān)工作

        2.1 真值發(fā)現(xiàn)基本方法

        針對(duì)結(jié)構(gòu)化數(shù)據(jù)的真值發(fā)現(xiàn),一種簡(jiǎn)單直接的方法是進(jìn)行投票或取平均,這種方法假設(shè)所有數(shù)據(jù)源同樣可靠。然而在大多數(shù)情況下這種假設(shè)可能不成立,不同來源的信息質(zhì)量可能差異很大。真值發(fā)現(xiàn)方法通過估計(jì)數(shù)據(jù)源可靠度來提高沖突消解的準(zhǔn)確性。由于實(shí)際中往往缺乏數(shù)據(jù)源質(zhì)量的先驗(yàn)知識(shí),數(shù)據(jù)源信息需要從已知數(shù)據(jù)中挖掘[5,6]。現(xiàn)階段,已有真值發(fā)現(xiàn)方法將數(shù)據(jù)源可靠度估計(jì)與真值發(fā)現(xiàn)過程緊密結(jié)合,設(shè)計(jì)不同的真值發(fā)現(xiàn)模型以適應(yīng)不同的沖突消解場(chǎng)景,從不同數(shù)據(jù)源提供的沖突信息中找到正確信息。

        Yin等人[4]首先提出了真值發(fā)現(xiàn)的概念,并給出了TruthFinder算法。該算法基于2個(gè)假設(shè):(1)越可靠的數(shù)據(jù)源提供的事實(shí)越可信;(2)提供越多可信事實(shí)的數(shù)據(jù)源越可靠。該假設(shè)綜合考慮了數(shù)據(jù)源的真實(shí)性與其所提供的所有觀測(cè)值的準(zhǔn)確性。眾多學(xué)者基于此假設(shè)提出了不同的真值發(fā)現(xiàn)方法,可概括為基于迭代的方法、基于優(yōu)化的方法、基于概率圖模型的方法和基于神經(jīng)網(wǎng)絡(luò)的方法4類。

        基于迭代的方法[7,8]將真值發(fā)現(xiàn)過程設(shè)計(jì)為迭代過程,利用簡(jiǎn)單函數(shù)假設(shè)數(shù)據(jù)源與觀測(cè)值間的關(guān)系,迭代進(jìn)行真值計(jì)算步驟和數(shù)據(jù)源可靠度估計(jì),直至收斂。以文獻(xiàn)[8]為例,真值計(jì)算過程中,固定數(shù)據(jù)源可靠度,以加權(quán)投票的方式計(jì)算真值,同時(shí)數(shù)據(jù)源可靠度則由本次迭代真值計(jì)算得到。

        基于優(yōu)化的方法[9 - 11]假設(shè)對(duì)象的真值情況應(yīng)該盡可能與各數(shù)據(jù)源提供的觀測(cè)值接近,數(shù)據(jù)源質(zhì)量越高,則其提供的對(duì)象屬性集合與真值集合越相似。該方法通過設(shè)置目標(biāo)函數(shù)來進(jìn)行真值發(fā)現(xiàn),將真值發(fā)現(xiàn)問題轉(zhuǎn)化為優(yōu)化問題求解。通常,基于優(yōu)化的方法使用坐標(biāo)下降法[12]來計(jì)算目標(biāo)函數(shù)中數(shù)據(jù)源可靠度與觀測(cè)值可信度2個(gè)參數(shù)。通過固定一個(gè)參數(shù)的值,尋找另一個(gè)參數(shù)的最優(yōu)值,迭代地執(zhí)行真值計(jì)算步驟和數(shù)據(jù)源可靠度估計(jì)步驟,直到收斂,這與基于迭代的方法類似。

        基于概率圖模型的方法[13 - 16]假設(shè)觀測(cè)值服從概率分布,通過采樣和參數(shù)估計(jì)的方法估計(jì)真值,若假設(shè)的概率分布不能反映數(shù)據(jù)的真實(shí)分布,將導(dǎo)致真值發(fā)現(xiàn)結(jié)果不理想。

        傳統(tǒng)的真值發(fā)現(xiàn)方法假設(shè)數(shù)據(jù)源可靠度和觀測(cè)值可信度之間的關(guān)系可以通過函數(shù)(如線性函數(shù)和二次函數(shù)等)來表示。而實(shí)際上,數(shù)據(jù)源可靠度和觀測(cè)值可信度之間的關(guān)系通常是先驗(yàn)未知的,簡(jiǎn)單假設(shè)將會(huì)導(dǎo)致真值發(fā)現(xiàn)的結(jié)果并不理想。Marshall等人[17]首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用到真值發(fā)現(xiàn)問題中,利用前饋神經(jīng)網(wǎng)絡(luò)解決社會(huì)感知問題,但這種方法需要人工標(biāo)記部分對(duì)象,無法進(jìn)行無監(jiān)督的學(xué)習(xí),且僅適用于網(wǎng)絡(luò)觀測(cè)值是否為真的判斷,不適用于真值發(fā)現(xiàn)的一般場(chǎng)景。文獻(xiàn)[18-19]利用受限玻爾茲曼機(jī)隱含層學(xué)習(xí)數(shù)據(jù)源可靠度分布,采用對(duì)比散度算法(Contrastive Divergence)訓(xùn)練模型參數(shù)[20],通過吉布斯采樣,達(dá)到了較好的擬合效果。但是,由于受限玻爾茲曼機(jī)本身的局限性,也僅適用于屬性為二值的真值發(fā)現(xiàn)場(chǎng)景。之后,Li等人[21]利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行真值發(fā)現(xiàn),以不同數(shù)據(jù)源提供的“對(duì)象-屬性-值”矩陣與數(shù)據(jù)源可靠度矩陣的乘積作為輸入,以各個(gè)觀測(cè)值作為真值的概率作為輸出,通過最小化真值與各數(shù)據(jù)源觀測(cè)值之間的距離來優(yōu)化網(wǎng)絡(luò)參數(shù)。該模型首次利用比實(shí)數(shù)具有更好的表示能力的向量來表示數(shù)據(jù)源可靠度,將數(shù)據(jù)源的可靠度視為潛在的背景知識(shí),并存儲(chǔ)在可靠度矩陣中用來計(jì)算觀測(cè)值的可信度。

        總結(jié)以上幾類真值發(fā)現(xiàn)方法,首先,基于迭代的方法由于人工設(shè)置迭代規(guī)則,具備較好的可解釋性,以方法Investment[8]為例,數(shù)據(jù)源將其可靠度“投資”在其提供的觀測(cè)值上,同時(shí)從識(shí)別真值中收獲可靠度,而其余3種方法則通過梯度下降或參數(shù)估計(jì)的方法獲得真值,可解釋性相對(duì)較差[22]。另一方面,有關(guān)數(shù)據(jù)源的先驗(yàn)知識(shí)對(duì)于真值發(fā)現(xiàn)結(jié)果的提升至關(guān)重要,在基于優(yōu)化的方法中,先驗(yàn)知識(shí)可以被定義為額外的等式或不等式約束,而在基于概率圖模型的方法中,先驗(yàn)知識(shí)可幫助模型中的超參數(shù)獲得更多的額外信息。基于迭代、優(yōu)化和概率圖模型的真值發(fā)現(xiàn)方法由于簡(jiǎn)單假設(shè)數(shù)據(jù)分布或數(shù)據(jù)源觀測(cè)值間依賴關(guān)系,常常不能準(zhǔn)確地描述數(shù)據(jù)的底層分布,導(dǎo)致真值發(fā)現(xiàn)結(jié)果不理想。

        2.2 不同場(chǎng)景下的真值發(fā)現(xiàn)方法

        針對(duì)真值發(fā)現(xiàn)問題,學(xué)者們通過考慮影響真值發(fā)現(xiàn)的各種因素及不同的應(yīng)用場(chǎng)景進(jìn)行了一系列相關(guān)研究。表1所示為不同真值發(fā)現(xiàn)場(chǎng)景的特點(diǎn)及其所需解決的問題的對(duì)比分析。

        Table 1 Comparative analysis of the features and problems in different truth discovery scenarios表1 不同真值發(fā)現(xiàn)場(chǎng)景的特點(diǎn)及其問題對(duì)比分析

        2.2.1 數(shù)據(jù)流

        在數(shù)據(jù)流應(yīng)用方面,Li等人[23]研究了數(shù)據(jù)流上的真值發(fā)現(xiàn),將真值發(fā)現(xiàn)問題中最常見的最優(yōu)化模型近似轉(zhuǎn)化為概率模型,提出能隨著新數(shù)據(jù)的加入而動(dòng)態(tài)更新實(shí)體真實(shí)性和數(shù)據(jù)源權(quán)重的增量真值發(fā)現(xiàn)框架。李天義等人[24]等人針對(duì)感知數(shù)據(jù)流上的連續(xù)真值發(fā)現(xiàn)問題進(jìn)行了研究,通過結(jié)合感知數(shù)據(jù)本身及其應(yīng)用特點(diǎn),定義并研究了當(dāng)感知數(shù)據(jù)流真值發(fā)現(xiàn)的相對(duì)誤差和累積誤差較小時(shí),相鄰時(shí)刻數(shù)據(jù)源的可信度變化需要滿足的條件,進(jìn)而給出了一種概率模型,以預(yù)測(cè)數(shù)據(jù)源的可信度滿足該條件的概率,在保證真值發(fā)現(xiàn)結(jié)果達(dá)到用戶給定精度的同時(shí)提高了效率。Ouyang等人[25]針對(duì)大規(guī)模流數(shù)據(jù),利用MapReduce框架設(shè)計(jì)了一種并行可增量的真值發(fā)現(xiàn)算法,并行算法能有效地在大型數(shù)據(jù)集中發(fā)現(xiàn)真值,流算法能處理增量的數(shù)據(jù)。

        2.2.2 群智感知

        在群智感知中,真值發(fā)現(xiàn)是指通過聚合有用的感知數(shù)據(jù)來推斷真實(shí)信息,同時(shí)從收集到的感知數(shù)據(jù)中估計(jì)用戶可靠性的過程。Yang等人[26]針對(duì)群智感知數(shù)據(jù)流,將質(zhì)量評(píng)估與貨幣激勵(lì)相結(jié)合,設(shè)計(jì)了一種無監(jiān)督的學(xué)習(xí)方法來量化用戶的數(shù)據(jù)質(zhì)量和長(zhǎng)期的聲譽(yù),并利用一個(gè)離群的檢測(cè)技術(shù)來過濾異常的數(shù)據(jù)項(xiàng)。此外,還將盈余分享的過程建模為一種合作博弈,并提出了一種基于Shapley值的方法來確定每個(gè)用戶的支付。通過這個(gè)質(zhì)量相關(guān)的支付方案,可以防止“搭便車”的問題,也可以激勵(lì)用戶提供高質(zhì)量的數(shù)據(jù)。Zheng等人[27]考慮了群智感知的隱私方面,提供了自定義和低開銷的協(xié)議,通過估算用戶的可靠性和隱私保護(hù)來推斷真實(shí)信息。此外,還提出了一種基于同態(tài)加密的替代設(shè)計(jì),它利用雙服務(wù)器模型來保持用戶端的效率,以進(jìn)一步提高協(xié)議在大規(guī)模人群感知應(yīng)用中的可用性。Huang等人[28]引入時(shí)間敏感性,并用最大期望估計(jì)來確定描述準(zhǔn)確性和數(shù)據(jù)源可信度。Miao等人[29]則通過設(shè)計(jì)一個(gè)輕量型的真值發(fā)現(xiàn)架構(gòu),建立新的真值發(fā)現(xiàn)方案,解決最大似然估計(jì)問題,同時(shí)確定聲明的正確性和數(shù)據(jù)源可靠性,不僅保護(hù)了感知數(shù)據(jù)和用戶可靠的信息,還減少了開支。

        2.2.3 文本數(shù)據(jù)

        針對(duì)文本數(shù)據(jù)真值發(fā)現(xiàn),目前大部分學(xué)者對(duì)問題進(jìn)行了簡(jiǎn)化,對(duì)文本數(shù)據(jù)進(jìn)行粗粒度的分析,只能對(duì)社交媒體或其他網(wǎng)絡(luò)資源中文本數(shù)據(jù)進(jìn)行是否為真的判斷,將問題簡(jiǎn)化為二值屬性的真值發(fā)現(xiàn)問題。Popat等人[30]構(gòu)建“數(shù)據(jù)源-語言風(fēng)格”輸入向量作為輸入,通過Logistic回歸,將真值發(fā)現(xiàn)問題轉(zhuǎn)化為二分類問題;Broelemann等人[18,19]利用受限玻爾茲曼機(jī)隱含層學(xué)習(xí)真值概率分布,由于受限玻爾茲曼機(jī)本身特性,也只能用于二值屬性的真值發(fā)現(xiàn);Marshall等人[17]利用全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)源可靠度與觀測(cè)值可信度間的關(guān)聯(lián)關(guān)系,同樣將用戶答案抽象為0/1這2類,并輸入網(wǎng)絡(luò)進(jìn)行真值發(fā)現(xiàn)。對(duì)于一般意義下的真值發(fā)現(xiàn),文獻(xiàn)[31]首先將文本信息引入到真值發(fā)現(xiàn)過程中,并提出了細(xì)粒度的非結(jié)構(gòu)化數(shù)據(jù)真值模型。Ma等人[32]提出了一個(gè)概率圖模型,以無監(jiān)督發(fā)現(xiàn)藥物的真正副作用。 對(duì)于一般意義的文本數(shù)據(jù)真值發(fā)現(xiàn),Zhang等人[33]將文本的語義信息完全融合到真值發(fā)現(xiàn)的過程中,并提出了一種從眾包用戶中發(fā)現(xiàn)可信賴答案的方法。然而,該方法只能處理答案較短的情況,不能應(yīng)用于大多數(shù)文本數(shù)據(jù)真值發(fā)現(xiàn)場(chǎng)景。在此基礎(chǔ)上,Li等人[34]將從特定問題的答案中提取的關(guān)鍵詞組合成多個(gè)可解釋的因子,并使用基于概率圖模型的方法進(jìn)行真值發(fā)現(xiàn),以找到值得信賴的答案。

        3 問題定義

        本文主要研究結(jié)構(gòu)化數(shù)據(jù)真值發(fā)現(xiàn)問題,設(shè)計(jì)雙損失網(wǎng)絡(luò)對(duì)數(shù)據(jù)源及觀測(cè)值進(jìn)行編碼,利用神經(jīng)網(wǎng)絡(luò)自動(dòng)挖掘數(shù)據(jù)源與觀測(cè)值之間的關(guān)聯(lián)度。下面介紹結(jié)構(gòu)化數(shù)據(jù)真值發(fā)現(xiàn)問題及相關(guān)定義。

        如表2所示為8個(gè)網(wǎng)站關(guān)于同一航班AA-1223-DFW-DEN提供的不一致的相關(guān)信息。首先每個(gè)網(wǎng)站提供的航班信息均有所缺失,同時(shí)多個(gè)數(shù)據(jù)源提供的航班信息之間存在沖突。

        Table 2 Information of flight AA-1223-DFW-DEN表2 航班AA-1223-DFW-DEN的相關(guān)信息

        本文研究的問題描述如下:給定對(duì)象集合E={ei|i=1,2,…,Q},其中Q是對(duì)象數(shù)量,ei表示第i個(gè)對(duì)象;數(shù)據(jù)源集合S={sj|j=1,2,…,M},數(shù)據(jù)源提供對(duì)象的描述信息,sj表示第j個(gè)數(shù)據(jù)源,M表示數(shù)據(jù)源數(shù)量;對(duì)象ei的觀測(cè)值集合Ci={cik|k=1,2,…,N},其中cik表示對(duì)象ei第k個(gè)觀測(cè)值,N表示該對(duì)象觀測(cè)值數(shù)量;ci*表示對(duì)象ei的真值。

        本文解決在不進(jìn)行人工標(biāo)注的情況下,從多個(gè)數(shù)據(jù)源提供的多源沖突觀測(cè)值中找到對(duì)象信息的真值,即給定對(duì)象集合E及提供其描述的數(shù)據(jù)源集合S,評(píng)估數(shù)據(jù)源質(zhì)量,找出各個(gè)對(duì)象對(duì)應(yīng)的真值。

        4 模型與分析

        4.1 數(shù)據(jù)源觀測(cè)值編碼

        本節(jié)介紹數(shù)據(jù)源觀測(cè)值編碼過程,根據(jù)所提編碼假設(shè),目標(biāo)嵌入空間如圖1所示。圖1中不同填充內(nèi)容的點(diǎn)分別表示不同數(shù)據(jù)源可靠度編碼與觀測(cè)值可信度編碼在嵌入空間中的位置。首先,對(duì)于不同數(shù)據(jù)源,設(shè)計(jì)“數(shù)據(jù)源-數(shù)據(jù)源”損失,使得可靠度相似的數(shù)據(jù)源在嵌入空間也彼此接近;對(duì)于觀測(cè)值,設(shè)計(jì)“數(shù)據(jù)源-觀測(cè)值”損失,使得觀測(cè)值可信度向量在嵌入空間與其數(shù)據(jù)源接近。通過將數(shù)據(jù)源與觀測(cè)值間的關(guān)系嵌入到高維空間,充分挖掘數(shù)據(jù)源觀測(cè)值間的信息,基于此空間完成真值發(fā)現(xiàn)。

        Figure 1 Illustration of objective embedding space圖1 目標(biāo)嵌入空間示意圖

        4.1.1 “數(shù)據(jù)源-數(shù)據(jù)源”損失

        基于經(jīng)常提供相同觀測(cè)值的數(shù)據(jù)源應(yīng)具備相似可靠度的假設(shè),設(shè)計(jì)“數(shù)據(jù)源-數(shù)據(jù)源”損失,對(duì)數(shù)據(jù)源進(jìn)行編碼。設(shè)數(shù)據(jù)源si和sj的嵌入向量分別為ui∈Rd和uj∈Rd,其中d表示數(shù)據(jù)源嵌入向量的維度,ui和uj分別表示數(shù)據(jù)源si和sj的可靠度。

        首先,定義數(shù)據(jù)源的聯(lián)合概率qij如式(1)所示:

        (1)

        其中,dis(ui,uj) 表示嵌入向量ui與uj規(guī)范化后的余弦距離,用式(2)計(jì)算:

        (2)

        聯(lián)合概率qij越大,則數(shù)據(jù)源si和sj的可靠度越相似,qij服從伯努利分布,數(shù)據(jù)源si和sj提供相同觀測(cè)值的概率為qij,提供不同觀測(cè)值的概率為1-qij。然后,定義nij為數(shù)據(jù)源si和sj提供相同觀測(cè)值的個(gè)數(shù),在給定聯(lián)合概率qij條件下,產(chǎn)生nij的條件概率如式(3)所示:

        (3)

        通過最大化條件概率,可靠度相似的數(shù)據(jù)源將在嵌入空間接近,最終定義“數(shù)據(jù)源-數(shù)據(jù)源”損失函數(shù)LSS如式(4)所示:

        (4)

        LSS損失函數(shù)衡量數(shù)據(jù)源的實(shí)際可靠度與其所在嵌入空間中的位置是否一致,LSS越小,則數(shù)據(jù)源可靠度編碼越準(zhǔn)確。

        4.1.2 “數(shù)據(jù)源-觀測(cè)值”損失

        基于可靠數(shù)據(jù)源更可能提供可信觀測(cè)值,不可靠數(shù)據(jù)源更可能提供錯(cuò)誤觀測(cè)值的假設(shè),設(shè)計(jì)“數(shù)據(jù)源-觀測(cè)值”損失,對(duì)觀測(cè)值進(jìn)行編碼。設(shè)觀測(cè)值cik的嵌入向量為vik∈Rd,表示對(duì)象ei的觀測(cè)值cik的可信度,d表示觀測(cè)值向量的維度,與數(shù)據(jù)源向量維度相同。

        首先,對(duì)于對(duì)象ei,定義觀測(cè)值cik由數(shù)據(jù)源sj提供的條件概率如式(5)所示:

        (5)

        其中,dis(vik,uj)表示嵌入向量vik與uj規(guī)范化后的余弦距離,嵌入向量vik與uj越相似,則其值越小,用式(6)計(jì)算:

        (6)

        p(cik|sj)服從多項(xiàng)式分布,其分母包含對(duì)象ei的全部觀測(cè)值,能夠模擬從數(shù)據(jù)源集合S中產(chǎn)生對(duì)象觀測(cè)值的過程,符合真值發(fā)現(xiàn)觀測(cè)值間可能存在沖突的特性。另一方面,p(cik|sj)越大,觀測(cè)值cik和數(shù)據(jù)源sj的嵌入向量越相似,與假設(shè)可靠數(shù)據(jù)源通常提供可信觀測(cè)值,不可靠數(shù)據(jù)源經(jīng)常提供低可信度觀測(cè)值的假設(shè)一致。

        通過最大化條件概率,使可靠的數(shù)據(jù)源與可信觀測(cè)值在嵌入空間接近(反之,不可靠的數(shù)據(jù)源與不可信的觀測(cè)值在嵌入空間遠(yuǎn)離),最終定義“數(shù)據(jù)源-觀測(cè)值”損失函數(shù)LSC如式(7)所示:

        (7)

        (8)

        LSC損失函數(shù)衡量觀測(cè)值可信度與其數(shù)據(jù)源可靠度是否一致,LSC越小,觀測(cè)值可信度編碼越準(zhǔn)確。

        4.1.3 雙損失編碼網(wǎng)絡(luò)

        結(jié)合“數(shù)據(jù)源-數(shù)據(jù)源”損失和“數(shù)據(jù)源-觀測(cè)值”損失雙損失,網(wǎng)絡(luò)模型最終損失函數(shù)如式(9)所示:

        L=LSS+LSC

        (9)

        基于式(9),設(shè)計(jì)如圖2所示的雙路雙損失神經(jīng)網(wǎng)絡(luò)分別對(duì)數(shù)據(jù)源與觀測(cè)值進(jìn)行編碼。整個(gè)編碼網(wǎng)絡(luò)由3部分構(gòu)成:第1層為輸入層,對(duì)數(shù)據(jù)源與觀測(cè)值編碼進(jìn)行初始化輸入;第2層為編碼層,利用前饋神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)源可靠度與觀測(cè)值可信度進(jìn)行編碼;第3層為輸出層,輸出嵌入空間編碼和相似度矩陣。

        Figure 2 Illustration of proposed model圖2 模型框架示意圖

        (1)第1層。該層為輸入層,數(shù)據(jù)源編碼網(wǎng)絡(luò)輸入樣本為M×d的輸入矩陣,其中M表示數(shù)據(jù)源數(shù)量,d表示數(shù)據(jù)源可靠度向量的維度;觀測(cè)值編碼網(wǎng)絡(luò)輸入樣本為(Q×M)×d的輸入矩陣,其中Q表示樣本數(shù)量,d表示觀測(cè)值可信度向量的維度。

        (2)第2層。該層為編碼層,主要是對(duì)數(shù)據(jù)源可靠度向量與觀測(cè)值可信度向量進(jìn)行編碼,構(gòu)造用于真值發(fā)現(xiàn)的數(shù)據(jù)源觀測(cè)值嵌入空間。該層與輸入層進(jìn)行連接,并且前后都是全連接。編碼層第1個(gè)隱含層的節(jié)點(diǎn)個(gè)數(shù)為d。

        (3)第3層。該層為輸出層,節(jié)點(diǎn)個(gè)數(shù)為d。數(shù)據(jù)源編碼網(wǎng)絡(luò)輸出樣本為M×d的輸出矩陣,得到“數(shù)據(jù)源-數(shù)據(jù)源”相似度矩陣。對(duì)于觀測(cè)值編碼,將其輸出與數(shù)據(jù)源編碼網(wǎng)絡(luò)的輸出矩陣計(jì)算得到“數(shù)據(jù)源-觀測(cè)值”相似度矩陣。

        最后綜合數(shù)據(jù)源編碼網(wǎng)絡(luò)與觀測(cè)值編碼網(wǎng)絡(luò)的輸出,利用式(9)計(jì)算編碼損失,對(duì)雙路前饋神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到最終的數(shù)據(jù)源觀測(cè)值嵌入空間。

        4.1.4 雙損失編碼網(wǎng)絡(luò)的學(xué)習(xí)過程

        神經(jīng)網(wǎng)絡(luò)編碼層的訓(xùn)練過程采用的是反向傳播算法。輸入原始數(shù)據(jù)即數(shù)據(jù)源可靠度與觀測(cè)值可信度初始化向量,通過雙路神經(jīng)網(wǎng)絡(luò)先各自前向計(jì)算各神經(jīng)元的激活值,得到數(shù)據(jù)源可靠度編碼與觀測(cè)值可信度編碼,然后綜合2路編碼信息,反向計(jì)算雙損失;同時(shí)對(duì)誤差求各個(gè)權(quán)值和偏置的梯度,并據(jù)此調(diào)整前饋神經(jīng)網(wǎng)絡(luò)中各個(gè)權(quán)值和偏差,得到最終的數(shù)據(jù)源可靠度與觀測(cè)值可信度嵌入空間。

        (10)

        其中,ReLU(Rectified Linear Unit)是修正線性單元激活函數(shù),能夠?qū)⒎蔷€性特性引入到編碼網(wǎng)絡(luò)中,同時(shí)有效防止梯度彌散,提升收斂速度。

        在網(wǎng)絡(luò)的訓(xùn)練過程中,使用全部的觀測(cè)值作為訓(xùn)練數(shù)據(jù),無監(jiān)督訓(xùn)練網(wǎng)絡(luò)參數(shù),得到最終的嵌入空間。

        4.2 基于嵌入空間的真值發(fā)現(xiàn)

        通過雙損失神經(jīng)網(wǎng)絡(luò)編碼,將數(shù)據(jù)源與觀測(cè)值嵌入到高維空間,嵌入向量分別代表數(shù)據(jù)源可靠度與觀測(cè)值可信度,同時(shí)可靠度相似的數(shù)據(jù)源與可信度相似的觀測(cè)值在嵌入空間接近。通過投票機(jī)制,選擇得票數(shù)最高的觀測(cè)值對(duì)應(yīng)的多個(gè)嵌入向量的均值作為“參考真值”向量,如對(duì)于對(duì)象ei,其參考真值v′i*由式(11)計(jì)算得到:

        (11)

        其中,vir(i=1,2,…,L)表示通過投票機(jī)制產(chǎn)生的最高票數(shù)觀測(cè)值對(duì)應(yīng)的多個(gè)嵌入向量,L表示提供該值的數(shù)據(jù)源的個(gè)數(shù)。本文定義該對(duì)象真值為距離“參考真值”最近的觀測(cè)值,如式(12)所示:

        vi*=arg mink(dis(vik,v′i*))

        (12)

        與簡(jiǎn)單投票不同,TDNNE將數(shù)據(jù)源可靠度估計(jì)與真值發(fā)現(xiàn)過程相結(jié)合,以嵌入空間為基礎(chǔ),將數(shù)據(jù)源間的相似度編碼為數(shù)據(jù)源相對(duì)可靠度,提高真值發(fā)現(xiàn)過程的準(zhǔn)確性。

        5 實(shí)驗(yàn)與結(jié)果分析

        本節(jié)通過在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證TDNNE方法的有效性與準(zhǔn)確性。首先,將本文所提方法TDNNE與傳統(tǒng)真值發(fā)現(xiàn)方法及基于神經(jīng)網(wǎng)絡(luò)的真值發(fā)現(xiàn)方法進(jìn)行對(duì)比,驗(yàn)證該方法的有效性和優(yōu)越性。然后,研究學(xué)習(xí)率對(duì)所提方法的影響。最后對(duì)嵌入空間進(jìn)行可視化,直觀展示編碼產(chǎn)生的數(shù)據(jù)源可靠度與觀測(cè)值可信度。

        5.1 實(shí)驗(yàn)設(shè)置

        本文使用TensorFlow框架實(shí)現(xiàn)網(wǎng)絡(luò)并進(jìn)行訓(xùn)練,CPU為Intel Xeon E5-2630,內(nèi)存為192 GB,GPU為NVIDIA Tesla P40×2,采用CentOS 7 64位操作系統(tǒng)。

        5.2 實(shí)驗(yàn)數(shù)據(jù)

        本文在真實(shí)數(shù)據(jù)集Weather和Flight(http://da.qcri.org/dafna/#/dafna/exp_sections/realworldDS/book.html)上進(jìn)行對(duì)比實(shí)驗(yàn),數(shù)據(jù)集來源于DAFNA(Data Forensics with Analytics),該網(wǎng)站為真值發(fā)現(xiàn)研究提供相關(guān)經(jīng)典數(shù)據(jù)集,數(shù)據(jù)集的統(tǒng)計(jì)信息如表3所示。

        Table 3 Statistical information of datasets表3 數(shù)據(jù)集的統(tǒng)計(jì)信息

        Weather數(shù)據(jù)集:包含了16個(gè)網(wǎng)站關(guān)于不同地點(diǎn)不同時(shí)間的天氣信息,包括溫度(Temperature)、體感溫度(Real Feel)、濕度(Humidity)、氣壓(Pressure)和能見度(Visibility)5個(gè)屬性,該數(shù)據(jù)集提供了各個(gè)對(duì)象的真值。利用本文方法從多個(gè)網(wǎng)站提供的沖突信息中找到各個(gè)地區(qū)每天天氣的真值。對(duì)于數(shù)據(jù)集中的空值,采用投票的方法進(jìn)行填充。

        Flight數(shù)據(jù)集:包含了38個(gè)不同網(wǎng)站提供的不同航班信息,包括實(shí)際出發(fā)時(shí)間(Actual Departure Time)、實(shí)際到達(dá)時(shí)間(Actual Arrival Time)、登機(jī)口(Departure Gate)、預(yù)計(jì)出發(fā)時(shí)間(Expected Departure Time)和預(yù)計(jì)到達(dá)時(shí)間(Expected Arrival Time)5個(gè)屬性,該數(shù)據(jù)集提供了2011年12月~2012年1月的航班信息真值。利用本文方法從多個(gè)網(wǎng)站提供的沖突航班信息中找到各個(gè)航班的真實(shí)信息。對(duì)于數(shù)據(jù)集中的空值,同樣采用投票的方法進(jìn)行填充。

        5.3 評(píng)價(jià)指標(biāo)

        本文采用自定義指標(biāo)準(zhǔn)確率(Pre)評(píng)價(jià)最終結(jié)果,其計(jì)算方式如式(13)所示:

        (13)

        其中,P為觀測(cè)值真值總數(shù)量,TP為方法得到的正確觀測(cè)值真值數(shù)量。準(zhǔn)確率越高,真值發(fā)現(xiàn)方法效果越好。

        5.4 對(duì)比方法與參數(shù)設(shè)置

        本文將所提方法與多個(gè)真值發(fā)現(xiàn)方法進(jìn)行對(duì)比,分別是基于迭代的真值發(fā)現(xiàn)方法Depen[7]、Accu[7]和AccuSim[7];基于概率圖模型的真值發(fā)現(xiàn)方法Cosine[16]和3-Estimates[16];基于優(yōu)化的真值發(fā)現(xiàn)方法CRH(Conflict Resolution on Heterogeneous data)[9];基于神經(jīng)網(wǎng)絡(luò)的真值發(fā)現(xiàn)方法FFMN(Feed Forward Memory Network)[21]。各個(gè)對(duì)比方法介紹如下:

        (1)Depen:該方法考慮真值發(fā)現(xiàn)中數(shù)據(jù)源之間的復(fù)制情況,若2個(gè)數(shù)據(jù)源提供大量公共值,并且大部分的公共值很少由其他數(shù)據(jù)源提供,則很可能該數(shù)據(jù)源間存在復(fù)制行為。該方法使用貝葉斯分析來確定數(shù)據(jù)源之間的依賴關(guān)系,并設(shè)計(jì)一種迭代方法檢測(cè)數(shù)據(jù)源之間的依賴,同時(shí)從沖突信息中發(fā)現(xiàn)真值,是一種可拓展的真值發(fā)現(xiàn)方法。Depen是Accu和AccuSim的核心方法。

        (2)Accu:該方法優(yōu)化了數(shù)據(jù)源間復(fù)制情況的準(zhǔn)確度判定條件,計(jì)算特定對(duì)象的底層數(shù)據(jù)中觀測(cè)值的概率分布,選擇具有最高概率的值作為真值,是Depen方法的拓展。

        (3)AccuSim:該方法針對(duì)枚舉型數(shù)據(jù)進(jìn)行真值發(fā)現(xiàn)??紤]觀測(cè)值間的相似性,采用文獻(xiàn)[4]提出的相似度度量模型,該方法是Accu方法的拓展。

        (4)Cosine:該方法基于概率圖模型,綜合考慮Web數(shù)據(jù)中真值與觀測(cè)值間的相關(guān)性估計(jì)數(shù)據(jù)源可靠度與觀測(cè)值的可信度。使用余弦函數(shù)[35]對(duì)觀測(cè)值相似度進(jìn)行度量,并通過迭代的方法使其收斂。

        (5)3-Estimates:該方法針對(duì)單真值發(fā)現(xiàn)問題,假設(shè)同一對(duì)象有且僅有一個(gè)真值。基于投票的方法,綜合考慮每個(gè)對(duì)象的真值的可信度進(jìn)行真值發(fā)現(xiàn),是Cosine方法的拓展。

        (6)CRH:該方法利用各種損失函數(shù)和正則化函數(shù)來描述不同的數(shù)據(jù)類型和權(quán)重分布,基于真值發(fā)現(xiàn)的假設(shè)設(shè)計(jì)目標(biāo)函數(shù),具有較高的收斂率和準(zhǔn)確率,相較于其他真值發(fā)現(xiàn)方法準(zhǔn)確率更高,是目前較優(yōu)的非神經(jīng)網(wǎng)絡(luò)真值發(fā)現(xiàn)方法。

        (7)FFMN:該方法基于對(duì)象的真值情況應(yīng)該盡可能與各數(shù)據(jù)源提供的觀測(cè)值接近,同時(shí)根據(jù)數(shù)據(jù)源的質(zhì)量越高則其提供的對(duì)象屬性集合與真值集合越相似的假設(shè)設(shè)計(jì)損失函數(shù),將數(shù)據(jù)源與觀測(cè)值之間的關(guān)系依賴?yán)们梆伾窠?jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),將真值發(fā)現(xiàn)任務(wù)抽象為分類任務(wù)進(jìn)行求解。

        TDNNE使用Weather數(shù)據(jù)集全部數(shù)據(jù)源及其觀測(cè)值進(jìn)行編碼,不進(jìn)行訓(xùn)練集與測(cè)試集的劃分,當(dāng)模型連續(xù)500次迭代損失函數(shù)不發(fā)生變化時(shí),停止迭代,得到數(shù)據(jù)源觀測(cè)值嵌入空間,并進(jìn)行真值發(fā)現(xiàn)。

        5.5 實(shí)驗(yàn)結(jié)果

        5.5.1 實(shí)驗(yàn)結(jié)果對(duì)比

        表4和表5分別列出了TDNNE以及不同真值發(fā)現(xiàn)方法在數(shù)據(jù)集Weather和Flight上的對(duì)比實(shí)驗(yàn)結(jié)果。

        由表4和表5可以看出,TDNNE真值發(fā)現(xiàn)方法優(yōu)于基于迭代、優(yōu)化及概率圖模型的真值發(fā)現(xiàn)方法以及最新提出的基于神經(jīng)網(wǎng)絡(luò)的真值發(fā)現(xiàn)方法FFMN。CRH和FFMN的性能相對(duì)穩(wěn)定,而Accu和AccuSim在處理Flight數(shù)據(jù)集時(shí)的準(zhǔn)確率較處理Weather數(shù)據(jù)集有明顯的提升。

        基于迭代、優(yōu)化及概率圖模型的真值發(fā)現(xiàn)方法

        Table 4 Comparison of test results on Weather dataset表4 Weather數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比

        Table 5 Comparison of test results on Flight dataset表5 Flight數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比

        由于人工假設(shè)數(shù)據(jù)源觀測(cè)值間的依賴關(guān)系,難以真實(shí)反映數(shù)據(jù)的底層分布,導(dǎo)致真值發(fā)現(xiàn)結(jié)果不理想。而FFMN真值發(fā)現(xiàn)方法假設(shè)真值與大多數(shù)觀測(cè)值相似,在特殊情況下其實(shí)并不適用,導(dǎo)致真值發(fā)現(xiàn)結(jié)果準(zhǔn)確率不高。本文利用神經(jīng)網(wǎng)絡(luò)編碼的思想來表示數(shù)據(jù)源可靠度與觀測(cè)值可信度,一方面,高維空間表達(dá)能力更強(qiáng),能更準(zhǔn)確地描述數(shù)據(jù)源觀測(cè)值間的關(guān)系依賴。另一方面,利用前饋神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)源與觀測(cè)值嵌入到高維空間,不需要假設(shè)數(shù)據(jù)的分布,結(jié)果更準(zhǔn)確。

        5.5.2 學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響

        在神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程中,學(xué)習(xí)率控制參數(shù)的更新速度,學(xué)習(xí)率過小,會(huì)極大降低收斂速度,可能陷入局部最優(yōu);而學(xué)習(xí)率過大,則可能導(dǎo)致參數(shù)在最優(yōu)解兩側(cè)來回震蕩,本節(jié)使用0.1,0.01,0.001,0.000 1,0.000 01進(jìn)行實(shí)驗(yàn),以驗(yàn)證學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響,結(jié)果如圖3所示。

        Figure 3 Influence of learning rate on experimental results圖3 學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響

        Figure 4 Encoding space of data sources圖4 數(shù)據(jù)源編碼空間

        由圖3可知,實(shí)驗(yàn)結(jié)果受學(xué)習(xí)率的影響較小,學(xué)習(xí)率為0.1和0.01時(shí),實(shí)驗(yàn)結(jié)果相對(duì)較好。

        5.5.3 編碼空間可視化

        5.5.3.1 數(shù)據(jù)源編碼

        為直觀展示數(shù)據(jù)源編碼操作的有效性,以Weather數(shù)據(jù)集的屬性Temperature為例,對(duì)所有數(shù)據(jù)源以“數(shù)據(jù)源-數(shù)據(jù)源”損失進(jìn)行編碼,構(gòu)造真實(shí)的數(shù)據(jù)源相似度矩陣,并對(duì)真實(shí)的數(shù)據(jù)源相似度矩陣與編碼產(chǎn)生的數(shù)據(jù)源相似度矩陣進(jìn)行可視化。

        首先根據(jù)數(shù)據(jù)集標(biāo)注等信息,計(jì)算出各數(shù)據(jù)源之間相同觀測(cè)值的數(shù)量,以構(gòu)造真實(shí)的數(shù)據(jù)源相似度矩陣。真實(shí)的數(shù)據(jù)源相似度矩陣構(gòu)造方式如下所示:構(gòu)造一個(gè)16×16的矩陣,1~16為數(shù)據(jù)源編號(hào),矩陣的副對(duì)角線上的元素表示同一個(gè)數(shù)據(jù)源的相同觀測(cè)值個(gè)數(shù),所以副對(duì)角線的元素都為各數(shù)據(jù)源總觀測(cè)值個(gè)數(shù)。除副對(duì)角線之外的其他元素值,表示對(duì)應(yīng)2個(gè)坐標(biāo)編號(hào)數(shù)據(jù)源之間的相同觀測(cè)值個(gè)數(shù),并以副對(duì)角線為對(duì)稱軸對(duì)稱。

        圖4a所示為16個(gè)數(shù)據(jù)源觀測(cè)值相似度矩陣的真實(shí)分布,橫縱坐標(biāo)分別為數(shù)據(jù)源編號(hào),圖4a中給出了數(shù)據(jù)源之間相同觀測(cè)值個(gè)數(shù)的情況。圖4b~圖4e所示為編碼維度d分別為2,5,10,20時(shí)得到的數(shù)據(jù)源嵌入向量間的相似度矩陣,圖4b~圖4e中給出了最終數(shù)據(jù)源可靠度編碼向量間的相似度。

        首先,對(duì)比圖4a與圖4b~圖4e可以看出,本文設(shè)計(jì)的網(wǎng)絡(luò)及損失函數(shù)能夠有效編碼數(shù)據(jù)源,還原數(shù)據(jù)源間的相似度關(guān)系。將數(shù)據(jù)源嵌入到高維度空間后,嵌入空間的數(shù)據(jù)源相似度矩陣與數(shù)據(jù)源真實(shí)分布矩陣是一致的,即數(shù)據(jù)源的相似度關(guān)系與數(shù)據(jù)源間相同觀測(cè)值比例關(guān)系保持一致。其次,對(duì)比圖4b和圖4c可以看出,數(shù)據(jù)源編碼維度會(huì)影響實(shí)驗(yàn)結(jié)果,隨著數(shù)據(jù)源維度增加,嵌入空間與真實(shí)分布逐漸相似,當(dāng)維度d為20時(shí),圖4a與圖4e幾乎一致,此時(shí)數(shù)據(jù)源嵌入有效還原了數(shù)據(jù)源間的相似度關(guān)系。由此可見,相比實(shí)數(shù),高維向量能夠更好地表征數(shù)據(jù)源的可靠度。

        最后,為驗(yàn)證該嵌入方法是否能真正反映數(shù)據(jù)源的可靠度,根據(jù)數(shù)據(jù)集提供的標(biāo)準(zhǔn)真值,對(duì)不同的數(shù)據(jù)源的真實(shí)準(zhǔn)確率進(jìn)行了計(jì)算。以準(zhǔn)確率最高的數(shù)據(jù)源s14(Pre= 0.77)為例,由圖4e可知,在嵌入空間,與其可靠度相似度高的數(shù)據(jù)源為s8(Pre= 0.63)和s10(Pre= 0.57);相似度相對(duì)較高的數(shù)據(jù)源為s3(Pre= 0.37)、s7(Pre= 0.43)、s11(Pre= 0.42)和s15(Pre= 0.47)等;相似度極低的數(shù)據(jù)源為s1(Pre= 0.34)、s5(Pre= 0.19)和s12(Pre= 0.23)??梢?,數(shù)據(jù)源間的相似度與其實(shí)際真實(shí)準(zhǔn)確率的相似度是基本一致的。同時(shí),數(shù)據(jù)源s5與所有數(shù)據(jù)源在編碼空間的相似度均較低,所以在嵌入空間,數(shù)據(jù)源s5的可靠度明顯區(qū)別于其他數(shù)據(jù)源(表現(xiàn)為與其他所有數(shù)據(jù)源相似度均較低)。所以,通過數(shù)據(jù)源編碼,準(zhǔn)確率相似的數(shù)據(jù)源在編碼空間距離上也逐漸接近,本文提出的數(shù)據(jù)源嵌入方法能夠使可靠的數(shù)據(jù)源在嵌入空間彼此接近,并與不可靠的數(shù)據(jù)源遠(yuǎn)離。

        5.5.3.2 觀測(cè)值編碼

        為直觀展示觀測(cè)值編碼的有效性,以Weather數(shù)據(jù)集的Temperature屬性為例,對(duì)所有觀測(cè)值以“數(shù)據(jù)源-觀測(cè)值”損失進(jìn)行編碼,從準(zhǔn)確率排名前3及后3的數(shù)據(jù)源中隨機(jī)抽取200個(gè)觀測(cè)值,使用T-分布領(lǐng)域嵌入T-SNE(T-distributed Stochastic Neighbor Embedding)[36]方法由20維降維至2維,并對(duì)其嵌入空間進(jìn)行可視化。T-SNE方法將嵌入向量間的相似度轉(zhuǎn)化為概率,將數(shù)據(jù)映射至高維空間后,嵌入向量間的相似性同時(shí)在高維空間表現(xiàn)出來,是目前較好的非線性數(shù)據(jù)降維與可視化方法。結(jié)果如圖5所示。

        Figure 5 Encoding space of claims圖5 觀測(cè)值編碼空間

        圖5中,各點(diǎn)分別代表觀測(cè)值經(jīng)T-SNE方法降維后在二維空間中的位置,圖中聚攏的不同簇表示不同數(shù)據(jù)源產(chǎn)生的觀測(cè)值。由圖5可知,通過觀測(cè)值編碼網(wǎng)絡(luò),各數(shù)據(jù)源提供的觀測(cè)值向各數(shù)據(jù)源中心聚攏,在嵌入空間分成不同的簇。同時(shí),觀測(cè)值嵌入空間被大致分為3個(gè)部分,準(zhǔn)確率相似的數(shù)據(jù)源在嵌入空間也相對(duì)接近。同時(shí)數(shù)據(jù)源相似度越高,則其距離也越近。經(jīng)過編碼得到的嵌入空間符合可靠數(shù)據(jù)源更可能提供可信觀測(cè)值,經(jīng)常提供相同觀測(cè)值的數(shù)據(jù)源具備相似可靠度的假設(shè)。

        6 結(jié)束語

        針對(duì)傳統(tǒng)真值發(fā)現(xiàn)方法簡(jiǎn)單假設(shè)數(shù)據(jù)分布與數(shù)據(jù)源觀測(cè)值關(guān)系依賴,導(dǎo)致真值發(fā)現(xiàn)結(jié)果不理想的問題,提出了基于深度神經(jīng)網(wǎng)絡(luò)編碼的真值發(fā)現(xiàn)方法。首先,考慮數(shù)據(jù)源與觀測(cè)值間的關(guān)系,設(shè)計(jì)“數(shù)據(jù)源-數(shù)據(jù)源”“數(shù)據(jù)源-觀測(cè)值”雙損失;然后,利用雙路前饋神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)源可靠度與觀測(cè)值可信度嵌入到高維向量空間,相比實(shí)數(shù),更準(zhǔn)確地表達(dá)了數(shù)據(jù)源可靠度與觀測(cè)值可信度;最后,基于投票機(jī)制設(shè)計(jì)基于嵌入空間的真值發(fā)現(xiàn)方法。真值發(fā)現(xiàn)過程不需要人工定義迭代規(guī)則,前饋神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)其復(fù)雜的關(guān)系。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,較傳統(tǒng)真值發(fā)現(xiàn)方法,本文所提方法準(zhǔn)確率更高,同時(shí)可視化分析也直觀展示了數(shù)據(jù)源觀測(cè)值的編碼結(jié)果。

        在下一步研究工作中,將會(huì)考慮更復(fù)雜的情況,提出更健全的損失函數(shù),以提高真值發(fā)現(xiàn)的準(zhǔn)確性,包括數(shù)據(jù)源之間的復(fù)制、數(shù)據(jù)的長(zhǎng)尾效應(yīng)等。

        猜你喜歡
        真值數(shù)據(jù)源編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        10kV組合互感器誤差偏真值原因分析
        電子制作(2017年1期)2017-05-17 03:54:35
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        真值限定的語言真值直覺模糊推理
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢?cè)O(shè)計(jì)與實(shí)現(xiàn)
        在线视频一区二区在线观看| 97久久香蕉国产线看观看| 国产精品第一二三区久久蜜芽| 国产激情视频在线| 爱爱免费视频一区二区三区| 亚洲a∨无码精品色午夜| 午夜亚洲av永久无码精品| 狠狠色狠狠色综合网老熟女| 在线视频免费自拍亚洲| 大地资源网在线观看免费官网| av无码天堂一区二区三区| 亚洲动漫成人一区二区| 国产毛片精品一区二区色| 欧美激情视频一区二区三区免费 | 国产69口爆吞精在线视频喝尿| 一区二区三区日韩毛片| 激情综合色综合啪啪开心| 久久久久久久久久久国产| 亚洲一区二区三区久久蜜桃| 亚洲综合久久中文字幕专区一区| 国产做无码视频在线观看| 亚洲欧洲日产国码高潮αv| 在线你懂| 亚洲sm另类一区二区三区| 末成年女a∨片一区二区| 亚洲аv天堂无码| 日本一级二级三级在线| 亚洲男女内射在线播放| 1000部夫妻午夜免费| 高清高速无码一区二区| 久久老熟女一区二区三区福利| 大地资源在线观看官网第三页| 欧美成aⅴ人高清免费| 亚洲中文字幕在线精品2021| 免费a级毛片18禁网站免费| 亚洲国产精品久久久久秋霞影院| 亚洲色成人www永久在线观看| 久久久窝窝午夜精品| 中文字幕人妻少妇久久| 色翁荡熄又大又硬又粗又动态图 | 国产精品成人va|