作者簡介:王春雪(1988-),女(通信作者),山東德州人,副研究館員,博士,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)與圖像處理、數(shù)值優(yōu)化等(chunxuewang2019@163.com);徐琳琳(1988-),女,山東濟(jì)寧人,講師,博士,主要研究方向?yàn)橄∈鑳?yōu)化、幾何建模與處理等;俞天秀(1981-),男,甘肅武威人,研究館員,所長,博士研究生,主要研究方向?yàn)槿斯ぶ悄?、文化遺產(chǎn)數(shù)字化.
摘 要:多標(biāo)簽答案聚合問題是通過融合眾包收集的大量非專家標(biāo)注來估計(jì)樣本的真實(shí)標(biāo)簽,由于數(shù)字文化遺產(chǎn)數(shù)據(jù)具有標(biāo)注成本高、樣本類別多、分布不均衡等特點(diǎn),給數(shù)據(jù)集多標(biāo)簽答案聚合問題帶來了極大挑戰(zhàn)。以往的方法主要集中在單標(biāo)簽任務(wù),忽視了多標(biāo)簽任務(wù)的標(biāo)簽關(guān)聯(lián)性;大部分多標(biāo)簽聚合方法雖然在一定程度上考慮了標(biāo)簽相關(guān)性,但是很敏感地受噪聲和離群值的影響。為解決這些問題,提出一種基于自適應(yīng)圖正則化與聯(lián)合低秩矩陣分解的多標(biāo)簽答案聚合方法AGR-JMF。首先,將標(biāo)注矩陣分解成純凈標(biāo)注和噪聲標(biāo)注兩部分;對(duì)純凈標(biāo)注采用自適應(yīng)圖正則化方法構(gòu)建標(biāo)簽間的關(guān)聯(lián)矩陣;最后,利用標(biāo)注質(zhì)量、標(biāo)簽關(guān)聯(lián)性、標(biāo)注人員行為屬性相似性等信息指導(dǎo)低秩矩陣分解,以實(shí)現(xiàn)多標(biāo)簽答案的聚合。真實(shí)數(shù)據(jù)集和莫高窟壁畫數(shù)據(jù)集上的實(shí)驗(yàn)表明,AGR-JMF相較于現(xiàn)有算法在聚合準(zhǔn)確率、識(shí)別欺詐者等方面具有明顯優(yōu)勢。
關(guān)鍵詞:多標(biāo)簽眾包答案聚合;純凈標(biāo)注數(shù)據(jù);自適應(yīng)圖正則化;低秩矩陣分解
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)04-026-1119-11doi: 10.19734/j.issn.1001-3695.2022.09.0442
Abstract:Multi-label answer aggregation problem aims to estimate the ground truth labels of samples by aggregating a large number of non-expert annotations collected by crowdsourcing. Due to the high annotation cost, multiple sample categories and uneven distribution of digital cultural heritage data, it brings great challenges to multi-label answer aggregation of datasets. Previous methods mainly focus on single-label problems, ignoring the label relevance of multi-label tasks. To some extent, most multi-label aggregation methods consider label correlations but are sensitive to noises and outliers. To solve these problems, this paper proposed a multi-label answer aggregation method based on adaptive graph regularization and joint low-rank matrix factorization AGR-JMF. Firstly, it divided the input annotation matrix into two parts: pure annotations and noise annotations. Then, it constructed the association matrix between labels by adaptive graph regularization method for pure annotations. Finally, in order to realize the multi-label answer aggregations, it used labeling quality, label relevance, and the beha-vior attributes similarity between annotators to guide the low-rank matrix factorization. Experiments on real-world datasets and MGF dataset show that AGR-JMF has obvious advantages over existing algorithms in terms of aggregating accuracy and identifying unreliable annotators.
Key words:multi-label crowd answer aggregation; pure annotation data; adaptive graph regularization; low-rank matrix factorization
0 引言
20世紀(jì)末,國內(nèi)外開展了以“數(shù)字敦煌”“數(shù)字故宮”“美國記憶”為代表的文化遺產(chǎn)數(shù)字化建設(shè)。經(jīng)過數(shù)十年的發(fā)展,我國已積累了大規(guī)模多種類的珍貴數(shù)字文化遺產(chǎn)資源,極大地推動(dòng)了文物保護(hù)、管理、研究和傳承。在自然圖像、三維模型的分類、分割、識(shí)別等方面,近年來以深度學(xué)習(xí)為代表的人工智能技術(shù)取得了長足的進(jìn)步。但是,數(shù)字文化遺產(chǎn)數(shù)據(jù)標(biāo)注成本高、樣本類別多、分布不均衡等特點(diǎn)極大地制約了智能算法的應(yīng)用。自2020年以來,在國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目的支持下,敦煌研究院構(gòu)建了面向敦煌壁畫元素分割、分類和識(shí)別的數(shù)據(jù)集,涉及壁畫元素類型達(dá)78種,樣本實(shí)例1.6萬余張。由于敦煌石窟壁畫內(nèi)容元素眾多、分布廣且具有不同程度的病害,高質(zhì)量的數(shù)據(jù)集需要專家花費(fèi)大量的時(shí)間和精力完成。為了降低標(biāo)注成本,通過借鑒眾包標(biāo)注思想[1,2],聘用高校學(xué)生經(jīng)過專業(yè)培訓(xùn)后標(biāo)注;同時(shí),考慮到標(biāo)注任務(wù)的成本要遠(yuǎn)遠(yuǎn)高于檢查任務(wù)的成本,且非專家的標(biāo)注可能犯錯(cuò),標(biāo)注任務(wù)只由一個(gè)標(biāo)注人員完成,審核任務(wù)可由具有五年以上壁畫圖像拼接經(jīng)驗(yàn)的若干專業(yè)技術(shù)人員給出諸如“正確”“標(biāo)簽名稱錯(cuò)誤”“標(biāo)簽類型錯(cuò)誤”等多標(biāo)簽答案。因此,如何獲得高質(zhì)量的審核結(jié)果是一個(gè)典型的多標(biāo)簽答案聚合問題[3,4],直接決定著數(shù)字文化遺產(chǎn)智能檢索、智能分析與理解等技術(shù)的應(yīng)用效果。
由于眾包標(biāo)注往往存在標(biāo)注空間巨大、標(biāo)簽稀疏且含有不同程度的噪聲,高質(zhì)量的多標(biāo)簽答案聚合面臨較大的挑戰(zhàn)。以往的答案聚合相關(guān)工作主要集中在單標(biāo)簽問題上[5~9],將多標(biāo)簽任務(wù)轉(zhuǎn)換成多個(gè)單標(biāo)簽任務(wù)求解,但是忽略了標(biāo)簽以及標(biāo)注人員標(biāo)注行為的相關(guān)性。為了克服單標(biāo)簽任務(wù)的不足,文獻(xiàn)[10]考慮通過眾包方式收集樣本標(biāo)簽及標(biāo)簽間關(guān)系,估計(jì)多個(gè)標(biāo)簽間層次結(jié)構(gòu)關(guān)系;文獻(xiàn)[11,12]分別考慮從標(biāo)注中估計(jì)標(biāo)簽共同出現(xiàn)的概率及標(biāo)簽間條件相關(guān)性來恢復(fù)樣本真實(shí)標(biāo)簽。這兩種方法僅僅考慮了局部標(biāo)簽相關(guān)性,很容易受標(biāo)注質(zhì)量和數(shù)量的影響。Tu等人[13]從標(biāo)注整體存在低秩結(jié)構(gòu)關(guān)系入手,對(duì)不同標(biāo)注者的樣本—標(biāo)簽關(guān)聯(lián)矩陣進(jìn)行矩陣分解,同時(shí)考慮標(biāo)簽的關(guān)聯(lián)性以及不同標(biāo)注者的標(biāo)注相似性來推斷真值標(biāo)簽;李紹園等人[14]則采用低秩張量矯正模型和標(biāo)注融合策略兩步優(yōu)化估計(jì)樣本的真實(shí)標(biāo)簽。以上方法均直接對(duì)不同標(biāo)注者的樣本—標(biāo)簽關(guān)聯(lián)矩陣進(jìn)行建模,很容易受到噪聲和離群值的影響而產(chǎn)生較大的誤差。
基于對(duì)上述研究工作的觀察和總結(jié)分析,本文提出了一種魯棒的多標(biāo)簽答案聚合方法AGR-JMF。本文工作的主要?jiǎng)?chuàng)新點(diǎn)如下:a)針對(duì)低秩矩陣分解易受到噪聲干擾的問題,本文提出一個(gè)聯(lián)合的多標(biāo)簽答案聚合框架,考慮標(biāo)注人員的標(biāo)注質(zhì)量、標(biāo)簽關(guān)聯(lián)性、標(biāo)注人員行為屬性相似性等因素,將去噪、低秩矩陣分解、自適應(yīng)圖正則化等集成到統(tǒng)一的目標(biāo)函數(shù)中進(jìn)行優(yōu)化;b)針對(duì)低秩矩陣分解高度依賴標(biāo)簽關(guān)聯(lián)性的問題,采用自適應(yīng)圖正則化方法獲取不同標(biāo)簽之間的關(guān)聯(lián)矩陣;c) 針對(duì)噪聲具有隨機(jī)性和稀疏性等特點(diǎn),采用L1正則項(xiàng)優(yōu)化去除標(biāo)注數(shù)據(jù)中的噪聲。本文分別在六個(gè)真實(shí)數(shù)據(jù)集和敦煌壁畫數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與當(dāng)前具有代表性的方法進(jìn)行了比較。
1 相關(guān)工作
1.1 單標(biāo)簽答案聚合方法
作為最簡單且最有效的眾包答案聚合方法,多數(shù)投票法(majority voting,MV)[15]將所有標(biāo)注者中大多數(shù)的標(biāo)注作為真實(shí)標(biāo)簽的估計(jì)。MV方法一般基于以下兩種假設(shè):a)在單標(biāo)簽任務(wù)中,標(biāo)注者的整體準(zhǔn)確率大于50%;b)每個(gè)標(biāo)注者的誤差均勻分布在所有標(biāo)簽上。然而,這些基本假設(shè)并不適用于復(fù)雜的實(shí)際應(yīng)用,尤其在專業(yè)性極強(qiáng)的文化遺產(chǎn)領(lǐng)域。此外,由于MV并沒有考慮標(biāo)注人員的表現(xiàn),當(dāng)存在大量惡意標(biāo)注者時(shí),MV的效果會(huì)受到很大的誤導(dǎo)和干擾。
除了MV方法之外,研究人員提出了通過建立眾包過程的概率模型,并使用基于期望最大化(expectation maximization,EM)或其他推理算法來聚合答案[16]。例如,Dawid等人[17]利用EM建模每個(gè)標(biāo)注者的混淆矩陣,并迭代估計(jì)最有可能是真值的標(biāo)簽;Raykar等人[5]假設(shè)每個(gè)標(biāo)注人員的表現(xiàn)獨(dú)立于特定任務(wù),并使用two-coin模型衡量每個(gè)標(biāo)注人員對(duì)未知真值的敏感性和特異性,然后利用EM算法迭代估計(jì)敏感性和特異性;Whitehill等人[18]在條件獨(dú)立的假設(shè)下,對(duì)標(biāo)注質(zhì)量和標(biāo)注難度建立概率模型(generative model of labels abilities and difficulties, GLAD),并應(yīng)用EM算法推導(dǎo)出每個(gè)樣本最有可能的標(biāo)簽;Welinder等人[6]引入標(biāo)注能力偏差,并進(jìn)一步將GLAD中的概率模型推廣為關(guān)于任務(wù)難度、標(biāo)注質(zhì)量和標(biāo)注能力偏差的高維變量。以上四種方法在標(biāo)注稀疏的情況下常常出現(xiàn)聚合答案不準(zhǔn)確的問題。為解決該問題,Demartini等人[19]只通過一個(gè)參數(shù)建模標(biāo)注人員的可靠性,以避免在稀疏數(shù)據(jù)集上變量估計(jì)偏差大的問題。此后,研究者們通過考慮更多附加特性(如標(biāo)簽的偏見、置信度、意圖等)提出了更復(fù)雜的模型和推理算法[8,20]。Liu等人[21]將眾包問題轉(zhuǎn)換為圖模型中的變分推理問題,并利用包括置信傳播和均值場在內(nèi)的變分推理工具對(duì)標(biāo)簽進(jìn)行推理,但是他們方法的性能在很大程度上依賴于標(biāo)注人員可靠性先驗(yàn)知識(shí)的選擇。與此同時(shí),基于最小最大熵的概率模型也陸續(xù)被應(yīng)用。Zhou等人[22]假設(shè)標(biāo)簽由標(biāo)注人員和任務(wù)的概率分布生成,該概率分布的熵最大化可導(dǎo)致任務(wù)難度和標(biāo)注質(zhì)量的提高,而概率分布的熵最小化可推斷出真值標(biāo)簽,但該方法往往需要每個(gè)標(biāo)注人員提供大量標(biāo)簽來構(gòu)建混淆編碼矩陣。Ma等人[23]提出聯(lián)合建模生成任務(wù)內(nèi)容和標(biāo)注者答案的概率模型(FaitCrowd),可同時(shí)評(píng)估標(biāo)注人員的專業(yè)性及標(biāo)注正確性,大大提高了答案聚合的可靠性和準(zhǔn)確性,不過這些額外信息也引入了更多的噪聲和不確定性。Zhang等人[8]提出了正標(biāo)簽頻率閾值法(positive label frequency thres-hold,PLAT),在計(jì)算每個(gè)樣本的正標(biāo)簽數(shù)后自動(dòng)搜索閾值并將樣本分類為兩類,在解決有偏標(biāo)注問題和不平衡類問題方面具有明顯效果,但對(duì)多標(biāo)簽問題偏差卻難以有效建模。
除了以上基于概率模型的方法外,研究者們引入其他相關(guān)技術(shù)技巧來提高答案聚合算法的性能,包括改進(jìn)優(yōu)化現(xiàn)有方法[9,24]、聚類[25,26]和深度學(xué)習(xí)[27,28]等。例如,Zhang等人[9]提出自適應(yīng)加權(quán)多數(shù)投票算法(adaptive weighted majority voting,AWMV),利用每個(gè)樣本的多個(gè)有噪聲標(biāo)簽中正例的頻率估計(jì)偏好率,并基于偏好率分配權(quán)重給正例和負(fù)例;Zhang等人[26]提出了雙層聚類方法(bi-layer clustering,BLC),首先提取概念級(jí)特征對(duì)樣本進(jìn)行聚類,然后使用物理級(jí)特征再次執(zhí)行聚類,同時(shí)物理層上的估計(jì)標(biāo)簽校正可能在概念層上錯(cuò)誤的聚合標(biāo)簽;Atarashi等人[28]提出生成式深度學(xué)習(xí)模型,通過引入潛在特征以有效利用未標(biāo)注數(shù)據(jù)解決了潛變量后驗(yàn)概率難以處理的問題。以上方法大大提高了單標(biāo)簽答案聚合性能,但由于沒有考慮多標(biāo)簽的全局關(guān)聯(lián)性,在多標(biāo)簽任務(wù)上仍表現(xiàn)欠佳。
1.2 多標(biāo)簽答案聚合方法
與單標(biāo)簽聚合方法相比,多標(biāo)簽答案聚合問題的研究相對(duì)較少[13,14]。最初的多標(biāo)簽答案聚合方法相關(guān)工作主要通過一些先驗(yàn)知識(shí)來擴(kuò)展單標(biāo)簽眾包學(xué)習(xí)方法。Nowak等人[29]發(fā)現(xiàn)使用多數(shù)投票策略從多個(gè)標(biāo)注集生成一個(gè)標(biāo)注集可在一定程度上剔除非專家的噪聲標(biāo)注;Duan等人[30]提出了一種概率級(jí)聯(lián)方法(cascaded estimation with Dawid-Skene, C-DS),利用源分類中的標(biāo)簽集與目標(biāo)分類中的標(biāo)簽集之間的語義距離建立兩者之間的映射。然而,這兩種方法均忽視了標(biāo)簽之間的關(guān)聯(lián)性,Yoshimura等人[31]通過合并GLAD[18]到(random k-label sets,RAkEL)[32]中提出了RAkEL-GLAD方法來平衡多標(biāo)簽答案聚合的估計(jì)精度和計(jì)算復(fù)雜度。Hung等人[33]提出貝葉斯非參數(shù)一致性方法,通過建模標(biāo)簽之間的共現(xiàn)依賴關(guān)系,將答案相似的標(biāo)注者分為一組來實(shí)現(xiàn)對(duì)標(biāo)注者之間的部分聚合答案。以上多標(biāo)簽答案聚合方法均忽略了對(duì)標(biāo)注人員的建模。為解決該問題,Zhang等人[34]提出一個(gè)更通用的多分類多標(biāo)簽依賴模型(multi-class multi-label dependency, MCMLD),首先通過對(duì)每個(gè)標(biāo)注者建立一個(gè)多標(biāo)簽混淆矩陣,然后采用EM算法來推理每個(gè)樣本的真值;Tu等人[13]提出了一種多標(biāo)簽眾包聚合方法(multi-label crowd consensus, MLCC),利用低秩矩陣分解方法對(duì)標(biāo)簽的關(guān)聯(lián)性、不同標(biāo)注者的相似性、標(biāo)注質(zhì)量進(jìn)行建模;李紹園等人[14]則采用低秩張量矯正模型和標(biāo)注融合策略兩步優(yōu)化估計(jì)樣本的真實(shí)標(biāo)簽。以上方法雖能在一定程度上識(shí)別欺詐人員,但對(duì)于噪聲較大的標(biāo)注數(shù)據(jù)仍存在聚合準(zhǔn)確率低的問題。
2 基于自適應(yīng)圖正則化與聯(lián)合低秩矩陣分解的眾包標(biāo)注答案聚合
2.1 符號(hào)表示
本文用小寫黑體字母表示矩陣的行或列(向量),如xi;用小寫字母表示矩陣中的元素,如xij。矩陣X的Frobenius范數(shù)被定義為‖X‖F(xiàn)=(∑ijx2ij)1/2;矩陣X的L1范數(shù)被定義為‖X‖1=∑ij|xij|;矩陣X的跡被定義為tr(X)=∑ixii。1是一個(gè)元素全部為1的向量。X≥0表示矩陣X的所有元素均為非負(fù);向量x滿足0≤x≤1表示x的所有元素都屬于[0,1]。
2.2 問題定義
表1列舉了由六名審核人員(W1~W6)對(duì)圖1中四張已標(biāo)注圖像(i1~i4)提供的審核意見。為描述方便,用數(shù)字1~6分別表示候選標(biāo)簽{正確、標(biāo)注范圍不準(zhǔn)確、漏標(biāo)、多標(biāo)、標(biāo)注類型錯(cuò)誤、標(biāo)簽名稱錯(cuò)誤},符號(hào)-表示標(biāo)注人員認(rèn)為當(dāng)前圖像不具有該標(biāo)簽。作為一種簡單且廣泛采用的答案聚合方法,MV[15]傾向于選擇票數(shù)最多的候選標(biāo)簽作為估計(jì)標(biāo)簽。對(duì)比表1中的真值可以發(fā)現(xiàn),MV的結(jié)果要么出現(xiàn)部分不正確,要么出現(xiàn)部分不完整。
2.3 AGR-JMF優(yōu)化模型提出
為了從收集的樣本—標(biāo)簽標(biāo)注矩陣
Euclid Math OneAAp中準(zhǔn)確估計(jì)所有樣本的真實(shí)標(biāo)簽A*∈
Euclid ExtraaBpn×l,考慮從以下幾方面對(duì)標(biāo)注結(jié)果進(jìn)行建模優(yōu)化:a)標(biāo)注數(shù)據(jù)往往存在大量稀疏的噪聲和離群值,直接用來建模會(huì)存在不可靠、不穩(wěn)定等問題;b)考慮到多個(gè)標(biāo)注者標(biāo)注同一任務(wù),在標(biāo)注者質(zhì)量可靠的情況下多個(gè)標(biāo)注者的標(biāo)注結(jié)果是一致的,因此純凈的標(biāo)注數(shù)據(jù)整體上應(yīng)該存在低秩結(jié)構(gòu)并可以從矩陣分解的角度考慮多標(biāo)簽聚類問題;c)標(biāo)簽的關(guān)聯(lián)矩陣可以較好地體現(xiàn)出標(biāo)注數(shù)據(jù)的共現(xiàn)信息,且依賴于標(biāo)注樣本之間的距離。也就是說,如果標(biāo)注樣本的距離計(jì)算不準(zhǔn)確,將得到錯(cuò)誤的標(biāo)簽關(guān)聯(lián)性,進(jìn)而影響答案聚合效果。為此,本文將輸入的樣本—標(biāo)簽標(biāo)注矩陣分為純凈標(biāo)注和噪聲標(biāo)注兩部分,對(duì)純凈標(biāo)注進(jìn)行矩陣分解、標(biāo)注質(zhì)量、標(biāo)簽關(guān)聯(lián)性、標(biāo)注行為屬性相似性等聯(lián)合學(xué)習(xí),并通過交替迭代的方法進(jìn)行優(yōu)化。
3)基于自適應(yīng)圖正則化的標(biāo)簽關(guān)聯(lián)性構(gòu)建
在多標(biāo)簽答案聚合應(yīng)用中,標(biāo)簽關(guān)聯(lián)性構(gòu)建至關(guān)重要。例如, “正確”標(biāo)簽與其他任何錯(cuò)誤標(biāo)簽不可能同時(shí)出現(xiàn), 而在缺損嚴(yán)重的壁畫中“標(biāo)注范圍不準(zhǔn)確”與“漏標(biāo)”往往同時(shí)出現(xiàn),希望能將這些內(nèi)在的關(guān)聯(lián)性較為準(zhǔn)確地嵌入到關(guān)聯(lián)性構(gòu)建過程中?,F(xiàn)有的大部分方法都是直接基于一個(gè)預(yù)定義的模型(如高斯核函數(shù)[37]、 余弦相似度[13]等)對(duì)未處理的標(biāo)注數(shù)據(jù)構(gòu)建標(biāo)簽關(guān)聯(lián)性,但受限于預(yù)定義模型的表達(dá)能力而達(dá)不到最優(yōu)結(jié)果。同時(shí)大多數(shù)方法對(duì)關(guān)聯(lián)性的計(jì)算都是基于帶噪聲的標(biāo)注數(shù)據(jù)樣本計(jì)算距離,受數(shù)據(jù)噪聲和離群值的影響得到不準(zhǔn)確的距離會(huì)導(dǎo)致質(zhì)量很差的關(guān)聯(lián)性矩陣,進(jìn)而影響低秩矩陣分解的質(zhì)量,最終產(chǎn)生不理想的答案聚合結(jié)果。鑒于此,考慮從每步迭代得到的純凈數(shù)據(jù)出發(fā),通過優(yōu)化平均樣本標(biāo)簽的圖正則化來自適應(yīng)地構(gòu)建標(biāo)簽關(guān)聯(lián)矩陣。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集描述
為了驗(yàn)證和比較本文算法的性能,首先在六個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集的詳細(xì)信息如表2所示。其中,Movie數(shù)據(jù)集是一個(gè)關(guān)于電影類別分類的數(shù)據(jù)集[33];Affective 是一個(gè)包含100個(gè)標(biāo)題樣本和6種情緒類別,由來自Amazon Mechanic Turk平臺(tái)的標(biāo)注人員被要求為每種情緒提供0~100的分?jǐn)?shù)[39],將每個(gè)標(biāo)簽分為negative(分值=0)和positive (分值gt;0)兩類;其余四個(gè)數(shù)據(jù)集來自于“Apple”和“Love”兩部小說中的人物情感標(biāo)注,被文獻(xiàn)[11]用于情感分析中。
為了解決數(shù)字文化遺產(chǎn)眾包標(biāo)注的人工審核效率低的問題,收集整理了包含了榜題、供養(yǎng)人、草廬等九類壁畫元素的700張圖像的審核標(biāo)注結(jié)果,為了描述方便,記莫高窟壁畫數(shù)據(jù)集(Mogao grottoes frescoes)為MGF。該數(shù)據(jù)集主要以目標(biāo)檢測和實(shí)例語義分割為主,標(biāo)注信息由6名研究生經(jīng)敦煌研究院的敦煌學(xué)專家培訓(xùn)后提供??紤]到標(biāo)注成本遠(yuǎn)遠(yuǎn)高于審核成本,將該數(shù)據(jù)集的審核任務(wù)分配給18名專業(yè)技術(shù)人員,對(duì)每張圖像給出了6個(gè)候選審核標(biāo)簽{正確、漏標(biāo)、多標(biāo)、標(biāo)注范圍不準(zhǔn)確、標(biāo)簽類型錯(cuò)誤、標(biāo)簽名稱錯(cuò)誤}中的一個(gè)或多個(gè),每人審核的樣本數(shù)量不少于89個(gè),共收集到31 098個(gè)審核標(biāo)注。
3.2 對(duì)比方法與評(píng)價(jià)指標(biāo)
本文分別與經(jīng)典MV[7]、兩個(gè)代表性單標(biāo)簽答案聚合方法PLAT[8]和AWMV[9]以及C-DS[30]、RAkEL-GLAD[33]、MCMLD[34]和MLCC[13]四個(gè)先進(jìn)的多標(biāo)簽答案聚合方法進(jìn)行比較。
為了便于與MV、PLAT和AWMV比較,將多標(biāo)簽任務(wù)看做多個(gè)獨(dú)立的單標(biāo)簽任務(wù),在每個(gè)標(biāo)簽上分別使用單標(biāo)簽眾包方法。各對(duì)比方法的代碼均來自于文章源代碼,參數(shù)設(shè)置依照其對(duì)應(yīng)文獻(xiàn)或代碼中的推薦參數(shù)設(shè)置。AGR-JMF的參數(shù)缺省設(shè)置為:α=1, β=0.01, γ=1, η=10, ρ=105, ξ=104, λ=103, k=「l/2+1, ε=10-5 及maxIter=1 000。本文的對(duì)比實(shí)驗(yàn)均在3.2 GHz、8 GB內(nèi)存的八核臺(tái)式機(jī)上分別采用Python 3.6 和MATLAB R2018b進(jìn)行。
為量化分析上述各方法的性能,采用average precision、ranking loss、Hamming loss和macro F1四種常用的性能評(píng)價(jià)度量。其中,average precision和ranking loss是由聚合結(jié)果A*直接計(jì)算的排序度量,Hamming loss和macro F1是由聚合結(jié)果A*轉(zhuǎn)換成二進(jìn)制結(jié)果計(jì)算的分類度量,并且average precision、macro F1 (ranking loss、Hamming loss)的值越大(?。?,表明聚合結(jié)果越接近真實(shí)標(biāo)簽。這些度量的具體定義參見文獻(xiàn)[3]。本文根據(jù)每個(gè)樣本的真實(shí)標(biāo)簽的數(shù)量選擇預(yù)測值最大的p個(gè)標(biāo)簽作為該樣本的二進(jìn)制聚合標(biāo)簽。其中,p為該樣本的真實(shí)正標(biāo)簽的個(gè)數(shù)。為了獲得與以往聚合方法的公平對(duì)比,分類度量的計(jì)算用到了真實(shí)標(biāo)簽信息。在實(shí)際數(shù)字化應(yīng)用過程中,只需要記錄預(yù)測值最大的標(biāo)簽為非“正確”標(biāo)簽的樣本,并反饋給數(shù)據(jù)集審核管理員進(jìn)行對(duì)應(yīng)樣本的標(biāo)注編輯與修改。
3.3 實(shí)驗(yàn)結(jié)果
為了降低初始化對(duì)算法的隨機(jī)影響,記錄了10次重復(fù)實(shí)驗(yàn)的均值和標(biāo)準(zhǔn)差。表3給出了不同答案聚合方法在六個(gè)真實(shí)數(shù)據(jù)集上的結(jié)果。
表3中加粗的結(jié)果表明,在不同的數(shù)據(jù)集上,AGR-JMF在配對(duì)檢驗(yàn)(95%置信度)中顯著優(yōu)于其他方法。MV、PLAT、AWMV將多標(biāo)簽任務(wù)轉(zhuǎn)換為多個(gè)單標(biāo)簽任務(wù)而忽略了標(biāo)簽間的關(guān)聯(lián)性,它們的結(jié)果差于RAkEL-GLAD、MCMLD以及MLCC(利用了標(biāo)簽相關(guān)性),這一現(xiàn)象表明標(biāo)簽相關(guān)性在多標(biāo)簽答案聚合中很重要。雖然AWMV和PLAT是單標(biāo)簽方法,但因AWMV為不同類型的標(biāo)簽分配了不同的權(quán)重而效果優(yōu)于PLAT。多標(biāo)簽答案聚合方法中,除C-DS方法之外,其余的方法均考慮了標(biāo)簽相關(guān)性。因此,RAkEL-GLAD、MCMLD以及MLCC的結(jié)果都優(yōu)于C-DS,但劣于AGR-JMF。這是因?yàn)?,雖然MLCC考慮了標(biāo)注者的質(zhì)量并通過矩陣分解減少了少量噪聲標(biāo)注的影響,但當(dāng)存在較多標(biāo)注質(zhì)量較差的標(biāo)注人員時(shí),標(biāo)簽間關(guān)聯(lián)性矩陣不夠準(zhǔn)確而影響了低秩矩陣分解的質(zhì)量。AGR-JMF能夠自適應(yīng)地去除原始標(biāo)注數(shù)據(jù)中的噪聲,同時(shí)基于該去噪數(shù)據(jù)在標(biāo)簽關(guān)聯(lián)性以及不同標(biāo)注者行為屬性相似性的指導(dǎo)下進(jìn)行低秩矩陣的分解優(yōu)化,大大提高了答案聚合的準(zhǔn)確率。
在莫高窟壁畫數(shù)據(jù)集MGF上的結(jié)果對(duì)比如表4所示。由于敦煌壁畫元素涵蓋內(nèi)容廣、繪畫風(fēng)格迥異、專業(yè)性較強(qiáng),加之有不同程度的病害,標(biāo)注和審核人員提供的答案參差不齊(收集的數(shù)據(jù)可能具有更多的噪聲和離群值)。從表4數(shù)據(jù)可以清晰地看出,AGR-JMF明顯優(yōu)于其他方法。
綜上所述,這些實(shí)驗(yàn)結(jié)果不僅證明了去噪對(duì)低秩矩陣分解、自適應(yīng)獲取標(biāo)簽相似性的重要性,也證實(shí)了在聚合眾包答案時(shí)需要考慮標(biāo)簽關(guān)聯(lián)性、標(biāo)注者質(zhì)量及標(biāo)注行為屬性相似性等先驗(yàn)知識(shí)。
3.4 參數(shù)討論與分析
上面的實(shí)驗(yàn)中AGR-JMF使用了固定參數(shù)。由于ρ和ξ分別是約束數(shù)據(jù)逼近和噪聲正則化的參數(shù),在優(yōu)化中為了避免純凈標(biāo)注數(shù)據(jù)嚴(yán)重偏離輸入的標(biāo)注數(shù)據(jù),分別缺省設(shè)置為較大的正實(shí)數(shù)105和104,本文不做過多討論。因此,本節(jié)中本文依次討論α, β, γ, η, λ及矩陣S的秩k這六個(gè)參數(shù)對(duì)AGR-JMF的影響。
圖2展示了AGR-JMF在Affective和MGF數(shù)據(jù)集上不同α和β設(shè)置組合下的結(jié)果。從圖中可以看出,當(dāng)α固定時(shí),β∈[10-4,1]取得的結(jié)果明顯優(yōu)于其他取值。這是因?yàn)樘〉摩潞雎粤藰?biāo)注人員的行為屬性相似性,太大的β則夸大了標(biāo)注人員的行為屬性相似性。事實(shí)上,為了節(jié)省成本,眾包標(biāo)注收集到的樣本—標(biāo)簽標(biāo)注矩陣在某些樣本上是稀疏的,進(jìn)而導(dǎo)致標(biāo)注者個(gè)體矩陣Uw也是稀疏的,因此標(biāo)注人員之間共享較低的行為相似度?;谝陨戏治?,AGR-JMF傾向于選擇的β不能過大。當(dāng)固定β時(shí),α≥10-2比αlt;10-2取得了更穩(wěn)定的結(jié)果。這是因?yàn)樘〉摩梁雎粤藰?biāo)簽間的關(guān)聯(lián)性這一內(nèi)在規(guī)律導(dǎo)致推理答案沒有一致性。綜上,適當(dāng)?shù)乜紤]標(biāo)注人員的行為屬性相似性和標(biāo)簽的關(guān)聯(lián)性有助于提高多標(biāo)簽答案聚合的準(zhǔn)確率。
圖3展示了AGR-JMF在Affective和MGF數(shù)據(jù)集上不同γ和η設(shè)置組合下的結(jié)果。從圖中結(jié)果可以發(fā)現(xiàn),當(dāng)γgt;10-1且ηgt;10-1時(shí),AGR-JMF取得了較穩(wěn)定的結(jié)果。這是因?yàn)樘〉摩煤挺墙档土思儍魯?shù)據(jù)對(duì)標(biāo)簽間相似矩陣的自適應(yīng)優(yōu)化與正則性約束。事實(shí)上,純凈數(shù)據(jù)中蘊(yùn)涵著豐富的標(biāo)簽內(nèi)在相似性,較大的正則項(xiàng)系數(shù)能保證標(biāo)簽間的相似性是基于更準(zhǔn)確的樣本距離來計(jì)算的,進(jìn)而更準(zhǔn)確地指導(dǎo)低秩矩陣分解。
圖4展示了AGR-JMF在六個(gè)真實(shí)數(shù)據(jù)集及MGF上取不同λ的結(jié)果。從折線圖發(fā)現(xiàn),當(dāng)λ≈103時(shí),AGR-JMF取得最好結(jié)果;當(dāng)λlt;1時(shí),AGR-JMF結(jié)果越來越不穩(wěn)定。這是因?yàn)?,?.4節(jié)中μ的計(jì)算可知,太小的λ導(dǎo)致個(gè)人矩陣的權(quán)重分配上沒有足夠的正則化影響,會(huì)導(dǎo)致μ取值是稀疏的,即只選擇少數(shù)標(biāo)注人員作為可信標(biāo)注人員,從而損失了大量重要的標(biāo)注數(shù)據(jù);太大的λ會(huì)因?yàn)閺?qiáng)大的正則化效應(yīng)導(dǎo)致所有標(biāo)注人員獲得幾乎一樣的權(quán)重,無法較好地區(qū)分哪些標(biāo)注人員更可靠。
為了進(jìn)一步分析這些結(jié)果,選擇Affective和MGF兩個(gè)數(shù)據(jù)集觀察不同λ對(duì)標(biāo)注人員權(quán)重的影響,如圖5所示,a)當(dāng)λ=1時(shí),只有很少一部分標(biāo)注人員的標(biāo)注矩陣被選擇,當(dāng)λ=105時(shí),所有標(biāo)注人員的標(biāo)注矩陣都被選擇,并且被選擇的權(quán)重幾乎一樣,這一現(xiàn)象符合上面的分析;b)加權(quán)處理實(shí)現(xiàn)了不同標(biāo)注人員的標(biāo)注矩陣信息互補(bǔ),因而λ=103, λ=105取得的結(jié)果要比λ=1更理想;c)標(biāo)注人員分配的權(quán)重大小與其標(biāo)注質(zhì)量是正相關(guān)的,即標(biāo)注質(zhì)量越好,權(quán)重也越大。正如MGF數(shù)據(jù)集,無論是λ=103還是λ=1,權(quán)重較小甚至為0的標(biāo)注人員恰好是標(biāo)注準(zhǔn)確率相對(duì)較低的標(biāo)注人員。綜上所述,以上實(shí)驗(yàn)結(jié)果證明AGR-JMF能夠較好地識(shí)別標(biāo)注質(zhì)量低的標(biāo)注人員,并通過低秩矩陣分解選擇性地整合不同標(biāo)注質(zhì)量的標(biāo)注矩陣。
圖6分析了矩陣S的秩k對(duì)AGR-JMF性能的影響??梢园l(fā)現(xiàn),隨著k的增加,AGR-JMF性能一開始增加直到kgt;「l/2+1趨于穩(wěn)定或者減??;在大部分?jǐn)?shù)據(jù)集上,k=「1/2+1幾乎取得了最好的結(jié)果。這一現(xiàn)象證實(shí)了通過低秩矩陣近似來估計(jì)標(biāo)注數(shù)據(jù)的全局結(jié)構(gòu)信息是可行的。
3.5 欺詐者的魯棒性分析
由于眾包標(biāo)注并不能實(shí)時(shí)對(duì)標(biāo)注人員進(jìn)行監(jiān)督與約束,如何過濾掉提供不可靠答案的欺詐者尤其重要。先前的研究[40]表明,欺詐者的比例甚至達(dá)到40%,給高質(zhì)量的答案聚合帶來了極大挑戰(zhàn)。本文主要采用兩種欺詐者添加方式,分別將{10%, 20%, 30%, 40%}的欺詐者添加到原始標(biāo)注者中,并報(bào)告了不同欺詐者比例下的各種對(duì)比方法的結(jié)果。其中,第一種添加方式是每個(gè)欺詐者為每個(gè)樣本隨機(jī)分配一個(gè)標(biāo)簽,第二種則是每個(gè)欺詐者為所有樣本隨機(jī)分配一個(gè)標(biāo)簽,對(duì)比結(jié)果分別如圖7和8所示。
從圖中可以看出,無論是哪種添加方式,隨著欺詐者比例的增加,所有的聚合方法精度都降低了。原因是更多的欺詐者意味著更多的噪聲標(biāo)注,甚至可能超過正確的標(biāo)注,從而給答案聚合帶來了極大的困難。MV對(duì)欺詐者最敏感,因?yàn)樗僭O(shè)所有的標(biāo)注者(包括欺詐者)提供的標(biāo)注質(zhì)量相同而忽略了標(biāo)簽關(guān)聯(lián)性。雖然RAkEL-GLAD、MLCC等多標(biāo)簽答案聚合方法均考慮了標(biāo)簽關(guān)聯(lián)性,但AGR-JMF仍然明顯優(yōu)于它們,尤其當(dāng)添加的欺詐者比例達(dá)到40%時(shí),AGR-JMF仍然保持85%以上的準(zhǔn)確率。主要原因可歸結(jié)為三點(diǎn):a)與現(xiàn)有的聚合不同,AGR-JMF首先對(duì)原始標(biāo)注數(shù)據(jù)進(jìn)行去噪,排除了大量噪聲和離群值,保證了標(biāo)簽間相似矩陣、低秩矩陣分解的質(zhì)量;b)以往聚合方法都是基于原始標(biāo)注數(shù)據(jù)來計(jì)算標(biāo)簽的關(guān)聯(lián)矩陣,本文則是對(duì)純凈矩陣采用自適應(yīng)圖正則化方法來獲取;c)本文聯(lián)合低秩矩陣分解有選擇地整合標(biāo)注者的純凈標(biāo)注矩陣,并通過給欺詐者分配較低(或?yàn)榱悖┑臋?quán)重來顯式地減少欺詐者的影響。綜上所述,AGR-JMF對(duì)眾包標(biāo)注結(jié)果潛在的欺詐者識(shí)別具有魯棒性。
3.6 實(shí)用性分析
為了分析AGR-JMF在敦煌壁畫數(shù)據(jù)集構(gòu)建中的實(shí)用性,本文考察了標(biāo)注量對(duì)多答案聚合方法的影響。對(duì)莫高窟壁畫數(shù)據(jù)集的標(biāo)注數(shù)據(jù)進(jìn)行比例為[0.1, 1.0]的隨機(jī)采樣,采樣間隔為0.1,并與已有的多標(biāo)簽答案方法進(jìn)行性能比較。為了緩解隨機(jī)采樣對(duì)各算法的性能影響,在每種情形下均進(jìn)行10次重復(fù)實(shí)驗(yàn),并記錄其均值和標(biāo)準(zhǔn)差,結(jié)果如圖9所示。圖中結(jié)果顯示,隨著標(biāo)注比例的增大,各聚合方法精度均呈上升趨勢。特別地,當(dāng)標(biāo)注比例為80%時(shí),AGR-JMF已經(jīng)達(dá)到了85%以上的準(zhǔn)確率,各性能指標(biāo)明顯優(yōu)于其他方法;當(dāng)標(biāo)注比例小于30%時(shí),即標(biāo)注數(shù)量較少時(shí),對(duì)比方法與AGR-JMF之間的差距明顯增大,同樣的聚合效果,AGR-JMF需要的標(biāo)注數(shù)量更少,一定程度上說明了AGR-JMF對(duì)稀疏標(biāo)注更為魯棒。AGR-JMF在純凈數(shù)據(jù)上更準(zhǔn)確地估計(jì)了標(biāo)簽間的相似性,同時(shí)考慮了標(biāo)注人員的標(biāo)注質(zhì)量和相似性,保證了低秩矩陣分解從整體上逼近標(biāo)注數(shù)據(jù)的整體結(jié)構(gòu)信息。
此外,以上實(shí)驗(yàn)對(duì)敦煌壁畫數(shù)據(jù)集構(gòu)建具有指導(dǎo)性意義。敦煌壁畫數(shù)據(jù)集中每張圖像平均被標(biāo)注了7.4次,為了達(dá)到85%以上的準(zhǔn)確率,根據(jù)此實(shí)驗(yàn)的分析,審核任務(wù)分配時(shí)至少要保證每張圖像被6人次標(biāo)注,這也給未來任務(wù)分配策略和主動(dòng)眾包標(biāo)注研究提供了有力的數(shù)據(jù)支撐。
3.7 復(fù)雜性分析
由于式(8)的Φ(D,N,U,S,V, μ,C)關(guān)于每個(gè)優(yōu)化變量是局部凸的,本文提出的交替迭代算法可以保證每個(gè)子問題在迭代過程中能量逐漸下降。但由于各未知量耦合在一起且有等式及不等式約束,所以很難給出算法的全局收斂性證明。鑒于此,本文繪制了Φ(D,N,U,S,V, μ,C)在Affective和MGF數(shù)據(jù)集上的能量函數(shù)值,如圖10所示。從圖中可以看出,在算法迭代優(yōu)化初期能量函數(shù)很快下降,并隨著優(yōu)化過程逐漸穩(wěn)定;在其他數(shù)據(jù)集上也有類似的能量下降走勢。
假設(shè)t為迭代次數(shù),分別給出五種多標(biāo)簽答案聚合方法的理論計(jì)算復(fù)雜度。C-DS計(jì)算源標(biāo)簽和目標(biāo)標(biāo)簽的聯(lián)合分布需要O(mnl2+ml3),計(jì)算每個(gè)樣本中每個(gè)標(biāo)簽的概率需要O(l3),因此總計(jì)算復(fù)雜度為O(mnl2t+ml3t)。RAkEL-GLAD創(chuàng)建每個(gè)標(biāo)簽的冪集需要O(mnl),每個(gè)標(biāo)簽的平均可能性需要O(2kmnM)(k為標(biāo)簽子集中候選標(biāo)簽數(shù)量,M為隨機(jī)標(biāo)記子集數(shù)),因此總計(jì)算復(fù)雜度為O(mnlt+2kmnMt)。MCMLD計(jì)算協(xié)方差矩陣的特征值需要O(mnl), EM迭代中的E-step和M-step分別需要O(ml2)和O(2l2mn+nR)(R為聚類數(shù)量),因此總計(jì)算復(fù)雜度為O(mnl+ml2t+2l2mnt+nRt)。MLCC每步迭代更新V、Uw和S分別需要O(mnk2)、O(nlk)和O(mnlk),以及更新μ需要O(m),因此總計(jì)算復(fù)雜度為O(tmnk2+tmnlk+tm)。AGR-JMF每步迭代更新D, N及μ分別需要O(nk2)、O(mnl)和O(m),更新V, Uw和S分別需要O(mnk2)、O(nlk)和O(mnlk),以及更新C需要O(m2),因此總計(jì)算復(fù)雜度為O(tmnk2+tmnlk+tm2)。由于三種單標(biāo)簽答案聚合方法(MV、PLAT和AWMV)單獨(dú)聚合每個(gè)標(biāo)簽答案,所以計(jì)算復(fù)雜度低于多標(biāo)簽方法。由于klt;{n,l},AGR-JMF復(fù)雜度低于RAkEL-GLAD和C-DS,但是高于MLCC和MCMLD。
此外,AGR-JMF將大大提高文化遺產(chǎn)數(shù)據(jù)集標(biāo)注審核的效率。例如,給定1 000個(gè)樣本,每個(gè)樣本標(biāo)注完成后平均需要7個(gè)審核人員審核,采用本算法在幾分鐘之內(nèi)即可完成自動(dòng)審核。如果采用人工驗(yàn)收審核結(jié)果,則至少需要1000×7×3≈14.6 d。當(dāng)數(shù)字文化遺產(chǎn)數(shù)據(jù)集樣本數(shù)量龐大時(shí),自動(dòng)審核算法的優(yōu)勢會(huì)更加明顯。
4 結(jié)束語
考慮到數(shù)字文化遺產(chǎn)領(lǐng)域采用專家標(biāo)注昂貴而稀缺,本文將多標(biāo)簽任務(wù)分配給多個(gè)容易訪問的非專家收集標(biāo)注信息,并從含有大量噪聲的標(biāo)注中估計(jì)樣本的真實(shí)標(biāo)簽。以往的單標(biāo)簽答案聚合方法忽視了多標(biāo)簽任務(wù)的標(biāo)簽關(guān)聯(lián)性,而多標(biāo)簽聚合方法直接從標(biāo)注數(shù)據(jù)中估計(jì)標(biāo)簽關(guān)聯(lián)性,很敏感地受噪聲和離群值的影響。針對(duì)以上問題,本文提出了一種魯棒的多標(biāo)簽答案聚合方法AGR-JMF。通過L1正則項(xiàng)優(yōu)化去除原始標(biāo)記數(shù)據(jù)中的噪聲,同時(shí)基于該去噪數(shù)據(jù)自適應(yīng)估計(jì)標(biāo)簽間的關(guān)聯(lián)矩陣,并結(jié)合標(biāo)注人員的標(biāo)注質(zhì)量、標(biāo)注行為屬性相似性來指導(dǎo)低秩矩陣分解,進(jìn)而實(shí)現(xiàn)高質(zhì)量的多標(biāo)簽答案聚合。在六個(gè)真實(shí)數(shù)據(jù)集和莫高窟壁畫數(shù)據(jù)集上都驗(yàn)證了AGR-JMF的合理性和有效性。此外,AGR-JMF已經(jīng)在敦煌數(shù)字文化遺產(chǎn)數(shù)據(jù)集構(gòu)建過程中得到了實(shí)際應(yīng)用,大大提高了數(shù)字文化遺產(chǎn)數(shù)據(jù)集的審核效率。
實(shí)驗(yàn)結(jié)果表明,AGR-JMF在準(zhǔn)確率、噪聲魯棒性方面顯示出明顯的優(yōu)越性和先進(jìn)性,但仍有局限性。例如,算法依賴于U和V的初始化,本文采用的隨機(jī)初始化不一定是最優(yōu)的初始化。AGR-JMF需要輸入α、β等七個(gè)正則化參數(shù),這些參數(shù)基于實(shí)驗(yàn)經(jīng)驗(yàn)來設(shè)置,如何自動(dòng)確定每個(gè)參數(shù)的最佳值也值得進(jìn)一步深入研究。此外,在未來的工作中,可以進(jìn)一步考慮最優(yōu)化任務(wù)請(qǐng)求者的成本預(yù)算、自適應(yīng)任務(wù)分配方案等更多眾包標(biāo)注屬性。
參考文獻(xiàn):
[1]Kovashka A,Russakovsky O,Li Feifei,et al. Crowdsourcing in computer vision [J]. Foundations and Trends in Computer Graphics and Vision,2016,10(3): 1572-2740.
[2]Meng Rui,Tong Yongxin,Chen Lei,et al. CrowdTC: crowdsourced taxonomy construction [C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ: IEEE Press,2015: 913-918.
[3]Zhang Minling,Zhou Zhihua. A review on multi-label learning algorithms [J]. IEEE Trans on Knowledge and Data Engineering,2014,26(8): 1819-1837.
[4]Gibaja E,Ventura S. A tutorial on multilabel learning [J]. ACM Computing Surveys,2015,47(3): article No.52.
[5]Raykar V C,Yu Shiping,Zhao Linda,et al. Learning from crowds [J]. Journal of Machine Learning Research,2010,11(3): 1297-1322.
[6]Welinder P,Branson S,Belongie S,et al. The multidimensional wisdom of crowds [C]// Proc of the 23rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2010: 2424-2432.
[7]Bragg J,Mausam,Weld D S. Crowdsourcing multi-label classification for taxonomy creation [C]// Proc of the 1st AAAI Conference on Human Computation and Crowdsourcing. Palo Alto,CA: AAAI Press,2013: 25-33.
[8]Zhang Jing,Wu Xindong,Sheng V S. Imbalanced multiple noisy labeling [J]. IEEE Trans on Knowledge and Data Engineering,2014,27(2): 489-503.
[9]Zhang Jing,Sheng V S,Li Qianmu,et al. Consensus algorithms for biased labeling in crowdsourcing [J]. Information Sciences,2017,382-383(3): 254-273.
[10]Sun Yuyin,Singla A,F(xiàn)ox D,et al. Building hierarchies of concepts via crowdsourcing [C]// Proc of the 24th International Joint Confe-rence on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 844-851.
[11]Duan Lei,Oyama S,Sato H,et al. Separate or joint? Estimation of multiple labels from crowdsourced annotations [J]. Expert Systems with Applications,2014,41(13): 5723-5732.
[12]Tam N T,Viet H H,Hung N Q V,et al. Multi-label answer aggregation for crowdsourcing [EB/OL]. (2016-02-13). https://infoscience.epfl.ch/record/215976.
[13]Tu Jinzheng,Yu Guoxian,Domeniconi C,et al. Multi-label crowd consensus via joint matrix factorization [J]. Knowledge and Information Systems,2020,62(4): 1341-1369.
[14]李紹園,姜遠(yuǎn). 多標(biāo)記眾包學(xué)習(xí) [J]. 軟件學(xué)報(bào),2020,31(5): 1497-1510. (Li Shaoyuan,Jiang Yuan. Multi-label crowdsourcing learning [J]. Journal of Software,2020,31(5): 1497-1510.)
[15]Lee J,Cho H,Park J W,et al. Hybrid entity clustering using crowds and data [J]. The VLDB Journal,2013,22(5): 711-726.
[16]Zhang Jing,Wu Xindong,Sheng V S. Learning from crowdsourced labeled data: a survey [J]. Artificial Intelligence Review,2016,46(4): 543-576.
[17]Dawid A P,Skene A M. Maximum likelihood estimation of observer error-rates using the EM algorithm [J]. Royal Statistical Society,1979,28(1): 20-28.
[18]Whitehill J,Wu Tingfa,Bergsma J,et al. Whose vote should count more: optimal integration of labels from labelers of unknown expertise [C]// Proc of the 22nd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2009: 2035-2043.
[19]Demartini G,Difallah D E,Cudre-Mauroux P. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking [C]// Proc of the 21st International Conference on World Wide Web. New York: ACM Press,2012: 469-478.
[20]Kurve A,Miller D J,Kesidis G. Multicategory crowdsourcing accoun-ting for variable task difficulty,worker skill,and worker intention [J]. IEEE Trans on Knowledge and Data Engineering,2014,27(3): 794-809.
[21]Liu Qiang,Peng Jian,Ihler A T. Variational inference for crowdsour-cing [C]// Proc of the 25th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2012: 692-700.
[22]Zhou Dengyong,Platt J C,Basu S,et al. Learning from the wisdom of crowds by minimax entropy [C]// Proc of the 25th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2012: 2195-2203.
[23]Ma Fenglong,Li Yaliang,Li Qi,et al. FaitCrowd: fine grained truth discovery for crowdsourced data aggregation [C]// Proc of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2015: 745-754.
[24]Li Qi,Li Yaliang,Gao Jing,et al. A confidence-aware approach for truth discovery on long-tail data [J]. Proceedings of the VLDB Endowment,2014,8(4): 425-436.
[25]Zhang Jing,Sheng V S,Wu Jian,et al. Multi-class ground truth infe-rence in crowdsourcing with clustering [J]. IEEE Trans on Know-ledge and Data Engineering,2015,28(4): 1080-1085.
[26]Zhang Jing,Sheng V S,Li Tao. Label aggregation for crowdsourcing with bi-layer clustering [C]// Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press,2017: 921-924.
[27]Rodrigues F,Pereira F C. Deep learning from crowds [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 1611-1618.
[28]Atarashi K,Oyama S,Kurihara M. Semi-supervised learning from crowds using deep generative models [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 1555-1562.
[29]Nowak S,Ryuger S. How reliable are annotations via crowdsourcing: a study about inter-annotator agreement for multi-label image annotation [C]// Proc of International Conference on Multimedia Information Retrieval. New York: ACM Press,2010: 557-566.
[30]Duan Lei,Oyama S,Kurihara M,et al. Crowdsourced semantic mat-ching of multi-label annotations [C]// Proc of the 24th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 3483-3489.
[31]Yoshimura K,Baba Y,Kashima H. Quality control for crowdsourced multi-label classification using RAkEL [C]// Proc of the 24th International Conference on Neural Information Processing.Cham:Springer,2017: 64-73.
[32]Tsoumakas G,Katakis I,Vlahavas I. Random k-labelsets for multilabel classification [J]. IEEE Trans on Knowledge and Data Engineering,2010,23(7): 1079-1089.
[33]Hung N Q V,Viet H H,Tam N T,et al. Computing crowd consensus with partial agreement [J]. IEEE Trans on Knowledge and Data Engineering,2018,30(1): 1-14.
[34]Zhang Jing,Wu Xindong. Multi-label inference for crowdsourcing [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM Press,2018: 2738-2747.
[35]史加榮,鄭秀云,魏宗田,等. 低秩矩陣恢復(fù)算法綜述 [J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(6): 1601-1605. (Shi Jiarong,Zheng Xiuyun,Wei Zongtian,et al. Survey on algorithms of low-rank matrix recovery [J]. Application Research of Computers,2013,30(6): 1601-1605.)
[36]Kang Zhao,Pan Haiqi,Hoi S C H,et al. Robust graph learning from noisy data [J]. IEEE Trans on Cybernetics,2020,50(5): 1833-1843.
[37]于進(jìn),錢鋒. 基于粒子群優(yōu)化的高斯核函數(shù)聚類算法 [J]. 計(jì)算機(jī)工程,2010,36(14): 22-28. (Yu Jin,Qian Feng. Gauss kernel function clustering algorithm based on particle swarm optimization [J]. Computer Engineering,2010,36(14): 22-28.)
[38]He Xiaofei,Niyogi P. Locality preserving projections [C]// Proc of the 16th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2003: 153-160.
[39]Snow R,O’connor B,Jurafsky D,et al. Cheap and fast—but is it good? Evaluating non-expert annotations for natural language tasks [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2008: 254-263.
[40]Vuurens J,de Vries A P,Eickhoff C. How much spam can you take? An analysis of crowdsourcing results to increase accuracy [C]// Proc of ACM SIGIR Workshop on Crowdsourcing for Information Retrieval. New York: ACM Press,2011: 21-26.