劉天時 吳瓊
摘 ?要: 本文提出一種魯棒低秩近似算法(ROLA)來學(xué)習(xí)標(biāo)注者之間潛在的相似性,進(jìn)而解決標(biāo)注數(shù)據(jù)集中的噪聲。ROLA通過構(gòu)造一個低秩矩陣模型,來捕獲標(biāo)簽中的潛在相關(guān)信息,與問題的潛在特征向量。實驗結(jié)果表明,ROLA在四個數(shù)據(jù)集上的準(zhǔn)確率最高。并且與現(xiàn)有算法相比,在優(yōu)化時間上也存在相應(yīng)優(yōu)勢。
關(guān)鍵詞: 低秩近似;矩陣填充;眾包學(xué)習(xí)
中圖分類號: TP311.13 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.034
本文著錄格式:劉天時,吳瓊. 基于矩陣填充的眾包學(xué)習(xí)模型研究[J]. 軟件,2019,40(4):159161
【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time.
【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning
0 ?引言
近年來在機器學(xué)習(xí)和計算機視覺方面廣泛應(yīng)用。然而由于雇主發(fā)布的標(biāo)注任務(wù)差異,導(dǎo)致收集到來自于不同自由職業(yè)者的標(biāo)注結(jié)果,含有大量噪聲。如何甄別噪聲,提高眾包學(xué)習(xí)的質(zhì)量是目前面臨的問題[1]。
本文提出基于矩陣填充的數(shù)據(jù)去噪方法:低秩近似流形優(yōu)化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩陣填充的視角看待眾包學(xué)習(xí)問題,認(rèn)為矩陣的低秩結(jié)構(gòu)既標(biāo)注著之間的潛在相關(guān)關(guān)系,以此為依據(jù),將惡意或者具有相似不良標(biāo)注習(xí)慣的標(biāo)注者的噪聲刪去。而針對無噪聲的標(biāo)簽矩陣,LRAMO算法直接進(jìn)行黎曼優(yōu)化的矩陣分解,獲得完整的標(biāo)簽矩陣,能快速進(jìn)行眾包學(xué)習(xí)。
1 ?低秩矩陣模型
眾包學(xué)習(xí)獲得數(shù)據(jù)的成本比較低廉,但是存在大量噪聲[2-5]。而標(biāo)簽數(shù)據(jù)之間具有低秩結(jié)構(gòu),本文根據(jù)數(shù)據(jù)的低秩結(jié)構(gòu),將眾包學(xué)習(xí)理解成矩陣填充問題。因此本文提出基于矩陣填充的低秩近似流形優(yōu)化算法,刪除惡意標(biāo)注者的標(biāo)注噪聲,并對惡意和有不良標(biāo)注習(xí)慣的標(biāo)注者進(jìn)行標(biāo)記,優(yōu)化了后續(xù)的眾包學(xué)習(xí)過程。
也就是說,少數(shù)惡意和不良習(xí)慣的標(biāo)注者帶來噪音,當(dāng)眾包任務(wù)發(fā)出去后,多數(shù)認(rèn)真對待任務(wù)的標(biāo)注者的標(biāo)簽是相似的,都試圖給出正確答案。由于得到的眾包數(shù)據(jù)具有低秩結(jié)構(gòu),可轉(zhuǎn)換成一個低秩的矩陣和一個噪聲矩陣相加。這樣做的目的是:(1)接受標(biāo)注任務(wù)的標(biāo)注者得到的數(shù)據(jù)可以分成準(zhǔn)確標(biāo)注和噪聲標(biāo)注。而噪聲是稀疏的,根據(jù)數(shù)據(jù)的低秩結(jié)構(gòu)可以輕易的推斷出真實的標(biāo)注。(2)噪聲標(biāo)注導(dǎo)致的偏差可以用l2,1范數(shù)表示,而矩陣的低秩結(jié)構(gòu)說明標(biāo)注者之間存在潛在關(guān)系[6-10]。
2 ?LRAMO優(yōu)化算法
本節(jié)將眾包學(xué)習(xí)看成矩陣填充問題,提出低秩近似流形優(yōu)化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通過黎曼優(yōu)化求解矩陣填充,不僅降低了矩陣填充的時間復(fù)雜度,而且收斂速度也有所提升。構(gòu)建眾包學(xué)習(xí)的矩陣填充模型,將眾包學(xué)習(xí)得到的數(shù)據(jù)矩陣Z,分解成低秩矩陣X即從標(biāo)注數(shù)據(jù)中采樣得到的標(biāo)簽,和噪聲矩陣E,其中E是稀疏噪聲。
上式中‖?‖*表示核范數(shù),是給定是正則參數(shù)。由于眾包學(xué)習(xí)被形式化為低秩矩陣填充問題,由于矩陣填充求解秩函數(shù)是NP問題,因此這里用核函數(shù)最小化進(jìn)行凸松弛。在模型中與標(biāo)注者相關(guān)的噪聲用l2,1范數(shù)刻畫,最小化噪聲矩陣E的l2,1范數(shù)對噪聲進(jìn)行約減。
2.1 ?標(biāo)簽矩陣的低秩問題
由于標(biāo)注者的目的都是盡可能正確的完成任務(wù),除去個別標(biāo)注者粗心導(dǎo)致的錯誤,大部分標(biāo)注者的標(biāo)注習(xí)慣比較相似,因此無噪聲的標(biāo)注矩陣滿足低秩結(jié)構(gòu)。也就是說,無噪聲標(biāo)簽的矩陣是可靠標(biāo)注者,由他們得到的標(biāo)簽數(shù)據(jù)往往是正確的,且具有低秩結(jié)構(gòu)。那么用X表示無噪聲標(biāo)簽的低秩矩陣,其最小化問題為:
這里用黎曼流形構(gòu)建解空間,求解X時E固定,交替迭代求解將上式轉(zhuǎn)化成子問題,減少了迭代次數(shù)和直接求解核函數(shù)帶來的高復(fù)雜度。
2.2 ?噪聲的稀疏子問題
由于眾包學(xué)習(xí)發(fā)布任務(wù)后,接受任務(wù)的標(biāo)注者存在少部分的惡意標(biāo)注,和部分由于粗心大意導(dǎo)致的錯誤標(biāo)注。因此得到的標(biāo)簽矩陣往往含有少數(shù)噪聲,而這些噪聲與少數(shù)標(biāo)注者相關(guān),本文利用噪聲標(biāo)簽的特點,用l2,1范數(shù)進(jìn)行約束。文獻(xiàn)[3]指出,l2,1范數(shù)通過相應(yīng)的數(shù)學(xué)計算得到最優(yōu)解。這里將惡意標(biāo)注者導(dǎo)致的噪聲標(biāo)簽表示為矩陣E,且E時稀疏的。將噪聲標(biāo)簽矩陣分離,即得到真實標(biāo)注的矩陣。求解噪聲標(biāo)簽矩陣E的子問題為:
2.3 ?基于投票機制的聚合策略
LRAMO優(yōu)化算法將帶有冗余信息標(biāo)簽的采樣矩陣,分解成噪聲矩陣E和干凈標(biāo)簽矩陣X。由于接受標(biāo)注任務(wù)的標(biāo)注者來自各行各業(yè),有各自的認(rèn)知能力和專業(yè)知識,這里基于具有專業(yè)知識的標(biāo)注者推測出真實無噪聲的標(biāo)簽。采用多數(shù)投票的聚合機制:投票策略的計算復(fù)雜度遠(yuǎn)低于推理策略,當(dāng)處理大規(guī)模問題時,優(yōu)勢更明顯;LRAMO優(yōu)化算法得到的干凈標(biāo)簽矩陣X|,是由大部分可靠標(biāo)注給出的結(jié)果,因此多數(shù)投票推測得到的標(biāo)注結(jié)果更具說服力,且簡單快速。
3 ?實驗
本節(jié)將LRAMO算法與四種目前認(rèn)可度高的眾包算法在真實的眾包數(shù)據(jù)集上進(jìn)行比較:Majority Voting(MV),Dawid&SkeneModel(DS)[4],Difficulty- Ability-Response(DARE)[2]以及SpEM。數(shù)據(jù)集來自于Amazon MechanicalTurk; RTE(Recognizing Textual Entailment),TEMP(Temporal event recognition),Duchenne以及Bluebird。
這四個數(shù)據(jù)集的相關(guān)信息見表1,m和n代表標(biāo)注者和問題數(shù)量,“RCL”表示正確標(biāo)簽準(zhǔn)確率,“AP”表示標(biāo)注者最大問題數(shù)。
實驗將LRAMO算法在每個數(shù)據(jù)集上測試10輪,其顯著水平為95%。通過對所有問題從問題一到問題10的統(tǒng)計平均,計算四個數(shù)據(jù)集的結(jié)果。結(jié)果表明,大多數(shù)情況下LRAMO算法的結(jié)果比其他算法更準(zhǔn)確。
4 ?總結(jié)
本文提出的低秩近似流形優(yōu)化算法,以矩陣填充的角度看待眾包學(xué)習(xí)問題,利用矩陣的低秩結(jié)構(gòu),找出具有潛在相關(guān)關(guān)系的標(biāo)注者,進(jìn)而刪去噪聲標(biāo)注。最后將低秩近似流形優(yōu)化算法與目前主流的眾包學(xué)習(xí)算法比較,在準(zhǔn)確度和運行時間上,均有所提高。
參考文獻(xiàn)
[1] Li Q, Wang Z, Li G, et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold [J]. Procedia Computer Science, 2017, 108: 285-294.
[2] Jagabathula S, Subramanian L, Venkataraman A. Identifying unreliable and adversarial workers in crowdsourced labeling tasks[J]. The Journal of Machine Learning Research, 2017, 18(1): 3233-3299.
[3] Liu J, Ji S, Ye J. Multi-task feature learning via efficient l 2, 1-norm minimization[C]. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 2009: 339-348.
[4] Dawid A P, Skene A M. Maximum likelihood estimation of observer error‐rates using the EM algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.
[5] 張網(wǎng)娟, 許國艷, 李敏佳, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的缺失數(shù)據(jù)填充方法[J]. 微電子學(xué)與計算機, 2019, 36(03): 48-52+57.
[6] 牛明航. 不完備數(shù)據(jù)的反饋式極限學(xué)習(xí)機填充算法[J]. 電子技術(shù)與軟件工程, 2019(03): 145.
[7] 李敬華, 李倩茹, 袁春霞. 數(shù)據(jù)可用性基本問題研究[J]. 電信快報, 2018(10): 43-46.
[8] 郭新東, 楊華, 孫瑜. 基于AOP的數(shù)據(jù)填充在教學(xué)診改系統(tǒng)中的應(yīng)用[J]. 現(xiàn)代電子技術(shù), 2018, 41(14): 150-153.
[9] 余云, 王本勝, 姚麗莎. 融合項目屬性和云填充的計算機智能圖像識別算法[J]. 遵義師范學(xué)院學(xué)報, 2018, 20(03): 81-83.
[10] 滕睿, 尚慶學(xué), 鐘湘, 等. 基于試驗數(shù)據(jù)的砌體填充墻易損性研究[J]. 世界地震工程, 2018, 34(02): 96-103.