亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信任模型的魯棒眾包數(shù)據(jù)分析方法

        2021-06-03 06:39:06焦玉全
        關(guān)鍵詞:方法模型

        孫 杰,陳 敏,焦玉全

        (1.南京郵電大學(xué) 計算機(jī)技術(shù)、軟件工程、空間安全學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué),江蘇 南京 210003)

        0 引 言

        隨著通信基礎(chǔ)設(shè)施和網(wǎng)絡(luò)信息技術(shù)的迅速發(fā)展,依托于網(wǎng)絡(luò)環(huán)境的眾包[1]研究也在逐步深入?;ヂ?lián)網(wǎng)具備的覆蓋面廣、無地域限制等優(yōu)勢,也使得過去只能面向?qū)I(yè)機(jī)構(gòu)的外包可以通過互聯(lián)網(wǎng)擴(kuò)展到全社會,國內(nèi)外眾多網(wǎng)絡(luò)化眾包服務(wù)市場日趨完善。

        大量的志愿者得益于眾包提供的工作模式,獲得了不小的報酬。但是,在這一過程中,有些志愿者并沒有認(rèn)真地完成任務(wù),為了騙取傭金,使利益最大化,往往會提供虛假數(shù)據(jù)[2],導(dǎo)致眾包任務(wù)結(jié)果準(zhǔn)確度不高。針對這一問題,現(xiàn)有的解決方式多為采用基于黃金標(biāo)準(zhǔn)數(shù)據(jù)策略[3-4]的研究方法,在任務(wù)開始之前,對工作者的工作能力進(jìn)行檢測評估,篩選出符合要求的工作者來完成任務(wù)。但是這種方式局限性比較大,對于惡意工作者[5-7]的預(yù)防效果比較低,最終所得結(jié)果準(zhǔn)確度不高,無法滿足雇主的需求。

        該文提出一種新的方法,在考慮眾包工作者歷史信譽度的基礎(chǔ)上,對部分任務(wù)結(jié)果采用投票一致性策略[8-9]進(jìn)行分析,然后將二者結(jié)合于貝葉斯模型[10-12],推算出工作者在此次任務(wù)中提交任務(wù)結(jié)果的驗后準(zhǔn)確度。下面分別對信任模型構(gòu)建、計算過程、具體實施流程以及實驗結(jié)果進(jìn)行介紹。

        1 貝葉斯信任模型構(gòu)建

        該文提出貝葉斯信任模型(Bayesian trust model,BTM),主要將工作者歷史信譽信息[13]和此次任務(wù)結(jié)果結(jié)合于貝葉斯算法來分析,提高對眾包任務(wù)結(jié)果質(zhì)量判別的準(zhǔn)確度。貝葉斯信任模型的流程圖如圖1所示。

        圖1 貝葉斯信任模型流程圖

        模型構(gòu)建主要分為三步:

        首先,評估工作者的歷史信譽度。眾包工作者的工作態(tài)度無法直接通過觀察來了解,但是,雇主可以通過分析每次任務(wù)審核方(例如教育眾包平臺[14])的反饋信息來分析該名眾包工作者的歷史任務(wù)完成滿意度,得出該名工作者對待任務(wù)的態(tài)度,即眾包工作者的可靠性。因為工作者的工作狀態(tài)往往在某一段時間內(nèi)比較穩(wěn)定,所以模型中選取眾包工作者最近完成的k次任務(wù)結(jié)果準(zhǔn)確度來計算工作者的歷史信譽值。

        其次,分析此次任務(wù)結(jié)果。眾包工作者在提交任務(wù)結(jié)果之后,雇主對任務(wù)結(jié)果進(jìn)行預(yù)處理,然后隨機(jī)選取其中部分任務(wù)結(jié)果,采用投票一致性規(guī)則對選取的任務(wù)結(jié)果進(jìn)行檢測分析,得出工作者精度的條件概率分布。

        最后,在求得工作者精度的驗前分布和條件概率分布之后,將二者結(jié)合于貝葉斯算法模型,得出工作者本次任務(wù)中的工作精度。

        2 貝葉斯信任模型計算

        2.1 工作者精度驗前分布

        工作者工作精度a,表示工作者完成任務(wù)的準(zhǔn)確度。a的驗前分布g(am),m=(1,2,…,m),表示工作者總數(shù)為m。此處,采用貝塔分布來計算眾包工作者工作精度的驗前分布。

        貝塔分布的概率密度函數(shù)為:

        (1)

        其中,α、β分別為貝塔分布的兩個參數(shù),Γ為伽馬函數(shù),其中:

        (2)

        Γ(α+β)=αΓ(α),α>0

        (3)

        當(dāng)α為正整數(shù)時:

        Γ(n)=(n-1)!

        (4)

        貝塔分布的均值為:

        (5)

        方差為:

        (6)

        因為眾包工作者的工作狀態(tài)大多在某段時間內(nèi)相似,所以,在算法中取眾包工作者最近完成的k次任務(wù)結(jié)果精度來計算工作者歷史信譽值,任務(wù)完成精度用a=(a1,a2,…,ak)表示,由此可得:

        (7)

        (8)

        通過式(7)和式(8),可以得到α和β的值分別為:

        (9)

        (10)

        求得α和β的值以后,即可以求得眾包工作者工作精度的驗前分布。

        2.2 工作者精度條件概率分布

        以往,雇主在發(fā)放眾包任務(wù)之前,會先提供一些黃金標(biāo)準(zhǔn)數(shù)據(jù)任務(wù)來讓眾包工作者完成(任務(wù)結(jié)果已知),通過眾包工作者在黃金標(biāo)準(zhǔn)數(shù)據(jù)任務(wù)中的表現(xiàn)來評估工作者的業(yè)務(wù)能力,達(dá)到篩選可靠眾包工作者的目的。但是,這種篩選方法存在局限性,有些不良工作者為了達(dá)到接任務(wù)的目的,在做黃金測評時很認(rèn)真,甚至,有些能力不足的工作者會通過其他手段來通過測評。但是,一旦接到眾包任務(wù),在接下來的任務(wù)完成過程中會出現(xiàn)對待任務(wù)態(tài)度消極的現(xiàn)象,更有甚者會出現(xiàn)惡意搗亂,草草了事等情況,這些情況會導(dǎo)致工作者提交的任務(wù)結(jié)果不準(zhǔn)確,無法滿足雇主的要求。所以,針對這一情況,對以往在任務(wù)開始之前對工作者進(jìn)行黃金標(biāo)準(zhǔn)數(shù)據(jù)測評的方法進(jìn)行改良,改為在工作者提交任務(wù)結(jié)果之后,抽取部分任務(wù)結(jié)果來檢查,評估所抽取任務(wù)結(jié)果的準(zhǔn)確度。對于抽檢部分,采用投票一致性規(guī)則來進(jìn)行檢測分析。由于完成一個任務(wù)或者回答一個問題并不能完全體現(xiàn)工作者的工作精度,對眾包工作者工作情況的判斷存在局限性,所以在文章中,將多個任務(wù)分給多名工作者來完成,然后通過投票一致性策略來聚合所有的投票結(jié)果,達(dá)到更加精確地計算工作者的工作精度的目的。

        具體過程如下:

        假設(shè)將n份任務(wù)發(fā)放給m名工作者去完成(m,n均已知),工作者提交的任務(wù)結(jié)果用Rn,m=(r1,1,r1,2,…,r1,m;r2,1,r2,2,…,r2,m;…;rn,1,rn,2,…,rn,m)表示,其中n表示問題數(shù)量,m表示眾包工作者數(shù)量,r1,1,r1,2,…,r1,m表示所有眾包工作者提交第一個問題的答案。

        根據(jù)眾包工作者提交的任務(wù)結(jié)果,可以得到所有問題結(jié)果的一致性數(shù)據(jù)為:

        (11)

        式(11)表示m名工作者提交第n個問題結(jié)果的均值,即工作者提交第n個問題結(jié)果的一致性數(shù)據(jù)。

        m=(1,2,…,m),n=(1,2,…,n)

        (12)

        由式(12)已知可得,每位工作者提供任務(wù)結(jié)果的準(zhǔn)確度為:

        (13)

        由式(1)和式(13)可以求得條件概率為:

        m=(1,2,…,m)

        (14)

        其中,0<τ<1是預(yù)置參數(shù)。g(am)表示參與任務(wù)的m名工作者信譽度,即根據(jù)歷史行為數(shù)據(jù)所求出的綜合信譽度信息。

        2.3 工作者精度驗后分布

        求得工作者精度的驗前分布和條件概率之后,由貝葉斯公式可得,工作者精度驗后分布為:

        (15)

        在求得工作者精度的驗后分布之后,雇主可以根據(jù)自己對任務(wù)準(zhǔn)確度的需求,設(shè)定閾值,篩選出工作者精度符合要求的工作者提交的任務(wù)結(jié)果數(shù)據(jù)。

        3 實 驗

        為驗證介紹的信任模型數(shù)據(jù)分析結(jié)果的準(zhǔn)確度,選用Dog and Cat Recognition(DCR)數(shù)據(jù)集[15]和Comment Sense Question(CSQ)數(shù)據(jù)集[16]進(jìn)行仿真實驗。兩種數(shù)據(jù)集都是二元類問題數(shù)據(jù)集,問題答案均為是或否。并將實驗結(jié)果與黃金標(biāo)準(zhǔn)數(shù)據(jù)策略檢測方法(簡稱Gold方法)作對比。

        3.1 實驗參數(shù)設(shè)置

        實驗采用的編程語言為Matlab,采用的編輯工具為Matlab R2017(a)。

        實驗中選擇數(shù)據(jù)集前20%的問題答案作為評估數(shù)據(jù)來獲得工作者精度驗前分布參數(shù)(α、β)。DCR數(shù)據(jù)集中共包含300名工作者提供的1 000張圖片答案,選擇前200張圖片答案,分為10組,每組20張圖片答案,表示眾包工作者前10次工作完成準(zhǔn)確度。CSQ數(shù)據(jù)集中包含164名工作者提交的164個問題答案,選擇前80個問題答案,分為10組,每組8個問題答案,表示工作者前10次工作完成的準(zhǔn)確度。

        在數(shù)據(jù)集剩下的80%數(shù)據(jù)中,選擇20%作為抽檢數(shù)據(jù),對工作者的當(dāng)前表現(xiàn)情況進(jìn)行評估,剩下的60%數(shù)據(jù)作為正式任務(wù)評估該方法的有效性。另外,兩個數(shù)據(jù)集中所有問題的答案均為已知。

        對于ω的確定:因為問題的結(jié)果都已轉(zhuǎn)化為二元類問題答案,所以根據(jù)投票一致性規(guī)則,在式(12)中,r的均值肯定接近0或者接近1,最不可能出現(xiàn)的情況為0.5,所以選擇0.5作為閾值,在此處應(yīng)為最佳,式(14)中,τ=0.1。

        3.2 實驗結(jié)果

        在實際任務(wù)中,雇主對任務(wù)精度的需求各不相同。有的雇主對任務(wù)精度的需求比較低,例如為70%,只要工作者提交的任務(wù)結(jié)果準(zhǔn)確度達(dá)到70%就可以被采納使用。但是有的雇主對任務(wù)結(jié)果的精度要求比較高,例如為90%,他們的任務(wù)比較特殊,任務(wù)精度越高越好,只有達(dá)到90%才可以滿足需要。因此,分別計算出基于信任模型的魯棒眾包數(shù)據(jù)分析方法(簡稱Trust方法)和黃金標(biāo)準(zhǔn)數(shù)據(jù)策略(簡稱Gold方法)在不同精度需求時候篩選出的人數(shù),如圖2和圖3所示。

        圖2 DCR數(shù)據(jù)集中兩種方法篩選的工作者與實際合格工作者數(shù)量的比較

        圖3 CSQ數(shù)據(jù)集中兩種方法篩選的工作者與實際合格工作者數(shù)量的比較

        通過分析兩種方法在不同數(shù)據(jù)集中的實際效果,可以發(fā)現(xiàn),選用Trust方法篩選的工作者數(shù)量比使用Gold方法篩選的工作者數(shù)量更多,更接近于數(shù)據(jù)集中實際合格的人數(shù),并且,雇主需求的精度越高,使用Trust方法篩選出的工作者數(shù)量越接近實際工作者數(shù)量。

        圖4和圖5中將給出兩種方法所選人數(shù)的準(zhǔn)確度信息。

        圖4 CSQ數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實際合格數(shù)量的比較

        圖5 DCR數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實際合格數(shù)量的比較

        通過圖4和圖5可以發(fā)現(xiàn),使用Trust方法篩選出實際合格工作者數(shù)量高于使用Gold方法篩選出的實際合格工作者數(shù)量,且篩選結(jié)果準(zhǔn)確度更高。為了更好地展示實驗效果,表1和表2中詳細(xì)列舉了在不同數(shù)據(jù)集中使用兩種方法篩選出的工作者準(zhǔn)確度情況。

        表1 DCR數(shù)據(jù)集中兩種方法實驗結(jié)果比較

        表2 CSQ數(shù)據(jù)集中兩種方法實驗結(jié)果比較

        如表1和表2所示,可以直觀地發(fā)現(xiàn),使用Trust方法對眾包數(shù)據(jù)結(jié)果進(jìn)行分析篩選出的結(jié)果要比使用Gold方法篩選出的結(jié)果更好,篩選的合格工作者數(shù)量更多,質(zhì)量更高。使用Trust方法篩選出工作者提供的數(shù)據(jù)魯棒性要高于使用Gold方法篩選出工作者提供的數(shù)據(jù)。

        4 結(jié)束語

        主要討論了眾包數(shù)據(jù)分析方法,針對現(xiàn)有數(shù)據(jù)分析方法存在的不足,提出了基于信任模型的魯棒眾包數(shù)據(jù)分析方法,將工作者歷史信譽信息和此次任務(wù)結(jié)果數(shù)據(jù)結(jié)合于貝葉斯信任模型,提高了數(shù)據(jù)數(shù)據(jù)篩選的準(zhǔn)確性。對于眾包行業(yè)的穩(wěn)定發(fā)展有十分長遠(yuǎn)的意義。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        内射白浆一区二区在线观看| 亚洲精品你懂的在线观看| 精品欧美一区二区在线观看 | 亚洲一区二区三区无码国产| 丰满爆乳一区二区三区| 国产精品第1页在线观看| 日韩亚洲欧美精品| 亚洲国产91精品一区二区| 风韵丰满熟妇啪啪区99杏| 亚洲色精品三区二区一区| 精东天美麻豆果冻传媒mv| 亚洲一区二区观看播放| 久久AV中文综合一区二区| 丰满少妇人妻无码超清| 神马不卡影院在线播放| 中文字幕色偷偷人妻久久一区| 中文区中文字幕免费看| 国产精品网站在线观看免费传媒 | 97久人人做人人妻人人玩精品 | 亚洲欧美v国产蜜芽tv| 亚洲av毛片在线播放| 肥老熟女性强欲五十路| 少妇中文字幕乱码亚洲影视| 国产精品久久毛片av大全日韩| 亚洲色成人网站www观看入口| 国产高清天干天天视频| 国产一区二区三区特区| 91视色国内揄拍国内精品人妻| 国产美女精品视频线免费播放软件 | 一个人看的www片免费高清视频 | 久久无码av三级| 亚洲欧洲AV综合色无码| 久久精品国产亚洲av试看| 国产三级久久精品三级91| 色偷偷亚洲第一成人综合网址| 国产亚洲情侣一区二区无| 一本久道久久综合五月丁香| 午夜爽毛片| 日本一级二级三级不卡| 中文字幕人妻熟女人妻| 人妻丰满熟妇av无码片|