亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三方眾包市場中的發(fā)包方平臺博弈機制設(shè)計

        2022-11-11 10:49:50何雨橙丁堯相周志華
        計算機研究與發(fā)展 2022年11期
        關(guān)鍵詞:發(fā)包方報酬情形

        何雨橙 丁堯相 周志華

        (計算機軟件新技術(shù)國家重點實驗室(南京大學(xué)) 南京 210023)

        隨著機器學(xué)習(xí)任務(wù)的規(guī)模逐漸增大,人們迫切需要對大規(guī)模數(shù)據(jù)進(jìn)行收集.眾包(crowdsourcing)作為低成本高效率的數(shù)據(jù)收集方式,受到了廣泛歡迎.

        眾包研究的基本問題之一是設(shè)計有效的機制以使得參與者在競爭中實現(xiàn)共贏.當(dāng)前,眾包機制設(shè)計研究往往基于兩方眾包模型:發(fā)包方(requester)發(fā)布任務(wù)并支付標(biāo)注者(workers)費用;標(biāo)注者完成任務(wù)并收取報酬[1].該模型的重要假設(shè)在于發(fā)包方和標(biāo)注者可以直接進(jìn)行交互.而現(xiàn)實應(yīng)用中,如圖1所示,發(fā)包方和標(biāo)注者的交互往往以平臺(platform)為中介,構(gòu)成三方眾包市場.其中,發(fā)包方將任務(wù)和報酬發(fā)布給平臺,平臺雇傭標(biāo)注者進(jìn)行標(biāo)記,進(jìn)而在將標(biāo)記結(jié)果反饋給發(fā)包方的同時,賺取支付給標(biāo)注者的費用和發(fā)包方支付給自己的費用之間的差價.顯然,傳統(tǒng)的兩方眾包模型無法對該過程進(jìn)行建模,因此需要引入全新的三方眾包模型進(jìn)行研究.

        Fig. 1 The three-party crowdsourcing market圖1 三方眾包市場示意圖

        相比于兩方眾包,三方眾包的核心問題是發(fā)包方與平臺之間的博弈:發(fā)包方希望支付較少的報酬同時獲取準(zhǔn)確率較高的標(biāo)記;而平臺則希望降低雇傭標(biāo)注者的成本,同時從發(fā)包方處獲取較多的報酬.這之中存在著復(fù)雜的博弈關(guān)系.一方面,發(fā)包方和平臺既有合作也有競爭:雙方都希望最大化標(biāo)記的準(zhǔn)確率,但在最小化或最大化發(fā)包方支付這一點上有沖突.另一方面,發(fā)包方和平臺各自只能掌握自身信息,而無法直接觀測到對方信息.在不完全信息下采取最優(yōu)策略,對雙方都是相當(dāng)具有挑戰(zhàn)性的問題.

        本文開啟三方眾包市場中的發(fā)包方-平臺博弈機制設(shè)計研究,主要貢獻(xiàn)有4點:

        1) 提出不完全信息博弈[2]模型CrowdMarket對三方眾包市場進(jìn)行建模,并證明通過設(shè)計合適的在線學(xué)習(xí)策略可以近似達(dá)到該博弈的Nash均衡;

        2) 在單發(fā)包方設(shè)定下,證明了EXP3算法[3]為發(fā)包方的最優(yōu)策略,進(jìn)而本文設(shè)計了基于反事實遺憾最小化(counterfactual regret minimization, CFR)技術(shù)[4-5]的平臺策略,證明該策略能夠充分利用平臺方的有效信息,具有比直接應(yīng)用傳統(tǒng)在線學(xué)習(xí)方法更強的理論保證;

        3) 將單發(fā)包方的策略拓展到多發(fā)包方的情形,并給出了多發(fā)包方情形下的理論分析;

        4) 通過合成及真實數(shù)據(jù)集上的實驗驗證了方法的有效性.

        1 相關(guān)工作

        眾包研究的核心問題之一在于如何平衡標(biāo)記質(zhì)量和支付費用[6-7].現(xiàn)有研究中,實現(xiàn)這一目標(biāo)的方式可以分成2類:設(shè)計更好的標(biāo)記推斷方法以及設(shè)計更好的眾包機制.標(biāo)記推斷已經(jīng)有了豐富的研究,例如文獻(xiàn)[8-11].本文則著力于探討機制設(shè)計問題.

        兩方眾包機制設(shè)計已經(jīng)得到了充分研究,其中包括任務(wù)與報酬的分配機制設(shè)計[12-15],以及利用提供線索[16]或跳過選項[17-19]等方式提升高難度樣本的標(biāo)記質(zhì)量.由于這些機制都是針對標(biāo)注者的,因此這些策略同樣可以應(yīng)用于三方眾包市場中作為平臺與標(biāo)注者之間的博弈機制.并且由于這方面的研究相對成熟,本文不再對此進(jìn)行深入探討.同時,也有大量的研究關(guān)注如何設(shè)計合適的支付策略以激勵標(biāo)注者給出高質(zhì)量的標(biāo)記.這方面的代表性工作包括文獻(xiàn)[20-23].在我們的問題設(shè)定中,這些激勵機制可以被平臺用于激勵標(biāo)注者給出更準(zhǔn)確的標(biāo)記,但是不能直接用于處理平臺和發(fā)包方之間的博弈.

        近期以來,一些工作也開始從應(yīng)用的角度關(guān)注三方眾包市場.例如文獻(xiàn)[24]提出了一種聲譽評價方法以防止發(fā)包方和標(biāo)注者的欺騙行為,而文獻(xiàn)[25]則將眾包市場建模為一個3層的優(yōu)化問題以最大化平臺的健康度.但這些工作均不涉及博弈機制設(shè)計研究,因而它們的研究動機與本文有著顯著的差異.

        當(dāng)前,將眾包形式化為博弈問題,特別是預(yù)算有限條件下的收益最大化問題,是一個重要的理論研究方向[26-28].這個方向上的現(xiàn)有研究主要集中于傳統(tǒng)兩方設(shè)定,本文所提出的三方眾包模型,對拓展這一方向的研究內(nèi)容可能起到有益的作用.此外,近期也有工作研究如何在廣告市場中利用機器學(xué)習(xí)方法從數(shù)據(jù)中學(xué)習(xí)有效的三方博弈機制[29].本文的研究也為將這種新方法引入眾包博弈問題提供了有益啟示.

        2 CrowdMarket模型

        2.1 基本定義

        本節(jié)提出三方眾包模型CrowdMarket,將三方眾包市場形式化為發(fā)包方、平臺以及標(biāo)注者三方的不完全信息博弈[2].本節(jié)討論單發(fā)包方情形,第4節(jié)中將對多發(fā)包方情形進(jìn)行討論.

        單發(fā)包方情形下的CrowdMarket模型為持續(xù)T輪的博弈,在第t輪下:

        1) 發(fā)包方發(fā)送一個包含b個任務(wù)的任務(wù)包,以及支付報酬xt∈(0,1]給平臺.本文假設(shè)發(fā)包方只能從有限數(shù)量的K個報酬選項X1,X2,…,XK中選擇合適的報酬.

        2) 在收到報酬和任務(wù)包之后,平臺選擇mt個標(biāo)注者完成標(biāo)注任務(wù).

        3) 標(biāo)注者各自選擇采取低等級的努力或者高等級的努力以完成任務(wù).高努力下準(zhǔn)確率為p*>1/2;而低努力下標(biāo)注者隨機猜測以返回標(biāo)記,準(zhǔn)確率為1/2.之后每位標(biāo)注者各自獨立地為每個任務(wù)進(jìn)行標(biāo)注,并將結(jié)果反饋給平臺.

        4) 平臺將每位標(biāo)注者給出的標(biāo)記通過多數(shù)投票法進(jìn)行集成,并將集成后標(biāo)記返回給發(fā)包方.集成后標(biāo)記的實際平均準(zhǔn)確率記為at.發(fā)包方從返回的標(biāo)記中得到的收益取決于該準(zhǔn)確率以及支付給平臺的報酬,因此可以表示為at-xt.

        5) 平臺從發(fā)包方的支付中取出一部分作為參與了本輪標(biāo)注的標(biāo)注者的報酬,其余作為自己的收益.

        為了激勵標(biāo)注者給出高質(zhì)量的標(biāo)記,平臺需要得知標(biāo)注者給出的標(biāo)記的準(zhǔn)確程度,這就需要發(fā)包方向平臺提供反饋.因此,我們引入了這樣一個步驟:發(fā)包方在每一輪結(jié)束之后會向平臺反饋該輪標(biāo)記的準(zhǔn)確率.參考文獻(xiàn)[17],可以設(shè)計激勵機制來確保發(fā)包方會誠實地反饋標(biāo)記準(zhǔn)確率,在3.1節(jié)中我們將會給出該激勵機制并進(jìn)行分析.另外,本文假設(shè)平臺只能有部分輪次得到真實標(biāo)記.因此,平臺不能在任意輪次中直接推斷出標(biāo)記準(zhǔn)確率.

        每一輪中參與者可能選擇的動作組成的集合稱為動作集.具體而言,發(fā)包方的動作集為Areq={(x,a′):x∈{X1,X2,…,XK},a′∈[0,1]},其中x代表支付給平臺的報酬,a′代表匯報的準(zhǔn)確率;平臺的動作集為Apla=(m,c):m∈{1,2,…,N},c∈N},其中m代表平臺選擇標(biāo)注的人數(shù),c代表為每一位標(biāo)注者支付的報酬組成的向量(m

        2.2 CrowdMarket博弈的分解

        CrowdMarket模型是一個多方非零和博弈[30],這是博弈論中最難分析的博弈類型.但是,該模型有特殊的結(jié)構(gòu):發(fā)包方和標(biāo)注者之間并沒有直接的交互.利用這一點,我們可以將CrowdMarket模型分解成2個部分:發(fā)包方和平臺之間的博弈以及平臺和標(biāo)注者之間的博弈.其中,平臺和標(biāo)注者之間的博弈與傳統(tǒng)的兩方眾包中發(fā)包方和標(biāo)注者之間的博弈是類似的,因此平臺需要設(shè)計機制以激勵標(biāo)注者采取高等級的努力.并且,需要同時引入激勵機制使發(fā)包方誠實反饋準(zhǔn)確率.

        3 平臺激勵機制設(shè)計

        本節(jié)介紹平臺需要采用2個激勵機制:1)激勵發(fā)包方誠實反饋準(zhǔn)確率信息的機制;2)激勵標(biāo)注者采取高等級努力的機制.

        3.1 激勵發(fā)包方誠實反饋的機制

        在CrowdMarket模型中,平臺可以獲得發(fā)包方反饋的準(zhǔn)確率信息a′t.但是,發(fā)包方可能會試圖通過反饋一個虛假的準(zhǔn)確率a′t進(jìn)行欺詐.為了防止這一點,受到文獻(xiàn)[17]中“沒有免費的午餐”(no-free-lunch)原則的啟發(fā),我們?yōu)槠脚_設(shè)計了一個懲罰機制以防止發(fā)包方欺詐.

        本文假設(shè)在CrowdMarket博弈過程中,平臺可以隨機選取某些輪次通過第三方得到真實標(biāo)記,進(jìn)而在這些輪次中對發(fā)包方反饋的標(biāo)記準(zhǔn)確率進(jìn)行驗證.如果驗證發(fā)現(xiàn)發(fā)包方反饋的準(zhǔn)確率不正確,即發(fā)包方在該輪進(jìn)行了欺詐,那么平臺將會對發(fā)包方進(jìn)行一定的懲罰.

        我們首先定義指示變量序列yt,t=1,2,…,T如下:

        懲罰機制可以表示為指示變量序列的一個函數(shù)f(y1,y2,…,yT):在眾包博弈結(jié)束后,發(fā)包方需要支付f(y1,y2,…,yT)給平臺作為欺詐的懲罰.為了確保公平性,懲罰機制需要滿足2個基本條件:

        第1個條件是平臺不能在沒有發(fā)現(xiàn)發(fā)包方欺詐的情形下進(jìn)行懲罰;相反,如果發(fā)包方被發(fā)現(xiàn)在每輪都作弊了,那么需要支付最大數(shù)額的懲罰金額Fmax.該條件可以形式化為定義1.

        定義1.如果懲罰機制f滿足:

        1) 若yt≠1對所有t=1,2,…,T成立且存在t使得yt=-1,則f(y1,y2,…,yT)=Fmax.

        2) 若yt=1對所有t=1,2,…,T成立,則f(y1,y2,…,yT)=0.

        則稱f滿足“沒有免費的午餐”條件.

        第2個條件是發(fā)包方應(yīng)該支付懲罰當(dāng)且僅當(dāng)其被發(fā)現(xiàn)有欺詐行為.該條件可形式化為定義2.

        定義2.如果懲罰機制f滿足:對于任意輪次t∈{1,2,…,T}以及任意

        (y1,…,yt-1,yt+1,…,yT)∈{-1,0,1}T-1

        都有

        f(y1,…,yt-1,1,yt+1,…,yT)=
        f(y1,…,yt-1,0,yt+1,…,yT)≤
        f(y1,…,yt-1,-1,yt+1,…,yT),

        那么稱f滿足“激勵相容”條件.

        基于這2個條件,我們提出如下機制:

        (1)

        其中,I(yt≠-1)為指示函數(shù).

        式(1)表明:如果被發(fā)現(xiàn)在眾包過程中有欺詐行為,發(fā)包方會支付最大數(shù)額的懲罰.顯然,式(1)所述的機制滿足我們提出的2個條件.我們可以進(jìn)一步證明定理1成立,定理1表明了由式(1)定義的懲罰機制是滿足我們所要求的2個條件的唯一機制.

        定理1.當(dāng)Fmax≥T2時,式(1)機制是唯一滿足“沒有免費的午餐”條件和“激勵相容”條件的機制,且發(fā)包方最優(yōu)策略是每輪誠實反饋收益信息.

        證明.假設(shè)f是同時滿足定理要求的2個條件的機制.我們只需要證明:當(dāng)所有的指示變量yi≠-1時f(y1,y2,…,yT)=0,否則f(y1,y2,…,yT)=T即可.

        1) 當(dāng)?i∈[t]:yi≠-1時,我們假設(shè)y1,y2,…,yT中有k個1和T-k個0.不失一般性地,可以假設(shè)前k個變量取值為1,其余變量取值為0.由“沒有免費的午餐”可知:

        2) 平臺僅在第t輪進(jìn)行了1次檢查,且yt=-1.根據(jù)“沒有免費的午餐”條件,該情況下懲罰為Fmax.又由“激勵相容”條件易知,任何存在yi≠-1,i=1,2,…,T的情況下,懲罰均不應(yīng)小于該情況,也為Fmax.

        綜上即是該機制為唯一滿足條件的機制.

        接下來考慮該機制下發(fā)包方作弊能得到的額外收益.考慮極端情況:發(fā)包方只需要在其中1輪作弊,未被發(fā)現(xiàn)即可得到最大收益R,被發(fā)現(xiàn)則要另外支付懲罰T.再設(shè)發(fā)包方不作弊得到的收益為r,平臺檢查的輪數(shù)所占比例為p.由于平臺至少檢查1次,因此p≥1/T.對發(fā)包方而言,不作弊是最優(yōu)策略當(dāng)且僅當(dāng)

        p(R-Fmax)+(1-p)R≤r,

        解不等式得p≥(R-r)/Fmax.由于在CrowdMarket模型中,R-r≤T,因而上述不等式恒成立.這表明誠實反饋是發(fā)包方的最優(yōu)策略.

        證畢.

        3.2 激勵標(biāo)注者采取高等級努力的機制

        標(biāo)注者i獲得的總收益為

        (2)

        式(2)采用了一個簡單的機制:如果被發(fā)現(xiàn)在標(biāo)注過程中有采取低等級努力行為,標(biāo)注者將無法得到該輪報酬,否則等價于每一次標(biāo)注都得到報酬ci.由于標(biāo)注者的目標(biāo)是最大化其收益,因而有定理2:

        定理2.在式(2)機制下,標(biāo)注者的最佳策略為在所有輪次均采取高等級努力進(jìn)行標(biāo)注.

        證明. 由于標(biāo)注者的目標(biāo)為最大化其收益,在任意t≤T輪中,顯然只有當(dāng)標(biāo)注者采取高等級努力時,所收獲的單輪回報最大,進(jìn)而知定理結(jié)論成立.

        證畢.

        注意到,由于標(biāo)注者所標(biāo)記的樣本是有限的,因而通過標(biāo)注是否正確判斷其努力程度存在一定錯誤的可能性.在實際問題中,不難通過允許用戶對自身努力程度被錯判的情況進(jìn)行申訴,來消除該錯誤.

        在本節(jié)給出的激勵機制的保證之下,平臺可以保證在每一輪中:1)發(fā)包方誠實匯報準(zhǔn)確率;2)標(biāo)注者選擇高等級努力,因而給出的標(biāo)記的準(zhǔn)確率為p*;3)平臺向每位被分配任務(wù)的標(biāo)注者支付報酬ci,由于標(biāo)注者之間相互等價(能力與標(biāo)注策略均相同),每位標(biāo)注者的報酬均相同.在上述標(biāo)注者策略已經(jīng)固定的情況下,后文將集中研究如何設(shè)計發(fā)包方和平臺之間的博弈策略.另一方面,不妨將發(fā)包方與平臺已經(jīng)確定的動作從動作集中移除,以重點研究還未確定的動作:發(fā)包方-平臺博弈的每一輪中,發(fā)包方的動作是選擇支付給平臺的報酬,平臺的動作是選擇分配的標(biāo)注者人數(shù).為此,在下文中我們重新定義發(fā)包方和平臺的動作集分別為Areq={X1,X2,…,XK},Apla={1,2,…,N}.發(fā)包方和平臺的策略空間也相應(yīng)地重新定義.

        4 發(fā)包方-平臺博弈策略設(shè)計

        本節(jié)介紹發(fā)包方和平臺在CrowdMarket博弈中采取的博弈策略.在4.1節(jié)我們證明發(fā)包方和平臺可以使用在線學(xué)習(xí)算法最小化自身遺憾;4.2節(jié)和4.3節(jié)分別給出發(fā)包方和平臺基于在線學(xué)習(xí)算法的策略.

        4.1 基于在線學(xué)習(xí)的博弈策略

        每個參與者的目標(biāo)均為最大化自身的累計收益,這等價于最小化自身的“遺憾”:

        證明.首先以平臺為例進(jìn)行證明.由ε-最優(yōu)性的定義有

        進(jìn)而,由于平臺收益是線性函數(shù),我們可以得出:

        發(fā)包方的效用函數(shù)可類似地表示為策略的線性函數(shù),從而同理可證

        證畢.

        由于Nash均衡狀態(tài)代表了各方策略同時達(dá)到穩(wěn)定狀態(tài),因而定理1表明,博弈各方只需采用能夠?qū)z憾進(jìn)行最小化的學(xué)習(xí)策略,就能在競爭中合作共贏.

        4.2 發(fā)包方策略

        注意到發(fā)包方可以將博弈過程建模為賭博機(bandit)在線學(xué)習(xí)問題:發(fā)包方可能選擇的支付動作Areq可視為賭博機搖臂,博弈產(chǎn)生的收益可以作為選擇特定搖臂之后得到的收益.進(jìn)而,發(fā)包方可以采用文獻(xiàn)[3]提出的EXP3算法作為其策略.下面的定理給出了任何發(fā)包方策略的遺憾下界,進(jìn)而驗證了EXP3策略的最優(yōu)性.

        證明.考慮這樣一種情況,標(biāo)注者能力p=1,即標(biāo)注者總是返回真實標(biāo)記;平臺通過以一定概率隨機反轉(zhuǎn)集成后標(biāo)記的方式控制返回給發(fā)包方的標(biāo)記準(zhǔn)確率.假設(shè)當(dāng)發(fā)包方選擇支付給平臺的報酬為x時,平臺翻轉(zhuǎn)標(biāo)記的概率為1-q(x),即平臺提供的標(biāo)記的期望準(zhǔn)確率為a=q(x).

        考慮函數(shù)q(x)=x+α+εI(x=x0),I()表示指示函數(shù),并且α足夠小從而使得q(x)∈[0,1].顯然此時發(fā)包方的期望收益u=q(x)-x=α+εI(x=x0)滿足以上條件.

        證畢.

        這與EXP3的遺憾上界同階,因而EXP3是發(fā)包方在缺乏信息的條件下所能采用的最優(yōu)策略.值得注意的是,平臺也可以由定理4得知發(fā)包方會使用EXP3策略.在4.3節(jié)我們會展示這一優(yōu)勢是如何幫助平臺制定策略的.

        4.3 平臺策略

        此時信息很不充足,對標(biāo)注者能力的估計誤差會很大.解決該挑戰(zhàn)的思路是,在每輪博弈中基于文獻(xiàn)[4]提出的CFR技術(shù)模擬之后的博弈過程.基于CFR的平臺博弈策略(以下簡稱CFR策略)如算法1所示:

        算法1.CFR策略.

        ① 初始化置信區(qū)間I1=[0,1],P1={p:p∈I1};

        ② 初始化歷史記錄H=?;

        ③ fort=1,2,…,T

        ⑥ 完成眾包并接收發(fā)包方反饋的收益at;

        ⑦ 將(mt,at)添加到H之中;

        ⑩ 更新It+1為

        則有

        (3)

        其中,N為平臺最多可選擇的標(biāo)注者人數(shù).

        另一方面,直接應(yīng)用原始的CFR算法無法達(dá)到理想效果.這是由于對于平臺而言,標(biāo)注者能力在博弈開始是未知的,必須通過對標(biāo)注者能力進(jìn)行有效估計,才能加快CFR算法的收斂速度.為了能更精確地得到對標(biāo)注者能力的估計,算法1中引入了標(biāo)注者能力估計步驟,利用Hoeffding不等式逐漸縮小標(biāo)注者能力的可能取值范圍(算法1行⑤~,行⑩中b為每輪任務(wù)數(shù),δ為置信系數(shù)).隨著博弈輪數(shù)的增加,參數(shù)區(qū)間會越來越緊,從而起到逐漸縮小標(biāo)注者能力的可能取值集合的效果(算法1行).下述定理表明應(yīng)用該策略可以達(dá)到更緊的遺憾界.

        定理5.當(dāng)博弈總輪數(shù)T充分大時,以至少1-δ的概率,算法1中的策略的期望遺憾上界為O(logT).

        (4)

        (5)

        其中,εt表示模擬過程和真實過程之間有差異的平均概率.結(jié)合式(4)和式(5)可知,總的遺憾上界為

        當(dāng)t

        證畢.

        定理5說明算法1的遺憾界顯著優(yōu)于EXP3策略,表明該策略充分利用了前文所述的額外信息.

        5 多發(fā)包方情形下的策略

        本節(jié)討論多發(fā)包方CrowdMarket模型的博弈機制.如果標(biāo)注者群體可以同時為所有的發(fā)包方提供服務(wù),那么平臺只需要和每一個發(fā)包方單獨進(jìn)行CrowdMarket博弈,此時多發(fā)包方和單發(fā)包方的情形是完全一致的.但是如果標(biāo)注者群體在同一時間只能為部分發(fā)包方提供服務(wù),那么發(fā)包方之間需要競爭服務(wù)的使用權(quán).因此,本節(jié)針對后一種情況進(jìn)行研究.

        不失一般性,假設(shè)一共有n個發(fā)包方參與博弈,平臺在每一輪中為出價最高的發(fā)包方提供服務(wù).同時,假設(shè)單個發(fā)包方只能知道自己是否成功獲得服務(wù),而無法得知其他發(fā)包方的出價以及任務(wù)完成準(zhǔn)確率信息.易知,在任何一輪當(dāng)中,出價最高而得到服務(wù)的發(fā)包方的收益和單發(fā)包方的情形相同,而未得到服務(wù)的發(fā)包方的收益則為0.

        與單發(fā)包方條件下類似,在多發(fā)包方條件下,發(fā)包方仍然面臨著缺乏決策信息的問題:不僅無法得知平臺如何雇傭工人,而且無法得知其他發(fā)包方的情況.因而,可以類似地證明發(fā)包方的最優(yōu)策略為使用EXP3算法.接下來我們證明:平臺也仍可以使用CFR策略模擬多發(fā)包方的情形,以優(yōu)化自身的遺憾.

        定理6.在有n個發(fā)包方情形下,當(dāng)博弈總輪數(shù)T充分大時,以至少1-δ的概率,CFR策略的期望遺憾上界為O(n(logn+logT)).

        當(dāng)T≥nT1時,至少有一個發(fā)包方在至少T1輪贏得服務(wù),而對于贏得服務(wù)小于T1輪的發(fā)包方,與其博弈的遺憾界是常數(shù)階.進(jìn)而知以至少1-δ的概率有

        證畢.

        6 實驗驗證

        本節(jié)對發(fā)包方-平臺策略性能進(jìn)行驗證.具體而言,本節(jié)實驗對3點進(jìn)行驗證:1)對于發(fā)包方,當(dāng)平臺使用強對抗性的策略時,EXP3策略是否有好的表現(xiàn);2)對于平臺,CFR策略是否能利用額外信息給出更好的結(jié)果;3)對于多發(fā)包方的情形,發(fā)包方EXP3策略及平臺CFR策略是否依然適用.實驗中發(fā)包方和平臺的動作集設(shè)定為:1)發(fā)包方可能的支付選項為{0.1,0.2,0.3};2)平臺可能選擇的標(biāo)注者人數(shù)為{1,3,5};3)平臺雇傭每個標(biāo)注者的成本C=0.01.

        本節(jié)實驗使用8個二分類真實數(shù)據(jù)集:1)BM數(shù)據(jù)集[33],該數(shù)據(jù)集中標(biāo)注者對語料給出正面或負(fù)面情緒標(biāo)記;2)TEMP數(shù)據(jù)集[34],該數(shù)據(jù)集中標(biāo)注者對2件事是否是先后發(fā)生的進(jìn)行標(biāo)記;3)WVSCM數(shù)據(jù)集[8],該數(shù)據(jù)集中標(biāo)注者對圖片中人臉是否微笑進(jìn)行標(biāo)記;4)WB數(shù)據(jù)集[35],該數(shù)據(jù)集中標(biāo)注者對圖片中的水鳥是否是鴨子進(jìn)行標(biāo)記;5)SpamCF數(shù)據(jù)集[36],該數(shù)據(jù)集中標(biāo)注者對一個AMT平臺上的任務(wù)是否是垃圾任務(wù)進(jìn)行標(biāo)注;6)MediaEval數(shù)據(jù)集[36],該數(shù)據(jù)集中標(biāo)注者對給定圖片是否和時尚有關(guān)進(jìn)行標(biāo)注;7)MEHCB數(shù)據(jù)集[37-38],該數(shù)據(jù)集中標(biāo)注者對搜索請求和網(wǎng)頁是否有關(guān)進(jìn)行標(biāo)記;8)RTE數(shù)據(jù)集[34],該數(shù)據(jù)集中標(biāo)注者對文本之間是否有蘊含關(guān)系進(jìn)行標(biāo)注.實驗所用8個數(shù)據(jù)集的相關(guān)信息如表1所示.

        Fig. 2 The cumulative rewards of requester strategies under the single requester setting圖2 單發(fā)包方情形下發(fā)包方策略的累計收益對比

        6.1 單發(fā)包方策略驗證

        本節(jié)在單發(fā)包方情形下,將發(fā)包方EXP3策略與ε-貪心策略(ε=0.05)及固定策略(始終固定在最高支付)進(jìn)行性能對比.同時,假設(shè)平臺使用高對抗性甚至是作弊性質(zhì)的策略,因為我們需要驗證即便在最壞情形下EXP3策略仍然有效.

        Table 1 Information About Datasets表1 實驗所用數(shù)據(jù)集的相關(guān)信息

        在我們的實驗中,平臺和發(fā)包方用各自的策略進(jìn)行持續(xù)T輪的CrowdMarket博弈.輪次上限T的取值分別設(shè)定為10,15,…,40.本實驗中假設(shè)平臺可獲取真實的標(biāo)注者能力p*,從而可以通過以一定概率翻轉(zhuǎn)標(biāo)記的方式準(zhǔn)確控制返回給發(fā)包方的標(biāo)記準(zhǔn)確率.并且,平臺會采用如下強對抗性的策略以誘導(dǎo)發(fā)包方提高支付:平臺以一定的概率q翻轉(zhuǎn)標(biāo)記,之后如果平臺收到了更高的報酬則會逐漸降低q的取值.平臺采用的這一策略要求發(fā)包方逐漸提高支付的報酬而不能只用貪心策略.本次實驗中設(shè)定初始輪次中q=0.50,每次收到更高報酬后q的降低量分別設(shè)為0.02,0.03,0.04,0.05.在每組參數(shù)下我們重復(fù)實驗50次并匯報平均累計收益.實驗結(jié)果如圖2所示,實驗結(jié)果可見,當(dāng)平臺使用強對抗性的策略時,發(fā)包方使用EXP3策略獲得的累計收益總是比ε-貪心策略和固定策略要好,這表明了EXP3策略的有效性.

        6.2 多發(fā)包方策略驗證

        本節(jié)驗證了3個發(fā)包方情形下,發(fā)包方使用EXP3策略的有效性.博弈過程的參數(shù)設(shè)定同6.1節(jié).

        為了驗證EXP3策略的有效性,在實驗中我們令3個發(fā)包方分別使用EXP3策略、ε-貪心(ε=0.05)策略和固定策略,平臺使用的策略為CFR策略.我們令3個發(fā)包方在CrowdMarket博弈中使用不同策略相互競爭,勝出的發(fā)包方所使用的策略就是這3個策略中最優(yōu)的策略.為了保證公平性,所有發(fā)包方使用的數(shù)據(jù)集都是一樣的,以確保標(biāo)注者能力對于所有發(fā)包方是一致的.我們在8個數(shù)據(jù)集上進(jìn)行了實驗,每個數(shù)據(jù)集上重復(fù)10次.發(fā)包方累計收益的平均值如圖3所示.可以發(fā)現(xiàn),使用EXP3策略在絕大多數(shù)時間內(nèi)都能獲得最多的收益,這表明EXP3策略在多發(fā)包方的情形下依然適用.

        Fig. 3 The cumulative rewards of requester strategies under the multiple requester setting圖3 多發(fā)包方情形下各發(fā)包方策略的累計收益對比

        6.3 平臺策略驗證

        為了驗證平臺在單發(fā)包方與多發(fā)包方情形下使用CFR策略的性能,我們將CFR策略和EXP3策略、ε-貪心(ε=0.05)策略以及固定策略進(jìn)行了對比,發(fā)包方的策略固定為EXP3策略.博弈過程的參數(shù)設(shè)置與6.1節(jié)相同.單發(fā)包方情形下我們在8個數(shù)據(jù)集上進(jìn)行了實驗,在多發(fā)包方情形下則測試了2組發(fā)包方數(shù)據(jù)集的組合,所有實驗結(jié)果如圖4所示.每張子圖展示了平臺的累計收益.實驗結(jié)果顯示:無論在哪個數(shù)據(jù)集上,性能最好的策略均為CFR策略,其次是EXP3策略,再次是ε-貪心策略,排名最后的是固定策略.這表明利用到了額外信息的CFR策略確實能取得更好的效果.

        Fig. 4 The cumulative rewards of the platform strategies under the single requester and multiple requester settings圖4 單發(fā)包方與多發(fā)包方情形下的平臺策略累計收益對比

        表2展示了單發(fā)包方情形下,當(dāng)平臺使用不同策略,發(fā)包方使用EXP3策略時,40輪之后平臺和發(fā)包方的合計累計收益.結(jié)果表明平臺使用CFR策略可以使得雙方的累計收益達(dá)到最大.綜合上述結(jié)果可知,CFR策略是最適合于合作的策略.注意到平臺使用CFR策略是在發(fā)包方反饋準(zhǔn)確率信息時的最優(yōu)策略,而平臺使用EXP3策略是在發(fā)包方不反饋準(zhǔn)確率信息時的最優(yōu)策略.因此,表2中平臺使用CFR策略時,累計收益超過EXP3策略,這表明2.1節(jié)中引入的反饋步驟可以提升雙方的累計收益,對于雙方的合作有促進(jìn)作用.

        Table 2 Total Rewards of Platform and Requester After 40 Round with Different Strategies of Platform

        6.4 實驗結(jié)果分析

        在本節(jié)中,我們利用仿真數(shù)據(jù)集和真實數(shù)據(jù)集進(jìn)行了實驗,對本文提出的基于在線學(xué)習(xí)方法的三方眾包市場發(fā)包方-平臺博弈策略進(jìn)行了驗證.實驗結(jié)果表明,在符合CrowdMarket模型假設(shè)的條件下,本文提出的單發(fā)包方及多發(fā)包方策略不僅能優(yōu)化自身的累計收益,而且能達(dá)到促進(jìn)博弈雙方合作共贏的目的.這驗證了本文提出策略的有效性.另一方面,在實際應(yīng)用中,也可能存在數(shù)據(jù)不符合CrowdMarket模型假設(shè)的情況.由于相關(guān)數(shù)據(jù)集的缺乏,難以驗證在這一條件下本文方法的實際效果.我們會在未來研究中探索這一問題.

        7 結(jié)束語

        本文針對三方眾包市場中的發(fā)包方-市場機制設(shè)計問題進(jìn)行理論研究,提出三方眾包市場模型CrowdMarket.在該模型的基礎(chǔ)上,針對單發(fā)包方和多發(fā)包方的設(shè)定,研究平臺和發(fā)包方的策略設(shè)計和理論分析.真實數(shù)據(jù)集上進(jìn)行的實驗驗證了本文所提出的策略的有效性.我們相信本文的研究結(jié)果可以激發(fā)更多針對三方眾包市場的研究,有助于更好地理解現(xiàn)實應(yīng)用中眾包產(chǎn)業(yè)的市場行為.

        作者貢獻(xiàn)聲明:何雨橙調(diào)研整理文獻(xiàn),實施方法研究,完成實驗,撰寫論文;丁堯相設(shè)計研究方案,實施方法研究,修訂論文;周志華提出研究選題,指導(dǎo)方法研究與論文撰寫支持.

        猜你喜歡
        發(fā)包方報酬情形
        沒有西瓜的夏天,就像沒有報酬的加班
        避免房地產(chǎn)繼承糾紛的十二種情形
        四種情形拖欠勞動報酬構(gòu)成“拒不支付”犯罪
        公民與法治(2020年4期)2020-05-30 12:31:34
        離岸IT外包中如何降低發(fā)包方的知識保護(hù):基于社會交換理論的觀點
        出借車輛,五種情形下須擔(dān)責(zé)
        公民與法治(2016年9期)2016-05-17 04:12:18
        醫(yī)生的最佳報酬
        海外星云(2015年15期)2015-12-01 04:17:39
        建設(shè)項目發(fā)包方的工程索賠管理研究
        擬分裂情形下仿射Weyl群Cn的胞腔
        誰沒領(lǐng)到報酬
        淺析成本加酬金合同模式下發(fā)包方的成本管理問題
        免费拍拍拍网站| 日韩精品成人一区二区三区| 中文字幕午夜精品一区二区三区| 欧洲美熟女乱av亚洲一区| 九九精品国产亚洲av日韩 | 一本色道亚州综合久久精品| 一本久道高清视频在线观看| 日射精情感性色视频| 狠狠久久久久综合网| 中文字幕人成乱码中文乱码| 男男亚洲av无一区二区三区久久| 国产精品中文久久久久久久| 久久久久亚洲av无码尤物| 亚洲熟女国产熟女二区三区| 日本一区二区三区亚洲| 日韩精品一区二区午夜成人版| 欧美成人三级一区二区在线观看 | 国产人妻熟女高跟丝袜图片| 国产精品丝袜黑色高跟鞋| 国产一级做a爱视频在线| 一区二区三区四区草逼福利视频| 精品免费久久久久久久| 欧美喷潮系列在线观看| 亚洲美女av二区在线观看| 巨爆中文字幕巨爆区爆乳| 午夜三级a三级三点| 日本不卡一区二区高清中文| 日韩精品免费av一区二区三区| 综合色就爱涩涩涩综合婷婷| 亚洲av成本人无码网站| 亚洲国产日韩综一区二区在性色| 亚洲一区二区三区四区地址| 熟女精品视频一区二区三区| 老熟妇Av| 久久亚洲精品一区二区三区| 国内精品久久久久久久97牛牛 | 亚洲国产精品成人av| 国产精品视频永久免费播放| 嗯啊哦快使劲呻吟高潮视频| 亚洲中文字幕女同一区二区三区 | 日本视频一区二区二区|