馬 華,陳躍鵬,唐文勝,婁小平,黃卓軒
(湖南師范大學(xué)信息科學(xué)與工程學(xué)院,長沙 410081)
近年來,隨著互聯(lián)網(wǎng)技術(shù)和共享經(jīng)濟(jì)模式的不斷成熟,以亞馬遜Mechanical Turk、CrowdFlower、豬八戒網(wǎng)、任務(wù)中國等為代表的眾包(Crowdsourcing)平臺(tái)發(fā)展迅速。為獲取創(chuàng)新創(chuàng)意思想、提高工作效率、降低成本等,眾多企業(yè)開始將其工作任務(wù)發(fā)布到眾包平臺(tái),征集盡可能優(yōu)秀的解決方案,并通過分布式協(xié)作提高任務(wù)的完成效率。例如,“豬八戒網(wǎng)”現(xiàn)有約300多萬個(gè)眾包任務(wù),覆蓋近20個(gè)產(chǎn)業(yè)主類目,懸賞金額約53億元[1];“任務(wù)中國”約有5.7萬個(gè)面向設(shè)計(jì)、網(wǎng)站、寫作以及多媒體開發(fā)等方面的眾包任務(wù),懸賞金額約3 800萬元[1];“中移在線”官網(wǎng)顯示,2019年完成各類任務(wù)達(dá)12.8億次,注冊會(huì)員有60多萬人,服務(wù)次數(shù)達(dá)1億多次。
作為一種通過互聯(lián)網(wǎng)群體智慧解決復(fù)雜問題的重要模式[2],眾包現(xiàn)已吸引了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛重視。中國計(jì)算機(jī)學(xué)會(huì)在《中國計(jì)算機(jī)科學(xué)技術(shù)發(fā)展報(bào)告》[3]中將眾包視為群智協(xié)同計(jì)算領(lǐng)域的研究重點(diǎn)之一。近年來許多重要的國際會(huì)議發(fā)布了眾包的相關(guān)研究成果。例如,2018年Ma等[4]討論了眾包任務(wù)的定價(jià)機(jī)制、2017年Hung等[5]探討了眾包任務(wù)質(zhì)量控制模型、2017年Li等[6]討論了眾包在數(shù)據(jù)庫中的應(yīng)用、2016年Mavridis等[7]探討了知識(shí)密集型眾包任務(wù)的分配優(yōu)化算法。目前,眾包在實(shí)時(shí)O2O(Online to Offline)應(yīng)用、交通管理、災(zāi)情監(jiān)控、社交媒體、軟件服務(wù)、自然語言處理、信息檢索等領(lǐng)域均有較成功的應(yīng)用[8-10]。
作者對(duì)近十年(截止于2019年12月)發(fā)表在中國知網(wǎng)(China National Knowledge Infrastructure,CNKI)和WOS(Web Of Science)上的論文進(jìn)行了仔細(xì)梳理,選擇與計(jì)算機(jī)領(lǐng)域相關(guān)性較大的期刊(其中,中文文獻(xiàn)以核心期刊級(jí)別以上為主)和有代表性的書籍和會(huì)議論文,通過主題詞“眾包”(或“Crowdsourcing”)檢索,并在檢索文獻(xiàn)過程中采用倒查法、順查法和追溯法擴(kuò)充文獻(xiàn),以厘清國內(nèi)外現(xiàn)有的與“眾包”(或“Crowdsourcing”)相關(guān)的主要研究的文獻(xiàn)量、研究熱點(diǎn)和整體研究趨勢等信息。梳理結(jié)果顯示,CNKI中有論文5 232篇,WOS中有3495篇。2010—2019年的眾包文獻(xiàn)發(fā)文量詳細(xì)情況如圖1所示。以CNKI為例,2016年發(fā)文量出現(xiàn)了第一個(gè)高峰期,達(dá)2014年的2倍;2017年后發(fā)文量趨于平穩(wěn),年均發(fā)文量約700篇。
圖1 2010—2019年的眾包文獻(xiàn)發(fā)文量Fig.1 Literatures published about crowdsourcing in 2010 to2019
使用Citespace軟件分析獲得了近10年來眾包研究的關(guān)鍵詞共現(xiàn)圖譜(如圖2所示)、高中心性關(guān)鍵詞統(tǒng)計(jì)表(如表1所示)和高中心性關(guān)鍵詞圖譜(如圖3所示)。
圖2 關(guān)鍵詞共現(xiàn)圖譜Fig.2 Keywords co-occurrence map
圖3 高中心性關(guān)鍵詞圖譜Fig.3 Map of keywordswith high centrality
表1 高中心性關(guān)鍵詞Tab.1 Keywords with high centrality
由高中心性關(guān)鍵詞的分布與連線特征可知,眾包的影響因素和激勵(lì)機(jī)制、眾包任務(wù)的分配、工作者的信譽(yù)評(píng)估、眾包任務(wù)的質(zhì)量控制策略等是近10年來我國關(guān)于眾包的研究熱點(diǎn)。其中,眾包任務(wù)質(zhì)量控制一直是研究難點(diǎn),它涉及眾包平臺(tái)、雇主和工作者等三方合作,為獲得滿意的結(jié)果,需要篩選高質(zhì)量的候選工作者和應(yīng)用高效的任務(wù)分配方法,而任務(wù)和多樣性與工作者能力的動(dòng)態(tài)性和不確定性特征,增加了眾包任務(wù)質(zhì)量控制研究的難度[11]。首先,眾包過程的某些影響因素(例如平臺(tái)上工作者的工作環(huán)境、狀態(tài)以及態(tài)度等)難以量化。其次,任務(wù)分配方法的設(shè)計(jì)涉及行為學(xué)、心理學(xué)和統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域知識(shí)[12]。此外,任務(wù)類型多樣,現(xiàn)有的分配算法模型難以統(tǒng)一處理,即單個(gè)算法模型缺乏普適性。
近年來,時(shí)空眾包、空間眾包等新型的眾包應(yīng)用不斷出現(xiàn)。不同于傳統(tǒng)眾包,時(shí)空眾包有更強(qiáng)的實(shí)時(shí)性、空間性以及移動(dòng)性等,因此不能用已有的離線算法來求解。童詠昕等[10]對(duì)時(shí)空眾包的數(shù)據(jù)庫管理、任務(wù)分配、質(zhì)量控制等方面研究進(jìn)行了綜述;張志強(qiáng)等[13]提出了階段式動(dòng)態(tài)眾包質(zhì)量控制策略,以此來保證眾包任務(wù)的高質(zhì)量完成。
通過梳理現(xiàn)有文獻(xiàn)可知,工作者能力的準(zhǔn)確、全面評(píng)估對(duì)于眾包任務(wù)分配優(yōu)化方法具有重要意義[14]。不同的候選工作者對(duì)于不同的眾包任務(wù)具有不同的勝任能力,它直接影響了眾包任務(wù)的最終完成質(zhì)量。對(duì)于眾包平臺(tái)而言,如何結(jié)合歷史數(shù)據(jù)和注冊信息等準(zhǔn)確評(píng)估候選工作者的綜合能力,在考慮時(shí)空、成本等諸多因素基礎(chǔ)上,為多個(gè)相關(guān)的眾包任務(wù)分配合適的眾包工人集,以獲取整體的最優(yōu)任務(wù)完成滿意度和眾包平臺(tái)的利益最大化,是一個(gè)NP難問題[14]。
針對(duì)現(xiàn)有研究面臨的困難及挑戰(zhàn),本文在總結(jié)工作者能力評(píng)估研究的基礎(chǔ)上,從基于匹配、基于規(guī)劃和基于角色協(xié)同等3個(gè)方面對(duì)眾包任務(wù)分配方法的現(xiàn)有研究成果進(jìn)行綜述,以期為后續(xù)的深入研究提供有價(jià)值的參考和啟發(fā)。
2006年,Jeff Howe在《聯(lián)線》雜志上第一次提出了“眾包”的概念,即一家企業(yè)將以往由工人完成的工作任務(wù),現(xiàn)以自由自愿的方式外包給非特定的公眾網(wǎng)絡(luò)的做法[15]。隨著眾包應(yīng)用的發(fā)展,眾包定義在形式上發(fā)生了變化,Estellés-Arolas等[16]總結(jié)了2006年到2011年的28篇文章的36個(gè)定義,比較全面地從不同方面描述了眾包,歸納提煉出眾包的基本六要素,包括雇主、眾包平臺(tái)、工作者、任務(wù)、獎(jiǎng)勵(lì)機(jī)制以及解決方案。2016年Kietzmann等[17]將眾包的定義擴(kuò)展為“通過互聯(lián)網(wǎng),以公開呼叫的形式將任何組織職能外包給網(wǎng)絡(luò)上的工作者(包括人類和非人類參與者)”。
目前,眾包在技術(shù)、形式和社會(huì)職能上發(fā)生了很大變化,它們包括:1)眾包不僅是一個(gè)“未定義的人員網(wǎng)絡(luò)”,并且聚集了具有一定能力技能的人員;2)眾包不再是單單屬于組織外部的努力,現(xiàn)在更多地與企業(yè)內(nèi)部的員工一起合作;3)眾包不再局限于人群,很多項(xiàng)目以人群和機(jī)器之間的合作來完成某項(xiàng)特殊任務(wù);4)可通過應(yīng)用程序編程接口訪問眾包。
眾包任務(wù)的完成需要雇主、眾包平臺(tái)和工作者三者之間的良好協(xié)作。典型的眾包模式如圖4[18]所示。
圖4 典型的眾包模式Fig.4 Classic crowdsourcingmodel
綜上,眾包的主要特征可被歸納為:采用公開呼叫的方式召集互聯(lián)網(wǎng)大眾[19];眾包任務(wù)通常是機(jī)器難以單獨(dú)解決的問題[18];大眾通過獨(dú)立或協(xié)作完成眾包任務(wù);眾包是一種分布式的問題解決機(jī)制[20]。
依據(jù)眾包平臺(tái)的實(shí)際應(yīng)用,本文從大眾參與的形式和眾包獎(jiǎng)勵(lì)機(jī)制兩個(gè)層面對(duì)眾包平臺(tái)分類。根據(jù)大眾參與的形式可將眾包分為競爭式和協(xié)作式2種方式;根據(jù)獎(jiǎng)勵(lì)機(jī)制不同可將眾包分為積分型、懸賞型、知識(shí)能力產(chǎn)品出售型等3種方式。每種類型的主要特征及案例參見表2所示。同時(shí),從眾包任務(wù)的類型差異性角度分析,按任務(wù)的復(fù)雜性、難度和粒度等不同標(biāo)準(zhǔn),可以將眾包任務(wù)劃分為簡單任務(wù)、復(fù)雜任務(wù)、微觀 任 務(wù)、宏 觀 任 務(wù) 等[11]。例 如Mechanical Turk、Google Answers、豬八戒網(wǎng)和任務(wù)中國等眾包平臺(tái),承接的任務(wù)大部分為微觀任務(wù)、宏觀任務(wù)和簡單任務(wù),比如對(duì)大量圖片歸類、Logo設(shè)計(jì)、名片設(shè)計(jì)及地理位置標(biāo)注等常規(guī)懸賞型任務(wù),工作者接單并完成后獲得相應(yīng)的報(bào)酬。
表2 眾包平臺(tái)分類Tab.2 Classification of crowdsourcing platforms
對(duì)于需要協(xié)同開發(fā)或者需要很強(qiáng)的專業(yè)性知識(shí)的復(fù)雜任務(wù),如軟件眾包,多依靠開源的平臺(tái)來完成任務(wù),是比較快捷高效的方式[21-22],比如GitHub、Coding等開源社區(qū)。另外,與眾包相似的兩個(gè)概念是眾籌(Crowdfunding)和眾創(chuàng),其中,眾籌強(qiáng)調(diào)的是資金的募集,與眾包有本質(zhì)上的區(qū)別。三者主要區(qū)別和對(duì)應(yīng)的案例如表3所示。
表3 眾包、眾籌與眾創(chuàng)的區(qū)別Tab.3 Differencesbetween crowdsourcing,crowdfundingand crowdcreation
隨著應(yīng)用場景的復(fù)雜性和多樣性,許多眾包任務(wù)開始對(duì)完成的時(shí)間、地點(diǎn)以及工作者響應(yīng)時(shí)間等有更明確的要求,即出現(xiàn)了從傳統(tǒng)的基于Web的應(yīng)用模式轉(zhuǎn)向具有時(shí)空屬性的眾包應(yīng)用模式。例如滴滴出行、餓了么、美團(tuán)眾包、Uber以及Gigwalk等典型的O2O應(yīng)用。
根據(jù)任務(wù)是否存在時(shí)空約束這一條件,可將眾包分為兩大類:傳統(tǒng)眾包和時(shí)空眾包。兩者不僅在眾包任務(wù)類型和參與者上有差異,而且在眾包平臺(tái)的服務(wù)模式上也有很大區(qū)別。時(shí)空眾包強(qiáng)調(diào)實(shí)時(shí)性和空間性等,是線上和線下的資源的密切配合。由于任務(wù)特點(diǎn)有本質(zhì)上的不同,并影響到任務(wù)分配、質(zhì)量評(píng)估以及平臺(tái)數(shù)據(jù)管理[10]等方面,時(shí)空眾包已不能用已有的離線算法來解決相關(guān)問題,需進(jìn)行專門研究。兩類眾包在服務(wù)范圍和涵蓋的任務(wù)類型上的區(qū)別如表4所示,其中√表示支持該類型的任務(wù),—表示該項(xiàng)未發(fā)現(xiàn)。
表4 傳統(tǒng)眾包和時(shí)空眾包的比較Tab.4 Comparison between traditional crowdsourcingand spatiotemporal crowdsourcing
按照復(fù)雜性、難度和粒度等不同標(biāo)準(zhǔn),眾包任務(wù)可分為四種類型:1)簡單任務(wù)。傳統(tǒng)眾包和空間眾包中多以簡單任務(wù)為主,通常任務(wù)可單獨(dú)完成,比如,名片設(shè)計(jì)、口號(hào)標(biāo)語創(chuàng)作、文章翻譯、交通堵塞監(jiān)控、自然災(zāi)害數(shù)據(jù)采集等的興起等。2)復(fù)雜任務(wù)。主要涉及一些專業(yè)性、創(chuàng)新性比較強(qiáng)、任務(wù)流程比較復(fù)雜繁瑣并耗時(shí)較長的任務(wù)類型,單獨(dú)無法完成的任務(wù)有時(shí)需要團(tuán)隊(duì)間的協(xié)作才能更好地保證任務(wù)完成的質(zhì)量。例如,劇本的撰寫、網(wǎng)站的開發(fā)、算法的設(shè)計(jì)以及卡通人物的設(shè)計(jì)等均屬于復(fù)雜任務(wù)。其中,軟件眾包因其任務(wù)特點(diǎn)及眾包應(yīng)用在軟件開發(fā)上的優(yōu)勢,目前已成為學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的重點(diǎn)。3)微觀任務(wù)。任務(wù)的粒度較小,內(nèi)容通常較具體和客觀,任務(wù)的難度不限。可以是不需要任何專業(yè)知識(shí)背景的圖片標(biāo)注任務(wù)、特定數(shù)據(jù)采集服務(wù)、地理位置的標(biāo)注以及其他類型簡單又具體的任務(wù),也有操作繁瑣需要專業(yè)知識(shí)的復(fù)雜任務(wù),比如獲取某區(qū)域的重金屬污染指標(biāo)數(shù)據(jù)、某區(qū)域的居民生活水平調(diào)查數(shù)據(jù)以及某農(nóng)村留守兒童的數(shù)量比例等。4)宏觀任務(wù)。任務(wù)的粒度相對(duì)較大,任務(wù)類型包含較多主觀因素,相對(duì)來說任務(wù)難度比較低,比如360問答、知乎以及微博社區(qū)等發(fā)布的任務(wù)。工作者完成此類任務(wù),多數(shù)不以盈利為目的,通過賺取積分、獲取點(diǎn)贊以及瀏覽量等方式來獲取關(guān)注等。
眾包工作流程如圖5所示。雇主、工作者、待解決的任務(wù)、獎(jiǎng)勵(lì)機(jī)制、眾包平臺(tái)以及解決方案是基本的六要素。其中,工作者、眾包平臺(tái)與雇主三者是眾包過程的核心。眾包平臺(tái)承載任務(wù)及其用戶,任務(wù)通過眾包平臺(tái)將工作者與雇主建立供需關(guān)系,完善的獎(jiǎng)勵(lì)機(jī)制可使整個(gè)眾包流程成為一個(gè)可持續(xù)的生產(chǎn)過程,良好的問題反饋機(jī)制將最大限度地保證任務(wù)的完成質(zhì)量。對(duì)于有時(shí)空約束的時(shí)空眾包任務(wù),雇主和工作者都要提交自己當(dāng)前的時(shí)空信息,通過眾包平臺(tái)對(duì)時(shí)空屬性信息預(yù)處理,推薦或者分配合適的工作者。另外,對(duì)時(shí)空特性無嚴(yán)格要求的傳統(tǒng)眾包任務(wù),時(shí)空屬性可不作為一項(xiàng)重要的指標(biāo)參與到眾包的工作流程當(dāng)中,如圖5虛線框所示。
圖5 眾包工作流程Fig.5 Crowdsourcing workflow
目前,成熟的眾包平臺(tái),如Mechanical Turk、CrowdFlower、豬八戒網(wǎng)、任務(wù)中國以及滴滴打車、美團(tuán)眾包等,都有良好的線上交流、問題反饋以及評(píng)分機(jī)制,可為保障任務(wù)完成質(zhì)量提供支持。但是,通過調(diào)研也發(fā)現(xiàn),基于Web的傳統(tǒng)眾包平臺(tái)在任務(wù)推薦、任務(wù)檢索等方面仍有很大的提升空間。
眾包平臺(tái)存在虛擬性和時(shí)空不對(duì)稱性,工作者能力評(píng)估機(jī)制應(yīng)支持篩除低質(zhì)量工作者,避免虛假交易和欺詐行為。準(zhǔn)確評(píng)估工作者的能力是進(jìn)行完成質(zhì)量保障下的任務(wù)分配的前提條件。
為全面客觀評(píng)價(jià)工作者的綜合能力,可建立m層n個(gè)指標(biāo)的指標(biāo)集(一般m≤3,n≤9)。指標(biāo)集的目標(biāo)層是工作者能力綜合評(píng)估指標(biāo)。指標(biāo)集的決策層可包括四個(gè)方面的指標(biāo):1)基本指標(biāo)。例如注冊時(shí)間、年齡與文化程度、熟悉的專業(yè)領(lǐng)域三個(gè)方面。不同年齡和受教育程度的工作者的經(jīng)濟(jì)、生活、心理、道德水平和信用狀態(tài)都可能存在一定差別。2)活躍程度指標(biāo)。例如工作者登錄并使用平臺(tái)的頻率、在線工作時(shí)長、實(shí)際參與任務(wù)比率、實(shí)際中標(biāo)任務(wù)比率等。這些指標(biāo)體現(xiàn)了一個(gè)工作者的活躍程度。3)任務(wù)完成質(zhì)量指標(biāo)。包括按時(shí)完成任務(wù)比率、超時(shí)任務(wù)比率、已完成任務(wù)的好評(píng)率和差評(píng)率及被投訴率等方面。其中,超時(shí)任務(wù)比率是工作者超時(shí)完成的任務(wù)數(shù)量占工作者投標(biāo)的任務(wù)總數(shù)量。4)其他指標(biāo)。指能更全面評(píng)估工作者能力的指標(biāo)集,可根據(jù)實(shí)際情況擴(kuò)充。
確定指標(biāo)權(quán)重的方法可分為主觀賦權(quán)、客觀賦權(quán)及主客觀賦權(quán)三種類型。層次分析法(Analytic Hierarchy Process,AHP)、模糊層次分析法(Fuzzy AHP,F(xiàn)AHP)、德菲爾法(Delphi Technique)等屬于主觀賦權(quán)類型。主成分分析(Principal Component Analysis,PCA)法、相關(guān)系數(shù)法、熵值法和坎蒂雷賦權(quán)法等屬于客觀賦權(quán)類型。將主觀賦權(quán)法與客觀賦權(quán)法相結(jié)合,可使評(píng)價(jià)結(jié)果更加精確和客觀,但其數(shù)學(xué)推導(dǎo)比較繁瑣,應(yīng)用和實(shí)際操作缺乏靈活性。常用的權(quán)重計(jì)算方法的對(duì)比如表5所示。
表5 權(quán)重計(jì)算方法的比較Tab.5 Comparison of weight calculation methods
使用單一方法往往會(huì)出現(xiàn)權(quán)重的偏倚,因此融合方法的研究日趨豐富。例如,德菲爾法和AHP與PCA法相結(jié)合、德菲爾法和FAHP與因子分析法相結(jié)合、德菲爾法和AHP與熵值法相結(jié)合、德菲爾法和FAHP與熵值法相結(jié)合等。相比單一方法,融合方法可使評(píng)估對(duì)象的權(quán)重設(shè)定更客觀。
對(duì)工作者能力的評(píng)估模型可分為兩類:一是可識(shí)別但不規(guī)避低質(zhì)量工作者的模型;二是可識(shí)別且可規(guī)避低質(zhì)量工作者的模型。后者較為復(fù)雜,但可減少由低質(zhì)量工作者在承接任務(wù)時(shí)帶來的損失。
3.3.1 可識(shí)別但不規(guī)避低質(zhì)量工作者的評(píng)估模型
工作者平均信譽(yù)模型[23]在實(shí)際的眾包系統(tǒng)中使用比較廣泛,該模型是將工作者所有的歷史任務(wù)完成質(zhì)量累加后取平均值作為該工作者的信譽(yù)值,并根據(jù)此信譽(yù)值優(yōu)先選擇合適的工作者。但是,該模型忽視了近期任務(wù)的完成情況相對(duì)于早期任務(wù)更能反映工作者當(dāng)前實(shí)際信譽(yù)值。嚴(yán)俊等[24]改進(jìn)了平均信譽(yù)模型,從工作者活躍度和歷史信譽(yù)值的角度提出活躍因子和歷史因子的概念,用于衡量工作者的綜合能力值,以提高任務(wù)的完成質(zhì)量和完成效率,但缺乏考慮任務(wù)復(fù)雜度和工作者選擇機(jī)制。
借鑒C2C信譽(yù)評(píng)價(jià)模型,如易趣網(wǎng)、淘寶網(wǎng)的信用評(píng)價(jià)體系,用戶的信用值的計(jì)算是將用戶得到的所有信用反饋評(píng)分進(jìn)行累加,即信用累加模型。文獻(xiàn)[25-26]在此研究基礎(chǔ)上,引入了服務(wù)加權(quán)計(jì)分、交易金額、交易時(shí)間、失敗懲罰因子等因素,引入交易金額能夠有效地解決“較小交易獲取信任行大騙”的問題;增加的懲罰因子,能有效應(yīng)對(duì)“小額信用累積”的問題等。改進(jìn)后的信用評(píng)價(jià)體系雖不能直接規(guī)避欺詐或者低質(zhì)量的工作者參與交易,但工作者的信用值不會(huì)因再次誠信交易而快速恢復(fù),可間接保障任務(wù)的完成質(zhì)量,但不足是,影響因子的合理取值需通過大量實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證。
在軟件協(xié)同開發(fā)方面,謝新強(qiáng)等[22]通過對(duì)開發(fā)者的靜態(tài)和動(dòng)態(tài)、顯式和隱式特征,定性定量相結(jié)合的方式,給出了開發(fā)者能力模型的模糊綜合評(píng)價(jià)方法。但是,該方法未考慮工作者能力的動(dòng)態(tài)更新。由此,余敦輝等[27]提出一種軟件眾包工人能力動(dòng)態(tài)度量算法,將影響工作者開發(fā)能力的諸多因素考慮在內(nèi),包括工人的靜態(tài)技能屬性、已完成任務(wù)的類型、任務(wù)復(fù)雜度、任務(wù)質(zhì)量、任務(wù)開發(fā)實(shí)效、任務(wù)技能覆蓋率以及時(shí)間因子等,并結(jié)合歷史任務(wù)的完成時(shí)間順序,實(shí)現(xiàn)工人能力的動(dòng)態(tài)更新。
在開源軟件核心開發(fā)者的評(píng)估方面,工作者一般通過分享經(jīng)驗(yàn)、代碼調(diào)試、提交更新補(bǔ)丁程序等途徑作出貢獻(xiàn),項(xiàng)目貢獻(xiàn)度通常被視為工作者開發(fā)地位的重要指標(biāo),來識(shí)別核心開發(fā)者和外圍開發(fā)者。此外,現(xiàn)有研究也提出,可從社交網(wǎng)絡(luò)挖掘項(xiàng)目的貢獻(xiàn)度信息。現(xiàn)有文獻(xiàn)多用統(tǒng)計(jì)計(jì)數(shù)的方法[28-29],以統(tǒng)計(jì)量為指標(biāo)并通過設(shè)立閾值來判別開發(fā)者的地位,但這些方法忽略了對(duì)項(xiàng)目文件自身特性的分析。另外,吳哲夫等[30]從開發(fā)者對(duì)可信技術(shù)文件的貢獻(xiàn)出發(fā),以9個(gè)Apache項(xiàng)目為基礎(chǔ),結(jié)合傳統(tǒng)的評(píng)價(jià)指標(biāo)建立變量,訓(xùn)練支持向量機(jī)模型,以提高核心開發(fā)者的識(shí)別精度,為開源社區(qū)人員的晉升提供有效的依據(jù),但是,該文獻(xiàn)定義的評(píng)價(jià)體系較為單一,難以綜合分析開發(fā)者的貢獻(xiàn)度。
3.3.2 可識(shí)別且可規(guī)避低質(zhì)量工作者的評(píng)估模型
眾包工人能力度量是進(jìn)行任務(wù)合理分配的一個(gè)關(guān)鍵因素,同時(shí)也直接關(guān)系到任務(wù)的完成質(zhì)量,識(shí)別并規(guī)避低質(zhì)量的工作者是一項(xiàng)研究重點(diǎn)也是難點(diǎn)。文獻(xiàn)[31-33]在識(shí)別惡意工作者行為特征方面做了深入研究,指出惡意工作者很少參與抽象的任務(wù)或具有創(chuàng)新性要求的任務(wù),可通過對(duì)工作者的精確評(píng)估來有效地降低惡意工作者以及低能力工作者的參與,通常采用以下4種評(píng)估方法策略:
1)基于黃金標(biāo)準(zhǔn)數(shù)據(jù)的策略。
該策略中,先由雇主設(shè)計(jì)一些具有標(biāo)準(zhǔn)答案的問題同任務(wù)一起發(fā)布,并使工作者做任務(wù)的同時(shí)回答這些問題,通過回答的結(jié)果對(duì)工作者進(jìn)行評(píng)估,檢測工作者對(duì)任務(wù)的了解程度,直接評(píng)估工作者是否有能力承接此項(xiàng)任務(wù)。針對(duì)簡單客觀的有標(biāo)準(zhǔn)答案的問題,使用該策略識(shí)別工作者的能力是很好的辦法。然而,眾包平臺(tái)上的任務(wù)大多為復(fù)雜任務(wù)和一些主觀性強(qiáng)的宏觀任務(wù),缺乏具體的標(biāo)準(zhǔn)答案[13,34-35];并且,該策略未充分考慮工作者的歷史表現(xiàn)和歷史信譽(yù)。針對(duì)現(xiàn)有不足,Gao等[36]考慮了問題的價(jià)值、工作者歷史表現(xiàn)、當(dāng)前測試結(jié)果、測試任務(wù)的規(guī)模、精度與成本的關(guān)系以及獲得錯(cuò)誤答案的風(fēng)險(xiǎn)等,把工作者過去的歷史表現(xiàn)作為精度的先驗(yàn)分布,通過黃金標(biāo)準(zhǔn)數(shù)據(jù)中工作者的表現(xiàn)作為后驗(yàn)分布,這種方法能較為準(zhǔn)確地估計(jì)工作者的綜合能力,保證輸出的答案質(zhì)量,具有較高的可靠性。
2)基于熵的眾包質(zhì)量評(píng)估策略。
最大期望(Expectation Maximization,EM)算法是比較經(jīng)典的眾包質(zhì)量評(píng)估算法,但它不能直觀表示工作者完成任務(wù)的情況[37]。Dawid等[38]提出的EM算法,能得出工作者的“誤差矩陣”,進(jìn)而求得對(duì)應(yīng)工作者的誤差率,誤差率可作為工作者的衡量標(biāo)準(zhǔn)。此外,Raykar等[39]提出了一種基于熵的眾包質(zhì)量評(píng)估算法,此算法很直觀地以區(qū)間值的形式將工作者完成任務(wù)的情況展現(xiàn)出來,好的工作者得分接近1,差的工作者得分接近于0。
3)階段式動(dòng)態(tài)眾包質(zhì)量控制策略。
該策略涉及質(zhì)量評(píng)估算法、替換規(guī)則、監(jiān)測點(diǎn)設(shè)置等方面?,F(xiàn)有文獻(xiàn)對(duì)隨意類型和統(tǒng)一類型[12-13]的欺詐工作者進(jìn)行了模型化表述,張志強(qiáng)等[13]通過EM算法計(jì)算出工作者的誤差率作為能力評(píng)估的指標(biāo),選取可靠工作者,并通過隨機(jī)簡單選取可靠工作者原則進(jìn)行工作者的替換。潘慶先等[12]基于廣義Pareto分布的權(quán)重設(shè)置算法設(shè)計(jì)出了眾包工人權(quán)重設(shè)置框架,可有效規(guī)避工作者統(tǒng)一型的欺騙性為,但針對(duì)不同任務(wù)框架缺乏一定的通用性。此外,替換規(guī)則以及監(jiān)測點(diǎn)的加入是否合理等問題需要重視,它們將會(huì)影響整個(gè)任務(wù)的完成進(jìn)度,同時(shí)有可能會(huì)陷入一種惡性的循環(huán)替換中。
4)基于投票的質(zhì)量控制策略。
此控制策略采用簡單多數(shù)投票規(guī)則[40],即多個(gè)工作者參與一個(gè)任務(wù)的情況下,基于投票規(guī)則,以多數(shù)工作者認(rèn)可的方案作為任務(wù)的最終方案,這在一定程度上可規(guī)避低質(zhì)量或者惡意工作者參與從而導(dǎo)致整體結(jié)果質(zhì)量下降的問題。該方法已被Mechanical Turk、CrowdFlower等平臺(tái)采用。該策略的缺陷在于未考慮投票者之間的能力認(rèn)知差異。針對(duì)現(xiàn)有不足,Hirth等[41]提出了一種控制組質(zhì)量確保技術(shù),將任務(wù)分配給多個(gè)工作者,選取工作者或指定專家對(duì)反饋的方案進(jìn)行“投票”,選出最優(yōu)結(jié)果,如果符合雇主的要求就采用此方案,不符合就重新發(fā)包?!翱刂平M質(zhì)量確保技術(shù)”與“基于投票一次性策略”都是提高眾包結(jié)果質(zhì)量的有效手段,但是未考慮工作者能力的動(dòng)態(tài)變化情況。Quinn等[42]提出了一種冗余質(zhì)量確保技術(shù),它將任務(wù)分發(fā)給不同的工作者,再將結(jié)果聚合成最優(yōu)結(jié)果,聚合的過程包含了對(duì)低質(zhì)量答案的篩選過程,但其缺點(diǎn)是增加了任務(wù)量以及聚合過程的開支。
綜上,本文對(duì)工作者能力評(píng)估模型及算法進(jìn)行了綜合比較,如表6所示。
表6 工作者能力評(píng)估模型及算法比較Tab.6 Comparison of worker ability evaluation models and algorithms
通過識(shí)別惡意工作者或者低質(zhì)量工作者,并不能從根源上徹底規(guī)避它們參與眾包任務(wù),但可通過設(shè)置篩選機(jī)制和評(píng)估機(jī)制降低其出現(xiàn)概率。例如,在任務(wù)分配前對(duì)工作者能力進(jìn)行評(píng)估[43]、擴(kuò)大評(píng)估指標(biāo)維度、提高評(píng)估精度等來降低其對(duì)任務(wù)完成質(zhì)量帶來的影響。
眾包平臺(tái)根據(jù)任務(wù)和工作者各自的特性為眾包任務(wù)選擇合適工作者。實(shí)際的眾包應(yīng)用中,因雇主不可能了解所有工作者的真實(shí)技能、可信度以及協(xié)作能力,通常眾包平臺(tái)隨機(jī)將任務(wù)分配給工作者。針對(duì)特定類型的任務(wù),通過冗余、重復(fù)的分配方式來盡可能地保證眾包結(jié)果的質(zhì)量,其結(jié)果往往是任務(wù)完成的時(shí)間成本、資金成本以及任務(wù)結(jié)果精度達(dá)不到預(yù)期目標(biāo)。為提升任務(wù)的完成質(zhì)量,合理有效的任務(wù)分配機(jī)制一直是眾包任務(wù)質(zhì)量保證關(guān)注的研究重點(diǎn)。
傳統(tǒng)的任務(wù)分配多在公司內(nèi)部或者任務(wù)與工作者類型已知的情況下進(jìn)行,而眾包模式下的分配方式多為在線或離線狀態(tài)下完成,且工作時(shí)間及工作者類型等方面也有很大差異。因此,傳統(tǒng)模式下的任務(wù)分配算法并不能直接應(yīng)用于眾包應(yīng)用。眾包模式下在任務(wù)分配前,除了需要確定工作者的綜合能力外,還需確定眾包任務(wù)與工作者的相關(guān)特征。
首選,確定任務(wù)的類型,即靜態(tài)離線任務(wù)或動(dòng)態(tài)在線任務(wù)。眾包平臺(tái)可以提前獲取靜態(tài)離線任務(wù)和工作者的各項(xiàng)指標(biāo)信息。而對(duì)于動(dòng)態(tài)在線任務(wù),任務(wù)和上線的工作者是隨機(jī)出現(xiàn)的,因此,任務(wù)分配方法有很大區(qū)別。即分配方法上是隨機(jī)分配還是基于Top-k擇優(yōu)分配策略。
其次,確定任務(wù)所需工作者的數(shù)量。通過梳理文獻(xiàn),二者對(duì)應(yīng)關(guān)系有一對(duì)一、一對(duì)多、多對(duì)多(包含協(xié)同關(guān)系)等3種類型。目前的分配算法多為“一對(duì)一”的研究,這些算法的復(fù)雜度較低,但針對(duì)“多對(duì)多”的類型,因考慮的因素、指標(biāo)、涉及人員較多等不確定因素,給研究人員提出了很大的挑戰(zhàn),可視為NP難問題。
最后,確定任務(wù)的選擇權(quán),包括工作者主動(dòng)選擇任務(wù)、工作者被動(dòng)承接任務(wù)以及工作者與任務(wù)之間的雙向選擇等3種選項(xiàng)。針對(duì)傳統(tǒng)眾包任務(wù)的完成過程,目前多為工作者主動(dòng)承接任務(wù)并提交方案,由雇主對(duì)方案進(jìn)行審核的方式。比如Mechanical Turk、任務(wù)中國等的圖片標(biāo)記、地點(diǎn)標(biāo)注等簡單任務(wù)。工作者被動(dòng)選擇和雙向選擇多出現(xiàn)在特定的眾包任務(wù)中。例如,時(shí)空眾包類型的神州專車平臺(tái)主動(dòng)給工作者分派任務(wù),即被動(dòng)承接任務(wù);傳統(tǒng)眾包的一些競標(biāo)項(xiàng)目,如軟件眾包、軟件測試、網(wǎng)站開發(fā)等是雙向選擇的過程。眾包模式與傳統(tǒng)模式下任務(wù)分配方法的比較如表7所示。
表7 任務(wù)分配方法的比較Tab.7 Comparison of task assignment methods
綜上,不同特征的自由組合即可產(chǎn)生不同類型的任務(wù),且每種類型的任務(wù)涉及的分析方法有本質(zhì)上的區(qū)別。因此,在很大程度上影響了眾包平臺(tái)的應(yīng)用類型、服務(wù)策略、任務(wù)分配方法以及質(zhì)量控制方式等方面。簡單來講,任務(wù)類型與相關(guān)算法之間有一一對(duì)應(yīng)的匹配關(guān)系,即算法的特定適用性。
目前針對(duì)眾包任務(wù)分配的問題,有不同方面的研究成果,本文將現(xiàn)有成果歸納為三類,即基于匹配的任務(wù)分配模型、基于規(guī)劃的任務(wù)分配模型、基于角色協(xié)同的任務(wù)分配方法。
為實(shí)現(xiàn)任務(wù)的合理分配,眾包平臺(tái)需分析雇主發(fā)布的任務(wù)類型,結(jié)合承接此類任務(wù)的歷史工作者的綜合指標(biāo),建立有效的雇主-工作者之間的匹配關(guān)系,基本思想是通過二分圖匹配模型[44]實(shí)現(xiàn)任務(wù)的分配。根據(jù)任務(wù)與工作者在時(shí)間、空間以及狀態(tài)等特征,可將任務(wù)匹配方式分為靜態(tài)離線任務(wù)匹配和動(dòng)態(tài)在線任務(wù)匹配。前者相關(guān)算法常用在傳統(tǒng)任務(wù)類型的眾包平臺(tái)中,如Mechanical Turk、豬八戒網(wǎng)、任務(wù)中國等傳統(tǒng)平臺(tái);而后者的相關(guān)算法多用在有空間屬性要求的眾包應(yīng)用中,如滴滴打車、美團(tuán)眾包、百度外賣等空間眾包平臺(tái)。
4.2.1 靜態(tài)/離線匹配模型
離線匹配問題是一個(gè)組合優(yōu)化問題,要求待匹配對(duì)象的所有信息均已知,基于已有信息實(shí)現(xiàn)最優(yōu)匹配。經(jīng)典的匹配問題為離線二分匹配問題。離線場景下傳統(tǒng)眾包平臺(tái)的任務(wù)分配現(xiàn)在大多采用靜態(tài)的任務(wù)匹配方式。當(dāng)多個(gè)工作者同時(shí)競標(biāo)同一項(xiàng)任務(wù)時(shí),先由平臺(tái)建立任務(wù)模型和工作者模型,由雇主針對(duì)工作者的特性及其信譽(yù)進(jìn)行選擇性的任務(wù)分配。這種分配算法的缺點(diǎn)是存在雇主的主觀意識(shí),未對(duì)工作者提交的任務(wù)質(zhì)量、任務(wù)數(shù)量及是否超時(shí)等方面進(jìn)行綜合評(píng)價(jià),分配效率低且誤差較大。
針對(duì)這些問題,研究人員提出了原始近似算法[45],每個(gè)工人執(zhí)行各種任務(wù)類型的黃金實(shí)例,計(jì)算結(jié)果并估計(jì)技能等級(jí),形成一套評(píng)價(jià)標(biāo)準(zhǔn)體系,分配任務(wù)時(shí)向雇主提供客觀綜合的參考標(biāo)準(zhǔn)。另外,針對(duì)基于用戶主題的精確感知的任務(wù)分配方面,文獻(xiàn)[46-47]利用邏輯回歸對(duì)用戶的各個(gè)屬性進(jìn)行訓(xùn)練得到相應(yīng)的權(quán)重,并針對(duì)不同的任務(wù),對(duì)工作者進(jìn)行預(yù)測分類,設(shè)置閾值,得到候選工作者序列。從實(shí)施結(jié)果來講,能實(shí)現(xiàn)任務(wù)的大概率精準(zhǔn)匹配,但對(duì)工作者的協(xié)作能力、任務(wù)完成進(jìn)度及任務(wù)完成時(shí)效性等問題尚需進(jìn)一步研究。
4.2.2 動(dòng)態(tài)/在線匹配模型
在實(shí)時(shí)性要求較高的空間眾包應(yīng)用中,比如滴滴打車、美團(tuán)外賣、神州專車等動(dòng)態(tài)在線眾包應(yīng)用,任務(wù)分配多采用動(dòng)態(tài)在線匹配的方法為雇主尋找工作者[48]。實(shí)際應(yīng)用中的“動(dòng)態(tài)”具體體現(xiàn)在兩方面:單一對(duì)象(即工作者或眾包任務(wù))的動(dòng)態(tài)隨機(jī)出現(xiàn);工作者和眾包任務(wù)兩類對(duì)象的動(dòng)態(tài)隨機(jī)出現(xiàn)?,F(xiàn)有研究多聚焦在前者,而后者的研究文獻(xiàn)較少。
1)單一對(duì)象的動(dòng)態(tài)出現(xiàn)問題研究。
針對(duì)現(xiàn)有離線分配方法在時(shí)空眾包任務(wù)分配中的不適用性等情況,Tong等[49]指出了靜態(tài)離線算法不適用于全局在線微任務(wù)分配問題,并針對(duì)該問題把加權(quán)二分匹配算法[48]進(jìn)行擴(kuò)展,提出了一種競爭比為1/4的兩階段全局在線分配算法。此算法適用于單一對(duì)象出現(xiàn)的情況。Boutsis等[50]提出實(shí)時(shí)約束條件下的任務(wù)分配算法,進(jìn)行一對(duì)一匹配。該算法同樣抽象為賦權(quán)二分圖匹配過程,根據(jù)任務(wù)信息估計(jì)工作者能否按時(shí)完成,但模型求解較復(fù)雜。Ting等[51]研究了在線最大加權(quán)二分匹配問題,優(yōu)化目標(biāo)為最大化匹配邊的總權(quán)值。
2)兩類對(duì)象的動(dòng)態(tài)出現(xiàn)問題研究。
為最大化平臺(tái)的收益和效率,兩類對(duì)象的動(dòng)態(tài)隨機(jī)分配問題是研究重點(diǎn)。余敦輝等[52]提出一種基于動(dòng)態(tài)效用的閾值選擇算法,通過計(jì)算任務(wù)成功率期望、任務(wù)實(shí)際完成時(shí)長和工人的單位時(shí)間效用,并動(dòng)態(tài)設(shè)置閾值,通過效用的對(duì)比來獲取最優(yōu)的匹配方案。Tong等[53]通過不同特征的真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集的4種典型在線算法的評(píng)價(jià),對(duì)時(shí)空數(shù)據(jù)問題中的最小二部匹配進(jìn)行全面研究并得出三種實(shí)驗(yàn)結(jié)論。宋天舒等[54]針對(duì)3類對(duì)象的在線任務(wù)分配問題,設(shè)計(jì)一種隨機(jī)閾值算法,并給出了該算法在最差情況下的競爭比分析。
基于規(guī)劃的任務(wù)分配方法的目標(biāo)是解決多任務(wù)全局最優(yōu)分配問題。類似于匹配模型,基于規(guī)劃的分配方法也可以分為靜態(tài)離線場景的規(guī)劃模型與動(dòng)態(tài)在線場景的規(guī)劃模型。
4.3.1 靜態(tài)/離線規(guī)劃模型
此模型跟經(jīng)典的旅行商問題[38]可歸為一類,即針對(duì)某一工作者與眾包任務(wù)集,眾包平臺(tái)如何為該工作者分配合理的任務(wù)執(zhí)行順序和方案,以最優(yōu)方式高質(zhì)量地完成多個(gè)任務(wù)的問題。Ho等[55]提出的多重任務(wù)分配算法近年來運(yùn)用較多,也可視為問題的最優(yōu)規(guī)劃模型,用來解決常規(guī)多任務(wù)分配問題與組角色多任務(wù)分配問題。但是該算法沒有考慮惡意工作者參與的情況,并且有可能低技能的工作者會(huì)分配到復(fù)雜任務(wù)而導(dǎo)致任務(wù)無法按時(shí)交期的問題。另外,蔣麗等[56]改進(jìn)蟻群算法,針對(duì)O2O外賣訂單路徑最優(yōu)規(guī)劃進(jìn)行分析,將下一步移動(dòng)的潛在客戶數(shù)量作為影響路徑選擇的影響因素。
4.3.2 動(dòng)態(tài)/在線規(guī)劃模型
在空間眾包應(yīng)用中有一類動(dòng)態(tài)規(guī)劃問題,即每當(dāng)有新任務(wù)發(fā)布時(shí),需要工作者考慮要不要將此項(xiàng)新任務(wù)加入到在執(zhí)行的任務(wù)進(jìn)程中去,通過手動(dòng)添加方式,將新任務(wù)加入到現(xiàn)有的任務(wù)進(jìn)程中去[57],這種方式全靠工作者平時(shí)的規(guī)劃經(jīng)驗(yàn),沒有一個(gè)可靠的全局規(guī)劃方案給予技術(shù)支持。
李洋等[58]提出了樹分解模型來解決工作者帶有最晚工作時(shí)間約束的任務(wù)分配問題,并設(shè)計(jì)了一種深度優(yōu)先搜索算法,來獲取最優(yōu)方案。文獻(xiàn)[59-60]將工作者任務(wù)分配問題規(guī)約為最大任務(wù)調(diào)度問題,以k最鄰算法來選擇候選工作者,利用動(dòng)態(tài)規(guī)劃和分支界定的思想,設(shè)計(jì)規(guī)劃路線使得工作者完成更多的工作,提高任務(wù)分配的性能。
綜上,基于規(guī)劃的任務(wù)分配方法,不管是具有動(dòng)態(tài)/在線還是靜態(tài)/離線屬性的眾包任務(wù),選擇最合適的眾包工人,使得全局任務(wù)分配效用最大化、工人承接數(shù)量最大化等,是當(dāng)前眾包環(huán)境下質(zhì)量控制研究的關(guān)鍵問題。
針對(duì)復(fù)雜任務(wù)的分配問題,需要考慮任務(wù)和工作者的屬性,也要考慮工作者之間以及工作者與任務(wù)之間的約束?;诮巧珔f(xié)同(Role-Based Collaboration,RBC)是一種研究角色及其之間復(fù)雜關(guān)系的方法。按照需求設(shè)定一組角色,通過滿足一定的約束條件,完成現(xiàn)實(shí)中復(fù)雜問題的任務(wù)指派,RBC現(xiàn)已獲得廣泛關(guān)注[61]。RBC問題的核心是群組角色分配(Group Role Assignment,GRA)[62],GRA中角色的沖突、約束、請(qǐng)求等關(guān)系都會(huì)造成算法的復(fù)雜性劇增,因此復(fù)雜任務(wù)的GRA問題目前并沒有很好的解決方案,屬于NP難問題。
Zhu等[61]對(duì)基于角色協(xié)同技術(shù)做了深入的研究,提出了E-CARGO模型,并將此模型用于解決有約束的問題中。此模型在處理角色協(xié)同任務(wù)分配時(shí),借助Q矩陣可較好地完成有約束的指派問題[63];并且,針對(duì)現(xiàn)實(shí)中工作者之間以及工作者與任務(wù)之間的復(fù)雜約束,使用E-CARGO中的沖突矩陣可以很好地定義復(fù)雜約束。基于E-CARGO模型,眾包任務(wù)分配問題的形式化模型可表示為:∑∷=E,C,O,R,A,G,具體組成部分的含義是:E代表問題環(huán)境,即一個(gè)涉及多個(gè)眾包工人和多個(gè)眾包任務(wù)的分配方案;C表示與E相關(guān)的、表示抽象概念的類集合;O表示與C相關(guān)的具體對(duì)象的集合;R表示當(dāng)前待分配的任務(wù)集合;A表示眾包工人候選者集合;G表示工作組,即在完成所有任務(wù)分配后所建立的眾包工人的工作團(tuán)隊(duì)。
其中,R、A和G是E-CARGO模型中的核心元素,通過模型建立各個(gè)元素之間的約束關(guān)系表達(dá)式,來求得任務(wù)的最佳分配,實(shí)現(xiàn)眾包平臺(tái)、工作者以及雇主三方利益最大化。例如:目前眾包平臺(tái)上有2項(xiàng)任務(wù)r1,r2∈R,這2項(xiàng)任務(wù)分別需要1名和2名工作者,某一時(shí)刻平臺(tái)上有3名合格的眾包工作者a1,a2,a3∈A,假設(shè)a2和a3為單一沖突元素,即不可協(xié)作,因此只能將a2和a3分派到不同的任務(wù)組中完成任務(wù),通過Q矩陣的約束以及工人能力的綜合度量,實(shí)現(xiàn)任務(wù)的最優(yōu)分配。但隨著工作者和任務(wù)數(shù)的增加,計(jì)算復(fù)雜度也將會(huì)劇增?;诮巧珔f(xié)同的工作者分配過程如圖6所示。
圖6 基于角色協(xié)同的任務(wù)分配Fig.6 Task assignment of RBC
此外,針對(duì)復(fù)雜任務(wù)、工作者的能力冷啟動(dòng)以及動(dòng)態(tài)特性等問題,周僑等[64]提出一種基于多agent的眾包任務(wù)分配算法,通過多個(gè)agent高效協(xié)作來保證任務(wù)的分配效率并彌補(bǔ)個(gè)體工作者能力的限制,可提高復(fù)雜任務(wù)的工作效率。
綜上,本節(jié)從基于匹配、基于規(guī)劃和基于角色協(xié)同三個(gè)方面綜述眾包任務(wù)分配方法的研究,它們的對(duì)比分析情況如表8所示。
表8 眾包任務(wù)分配方法對(duì)比Tab.8 Comparison of crowdsourcing task assignment methods
隨著眾包應(yīng)用的不斷擴(kuò)展和成熟,很多新算法被提出來,它們?yōu)楣椭鳌⒈姲脚_(tái)、工作者三者實(shí)現(xiàn)各自利益最大化提供保障。在確保雇主以最小成本獲得盡可能高質(zhì)量的方案的同時(shí),眾包平臺(tái)能夠擁有最優(yōu)的運(yùn)行機(jī)制、最大的平臺(tái)效益以及工作者在相同時(shí)間內(nèi)獲得更多的收入等。其中,工作者能力評(píng)估及眾包任務(wù)分配是關(guān)鍵的研究問題,也是影響眾包質(zhì)量的關(guān)鍵因素。為實(shí)現(xiàn)眾包平臺(tái)和用戶的利益最大化,一些問題仍需深入探討。
不管是傳統(tǒng)眾包還是時(shí)空眾包,眾包任務(wù)類型的多樣化決定了不同分配算法的明顯差異性。在實(shí)際應(yīng)用中,除了空間眾包平臺(tái)有較成熟的任務(wù)分配機(jī)制外,傳統(tǒng)眾包平臺(tái)多靠工作者自選模式完成任務(wù),較少由平臺(tái)自動(dòng)指派任務(wù)給工作者。針對(duì)不同任務(wù)類型特點(diǎn),當(dāng)前已提出眾多的分配算法,但如何面向不同類型建立眾包任務(wù)綜合分配算法,以支持眾包平臺(tái)覆蓋多種類型任務(wù)的分配并確保平臺(tái)整體效益的最大化,是值得繼續(xù)關(guān)注的重要問題。
眾包平臺(tái)中,優(yōu)秀的工作者之間多有技術(shù)或者項(xiàng)目之間的互動(dòng),同時(shí)雇主可能與特定工作者保持長期合作關(guān)系,當(dāng)雇主發(fā)布需要多個(gè)工作者參與的眾包任務(wù)時(shí),眾包平臺(tái)通過深度挖掘優(yōu)秀工作者的社交網(wǎng)絡(luò),有針對(duì)性地篩選高質(zhì)量的工作者,能更可靠地保障任務(wù)的完成質(zhì)量和完成效率。現(xiàn)有研究工作尚未涉及工作者之間、工作者與雇主之間社交關(guān)系的深度挖掘,這是一個(gè)值得進(jìn)一步探索的方向。
在眾包應(yīng)用中,由于用戶信息、任務(wù)細(xì)節(jié)信息均暴露在眾包平臺(tái)上,可能存在用戶的個(gè)人數(shù)據(jù)以及任務(wù)的敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn),導(dǎo)致雇主不愿將包含敏感信息的任務(wù)投放到眾包平臺(tái)上。現(xiàn)有一些涉及隱私與數(shù)據(jù)保護(hù)的方案雖能夠在一定程度上降低數(shù)據(jù)泄露的風(fēng)險(xiǎn),但在實(shí)際應(yīng)用中并不理想。
因此,平臺(tái)如何通過對(duì)用戶信息的有效加密和任務(wù)信息的去敏感化,以提供足夠的安全保障,對(duì)于推動(dòng)眾包應(yīng)用的發(fā)展具有至關(guān)重要的意義。
本文主要闡述了眾包環(huán)境下面向工作者能力評(píng)估的眾包任務(wù)分配方法的研究進(jìn)展,并對(duì)相關(guān)方法進(jìn)行了歸納總結(jié)。首先介紹了眾包的概念和分類,且對(duì)眾包的工作流程及任務(wù)特點(diǎn)進(jìn)行了詳細(xì)介紹。然后,從指標(biāo)集建立、權(quán)重確定、評(píng)估模型這三個(gè)方面對(duì)工作者能力評(píng)估的整個(gè)過程做了詳細(xì)的分析,特別對(duì)現(xiàn)有眾包任務(wù)的基于匹配的、基于規(guī)劃的和基于角色協(xié)同的三類分配方法進(jìn)行了詳細(xì)闡述。隨著眾包應(yīng)用的不斷推廣,未來在面向復(fù)雜類型的眾包任務(wù)分配、工作者社交關(guān)系的深度挖掘以及眾包平臺(tái)的信息安全保障等方面,仍需要開展進(jìn)一步的深入研究。