亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

開放模式下群智感知高質(zhì)量數(shù)據(jù)采集方法研究

2020-01-08 01:37:02陳薈慧於志文

小型微型計算機系統(tǒng) 2020年1期

陳薈慧 ,郭斌,於志文

1(佛山科學技術學院電子信息工程學院,廣東佛山 528011)2(西北工業(yè)大學計算機學院,西安 710129)

1 引言

移動群智感知將普通用戶的移動設備作為基本感知單元，通過移動互聯(lián)網(wǎng)進行有意識或無意識的協(xié)作，實現(xiàn)感知任務分發(fā)與感知數(shù)據(jù)收集，完成大規(guī)模的、復雜的社會感知任務[1].隨著智能移動設備(如智能手機、智能手表)運算能力的增強、電池容量的提高、附帶傳感器種類的豐富和數(shù)據(jù)傳輸速度的提升，群智感知應用從基于純文本的應用轉(zhuǎn)向基于聲音、圖像等的多模態(tài)應用，數(shù)據(jù)采集方式也發(fā)展為參與式感知(Participatory sensing)和機會感知(Opportunistic sensing)[2,3,16].

參與式感知由參與者根據(jù)任務要求主動打開智能手機等設備使用特定軟件采集和提交數(shù)據(jù)，這導致參與式感知的數(shù)據(jù)采集成本往往比機會式采集的成本要高.例如，媒體在突發(fā)事件現(xiàn)場發(fā)布事件數(shù)據(jù)采集任務，如果現(xiàn)場沒有參與者，則附近的參與者需要前往現(xiàn)場[17,18]，這無形間就提高了數(shù)據(jù)采集成本.

數(shù)據(jù)質(zhì)量和采集成本是所有群智感知應用在實施中必須考慮的關鍵指標[7,8]，降低感知成本以及提高數(shù)據(jù)質(zhì)量是促進群智感知在智能城市和智能交通等領域發(fā)揮作用的重要手段.為了招募參與者，數(shù)據(jù)需求方常常需要使用現(xiàn)金或物品作為回報[4-6]，因此，為了降低數(shù)據(jù)收集成本，很多參與式感知應用采取措施來降低數(shù)據(jù)采集成本，如反饋數(shù)據(jù)質(zhì)量[9]，提示參與者數(shù)據(jù)采集地點[10]，或者提示參與者數(shù)據(jù)采集方法[11]，這些方法都向參與者提供了有助于數(shù)據(jù)采集的幫助信息.

為參與者提供一些協(xié)助或者采取一些激勵技巧能夠提高數(shù)據(jù)的采集質(zhì)量.參與者一方面可能會采用投機取巧的方式完成任務獲得報酬，導致數(shù)據(jù)并不可靠，另一方面又能夠很好的理解任務意圖，采用一定的策略和方法，采集到優(yōu)質(zhì)數(shù)據(jù).以收集照片數(shù)據(jù)為例，PhotoCity[12]和Taskme[11]利用人類智慧有效降低采集成本和提高數(shù)據(jù)質(zhì)量.PhotoCity采集城市建筑的照片，為了提高數(shù)據(jù)收集的效率，它通過在地圖顯示已采集過照片的方位提示參與者在還沒有采集過數(shù)據(jù)的方位采集數(shù)據(jù)，這種方式不但可以避免參與者采集低質(zhì)量的冗余數(shù)據(jù)，還可以查漏補缺；Taskme將報酬與數(shù)據(jù)質(zhì)量關聯(lián)，采用按質(zhì)支付的激勵策略，為此，它在任務中解釋多角度覆蓋感知對象的數(shù)據(jù)質(zhì)量評價標準，這促使參與者想辦法拍攝滿足任務要求的高質(zhì)量照片.

通常情況下，參與者之間是一種隱式協(xié)作關系，也就是說參與者互相之間不認識，并且不知道其他參與者提交了哪些數(shù)據(jù)，這種采集方式稱為封閉式采集.相反，開放式數(shù)據(jù)采集模式指參與者可以看到已經(jīng)收集到的數(shù)據(jù)或數(shù)據(jù)統(tǒng)計信息，然后根據(jù)任務要求決定或者修改采集策略，達到采集高質(zhì)量數(shù)據(jù)并獲得酬勞的目的.開放式數(shù)據(jù)采集模式下，參與者可以根據(jù)已收集到的數(shù)據(jù)調(diào)整采集策略，達到采集高質(zhì)量數(shù)據(jù)并獲得酬勞的目的.PhotoCity[12]的參與者可以在電子地圖上看到建筑哪些方位的照片還未提交，因此，PhotoCity采用的是開放式采集模式.

群智感知數(shù)據(jù)收集現(xiàn)有的研究主要集中在任務分配算法[15]、激勵機制[14]和數(shù)據(jù)質(zhì)量評價方法[8,21].在數(shù)據(jù)質(zhì)量和激勵機制的研究中，針對前端數(shù)據(jù)采集階段在真實場景下的實驗性研究還比較少，為此，本文以按質(zhì)支付思想為基礎，通過真實場景實驗，針對群智感知中的不確定數(shù)據(jù)流，采用前置數(shù)據(jù)優(yōu)選的競爭機制，研究參與者在不同的報酬支付方法和數(shù)據(jù)采集方式下的表現(xiàn)，以及這些表現(xiàn)對數(shù)據(jù)采集成本、數(shù)據(jù)收集成本和數(shù)據(jù)質(zhì)量的影響.本文的第2部分介紹相關工作，第3部分介紹面向數(shù)據(jù)流的數(shù)據(jù)質(zhì)量和數(shù)據(jù)收集方法以及按質(zhì)支付的激勵機制以及數(shù)據(jù)采集方法，第4部分介紹實驗過程、評價指標和實驗結(jié)果，第5部分總結(jié)全文.

2 相關工作

常見的報酬計算方法都是按量支付(Pay-by-data).參與者作為被激勵對象，具有自私性、個體理性、不誠實性和不確定性[4]，為了提高數(shù)據(jù)采集質(zhì)量，目前有些研究已經(jīng)關注按質(zhì)支付(Pay-by-quality)[11,13].按質(zhì)支付是一種激勵參與者采集高質(zhì)量數(shù)據(jù)的一種手段，但這種支付方式要求參與者高度理解任務目標，從而采集到高質(zhì)量的數(shù)據(jù).文獻[13]針對按質(zhì)支付，提出了數(shù)據(jù)質(zhì)量評價方法并基于Shapley值計算報酬.文獻[11]提出數(shù)據(jù)質(zhì)量評價方法并采用逆向拍賣的方式計算報酬.逆向拍賣激勵機制指由參與者定價擬出售的數(shù)據(jù)，而由任務發(fā)布者決定是否購買，而按質(zhì)支付方式指參與者僅能通過提交高質(zhì)量數(shù)據(jù)獲取報酬[14].文獻[4]綜述了近些年的激勵機制，包括按質(zhì)支付、按量支付、逆向拍賣、基于游戲、基于信譽、基于報酬等國內(nèi)外的研究成果.結(jié)合已有研究成果，本文采用按量支付和逆向拍賣兩種激勵機制，以按質(zhì)支付的原則，在數(shù)據(jù)采集階段，研究提高數(shù)據(jù)質(zhì)量和降低感知成本的方法.

封閉式采集模式是比較常見的一種方式，參與者僅根據(jù)群智感知任務的要求決定采集策略.封閉模式下，參與者并沒有參考依據(jù)，僅根據(jù)經(jīng)驗和猜測制定采集策略.例如，仍以收集城市建筑物的全方位照片為例，參與者在獲知任務要求和報酬的計算方法后，會如何選擇拍照角度呢？采用按質(zhì)支付(Pay-by-quality,Utility-enhanced[21])策略后，通常來講，參與者會盡可能在未采集過數(shù)據(jù)的位置拍照，但每個參與者并不清楚其他參與者已提交的數(shù)據(jù)，因此，參與者只能依賴經(jīng)驗決定數(shù)據(jù)采集位置.文獻[11]中，我們研究了參與者在采用按質(zhì)支付和封閉采集的方式下如何制定數(shù)據(jù)采集策略.PhotoCity采用開放式采集提高了數(shù)據(jù)收集效率，但采用了基于游戲的激勵機制，而非酬金式激勵機制.任務發(fā)布者希望花最少的錢收集到最高質(zhì)量的數(shù)據(jù)集，但是，群智感知方式本身就存在數(shù)據(jù)采集質(zhì)量不穩(wěn)定的問題[19].對于參與式感知來說，新工作者和專家工作者之間的區(qū)別如同新工人和熟練工之間的區(qū)別，因此，激勵并協(xié)助工作者采集高質(zhì)量數(shù)據(jù)是降低群智感知成本的一種途徑，為此本文著重研究封閉式采集和開放式采集對數(shù)據(jù)收集質(zhì)量和成本的影響.

3 數(shù)據(jù)采集與數(shù)據(jù)收集

3.1 開放式數(shù)據(jù)采集

采用按質(zhì)支付和封閉式數(shù)據(jù)采集時，參與者通過猜測其他參與者的采集行為達到采集高質(zhì)量數(shù)據(jù)的目的，開放式采集下，參與者可以避免在其他參與者之后提交相似的數(shù)據(jù)，但是參與者可能需要花費時間閱讀其他參與者提交的數(shù)據(jù).

假設參與者閱讀任務要求的耗時為c，參與者領會任務要求并做出數(shù)據(jù)采集決策的耗時為cw，參與者采集數(shù)據(jù)的耗時為cs，那么封閉式采集模式下參與者采集n條數(shù)據(jù)的耗時為c+∑cwi+n×cs.通常，采集的數(shù)據(jù)越多，參與者逐漸成為專家，決策時間cw逐漸變小至穩(wěn)定狀態(tài)，即cwi≥cwi+1.

開放式采集模式下，參與者查看開放數(shù)據(jù)集的時間為co，參與者領會任務要求并根據(jù)開放數(shù)據(jù)集調(diào)整數(shù)據(jù)采集決策的耗時為cd，參與者采集n條數(shù)據(jù)的耗時為c+∑(coi+cdi)+n*cs.隨著數(shù)據(jù)的增多，參與者需要花費更多的時候查閱已收集數(shù)據(jù)的信息，也就是coi≤coi+1，但是采集的數(shù)據(jù)越多，參與者逐漸成為專家，所以，cdi≥cdi+1，因此，coi+cdi與coi+1+cdi+1的大小關系并不確定.

對比封閉式采集和開放式采集，cwi與coi+cdi的大小關系以及n的大小都影響了封閉式采集和開放式采集的總耗時，因此，需要通過一些真實實驗數(shù)據(jù)來分析和驗證開放式模式對數(shù)據(jù)采集效率的影響.

3.2 面向數(shù)據(jù)流的數(shù)據(jù)質(zhì)量評估

群智感知可以采用覆蓋度來衡量數(shù)據(jù)質(zhì)量[7,20].數(shù)據(jù)集的覆蓋度指所有的有用數(shù)據(jù)或有用數(shù)據(jù)提供的信息占任務需求的數(shù)據(jù)或信息的比例，計算覆蓋度的函數(shù)記為Q，如公式(1)所示，D表示原始數(shù)據(jù)集，U表示根據(jù)任務要求計算得到的最優(yōu)子集(如最大獨立集[9])，e表示任務期望的數(shù)據(jù)量.

(1)

如果任務持續(xù)時間較長，那么在任務結(jié)束之前，數(shù)據(jù)集D一直在增長.由于數(shù)據(jù)被上傳的時間無法預知，因此，D為不確定的變長數(shù)據(jù)流.如果數(shù)據(jù)需求方有目標地收集數(shù)據(jù)，那么采用前置數(shù)據(jù)質(zhì)量評估可以有效避免低質(zhì)量數(shù)據(jù)被上傳，降低通信流量開銷.對于前置數(shù)據(jù)質(zhì)量評估，數(shù)據(jù)的質(zhì)量評價結(jié)果分為有用和有效.有效指數(shù)據(jù)符合任務要求，有用指數(shù)據(jù)為有效且與已收集的數(shù)據(jù)不重疊.

3.3 基于前置數(shù)據(jù)優(yōu)選的數(shù)據(jù)收集

前置數(shù)據(jù)選擇方式采用在線方式對感知數(shù)據(jù)進行質(zhì)量評估.假設任務需要數(shù)據(jù)d，參與者甲和參與者乙分別在不同的時間提交了數(shù)據(jù)d(包括d的相似數(shù)據(jù))，對于此任務來說，甲和乙都提交了有效的數(shù)據(jù).假如甲先于乙提交了數(shù)據(jù)，那么乙提交的數(shù)據(jù)對于任務來說已經(jīng)沒有用了，即無用數(shù)據(jù).

假設m-1個數(shù)據(jù)組成數(shù)據(jù)集D(m-1)，優(yōu)選后的數(shù)據(jù)集為U(m-1)，對于兩個待評價的有效數(shù)據(jù)dm和dm+1，函數(shù)計算數(shù)據(jù)集的覆蓋度，最優(yōu)數(shù)據(jù)收集可能存在兩種情況：

情況1.如果Q(D(m-1)+{dm,d(m+1)})=Q(D(m-1)+{d(m+1)})>Q(D(m-1)+{dm})=Q(D(m-1))，則dm為無用數(shù)據(jù)，dm+1應該被收集.

情況2.如果Q(D(m+1)+{dm,dm+1})=Q(D(m-1)+{dm})=Q(D(m-1)+{dm+1})>Q(D(m-1))，則dm與dm+1相似，則dm或dm+1中的任意一個被收集均可.

本文研究對象為數(shù)據(jù)流，dm被上傳至云端后，dm+1是否能被采集到并上傳是不確定的，因此，對于情況一，dm先被收集，dm+1隨后也被收集，即U(m)=U(m-1)+{dm}，U(m+1)=U(m)+{dm+1}；而對于情況二，dm已被收集，dm+1因與dm相似而被云端服務器拒收，即U(m)=U(m-1)+{dm},U(m+1)=U(m).

為了激勵參與者高效采集和提交高質(zhì)量數(shù)據(jù)，本文針對數(shù)據(jù)流采用先到先用的前置數(shù)據(jù)選擇策略，即后被上傳的重復數(shù)據(jù)被判定為無用數(shù)據(jù)，無用數(shù)據(jù)將不會被支付報酬.采用先到先用的數(shù)據(jù)收集策略，參與者若能及時獲悉上傳的數(shù)據(jù)是否合格，就能夠根據(jù)質(zhì)量評價及時修改數(shù)據(jù)采集策略，例如，采用開放式采集模式.

3.4 按質(zhì)支付的激勵機制

參與式群智感知任務在發(fā)布時已經(jīng)設定了數(shù)據(jù)單價，不同的感知任務可以設定不同的單價.采用按質(zhì)支付和前置選擇后，參與者處于競爭狀態(tài)，文獻[21]的研究結(jié)果顯示采用競爭式的采集方式可以激勵工作者盡快認領和完成數(shù)據(jù)采集任務.這里，在采用前置優(yōu)選的前提下，我們采用兩種報酬支付方式：傳統(tǒng)的按量支付(Uti,Utility-enhanced payment)和逆向拍賣支付(Uti-bid[21],Utility-enhanced bidding)，流程如圖1所示.

Uti采用傳統(tǒng)多勞多得的方式計算酬勞，根據(jù)公式(1)的計算結(jié)果分配參與者的酬金，支付給參與者的報酬為有效數(shù)據(jù)量乘以數(shù)據(jù)單價，參與者可以獲得的報酬與提交的高質(zhì)量數(shù)據(jù)的數(shù)量成正比.逆向拍賣可有效提升用戶參與度.Uti-bid支付給參與者的報酬則通過拍賣的形式計算，參與者提前知道數(shù)據(jù)質(zhì)量評價結(jié)果.Uti-bid根據(jù)工作者提交的數(shù)據(jù)的數(shù)據(jù)

圖1 前置優(yōu)選前提下的Uti和Uti-bid的基本工作流程Fig.1 Basic workflow of Uti and Ubi-bid based on the pre-selection of high-quality data

(2)

(3)

參與者的收益如果受損可能導致參與者退出任務.采用Uti方式時，參與者的報酬與高質(zhì)量數(shù)據(jù)的數(shù)據(jù)量成正比，數(shù)據(jù)收集成本固定，而采用Uti-bid時，參與者的出價不確定，數(shù)據(jù)收集成本不固定，實驗中我們將詳細對比兩種支付策略，接下來將介紹整個實驗過程和實驗結(jié)果.

4 實驗結(jié)果

4.1 實驗場景

此次實驗基于一個在線任務平臺，共面向197名在校大學生招募參與者，其中127人響應并注冊，最終99人參與了任務，提交10條數(shù)據(jù)以上的參與者48人，任務平臺僅在特定時間發(fā)布任務，發(fā)布計劃提前公布，參與者僅在特定時間可以看到數(shù)據(jù)采集任務，然后采集并提交數(shù)據(jù).數(shù)據(jù)收集量滿足要求時，任務立即結(jié)束.平臺共發(fā)布了22項任務，任務分為收集文字常識和文學常識，采用Uti方式計算報酬的任務為14項，采用Uti-bid方式計算報酬的任務為8項，采用開放式采集的任務為12項，采用封閉式采集的任務10項.本次實驗共收集到7,800多條數(shù)據(jù)，最活躍的參與者提交了337條數(shù)據(jù).實驗結(jié)束后，由參與者評價任務難度，最終，12項被認定為容易任務，剩余10項認定為困難任務.實驗設定的22項任務都是普通人能夠完成的任務，因此，所有任務的完成率為100%.

數(shù)據(jù)收集成本以單條數(shù)據(jù)價格衡量.此次實驗的數(shù)據(jù)單價預設為0.2元至1.0元.Uti方式下，報酬按有效數(shù)據(jù)量支付給參與者，Uti-bid方式下，報酬根據(jù)參與者的出價支付，因此，最終Uti-bid方式的數(shù)據(jù)單價在0.13至1.06元之間.

4.2 實驗結(jié)果與分析

4.2.1 基本統(tǒng)計

22個任務的平均數(shù)據(jù)冗余率在7%和164%之間，單個任務的耗時為1.7分鐘至9.5分鐘，單個任務的參與者數(shù)量為4至13人，單個任務的數(shù)據(jù)總量為40至246，單個數(shù)據(jù)的采集耗時在93毫秒至646毫秒之間，數(shù)據(jù)錯誤率在0至45%之間.

4.2.2 數(shù)據(jù)冗余對報酬的影響

無論參與者有意或無意提交了無效數(shù)據(jù)，按質(zhì)支付模式下，參與者都無法獲得無效數(shù)據(jù)的酬勞，頻繁的無報酬勞動容易造成參與者的退出，因此，這里首先評估數(shù)據(jù)冗余率對報酬的影響程度.我們選擇了提交20條以上數(shù)據(jù)的參與者，并對他們的預期收入(即原始數(shù)據(jù)量與數(shù)據(jù)單價的乘積)與實際收入(即有效數(shù)據(jù)量與數(shù)據(jù)單價的乘積)受冗余率的影響進

圖2 報酬降低程度與數(shù)據(jù)冗余率Fig.2 Reward decreases with the increase of data redundancy

行了評估.如圖2所示的結(jié)果顯示，盡管數(shù)據(jù)單價不同，但收入降低程度與冗余率之間的線性關系是比較明顯的，冗余率越高，實際報酬被降低的越多，系數(shù)約為0.83，兩者的皮爾遜相關系數(shù)為0.91，因此，無論采用Uti或者Uti-bid，采用能夠降低冗余的措施理論上可以提高參與者的實際收入.

4.2.3 數(shù)據(jù)冗余率的影響因素

我們從三方面分析數(shù)據(jù)冗余的影響因素，包括：數(shù)據(jù)單價、任務難度和采集方式.

數(shù)據(jù)單價影響了數(shù)據(jù)冗余率.此次實驗中，任務的數(shù)據(jù)單價在0.2元至1.0元之間，評估數(shù)據(jù)冗余率與參與者最終報酬的數(shù)據(jù)單價之間的關系的采樣點分布如圖3所示，盡管兩者的線性關系并不明顯，但圖中的結(jié)果顯示冗余率的提高并不一定降低了參與者報酬的單價，反而有一定的上升趨勢.從皮爾遜相關系數(shù)來看，參與度越高的參與者樣本(見圖3(b))顯示出數(shù)據(jù)冗余率與數(shù)據(jù)單價更高的相關性.這種現(xiàn)場可以解釋為：對于參與度比較高的參與者來說，為了獲得更多的收益而提交了更多的數(shù)據(jù)，在沒有引導的情況下，他們會通過擴大采集范圍的方法(同時提高了數(shù)據(jù)的冗余率)來提高數(shù)據(jù)命中率，因此提高報酬的同時，數(shù)據(jù)的冗余率也被提高了.數(shù)據(jù)單價較高的任務對參與者更有吸引力，降低這些任務的冗余率更能改善參與者的用戶體驗.

圖3 數(shù)據(jù)單價與數(shù)據(jù)冗余率對比Fig.3 Comparison between the unit price of data and the data redundancy

采集方式和任務難度同樣影響數(shù)據(jù)冗余率.采集方式對冗余率的影響的實驗結(jié)果如表1所示，結(jié)果顯示，采用開放式采集方式以后，數(shù)據(jù)的冗余率大大降低.對比困難任務和容易任務的數(shù)據(jù)冗余率的結(jié)果如表1所示.當任務相對容易時，參與者更容易采集到數(shù)據(jù)，這就容易導致大量重復數(shù)據(jù)，因此，容易任務的數(shù)據(jù)冗余率明顯高于困難任務.綜上，采用開放式采集可以明顯降低冗余率，而且為容易任務采用開放式采集可以大大降低冗余率.

表1 不同采集方式和任務的數(shù)據(jù)冗余率Table 1 Data redundancy rate of different tasks and different collection methods

4.2.4 數(shù)據(jù)錯誤率的影響因素

冗余的數(shù)據(jù)包括重復的數(shù)據(jù)和錯誤的數(shù)據(jù).參與者提交錯誤數(shù)據(jù)的原因分為兩種：i)參與者沒有理解任務要求或誤解任務要求；ii)參與者忽視任務要求.實驗中最活躍的前10名參與者至少參與了1/3的任務，并提交了50條以上的數(shù)據(jù)，如圖4所示，這些參與者的數(shù)據(jù)錯誤率差別很大，從0%至16%.導致錯誤的主要原因是參與者沒有按照任務要求采

圖4 最活躍的前10名參與者的數(shù)據(jù)錯誤率Fig.4 Error rate of data collected by top-10 active participants

集數(shù)據(jù)，從而導致格式錯誤或者缺少數(shù)據(jù)項.采用按質(zhì)支付策略的研究期望參與者能夠重視數(shù)據(jù)采集質(zhì)量，不隨意提交數(shù)據(jù)，但通過實驗可以發(fā)現(xiàn)，仍有參與者提交了并不符合任務要求的數(shù)據(jù).

表2 數(shù)據(jù)錯誤率與各種影響因子的皮爾遜相關系數(shù)Table 2 Pearson correlation coefficients of the data error rate to different impact factors

此次實驗任務的數(shù)據(jù)錯誤率與任務屬性之間的皮爾遜相關系數(shù)如表2所示，從表中可以看出，單位數(shù)據(jù)耗時和任務難度對錯誤率的影響最大.將任務按難易度區(qū)分后，評價錯誤率受采集策略的影響程度，如表3所示.開放式采集可以向參與者提供參考數(shù)據(jù)，防止參與者誤解任務意圖后無意中采集了錯誤數(shù)據(jù)，表3的實驗結(jié)果也顯示出采用開放式采集法確實明顯降低了數(shù)據(jù)的錯誤率，特別是對于困難任務來說，錯誤率的降低效果更明顯，為4.3%.

表3 不同采集方式和任務的數(shù)據(jù)錯誤率Table 3 Error rate of data collected by different collection styles for different kinds of tasks

4.2.5 收集速度和數(shù)據(jù)覆蓋速度

1)收集速度

高效率地完成數(shù)據(jù)采集任務也是群智感知的基礎.如表4所示，總體上，困難任務的耗時遠高于容易任務，但是，采用

開放式采集方法顯著降低了困難任務數(shù)據(jù)采集耗時，原因是采用開放式采集方法后有助于參與者理解任務要求，從而及時采集數(shù)據(jù).對于容易任務，為了采集高質(zhì)量數(shù)據(jù)，參與者耗費了時間思考如何采集數(shù)據(jù)，因此，采用開放式采集后，采集效率反而有所下降.

2)數(shù)據(jù)覆蓋速度

文獻[11]中提到采用競爭機制(即本文中采用的按質(zhì)支付方式)能夠提高數(shù)據(jù)收集的效率.為了評價開放采集法對數(shù)據(jù)采集效率的影響，我們針對這22個任務進行了分析.數(shù)據(jù)采集效率為數(shù)據(jù)收集進度和覆蓋度的比值.假設在任務結(jié)束時總共采集到N條數(shù)據(jù)，在采集到第n條數(shù)據(jù)時原始數(shù)據(jù)集和有效數(shù)據(jù)集為D(n)和U(n)，那么此時的數(shù)據(jù)覆蓋速度由公式(4)計算.

(4)

實驗結(jié)果如圖5所示.結(jié)果顯示，容易任務采用封閉式采集時，數(shù)據(jù)的覆蓋速度高于采用開放式采集，而對于困難任務來說，采用開放式采集的覆蓋速度高于封閉式采集.綜上所述，困難任務更需要開放式采集來提高采集效率.

圖5 覆蓋度受數(shù)據(jù)采集方法影響的實驗結(jié)果Fig.5 Experimental results of coverages affected by data collection methods

4.2.6 數(shù)據(jù)收集成本

如何平衡參與者的收入期望(與采集成本相關)和數(shù)據(jù)收集成本很重要.Uti方式下，數(shù)據(jù)收集成本固定，需要降低采集成本；Uti-bid方式下，收集成本與參與者報價有關，需要提高參與者的競拍成功率.在每項任務獲得的有效數(shù)據(jù)量相同的前提下，表5中統(tǒng)計了參與者的出價總和、采用Uti-bid方式下的報酬和采用Uti方式的報酬，參與者的出價遠高于基準價，達到1.5倍，Uti-bid方式下的參與者的收益高出基準價約10%.雖然參與者收益提高了，但同時對于任務發(fā)布者來說，數(shù)據(jù)收集成本也升高了.

表5 不同支付方式的收益對比Table 5 Income comparison of using different payments

接下來，我們進一步評價采集方式對數(shù)據(jù)收集成本的影響.Uti-bid方式中，參與者的報價影響到數(shù)據(jù)收集成本，而任務的難易程度和數(shù)據(jù)的采集方式都可能影響參與者的報價.表6所示的實驗結(jié)果顯示：一方面，為困難任務采用封閉式采集時，參與者的報價比較保守，高于基準價29%，采用開放式采集后，參與者的報價有所提升，這說明采用開放式采集后，參與者對自己的數(shù)據(jù)更有信心；另一方面，對于容易任務來說，由于冗余較多，采用封閉式采集時，參與者過高估計了個人采集數(shù)據(jù)的數(shù)據(jù)質(zhì)量，反而在采用開放式采集后，參與者可以更理性的報價.參與者報價和獲得的報酬差距越小越好，因此，針對困難任務采用封閉式采集和針對容易任務采用開放式采集可以使參與者的報價更合理.

表6 不同采集方式和任務種類的收集成本對比 (Uti-bid支付方式)Table 6 Comparison of collection costs by using different collection methods for different kinds of tasks

注：HT：困難任務，ET：容易任務.

表7 開放式采集對拍賣成功率的影響Table 7 Effect of open collection method on the auction success rate

采用Uti-bid方式時，參與者采用競拍的方式出售數(shù)據(jù)，如果參與者能夠準確估價，則勝出的幾率比較大.開放式采集對Uti-bid拍賣成功率的影響結(jié)果如表7所示，從實驗結(jié)果可以看出，拍賣成功率提升了14%，這說明采用開放式數(shù)據(jù)采集更能促進參與者采集到優(yōu)質(zhì)數(shù)據(jù)并合理估價，提高參與者競價成功率.

4.3 用戶調(diào)查

參與者是否參與任務受多種因素的影響，主要包括一個客觀因素和一個主觀因素.客觀因素是參與者在任務有效期內(nèi)是否有空閑時間參與數(shù)據(jù)采集；主觀因素是參與者是否被報酬或其它因素激勵而參與數(shù)據(jù)采集.為此，我們在實驗結(jié)束后進行了用戶調(diào)查.用戶調(diào)查結(jié)果顯示，此次實驗的參與者認為自己并不是僅僅被豐厚的報酬吸引，而是被對群智感知的好奇心所吸引.另外，針對激勵機制，喜歡Uti-bid方式的參與者是喜歡Uti方式的1.3倍，認為平臺上采用Uti-bid和Uti方式共存的參與者占到14/19，訪談中參與者表示Uti-bid方式帶有游戲?qū)傩?，使參與者能夠樂在其中，但是Uti方式能夠保證參與者基本的數(shù)據(jù)采集酬勞，所以更希望兩種方式共存.綜上所述，平臺提供多樣化的激勵措施有助于提高平臺的用戶粘度.

5 總結(jié)

群智感知的主要數(shù)據(jù)來源是普通大眾，任務分配、質(zhì)量保障和激勵機制研究的目標之一是降低數(shù)據(jù)收集成本和提高任務完成質(zhì)量.為了降低參與式感知的數(shù)據(jù)采集成本，針對激勵機制和任務分配問題，已有許多優(yōu)秀研究成果.本文從不同角度研究了采用開放式采集對任務完成質(zhì)量和收集成本的影響，針對難易不同的任務采用不同的激勵和數(shù)據(jù)采集方式，實驗結(jié)果顯示開放式采集可有效降低冗余數(shù)據(jù)、提高困難任務的數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)采集成本并間接提高參與者收益.數(shù)據(jù)采集和數(shù)據(jù)收集是群智感知應用的基礎，未來我們將在大規(guī)模照片數(shù)據(jù)采集中采用開放式采集來提高數(shù)據(jù)采集質(zhì)量，并進一步研究在高耗流量數(shù)據(jù)收集環(huán)境中采用開放式采集的優(yōu)缺點以及優(yōu)化策略.