吳奇,荊江雁,章琦,朱玉潔
(常州工學院數理與化工學院,江蘇 常州 213032)
在互聯網不斷發(fā)展的背景下,一種新的合作模式——眾包(Crowdsourcing)越來越流行。2005年中國學者劉鋒提出“威客”一詞,而杰夫·豪(Jeff Howe)于2006年在《連線》雜志中首次提出“眾包”的概念,威客與眾包有著異曲同工之處,都是指企業(yè)通過互聯網平臺發(fā)布任務,依靠大眾資源為企業(yè)提供創(chuàng)意或解決問題的一種創(chuàng)新商業(yè)模式[1-2]。這種新的模式在很大程度上避免了生產和需求的脫節(jié),節(jié)約了社會資源,使企業(yè)的生產和服務更高效。然而,眾包模式下也存在懸賞金較低、分配制度不公、交易行為作弊等問題。因此,對眾包模式下的數據進行調查統(tǒng)計就成為當下非常熱門的研究課題。
陳強等[3](2013)提出競爭情報部門難以應對大數據分析時,可以將期望的指標發(fā)布到眾包平臺上吸引具有數據分析能力的專家參與。牟千[4](2016)分析了移動時代的媒體借助互聯網的力量,將眾包模式移植于新聞生產領域,變“消費者”為“生產者”。陳衛(wèi)華[5](2016)提出政府統(tǒng)計調查項目可以借助眾包的模式進行,有利于吸引公眾參與物價、社情和民意情況調查。
“拍照賺錢”是基于移動互聯網的自助式勞務眾包平臺,為企業(yè)提供各種商業(yè)檢查和信息搜集,相比傳統(tǒng)的市場調查方式可以大大節(jié)省調查成本,而且有效地保證了調查數據真實性,縮短了調查的周期。用戶注冊成為會員,領取拍照任務(比如上超市去檢查某種商品的上架情況),賺取酬金。任務定價是否合理是決定任務能否完成的核心要素,如果定價不合理,有的任務就會無人問津,從而導致商品檢查的失敗。針對這一問題,本文建立數學模型對影響價格的因素進行分析,并對不合理任務定價方案進行重新設計。
本文的數據來自2017年全國大學生數學建模競賽B題[6]。
首先根據競賽題附件1中已結束的任務數據,將任務定價區(qū)間進行分類,繪制了任務點的空間分布圖(見圖1)。發(fā)現這些點基本圍繞在廣州、佛山、東莞、深圳4市。接著利用K-means聚類算法計算出任務點的聚類中心。
圖1 按定價區(qū)間分布已結束項目散點圖
從圖1中可以看出:聚類中心附近的任務定價普遍較低,隨著任務位置與聚類中心之間距離的增加,價格隨之增加。即任務的定價與任務位置有關,且定價的高低與其到聚類中心的距離總體上呈現正相關關系。
接著根據競賽題附件2中會員信息數據,將任務點和會員點同時畫出,如圖2所示。可以看出低定價任務周圍其他任務和會員都很密集,高定價任務周圍的分布情況相反,即表明任務定價受任務點周圍會員密度和任務密度影響,總體上呈負相關關系。
根據上述分析可以看出任務定價受到任務點到聚類中心的距離、任務密度、會員密度的影響,其中任務密度表示某一個任務周圍5 km內其他任務的個數,會員密度表示某一個任務周圍5 km內會員的個數。
首先根據經緯度距離轉換公式計算出各個任務點分別到4個聚類中心的距離:
(1)
然后將4個距離值進行比較,選取最小值作為到屬于它的聚類中心的距離:
d0=min{d1,d2,d3,d4}
(2)
(a)低定價任務周圍會員分布
(b)高定價任務周圍會員分布
圖2任務點與會員點分布情況
同理,根據式(1)、(2)也可以計算出某一個任務點到各個會員的距離,統(tǒng)計距離小于5 km的個數,完成情況中0表示未完成,1表示完成。截取部分結果如表1所示。
表1 影響因素數據表
為了得到任務定價和各個影響因素之間的具體相關度,根據相關系數的原理,通過R語言[7]進行相關性分析,并按完成和未完成任務分類,計算出任務定價與各影響因素的相關系數,結果如表2所示。
表2 相關系數表
根據前文分析可得如下結論:3個影響因素對任務定價均產生顯著影響,任務未完成的情況中,對任務定價影響最大的是任務點到聚類中心的距離,任務所處的位置越遠,任務定價越高。
因此任務未完成的原因可能有以下兩點。
第一,4市經濟發(fā)展水平有差異。經濟發(fā)達地區(qū)的會員對任務收益要求較高,導致定價較低的任務無人問津,雖然這些任務附近有較多的會員,但價格對會員的吸引力不足,導致任務未完成。
第二,任務位置偏僻。雖然任務定價較高,但距離聚類中心較遠,性價比不高從而導致任務未完成。
采用多元線性回歸分析的模型[8-9]來進行分析。
根據第一部分的分析,選取到聚類中心的距離、任務密度、會員密度這3個因素作為解釋變量,定價作為因變量建立多元線性回歸模型來進一步改進任務定價模型,得到定價與上述3個指標之間的關系,分析出定價的主要影響因素。建立以下任務定價模型:
y=β0+β1x1+β2x2+β3x3
(3)
其中:x1表示距離;x2表示任務密度;x3表示會員密度。
將表2中的數據代入多元線性回歸模型中計算,得到
y=71.67+0.14x1-0.34x2-0.08x3
(4)
從式(4)可以得出:任務定價隨著距離的增加而提高;會員密度與任務密度增大時,定價降低;會員密度相對任務密度的影響較小。將未完成任務的3項指標代入模型中計算得到新的任務定價,見表3。
表3 未完成任務的預測定價
假定當預測定價與實際定價差值不超過2元時,即認為該任務完成(例如表3中的A0025、A0111、A0831等)。據此已結束任務中符合條件的任務個數增加117個,計算過程如圖3所示。
圖3 完成率計算
本文在分析未完成任務時,將任務點的經緯度轉換為任務點到任務聚類中心的距離,并用圖表等形式使分析結果可視化,可以直觀看出定價與影響因素的關系。但由于實際定價時,影響因素有很多,而本文研究的數據有限,定價不能準確合理地給出,與實際情況存在偏差,還需做進一步研究。
本文模型的建立基于移動互聯網的自助式勞務眾包平臺,與其類似的服務還有外賣、打車等,都涉及任務位置信息,會員信息等數據,可加以推廣應用。