李昊哲
摘 要:文章研究了K-means聚類分析下的“拍照賺錢(qián)”任務(wù)定價(jià)方案設(shè)計(jì)。“拍照賺錢(qián)”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶注冊(cè)為會(huì)員,從APP上領(lǐng)取需要拍照的任務(wù),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。對(duì)任務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,去除不合理數(shù)據(jù),之后將任務(wù)地點(diǎn)經(jīng)緯度轉(zhuǎn)換為實(shí)際距離,建立一個(gè)包含所有任務(wù)的區(qū)域。對(duì)區(qū)域中的任務(wù),計(jì)算以任務(wù)為中心,半徑10 km范圍內(nèi)所有會(huì)員的歸一化后的配額、信譽(yù)度、距任務(wù)點(diǎn)的平均距離。對(duì)3組數(shù)據(jù)及其任務(wù)對(duì)應(yīng)的定價(jià)進(jìn)行多元線性回歸分析。通過(guò)K-means聚類分析,將任務(wù)打包,得到80個(gè)任務(wù)包的質(zhì)心。將得到的80個(gè)任務(wù)包視為80個(gè)新任務(wù)。其質(zhì)心視為新任務(wù)地點(diǎn)。距離質(zhì)心最近的任務(wù)價(jià)格和任務(wù)包的任務(wù)數(shù)的乘積視為任務(wù)包價(jià)格。獲得任務(wù)包周圍會(huì)員配額、會(huì)員信譽(yù)度及會(huì)員距任務(wù)地點(diǎn)的平均距離后,將價(jià)格與該3個(gè)因素進(jìn)行多元線性回歸,可得任務(wù)打包情況下的價(jià)格函數(shù)。
關(guān)鍵詞:拍照賺錢(qián);K-means聚類分析;多元線性回歸;定價(jià);任務(wù)包
1 問(wèn)題簡(jiǎn)述
“拍照賺錢(qián)”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶下載APP,注冊(cè)成為APP的會(huì)員,然后從APP上領(lǐng)取需要拍照的任務(wù)(比如上超市去檢查某種商品的上架情況),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式勞務(wù)眾包平臺(tái),為企業(yè)提供各種商業(yè)檢查和信息搜集,相比傳統(tǒng)的市場(chǎng)調(diào)查方式,可以大大節(jié)省調(diào)查成本,而且有效地保證了調(diào)查數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期。因此,APP成為該平臺(tái)運(yùn)行的核心,而APP中的任務(wù)定價(jià)又是其核心要素。如果定價(jià)不合理,有的任務(wù)就會(huì)無(wú)人問(wèn)津,而導(dǎo)致商品檢查的失敗[1]。
基于一組已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),包含了每個(gè)任務(wù)的位置、定價(jià)和完成情況;會(huì)員信息數(shù)據(jù)包含了會(huì)員的位置、信譽(yù)值、參考其信譽(yù)給出的任務(wù)開(kāi)始預(yù)訂時(shí)間和預(yù)訂限額,原則上會(huì)員信譽(yù)越高,越優(yōu)先開(kāi)始挑選任務(wù),其配額也就越大(任務(wù)分配時(shí)實(shí)際上是根據(jù)預(yù)訂限額所占比例進(jìn)行配發(fā));一組新的檢查項(xiàng)目任務(wù)數(shù)據(jù),只有任務(wù)的位置信息[2]。
2 模型假設(shè)
(1)假設(shè)每個(gè)會(huì)員愿意接單的最大距離為10 km。
(2)假設(shè)影響每個(gè)任務(wù)點(diǎn)信譽(yù)指數(shù)的有效半徑為10 km。
(3)假設(shè)打包后每個(gè)會(huì)員愿意接單的最大距離為15 km。
(4)假設(shè)不考慮街道的影響,即會(huì)員到任務(wù)點(diǎn)的距離為直線距離。
3 模型的建立與求解
3.1 數(shù)據(jù)預(yù)處理
由于記錄的誤差,給定的數(shù)據(jù)存在一定的錯(cuò)誤,故對(duì)于給定的3組數(shù)據(jù),通過(guò)Matlab求出各列的均值μ與方差σ2,將與μ之差超過(guò)3σ2的數(shù)據(jù)剔除,從而處理掉過(guò)大與過(guò)小的數(shù)據(jù)。
3.2 原始定價(jià)規(guī)律
3.2.1 完成任務(wù)的能力指數(shù)A
假設(shè)每個(gè)會(huì)員愿意接單的最大距離為10 km,故我們以任務(wù)所在位置為圓心,10 km為半徑做一個(gè)圓,圓所覆蓋的區(qū)域?yàn)榭赡軙?huì)被該會(huì)員接單的區(qū)域。每位會(huì)員都能做出相應(yīng)的圓,由于每位會(huì)員的分配任務(wù)配比不同,故定義a為完成任務(wù)的能力指數(shù),則第i個(gè)任務(wù)點(diǎn)的完成任務(wù)能力指數(shù)Ai的計(jì)算方法為Ai=Σaij,其中aij表示第i個(gè)任務(wù)點(diǎn)10 km范圍內(nèi)第j個(gè)會(huì)員的預(yù)定任務(wù)限額,即某一點(diǎn)完成任務(wù)的能力為覆蓋該點(diǎn)所有圓的會(huì)員任務(wù)配額之和。
3.2.2 會(huì)員信譽(yù)指數(shù)R
以任務(wù)所在位置為圓心,10 km為半徑做一個(gè)圓,圓所覆蓋的區(qū)域?yàn)樵撊蝿?wù)點(diǎn)被接單會(huì)員的信譽(yù)程度。圓所覆蓋的所有會(huì)員的信譽(yù)之和定義為會(huì)員信譽(yù)指數(shù),即Ri=Σrij,其中Ri表示第i個(gè)任務(wù)點(diǎn)會(huì)員信譽(yù)指數(shù);rij表示第i個(gè)任務(wù)點(diǎn)10 km范圍內(nèi)第j個(gè)會(huì)員的信譽(yù)值。
3.2.3 距離指數(shù)D
以任務(wù)所在位置為圓心,10 km為半徑做一個(gè)圓,圓所覆蓋的區(qū)域?yàn)榭赡軙?huì)被該會(huì)員接單的區(qū)域。圓所覆蓋的所有會(huì)員距離任務(wù)點(diǎn)距離的均值定義為距離指數(shù),即,其中Di表示第i個(gè)任務(wù)點(diǎn)的距離指數(shù);dij表示第i個(gè)任務(wù)點(diǎn)10 km范圍內(nèi)第j個(gè)會(huì)員的距離任務(wù)點(diǎn)的距離,n表示該任務(wù)點(diǎn)10 km范圍內(nèi)的會(huì)員人數(shù)。
3.2.4 多元線性多項(xiàng)式回歸
由于影響響應(yīng)變量y的3個(gè)變量的單位不一致,故先求出各變量的最大值max與最小值min,利用公式將三變量歸一化為量綱相同的變量。
根據(jù)新的得到的三變量完成任務(wù)的能力指數(shù)A、會(huì)員信譽(yù)指數(shù)R、距離指數(shù)D和所給任務(wù)標(biāo)價(jià)y建立多元線性回歸方程,通過(guò)函數(shù)擬合求得方程為:
yi=λ+ζ1Ai+ζ2Ri+ζ3Di
其中yi為第i個(gè)任務(wù)點(diǎn)的任務(wù)定價(jià);ζ1、ζ2、ζ3為回歸系數(shù),λ為常系數(shù)。
3.2.5 模型的求解
利用Matlab計(jì)算求得各任務(wù)點(diǎn)的三變量的值。由多元線性回歸命令regress求得多元線性回歸方程為:
yi=61.18-5.87Ai-0.44Ri+15.16Di
回歸結(jié)果如表1所示。
由于p≤0.01,故拒絕原假設(shè)H0,認(rèn)為樣本的結(jié)果具有高度統(tǒng)計(jì)學(xué)意義,即回歸方程通過(guò)顯著性實(shí)驗(yàn)。
3.3 打包定價(jià)方案
在實(shí)際情況下,多個(gè)任務(wù)可能因?yàn)槲恢帽容^集中,導(dǎo)致用戶會(huì)爭(zhēng)相選擇,考慮將這些任務(wù)聯(lián)合在一起打包發(fā)布。利用K-means聚類分析法,以歐氏距離作為相似度測(cè)度,求出對(duì)應(yīng)某一初始聚類中心向量最優(yōu)分類,使得評(píng)價(jià)指標(biāo)J最小。故將所有任務(wù)的經(jīng)緯度坐標(biāo)輸入,將分散的任務(wù)點(diǎn)組成一個(gè)總的打包任務(wù)點(diǎn)。通過(guò)計(jì)算其中所包括任務(wù)點(diǎn)的距離等參數(shù),選出具有代表性的一個(gè)任務(wù)點(diǎn)作為參考任務(wù)點(diǎn)。
由于任務(wù)的打包使得每個(gè)任務(wù)的收益變大,故每個(gè)任務(wù)所能吸引的會(huì)員數(shù)會(huì)增加,故而能增大會(huì)員愿意接單的范圍半徑。假設(shè)參考任務(wù)點(diǎn)的完成任務(wù)的能力指數(shù)A為該任務(wù)點(diǎn)方圓20 km內(nèi)所有會(huì)員預(yù)定任務(wù)限額的總和,會(huì)員信譽(yù)指數(shù)R為該任務(wù)點(diǎn)方圓20 km內(nèi)所覆蓋的所有會(huì)員的信譽(yù)之和,距離指數(shù)D為該任務(wù)點(diǎn)方圓20 km內(nèi)所覆蓋的所有會(huì)員距離任務(wù)點(diǎn)距離的均值。
通過(guò)K-means聚類分析將836個(gè)任務(wù)點(diǎn)打包變?yōu)?0個(gè)任務(wù)點(diǎn),計(jì)算出這80個(gè)任務(wù)點(diǎn)的Ai、Ri、Di 3個(gè)變量。將聚類分析所得每一類中所有任務(wù)點(diǎn)的價(jià)格疊加,所得結(jié)果為該類任務(wù)的任務(wù)標(biāo)價(jià),即Yi=Σyij,Yi表示第i類任務(wù)的標(biāo)價(jià),yij表示第i類任務(wù)中第j個(gè)任務(wù)點(diǎn)的標(biāo)價(jià)。
將影響任務(wù)點(diǎn)標(biāo)價(jià)的3個(gè)參數(shù)計(jì)算范圍變?yōu)?5 km,利用Matlab的regress進(jìn)行多元線性回歸,所得回歸方程為:
yi''=252.90-18.78Ai-94.55Ri+78.42Di
其中yi''為第i個(gè)任務(wù)點(diǎn)的任務(wù)定價(jià)。
依據(jù)該模型,首先將任務(wù)進(jìn)行打包處理,形成206個(gè)任務(wù)包,通過(guò)計(jì)算第i個(gè)任務(wù)點(diǎn)的完成任務(wù)能力指數(shù)Ai,即某一點(diǎn)完成任務(wù)的能力為覆蓋該點(diǎn)所有圓的會(huì)員任務(wù)配額之和,第i個(gè)任務(wù)點(diǎn)10 km范圍內(nèi)第j個(gè)會(huì)員的信譽(yù)值,即半徑10 km圓所覆蓋的所有會(huì)員的信譽(yù)之和Ri,以及第i個(gè)任務(wù)點(diǎn)10 km范圍內(nèi)第j個(gè)會(huì)員的距離任務(wù)點(diǎn)的距離Di。
利用該模型的回歸方程,將三變量代入,即可得到各個(gè)任務(wù)包的標(biāo)價(jià)。
部分標(biāo)價(jià)如表2所示。
由于該模型充分考慮了會(huì)員完成任務(wù)的能力程度、會(huì)員的信譽(yù)、會(huì)員與任務(wù)的距離,且將已完成的任務(wù)所回歸的方程作為優(yōu)化價(jià)格函數(shù)。分析結(jié)果顯示,具有高度統(tǒng)計(jì)學(xué)意義,故該定價(jià)應(yīng)具有普遍適用性,即對(duì)于不同的任務(wù)項(xiàng)目,該模型都可給出合適的任務(wù)標(biāo)價(jià)。
[參考文獻(xiàn)]
[1]王勇,唐靖,饒勤菲,等.高效率的K-means最佳聚類數(shù)確定算法[J].計(jì)算機(jī)應(yīng)用,2014(5):1331-1335.
[2]楊連武.“拍照賺錢(qián)”任務(wù)影響因素相關(guān)性分析[J].中國(guó)新通信,2015(6):1475-1482.