楊非非 袁晨輝 湯仕星 邱淑芳
摘要:針對(duì)“拍照賺錢(qián)”的任務(wù)定價(jià)問(wèn)題,文章選取了影響任務(wù)定價(jià)的幾個(gè)主要因素,研究它們與任務(wù)定價(jià)之間的函數(shù)關(guān)系,建立多元線性回歸模型和Logistic回歸模型,在此基礎(chǔ)上分析任務(wù)未完成的原因。然后,利用支持向量機(jī)算法引入?yún)^(qū)域修正參數(shù),得到新的任務(wù)定價(jià)模型。最后,依據(jù)任務(wù)被完成的概率建立最大團(tuán)“打包”定價(jià)模型,從而得到打包后的任務(wù)定價(jià)方案。
Abstract: For the task pricing problem of "making money by taking pictures", this paper studies the relationship between the task pricing and its several main influencing factors, and then establishes multivariate linear regression model and logistic regression model to analyze the reason of unfinished tasks. Then, region corrected parameters are introduced by using the support vector machine algorithm and the new task pricing model is obtained. Finally, the maximum group "packing" pricing model is establishedbased on the probability of completing the task, and the "packing"task pricing scheme is obtained.
關(guān)鍵詞: 任務(wù)定價(jià);多元線性回歸;Logistic回歸;最大團(tuán);支持向量機(jī)
Key words: task pricing;linear regression;logisticregression;maximalgroup;support vector machine
中圖分類(lèi)號(hào):O29 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)29-0194-04
“拍照賺錢(qián)”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式勞務(wù)眾包平臺(tái),為企業(yè)提供各種商業(yè)檢查和信息搜集,相比傳統(tǒng)的市場(chǎng)調(diào)查方式可以大大節(jié)省調(diào)查成本,而且有效地保證了調(diào)查數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期?,F(xiàn)針對(duì)該APP中的任務(wù)定價(jià)問(wèn)題進(jìn)行研究,為科學(xué)決策提供定量依據(jù),并建立數(shù)學(xué)模型解決以下問(wèn)題[1]。
問(wèn)題1:研究項(xiàng)目的任務(wù)定價(jià)規(guī)律,分析任務(wù)未完成的原因。問(wèn)題2:為項(xiàng)目設(shè)計(jì)新的任務(wù)定價(jià)方案,并和原方案進(jìn)行比較。問(wèn)題3:實(shí)際情況下,多個(gè)任務(wù)可能因?yàn)槲恢帽容^集中,導(dǎo)致用戶會(huì)爭(zhēng)相選擇,一種考慮是將這些任務(wù)聯(lián)合在一起打包發(fā)布。在這種考慮下,如何修改前面的定價(jià)模型,對(duì)最終的任務(wù)完成情況又有什么影響?
數(shù)據(jù)來(lái)自2017年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽(CUMCM)題目B題所給的附件,從全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽網(wǎng)站下載(http://www.mcm.edu.cn/)。
1.1 位置確定
根據(jù)給出的數(shù)據(jù),利用MATLAB軟件進(jìn)行處理后,可以發(fā)現(xiàn)任務(wù)和會(huì)員的位置(經(jīng)緯度)絕大部分都集中在廣東地區(qū),只有少數(shù)個(gè)別情況零散分布在外,可忽略不計(jì),故可以確定會(huì)員執(zhí)行任務(wù)的地區(qū)主要為廣東。
1.2 任務(wù)周邊的其他任務(wù)數(shù)和會(huì)員數(shù)
定義一個(gè)任務(wù)的周邊為以該任務(wù)為中心、邊為5000m的正方形區(qū)域,大約橫跨0.05經(jīng)度與0.05緯度。為此,計(jì)算以任務(wù)為中心的0.05經(jīng)度×0.05緯度的曲面內(nèi)的任務(wù)數(shù)和會(huì)員數(shù),記為該任務(wù)周邊的其他任務(wù)數(shù)和會(huì)員數(shù),結(jié)果如圖1與圖2所示。
1.3 任務(wù)之間的實(shí)際距離d
假設(shè)任務(wù)A、任務(wù)B的地理坐標(biāo)分別為(X1,Y1)、(X2,Y2),過(guò)A、B兩點(diǎn)的大圓的劣弧長(zhǎng)即為兩點(diǎn)的實(shí)際距離。 以地心為坐標(biāo)原點(diǎn)O,以赤道平面為XOY平面,以0度經(jīng)線圈所在的平面為XOZ平面建立三維直角坐標(biāo)系[2]。則A與B點(diǎn)的直角坐標(biāo)分別為
為了便于解決問(wèn)題,提出以下假設(shè):①所有任務(wù)的性質(zhì)相同;②會(huì)員信譽(yù)值越高,任務(wù)完成的可能性越高,領(lǐng)取任務(wù)時(shí)的積極性就越高;③用戶選擇任務(wù)時(shí)只考慮任務(wù)的標(biāo)價(jià)和任務(wù)的位置,無(wú)其他影響因素(比如交通、天氣等);④任務(wù)被打包后,會(huì)員在選擇任務(wù)包時(shí)可以看到任務(wù)要求。
1.4 影響任務(wù)定價(jià)因素的選取
根據(jù)已結(jié)束項(xiàng)目任務(wù)和會(huì)員信息數(shù)據(jù)可以分析,在同一區(qū)域范圍內(nèi),如果任務(wù)分布相對(duì)較為集中,而且任務(wù)附近分布的會(huì)員數(shù)較多,則會(huì)員之間可能會(huì)存在競(jìng)爭(zhēng)關(guān)系,與任務(wù)定價(jià)的變化都可能存在間接聯(lián)系。因此,在問(wèn)題1中選取經(jīng)緯度、任務(wù)周邊的其他任務(wù)數(shù)以及任務(wù)周邊的會(huì)員數(shù)作為任務(wù)定價(jià)的影響因素。在問(wèn)題2中,我們又引入了兩個(gè)變量因素“預(yù)定限額總和”與“平均信譽(yù)值”,確定問(wèn)題2中影響任務(wù)定價(jià)的因素為新引進(jìn)的兩個(gè)因素、任務(wù)周邊的其他任務(wù)數(shù)以及任務(wù)周邊的會(huì)員數(shù),如圖3所示。
2.1 多元線性回歸模型
根據(jù)上一節(jié)關(guān)于任務(wù)定價(jià)影響因素的討論,我們假設(shè)項(xiàng)目任務(wù)定價(jià)y與任務(wù)緯度x1、任務(wù)經(jīng)度x2、周邊的其他任務(wù)數(shù)x3、周邊的會(huì)員數(shù)x4存在線性關(guān)系,為此建立多元線性回歸模型:
對(duì)式的回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)[4],可以得到檢驗(yàn)統(tǒng)計(jì)量平均相對(duì)殘差為4.3%,F(xiàn)=26.4899,p=0.000<0.001。F值遠(yuǎn)遠(yuǎn)超過(guò)了F檢驗(yàn)的臨界值,p遠(yuǎn)小于置信區(qū)間水平0.05,故模型從一定角度來(lái)說(shuō)是可行的。
從式可以看出任務(wù)定價(jià)的基本規(guī)律為:任務(wù)的經(jīng)緯度對(duì)任務(wù)的定價(jià)影響不顯著,任務(wù)周邊的其他任務(wù)數(shù)和任務(wù)周邊的會(huì)員數(shù)對(duì)任務(wù)定價(jià)具有顯著性影響,即任務(wù)定價(jià)隨著任務(wù)周邊其他任務(wù)數(shù)的增加而增大,而隨著任務(wù)周邊會(huì)員數(shù)的增加而減小。
2.2 任務(wù)完成概率的Logistic回歸模型
2.3 任務(wù)未完成的原因
通過(guò)上述建立的模型,我們可以初步分析出任務(wù)未完成的原因。
①?gòu)娜蝿?wù)完成概率的Logistic回歸模型(3)的各項(xiàng)系數(shù)可以看出:任務(wù)的經(jīng)緯度系數(shù)較大,從而得出任務(wù)的地理位置在很大程度上決定任務(wù)是否被完成;而對(duì)于“任務(wù)周邊會(huì)員數(shù)”和“任務(wù)周邊其他任務(wù)數(shù)”兩個(gè)指標(biāo)來(lái)說(shuō),周邊其他任務(wù)數(shù)越多(周邊任務(wù)之間存在競(jìng)爭(zhēng)關(guān)系)就越不容易被預(yù)定,任務(wù)周邊會(huì)員數(shù)越多任務(wù)被預(yù)定的概率也就越大。
②從定價(jià)指標(biāo)的系數(shù)我們也可以看出,雖然模型(2)得出任務(wù)的經(jīng)緯度、任務(wù)周邊的會(huì)員數(shù)和任務(wù)周邊的其他任務(wù)數(shù)都會(huì)影響到任務(wù)的定價(jià),而任務(wù)的定價(jià)又會(huì)對(duì)任務(wù)是否完成產(chǎn)生影響。將任務(wù)定價(jià)的回歸系數(shù)與任務(wù)完成概率Logistic回歸模型得到的系數(shù)進(jìn)行對(duì)比,相同指標(biāo)系數(shù)的正負(fù)號(hào)相同,說(shuō)明任務(wù)的經(jīng)緯度、任務(wù)周邊的會(huì)員數(shù)和任務(wù)周邊的其他任務(wù)數(shù)等指標(biāo)影響定價(jià)與影響任務(wù)完成具有一致性,且定價(jià)越高,任務(wù)越容易被預(yù)定。
③通過(guò)給出的已結(jié)束項(xiàng)目任務(wù)數(shù)據(jù),發(fā)現(xiàn)還存在大量的未被完成的任務(wù),雖然考慮了任務(wù)周邊的會(huì)員數(shù),但周邊會(huì)員的質(zhì)量也是決定任務(wù)是否被完成的關(guān)鍵所在。任務(wù)周邊會(huì)員數(shù)越多,信譽(yù)低的會(huì)員數(shù)量相對(duì)也變多,就使得任務(wù)被信譽(yù)低的會(huì)員預(yù)定而沒(méi)被完成的概率變大。另外,雖然考慮了任務(wù)周邊的其他任務(wù)的競(jìng)爭(zhēng)影響,但沒(méi)有考慮任務(wù)周邊會(huì)員能預(yù)定任務(wù)的總額大小,因?yàn)樾抛u(yù)高的會(huì)員具有預(yù)定多個(gè)任務(wù)的優(yōu)先權(quán),可能導(dǎo)致先預(yù)定的會(huì)員將自己周邊的任務(wù)預(yù)定完,使得周邊其他會(huì)員不得不選擇位置相對(duì)較遠(yuǎn)的任務(wù),從而增加了任務(wù)未被預(yù)定的可能性,使得任務(wù)沒(méi)有被完成。
3.1 基于區(qū)域修正參數(shù)x*的模型
假設(shè)任務(wù)定價(jià)y與項(xiàng)目任務(wù)周邊的其他任務(wù)數(shù)量x3、任務(wù)周邊的會(huì)員數(shù)量x4、任務(wù)周邊會(huì)員的預(yù)定限額總和x5、任務(wù)周邊會(huì)員的平均信譽(yù)值x6為線性關(guān)系時(shí),并利用已給的數(shù)據(jù)及MATLAB軟件,得到一個(gè)新的任務(wù)定價(jià)回歸模型:
另外,考慮到緯度和經(jīng)度對(duì)任務(wù)定價(jià)的影響,為此我們引入一個(gè)區(qū)域修正參數(shù)x*,依據(jù)任務(wù)所在區(qū)域分別對(duì)修正參數(shù)進(jìn)行賦值。按任務(wù)完成率對(duì)項(xiàng)目數(shù)據(jù)進(jìn)行初步分類(lèi),可分為東莞市、深圳市與其他城市三大類(lèi),并將其他城市的修正參數(shù)設(shè)為0。再利用支持向量機(jī)將深圳市,東莞市區(qū)域的任務(wù)進(jìn)行分類(lèi),結(jié)果如圖4所示。任務(wù)完成率高的區(qū)域(多為東莞市)修正參數(shù)取-1,任務(wù)完成率低的區(qū)域(多為深圳市)修正參數(shù)取1??梢缘玫叫拚娜蝿?wù)定價(jià)模型為
若將修正參數(shù)x*的系數(shù)逐漸增大,由定價(jià)方案(5)計(jì)算出的定價(jià)總額逐漸減小,將新的標(biāo)價(jià)帶入問(wèn)題1的任務(wù)完成概率的Logistic回歸模型所得到的任務(wù)完成概率均值逐漸增大。但是,如果修正參數(shù)的系數(shù)過(guò)大,將會(huì)造成標(biāo)價(jià)異常。通過(guò)權(quán)衡原來(lái)方案的標(biāo)價(jià)區(qū)間,將系數(shù)k定為10。
3.2 利用Logistic模型進(jìn)行分類(lèi)[5]
根據(jù)新的定價(jià)方案(5),可以計(jì)算出新的任務(wù)標(biāo)價(jià),將任務(wù)定價(jià)帶入由問(wèn)題1建立的任務(wù)完成概率的Logistic回歸模型(3),計(jì)算出任務(wù)完成的概率p。 然后,將任務(wù)的完成情況按任務(wù)被完成的概率進(jìn)行分類(lèi),即
從而可以根據(jù)新的定價(jià)方案依概率判斷任務(wù)是否被完成。通過(guò)計(jì)算可以得到新方案的任務(wù)被完成的概率大于0.5的數(shù)量比原方案多,計(jì)算結(jié)果見(jiàn)表1。
由表1可知,新方案與原方案相比,任務(wù)的平均標(biāo)價(jià)提高了0.58元,即增加了0.84%;但是任務(wù)的完成率提高了11.86%。相對(duì)于原方案來(lái)說(shuō),新方案更為合理。
4.1 基于“打包”后的任務(wù)定價(jià)模型
利用問(wèn)題2中的Logistic分類(lèi)模型得出打包定價(jià)后的任務(wù)完成率為76.8%,包中任務(wù)的定價(jià)總額為12799元;打包前包中任務(wù)的完成率為78.4%,包中任務(wù)的定價(jià)總額為14467元。因此,較打包前包中任務(wù)的定價(jià)總額減少了11.53%,任務(wù)完成率減少了1.6%。
本文討論了“拍照賺錢(qián)”的任務(wù)定價(jià)問(wèn)題,根據(jù)選取出的影響任務(wù)定價(jià)的主要因素,建立了任務(wù)定價(jià)的多元線性回歸模型,分析了任務(wù)定價(jià)的規(guī)律;將任務(wù)是否完成定義為一個(gè)0-1變量,依據(jù)所給任務(wù)完成與否的數(shù)據(jù),建立了任務(wù)完成概率的Logistic回歸模型。隨后,我們將隱含的“任務(wù)周邊會(huì)員的預(yù)定限額總和”、“任務(wù)周邊會(huì)員的平均信譽(yù)值”兩個(gè)因素作為新的定價(jià)模型變量,并引進(jìn)一個(gè)區(qū)域修正參數(shù),建立了新的任務(wù)定價(jià)模型,并用問(wèn)題1中建立的任務(wù)完成概率的Logistic回歸模型對(duì)新方案進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果表明新的定價(jià)方案更優(yōu)。最后,將相近任務(wù)進(jìn)行打包,建立了最大團(tuán)“打包”定價(jià)模型,從而得到打包后的任務(wù)定價(jià)方案,計(jì)算結(jié)果表明最大團(tuán)“打包”定價(jià)模型更優(yōu)。但是,由于使用的最大團(tuán)搜索算法時(shí)間復(fù)雜度比較高,所以任務(wù)打包的程序運(yùn)行時(shí)間比較長(zhǎng)。
致謝:
感謝東華理工大學(xué)理學(xué)院王澤文教授的寶貴建議和意見(jiàn)。
[1]全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽組委會(huì).2017高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽(CUMCM)題目B題[EB/OL].[2017-09-14].http://www.mcm.edu.cn
[2]司守奎,孫兆亮,等.數(shù)學(xué)建模算法與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2017.
[3]王澤文,樂(lè)勵(lì)華,等.數(shù)學(xué)實(shí)驗(yàn)與數(shù)學(xué)建模案例[M].高等教育出版社,2012.
[4]姜啟源,謝金星,葉俊.數(shù)學(xué)模型[M].四版.高等教育出版社,2003.
[5]陶卿,曹進(jìn)德,孫德敏.基于支持向量機(jī)分類(lèi)的回歸方法[J].軟件學(xué)報(bào),2002,13(5):1024-1028.
[6]一種快速求解最大團(tuán)問(wèn)題的算法.http://blog.csdn.net/qiutubushenghan
[7]周陽(yáng).最大團(tuán)問(wèn)題的精確算法研究[D].華中科技大學(xué), 2015.