摘要:在國外,通過設計A/B測試,改善產(chǎn)品的使用流程,提升用戶體驗,不斷促進用戶或收入的增長,已經(jīng)形成了一套非??茖W的流程和方法論。除一些大型互聯(lián)網(wǎng)企業(yè)外,A/B測試的流程和方法還沒有得到較好的應用。近年來,隨著越來越多傳統(tǒng)企業(yè)的互聯(lián)網(wǎng)化,如何提升產(chǎn)品設計和運營的效率,加強市場競爭力,減少犯錯機會,已經(jīng)是一個迫在眉睫需要解決的問題。本文旨在以PDCA思路為基礎,詳細闡述A/B測試的相關細節(jié),為中小企業(yè)的產(chǎn)品設計和運營效率的提升,提供一些行之有效的參考方法。
關鍵詞:A/B測試;郵件營銷;PDCA
一、概述
A/B測試是指通過對真實訪客進行隨機分組,讓不同分組的訪客訪問不同的設計方案(變量),并借助統(tǒng)計學原理對收集到的訪客行為數(shù)據(jù)進行假設檢驗分析,從而找出最佳方案的一種方法。通俗一點說,即一部分用戶訪問方案A,另外一部分用戶訪問方案B,A、B方案間僅存在一個因素(變量)差異,排除其他干擾因素,最終通過觀察數(shù)據(jù)確定訪客的行為方式和行為內容。
A/B測試作為一種數(shù)據(jù)驅動的精細化科學運營方法,在互聯(lián)網(wǎng)行業(yè)有著非常廣泛的應用,能夠幫助企業(yè)在用戶增長、廣告效果優(yōu)化、獲客成本優(yōu)化、轉化率優(yōu)化、用戶體驗優(yōu)化等方面快速找到最佳方案。目前,A/B測試在國外已經(jīng)非常普及,并形成了一整套的成熟工具、系統(tǒng)的解決方案。但在國內,A/B測試應用得還不是特別普遍,很多中小型互聯(lián)網(wǎng)企業(yè)甚至都沒聽過A/B測試。因此,本文將以電子郵件營銷的A/B測試為例,基于PDCA思路系統(tǒng)闡述A/B測試的流程,具體如下圖所示:
二、確定改善指標&目標
在正式A/B測試前,應首先明確對什么指標進行改善,以及希望達到多大的改善。一個好的數(shù)據(jù)指標應做到:1.具體的且可量化的;2.指標改善能夠促進業(yè)務發(fā)展;3.體現(xiàn)產(chǎn)品關鍵行為;4.指導團隊的努力方向;5.促進資源合理分配;6.易于被各個部門理解和溝通。一般來說,設定一個好的指標與目標,可以讓執(zhí)行團隊對結果負責,并逐漸形成一種以結果為導向的文化氛圍。
由于不同團隊的電子郵件營銷的目的各不相同,這就會導致不同團隊的改善指標也會有很大的差異。通常來說,在電子郵件營銷中,常用的改善指標有開封率(獨立打開郵件用戶數(shù)/送達用戶數(shù))、點擊率(獨立點擊用戶數(shù)/送達用戶數(shù))、CTO(點擊率/開封率)。根據(jù)郵件服務商webpower統(tǒng)計,我國電子郵件的平均開封率在7%左右,平均點擊率在2%左右。
三、設計測試方案
在設計A/B測試方案時,應根據(jù)MECE(窮盡不交叉)原則對所有可能會影響改善指標的因素進行拆解,并根據(jù)自己對這些因素影響大小進行假設,對實施簡單且對指標改善影響大的因素優(yōu)先開始執(zhí)行,對實施困難且對指標改善影響小的因素最后執(zhí)行。
根據(jù)經(jīng)驗,可以用來作為郵件營銷的測試因素有:推送時間、標題文案、標題字符數(shù)、單雙標題、句式差異(如陳述句式與疑問句式)、限時限量、圖片或文案的放置位置、圖片大小與類型(如女性照片與男性照片對比)、字體大小與顏色、內容列表數(shù)量(如5條內容與10條內容的差異),地域名詞差異(如北京與延慶)、簡寫與全拼、增加客服聯(lián)系方式、數(shù)量名詞(如產(chǎn)品有多少用戶)、專家或機構名稱,等等。一般來說,推送時間越合理,標題越吸引人,郵件設計越合理,開封率、點擊率就會越高,反之則較低。
在實踐中,A/B測試通常執(zhí)行的是單變量測試,即一個因素的變化對指標改善的影響。但是,有時候為了提高測試效率,當測試的是多因素多水平對指標改善影響的時候,建議可以使用多變量測試。需要注意的是,當執(zhí)行多變量測試時,由于排列組合較多,建議可以引入正交實驗思路進行處理,或者使用軟件對因素和水平隨機抽樣來處理。
四、選擇合適的抽樣方法
抽樣好壞直接影響著最終測試結論的可信性。抽樣應保證樣本是從同一總體中隨機抽樣的相似樣本,符合統(tǒng)計學上的無偏性、有效性和一致性。在電子郵件營銷的A/B測試中,考慮到實施方便、隨機化等原則,推薦使用系統(tǒng)抽樣作為首選的抽樣方法。
具體實施過程如下:
根據(jù)A/B測試要推送的用戶總體N,按照用戶的訪問時間(或其他合適標志,如用戶IP地址的奇偶性)進行排序;然后依據(jù)設定的樣本量大小n,確定間隔k=N/n;從k中隨機抽取2個數(shù)字為起始點,然后每隔n個用戶抽出一個樣本,直到抽滿兩組樣本為止。
由于在實際電子郵件營銷中,n通常比較大,因此不考慮N/n不是整數(shù)的影響?;蛘卟捎煤喕奶幚矸椒?,將kd(kd=N-nk)個抽樣單元舍棄掉。這種做法略顯粗暴,但從效果上看并無太大影響。
五、計算樣本量
樣本量的大小直接影響著抽樣誤差的大小。一般來說,樣本量越小,抽樣誤差就會越大;樣本量越大,抽樣誤差就會越小,但也會帶來不具備實施條件、成本過高,甚至是完全沒必要等問題。因此,在抽樣設計中,確定合理的樣本容量n是實施抽樣的必要前提,如果樣本容量n無法確定,就無法展開后續(xù)工作。對于A/B測試的樣本量確定步驟如下:
第1步:根據(jù)A/B測試要求,確定估計精度水平,包括絕對誤差限度d和置信度1-a。
第2步:對總體方差S2進行估計。可以利用以前的調查結果、預調查結果或專家經(jīng)驗進行估計。對于總體比例估計,如果P未知,可遵循方差最大選擇,即P=0.5。
第3步:根據(jù)上述的精度水平、總體方差S2的預估結果,并考慮N的大小,計算出初始樣本量n1。對于總體比例的估計而言,S2=P(1-P),具體的計算公式為:
[n1]:初始樣本容量
N: 待抽樣的總體規(guī)模
d: 絕對誤差限度
P: 總體中具有某一特征的比例。如果未知,取P=0.5。
z: 在某一置信度下對應的分位數(shù)。常用的是95%的置信區(qū)間對應的z為1.96。
通過公式1可以看出,影響樣本數(shù)量的主要因素有總體規(guī)模、總體中某一特征的比例、某一置信區(qū)間下的z分數(shù)、誤差限度。
第4步:根據(jù)不同的抽樣方式,確定設計效應deff,并對初始樣本[n1]進行調整,對于系統(tǒng)抽樣,deff近似取1。
第5步:在實際郵件推送中,受硬彈、軟彈、用戶投訴等因素的影響,郵件送達率并不能做到100%,會有一定的損耗,這里假設送達率為a,對樣本量再次進行調整,從而確定最終抽樣樣本數(shù)。
示例1:假設某企業(yè)要開展一項新業(yè)務,符合這項業(yè)務的目標用戶群是N=10000人,根據(jù)過去的郵件推送記錄,這10000人的整體開封率是P=7%,我們希望新業(yè)務的開封率提升到10%(d=10%-7%=3%),10000用戶的送達率是a=98%。根據(jù)公式1和2,可以計算出在95%的置信區(qū)間下(z=1.96)樣本數(shù)量為276個樣本。
如果上述業(yè)務缺乏總體開封率的統(tǒng)計,那么可以假設P=50%,誤差限度3%,從而計算出在95%的置信區(qū)間下(z=1.96)樣本數(shù)量為984個樣本。
六、假設檢驗
假設檢驗是利用樣本去估計總體的一種統(tǒng)計學方法,其基本思想就是小概率事件,即當某一事件出現(xiàn)的概率非常小的時候,我們就認為其不會發(fā)生。在執(zhí)行電子郵件營銷A/B測試的假設檢驗時,推薦使用的統(tǒng)計方法是兩總體比例之差進行假設檢驗。此外,考慮到執(zhí)行A/B測試主要兩個目的:1.哪種設計方案更好?2.相比較差方案,較好的方案改善了多少?下面分別介紹這兩種情況的假設檢驗過程。
(一)檢驗總體比例p1、p2是否相等
假設A組的開封人數(shù)為a1,送達人數(shù)為n1,則p1=[α]1/n1;B組的開封人數(shù)為b2,送達人數(shù)為n2,則p2=b2/n2。根據(jù)統(tǒng)計原理,如果n1p1、n1(1-p1)、n2p2、n2(1-p2)都大于等于10時,就可以認為是大樣本,從而基于正態(tài)分布對兩樣本的比例之差p1-p2的抽樣分布進行假設檢驗。
H0:兩組開封率無差異,即p1=p2
H1:兩組開封率有差異,即p1?p2
z=[p1-p2p(1-p)(1n1+1n2)]? (公式4)
p: 在原假設成立的情況下,將兩個樣本合并為一個樣本的開封率,即p=(x1+x2)/(n1+n2)。
在統(tǒng)計上,一般原假設H0是希望被拒絕的假設,備擇假設H1則是希望通過實驗證明能夠被接受的假設。在執(zhí)行A/B測試時,是希望找到有改善的解決方案,故原假設為p1=p2。然后通過如果計算z值,如果|z|>[zα/2],則拒絕原假設,否則則接受原假設。
示例2:假設某項新業(yè)務在執(zhí)行推送時間對郵件開封率影響的A/B測試,其中A組為上午8點推送,送達984人,開封70人;B組為晚上7點推送,送達983人,開封98人。直觀上看,B組的開封率更高一些,那么這兩組是否有統(tǒng)計學上的顯著差異呢?根據(jù)公式4,可計算出z=2.265。假設置信區(qū)間為95%,那么[zα/2]=1.96,由于|z|>[zα/2],我們可以拒絕原假設,晚上7點推送的B組的設計方案更好。
(二)檢驗總體比例p1-p2是否等于某個常數(shù)d0
H0:兩組開封率之差小于或等于d0,即p1-p2≤d0
H1:兩組開封率之差大于d0,即p1-p2> d0
z=[p1-p2-d0p1(1-p1)n1+p2(1-p2)n2]? (公式5)
如果計算的z值|z|>[zα/2],則拒絕原假設,否則則接受原假設。
在實際執(zhí)行A/B測試中,我們不僅要檢驗哪組效果更好,通常我們也會將測試結論分享給其他部門或領導,并明確通過A/B測試將指標提升了多少,這里就可以借助兩總體比例之差是某個常數(shù)進行假設檢驗。繼續(xù)以示例2為例,相比A組,B組開封的效果是否提升了43%(即d0=3%)?根據(jù)公式5,可計算出z=-0.115,假設置信區(qū)間為95%,那么[zα/2]=1.96,由于|z|<[zα/2],接受原假設,即盡管B組效果更好,但相比A組,未提升43%。
七、確定合理的α值
在統(tǒng)計學上,原假設正確,而我們卻當作錯誤加以拒絕的概率,稱為顯著性水平α,即小概率事件發(fā)生的可能性大小。α值在不同的行業(yè)有不同的選擇,如果拒絕原假設的風險越大,成本越高,那么建議將顯著性水平α值設置得較小一些;如果拒絕原假設的風險很小,成本不高,那么這時可將顯著性水平α值設置大一些。常用的顯著性水平α值有0.01、0.05、0.1。
在電子郵件營銷的A/B測試中,依然推薦使用常用的顯著性水平α值。但根據(jù)個人經(jīng)驗,如果嚴格執(zhí)行上述標準,將α設置得較小,可能會讓很多測試結果找不出統(tǒng)計學上的差異性,長期下來,會讓大量的測試沒有結論,打擊測試團隊的積極性。因此,在要求不高的情況下,將顯著性水平α設置成0.2或0.3,也是完全可以接受的。
八、A/B測試總結報告
當通過一組測試,發(fā)現(xiàn)某個變量對改善指標有比較明顯的影響時,應將相關測試數(shù)據(jù)和檢驗過程發(fā)送給相關部門的負責人,并請示測試方案是否可以向總體進行推廣應用。此外,對A/B測試結果應制作成月度報告,在全公司范圍內進行展示。這樣做的好處是,一方面可以展示測試成果,突顯測試團隊的價值,爭取到更多的資源;另一方面可以使公司的其他部門快速獲取A/B測試經(jīng)驗,加快業(yè)務推進;最后,還可以營造一種測試文化,吸納更多的測試創(chuàng)意。需要注意的是,通過樣本測試發(fā)現(xiàn)的有益方法,在向總體應用時,有時會表現(xiàn)得并未像測試那樣好,導致這個問題的原因有很多,如抽樣是否做到足夠隨機、改善指標是否有周期性、是否存在測試方案外的其他關鍵影響因素等。
參考文獻:
[1]金勇進,杜子芳,蔣妍.《抽樣技術》(第四版)[M].北京:中國人民大學出版社,2015.
[2]賈俊平.《統(tǒng)計學》(第六版)[M].北京:中國人民大學出版社,2015.
作者簡介:
楊山山(1982.4-? ),男,漢族,遼寧省大連市普蘭店,中國人民大學在職研究生,研究方向:數(shù)理統(tǒng)計。