亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于社交媒體數(shù)據(jù)的貝葉斯A/B 檢驗(yàn)

2021-09-28 11:23:16李薛莎付英姿夏思琴

軟件導(dǎo)刊 2021年9期

關(guān)鍵詞：模型

李薛莎，付英姿，薛茜，夏思琴

（昆明理工大學(xué) 理學(xué)院，云南昆明 650093）

0 引言

A/B 檢驗(yàn)主要用于考察相對(duì)于原方案A，改進(jìn)方案B 是否更優(yōu)。其基本思想是從包含實(shí)驗(yàn)組和對(duì)照組的平行實(shí)驗(yàn)中收集數(shù)據(jù)，并利用檢驗(yàn)手段評(píng)估兩個(gè)方案中哪一組成功率更高，從而幫助決策者作出科學(xué)判斷。目前，A/B 檢驗(yàn)已被廣泛應(yīng)用于生物醫(yī)學(xué)、藥學(xué)、心理學(xué)、社會(huì)行為學(xué)等多個(gè)領(lǐng)域。例如，醫(yī)藥公司常常利用A/B 檢驗(yàn)考察所研發(fā)的新藥相較于傳統(tǒng)藥物，在療效方面是否更顯著。此外，A/B檢驗(yàn)還可用來(lái)衡量心理干預(yù)是否能夠加快促進(jìn)病人痊愈。在大數(shù)據(jù)背景下，社交媒體數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值，A/B 檢驗(yàn)已被成功地運(yùn)用到商業(yè)網(wǎng)站點(diǎn)擊率預(yù)測(cè)以及精準(zhǔn)營(yíng)銷(xiāo)方案的投放等多個(gè)應(yīng)用場(chǎng)景，然而從國(guó)內(nèi)外相關(guān)研究成果看，大多數(shù)研究還處于起步狀態(tài)。由此可見(jiàn)，對(duì)A/B 檢驗(yàn)問(wèn)題的研究有著巨大的探索空間和價(jià)值。

在經(jīng)典的假設(shè)檢驗(yàn)問(wèn)題中，A/B 檢驗(yàn)可以理解為關(guān)于零假設(shè)的顯著性檢驗(yàn)（Null Hypothesis Significance Testing，NHST），其相應(yīng)的p值表示樣本在原假設(shè)下出現(xiàn)極端事件的概率，即觀測(cè)到的顯著性水平。當(dāng)p值小于規(guī)定的顯著性水平α?xí)r，則拒絕原假設(shè)；否則，接受原假設(shè)。隨著研究的深入，人們發(fā)現(xiàn)經(jīng)典的檢驗(yàn)方法存在諸多局限性，例如，Wagenmakers［1］研究表明，基于p值的假設(shè)檢驗(yàn)存在邏輯和統(tǒng)計(jì)限制，它易受主觀意圖的影響，不能很好地量化統(tǒng)計(jì)證據(jù)；Gallistel 等［2］、Rouder 等［3］進(jìn)一步指出，基于p值的經(jīng)典檢驗(yàn)方法依賴于未觀察到的數(shù)據(jù)，難以對(duì)原假設(shè)提供足夠的支持。為此，Malek 等［4］對(duì)基于p值的經(jīng)典檢驗(yàn)方法作出改進(jìn)，使其能夠隨著數(shù)據(jù)的增加而自動(dòng)進(jìn)行校正，更多相關(guān)研究成果可參見(jiàn)文獻(xiàn)［5-7］。

眾所周知，貝葉斯方法的優(yōu)勢(shì)在于它能夠借助于優(yōu)良的先驗(yàn)信息以提高檢驗(yàn)精度，同時(shí)對(duì)樣本量沒(méi)有過(guò)多的限制。從貝葉斯的角度看，貝葉斯A/B 檢驗(yàn)的關(guān)鍵是比較兩種方案下后驗(yàn)概率的大小，其本質(zhì)是通過(guò)引入貝葉斯因子以實(shí)現(xiàn)模型間的比較和選擇。早在1935 年，Jeffreys［8-9］率先提出用于標(biāo)準(zhǔn)假設(shè)檢驗(yàn)問(wèn)題的貝葉斯因子，這為貝葉斯A/B 檢驗(yàn)奠定了基礎(chǔ)。隨后，Kass 等［10-11］改進(jìn)了Jeffreys 所提出的近似貝葉斯因子的方法，并將其應(yīng)用于兩個(gè)二項(xiàng)式比例相等性的檢驗(yàn)問(wèn)題上；Alexander 等［12］研究了兩個(gè)常見(jiàn)的基于貝葉斯因子假設(shè)檢驗(yàn)的應(yīng)用場(chǎng)景，即檢驗(yàn)正態(tài)均值的零度（即貝葉斯t檢驗(yàn)）和檢驗(yàn)相關(guān)性的零度問(wèn)題，并將其應(yīng)用于心理學(xué)實(shí)驗(yàn)。然而，從現(xiàn)有研究成果看，目前大多數(shù)研究?jī)H考慮了兩個(gè)方案下成功概率是否相等的問(wèn)題，還難以確定出最優(yōu)方案。為此，本文擬考慮如下3 類(lèi)假設(shè)檢驗(yàn)問(wèn)題，即：①H0:P1=P2，H1:P1≠P2（兩個(gè)方案是否相等）；②H0:P1=P2，H+:P1P2（方案A 更優(yōu)）。

網(wǎng)頁(yè)改版能否帶來(lái)更多點(diǎn)擊率，從而為公司帶來(lái)更大利潤(rùn)一直都是網(wǎng)絡(luò)公司關(guān)注的核心問(wèn)題。為此，本文以硅谷前沿科技教育平臺(tái)優(yōu)達(dá)學(xué)城（Udacity）提供的新舊版本網(wǎng)頁(yè)點(diǎn)擊轉(zhuǎn)換率數(shù)據(jù)為例，建立了基于貝葉斯因子的A/B檢驗(yàn)并挑選出最優(yōu)方案。具體地，首先建立貝葉斯框架下的二元Logistic 回歸模型以刻畫(huà)網(wǎng)頁(yè)改版前后的點(diǎn)擊率；在后驗(yàn)概率的比較方面，其關(guān)鍵在于貝葉斯因子的計(jì)算，注意到貝葉斯因子是不同假設(shè)下邊際似然函數(shù)的比值，問(wèn)題就進(jìn)一步歸結(jié)為邊際似然的計(jì)算。為此，采用拉普拉斯近似方法解決上述問(wèn)題，特別地，對(duì)于單邊假設(shè)（II）和（III）而言，本文在拉普拉斯近似的基礎(chǔ)上增加了重要性抽樣技術(shù)以更好地?cái)M合尖峰厚尾分布。研究結(jié)果表明，對(duì)網(wǎng)頁(yè)的改版并不能有效地增加用戶點(diǎn)擊率。

1 模型與方法

1.1 假設(shè)檢驗(yàn)問(wèn)題提出

假設(shè)有兩個(gè)方案A 和B，方案A 表示原方案，方案B 則是對(duì)A 作出某些改進(jìn)或調(diào)整后形成的新方案。令p1為方案A 的成功率，p2為方案B 的成功率。A/B 檢驗(yàn)的目的是考察新方案對(duì)于原方案而言，在成功率上是否有所提高，與之對(duì)應(yīng)的假設(shè)檢驗(yàn)問(wèn)題為：原假設(shè)H0:P1=P2，備擇假設(shè)H1:P1≠P2。若接受原假設(shè)，則認(rèn)為A、B 方案沒(méi)有區(qū)別；否則，認(rèn)為兩個(gè)方案有區(qū)別。注意到，上述假設(shè)檢驗(yàn)問(wèn)題僅關(guān)注了A、B 方案是否等價(jià)，而無(wú)法確定哪一個(gè)方案更優(yōu)。為此，本文在經(jīng)典檢驗(yàn)問(wèn)題的基礎(chǔ)上又引出如下兩個(gè)單邊檢驗(yàn)問(wèn)題，分別為：H+:P1P2，表示方案A 的成功率大于B。在后續(xù)研究中，本文將重點(diǎn)討論如下3 類(lèi)假設(shè)檢驗(yàn)問(wèn)題，即：（I）H0:P1=P2，H1:P1≠P2；（Ⅱ）H0:P1=P2，H+:P1P2。

1.2 二項(xiàng)分布與Logistic 回歸

在具體實(shí)施過(guò)程中，A/B 檢驗(yàn)從包含實(shí)驗(yàn)組（A）和對(duì)照組（B）的平行實(shí)驗(yàn)中收集數(shù)據(jù)，并根據(jù)樣本計(jì)算出不同方案下的成功率以確定最優(yōu)方案。假設(shè)Y1為方案A 下的成功次數(shù)。顯然，Y1服從成功率為P1的二項(xiàng)分布，即其中N1表示方案A 的實(shí)驗(yàn)總次數(shù)。同理，假設(shè)Y2為方案B 下的成功次數(shù)，即其中N2表示方案B 的實(shí)驗(yàn)總次數(shù)。對(duì)于二項(xiàng)分布而言，Logistic 回歸是刻畫(huà)二項(xiàng)分布中成功概率P的通用選擇。為此，本文考慮如下典則聯(lián)系函數(shù)

經(jīng)典的假設(shè)檢驗(yàn)問(wèn)題需要比較兩個(gè)方案在成功率上是否相等，即需要考察假設(shè)檢驗(yàn)問(wèn)題H0:P1=P2，H1:P1≠P2，注意到：

可見(jiàn)，原假設(shè)檢驗(yàn)問(wèn)題與檢驗(yàn)H0:η2-η1=0，H1:η2-η1≠0 是等價(jià)的。進(jìn)一步地，若令ψ=η2-η1，原假設(shè)檢驗(yàn)就退化為檢驗(yàn)ψ是否為0 的問(wèn)題。為了檢驗(yàn)兩個(gè)二項(xiàng)式比例是否相等［11］，可構(gòu)建二元Logistic 回歸模型如下：

結(jié)合式（1）、式（2）則有：

①H0:P1=P2,H1:P1≠P2→H0:ψ=0,H1:ψ≠0；

②H0:P1=P2,H+:P10；

③H0:P1=P1,H-:P1>P2→H0:ψ=0,H-:ψ<0。

1.3 基于貝葉斯檢驗(yàn)的后驗(yàn)推斷

1.3.1 貝葉斯因子及邊際似然計(jì)算

在貝葉斯框架下，貝葉斯因子［13］（Bayes Factor）量化了數(shù)據(jù)對(duì)原模型和備選模型的支持程度，是模型比較和選擇的重要統(tǒng)計(jì)量。其定義為：對(duì)于兩個(gè)模型H0、H1，其中H0表示原模型，H1表示競(jìng)爭(zhēng)模型，假設(shè)數(shù)據(jù)集Y來(lái)自于H0、H1中的其中一個(gè)，分別對(duì)應(yīng)于邊際似然函數(shù)：和則有：

其被稱為用于比較原模型H0和備擇模型H1的貝葉斯因子。對(duì)于貝葉斯因子的解釋?zhuān)话阏J(rèn)為，當(dāng)BF10<1 時(shí)，表明有證據(jù)支持原模型，即H0優(yōu)于H1；當(dāng)1

針對(duì)本文考慮的3 類(lèi)假設(shè)檢驗(yàn)問(wèn)題：①H0:ψ=0,H1:ψ≠0；②H0:ψ=0,H+:ψ>0；③H0:ψ=0,H-:ψ<0。其對(duì)應(yīng)的貝葉斯因子分別為：

如上所述，A/B 檢驗(yàn)關(guān)注的是新方案相對(duì)于原方案是否有所改進(jìn)。從貝葉斯的角度看，問(wèn)題歸結(jié)于考察上述3類(lèi)假設(shè)檢驗(yàn)的后驗(yàn)概率是否有所提升的問(wèn)題。由貝葉斯定理可知，后驗(yàn)概率比即后驗(yàn)似然比與貝葉斯因子之間存在如下關(guān)系：

其中，P(Y|H0)表示原模型的邊際似然函數(shù)，表示備擇模型的邊際似然函數(shù)。

本文分別給出了3 類(lèi)假設(shè)檢驗(yàn)問(wèn)題下貝葉斯因子的具體表達(dá)式：

（1）考慮H0:ψ=0，H1:ψ≠0，貝葉斯因子為：

（2）考慮H0:ψ=0，H+:ψ>0，貝葉斯因子為：

（3）考慮H0:ψ=0，H-:ψ<0，貝葉斯因子為：

1.3.2 拉普拉斯近似

由式（5）可知，后驗(yàn)似然比由貝葉斯因子和先驗(yàn)似然比兩部分構(gòu)成，而先驗(yàn)似然比通常事先指定，于是問(wèn)題的關(guān)鍵就歸結(jié)為如何計(jì)算貝葉斯因子。由式（6）—式（8）可知，貝葉斯因子定義為兩個(gè)競(jìng)爭(zhēng)模型的邊際似然函數(shù)的比值，其計(jì)算涉及難以處理的復(fù)雜積分。為此，本文將采用拉普拉斯近似［14-15］（Laplace Approximation）的方法解決復(fù)雜積分求解問(wèn)題。

拉普拉斯近似的基本思想是將難以求解的積分問(wèn)題轉(zhuǎn)換為正態(tài)分布形式，以降低復(fù)雜積分求解難度。這種近似方法適用于被積函數(shù)是單峰時(shí)的情形，以確保拉普拉斯近似逼近收斂到唯一一個(gè)最大值。眾所周知，泰勒展開(kāi)可以通過(guò)一個(gè)點(diǎn)對(duì)函數(shù)進(jìn)行觀察，基于此，拉普拉斯近似通過(guò)對(duì)被積函數(shù)在眾數(shù)點(diǎn)（mode）的鄰域內(nèi)進(jìn)行二階泰勒展開(kāi)以近似積分，更多拉普拉斯近似的相關(guān)細(xì)節(jié)可參考附錄。

針對(duì)情形（1），考慮假設(shè)H0:ψ=0，由于在H0下模型只含有參數(shù)β，根據(jù)拉普拉斯近似有：

考慮備擇假設(shè)H1:ψ≠0，此時(shí)模型中含有兩個(gè)參數(shù)待估參數(shù)β和ψ，類(lèi)似地，根據(jù)拉普拉斯近似有：

基于式（9）、式（10），可計(jì)算得到貝葉斯因子BF10，接下來(lái)將考慮BF+0和BF-0的計(jì)算問(wèn)題。

1.3.3 重要性抽樣

顯然，單邊假設(shè)H+是下界為0 的截尾正態(tài)分布，H-是上界為0 的截尾正態(tài)分布，此時(shí)若繼續(xù)使用拉普拉斯近似方法，將會(huì)導(dǎo)致有偏甚至無(wú)效的統(tǒng)計(jì)推斷結(jié)論。為此，本文引入重要性抽樣［16-17］近似表示H+和H-下的邊際似然函數(shù)。

重要性抽樣突顯了被積函數(shù)中重要區(qū)域的貢獻(xiàn)，是蒙特卡洛方法（Monte Carlo，MCMC）中最有效的方差縮減技術(shù)。其主要思想是利用一個(gè)分布較簡(jiǎn)單的函數(shù)（重要性密度函數(shù)）中大量樣本點(diǎn)的加權(quán)平均以近似積分過(guò)程。在模型H+、H-下分別令經(jīng)驗(yàn)表明，當(dāng)多元t分布的自由度為5 時(shí)，對(duì)于尖峰厚尾的分布具有良好的擬合效果。因此，本文選取自由度為5 的多元t分布作為重要性密度函數(shù)。

針對(duì)情形（2），由于模型H0邊際似然函數(shù)在式（10）已計(jì)算出，因此只需計(jì)算模型H+的邊際似然函數(shù)，其近似結(jié)果為：

本文利用重要性重抽樣（SIR）方法獲取后驗(yàn)樣本，基本思想是在重要性抽樣函數(shù)中抽取樣本，通過(guò)加權(quán)修正抽樣概率，使樣本中的每個(gè)觀測(cè)點(diǎn)依據(jù)概率再次抽樣，從而獲得后驗(yàn)樣本。具體步驟如下：

（1）產(chǎn)生樣本。從給定參數(shù)的多元t分布函數(shù)tin中抽取N個(gè)獨(dú)立同分布的樣本β(n)、γ(n)，其中n=1...N。

（2）計(jì)算重要性權(quán)重：

（4）重采樣及算法監(jiān)控。使每一個(gè)觀測(cè)點(diǎn)以概率vn出現(xiàn)在N個(gè)樣本中，同時(shí)有放回地重新抽取樣本，直至的分布收斂到目標(biāo)后驗(yàn)分布。在收斂性方面，本文采用EPSR（Estimates Potential Scale Reduction）值以監(jiān)控算法收斂情況。

針對(duì)情形（3），由于模型H0邊際似然函數(shù)在式（10）已給出，只需計(jì)算模型H-下的邊際似然函數(shù)，其近似結(jié)果為：

模型H+和H-對(duì)應(yīng)的邊際似然函數(shù)近似計(jì)算結(jié)果如式（11）、式（13）所示，結(jié)合模型H0的邊際似然函數(shù)近似結(jié)果，可分別計(jì)算出貝葉斯因子BF+0和BF-0。

1.3.4 先驗(yàn)設(shè)置

如上所述，當(dāng)β和ψ為零正交參數(shù)時(shí)，β不同的先驗(yàn)設(shè)置對(duì)貝葉斯因子影響很小。然而，ψ反映出備擇假設(shè)與零假設(shè)之間的差異，因此對(duì)ψ的先驗(yàn)設(shè)置至關(guān)重要。本文對(duì)參數(shù)β和ψ均考慮正態(tài)先驗(yàn)，對(duì)于參數(shù)β，其先驗(yàn)設(shè)定為標(biāo)準(zhǔn)正態(tài)分布，即β～N(0,1) 。對(duì)于模型H+:ψ>0，參數(shù)ψ的分布是一個(gè)下界為0 的截尾正態(tài)分布，而對(duì)于模型H-:ψ<0，ψ的分布是一個(gè)上界為0 的截尾正態(tài)分布。因此，本文考慮為了得到超參數(shù)μψ和σψ的具體取值，考慮如下最小二乘法（Least-squares minimization）以估計(jì)參數(shù)μψ、σψ。

其中，qi,i=1,...I表示分位數(shù)，pi,i=1,...I表示分位數(shù)對(duì)應(yīng)的概率值表示參數(shù)ψ的先驗(yàn)累計(jì)分布函數(shù)，更多計(jì)算細(xì)節(jié)可參考文獻(xiàn)［18］。

基于貝葉斯因子，結(jié)合先驗(yàn)概率比，可計(jì)算出后驗(yàn)概率比。由于貝葉斯方法具有內(nèi)在一致性，即上一步的后驗(yàn)可作為下一步的先驗(yàn)，通過(guò)考察不同先驗(yàn)設(shè)置下后驗(yàn)概率的變化情況，可以量化數(shù)據(jù)對(duì)不同競(jìng)爭(zhēng)模型的支持程度，從而進(jìn)行模型與方案之間的選擇。

2 實(shí)例分析

本文利用硅谷前沿科技教育平臺(tái)優(yōu)達(dá)學(xué)城（Udacity）提供的新舊版本網(wǎng)頁(yè)點(diǎn)擊轉(zhuǎn)換率數(shù)據(jù)為例，說(shuō)明本方法的適用性。該公司在舊版網(wǎng)頁(yè)的基礎(chǔ)上開(kāi)發(fā)了一款新的網(wǎng)頁(yè)，將新版網(wǎng)頁(yè)投放到客戶端，嘗試增加用戶點(diǎn)擊率，期望讓更多的用戶愿意為產(chǎn)品付款，同時(shí)幫助公司了解實(shí)施新方案能否增加公司效益。該數(shù)據(jù)集共包含10 000 個(gè)樣本點(diǎn)，涉及舊版網(wǎng)頁(yè)（Old Page）點(diǎn)擊轉(zhuǎn)換率、新版網(wǎng)頁(yè)（New Page）點(diǎn)擊轉(zhuǎn)換率，記方案A 表示公司采用舊版網(wǎng)頁(yè)，方案B 表示公司采用新版網(wǎng)頁(yè)，并將用戶成功跳轉(zhuǎn)網(wǎng)頁(yè)并付款的事件記為“1”，反之記為“0”。

本文選取5 000 個(gè)實(shí)驗(yàn)組使用舊版網(wǎng)頁(yè)，5 000 個(gè)對(duì)照組使用新版網(wǎng)頁(yè)，記錄每組中用戶的頁(yè)面使用情況。公司感興趣的是網(wǎng)頁(yè)改版能否增加點(diǎn)擊率，從而給公司帶來(lái)利潤(rùn)。假設(shè)公司預(yù)期使用新版網(wǎng)頁(yè)點(diǎn)擊率提高15%，這里的15%對(duì)應(yīng)著絕對(duì)風(fēng)險(xiǎn)的先驗(yàn)中位數(shù)，其置信水平為95%的置信區(qū)間為[0.025,0.275]。本文為參數(shù)β、ψ分配正態(tài)分布先驗(yàn)。如上所述，參數(shù)β先驗(yàn)的改變對(duì)貝葉斯檢驗(yàn)結(jié)果影響不大，因此考慮將其設(shè)置為標(biāo)準(zhǔn)正態(tài)分布，即β～N(0,1)，而參數(shù)ψ反映出備擇假設(shè)與零假設(shè)之間的差異，故ψ的先驗(yàn)設(shè)置至關(guān)重要。Howard 等［19］表明當(dāng)成功概率P1非常（小）大時(shí)，成功概率P2也會(huì)非常（?。┐?，且二者具有相互依賴的關(guān)系。在此基礎(chǔ)上，本文同樣考慮，并使用最小二乘法估計(jì)超參數(shù)μψ、σψ，考慮取q=(0.025,0.15,0.275)，則對(duì)應(yīng)的概率值p=(0.025,0.5,0.975)，結(jié)合式（14）利用最小二乘估計(jì)計(jì)算出先驗(yàn)設(shè)置結(jié)果如表1 所示。

Table 1 Results of prior setting表1 先驗(yàn)設(shè)置結(jié)果

由上述分析可知，方案A 與B 相等、方案B 優(yōu)于A、方案B 劣于A 分別對(duì)應(yīng)于假設(shè)檢驗(yàn)問(wèn)題H0:ψ=0、H+:ψ>0、H-:ψ<0。不失一般性，將先驗(yàn)概率的初值賦為貝葉斯因子的計(jì)算結(jié)果分別為BF10=0.011，BF+0=0.01，BF-0=0.379，均小于1，表明有證據(jù)支持零假設(shè)，即P1=P2。根據(jù)計(jì)算出的貝葉斯因子，在給定先驗(yàn)概率的情形下，計(jì)算出不同假設(shè)模型下的后驗(yàn)概率，結(jié)果如表2 所示。

Table 2 Posterior probabilities of different models表2 不同模型下的后驗(yàn)概率

通過(guò)表2 可以發(fā)現(xiàn)，模型H0:ψ=0（p1=p2）的后驗(yàn)概率較先驗(yàn)概率提升較明顯，概率由0.5 增長(zhǎng)到0.837，模型H+:ψ>0（p1p2）的概率從0.25 下降到0.159，結(jié)果說(shuō)明相對(duì)于原方案A，改進(jìn)方案B 并不能有效地改善網(wǎng)頁(yè)點(diǎn)擊率。貝葉斯A/B 檢驗(yàn)中參數(shù)估計(jì)結(jié)果如表3 所示。

觀察表3 可以看出，P1的估計(jì)值為0.120，P2的估計(jì)值為0.129，二者差距不明顯，數(shù)據(jù)表明支持零假設(shè)H0:ψ=0，即P1=P2。因此，有理由認(rèn)為改進(jìn)后的網(wǎng)頁(yè)并不能給公司增加預(yù)期點(diǎn)擊率及利潤(rùn)回饋，但實(shí)際上存在這樣一種可能，即新版網(wǎng)頁(yè)確實(shí)能夠增加網(wǎng)頁(yè)點(diǎn)擊率，但是改善效果并沒(méi)有公司預(yù)期高。為了評(píng)估這種可能，本文利用貝葉斯絕對(duì)風(fēng)險(xiǎn)度量這種可能性，結(jié)果如圖1 所示。

Table 3 Results of parameter estimation表3 參數(shù)估計(jì)結(jié)果

Fig.1 Absolute risk圖1 絕對(duì)風(fēng)險(xiǎn)

其中，后驗(yàn)中值為0.008，95%的置信區(qū)間為［-0.004，0.021］。從圖1 可以看出，在兩個(gè)成功概率的差值不完全為0 的情況下，絕對(duì)風(fēng)險(xiǎn)的后驗(yàn)中值小于先驗(yàn)中值。因此，可以認(rèn)為對(duì)網(wǎng)頁(yè)進(jìn)行改版確實(shí)可以增加網(wǎng)頁(yè)點(diǎn)擊率，但是改善的效果遠(yuǎn)低于公司預(yù)期。

由此可知，參數(shù)ψ表示對(duì)數(shù)優(yōu)比，它可以反映出其他假設(shè)與零假設(shè)H0之間的差異程度。為了進(jìn)一步證實(shí)改版網(wǎng)頁(yè)對(duì)增加點(diǎn)擊率是否有效，本文繪制出關(guān)于參數(shù)ψ（對(duì)數(shù)比值比）的先驗(yàn)分布與后驗(yàn)分布圖像，如圖2 所示。

Fig.2 Log odds ratio圖2 對(duì)數(shù)優(yōu)比

其中，后驗(yàn)中值為0.078，95% 的置信區(qū)間［-0.038，0.195］。從圖2 可以看出，對(duì)數(shù)優(yōu)比的后驗(yàn)分布中值小于先驗(yàn)分布中值。可以看出，Udacity 平臺(tái)推出新網(wǎng)頁(yè)后，對(duì)網(wǎng)頁(yè)點(diǎn)擊率有一定促進(jìn)作用，但是低于公司預(yù)期。因此，公司可以考慮不對(duì)網(wǎng)頁(yè)進(jìn)行更換。

3 結(jié)語(yǔ)

本文以硅谷前沿科技教育平臺(tái)優(yōu)達(dá)學(xué)城（Udacity）提供的新舊版本網(wǎng)頁(yè)點(diǎn)擊轉(zhuǎn)換數(shù)據(jù)為例，通過(guò)構(gòu)建完整貝葉斯框架下的二元Logistic 回歸模型與后驗(yàn)?zāi)M算法對(duì)新舊版本網(wǎng)頁(yè)點(diǎn)擊率進(jìn)行A/B 檢驗(yàn)。研究結(jié)果顯示，公司改版后的網(wǎng)頁(yè)對(duì)于增加點(diǎn)擊率從而增加公司收益的作用并不明顯，因此對(duì)于網(wǎng)頁(yè)更換可以酌情考慮。針對(duì)不同的領(lǐng)域，該方法可以應(yīng)用于醫(yī)療行業(yè)、心理學(xué)行業(yè)等，以幫助解決實(shí)際問(wèn)題。本文主要研究了貝葉斯框架下A/B 檢驗(yàn)在商業(yè)方面的應(yīng)用及推廣，其研究成果對(duì)于企業(yè)網(wǎng)頁(yè)改版具有重要參考價(jià)值及指導(dǎo)意義。然而，本文僅考慮了基于兩組方案數(shù)據(jù)（A 組和B 組）的貝葉斯A/B 檢驗(yàn)，事實(shí)上，為了考慮更多的可能性，通常需要比較兩個(gè)以上的方案，從而選擇其中最優(yōu)的一個(gè)方案。例如，當(dāng)實(shí)驗(yàn)方案組別增加至3組時(shí)（A 組、B 組、C 組），可以使用貝葉斯損失函數(shù)衡量不同方案成功概率的大小，從而選擇最優(yōu)方案［20］。