在網(wǎng)站和移動產(chǎn)品設(shè)計(jì)和開發(fā)中、以及互聯(lián)網(wǎng)產(chǎn)品運(yùn)營中,我們經(jīng)常會面臨多個(gè)產(chǎn)品設(shè)計(jì)和運(yùn)營方案的選擇,比如某個(gè)按鈕是用紅色還是用藍(lán)色,是放左邊還是放右邊。傳統(tǒng)的解決方法通常是集體討論表決,或者由某位專家或領(lǐng)導(dǎo)來拍板,實(shí)在決定不了時(shí)也有隨機(jī)選一個(gè)上線的。雖然傳統(tǒng)解決辦法多數(shù)情況下也是有效的,但A/B 測試(A/B Testing)可能是解決這類問題的一個(gè)更好的方法。
在軟件開發(fā)中,產(chǎn)品需求通過多種技術(shù)手段來實(shí)現(xiàn); A/B測試實(shí)驗(yàn)提供了一個(gè)有價(jià)值的方式來評估新功能對客戶行為的影響。
在運(yùn)營過程中,AB測試用得更加普遍,比如發(fā)送郵件或者廣告,先拿小樣本,測試多個(gè)版本,數(shù)據(jù)表明哪一個(gè)廣告或郵件的轉(zhuǎn)化率高,就用哪一個(gè)郵件或廣告。
1 什么是A/B測試?
A/B測試是一種流行的網(wǎng)頁優(yōu)化方法,可以用于增加轉(zhuǎn)化率注冊率等網(wǎng)頁指標(biāo)。簡單來說,就是為同一個(gè)目標(biāo)制定兩個(gè)方案(比如兩個(gè)頁面),將產(chǎn)品的用戶流量分割成 A/B 兩組,一組試驗(yàn)組,一組對照組,兩組用戶特點(diǎn)類似,并且同時(shí)運(yùn)行。試驗(yàn)運(yùn)行一段時(shí)間后分別統(tǒng)計(jì)兩組用戶的表現(xiàn),再將數(shù)據(jù)結(jié)果進(jìn)行對比,就可以科學(xué)的幫助決策。比如在這個(gè)例子里,50%用戶看到 A 版本頁面,50%用戶看到 B 版本頁面,結(jié)果 A 版本用戶轉(zhuǎn)化率 23%,高于 B 版本的 11%,在試驗(yàn)流量足夠大的情況下,我們就可以判定 A 版本勝出,然后將 A 版本頁面推送給所有的用戶。
AB測試本質(zhì)上是個(gè)分離式組間實(shí)驗(yàn),以前進(jìn)行AB測試的技術(shù)成本和資源成本相對較高,但現(xiàn)在一系列專業(yè)的可視化實(shí)驗(yàn)工具的出現(xiàn),AB測試已越來越成為網(wǎng)站優(yōu)化常用的方法。
A/B測試其實(shí)是一種“先驗(yàn)”的實(shí)驗(yàn)體系,屬于預(yù)測型結(jié)論,與“后驗(yàn)”的歸納性結(jié)論差別巨大。A/B測試的目的在于通過科學(xué)的實(shí)驗(yàn)設(shè)計(jì)、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實(shí)驗(yàn)結(jié)論,并確信該結(jié)論在推廣到全部流量可信。
2 有天然存在的AB測試嗎?
A/B 測試并不是互聯(lián)網(wǎng)測試新發(fā)明的方法,事實(shí)上,自然界也存在著類似 A/B 測試的事件,比如下圖中的達(dá)爾文雀。
達(dá)爾文雀
達(dá)爾文雀主要生活在太平洋東部加拉帕戈斯(Galapagos)的一個(gè)名為伊莎貝拉(Isabela)的島上,一部分生活在島的西部,另一部分生活在島的東部,由于生活環(huán)境的細(xì)微不同它們進(jìn)化出了不同的喙。這被認(rèn)為是自然選擇學(xué)說上的一個(gè)重要例證。
同樣一種鳥,究竟哪一種喙更適合生存呢?自然界給出了她的解決方案,讓鳥兒自己變異(多個(gè)設(shè)計(jì)方案),然后優(yōu)勝劣汰。具體到達(dá)爾文雀這個(gè)例子上,不同的環(huán)境中喙也有不同的解決方案。
上面的例子雖然和網(wǎng)站設(shè)計(jì)無關(guān),但包含了 A/B 測試最核心的思想,即:
1、多個(gè)方案并行測試;
2、每個(gè)方案只有一個(gè)變量(比如鳥喙)不同;
3、以某種規(guī)則優(yōu)勝劣汰。
需要特別留意的是第 2 點(diǎn),它暗示了 A/B 測試的應(yīng)用范圍,——必須是單變量。
3 什么情況不適合做 A/B 測試?
有時(shí)多個(gè)設(shè)計(jì)稿可能會有非常大的差異,這樣的情況一般不太適合做 A/B 測試,因?yàn)樗鼈兊淖兞刻嗔?,變量之間會有較多的干擾,很難通過 A/B 測試的方法來找出各個(gè)變量對結(jié)果的影響程度。
另外,雖然 A/B 測試名字中只包含 A、B ,但并不是說它只能用于比較兩個(gè)方案的好壞,事實(shí)上,你完全可以設(shè)計(jì)多個(gè)方案進(jìn)行測試,“A/B 測試”這個(gè)名字只是一個(gè)習(xí)慣的叫法。
回到網(wǎng)站設(shè)計(jì),一般來說,每個(gè)設(shè)計(jì)方案應(yīng)該大體上是相同的,只是某一個(gè)地方有所不同,比如某處排版、文案、圖片、顏色等。然后對不同的用戶展示不同的方案。
要注意,不同的用戶在他的一次瀏覽過程中,看到的應(yīng)該一直是同一個(gè)方案。比如他一開始看到的是 A 方案,則在此次會話中應(yīng)該一直向他展示 A 方案,而不能一會兒讓他看 A 方案,一會兒讓他看 B 方案。同時(shí),還需要注意控制訪問各個(gè)版本的人數(shù),大多數(shù)情況下我們會希望將訪問者平均分配到各個(gè)不同的版本上。要做到這些很簡單,根據(jù) cookie (比如 cookie 會話ID的最后一位數(shù)字)決定展示哪個(gè)版本就是一個(gè)不錯(cuò)的方法。
下面是 A/B 測試示意圖:
可以看到,要實(shí)現(xiàn) A/B 測試,我們需要做以下幾個(gè)工作:
1、開發(fā)兩個(gè)(或多個(gè))不同的版本并部署;
2、收集數(shù)據(jù);
3、分析數(shù)據(jù),得出結(jié)果。
4 哪些公司在做AB測試?
A/B測試如同GitHub、Docker、APM一樣在美國市場已經(jīng)被各類企業(yè)逐漸采用,比如Google、Airbnb等。
其測試范圍也不僅僅局限于網(wǎng)頁優(yōu)化,目前移動端的A/B測試需要同時(shí)支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java)。
5 什么階段的公司適合做AB測試?
AB測試你自己做是要花很大的人力、物力,大公司有很大的用戶,做AB測試的話,是可以持續(xù)投入的,每個(gè)投入的提升增長價(jià)值也很大,是公司中最為重要的。
很多中小型的公司具備條件,但不一定有經(jīng)驗(yàn)或能力執(zhí)行和分析,不過現(xiàn)在也有些第三方服務(wù)公司提供了工具,方便做AB測試,降低了門檻,比如吆喝科技(http://www.appadhoc.com)在這方面做得非常好。
初創(chuàng)公司,在產(chǎn)品還沒驗(yàn)證的時(shí)候,或者用戶量非常小的時(shí)候,不適合做AB測試。
6 如何利用A/B測試做增長?
AB 測試是撬動理性增長的最重要工具之一。AB測試背后的理念是在于用數(shù)據(jù)來幫助你做決策,來幫助你做更好的決策,很多東西就不再是靠藝術(shù)創(chuàng)造、靠想象、靠拍腦袋來做,而是靠數(shù)據(jù),像你寫代碼、做分析的時(shí)候那樣一種很理性的模式。
如果沒有 AB 測試,如果公司盲目地前行,會造成很大的損失。
在 Facebook 強(qiáng)行規(guī)定,發(fā)布任何一個(gè)很大功能的時(shí)候,開始要先計(jì)劃,同時(shí)要做一個(gè)預(yù)期,計(jì)劃就是你這個(gè)功能發(fā)布之后,大概周期是多久,你的預(yù)期就是對用戶的數(shù)據(jù)大概有怎樣的影響,一般來說是用戶的活躍度上漲,或者是用戶的數(shù)量上漲,但是可能有其他的影響。比如說用戶的在線時(shí)長會下降一點(diǎn)點(diǎn),因?yàn)槟愀佑行Я?,或者是對用戶的耗電量會有影響,以及它流量的損耗。
7 A/B測試的數(shù)據(jù)結(jié)果出來后,應(yīng)該怎么樣選擇?
從數(shù)據(jù)結(jié)果分析客觀的效果,但往往也需要根據(jù)用戶體驗(yàn)和總收益做一個(gè)折衷。
《增長黑客》作者范冰講過一個(gè)百姓網(wǎng)的案例。百姓網(wǎng)之前有段時(shí)間銷售員和產(chǎn)品經(jīng)理撕逼,銷售人員是覺得為了獲得更多銷售額,我們必須是用戶給錢越多,我們給他越大的特權(quán)。
百姓網(wǎng)A/B測試
他們想像左圖這樣,用戶在我這個(gè)平臺上發(fā)布的小帖子以后,誰給的錢多,給得最多的我給你置頂,同時(shí)又給你一個(gè)廣告位,就是紅色標(biāo)量,其他的給錢沒那么多的,在相對置頂比較高的位置。就是你越給錢,我越給你一些標(biāo)簽把你位置提得越高,這是銷售人員的思維;
產(chǎn)品經(jīng)理的思維是右邊這種,雖然你給了錢,你是我們的金主,你很重要,但是我要重視我們的產(chǎn)品體驗(yàn),如果說你給錢我就讓你上去的話,其實(shí)這上面滿眼看得都是廣告,而且誰給錢誰就上,那就有點(diǎn)像百度了,像現(xiàn)在這個(gè)樣子他們就提出我們的產(chǎn)品在右邊,不管你給了多少錢,我最多就給你個(gè)高亮,所以你的位置我不給你提前。
當(dāng)時(shí)為了這個(gè)原因,雙方激烈的撕逼。撕逼一般是沒有結(jié)果的,因?yàn)楣f公有理,婆說婆有理,后來他們想到組織一次 AB 測試,下發(fā)了兩波用戶,看這兩波用戶各自呈現(xiàn)兩種不同的頁面,哪波用戶最后轉(zhuǎn)化率高,帶來的收入高,還有其他一些指標(biāo)的綜合判斷。
結(jié)果是怎樣的?
大家從直覺判斷,一定覺得產(chǎn)品經(jīng)理的決定是對的,最后一定是用了產(chǎn)品經(jīng)理的方案。
測試結(jié)果,右邊產(chǎn)品經(jīng)理方案是好的,他的數(shù)據(jù)更高,但是最后用了左邊的方案。為什么?因?yàn)闇y試結(jié)果反饋顯示,這兩個(gè)方案雖然右邊更好,但是他這個(gè)好的方案只是精確到小數(shù)點(diǎn)后面的千分位,只是比前一種方案好了那么一點(diǎn),雖然是好了那么一點(diǎn),但是左邊的方案更吸金,左邊的能吸引到大家更多的往里投錢,更多的花錢,既然是只好了這么一點(diǎn)點(diǎn),當(dāng)然要用左邊的。于是經(jīng)過測試以后,他們最后用了左邊的方案,這是大家沒有想到的結(jié)果。
因?yàn)?AB 測試固然重要,AB 測試的結(jié)果的確右邊好,但是有的時(shí)候要結(jié)合實(shí)際,如果說差別不是很大的話,你可能要選一種賺錢更多的方式,這是 AB 測試一個(gè)很大的價(jià)值,大家不要偏信數(shù)據(jù),不要被數(shù)據(jù)給完全左右,有的時(shí)候結(jié)合一些你的理性的思考。
8 AB測試的具體實(shí)施流程是什么樣的呢?
其實(shí)非常簡單,可能在座的大家都有一定地印象,比如說你有一個(gè)網(wǎng)頁,就是你用戶流量的頁面,你用上面的綠色作為一個(gè)代表,如果你現(xiàn)在的頁面只有23%的轉(zhuǎn)化率,你希望通過某種黑客方式,把它調(diào)一調(diào),改一改,改成藍(lán)色的頁面,希望能夠提升它的轉(zhuǎn)化率。
那么可以用AB測試怎么做呢?就讓來訪流量的訪客,一半或者一部分的訪客看到綠色的老版本,一部分的訪客看到藍(lán)色的新版本,這些用戶自己是無感知的,他們并不知道自己是被分配在實(shí)驗(yàn)里面,他們依然按照自己的行為去操作,他們會買東西,會退出或者怎么樣,然后你看他的轉(zhuǎn)化率,有沒有發(fā)生變化,假如我們看到一個(gè)很糟糕的現(xiàn)象,這個(gè)藍(lán)色的版本,它的轉(zhuǎn)化率反而降低了只有11%了,結(jié)果你的老版本還勝出的,就說明你改進(jìn)的方案不成功,于是你會想其 他的方案再去改,總會找到能夠提升轉(zhuǎn)化率的方法。
9 有哪些AB測試需要注意的經(jīng)驗(yàn)或規(guī)則?
1.效果驚人,一些很微小的改動,它就可能造成對你KPI巨大的影響。
2.大多數(shù)改動都不會帶來大幅度提高KPI,所以你需要耐心。
3. Twyman法則,他是凡是看上去很出人意料的圖表,通常都是因?yàn)閿?shù)據(jù)統(tǒng)計(jì)錯(cuò)了。
4.各個(gè)產(chǎn)品幾乎都不一樣,你復(fù)制他人的經(jīng)驗(yàn),往往都沒有什么效果。
5.任何能加速用戶響應(yīng)時(shí)間的改動,都會帶來KPI的正向提升。
6.點(diǎn)擊率是很容易提高的,但是流失率是很難改進(jìn)的,千萬不要把精力放在優(yōu)化某個(gè)頁面點(diǎn)擊率上。
7.盡量不要做很復(fù)雜的大量改動的實(shí)驗(yàn),而是要做很簡單的小的迭代。
10 Facebook在增長過程中怎樣使用A/B測試?
據(jù)前Facebook工程師,現(xiàn)峰瑞資本技術(shù)合伙人覃超介紹,facebook做增長的流程為四步:
1 設(shè)計(jì)關(guān)鍵數(shù)據(jù)面板 2 關(guān)注核心動作 3 發(fā)現(xiàn)增長規(guī)律和模式 4 灰度發(fā)布和AB測試
具體在灰度發(fā)布和A/B測試分為以下步驟:
1 計(jì)劃:根據(jù)新功能制定改版計(jì)劃;
2 預(yù)期:數(shù)據(jù)會如何變化;
3 設(shè)置多版本:逐步開放給用戶;
4 清除:清除老的版本。
6個(gè)月內(nèi)所有版本完全線上灰度發(fā)布,通過不斷進(jìn)行用戶流量分割的方式進(jìn)行實(shí)驗(yàn),獲得無Bug口碑。
11 還有什么領(lǐng)域也用AB測試?
對照實(shí)驗(yàn),也叫隨機(jī)實(shí)驗(yàn)和A /B測試,曾在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響,其中包括醫(yī)藥,農(nóng)業(yè),制造業(yè)和廣告。
通過隨機(jī)化和適當(dāng)?shù)膶?shí)驗(yàn)設(shè)計(jì),實(shí)驗(yàn)構(gòu)建了科學(xué)的因果關(guān)系,這就是為什么對照實(shí)驗(yàn)(A/B測試)是藥物測試的最高標(biāo)準(zhǔn)。
正是考慮到后驗(yàn)方法的局限性,西醫(yī)(現(xiàn)代醫(yī)學(xué)科學(xué))首先引入了 A/B 測試的方法來驗(yàn)證新藥的療效。新藥的驗(yàn)證可能是這樣一個(gè)流程:100 位患者,被測試醫(yī)生悄悄劃分為 AB 兩組,注意患者自己并不知道自己被分組,注意 AB 兩組患者的健康情況應(yīng)該是接近一致的;A 組患者將會得到試驗(yàn)新藥,B 組患者將會得到長的和新藥幾乎一模一樣的安慰劑;如果最終 A 組患者比 B 組的療效更好,才能證明新藥的藥效。
12 A/B測試的價(jià)值是什么?
AB測試的實(shí)驗(yàn)?zāi)芰梢杂酶茖W(xué)方法來評估規(guī)劃過程中不同階段的想法價(jià)值。
A/B測試其實(shí)是一種“先驗(yàn)”的實(shí)驗(yàn)體系,屬于預(yù)測型結(jié)論,與“后驗(yàn)”的歸納性結(jié)論差別巨大。A/B測試的目的在于通過科學(xué)的實(shí)驗(yàn)設(shè)計(jì)、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實(shí)驗(yàn)結(jié)論,并確信該結(jié)論在推廣到全部流量可信。
通過值得信賴的實(shí)驗(yàn)來加速創(chuàng)新。通過解決技術(shù)和文化的挑戰(zhàn),我們給軟件開發(fā)人員、項(xiàng)目經(jīng)理和設(shè)計(jì)師一副“公正的耳朵”,幫助他們聽取客戶真實(shí)的訴求以及用數(shù)據(jù)驅(qū)動的決策。
13 A/B測試的應(yīng)用場景有哪些?
A/B測試這種方法論的應(yīng)用非常廣泛,包括在Web產(chǎn)品、移動產(chǎn)品、數(shù)字廣告優(yōu)化領(lǐng)域的應(yīng)用。
應(yīng)用場景由小到大可以可以分為:
元素/控件層面
功能層面
產(chǎn)品層面
公司層面
14 A/B測試中需要用到的基本概念有哪些?
樣本空間、樣本特征、實(shí)驗(yàn)流量
假定這是個(gè)電商的APP,產(chǎn)品有100萬用戶
樣本空間:100萬用戶
樣本特征:這100萬用戶有各式各樣的特點(diǎn)(性別、地域、手機(jī)品牌與型號、甚至是不是愛點(diǎn)按鈕等行為。。)
實(shí)驗(yàn)流量:100萬用戶成為100%的流量;假定將這100萬用戶根據(jù)樣本特征與相似性規(guī)則分為100組,那每組就是1萬人,這1萬人就是1%的流量
采樣、代表性誤差、聚類
相似性采樣:在A/B測試的實(shí)驗(yàn)中,需要保證小流量的實(shí)驗(yàn)具備代表性,也就是說1%的流量做出來的實(shí)驗(yàn)結(jié)果,可以推廣到100%的用戶,為了保證這一點(diǎn),需要保證1%的流量的樣本特征與100%流量的樣本特征具備相似性。(說個(gè)最簡單的邏輯:假定把所有小米手機(jī)用戶均勻的分到這100組中,那第一組的所有小米手機(jī)用戶的特征與第2組-第100組的所有小米手機(jī)用戶具備相似性)
代表性誤差:代表性誤差,又稱抽樣誤差。主要是指在用樣本數(shù)據(jù)向總體進(jìn)行推斷時(shí)所產(chǎn)生的隨機(jī)誤差。從理論上講,這種誤差是不可避免的,但是它是可以計(jì)算并且加以控制的。(繼續(xù)小米。。盡管把小米用戶均勻的分成了100組,但是不能完全保證每個(gè)組里的小米用戶的數(shù)量、性別、地域等特征完全一樣,這就帶來了實(shí)驗(yàn)誤差風(fēng)險(xiǎn))
聚類:物理或抽象對象的集合分成由類似的對象組成的多個(gè)類的過程被稱為聚類,也就是在分配小米用戶的過程中,需要按照實(shí)驗(yàn)?zāi)康牡牟煌烟卣飨嗨菩愿叩挠脩粽J(rèn)為是一類用戶,比如定義100次點(diǎn)擊為高頻點(diǎn)擊,可能在某些情況下也會認(rèn)為99次點(diǎn)擊的用戶跟100次點(diǎn)擊的用戶是一類用戶。
置信度與置信區(qū)間
在統(tǒng)計(jì)學(xué)中,一個(gè)概率樣本的置信區(qū)間(Confidence interval)是對這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)。置信區(qū)間展現(xiàn)的是這個(gè)參數(shù)的真實(shí)值有一定概率落在測量結(jié)果的周圍的程度。置信區(qū)間給出的是被測量參數(shù)的測量值的可信程度,即前面所要求的“一定概率”。這個(gè)概率被稱為置信水平。
置信度:簡單來將表示可信程度,一般來說95%的置信度就很好了,一些及其嚴(yán)苛的A/B測試實(shí)驗(yàn)才會到99%的置信度。差別在于,越高的置信度得出結(jié)論的實(shí)驗(yàn)時(shí)間越長、流量要求越高
置信區(qū)間:從前面的概念中也講了,1%的流量盡管具備了代表性,但是跟100%的流量還是有差異的嘛,所以實(shí)驗(yàn)結(jié)果的評判要有一定的前提的,置信度就是這個(gè)前提,置信區(qū)間表示在這個(gè)置信度的前提下,實(shí)驗(yàn)結(jié)果很可能會落在一個(gè)區(qū)間內(nèi),比如下圖,95%的置信度的前提下,置信區(qū)間為[-2.3%, +17.4%],可以解讀為這個(gè)A/B測試的實(shí)驗(yàn)既有可能使“點(diǎn)擊次數(shù)”降低2.3%,又有可能提升17.4%。說明這個(gè)實(shí)驗(yàn)結(jié)果還不穩(wěn)定,可能是試驗(yàn)時(shí)間短或者是流量不夠。
15 數(shù)據(jù)化驅(qū)動決策與確定性提升是什么意思?
數(shù)據(jù)化驅(qū)動決策:A/B測試是典型的靠譜數(shù)據(jù)化驅(qū)動決策,先用A/B測試的方式,讓比如1%或者5%的用戶進(jìn)行實(shí)驗(yàn),讓用戶用實(shí)際的行為來告訴你哪個(gè)好。比如這1%或者5%的用戶通過“點(diǎn)擊次數(shù)”這個(gè)指標(biāo)告訴你,他們不喜歡橙色的設(shè)計(jì)。這就是數(shù)據(jù)化驅(qū)動決策,不用一屋子人你拍桌子我瞪眼的爭辯到底那個(gè)設(shè)計(jì)好,讓真實(shí)的用戶跟數(shù)據(jù)告訴你到底哪個(gè)更好。
確定性提升:這就更好解釋了,有了這么個(gè)工具,每次只有效果好了才會上線,也就意味著每次優(yōu)化都能比以前更好,大大提高用戶的體驗(yàn)和產(chǎn)品經(jīng)理的自信心。
16 Airbnb的產(chǎn)品是怎么樣做AB測試的?
Airbnb經(jīng)常用灰度發(fā)布 和 A/B測試對重要頁面的修改和流程上的調(diào)優(yōu),通過灰度發(fā)布到1%或者5%的用戶,看其實(shí)際對用戶的數(shù)據(jù)影響(訪問時(shí)間增加、留存提高、下單率提高等),決定此修改到底是100%發(fā)布還是被砍掉。
Airbnb 從第一天就開始做 A/B 測試,不僅在自己的體系里做,還用第三方工具做,保證所有的決策,從產(chǎn)品,到運(yùn)營,乃至到戰(zhàn)略,都是經(jīng)過數(shù)據(jù)驅(qū)動的優(yōu)化決策。每一個(gè)改動,都先用 1%的流量來試驗(yàn),然后再推到 5%,再到 10%,到 20%,到 50%,最后再發(fā)布給所有用戶。
通過A/B測試,他們還有一個(gè)關(guān)于推介文案的結(jié)論:給用戶展示“利他”的文案,比“利己”的更容易帶來轉(zhuǎn)化。如圖所示,告訴用戶“邀請好友可以獲得25美元”的效果就不如“給你的好友贈送25美元的旅行經(jīng)費(fèi)”更打動人。
17 Google是怎么樣做AB測試的?
Google每個(gè)月從上百個(gè)A/B測試中找到十幾個(gè)有效方案,月營收提升2%左右,10億美元的規(guī)模。很難解釋的是廣告位左移一個(gè)像素帶來X%的增收,左移兩個(gè)像素帶來Y%的虧損。
在Google,任何產(chǎn)品改動需要A/B測試才能上線。
Google X 生命科學(xué)分部的負(fù)責(zé)人 Andy Conrad 在《財(cái)富》的一篇文章中曾提到:
對于一個(gè)問題 Larry 會嘗試用 1、2 種辦法去解決,并且在策略上會對兩者都同時(shí)下注。
Google 幾乎所有的產(chǎn)品目錄似乎都要進(jìn)行大型的 A/B 測試。正如 Google 的搜索引擎不斷從 Web 上收集數(shù)據(jù)加以學(xué)習(xí)和改進(jìn)一樣,Google 公司本身也是這么運(yùn)作的。它給單個(gè)問題提供了多個(gè)解決方案,希望能從中決出優(yōu)勝者。
這種多產(chǎn)品策略對于 Google 的長期健康來說是好的,但它也浪費(fèi)了許多資源。到處都是重復(fù)的工作,但 Google 的 Adsense 和 Adwords 帶來了那么多的收入,至少現(xiàn)在 Google 揮霍得起。
Google 往往喜歡針對同一客戶群推出多項(xiàng)競爭產(chǎn)品。這樣的話,如果一個(gè)產(chǎn)品失敗了,也許另一個(gè)產(chǎn)品能夠補(bǔ)上。最極端的例子是 Google 的即時(shí)通信解決方案。Android 上一度曾出現(xiàn)過 4 款不同的產(chǎn)品:Google Talk、Google+ Messenger、Messaging (Android 的短信應(yīng)用)以及 Google Voice。Google Hangouts 最終勝出,把其他的都合并進(jìn)了一個(gè)平臺。
Google 平時(shí)就是這樣折騰的。其行動表明,自己并不相信一個(gè)問題只有一種解決方案,哪怕這樣會讓用戶的日子好過得多。因?yàn)樗枰獞?yīng)對外部各個(gè)領(lǐng)域的競爭對手,而且 Google 似乎也認(rèn)為沒理由競爭就不能出自內(nèi)部—讓自己的產(chǎn)品自相殘殺。
18 在線銷售的定價(jià)策略能否用AB測試?
伴隨著產(chǎn)品迭代、促銷等等因素影響,什么時(shí)候降價(jià)是對自己最有利的策略,完全可以A/B測試來解決。
19 移動端基于A/B測試的灰度發(fā)布怎么做?
就目前移動端的產(chǎn)品來說,iOS的應(yīng)用商店審核期是個(gè)大大大坑,任何BUG打補(bǔ)丁還得再來一遍,也就意味著補(bǔ)丁的審核期內(nèi)用戶帶著BUG使用,這個(gè)太致命了,用戶的獲取成本高的嚇人,因?yàn)檫@個(gè)流失太不值得了,基于A/B測試的灰度發(fā)布更重要的不是優(yōu)化,而是保護(hù)性發(fā)布,先通過小流量的實(shí)際用戶測試,有BUG或者新版本體驗(yàn)不好,可以立即回滾到老版本,簡單有效。
20 為什么很多公司實(shí)施A/B測試效果并不好?
大多數(shù)的產(chǎn)品或功能上線前都會進(jìn)行測試,實(shí)際上很多的測試行為并不科學(xué),特別是很多定向的用戶測試經(jīng)常會有這個(gè)弊端,簡單來說,如果新上線的一個(gè)功能,所有的研發(fā)工程師都說好,那是不是意味著所有的用戶都覺得好?很多情況下是否定的。當(dāng)然這個(gè)例子比較簡單,實(shí)際上很多A/B測試方法并沒有考慮到這個(gè)問題,以至于最后得出的結(jié)論跟實(shí)際情況差異巨大。
要解決這個(gè)問題,對采樣、聚類、流量分割等要求非常的高,這也是為什么A/B測試工具不能像很多統(tǒng)計(jì)工具一樣,埋個(gè)點(diǎn)看數(shù)據(jù),再根據(jù)數(shù)據(jù)反推業(yè)務(wù)邏輯,而是要充分與業(yè)務(wù)結(jié)合,從一開始就應(yīng)該考慮業(yè)務(wù)策略,讓用戶去選擇適合其口味的產(chǎn)品。
通過AB測試來優(yōu)化產(chǎn)品的方法在國外已經(jīng)被廣泛應(yīng)用,現(xiàn)在這種代表先進(jìn)生產(chǎn)力的方法如同GitHub、Docker、APM一樣也正在逐漸被國內(nèi)廣大開發(fā)團(tuán)隊(duì)所接納。如果自己公司里面缺乏專業(yè)能力和經(jīng)營,可以嘗試用www.AppAdhoc.com優(yōu)化平臺來提高產(chǎn)品的設(shè)計(jì)、研發(fā)、運(yùn)營和營銷的效率,降低產(chǎn)品決策風(fēng)險(xiǎn),同時(shí)也能夠幫助用戶用數(shù)據(jù)優(yōu)化移動廣告,讓流量的變現(xiàn)價(jià)值更大。
現(xiàn)在的互聯(lián)網(wǎng)公司尤其是創(chuàng)業(yè)型公司面臨著前所未有的競爭壓力,好的想法與用戶接受的想法有著各種不可逾越的鴻溝。特別是伴隨著激烈的競爭,誰能領(lǐng)先一步可能就變成了贏者通吃的局面。
原文鏈接:
http://www.afenxi.com/post/17382
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。