要了解一個職業(yè),通常有3種途徑:
1. 到招聘網站上看崗位信息描述;
2. 請教行業(yè)資深人士;
3. 網上查文章(公眾號、博客、論壇等)或者看書。
但為了避免“刻板印象”或者“職業(yè)想象”,了解一個職業(yè)尤其是自己可能要用來養(yǎng)家糊口的職業(yè),最好的方式還是親臨現(xiàn)場親自實踐。
在筆者看來,數(shù)據分析師的工作內容主要如下:
1. 定義一個或多個關鍵指標來判斷業(yè)務的好壞(指標通常和KPI或ROI有關);
2. 對指標進行操作性定義,也就是現(xiàn)有業(yè)務的哪些數(shù)據(或者數(shù)據表的字段)組合起來(可以理解為一個方程)可以計算出該指標;
3. 結合業(yè)務發(fā)現(xiàn)影響該指標的那些因素,如果業(yè)務指標是因變量y,那么影響因素就是多個自變量x(或者機器學習中的多個特征),并篩選出那些重要的影響因素(尤其是對y的貢獻大且業(yè)務上可控的因素);
4. 在時間、人群、產品、營銷等維度上細分,橫向不同細類下以及縱向時間維度上影響因素x和業(yè)務指標y的關系(或者細類的分布和變化趨勢等),基于業(yè)務上的考量對各細類分出優(yōu)劣并給出解釋,然后找到從劣到優(yōu)的轉移路徑(也就是業(yè)務上可以操作的拉升KPI的點);
5. 給出具體的可執(zhí)行的方案(符合SMART原則),推動落地實施(可能要和商務、產品、運營、技術等合作),最后評估方案對關鍵指標的影響效果以及ROI等方面的考量(實際上3,4,5是一個“循環(huán)”操作)。
至于這個過程中,怎么去采集數(shù)據、清洗數(shù)據、怎么計算、用什么軟件、選擇什么模型等都是方法問題,沒有唯一的方法也沒有最好的方法,整個過程通常以結果為導向,以解決業(yè)務問題為首要目標。
舉個例子(僅供參考):
指定銷售額(y)為核心指標,對其拆解,銷售額 = 訪客數(shù)*轉化率*客單價
這里關注3個自變量x中的【轉化率】
將用戶分為新客和老客,發(fā)現(xiàn)訪客中新客占比20%,但是轉化率比商城整體低很多,進而發(fā)現(xiàn)新客中那部分“老帶新”帶來的新客(再次細分)成功率是高于新客整體的,商城新客統(tǒng)一配置有注冊即送10元無門檻券,但“老帶新”的新客額外配置有首單滿199-50的優(yōu)惠,而且,這類新客中199-50的券使用率遠高于10元券,可能是10元券吸引力不夠啊。
基于以上分析,可以考慮調整新客優(yōu)惠力度或優(yōu)惠方式,比如可以設置10、15、20的無門檻優(yōu)惠券,以及滿99-20、滿199-50、滿299-80六種優(yōu)惠條件做A/B Test,除了優(yōu)惠方式外,其他用戶特征應盡可能保證隨機性和分布一致,如果“滿299-80”優(yōu)惠下的新客首單轉化率最高,那么后續(xù)可以考慮使用此種優(yōu)惠。
需要數(shù)據分析師參與的場景,按業(yè)務開展的順序可以分為如下3種:
1. 事前:參與產品、營銷等前期規(guī)劃,制定方案、預估方案效果,預測后續(xù)業(yè)務發(fā)展情況等;
e.g. 產品埋點的設計,業(yè)務關注哪些指標,主干轉化流程是啥,要采集哪些數(shù)據,再映射到埋點上,以及最終定義埋點的類型、命名規(guī)則、記錄數(shù)據值的規(guī)則等;
e.g. 給定10W營銷費用,用于促首單,選哪些人群、用什么樣的活動形式能讓轉化的新客數(shù)最大化;
2. 事中:主要是監(jiān)控產品/運營數(shù)據(輸出報表或者在線dashboard等),方案實施的過程中根據業(yè)務表現(xiàn)進行調整,有時候數(shù)據有異常分析師也會介入查找原因;
e.g. 前端對同一目標人群設計了ABC3種不同的廣告方案(目的相同),剛開始每個廣告均覆蓋1/3的人群,假如單位時間內A方案中的轉化率(點擊/曝光)更高,那么另外兩個組就調整廣告規(guī)則,將大部分用戶分流到A廣告方案,到下午的時候發(fā)現(xiàn)單位時間內C方案的轉化率更高,又會再次調整放量,實際上,多方案賽馬過程中要考慮的顆粒度會更細,動態(tài)調整規(guī)則也更復雜。
3. 事后:復盤總結,專題分析,出數(shù)據報告,評估方案效果或者某業(yè)務操作(產品改版、運營活動、系統(tǒng)故障等)產生的交易影響,對業(yè)務上的數(shù)據波動歸因等也是常見的數(shù)據分析工作;
e.g. KPI出現(xiàn)較大波動,需要分析主要影響因素有哪些,各自的影響量是多少,哪些影響因素是穩(wěn)定的?哪些是可控的,如果可控,有啥可以改進的方案?
此外,問題解決的技術方案大致遵循“效度->信度->速度->廣度”的演進方向:
1. 優(yōu)先保證準確性(效度),解決業(yè)務問題是最基礎的要求,不過解決問題通常不是直接達到100分,在資源有限的條件下,也許70分就OK,后面有資源再逐步迭代;
2. 其次關注穩(wěn)定性(信度),驗證和完善步驟1中的解決方案,以確保后續(xù)遇到類似的問題能使用先前的方法較好地解決;
3. 再利用技術手段來提升效率(速度),通常會涉及到機器學習和計算平臺提供的規(guī)則化、自動化、批量化數(shù)據處理的能力;
4. 最后,把整個流程模塊化、工具化(廣度),讓先前的模型或者分析方法能適用于其他業(yè)務場景(提升遷移性),推出可以供業(yè)務方直接使用的數(shù)據產品(即使他們不懂編程、不懂算法);
在迭代的過程中遵循SSC原則——Start 開始應用新的剛驗證有效的方法,Stop 停止錯誤的、過時的、效率低的方法,Continue 繼續(xù)沿用或改進先前驗證過的有效的方法。
數(shù)據分析師需要的核心能力包括業(yè)務理解、方法理論、技術實現(xiàn)3個方面。
1 業(yè)務理解
行業(yè)理解:比如電商主營業(yè)務是賣貨(C端)以及提供在線貨架管理(B端),然后延伸服務(比如金融、自營品牌等),目前國內市場的top3是天貓、京東、唯品會,三家的業(yè)務模式又各有不同;
產品模式:賣給誰(用戶人群有啥特點)?賣什么(主營產品或服務)?在哪賣(交易場景是啥)?這3點對應的是人、貨、場;
關鍵指標:只有被量化以及對比適合的參照點才能知道業(yè)務的好壞,推薦《精益數(shù)據分析》這本書,涉及互聯(lián)網的主要商業(yè)模式以及相應的關鍵指標解讀;
2 方法理論
業(yè)務知識:產品的主干轉化環(huán)節(jié)(枝干環(huán)節(jié)如何拆分)、如何監(jiān)測用戶數(shù)據(e.g.埋點)等,以及運營的主要形式及目的(用戶運營重生命周期轉化,內容運營重活躍,產品運營重產品轉化,活動運營重交易或傳播),運營相關的書籍,推薦黃有璨的《運營之光》以及李少加的《進化式運營》;
數(shù)學知識:概率統(tǒng)計、線性代數(shù)、常用的機器學習算法等專業(yè)知識都要知道的,理論上講,這些知識知道的越清楚,使用得越熟練,工資就越高。不一定要做到能推導公式,但至少也要理解各類算法的大致原理、優(yōu)缺點、使用前提及場景等;
通用能力:比如思維方法(e.g.數(shù)據分析常用思維)、溝通技巧(e.g.表達的框架)、項目管理等,關于通用能力這塊,推薦看《12個工作的基本》和《商業(yè)模式新生代》,可以輔助構建自己的能力體系;
其他專業(yè):跨專業(yè)的知識不僅有利于工作中理解用戶、產品、營銷等,也能讓自己在生活中多多收益,推薦科特勒的《營銷管理》,如果對心理學感興趣的話,《心理學導論:思想與行為的認識之路》和《心理學與生活》是不錯的入門讀物,當然,跨專業(yè)的知識也可以直接和合作的業(yè)務方請教學習;
3 技術實現(xiàn)
流程:比如數(shù)據分析的常見的SEMMA、CRISP-DM流程,涉及到數(shù)據采集、清洗、整合、轉化、建模、評估、上線等環(huán)節(jié),每個環(huán)節(jié)還可以細分操作方法,比如數(shù)據采集可以分為網絡爬蟲、問卷調研、用戶訪談、產品埋點等(詳情見數(shù)據獲取)。對應到具體的工作內容,可能就有更多細化的操作,比如需求處理流程、報表開發(fā)流程、模型上線流程等;
工具:分析軟件(Excel/R/Python/SAS等)、可視化軟件(PowerBI/Tableau等)、大數(shù)據平臺(Hive/Spark等)、機器學習框架(Tensorflow/Mahout等)等,趁手的工具一定要熟練使用(詳情可參見數(shù)據分析常用工具)
架構:使用工具來搭建整合數(shù)據分析流程的系統(tǒng)或者數(shù)據產品,這是比較高階的能力,架構不僅要掌握全面且熟練的技術,還依賴于對過往工作經驗的總結,從中提煉“模式”和“標準”,將標準化的某項技術或者分析思路用規(guī)則化的編程語言實現(xiàn),最終形成一個適用于多個場景(遷移性)的產品。
數(shù)據分析的兩個主要分支方向——分析和挖掘,不管是哪個方向,基本的數(shù)學知識和機器學習算法都屬于必備技能:
分析偏業(yè)務
自上而下的“理論”或者業(yè)務驅動;
和產品、運營打交道比較多(工作輸出對接主要就是這兩類同事);
一般title是“數(shù)據分析師”、“數(shù)據產品經理”、“運營分析師”、“商業(yè)分析師”等;
通常要求會Excel/R/Python/SAS、Tableau/PowerBI等軟件,會使用常見的算法,了解產品和運營的分析思路,能輸出產品或運營優(yōu)化方案并促進落地等;
挖掘偏技術
自下而上的數(shù)據驅動以發(fā)現(xiàn)更優(yōu)模式;
通常對接數(shù)據平臺或者對算法依賴非常重的業(yè)務(比如風控);
title里通常帶有關鍵字“開發(fā)”、“研發(fā)”、“算法”、“挖掘”、“工程”、“大數(shù)據”等;
能力上通常要求能使用大數(shù)據依賴的操作系統(tǒng)(Linux/shell等)、大數(shù)據軟件(Spark/Hadoop/Storm等)、開發(fā)語言(C/C++/Java/Scala等)、機器學習框架(Tensorflow/Mahout等),然后就是要熟悉數(shù)據結構、算法(數(shù)學算法和計算機算法)。
最后,分享幾點工作上的小Tips:
接數(shù)據需求時,一定先和業(yè)務方確定目的或者業(yè)務價值,不僅有助于理解業(yè)務方向,也能擋掉一部分不靠譜的需求(話說我曾經態(tài)度和善地接了很多這種需求,這種需求,只有苦勞,沒有功勞);
懂業(yè)務是分析師值錢的點之一,和業(yè)務方保持緊密聯(lián)系,聽聽他們的思路和見解,這是很好的學習機會。如果只是“被動”處理需求,而很少“主動”和業(yè)務方溝通,對業(yè)務的理解可能就沒那么深,可以參考車品覺老師在《決戰(zhàn)大數(shù)據》中提到的“混、通、曬”;
擺正自己的工作角色,提防“乙方心態(tài)”,不能想著搞完需求就完事了,和業(yè)務方的合作不是一次性買賣,站在他們的角度想問題不僅能理解業(yè)務方向,還能理解數(shù)據分析解決的問題以及帶來的價值(以免懷疑自己是在打醬油);
要有一定的“翻譯”能力,如何對一個指標下操作性定義(量化),如何把業(yè)務語言轉化為技術語言(再轉化成計算機代碼),或者把數(shù)據分析結論轉化為業(yè)務方聽得懂、用得著的信息;
溝通能力很重要,包含但不限于口頭表述、PPT演示、結構化表達等,一方面溝通的時間成本很高(超哥說,時間是人類唯一寶貴的資源),另一方面溝通能力是外顯的職業(yè)能力(大家看得到),建議閱讀《金字塔原理》;
以上,是筆者對數(shù)據分析師這個職業(yè)的一點看法,真實的世界往往比能夠記錄下來的世界更復雜、更豐富,正如文章開頭提到的,只有親臨現(xiàn)場、親手去做才會知道屬于自己的答案。
聯(lián)系客服