越來越多的企業(yè)開始利用數據科學來驅動業(yè)務,但是數據團隊所面臨的工作對象特殊,他們與客戶溝通交流的方式或工作產出都比較特別,所以需要專門的工作流程和專業(yè)的協(xié)作工具去進行幫助,當然也需要有相關的專業(yè)考核。
《數據科學實戰(zhàn)指南》沉淀了TalkingData在大數據行業(yè)多年的實踐經驗,從數據、人才、工具三個維度幫助企業(yè)數據團隊去完成從端到端的數據科學項目部署。
6月4日,我們榮幸的邀請到了TalkingData CEO 崔曉波以及紅杉資本專家合伙人車品覺老師,為我們帶來了數據科學實踐的讀書分享。
智能數據時代,企業(yè)如何面對數字化轉型?
TalkingData 專家顧問、紅杉資本中國基金專家合伙人車品覺
談到企業(yè),我們首先要定位是什么樣的企業(yè)?有些企業(yè)是從傳統(tǒng)企業(yè)轉型過來的。而有些一出生就是數據企業(yè)。比如滴滴,滴滴的商業(yè)模式中自然而然使用了很多數據。還有一些企業(yè)可以選擇不使用數據,數據對它來說沒有很大的驅動力,不使用數據也可以生存,影響并不大。
我們今天討論的是數據驅動型企業(yè)面對的挑戰(zhàn)。
當大家要使用今天的科技時,對于弱人工智能跟強人工智能之間的距離不是這么清楚。原本你要使用一個今天就可用的技術,反過來卻使用了一個其實現在還不太成熟的人工智能技術。這樣的情況風險很大,你用了一個還沒穩(wěn)定的技術作為核心成果的因素,會很困難。
舉個例子,比如說智能客服,如果使用chatbox去了解顧客、去問問題是很容易的。但如果對方是打電話進來的,相對來講有兩個問題要解決,第一個是口音,要把這些話翻譯成為文字,第二是文化的差異,在香港這樣說,在北京又是另外一種說法,要數字化的時候非常困難,但是如果是直接從chatbox里面進來的,根本沒有語音轉文字這一步,就沒有科技方面的困難了。
所以當選擇做一個應用的時候,要考慮一個很重要的問題,就是到底今天的科技是不是已經走到這一步了。這就是強人工智能與弱人工智能之間的距離。
第二點挑戰(zhàn)沒有這么明顯,是數據分析與綜合數據分析之間的距離。
現在企業(yè)中一般分為兩種分析,一種是業(yè)務分析,另外一種是決策分析。
業(yè)務分析一般是每個業(yè)務部門的leader決定。決策分析一般是在企業(yè)的戰(zhàn)略部、公司中最高管理層去制定,更多是綜合分析的能力。當你談到綜合分析的時候,必然會涉及到競品分析,這時不管是數據的量,還是對業(yè)務的理解,都要非常的深入。
我個人是做大數據的,特別是電子商務方向的大數據。如果你和我討論物流,我不太敢說我完全懂。如果說要把電子商務的大數據遷移到金融領域,我就又差一點,如果再講到醫(yī)療,就又差一點。這就說明大數據在不同行業(yè)之間是有差異的。如果對行業(yè)不理解,特別是在做綜合分析的時候就會覺得很困難。
企業(yè)的管理層實際上不太關心數據到底是怎么樣的,他們關心的是公司里發(fā)生了什么事?需不需要我處理?或者這些事代表了公司現在是什么狀態(tài)?也就是說管理層在意的不是數據,而是數據表達出來的結果,狀態(tài),讓我更好的了解公司的情況。
如果做決策分析、綜合分析,沒有考慮在數據分析的時間點下公司出現過什么疑問的話,這個結果是沒有意義的。在2010年到2012年,大數據很多都還沒開始使用機器學習,而在機器學習出現以后,如果有完備的事件跟蹤系統(tǒng),結合數據就會非常有意義。
回到企業(yè)面對的挑戰(zhàn),有一些數據和一些技術其實到今天還沒到發(fā)揮真正作用的時候,由于很多廠商一直在大肆鼓吹,讓大家誤以為已經真的可以使用。
行業(yè)里目前分為兩種模式,第一是匯管用,先匯聚了足夠的數據,然后把數據治理好(管),最后去使用,去發(fā)揮它的價值。但我個人到今天都不喜歡這種方式。我會選擇第二種模式--從應用角度出發(fā)去考慮到底需要什么數據,以及如何基于應用治理數據。這樣你會發(fā)現其實并不需要非常巨大的數據,而且數據也會很好管理。當你應用了很多次,有足夠經驗以后,再開始考慮多一些數據量會不會產生更大的力量。所以這種模式是應用帶動數據的收集匯總,而不是收集大量的數據去產生應用。
最起碼冷啟動時是不能這樣做的,失敗的概率很高。但如果你已經做過很多次,有足夠的手感,而且是在細分領域下,了解推薦系統(tǒng)需要什么樣的數據種類,設計引擎大概需要什么數據種類,這個時候數據架構就不難了。盡管我有這種能力,但我還是會以應用帶動數據,而不太會去冒險,因為收集數據需要成本,希望收集到的數據可以盡量通用。大部分數據能通用的部分很小,他們都是貼近自己場景的,越精煉、與場景越近,就越好用。
數據多的時候既能產生應用,也可以以應用場景去豐富數據。很多企業(yè)還需要思考一個問題:基于公司未來的方向,到底怎么基于業(yè)務戰(zhàn)略產生公司的數據戰(zhàn)略?首先需要理解公司的盈利模式。比如淘寶的盈利模式應該是GMV=UV * 購買轉化率 *客單價。如果要提高GMV,就提高UV,是不是就好了?
但萬一UV提高,購買轉化率下降,這樣此消彼長反而做的不好。原因是什么?比如可能是UV質量不好,引進來的新流量都是不會購買的的垃圾流量。當你知道這套盈利模式的核心點是什么,如何用人工智能和大數據去解決這些點?
如果基于這樣的模式,形成了自己的數據戰(zhàn)略,企業(yè)在數字化過程中的挑戰(zhàn)自然會減少。如果連去哪里都不知道,就說企業(yè)要數字化,是沒有方向的。
企業(yè)可以通過這樣的思考方式把面臨的挑戰(zhàn)分解到不同的過程中。第一信息時代的時候,還可以通過猜測賺到錢?,F在在高信息時代,特別是行業(yè)內競爭對手都知道數據化的方法,企業(yè)面對的挑戰(zhàn)可能是精細化能力的競爭。比如今天很多共享經濟,大部分是數字化的企業(yè)。他們的競爭就不是說誰有數據化誰沒有數據化,未來的企業(yè)很少有可以做到別人做不了的事情。
企業(yè)應具備什么樣的數據思維
剛才提到的匯管用,我覺得管的前面還差了一個叫做“通”,數據即使全了,不代表數據是通的,往往受限于組織架構,數據很難互通。舉個例子,很多企業(yè)的數據思維還停留在數據是我部門的,不是公司的,為什么我們部門要拿出來數據共享?
這樣的思維在很多傳統(tǒng)企業(yè)甚至互聯網企業(yè)都存在著。如果數據互通沒有打破,就很難作為數字化轉型的一部分。但話說回來,在一家企業(yè)或者智慧城市,到底是不是要把數據匯在中央才有能力把這些數據都管理好?現在還有另外一種改變的想法,比如數據聯邦,或者TalkingData的數聯網,大家的數據都不出門,就沒有數據安全的問題,這種情況下數據之間的價值能不能互通?這就是另外的話題了。
這兩個話題我沒有答案。如果你問我,我會說以目前的技術,我希望數據盡量放在中央比較好處理。成本比較低。
小結
強人工智能和弱人工智能的區(qū)別
數據分析和綜合數據分析的區(qū)別
是否可以使用數據和事件結合了解企業(yè)運作情況
阿里的數字化進程中值得借鑒的經驗
阿里的數字化進程中有一個非常重要的分水嶺,在2013年,有兩件事情發(fā)生:第一是移動數據的出現,給了我們一個機會推翻PC年代的數據架構,完全重新開始。移動是沒有點擊率的,不像PC。這是很大的機會點,可以從頭思考整體的數據架構。
第二是機器學習的產生。一個客戶進來了以后,我可以計算三個月后客戶的流失率、留存率。以前從來沒有想過數據分析師會跟領導說,今天有兩三千萬的用戶已經到了不會再在淘寶買東西的臨界點。因為有機器學習的出現,而且數據量在不斷增加,才有了這些統(tǒng)計型數據分析沒有的洞察力。而且我們還可以進一步的說,如果我們留存那些將要離開的客戶,可以幫企業(yè)賺多少錢,這就是價值點。會讓數據分析和資源形成一個正循環(huán)。
后來我們開始嘗試整個部門自動化。一個幾十人的團隊可以使用算法取代。整個進程可以叫做先用數據看,再用數據看的清楚,再把數據應用在場景里,最后是自動化的決策。
在阿里如果沒有中臺是沒辦法解決這么多需求的。中臺是很簡單的,沒有前臺、后臺,何來中臺?所以要先決定什么是前臺,如果中臺把很多前臺的功能都收進來,中臺就會變得越來越復雜,架構會變得很笨重,產生不了中臺的能力。
數據資源中心應不應該在中臺里面?
拿到數據資源,中臺的權力就很大,這與中臺架構無關,是組織架構的需要。中臺實際上應該是越輕越好。因為注定要有很多數據進來,上面是一個蜘蛛網,下面是一個蜘蛛網,中臺穿插在中間穩(wěn)定的提供數據。它的作用是為了方便數據和算法的重復使用,免得每一次使用數據都要重新抽取一次,而是先把水引到中間使用。
現在很多人都在討論數據中臺,或者業(yè)務中臺,或者其他的中臺。其實數據中臺并不是一個很新的東西,過去在金融機構有一個部門叫DBA,就是早期的數據中臺。DBA的資源是非常稀缺的,他們希望所有東西匯總在DBA的角色中,把統(tǒng)一的數據資源去重復使用。
數據科學對企業(yè)數據戰(zhàn)略與數據能力的影響
TalkingData CEO 崔曉波
企業(yè)的數據之路肯定是漫長的,不管是管理者對商業(yè)模式的選擇,或者是技術架構、甚至是組織架構都必須進行特別清晰的思考,TalkingData作為生根大數據行業(yè)多年的企業(yè),我們在幫助企業(yè)數字化轉型過程中也做了大量的嘗試,那么下面TalkingData的CEO 崔曉波(Leo)分享企業(yè)數據戰(zhàn)略制定中的數據科學。
現在的數據科學在互聯網公司已經比較成熟了。不管是各種算法或者推薦引擎的應用,相對來說已經是閉環(huán)了。人的參與越來越少,大部分是靠數據智能或機器學習的方法去做。但在傳統(tǒng)產業(yè)鏈里面還有很長的路要走。
第一,這個時代真正的機會在哪里
我們先想一個問題,基于業(yè)務場景的公司更有價值,還是擁有巨大數據體量的公司更有價值
三年前我曾經說兩個都有價值,現在我的回答比較悲觀,我覺得脫離業(yè)務場景的數據平臺沒有價值。比如你有礦,但是沒有業(yè)務場景是挖不出金子的。
不管現在在金融領域,還是在產業(yè)互聯網里面的應用都無疑證明了這一點,往往那些業(yè)務做得好的公司,它擁有的數據都比較少,往往那些擁有巨大數據體量的公司,業(yè)務都做不好。
現在國內大環(huán)境無疑是不好的,比如房地產、汽車、服裝、餐飲都在下降,種種跡象表明消費在分級。雖然實物商品消費在下降,但是服務消費在上升,大家為教育、旅游、養(yǎng)老,家政花的錢越來越多。
分級的趨勢一是服務的再升級,二是產業(yè)方向在往精細化走。但精細化營銷的對象并不是個人?,F在很多客戶的戰(zhàn)略方向在向家庭轉變,以家庭為核心去銷售。為什么會形成這個趨勢?因為過去十年里,中國大數據的真正驅動力實際上是由移動互聯網帶來的。
由于中國智能手機以及移動互聯網應用的高速發(fā)展,帶來了數據體量的爆發(fā)式的增長,也帶來了數據應用的高速發(fā)展?;旧峡梢岳斫鉃樗写髷祿脤嶋H上都是移動相關的數據產生的?,F在可能移動手機的數量已經不怎么漲了,月活也比較穩(wěn)定。但是數據的維度還在不斷的豐富,除掉設備相關的數據,應用行為相關的數據之外,現在有大量其他類型的數據進來,比如通過傳感器拿到環(huán)境的數據,溫度、濕度、氣壓等,通過各種各樣的傳感器來判斷你的姿態(tài)。這種數據已經大量的產生,但這些數據應用的商業(yè)化,還需要3到5年的時間。
未來十年,家庭里面的智能設備是什么?是智能電視,很多人都想不到聯網電視的數量令人吃驚。很多家用廚電,比如豆?jié){機、空調、冰箱洗衣機都需要 APP激活,聯網率超過了30%。所以在家庭網段里面,很多都是電器。這個數量非常大,我們去年在這個領域里面收集了大量的物聯網設備的數據,而且跟移動互聯網數據做了很多匹配和建模,比如同源數據模型,家庭數據模型等等,從TalkingData的角度來看,這是我們的數據引擎。
TalkingData的數據中臺其實就兩塊,一塊是我們的科技團隊,核心的產品有兩個,數據平臺和營銷平臺,數據平臺是把數據聚合加工建模,形成數據服務和數據產品的平臺。營銷平臺是把通用的營銷流程形成閉環(huán)的產品。
說到中臺的定位,現在市面上大量的公司在喊中臺,但是沒有前臺哪來的中臺呢?不是說提供軟件或者提供算法就能擁有中臺,業(yè)務場景在里面無疑是更為重要的。那么從我們的角度看,數據科學的核心是得創(chuàng)造價值,是給誰創(chuàng)造價值?
第二,到底怎么去與數據科學結合
經過幾年的時間,數據科學無疑已經給頭部企業(yè)產生了巨大的價值?;ヂ摼W企業(yè)已經脫離不了數據科學了,在傳統(tǒng)企業(yè)里面的一些頭部企業(yè),現在也已經有很大的回報。
舉個例子,我們前年幫助一家餐飲集團用數據以及產生的算法和智能做選址模型。這家集團當時選址團隊很大,有將近450人。選址周期大概需要兩周,要做很多繁瑣的工作。比如我要派人去外勘、數人頭、對配套設施進行調研等等。所以他當時的主要訴求是有沒有可能提升效率?
后面我們就做了一個產品叫做智選,它的特點是聚合了很多數據,不止是TalkingData的數據,包括像騰訊這樣巨頭的數據也接在后面,做了各種各樣脫敏的處理,可以用來建模。但是這家集團要求我們不僅基于規(guī)則選址,還要預測在這個地方開門店的時候,能不能預測出兩年之內的銷量是多少?之后再用歷史數據回歸,看看模型準不準。接著再預測未來兩年看看模型準不準。
兩年之后,取得了很大的收效。第一,現在選址團隊只有80人,這是實實在在對成本的降低。如果是從實際決策周期來看,以前是兩周,現在只要兩天。大部分情況下根本不用去外勘。因為我們產品里面什么數據都有,不用出去也能看到24小時的動態(tài)客流和人流,擁有所有的基礎設施配套。產品里面的關系會基于你的規(guī)則把所有的權重配好。你認為交通樞紐對你重要,還是要靠近學校,還是應該避開醫(yī)院,這所有的邏輯都可以調,我們算法會自動學習,然后幫你預測門店未來收益。
去年我們又幫這家集團上線了上第二個模型,叫AI forecasting,門店銷量預測模型?,F在已經在七百家門店上線了。
這個模型更有意思,他要求我們要提前一天預測出第二天的分小時進店客流,用的數據維度是非常多的,包括他自己的經營數據,歷史的銷量情況,還要使用大量的第三方數據,包括客流和人流數據,以及天氣和路網的數據,這些實際上都是強相關的變量。目前模型準確率已經到了85%以上。
第二個例子是我們在做的時尚領域一家典型服裝企業(yè)。剛開始我們是用各種各樣的模型幫他做營銷的活動。以前一年這家企業(yè)只能做十場活動,但我們的數據智能平臺進去之后,幫打通了所有的一方二方三方的數據,而且現在積累的模型和算法越來越多,自動化程度變得很高。
所以現在一年他能做一百多場活動,這對于一個傳統(tǒng)企業(yè)來說已經不可思議了,以前覺得逢年過節(jié)能策劃活動就算不錯了?,F在效率提高了十倍以上,所以賺的錢也就可想而知。真正打到產業(yè)縱深里面,現在機會很多。
在時尚這個領域,我們覺得會出現時尚界的盒馬這樣的企業(yè),再進一步的優(yōu)化,就是對它后面整個供應鏈和生產端的優(yōu)化。最近一些服裝企業(yè)已經出現了大量的滯銷,為什么庫存積壓特別厲害?因為你在市場端銷售不動的時候,按照現在的供應體系,說停止銷售停止生產,整個供應鏈至少兩周才能反映過來并停止。
所以未來其實真正的產業(yè)互聯網機會是在這里。它不是簡單的像互聯網公司那樣去做營銷的優(yōu)化,它會真正到產業(yè)縱深里面,用數據對整個產業(yè)鏈條進行重新解構和重構。
TalkingData在產業(yè)里面,已經積累了大量的經驗。我們?yōu)槭裁磳戇@本書? 因為大量的從業(yè)公司其實并不知道這個行業(yè)發(fā)展到什么程度了。所以我們希望通過這樣一些書和這種讀書會的形式來告訴大家,在國內跟產業(yè)或者場景結合的數據科學已經到了什么程度。然后我們也希望讓我們的同行,以及有志于從事數據智能產業(yè)的人員能夠少走點彎路。
對話精選
Q
問題1:數據科學平臺和數據中臺之間是什么關系?
崔曉波(Leo):車老師在《數據的本質》書里面提到了數據隱形和完美數據。實際上完美數據是不存在的,數據隱形也需要不斷的有應用和場景來打磨?,F在很多人在提數據中臺,首先大家發(fā)明任何概念都沒錯,中臺也是像阿里這種互聯網企業(yè)以前說的比較多,因為有中臺就得有前臺,阿里前臺的業(yè)務場景是非常明確的,不管是淘寶天貓螞蟻等等,所以它的業(yè)務需求帶動了不管是數據科學平臺,還是數據中臺的不斷的對數據提煉,對科技和場景的適應。
我覺得最大的問題是太多科技公司坐在家里想需求,然后就去賣了,我們叫它工具思維。數據科學平臺和數據中臺這兩個東西我認為孤立存在都沒有什么價值。更重要的是與場景的閉環(huán),因為只有前面有場景,給你有效的反饋,科技能力或者數據能力才有可能有效地提高。
車品覺老師:數據科學本身是一個很泛的詞,但我覺得數據科學本身可以用在數據原材料的處理,以及用在應用。所以一個面對的更多是前臺,一個更多的是數據整合。如果數據中臺所服務的前臺性質改變了,整個數據中臺也會改變。
當數據中臺是服務于自動化的,整個中臺里面的內容都會有很大的區(qū)別,如果數據中臺不是在數據整合的時候所用的數據工具,比較容易呼應剛才Leo所講的算法平臺,數據平臺對接上去就是算法平臺,因為我們有中臺,很多時候我們發(fā)現很多的數據、計算資源、算法資源以及數據資源,都有公用的部分,有的時候,你發(fā)現數據放在中臺很方便,因為你不需要重新從底下挖水上來。
算法也是這樣,現在很多通用的算法或者數據科學的工具往往是抽象到一個跟業(yè)務場景不是那么相關的情況。不如把數據科學放在場景里面,不要放在中臺。譬如說智慧交通本身就服務于交通場景,為什么要把數據放在中臺?因為這并不是零跟一的關系,大部分的企業(yè)往往都有這個困難。在阿里有數據中臺之后,天貓還是有自己的數據平臺。
我認為中臺更多的是把重復的東西去掉了,讓全面創(chuàng)新的東西放在業(yè)務端里面。所以在數據科學非常貼近場景的時候,有可能并不需要把它放在中臺里面,因為數據科學與數據中臺的關系本來就是一個供給的關系。一個算法不一定只跟中臺要數據,有可能跟數據場景要,有可能跟數據中臺要。同一個問題,算法上都是一樣的,只不過中臺處理一些公共部分的時候,效率是可以提升的。
所以在阿里有一個非常清楚的概念:我們用共創(chuàng)重復使用一種方法,積累這種方法幫助前臺創(chuàng)新,所以中臺實際上是在積累一些共用的資源并幫助創(chuàng)新。
Q
問題2:幫客戶更好的做數據整合(數據維度可能很單一),這是中臺嗎?還是Hub?
車品覺老師:以阿里為例,它有非常明確的產生價值的場景,它的架構有非常清楚的應用。推薦系統(tǒng),設計引擎,阿里媽媽,是三個大場景。在此之下的數據中臺是非常容易想象的。但是如果是給別人用的數據中臺,那形態(tài)可能更不一樣。
我認為越是要給別人用,中臺應該越輕巧。數據中臺里面有一個非常重要的點:這么多的數據匯總在一起之后,怎樣保持數據的穩(wěn)定性?
中臺上面有大量的數據匯總,有大量的應用,要把數據產生價值供給到上面的服務去使用,它會出現更多數據整合,數據調度。產生算法的價值,其實后臺可以先做好,再把它放在中臺里面,不一定必須放在中臺里面解決。
崔曉波(Leo):我認為首先中臺不是設計出來的,一定是運營出來的,阿里的經驗告訴我們,中臺的業(yè)務屬性是很重的,所以每家的中臺都要跟他的業(yè)務場景去做非常深的集成或者閉環(huán),因為得不斷的從業(yè)務場景里面給中臺反饋,才有可能去訓練他的模型,提升數據效率也好,這是我第一個觀點:中臺不是一個技術概念,它是個業(yè)務概念,要靠運營,最重要的是可運行。
第二個觀點是,中臺出現是因為有被共享或者共同使用的需求,單一的業(yè)務建中臺有些牽強,阿里的數據中臺也是在做完淘寶、聚劃算之后,開始產生其他業(yè)務的時候突然發(fā)現沒必要從頭開始搭,把那兩個系統(tǒng)的核心組件抽出來共享就可以。所以我覺得它的核心還是共享。
Q
問題3:作為企業(yè)的管理者,需要掌握數據科學嗎?企業(yè)里面,除了管理者之外,比如銷售、項目經理、產品經理,他們需要學習數據科學嗎? 如果需要的話,有怎樣的路徑?
車品覺老師:關鍵點在于你有沒有能力去問問題。如果你是個leader,沒有必要成為一個數據科學家,你是管理數據科學家和工程師的人。作為管理者,更多的是懂不懂用這種思維追問,追問到底能不能解決我的問題。
比如我決定了要做海底撈。有多少問題要解決。其中哪些問題是數據可以幫我的,哪些問題是數據幫不了的。比如選址,有可能海底撈會說凡是旁邊開了某某店,我就能在附近開店。這是數據能幫我做決策的情況;但假如我做完了選址,突然之間這個位置的某些條件改變了,當時選的東西就錯了。
當一家公司能夠真正懂得制定自己的數據戰(zhàn)略的時候,懂得把商業(yè)戰(zhàn)略翻譯成為技術戰(zhàn)略,包括大數據跟人工智能可以幫企業(yè)做什么,應該投資多少,如果懂得了這些就是成功了。
崔曉波(Leo):不管大數據還是數據科學都是一把手工程,企業(yè)中必須管理者先得重視數據科學才行,否則學再多東西可能都是無用功。
其次數據科學的關鍵就是像車老師說的,是培養(yǎng)的是復合人才。其實《數據科學實戰(zhàn)指南》這本書里面有專門論述,包括數據科學家、數據工程師、數據分析師以及數據產品經理,他的培養(yǎng)路徑到底是什么樣的?今天的讀書會也是我們的騰云大學(TDU)舉辦的,他們注重培養(yǎng)數據科學交叉型人才,有興趣的話可以多關注,也可以在線上自學。
《數據科學實戰(zhàn)指南》簡介
《數據科學實戰(zhàn)指南》依托TalkingData 在大數據領域的多年實踐經驗,從數據、人才、工具三個維度幫助企業(yè)數據團隊完成端到端的數據科學項目部署。本書的內容包括數據科學項目的基礎概念、準備工作、團隊人才及端到端的實戰(zhàn)案例等。
適合人群
正面臨數字化轉型的企業(yè)決策者、管理者、數據團隊負責人
傳統(tǒng)企業(yè)數據部門管理人員、數據部門的HRBP
數據科學家、分析師、工程師
聯系客服