3月25日 15:09 來源:數(shù)據(jù)分析精選
作為職業(yè)社交網(wǎng)站的鼻祖,LinkedIn本質(zhì)上就是一家通過運(yùn)營大數(shù)據(jù)進(jìn)而產(chǎn)生商業(yè)價(jià)值企業(yè)。從2002年12月創(chuàng)立到2013年初,LinkedIn注冊用戶已到2億,平均每秒增加一個(gè)新用戶,86%的“財(cái)富100強(qiáng)企業(yè)”正在使用LinkedIn的付費(fèi)解決方案,270萬個(gè)公司主頁在此安家落戶,用戶每年發(fā)起超過幾十億次搜索。據(jù)悉,在LinkedIn上一季度1.61億美元營收中,“人才解決方案”的貢獻(xiàn)已經(jīng)超過了一半。而與Facebook和Twitter不同,LinkedIn相對更為低調(diào),但盈利狀況卻非常不錯(cuò)。日前,CSDN云計(jì)算頻道記者在2013 Teradata大數(shù)據(jù)峰會上,專訪了LinkedIn商業(yè)分析部總監(jiān)張溪夢(Simon Zhang),深入了解LinkedIn背后的平臺技術(shù)以及通過大數(shù)據(jù)分析所帶來的商業(yè)價(jià)值。
隨著企業(yè)對大數(shù)據(jù)分析認(rèn)識的逐步深入,數(shù)據(jù)分析已經(jīng)被提到企業(yè)信息構(gòu)建的議事日程中。但更多企業(yè)只是將數(shù)據(jù)分析作為業(yè)務(wù)及IT部門的外延或項(xiàng)目管理來定位,鮮有將其作為獨(dú)立部門設(shè)置,更不要說與研發(fā)、產(chǎn)品、市場、銷售、運(yùn)營等五大核心部門并列存在。LinkedIn反其道而行之,就這么做了。
LinkedIn Corp商業(yè)分析部總監(jiān)張溪夢(Simon Zhang)
問:LinkedIn是如何定義商業(yè)分析部門的?
張溪夢:LinkedIn有三大塊業(yè)務(wù)版塊,一是人力業(yè)務(wù),上個(gè)季度財(cái)報(bào)顯示,占營收的53%;;二是市場推廣廣告,大約占27%;三是高級訂閱服務(wù),和LinkedIn的會員有關(guān)系,占20%。這三大業(yè)務(wù)都需要數(shù)據(jù)分析的支持。我所率領(lǐng)的團(tuán)隊(duì)現(xiàn)在55人(目標(biāo)是60人左右),工作重點(diǎn)是就是對2億注冊用戶通過集成數(shù)據(jù)架構(gòu)、BI、數(shù)據(jù)挖掘和分析,直接支持近2700-3000位LinkedIn內(nèi)部員工(目前LinkedIn大約有3500-4000個(gè)員工,這意味著滿足70%員工的數(shù)據(jù)分析)的需求,這些需求覆蓋到研發(fā)、產(chǎn)品、市場推廣、銷售和運(yùn)營等五個(gè)主要商業(yè)職能部門。
問:為什么這么多內(nèi)部員工有數(shù)據(jù)分析的需求?
張溪夢:有人將LinkedIn定義為找工作的平臺,但事實(shí)上,從LinkedIn的數(shù)據(jù)來看,只有20%的人是比較活躍地在找工作,大約80%的LinkedIn用戶主要的商業(yè)目的是同其他公司建立聯(lián)系/關(guān)系。他們希望能夠連接世界上所有的專業(yè)人士,使工作更為有效率、更富影響力、更成功。這些需求反映到LinkedIn內(nèi)部,就是五大職業(yè)部門都有不同的數(shù)據(jù)分析需求,且差異很大。
問:構(gòu)建在數(shù)據(jù)平臺上,LinkedIn的產(chǎn)品如何設(shè)計(jì)?
張溪夢:對的。LinkedIn本質(zhì)上就是利用數(shù)據(jù)產(chǎn)生價(jià)值。所有的產(chǎn)品設(shè)計(jì)原理就是從數(shù)據(jù)分析中獲得”有關(guān)人的關(guān)系“。舉例來看,LinkedIn的會員數(shù)據(jù)會不斷變化,從中顯然會產(chǎn)生更多有價(jià)值的新產(chǎn)品,比如2008年推出的“您可能認(rèn)識的人”,以及我們現(xiàn)在開發(fā)的“您會感興趣的工作、您會認(rèn)識的人、您可能會喜歡看的等”,這些產(chǎn)品會促進(jìn)業(yè)務(wù)增長,增強(qiáng)用戶粘性。而在此基礎(chǔ)上,最核心的業(yè)務(wù)(占到40%—50%)獵頭業(yè)務(wù),作為純數(shù)據(jù)的業(yè)務(wù),目的就是幫助企業(yè)找到最適合的、最優(yōu)秀的人才。在LinkedIn看來,保證公司成功最核心的就是人才,從數(shù)據(jù)中分析人,幫助這些人才成功,是我們不變的理念。
問:這些新產(chǎn)品從數(shù)據(jù)邏輯原理上看,基本是相同的,彼此有什么區(qū)別么?
張溪夢:數(shù)據(jù)基本原理都是完全一樣的,而本質(zhì)都是通過數(shù)據(jù)來發(fā)現(xiàn)相關(guān)性,進(jìn)而形成社交網(wǎng)絡(luò)(Social Network)。之前LinkedIn更多做針對會員的基礎(chǔ)性產(chǎn)品,現(xiàn)在數(shù)據(jù)平臺已經(jīng)建成,并獲得利潤空間,是時(shí)候做更多深度挖掘的工作了。這些產(chǎn)品彼此之間的交叉分析將是新的產(chǎn)品,如通過人與人之間的關(guān)系做不同顏色的區(qū)隔,形成多樣性新分析才更具價(jià)值。
即使是極為追求開源技術(shù)的互聯(lián)網(wǎng)巨頭,也是開源技術(shù)與閉源方案都用。因?yàn)樵谒麄兛磥?,市場上沒有好產(chǎn)品就自己研發(fā),然后開源出去給更多人分享;市場上有成熟高效的產(chǎn)品,就立即拿來應(yīng)用。因?yàn)?,要?shí)現(xiàn)盈利和生存,“快”是最根本的需求。
問:數(shù)據(jù)分析平臺經(jīng)歷了哪些變遷?
張溪夢:人與人之間的關(guān)聯(lián)不僅是線性增長,更多是幾何增長的。比如你認(rèn)識500人,他們背后各自又有500人的連接,發(fā)散下去,三級網(wǎng)絡(luò)是500×500×500。而要對這些數(shù)據(jù)進(jìn)行分析,幾年以前,用的是傳統(tǒng)數(shù)據(jù)庫,計(jì)算一次要幾天到一個(gè)星期;而后用了Aster Date(Aster當(dāng)時(shí)尚未被Teradata收購)來換算數(shù)據(jù)流,數(shù)據(jù)量縮短不少;再到遷移到Teradata大數(shù)據(jù)分析平臺,現(xiàn)在分析比原來基數(shù)要大數(shù)十倍的數(shù)據(jù)也僅需要幾個(gè)小時(shí),速度是原來的幾十倍。
問:幾天前,我們曾發(fā)表文章《Operation InVersion:拯救了LinkedIn的大修項(xiàng)目》提到LinkedIn去掉原來傳統(tǒng)數(shù)據(jù)庫,代之以自己開發(fā)的Voldermont存儲系統(tǒng)和Kafka消息系統(tǒng)。您怎么看?
張溪夢:對,和其他互聯(lián)網(wǎng)企業(yè)一樣,LinkedIn也崇尚開源。LinkedIn是最早使用Hadoop的,無論是增加SQL層實(shí)現(xiàn)從Hadoop中抓取數(shù)據(jù),還是基于Hadoop的開源安全加密方案,LinkedIn幾乎都是第一家提出并落地的。工欲善其事,必先利其器。LinkedIn本身也有很多開源工具,但對我們而言,關(guān)鍵是要快。有些業(yè)務(wù)部門跟我說,不要說BI要2個(gè)小時(shí),我們就需要5秒內(nèi)出結(jié)果,甚至有些方案,最好一個(gè)按鈕就能出來。這類服務(wù),其他企業(yè)是根本提供不了的,所以我們都是自己開發(fā)。但是另一類,本身就有企業(yè)在專業(yè)方面做的更好,比如Teradata天睿公司在企業(yè)數(shù)據(jù)倉庫(EDW)中確實(shí)是最成熟、穩(wěn)定、速度也是最快的。那為什么不采用呢?在LinkedIn內(nèi)部大概有25種不同的數(shù)據(jù)庫和數(shù)據(jù)解決方案,其中60-70%都是內(nèi)部開發(fā)的,但在數(shù)據(jù)倉庫方面,通過6個(gè)月時(shí)間嚴(yán)格評測最后選定了Teradata。
問:怎么看待開源和閉源之間的關(guān)系?
張溪夢:在技術(shù)角度來說,開源和閉源之間是有一個(gè)平衡的。開源速度快,但不穩(wěn)定需要優(yōu)化;閉源穩(wěn)定,但反應(yīng)速度比較慢。LinkedIn在互聯(lián)網(wǎng)里面技術(shù)方面是非常前端的,很多需求倒逼升級,甚至有些需求所需要的技術(shù)支持在之前并不存在,所以要去開發(fā)。比如,以前開發(fā)BI解決方案,需要2秒鐘內(nèi)得到分析報(bào)告,這在市場中根本不存在。我們團(tuán)隊(duì)花了2個(gè)月4個(gè)人做出來系統(tǒng),而且是開源的。再舉個(gè)例子,統(tǒng)計(jì)分析有兩個(gè)知名系統(tǒng),SAS和R。前者穩(wěn)定,閉源,價(jià)格高昂,功能眾多,一般只有大型企業(yè)才用得起,而后者是開源的,反應(yīng)快,不穩(wěn)定,但在專業(yè)領(lǐng)域中很有優(yōu)勢?,F(xiàn)在即使在硅谷,也有很多企業(yè)都開始嘗試R,漸漸從閉源移到開源。原因不在技術(shù),而是在人。開源技術(shù)的擁護(hù)者都是年輕人,隨著年輕人在企業(yè)地位的提升,開源技術(shù)的采用會更加普遍。這是人和技術(shù)之間交互的過程。對開源和閉源方案,我認(rèn)為就像打高爾夫一樣,不同的球桿有不同的作用,開源有開源的作用,閉源有閉源的好處,如何能夠最好地實(shí)現(xiàn)商業(yè)目的這是最重要的。不一定是必須要開源,或者必須要閉源。
問:LinkedIn的開源產(chǎn)品大部分都回饋到社區(qū)了?
張溪夢:很多,LinkedIn開源了很多核心的源代碼。比如說以前LinkedIn的數(shù)據(jù)庫,中文名字叫“帥”。這個(gè)數(shù)據(jù)庫非??欤纫话愕目焓蹲笥?。LinkedIn開發(fā)出來以后就直接開源了。還有LinkedIn做的DataFu基于Hadoop統(tǒng)計(jì)學(xué)庫,其中有很多Hadoop應(yīng)用,還有一些“你可能認(rèn)識的人”的算法,全部開源到Hadoop系統(tǒng)中了?,F(xiàn)在很多人都在用。
LinkedIn內(nèi)部數(shù)據(jù)增長在1000倍左右,但是數(shù)據(jù)價(jià)值并非同數(shù)據(jù)量增加呈線性對應(yīng)關(guān)系,有時(shí)候,甚至是因?yàn)閿?shù)據(jù)量增加使得價(jià)值降低了。舉個(gè)例子,數(shù)量增大,硬盤增大,存儲成本必須增加,但系統(tǒng)速度會變慢,以前一個(gè)分析或者需要一天,現(xiàn)在同樣的分析則需要一周。但增加的價(jià)值不足以抵消成本的增加時(shí),壓力會非常明顯。所以,LinkedIn構(gòu)建了一套新模型,從金字塔變成菱形,面積縮小一半,真正將大數(shù)據(jù)做小,實(shí)現(xiàn)團(tuán)隊(duì)快速運(yùn)行。因?yàn)閷Q策團(tuán)隊(duì)而言,真正有價(jià)值的數(shù)據(jù)也許只有1K—幾十K。用語言描述就是實(shí)現(xiàn)“是還是不是,做還是不做,什么時(shí)候做,做什么?!?/p>
問:從金字塔到菱形,技術(shù)上看,如何做到的?
張溪夢:LinkedIn以前的整個(gè)分析結(jié)構(gòu)是一個(gè)金字塔形結(jié)構(gòu)。基礎(chǔ)是公司的業(yè)務(wù),比如說LinkedIn會員數(shù)據(jù)是底層基礎(chǔ)。其上是LinkedIn產(chǎn)品、市場推廣、銷售、運(yùn)營等基本核心業(yè)務(wù),再上面分別是產(chǎn)品追蹤、數(shù)據(jù)和數(shù)據(jù)質(zhì)量管理、專題分析、商業(yè)智能與報(bào)告、深度分析,最后才是商業(yè)洞察,決策。這個(gè)寶塔是一個(gè)非常慢的過程,越在底下花的時(shí)間越多,但真正有價(jià)值的是最后這幾個(gè)步驟。但是,這顯然與LinkedIn快哲學(xué)不同。要快,就要改變這個(gè)模式,所以我們將大金字塔做成菱形。從數(shù)學(xué)上看,一個(gè)等邊三角形,把它變成了一個(gè)對等的菱形的話,面積縮小一半。也就是說,用技術(shù)把底做小,用機(jī)器和科技為人服務(wù),人的智慧主要集中在上面這種結(jié)構(gòu),比如深入分析、決策支持。這個(gè)階段已經(jīng)被證明是高效的,我剛開始加入LinkedIn,每天從早晨8:30工作到半夜兩三點(diǎn),一周工作6天,一年只不過出500個(gè)報(bào)告,支持不到200人,平均每年幫助每人1-2次;但現(xiàn)在,我的團(tuán)隊(duì)每人每天就能幫助別人10次。我們的效率提升了500-1000倍,現(xiàn)在團(tuán)隊(duì)50多人,可以支持3000人的工作。而下一階段,將再次變小,將菱形變成球形,用滾雪球的方式帶來更大價(jià)值。
問:底層分析是系統(tǒng)/機(jī)器來做?
張溪夢:是的。數(shù)據(jù)本身沒有意義,有意義的是其中的分析。現(xiàn)在研發(fā)、產(chǎn)品、市場推廣、銷售和運(yùn)營等部門不需要找分析師,通過系統(tǒng)就可以直接拿到需求報(bào)告(PPT格式方案),而團(tuán)隊(duì)的工作是分析核心數(shù)據(jù),做決策建議。可以這么來定位,就是歷史上姜子牙、司馬懿、房玄齡這些謀略和決斷的支持部門。。
問:國內(nèi)的技術(shù)開發(fā)者和國外的技術(shù)開發(fā)者的區(qū)別?
張溪夢:我們在能力、智慧等方面一點(diǎn)都不比海外的頂尖分析師差,相反,在執(zhí)行上,還非常非常有效率。但唯一的一個(gè)差異,我認(rèn)為是創(chuàng)新性。真正自主研發(fā)的創(chuàng)新產(chǎn)品,有些創(chuàng)新實(shí)際上就是長期積累下來的靈光一閃。我看到國內(nèi)很多企業(yè)的技術(shù)很是優(yōu)秀,尤其是互聯(lián)網(wǎng)企業(yè)。但現(xiàn)在關(guān)鍵是想不想分享,怎么分享?團(tuán)結(jié)的力量很大,但是封閉、保守永遠(yuǎn)會被歷史淘汰。要通過新技術(shù)引領(lǐng)企業(yè)先前走,進(jìn)而成為中國獨(dú)樹一幟的技術(shù)的先鋒。我的團(tuán)隊(duì)現(xiàn)在平均30歲左右,是非常年輕的隊(duì)伍。包含印度人、中國人、美國人、德國人,全世界各地的人都有。
學(xué)之者不如好之者,好之者不如樂之者,興趣是最好的老師。天津腫瘤醫(yī)院的外科醫(yī)生到LinkedIn商業(yè)分析部總監(jiān),張溪夢一步步地發(fā)展,從睡在地上,到睡在箱子上,再到如今睡到大床上。他告訴年輕人,做自己喜歡的事情最重要。
問:從天津腫瘤醫(yī)院的外科醫(yī)生到LinkedIn商業(yè)分析部總監(jiān),您本身的經(jīng)歷就很有故事性。談?wù)勀鷮β殬I(yè)變化的感受吧?
張溪夢:學(xué)之者不如好之者,好之者不如樂之者,興趣是最好的老師。作為數(shù)據(jù)科學(xué)家,我見過很多名校畢業(yè)的,他們研究物理、化學(xué),想成為數(shù)據(jù)科學(xué)家,我對他們的建議是不要因?yàn)楝F(xiàn)在的數(shù)據(jù)科學(xué)家這個(gè)詞匯非常熱門,就要變成這個(gè)產(chǎn)業(yè)里的一員,我覺得這樣的人往往最后不一定能很成功。想成功的話,需要有強(qiáng)烈的興趣,非常勤奮,并有長遠(yuǎn)的目標(biāo)。講個(gè)小故事,我去美國的時(shí)候什么最火爆?護(hù)士最火爆,一年就能拿到綠卡,只要進(jìn)去考個(gè)試就有綠卡了。很多人就說,你有醫(yī)生的背景干脆去考護(hù)士吧。我當(dāng)時(shí)就說我不去,因?yàn)槲也桓信d趣,這與長遠(yuǎn)目標(biāo)不吻合。結(jié)果學(xué)護(hù)士現(xiàn)在都要等15年才能拿到綠卡,因?yàn)閷W(xué)的人太多了,醫(yī)院都占滿了。
問:對年輕的技術(shù)人員的建議?
張溪夢:我喜歡計(jì)算機(jī)、互聯(lián)網(wǎng)、玩游戲、看雜志。到美國學(xué)了MBA,并創(chuàng)業(yè)(失敗了),再到eBay和LinkedIn。其間開始學(xué)數(shù)據(jù)庫和網(wǎng)絡(luò)編程。一步步,從睡在地上,到睡在箱子上,再到如今睡到大床上。我的經(jīng)歷中得到了很多朋友的幫助,也希望將自己經(jīng)歷進(jìn)行講演同大家分享。美國做過相關(guān)調(diào)查,15%的人喜歡他的工作,85%不喜歡他的工作?,F(xiàn)在,我在上海也招了很多人。因?yàn)槲艺J(rèn)為,年輕人應(yīng)該做自己喜歡做的事情。(文/郭雪梅,審校/仲浩)
聯(lián)系客服