在互聯(lián)網(wǎng)企業(yè)中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交網(wǎng)絡,用戶品質(zhì)、廣告價值都是行業(yè)翹楚,秘密在于LinkedIn有一個高效的數(shù)據(jù)科學家團隊。
作為社交網(wǎng)絡, LinkedIn并不是最大的,也不是生長最快的。 成立于2003年的LinkedIn, 花了500天, 才達到了100萬用戶。 然而, 作為全球最大的職業(yè)社交網(wǎng)絡,LinkedIn的后勁十足。今天, LinkedIn每6天就新增100萬用戶。 平均每秒有兩個新增用戶。 每年, LinkedIn的用戶搜索量達到了42億。 LinkedIn的數(shù)據(jù)分析團隊每天要分析200TB的數(shù)據(jù)來更好地了解用戶。
為什么人們現(xiàn)在如此的關心統(tǒng)計和數(shù)據(jù),為什么數(shù)據(jù)科學家成了最性感的工作, 最近,在TiE的峰會上, LinkedIn的首席數(shù)據(jù)科學家Manu Sharma 接受了采訪, 揭秘了LinkedIn的數(shù)據(jù)分析的工作。
問: 能介紹一下LinkedIn的數(shù)據(jù)科學嗎?
答: LinkedIn就是用戶的職業(yè)社交網(wǎng)絡, 在這個網(wǎng)絡上, 如果人們想找你卻找不到那么你就可能失去一個機會。 因此, 對用戶來說,保持狀態(tài)和資料的時時更新非常重要。 LinkedIn的業(yè)務, 就是建立在對這些數(shù)據(jù)進行分析的基礎上的。 為了達到對數(shù)據(jù)實時快速處理的目的,我們開發(fā)了自己獨特的算法, 叫Metropolis。它可以每天實時處理10億條數(shù)據(jù)。 具備開源的解決方案 Voldemort,Kafka,和Zoie 那樣的功能。
數(shù)據(jù)科學家需要具備好奇心和直覺。 他們需要想的問題是:我能用這些數(shù)據(jù)來做什么呢? 我需要問什么樣的問題?這些數(shù)據(jù)能告訴我什么? 他們還需要足夠的直覺來了解他們所采用方法的局限性。 數(shù)據(jù)科學家的工作包括, 采集數(shù)據(jù), 整理數(shù)據(jù), 建立正確的模型, 測試模型, 還要有一定的編程能力。 一個數(shù)據(jù)科學家需要具備這些技能, 而這些技能也是一個初創(chuàng)企業(yè)在建立它的數(shù)據(jù)科學家團隊所需要的技能。
問: LinkedIn數(shù)據(jù)應用的重點是那幾個方面?
答:LinkedIn的數(shù)據(jù)應用主要在三個方面:
1. 開發(fā)創(chuàng)新的數(shù)據(jù)產(chǎn)品
2. 從內(nèi)部數(shù)據(jù)發(fā)現(xiàn)趨勢和機會
3. 推動業(yè)務成長
比如”推理算法”被用來根據(jù)用戶的數(shù)據(jù)進行一些信息的推測。 這一點對于將來的產(chǎn)品設計尤其重要。比如說, LinkedIn就采用了“推理算法”推出了“你可能知道的人”這個功能。 這對增加用戶粘性和提高用戶口碑傳播有極大的幫助。 LinkedIn是最早推出這一功能的。 現(xiàn)在, 這個功能已經(jīng)成為了社交網(wǎng)絡的必備功能了。
此外, 通過用戶在資料里關于技能的描述文本,我們通過文本提取和文本分析, 建立起一套技能的關鍵子字典。 通過聚類算法, 可以產(chǎn)生很多很有意思的發(fā)現(xiàn)來幫助我們提高服務或者推出產(chǎn)品。
此外, 通過對各個行業(yè)的用戶數(shù)據(jù)分析,還可以對行業(yè)或者整個經(jīng)濟進行一些預測。(編者: 比如說某個行業(yè)進行了裁員, 或者某些行業(yè)的招聘計劃增加等等) 這樣做的一個優(yōu)點是, 這些數(shù)據(jù)不是來自與問卷調(diào)查,這些是用戶實實在在的行為數(shù)據(jù)。 所以,在美國總統(tǒng)經(jīng)濟政策報告里, 這些數(shù)據(jù)也會被采用。 這些數(shù)據(jù)同樣的對企業(yè)的發(fā)展也很重要。
問:數(shù)據(jù)分析最佳實踐的原則是什么?
答:
1. 數(shù)據(jù)量越大越好
2. 原始數(shù)據(jù)比加工數(shù)據(jù)好
3. 數(shù)據(jù)標準和數(shù)據(jù)質(zhì)量非常重要
4. 簡單模型比復雜模型要好
5. 建模就是要不斷進行試錯。
聯(lián)系客服