中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖掘失敗的根源

這是傅一平的第315篇原創(chuàng)


“與數(shù)據(jù)同行”開通了微信群,現(xiàn)已匯聚了3500位小伙伴了,長按以下二維碼發(fā)送“入群”后加入。

正文開始

出租車司機識別模型是去年我們接到的一個挖掘需求,這個案例經(jīng)歷了數(shù)據(jù)挖掘工作幾乎所有的挑戰(zhàn)(除了算法),這里筆者結(jié)合這個案例系統(tǒng)梳理下這些挑戰(zhàn),并嘗試給出這些挑戰(zhàn)的深層次原因和解決建議。

1、目標(biāo)難以達(dá)成事實上的共識

去年接到出租車司機識別挖掘需求的時候,自己并不知道對方的預(yù)期是多少,就急著安排人員去推進(jìn),這個為后續(xù)的模型反復(fù)埋下了禍根,你會發(fā)現(xiàn),建模師不停的改,業(yè)務(wù)人員不停的提要求,啟啟停停,沒有盡頭。

直到最近才摸到了業(yè)務(wù)人員的底線,比如達(dá)到XX%的準(zhǔn)確率可投入生產(chǎn),但為什么開始的目標(biāo)沒有定呢,想來有三個原因:

第一、業(yè)務(wù)人員提數(shù)據(jù)挖掘需求的時候應(yīng)該是有個大致預(yù)期的,理論上需要有成本的考量,比如數(shù)據(jù)達(dá)到多高的精度才能cover住這次營銷的投放成本,但業(yè)務(wù)人員總是會想越高越好。

第二、建模方在實際探索前很難給出準(zhǔn)確的預(yù)估,因為缺乏足夠的依據(jù),互聯(lián)網(wǎng)公司可能會好一點,畢竟它們有大量的歷史經(jīng)驗值可以參考,但對于大多數(shù)公司來講沒有。

第三、數(shù)據(jù)挖掘的結(jié)果是個概率值,比如要準(zhǔn)確一點,覆蓋率就會降低一點,這種數(shù)據(jù)上的“彈性”使得雙方要達(dá)成目標(biāo)上的共識更困難了。

因此筆者經(jīng)歷的大多數(shù)的數(shù)據(jù)挖掘其實是在未達(dá)成業(yè)務(wù)目標(biāo)共識的前提下開展探索的,業(yè)務(wù)人員期待著一個最好的結(jié)果,建模師則抱著試試看得心態(tài)。

經(jīng)驗告訴我,為了節(jié)省你團隊寶貴的挖掘資源,啟動一個數(shù)據(jù)挖掘工作事先還是要盡量與業(yè)務(wù)方達(dá)成一個共識,比如業(yè)務(wù)上能容忍的底線是多少,這個業(yè)務(wù)方應(yīng)是有數(shù)的,或者是有辦法給出的(比如基于歷史的營銷經(jīng)驗等等),否則就不會提所謂的精準(zhǔn)需求了,不愿意認(rèn)真對待目標(biāo)的業(yè)務(wù)方不值得接收他的需求。

業(yè)務(wù)目標(biāo)達(dá)成共識后,一個很大的好處是對于建模師的工作有個基本的指引,比如第一次挖掘的結(jié)果如果大大低于最低目標(biāo),就要考慮是否建模方法上出現(xiàn)了重大偏差,或者是數(shù)據(jù)質(zhì)量不足以支持目標(biāo)的達(dá)成,或者直接升級問題說明情況,沒有基本預(yù)期的建模師有點像無頭的蒼蠅,走到哪算到哪。

2、缺乏生產(chǎn)驗證的方案和業(yè)務(wù)承諾

出租車司機模型的第一個版本出來后,建模師希望立刻去做驗證,但業(yè)務(wù)方告知外呼驗證需要排期,大概要等1-2個禮拜才能拿到確認(rèn)的結(jié)果,這種情況在企業(yè)內(nèi)司空見慣。

為什么互聯(lián)網(wǎng)公司的數(shù)據(jù)挖掘效率就比較高呢?筆者覺得一個主要原因就是其具備的在線AB測試的能力,大多數(shù)傳統(tǒng)企業(yè)尚不具備這種快速發(fā)布模型并進(jìn)行生產(chǎn)驗證的條件。

為什么?

因為大多企業(yè)的營銷投放流程有大量的線下、人工環(huán)節(jié),做一次精準(zhǔn)營銷的投放代價很大,流程也很長,而這個跟數(shù)據(jù)挖掘的快速迭代要求相悖。

機器學(xué)習(xí)、人工智能面臨的最大挑戰(zhàn)就是先進(jìn)的生產(chǎn)力跟企業(yè)的落后的生產(chǎn)關(guān)系的矛盾,你要讓數(shù)據(jù)挖掘快速迭代就意味著要重塑企業(yè)的營銷管理流程,這個談何容易。

但即使是這樣,我們因地制宜也有提升的空間。

既然企業(yè)投放生產(chǎn)的限制條件這么多,那么就要未雨綢繆,提前給出模型大致的發(fā)布時間和驗證方案,業(yè)務(wù)人員提前做好準(zhǔn)備,比如配備的渠道、產(chǎn)品和政策資源等等,這樣就能改善問題。

雙方都應(yīng)該為數(shù)據(jù)挖掘的快速推進(jìn)承擔(dān)具體的責(zé)任,很多數(shù)據(jù)挖掘無法快速推進(jìn)往往是前端的業(yè)務(wù)問題(比如協(xié)調(diào)不動相關(guān)資源),這個時候就要升級問題,而不是到時再說。

3、缺乏有效的信息獲取方式

出租車司機模型迭代了四個版本,每個版本最大的變化是什么呢?

筆者發(fā)現(xiàn)并不是算法做了什么變更,參數(shù)做了多大的調(diào)優(yōu),而是在于隨著數(shù)據(jù)探索和業(yè)務(wù)理解的深入,特征的選擇增加了,特征變量的表征加強了。

在一次分享會上,筆者特意就出租車司機識別的特征變量選擇隨機問了部分團隊成員(1分鐘內(nèi)),如果讓你去做建模,你會選擇哪些影響變量?

一位產(chǎn)品經(jīng)理回答了5個,一位開發(fā)工程師回答了3個。

然后筆者在3500人的9個微信群提出了同樣的問題,共有15位熱心的群友給出了回復(fù),他們提供了多少變量?

30個。

頂級的信息獲取能力,就是讓全網(wǎng)的數(shù)據(jù)從業(yè)者為你貢獻(xiàn)智慧。

筆者在《數(shù)據(jù)挖掘軍規(guī)》一文中提出了一系列管理提升的建議,重要的一點就是確保你能站在巨人的肩膀上去做事,你一定要想到自己的業(yè)務(wù)常識肯定受限于自己的經(jīng)歷,因此一定要善于采用各種手段從外部獲取更多的信息,在參數(shù)調(diào)優(yōu)階段你可以做孤獨的舞者,但在方案設(shè)計階段,一定要努力成為一個連接者。

下圖顯示了某個版本的部分變量選擇示意:


4、缺乏足夠的數(shù)據(jù)分析經(jīng)驗

我們發(fā)現(xiàn)前三次的模型中存在大量的誤識別問題,比如外賣員、物流配送人員、公交車、班車司機有很高的概率被識別成出租車司機,建模人員還是習(xí)慣于用技術(shù)的手段去解決這種問題,但調(diào)優(yōu)的結(jié)果往往并不是很好。

有的建模師就會沮喪的說已經(jīng)做到極致了,真的提升不了了,但事實真的是這樣?

筆者做過數(shù)據(jù)分析,發(fā)現(xiàn)很多數(shù)據(jù)建模師其實缺乏足夠的數(shù)據(jù)分析訓(xùn)練,不善于采用比較鑒別的手段去洞悉數(shù)據(jù)上的一些規(guī)律,自己寫過一篇文章《經(jīng)驗,套路還是邏輯?從我的一次數(shù)據(jù)分析經(jīng)歷中能得到什么?》說過分析的方法,建模師會算法、會調(diào)參不等于會數(shù)據(jù)分析,而數(shù)據(jù)分析能鍛煉你的常識能力,比如數(shù)據(jù)的敏感度。

下面的視頻顯示了出租車司機、外賣員、物流配送人員、公交車、班車司機在軌跡上的特征,其實很容易分析出之間的差異,然后設(shè)計合適的指標(biāo)去表征這個差異,比如:出租車司機的活動軌跡、不固定、較雜亂,外賣員有較固定的軌跡發(fā)散點,公交車、班車司機則有較固定的活動區(qū)域、活動軌跡、往返點等等。

出租車司機典型路徑

外賣員典型路徑

公交車司機典型路徑

下圖示例了用新的位置變量來表征正負(fù)樣本活動區(qū)域的不固定性程度,很好的解決了誤識別問題。


5、缺乏足夠的數(shù)據(jù)質(zhì)量稽核

在第四次建模的時候我們發(fā)現(xiàn)了大量的樣本問題,比如在業(yè)務(wù)部門提供的2148個司機原始清單中,近20%的司機位置軌跡行為不顯著,處于低水平,甚至有60余人無行動軌跡,核實發(fā)現(xiàn)很多人的確曾經(jīng)是滴滴司機,但已經(jīng)不干了,樣本的時效性問題突出。

即使是將前三次外呼的結(jié)果作為樣本,也發(fā)現(xiàn)在84個正樣本中,還有25個正樣本活動軌跡非出租車司機,誰都無法保證外呼的結(jié)果是絕對準(zhǔn)確的。

因此,相對于互聯(lián)網(wǎng)較好的在線數(shù)據(jù),傳統(tǒng)企業(yè)的數(shù)據(jù)建模師其實面臨更多的數(shù)據(jù)質(zhì)量的挑戰(zhàn),只要有業(yè)務(wù)驗證的可能,就要對于樣本進(jìn)行常識的分析和判斷,機械的進(jìn)行樣本清洗、過濾和轉(zhuǎn)化是簡單的,但如果樣本的真實性出現(xiàn)了問題,那是比較致命的。

數(shù)據(jù)建模師對一切數(shù)據(jù)都要持懷疑態(tài)度,然后老老實實的去驗證,不要想著走捷徑。

6、缺乏合理的機制流程保障

出租車司機的四次模型迭代,并不是依靠團隊力量的一個有機協(xié)調(diào)的逐步推進(jìn)的一個過程,而是非?;靵y的,無論是目標(biāo)的設(shè)定,設(shè)計的評審,效果的反饋,后續(xù)的優(yōu)化,都存在管理的缺位。

雖然數(shù)據(jù)建模師似乎也能稱為碼農(nóng),但其并不是純粹意義上的碼農(nóng),你會看到大多數(shù)企業(yè)的數(shù)據(jù)建模師實際要兼顧開發(fā)者、建模者、分析者、運營者等諸多角色,筆者寫過一篇文章《數(shù)據(jù)挖掘師,要從一個人活成一支隊伍》說明過這個道理,這些角色要完成工作需要依賴大量的周邊資源,這個需要機制和流程的保障。

因此筆者近期寫了篇《數(shù)據(jù)挖掘軍規(guī)》的文章,列出了數(shù)據(jù)挖掘中的一些關(guān)鍵節(jié)需要在流程上進(jìn)行強行的控制,確保其能夠高效低成本的進(jìn)行,包括需求可行性匯報、設(shè)計方案匯報、問題升級匯報、試點結(jié)果匯報、推廣評估匯報等等,下面是一張流程圖示意,請仔細(xì)研讀。


當(dāng)然數(shù)據(jù)挖掘失敗的原因遠(yuǎn)不止于上面提到的這些,從技術(shù)的角度來講還有更多,但考慮到大多數(shù)企業(yè)基于數(shù)據(jù)挖掘驅(qū)動業(yè)務(wù)還處于起步階段,在大多的應(yīng)用場景,算法能力的高低還沒有成為決定性的因素,我們可以考慮先把上面提到的一些低垂的果實摘了,然后再對算法去攻堅克難,這可能是性價比更高的方式。

作者:傅一平 
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【回顧】大數(shù)據(jù)微課 | 郭鵬程:如何獲得有生命力的數(shù)據(jù)
如何構(gòu)建有指導(dǎo)的數(shù)據(jù)挖掘模型
大數(shù)據(jù)與數(shù)據(jù)挖掘(3)
完成一個預(yù)測建模項目一般需要多長時間?
RapidMiner數(shù)據(jù)挖掘入門之一:概要
數(shù)據(jù)挖掘中易犯的11大錯誤
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服