前面對數(shù)據(jù)挖掘相關資源等等進行了總結。但是,很多人不明白學習數(shù)據(jù)挖掘以后干什么,這個問題也經常被問到。記得剛學數(shù)據(jù)挖掘的時候,有一個老師說學數(shù)據(jù)挖掘有什么用,你以后咋找工作。當時聽了,覺得很詫異,不知道他為何有此一問。數(shù)據(jù)挖掘在國外是一份很不錯的工作。我喜歡數(shù)據(jù)挖掘,因為它很有趣。很高興以后就從事這方面的工作啦。寫論文之余,也考慮一下數(shù)據(jù)挖掘工程師的職業(yè)規(guī)劃。以下是從網上找的一些相關資料介紹,和即將走上數(shù)據(jù)挖掘崗位或是想想這方面發(fā)展的朋友共享:
BI職業(yè)發(fā)展方向:數(shù)據(jù)分析師---商業(yè)分析師--管理者
但是在每個公司,可能有不同的發(fā)展方向,但是大致上是從數(shù)據(jù)挖掘工程師起步。
DMFighter:
數(shù)據(jù)挖掘從業(yè)人員工作分析
1.數(shù)據(jù)挖掘從業(yè)人員的愿景:
數(shù)據(jù)挖掘就業(yè)的途徑從我看來有以下幾種,(注意:本文所說的數(shù)據(jù)挖掘不包括數(shù)據(jù)倉庫或數(shù)據(jù)庫管理員的角色)。
A:做科研(在高校、科研單位以及大型企業(yè),主要研究算法、應用等)
B:做程序開發(fā)設計(在企業(yè)做數(shù)據(jù)挖掘及其相關程序算法的實現(xiàn)等)
C:數(shù)據(jù)分析師(在存在海量數(shù)據(jù)的企事業(yè)單位做咨詢、分析等)
2.數(shù)據(jù)挖掘從業(yè)人員切入點:
根據(jù)上面的從業(yè)方向倒序并延伸來說說需要掌握的技能。
C,數(shù)據(jù)分析師:需要有深厚的數(shù)理統(tǒng)計基礎,可以不知道人工智能和計算機編程等相關技術,但是需要熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計分析)工具 。從這個方面切入數(shù)據(jù)挖掘領域的話你需要學習《數(shù)理統(tǒng)計》、《概率論》、《統(tǒng)計學習基礎:數(shù)據(jù)挖掘、推理與預測 》、《金融數(shù)據(jù)挖掘》,《業(yè)務建模與數(shù)據(jù)挖掘》、《數(shù)據(jù)挖掘實踐 》等,當然也少不了你使用的工具的對應說明書了,如SPSS、SAS等廠商的《SAS數(shù)據(jù)挖掘與分析》、《數(shù)據(jù)挖掘Clementine應用實務 》、《EXCEL 2007數(shù)據(jù)挖掘完全手冊》等,如果多看一些如《中文版 數(shù)據(jù)挖掘原理》 等書籍那就更好了。
B,程序設計開發(fā):主要是實現(xiàn)數(shù)據(jù)挖掘現(xiàn)有的算法和研發(fā)新的算法以及根據(jù)實際需要結合核心算法做一些程序開發(fā)實現(xiàn)工作。要想扮演好這個角色,你不但需要熟悉至少一門編程語言如(C,C++,Java,Delphi等)和數(shù)據(jù)庫原理和操作,對數(shù)據(jù)挖掘基礎課程有所了解,讀過《數(shù)據(jù)挖掘概念與技術》(韓家煒著)、《人工智能及其應用》。有一點了解以后,如果對程序比較熟悉的話并且時間允許,可以尋找一些開源的數(shù)據(jù)挖掘軟件研究分析,也可以參考如《數(shù)據(jù)挖掘:實用機器學習技術及Java實現(xiàn)》等一些教程。
A.做科研:這里的科研相對來說比較概括,屬于技術型的相對高級級別,也是B,C的歸宿,那么相應的也就需要對B、C的必備基礎知識了。
--------------------------------------------------------------------------------------------------------
數(shù)據(jù)挖掘人員需具備以下基本條件,才可以完成數(shù)據(jù)挖掘項目中的相關任務。
一、專業(yè)技能
碩士以上學歷,數(shù)據(jù)挖掘、統(tǒng)計學、數(shù)據(jù)庫相關專業(yè),熟練掌握關系數(shù)據(jù)庫技術,具有數(shù)據(jù)庫系統(tǒng)開發(fā)經驗
熟練掌握常用的數(shù)據(jù)挖掘算法
具備數(shù)理統(tǒng)計理論基礎,并熟悉常用的統(tǒng)計工具軟件
二、行業(yè)知識
具有相關的行業(yè)知識,或者能夠很快熟悉相關的行業(yè)知識
三、合作精神
具有良好的團隊合作精神,能夠主動和項目中其他成員緊密合作
四、客戶關系能力
具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項目的重點和難點,善于調整客戶對數(shù)據(jù)挖掘的誤解和過高期望
具有良好的知識轉移能力,能夠盡快地讓模型維護人員了解并掌握數(shù)據(jù)挖掘方法論及建模實施能力
進階能力要求
數(shù)據(jù)挖掘人員具備如下條件,可以提高數(shù)據(jù)挖掘項目的實施效率,縮短項目周期。
具有數(shù)據(jù)倉庫項目實施經驗,熟悉數(shù)據(jù)倉庫技術及方法論
熟練掌握SQL語言,包括復雜查詢、性能調優(yōu)
熟練掌握ETL開發(fā)工具和技術
熟練掌握Microsoft Office軟件,包括Excel和PowerPoint中的各種統(tǒng)計圖形技術
善于將挖掘結果和客戶的業(yè)務管理相結合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價值的可行性操作方案
五、應用及就業(yè)領域
當前數(shù)據(jù)挖掘應用主要集中在電信(客戶分析),零售(銷售預測),農業(yè)(行業(yè)數(shù)據(jù)預測),網絡日志(網頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。當前它能解決的問題典型在于:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領域得到了成功的應用。如果你訪問著名的亞馬遜網上書店(www.amazon.com),會發(fā)現(xiàn)當你選中一本書后,會出現(xiàn)相關的推薦數(shù)目“Customers who bought this book also bought”,這背后就是數(shù)據(jù)挖掘技術在發(fā)揮作用。
數(shù)據(jù)挖掘的對象是某一專業(yè)領域中積累的數(shù)據(jù);挖掘過程是一個人機交互、多次反復的過程;挖掘的結果要應用于該專業(yè)。因此數(shù)據(jù)挖掘的整個過程都離不開應用領域的專業(yè)知識。“Business First, technique second”是數(shù)據(jù)挖掘的特點。因此學習數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識和經驗。相反,有其它行業(yè)背景是從事數(shù)據(jù)挖掘的一大優(yōu)勢。如有銷售,財務,機械,制造,call center等工作經驗的,通過學習數(shù)據(jù)挖掘,可以提升個人職業(yè)層次,在不改變原專業(yè)的情況下,從原來的事務型角色向分析型角色轉變。從80年代末的初露頭角到90年代末的廣泛應用,以數(shù)據(jù)挖掘為核心的商業(yè)智能(BI)已經成為IT及其它行業(yè)中的一個新寵。
數(shù)據(jù)采集分析專員
職位介紹:數(shù)據(jù)采集分析專員的主要職責是把公司運營的數(shù)據(jù)收集起來,再從中挖掘出規(guī)律性的信息來指導公司的戰(zhàn)略方向。這個職位常被忽略,但相當重要。由于數(shù)據(jù)庫技術最先出現(xiàn)于計算機領域,同時計算機數(shù)據(jù)庫具有海量存儲、查找迅速、分析半自動化等特點,數(shù)據(jù)采集分析專員最先出現(xiàn)于計算機行業(yè),后來隨著計算機應用的普及擴展到了各個行業(yè)。該職位一般提供給懂數(shù)據(jù)庫應用和具有一定統(tǒng)計分析能力的人。有計算機特長的統(tǒng)計專業(yè)人員,或學過數(shù)據(jù)挖掘的計算機專業(yè)人員都可以勝任此工作,不過最好能夠對所在行業(yè)的市場情況具有一定的了解。
求職建議:由于很多公司追求短期利益而不注重長期戰(zhàn)略的現(xiàn)狀,目前國內很多企業(yè)對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高,隨著時間的推移該職位會有升溫的趨勢。另外,數(shù)據(jù)采集分析專員很容易獲得行業(yè)經驗,他們在分析過程中能夠很輕易地把握該行業(yè)的市場情況、客戶習慣、渠道分布等關鍵情況,因此如果想在某行創(chuàng)業(yè),從數(shù)據(jù)采集分析專員干起是一個不錯的選擇。
市場/數(shù)據(jù)分析師
1. 市場數(shù)據(jù)分析是現(xiàn)代市場營銷科學必不可少的關鍵環(huán)節(jié): Marketing/Data Analyst從業(yè)最多的行業(yè): Direct Marketing (直接面向客戶的市場營銷) 吧,自90年代以來, Direct Marketing越來越成為公司推銷其產品的主要手段。根據(jù)加拿大市場營銷組織(Canadian Marketing Association)的統(tǒng)計數(shù)據(jù): 僅1999年一年 Direct Marketing就創(chuàng)造了470000 個工作機會。從1999至2000,工作職位又增加了30000個。為什么Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業(yè)競爭日益加劇,公司希望能最大限度的從廣告中得到銷售回報, 他們希望能有更多的用戶來響應他們的廣告。所以他們就必需要在投放廣告之前做大量的市場分析工作。例如,根據(jù)自己的產品結合目標市場顧客的家庭收入,教育背景和消費趨向分析出哪些地區(qū)的住戶或居民最有可能響應公司的銷售廣告,購買自己的產品或成為客戶,從而廣告只針對這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場既節(jié)省開銷又提高了銷售回報率。但是所有的這些分析都是基于數(shù)據(jù)庫,通過數(shù)據(jù)處理,挖掘,建模得出的,其間,市場分析師的工作是必不可少的。
2. 行業(yè)適應性強: 幾乎所有的行業(yè)都會應用到數(shù)據(jù), 所以作為一名數(shù)據(jù)/市場分析師不僅僅可以在華人傳統(tǒng)的IT行業(yè)就業(yè),也可以在政府,銀行,零售,醫(yī)藥業(yè),制造業(yè)和交通傳輸?shù)阮I域服務。
現(xiàn)狀與前景
數(shù)據(jù)挖掘是適應信息社會從海量的數(shù)據(jù)庫中提取信息的需要而產生的新學科。它是統(tǒng)計學、機器學習、數(shù)據(jù)庫、模式識別、人工智能等學科的交叉。在中國各重點院校中都已經開了數(shù)據(jù)挖掘的課程或研究課題。比較著名的有中科院計算所、復旦大學、清華大學等。另外,政府機構和大型企業(yè)也開始重視這個領域。
據(jù)IDC對歐洲和北美62家采用了商務智能技術的企業(yè)的調查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報率為401%,其中25%的企業(yè)的投資回報率超過600%。調查結果還顯示,一個企業(yè)要想在復雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復雜的商業(yè)結構,若沒有詳實的事實和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術的不斷改進和日益成熟,它必將被更多的用戶采用,使更多的管理者得到更多的商務智能。
根據(jù)IDC(International Data Corporation)預測說2004年估計BI行業(yè)市場在140億美元?,F(xiàn)在,隨著我國加入WTO,我國在許多領域,如金融、保險等領域將逐步對外開放,這就意味著許多企業(yè)將面臨來自國際大型跨國公司的巨大競爭壓力。國外發(fā)達國家各種企業(yè)采用商務智能的水平已經遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業(yè)的商務智能技術的采用情況進行了調查。結果顯示,在金融領域,商務智能技術的應用水平已經達到或接近70%,在營銷領域也達到50%,并且在未來的3年中,各個應用領域對該技術的采納水平都將提高約50%。
現(xiàn)在,許多企業(yè)都把數(shù)據(jù)看成寶貴的財富,紛紛利用商務智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的回報。國內暫時還沒有官方關于數(shù)據(jù)挖掘行業(yè)本身的市場統(tǒng)計分析報告,但是國內數(shù)據(jù)挖掘在各個行業(yè)都有一定的研究。據(jù)國外專家預測,在今后的5—10年內,隨著數(shù)據(jù)量的日益積累以及計算機的廣泛應用,數(shù)據(jù)挖掘將在中國形成一個產業(yè)。
眾所周知,IT就業(yè)市場競爭已經相當激烈,而數(shù)據(jù)處理的核心技術---數(shù)據(jù)挖掘更是得到了前所未有的重視。數(shù)據(jù)挖掘和商業(yè)智能技術位于整個企業(yè)IT-業(yè)務構架的金字塔塔尖,目前國內數(shù)據(jù)挖掘專業(yè)的人才培養(yǎng)體系尚不健全,人才市場上精通數(shù)據(jù)挖掘技術、商業(yè)智能的供應量極小,而另一方面企業(yè)、政府機構和和科研單位對此類人才的潛在需求量極大,供需缺口極大。如果能將數(shù)據(jù)挖掘技術與個人已有專業(yè)知識相結合,您必將開辟職業(yè)生涯的新天地!
職業(yè)薪酬
就目前來看,和大多IT業(yè)的職位一樣,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方面的人才在國內的需求工作也是低端飽和,高端緊缺,在二線成熟,高端數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方面的人才尤其稀少。高端數(shù)據(jù)倉庫和數(shù)據(jù)挖掘人才需要熟悉多個行業(yè),至少有3年以上大型DWH和BI經驗,英語讀寫流利,具有項目推動能力,這樣的人才年薪能達到20萬以上
聯(lián)系客服