365 Data Science 收集了來(lái)自 LinkedIn 的 1001 數(shù)據(jù)科學(xué)家的信息,發(fā)現(xiàn)需求量最大的編程語(yǔ)言為 R 語(yǔ)言、Python 和 SQL。另外,還要求具備 MATLAB、Java、Scala 和 C/C++ 方面的知識(shí)。為了能夠脫穎而出,需要熟練掌握 Weka 和 NumPy 這類工具。
你需要牢固掌握概率統(tǒng)計(jì)學(xué),并學(xué)習(xí)和掌握一些算法,比如樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC 曲線、P-Value 等。
不但要理解這些算法,還要知道它們的工作原理。你需要牢固掌握梯度下降、凸優(yōu)化、拉各朗日方法論、二次規(guī)劃、偏微分方程、求積法等相關(guān)算法。
如果你想找一份高薪的工作,還需要掌握機(jī)器學(xué)習(xí)技術(shù)和算法,比如 k-NN、樸素貝葉斯、SVM 和決策森林等。
現(xiàn)在大部分機(jī)器學(xué)習(xí)都需要海量數(shù)據(jù),所以你無(wú)法在單臺(tái)機(jī)器上進(jìn)行機(jī)器學(xué)習(xí)。所以,你需要用到集群,需要掌握 Apache Hadoop 和一些云服務(wù),如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。
你還需要掌握各種 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因?yàn)闄C(jī)器學(xué)習(xí)基本上都是在 Unix 系統(tǒng)上運(yùn)行的,所以需要掌握這些工具,知道它們的作用以及如何使用它們。
傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)老去。除了 Hadoop 之外,你還需要掌握 SQL、Hive 和 Pig,以及 NoSQL 數(shù)據(jù)庫(kù),如 MongoDB、Casssandra、HBase。
基于 NoSQL 分布式數(shù)據(jù)庫(kù)的基礎(chǔ)設(shè)施已經(jīng)成為大數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。原先在一個(gè)中心關(guān)系型數(shù)據(jù)庫(kù)上需要 20 個(gè)小時(shí)才能處理完的任務(wù),在一個(gè)大型的 Hadoop 集群上可能只需要 3 分鐘時(shí)間。當(dāng)然,你也可以使用 MapReduce、Cloudera、Tarn、PaaS、Chef、Flume 和 ABAP 這些工具。
在掌握編程語(yǔ)言和算法的同時(shí),不要忽略了數(shù)據(jù)可視化的作用。如果無(wú)法讓你自己或別人理解數(shù)據(jù),那么它們就變得毫無(wú)意義。數(shù)據(jù)可視化就是指如何在正確的時(shí)間向正確的人展示數(shù)據(jù),以便讓他們從中獲得價(jià)值。主要的數(shù)據(jù)可視化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。
要成為數(shù)據(jù)科學(xué)家,不一定非要拿到數(shù)據(jù)科學(xué)方面的學(xué)位。事實(shí)上,你完全不需要這么做,這樣做反而不是個(gè)好主意。如果你能拿到計(jì)算機(jī)學(xué)位、工程學(xué)學(xué)位、經(jīng)濟(jì)學(xué)學(xué)位、數(shù)學(xué)學(xué)位、統(tǒng)計(jì)學(xué)學(xué)位、精算師學(xué)位、金融學(xué)學(xué)位或者自然科學(xué)學(xué)位(物理、化學(xué)或生物)都是可以的。甚至是人文科學(xué)(包括社會(huì)科學(xué))也是可以的。
365 Data Science 的研究表明,20% 的數(shù)據(jù)科學(xué)家擁有計(jì)算機(jī)學(xué)位,19% 擁有統(tǒng)計(jì)學(xué)或數(shù)學(xué)背景,19% 主攻經(jīng)濟(jì)和社會(huì)科學(xué)專業(yè)。只有 13% 擁有存粹的數(shù)據(jù)科學(xué)學(xué)位。不過(guò)很少有大學(xué)提供數(shù)據(jù)科學(xué)本科學(xué)位,他們大部分都提供了碩士學(xué)位。因?yàn)樵撀殬I(yè)是一個(gè)新興職業(yè),所以毫無(wú)疑問(wèn),很多人在本科階段并不會(huì)接觸到數(shù)據(jù)科學(xué)。
如果能夠繼續(xù)深造,拿到數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí) /AI 相關(guān)的碩士或博士學(xué)位,自然會(huì)助你一臂之力,特別是如果你想在世界 500 強(qiáng)公司里找到一份數(shù)據(jù)科學(xué)家的工作。365 Data Science 研究發(fā)現(xiàn),擁有碩士和博士學(xué)位的 1001 數(shù)據(jù)科學(xué)家比例分別是 48% 和 27%。
不過(guò),碩士學(xué)位確實(shí)不是那么好拿到的,但如果能夠拿到,那絕對(duì)是如虎添翼。如果你想從事數(shù)據(jù)分析工作,但不一定要接觸數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),那么碩士學(xué)位就不是必需的。你完全可以在沒(méi)有碩士學(xué)位的情況下獲得一份數(shù)據(jù)分析的工作。不要把數(shù)據(jù)科學(xué)和數(shù)據(jù)分析混淆起來(lái)了。
在實(shí)習(xí)結(jié)束后,有 18% 的人可以直接進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。所以,如果你已經(jīng)有了碩士學(xué)位,最好先找一個(gè)實(shí)習(xí)崗位,而不是直接繼續(xù)讀博。
在現(xiàn)實(shí)當(dāng)中,很少有公司會(huì)直接正式招聘應(yīng)屆的數(shù)據(jù)科學(xué)家。他們大部分人都是從分析員(數(shù)據(jù)分析、BI 分析)、實(shí)習(xí)生、IT 專員、軟件工程師和咨詢顧問(wèn)做起的。只有 2% 的人在一開始就從事數(shù)據(jù)科學(xué)工作。
有意思的是,數(shù)據(jù)科學(xué)家中有 27% 是博士,所以大學(xué)自然就成為培養(yǎng)數(shù)據(jù)科學(xué)家的搖籃,有一些高校學(xué)者直接被聘請(qǐng)成為數(shù)據(jù)科學(xué)家。另外,從事 IT 工作的人比從事顧問(wèn)工作的人更容易成為數(shù)據(jù)科學(xué)家,所以扎實(shí)的編程功底絕對(duì)是個(gè)優(yōu)勢(shì)。
一組研究數(shù)據(jù)表明,排名靠前的高校會(huì)培養(yǎng)出更多數(shù)據(jù)科學(xué)家。
28% 高收入數(shù)據(jù)科學(xué)家來(lái)自世界排名前 50 的高校,不過(guò)也有 25% 來(lái)自不在排名之列的高校。
所以,這個(gè)與學(xué)校排名有一定的關(guān)系,但不是全部。知識(shí)、技術(shù)實(shí)力和實(shí)戰(zhàn)經(jīng)驗(yàn)比畢業(yè)院校更重要。實(shí)際的經(jīng)驗(yàn)和良好的編程技能是必需的,而好學(xué)校是錦上添花,但不是決定因素。
我參加在線課程有很長(zhǎng)一段時(shí)間了。為了獲得一份數(shù)據(jù)科學(xué)家的工作,或者為了拿到數(shù)據(jù)科學(xué)家碩士學(xué)位,需要努力自學(xué)。
40% 的數(shù)據(jù)科學(xué)家參加過(guò)在線教育課程。另外,平均每人獲得 3.33 個(gè)證書。所以,為了成為好的數(shù)據(jù)科學(xué)家,你需要通過(guò)參加在線課程、觀看視頻資料和獲得 MOOC 證書的方式進(jìn)行自學(xué)。
數(shù)據(jù)科學(xué)都是關(guān)于數(shù)學(xué)、編程和技術(shù)。但在現(xiàn)今以數(shù)據(jù)為驅(qū)動(dòng)的工作場(chǎng)所,軟技能也是很重要的,如溝通技能、求知欲、創(chuàng)造力、文化智能、情商和商業(yè)敏銳度。
數(shù)據(jù)科學(xué)的終極目標(biāo)就是探索,以創(chuàng)新的方式發(fā)現(xiàn)新的想法。好的數(shù)據(jù)科學(xué)家受求知欲的驅(qū)使,以各種創(chuàng)新的方式探索數(shù)據(jù)。好的公司不只是需要那些會(huì)回答問(wèn)題的人,也需要那些善于提問(wèn)的人。
有些人能夠在學(xué)習(xí)和工作之外做一些體現(xiàn)自己激情的事情,這些人比較受招聘者的青睞,所以請(qǐng)主動(dòng)加入一些數(shù)據(jù)科學(xué)項(xiàng)目吧,去解決一些實(shí)際的業(yè)務(wù)難題或做一些調(diào)研。創(chuàng)新思維能力和為舊問(wèn)題尋找新方案的能力是區(qū)別優(yōu)秀數(shù)據(jù)科學(xué)家和一般數(shù)據(jù)科學(xué)家的主要依據(jù)。
好的數(shù)據(jù)科學(xué)家是技術(shù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)之間的粘合劑。作為數(shù)據(jù)科學(xué)家,你需要成為好的溝通協(xié)調(diào)者。
有時(shí)候,你要以一種大家都能明白的方式來(lái)陳述事實(shí)。如果數(shù)據(jù)分析的結(jié)果暗示公司的策略需要發(fā)生變化,你需要通過(guò)良好的人際關(guān)系技能將公司帶向正確的方向。
作為數(shù)據(jù)科學(xué)家,你需要對(duì)所在行業(yè)有非常深刻的認(rèn)識(shí)——行業(yè)發(fā)展趨勢(shì)、客戶的痛點(diǎn)、競(jìng)爭(zhēng)對(duì)手。你要知道公司想要解決什么樣的業(yè)務(wù)問(wèn)題。數(shù)據(jù)科學(xué)家需要知道要解決什么問(wèn)題以及如何找出合適的解決方案。深入了解業(yè)務(wù),并能夠?qū)⑵渑c客戶喜好、產(chǎn)品生命周期和盈利目標(biāo)結(jié)合在一起,是找到創(chuàng)造性解決方案的關(guān)鍵。
不要忘了花點(diǎn)時(shí)間為面試做準(zhǔn)備。不管你的技術(shù)有多強(qiáng),面試官總有辦法用一些你不知道的問(wèn)題把你掃地出門。在面試中,面試官有可能問(wèn)各種各樣的問(wèn)題,要求候選人具備非常強(qiáng)的技術(shù)功底、很強(qiáng)的抗壓能力、創(chuàng)造性思維以及很好的溝通能力。面試官會(huì)通過(guò)各種方式來(lái)考察你的你的知識(shí)、編程技能和數(shù)據(jù)建模技能,所以提前做好準(zhǔn)備是成功應(yīng)聘的關(guān)鍵。
2018 年,整個(gè)行業(yè)需要大概 100 萬(wàn)個(gè)數(shù)據(jù)科學(xué)家。人工智能、大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)被用于挖掘新的業(yè)務(wù)洞見,據(jù)福布斯估計(jì),“在 2020 年之前,它們將從還在沉睡中的同伴那里每年偷走 1.2 萬(wàn)億美元”。不過(guò),要進(jìn)入這個(gè)領(lǐng)域,要先確保你對(duì)統(tǒng)計(jì)、編程和數(shù)據(jù)建模有足夠的熱情,不要盲目隨波逐流或盲目追求高薪資。
但或許你會(huì)在其他領(lǐng)域得到更好的發(fā)展,比如經(jīng)濟(jì)、應(yīng)用數(shù)學(xué)或工程領(lǐng)域。首先要確定數(shù)據(jù)科學(xué)這條路是不是適合自己。2018 年絕對(duì)不會(huì)讓那些有志在數(shù)據(jù)科學(xué)領(lǐng)域一展身手的人失望。不過(guò)還是那句話,一個(gè)具備分析能力的大腦、熟練的編程技能、誠(chéng)摯的熱情和持續(xù)自我提升的毅力將決定你的數(shù)據(jù)科學(xué)家之路會(huì)走多遠(yuǎn)。
原文鏈接:
https://www.stoodnt.com/blog/285/how-to-get-data-science-and-machine-learningai-jobs-how-to-become-a-data-scientist
點(diǎn)擊下方圖片即可閱讀
不止 Google vs. Nvidia:深度學(xué)習(xí)引領(lǐng) AI 芯片大戰(zhàn)
根據(jù) Gartner 的預(yù)測(cè),AI 在 2018 年已經(jīng)不是遙不可及的東西,每家公司都可以碰得到。那么,2018 年,你是否已經(jīng)做好準(zhǔn)備轉(zhuǎn)戰(zhàn) AI 了?應(yīng)該去哪里學(xué)習(xí)現(xiàn)成的落地案例和實(shí)踐經(jīng)驗(yàn)?zāi)兀?/p>
InfoQ 中國(guó)團(tuán)隊(duì)為大家梳理了目前機(jī)器學(xué)習(xí)領(lǐng)域的最新動(dòng)態(tài),并邀請(qǐng)到了來(lái)自 Amazon、Snap、Etsy、BAT、360、京東等 40+ 公司 AI 技術(shù)負(fù)責(zé)人前來(lái)分享他們的機(jī)器學(xué)習(xí)落地實(shí)踐經(jīng)驗(yàn),部分精彩案例如下:
《深度學(xué)習(xí)框架演進(jìn)漫談》老師木,一流科技創(chuàng)始人
《機(jī)器學(xué)習(xí)在工程項(xiàng)目中的應(yīng)用實(shí)踐》 蔡超,Amazon 中國(guó)研發(fā)中心首席架構(gòu)師
《菜鳥雙 11:如何運(yùn)用機(jī)器學(xué)習(xí)等 AI 技術(shù)實(shí)現(xiàn)物流優(yōu)化》徐盈輝,菜鳥人工智能部資深總監(jiān)
《如何利用大規(guī)模機(jī)器學(xué)習(xí)技術(shù)解決問(wèn)題并創(chuàng)造價(jià)值》胡時(shí)偉,第四范式首席架構(gòu)師
聯(lián)系客服