中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
如果你想學數(shù)據(jù)科學,這 7 類資源千萬不能錯過

本文為 AI 研習社編譯的技術(shù)博客,原標題 :

7 Resources for Those Wanting to Learn Data Science

作者 | Bruno Trentini

翻譯 | 凱伊·斯特朗、Eli伊萊、唯愛我清、Ophria

校對 | 鄧普斯·杰弗 整理 | 菠蘿妹

https://towardsdatascience.com/7-resources-for-those-wanting-to-learn-data-science-a89e25d1b55e

有時你只需要知道如何開始即可,以下是那些適用于我的經(jīng)驗。

圖片來源:https://tinyurl.com/y7bgtyjo

數(shù)據(jù)科學從一開始就是一個交叉學科,要求從業(yè)者在計算機、數(shù)學領(lǐng)域具備一定的技能,同時還要具備在同人與生意打交道的經(jīng)驗。有些人會在多年的工作生活中慢慢累積相關(guān)的經(jīng)驗,但是如果那兒有一個捷徑存在呢?

現(xiàn)在我決定同大家分享我在數(shù)據(jù)科學這條路上幫我打基礎(chǔ)的7大資源。選取的這些資源即兼顧了趣味兒性的同時也兼顧了包含在內(nèi)的數(shù)據(jù)與科學原理。

圖片來源 https://timoelliott.com/blog/

寫在前面

'數(shù)據(jù)科學'的關(guān)鍵詞不是數(shù)據(jù),而是科學。--杰夫·萊克

約翰霍普金斯大學彭博公共衛(wèi)生學院教授Jeff Leek在5年前寫道:'數(shù)據(jù)科學中的關(guān)鍵詞不是'數(shù)據(jù)',是'科學'。僅在使用數(shù)據(jù)回答問題時數(shù)據(jù)科學才有用。這是等式的科學部分。這種數(shù)據(jù)科學觀點的問題在于它比關(guān)注數(shù)據(jù)大小或工具的觀點要困難得多。計算數(shù)據(jù)集的大小要容易得多,并且說'我的數(shù)據(jù)比你的大',或者說'我能在 Hadoop 中編碼,你能嗎?' 而不是說'我有這個非常難的問題,我可以用我的數(shù)據(jù)回答嗎?'。'

數(shù)據(jù)科學是個老概念了,John Graunt 在它還是個新概念的時候就研究它了。正是在15世紀的小冰期,他利用概率模型開發(fā)了人口統(tǒng)計學的第一部作品。到1960年,該主題已經(jīng)非常成熟并且被稱為數(shù)據(jù),但是僅在2012年哈佛商業(yè)評論發(fā)表文章'數(shù)據(jù)科學家:21世紀最性感的工作'后這個詞和這個工作才越來越受歡迎。此后僅兩年,就可以獲得關(guān)于該主題的大量在線課程。谷歌趨勢顯示了一些有趣的東西:盡管自2004年以來'統(tǒng)計學家'一詞呈下降趨勢,但'數(shù)據(jù)科學家'這一術(shù)語在哈佛商業(yè)評論的文章之后有了更強烈的積極變動,并且當在線課程的提供增加時,它得到了提升。

https://trends.google.com/trends/explore?date=all&q=Data%20Scientist,%2Fm%2F0c_xl

考慮到這一點,我要說清楚:數(shù)據(jù)科學家不是統(tǒng)計學家,并且他們也不會代替統(tǒng)計學家(反之亦然),但對統(tǒng)計學和數(shù)學的真正興趣才是正確進行數(shù)據(jù)科學的關(guān)鍵。我自己不是個統(tǒng)計學家,但是下面的第一個資源讓我喜歡上這個主題。

還請觀察下面資源如何更多地關(guān)注'好奇心'和'理解'而不是'應用'。

圖片來源:https://towardsdatascience.com/introduction-to-statistics-e9d72d818745

你喜歡清單嗎?

簡而言之,7個資源是:

Machine Learning Course,由斯坦福大學創(chuàng)建并由Andrew Ng執(zhí)教

Introduction to Mathematical Thinking,同樣由斯坦福大學創(chuàng)建并由Keith Devlin執(zhí)教

該清單既不是按照時間順序也不是按重要性順序,很多這些事情會同時發(fā)生并且4-7項幾乎肯定會并且永遠成為你作為數(shù)據(jù)科學家日常工作的一部分。

來讓我看看細節(jié)部分吧!

醉漢漫步

(譯者注:這是一本書,豆瓣地址:https://book.douban.com/subject/3102009/)

許多年前(大概是2009年?)當我在圣誕節(jié)收到這本書時,對它并沒有很深的印象,但是多年后它變成了我一直以來的最愛。

醉漢漫步這本書是幫助我們理解隨機性對我們生活造成的影響,亞馬遜的產(chǎn)品描述是這樣的'它揭露了這些心理錯覺是如何阻擋我們理解生活,從選股到品酒'。

它幫助我覺察到我們是多么容易成為概率的受害者,也幫助我理解為什么我們更容易推到理解導致事件發(fā)生的所有因素,而預測類似情況會不會再次發(fā)生卻很難的原因。

從分析者的角度來說,這本書向我們展示了預測模型的重要性也從統(tǒng)計數(shù)據(jù)的角度證明了歷史事件發(fā)生的必然性,同樣還向我們展示了如何使用數(shù)據(jù)來解答一些難以理解的問題,以及為什么有些問題仍舊無法獲得答案。我把這本書認為是我同'數(shù)據(jù)科學'的第一次親密接觸。

另外一本很好的同類讀物是:《Algorithms to Live by: The Computer Science of Human Decisions.》(《生活中的算法:人類決策中的計算機科學》)

很好的一幅展示隨機漫步的圖片,來源: http://cu.t-ads.org/python-intro-02-random-walk/drunkard/。

機器學習

這門課是斯坦福大學在Coursera上的公開課,是很多朋友也是我在機器學習中的入門課,在我看來這是一個必讀的課程。

它會首先幫你復習線性代數(shù)中的核心概念,然后會教你基礎(chǔ)的Matlab(Octave)編程。完成這些后,才會提出第一個關(guān)于一元回歸的概念。之后,課程會帶你學習一些有趣的部分,比如做數(shù)據(jù)分析的一些主要方法工具以及神經(jīng)網(wǎng)絡(luò),但是如果你想很認真很認真的學習,那你就要多做練習并且在過程中會接觸到很多課外知識,這些都會幫助你建立在機器學習中的直覺與數(shù)學能力。

課程中的示例圖片,來源:https://tinyurl.com/ybupqzzb

數(shù)學思維概論

2008年我的大學階段我很開心,因為我在這個階段學習了不同種類的數(shù)學。即便這樣,我也打算來聽斯坦福大學在Coursera上的這門公開課,通過它來幫助我回顧數(shù)學中的一些核心概念,同時增強我的數(shù)學技能。這門課不僅覆蓋了我在第一學期中學到的一些概念,它還提升了我在分析思維上的能力。對于大多數(shù)人來說,這門課在幫助大家從傳統(tǒng)的推理思維轉(zhuǎn)換到數(shù)學思維這件事兒上建立了一個很好的范例。除此以外,部分課程會在數(shù)學證明上具有一定的挑戰(zhàn)性。特別是對于普通的書寫語言而言,它會讓你有一種在學習一門新語言的感覺。

你不會感到學習'一門新語言'這件事很痛苦,因為批判思維對數(shù)據(jù)科學尤為重要。另外一個重要的點(或者說減輕痛苦的點)是這門課會幫助你在探索數(shù)據(jù)科學時掃清一些常見謬誤的概念。

Master List of Logical Fallacies 邏輯謬論列表

utminers.utep.edu/omwilliamson/emgl1311utminers.utep.edu

如果在剛開始學習這些內(nèi)容時把你自己所在一個籠子里幾周,出來后你會對很多你聽到的、你見到的事情產(chǎn)生質(zhì)疑。不要忘了目標:數(shù)據(jù)科學!

Dilbert列舉了許多常見謬誤

來源:https://tinyurl.com/y97w2oej

編程

總的來說,無論你的職業(yè)選擇是如何,你都要學會編程。它能在很多方面讓你的工作生活變的有趣和方便。

大體來說,對于生活中遇到的一些數(shù)據(jù)科學問題我們已經(jīng)漸漸不用再自己去編程,這部分任務(wù)已經(jīng)被 Alteryx, Azure Studio, Dataiku, H2O.ai, or Knime這些平臺完成。然而,成為一個通用框架或編程專家在很長一段時間內(nèi)都能給你在快速高效處理未清洗的機器學習數(shù)據(jù)時極強的自信。

在最開始時你的問題可能是'我如何把csv文件的內(nèi)容讀取到數(shù)據(jù)框架里?我如何做一些簡單的數(shù)據(jù)可視化工作?我如何把所有類里的數(shù)據(jù)值變成數(shù)值?我如何處理多列表數(shù)據(jù)集?',在過了某個時間節(jié)點后,你的問題就變成'這里用loopsin合適嗎,還是有其他的方式能達到這個目標,比如vectorised?我如何才能把我的算法簡化從而降低所占用的計算機資源?'

一個簡單的Seaborn指令可以幫助你建立直觀大方的數(shù)據(jù)可視化視圖。(自有資源)

幸運的是你有很多種選擇來解決這些問題與挑戰(zhàn):更多有經(jīng)驗的人,Stack Overflow、Quora還有其他一些社區(qū)。

對編程語言來說,我推薦Python作為人工智能的入門語言,因為它很容易上手,而且它在數(shù)據(jù)科學家中很流行,因為它的Pandas,Numpy,Matplotlib等多個庫可以幫助他們很好的處理數(shù)據(jù)準備、數(shù)據(jù)清洗及可視化等問題,而且它和機器學習框架TensorFlow配合很好,可以讓你很輕松的就調(diào)用GPU的算力。

另外一條比較通用的路徑就是R語言了。相對于Python可能會讓你花點時間進入'數(shù)據(jù)科學'的世界這件事來講,R會讓你立馬進入統(tǒng)計模型的世界。相比之下,選擇Python除了數(shù)據(jù)科學這個功能外,它還能幫助你更好的理解編程這件事,讓你上手其他語言如C++,Java更快。但是無論你選擇R還是選擇Python,都是可以的。

看看Udemy的這個課程,我沒去學習它,但是就課程內(nèi)容和價格來講,看起來還不錯,鏈接如下:

https://www.udemy.com/the-data-science-course-complete-data-science-bootcamp/

另外一個比較好的資源就是Gareth James的 An Introduction to Statistical Learning with Applications in R(R語言在統(tǒng)計學習中的應用)。這本書在鏈接中就能看到,它的核心內(nèi)容是如何使用R語言進行統(tǒng)計編程。如果你線性代數(shù)沒有學的很扎實,這本書會嚇到你(你第10頁就會遇到)。無論你如何選擇,你都需要學習數(shù)學。。。

對數(shù)學的無偏見評論

我一直很喜歡數(shù)學,但是我在高中的時候?qū)W的比較一般。在大學階段我就學的比較好了,當然是通過不懈的努力(2013年的時候)。差不多這個時候我決定我將在未來的某個時間節(jié)點去攻讀碩士研究生,然而在學習Gre和GMAT的過程中,我就發(fā)現(xiàn)了我一些基礎(chǔ)知識薄弱的地方,中間還有個有趣的插曲,就是我是通過看視頻學習的,這個視頻不是一般的視頻,而且給孩子學習數(shù)學看的lol。

多年后,我開始接觸到了數(shù)據(jù)科學和機器學習的邊角:高級線性代數(shù)和計算。雖然說這對于成為一個數(shù)據(jù)科學家來說并不是一個必須品,但是它對你理解數(shù)據(jù)很有幫助,比如說一個主成分分析(PCA)倒是在做什么。懂的數(shù)據(jù)背后的數(shù)學可以在講述故事的時候幫助你很多,當日是在開始的時候。

2個群在3個主成分中的繪圖(自有資源)。數(shù)學直覺可以很好的幫助你理解這個。

在3個主要成分上繪制2個簇。數(shù)學直覺有助于解釋這個問題。

總的來說,Manhattan Prep的線上課程雖然昂貴,但是對我學習數(shù)學起到了至關(guān)重要的作用。它幫助在今天更容易的理解機器學習,統(tǒng)計學和金融分析。擁有一個牢固的數(shù)學基礎(chǔ)可以幫助你學習新知識時更快更好,同樣它在工作效率和自我認同上也提供了非常重要的作用。

看看下邊的資源:

GRE Just Math | Manhattan Prep

GRE Just Math is your live, comprehensive GRE Math prep course taught by a 99th-percentile GRE Math expert. In one…www.manhattanprep.com

Manhattan Prep GRE Set of 8 Strategy Guides, 4th Edition : Manhattan Prep : 9781937707910

Manhattan Prep GRE Set of 8 Strategy Guides, 4th Edition by Manhattan Prep, 9781937707910, available at Book Depository…www.bookdepository.com

除非你想獨自研究或者學習算法,高級線性代數(shù)與計算并不是必備的,它對我來說是更快理解核心觀念的工具,尤其是在統(tǒng)計模型中。

作為一個數(shù)據(jù)科學可能需要你安靜的坐下來,然后敲無止盡的代碼,做成天上月的特征工程,最后才能得到一些有意義的數(shù)據(jù)。在這樣的情況下,一個人如果無法能從高認知層面上解釋或者理解它在干什么以及它為什么這么干,那么他是無法從中獲得樂趣的。當日,最關(guān)鍵的是你需要首先定義清楚你要解決的問題。

假設(shè)你是一個電子商務(wù)公司的數(shù)據(jù)科學家,你突然接到報告說'信用卡欺詐交易數(shù)量突然間上升了'。雖然說你對于這個問題還沒有任何線索,但是你心中已經(jīng)知道大概可以先從這幾個點入手。一個新手會犯的錯誤是直接去看一個分類或者群模型,只是因為'欺詐'這個字眼影響你這么做。探索性的數(shù)據(jù)分析可以在最開始的時候幫助你,但是核心問題仍舊無法被回答:應該去分析什么,從哪兒開始,最終的目標是什么,如何來衡量你工作的影響。最終可能你會發(fā)現(xiàn)問題是出在版本發(fā)行中的一個bug,一個你無須什么數(shù)據(jù)分析技巧就能解決的問題。

事實上設(shè)計思維是一個在People中被廣泛認知的方法論。尤其是在基礎(chǔ)交流、講故事、定義問題和產(chǎn)品開發(fā)中。盡管設(shè)計思維同數(shù)據(jù)科學沒有直接的聯(lián)系,但是它可以幫助數(shù)據(jù)科學家同身邊的人交流并交付'數(shù)據(jù)產(chǎn)品'。

Design Thinking Framework(設(shè)計思維框架). 來源: https://www.nngroup.com/articles/design-thinking/

總的來說,一個人在某一個方面越專精,越容易通過支持數(shù)據(jù)定義一個問題,并基于支持數(shù)據(jù)來快速高效的提出解決方案。不可忽略的是,哪怕是一個資深數(shù)據(jù)科學家,也要通過同人來交流從而幫助他解決遇到的挑戰(zhàn)。

A Virtual Crash Course in Design Thinking

This is an online version of one of our most frequently sought after introductory learning experiences. Using a video…dschool.stanford.edu

在很多情況下,理解更有經(jīng)驗的人的觀點是非常有用的,同時這也是一種捷徑。你可以和來自世界各個角落的人分享觀點,參加黑客馬拉松和各種聚會,世界上的大多數(shù)城市都會有諸如此類的活動。核心是交流,學習和分享。完全沒有理由孤立自己。

'正統(tǒng)'經(jīng)濟學和'異端'經(jīng)濟學

如果你正在處理消費者數(shù)據(jù),這些資源將會特別有用。但是如果你正在處理數(shù)據(jù)中心監(jiān)控數(shù)據(jù),藥品數(shù)據(jù),金融監(jiān)控,工廠傳感器上的生物醫(yī)學數(shù)據(jù),這些資源基本用不上。記住,這篇文章是基于我自身的經(jīng)驗,但是這里的要點是獲取某一專業(yè)領(lǐng)域的知識。

我用簡單的方式介紹一下兩者的不同:正統(tǒng)經(jīng)濟學著重用一串的主流模型解釋過去,現(xiàn)在和未來。然而'異端'經(jīng)濟學加入了很多的社會中的個人情況,經(jīng)常在均衡中帶入一些主觀性。

拿巴西汽車價格舉例。雖然巴西仍然在與高物價,荒謬的稅收,僅僅只有12%的地方鋪有公路等情況做著斗爭,但是汽車制造商仍然有很高的利潤率。除此之外,當人們在買車的時候,人們更傾向購買高檔次的汽車,有時不惜以過高的利率分72期進行償還。這又很多客觀的和主觀的原因在里面。相比于公共交通的質(zhì)量,有一輛好車既是地位的象征,同時在繁忙的交通中人們有一輛車感覺會更好......這些變量可以用'正統(tǒng)'經(jīng)濟學進行評估,但是當每一個人都有自己的價值感知時,這些變量就不能直接進行評估了。這個挑戰(zhàn)是在購買者和利潤率都最大化時定義產(chǎn)品和價格。所以理解文化價值和宏觀經(jīng)濟因素對感知的影響之間的對抗是重要的,這將對你進行分析更加有利。而且,理解個人行為是個性化的關(guān)鍵,同時這也是數(shù)據(jù)科學中的一個重要主題。順便說一句,根據(jù)以上的例子,利率同樣來自主觀的因素,比如借款人和貸款人的時間偏好。

理解經(jīng)濟學是處理國際業(yè)務(wù)的關(guān)鍵。明知道宏觀經(jīng)濟動態(tài)并不能夠徹底地被GDP或者(貿(mào)易)順差這樣的主流指標解決,將迫使你自然而然地陷入可選擇但強制的辯解中。

出于我個人對金融危機的好奇,我大約在2008年的時候啟動了這些課題,但是我直到2012年的時候才發(fā)布了以下這些資源:

這些是怎么結(jié)合起來的呢?

現(xiàn)在,假設(shè)你是在一家負責CRM(客戶關(guān)系管理)和訂閱主要寵物產(chǎn)品供應商的內(nèi)容管理的機構(gòu)工作。

以你對商業(yè)和人群不斷變化的理解,你寫了一個包含能夠?qū)撛诳蛻舴诸?并能識別'呼叫中心背景噪音有多大'與發(fā)表在企業(yè)APP上的'不斷增長的有關(guān)丑陋的狗狗內(nèi)容'的綜合因素有關(guān)的根本原因的代碼。

你還了解到'客戶中心的響度'與'狗狗的丑陋'不是獨立思考的客戶流失的主要原因。你把這些你用python的Season庫并且你允許它使用這些數(shù)據(jù)并用數(shù)據(jù)可視化工具活動起來建立起來的圖表呈遞給你的首席戰(zhàn)略官。你已經(jīng)成功地向組織的主要領(lǐng)導解釋了結(jié)論是如何形成的,就像指揮管弦樂隊的大師,但是你用對數(shù)學和統(tǒng)計建模的扎實理解的能力替代了指揮棒。你很自信,你的論點很有道理,這導致了領(lǐng)導層的認可,因為你現(xiàn)在正在創(chuàng)造一個欣欣向榮的環(huán)境來討論真正的問題,而不是謬誤。CRM將解決客戶容易流失的客戶案例,內(nèi)容經(jīng)理現(xiàn)在將開始發(fā)布有關(guān)llamas的更多信息,這將增加節(jié)假日的附加銷售,因為您的大多數(shù)客戶都居住在秘魯一個旅游頻繁的城市。

最后,您還使用在GPU上運行的密集神經(jīng)網(wǎng)絡(luò)的TensorFlow來訓練這種流失預測算法,來處理數(shù)十億條記錄和特性。它的部署方式是,即時評估應用程序、網(wǎng)站、實體商店和呼叫中心內(nèi)客戶的所有交互,使系統(tǒng)能夠了解模式,并在檢測到高流失可能性時通知您。

數(shù)據(jù)科學不僅僅是算法。資源:https://xkcd.com/1831/

聽起來很瘋狂,但這就是數(shù)據(jù)科學的重點:將問題轉(zhuǎn)化為答案,將挑戰(zhàn)轉(zhuǎn)化為巨大的機遇(在許多情況下,需要幾個月甚至幾年時間!)

總體思路

當然,你接觸新信息的速度將超過你吸收新信息的能力。我仍然在學習許多我不完全理解的事情的進程上。誠然,我的學位和專業(yè)經(jīng)驗幾乎是自然地幫助我在這一領(lǐng)域中立足的,但以上資源是獨立的,我可以放心地說,幾乎每個職業(yè)都有可轉(zhuǎn)移的技能,可以用于數(shù)據(jù)科學。選擇一個開始的地方可能是令人望而生畏的,特別是有這么多可用的信息,但我希望經(jīng)驗可以幫助您找到一些資源開始。

展望未來

我對數(shù)據(jù)科學有很多樂趣,我相信那些喜歡多學科領(lǐng)域和不斷學習的人也會有?,F(xiàn)在,我仍然依靠上面的一些資源來繼續(xù)前進。不過,我更重視傾聽人們的經(jīng)歷。

事實上,它周圍的炒作和嗡嗡聲會讓很多人感到沮喪,許多神話-和過于簡單化-出現(xiàn),但無論你是開始或只是路過,我希望這些資源對你有用。

想聽聽關(guān)于數(shù)據(jù)科學和A.I.的更多信息嗎?

在 twitter 上和媒體上關(guān)注我,在媒體上我會更經(jīng)常地分享和發(fā)布這些主題。

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?

長按鏈接點擊打開或點擊【如果你想學數(shù)據(jù)科學,這7類資源千萬不能錯過】:

https://ai.yanxishe.com/page/TextTranslation/1213

AI研習社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))

命名實體識別(NER)綜述

杰出數(shù)據(jù)科學家的關(guān)鍵技能是什么?

初學者怎樣使用Keras進行遷移學習

如果你想學數(shù)據(jù)科學,這 7 類資源千萬不能錯過

等你來譯:

深度學習目標檢測算法綜述

一文教你如何用PyTorch構(gòu)建 Faster RCNN

高級DQNs:利用深度強化學習玩吃豆人游戲

用于深度強化學習的結(jié)構(gòu)化控制網(wǎng)絡(luò) (ICML 論文講解)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從入門到求職,成為數(shù)據(jù)科學家的終極指南
為什么大部分發(fā)表的論文都是錯誤的
數(shù)據(jù)科學的歷史、開拓者和現(xiàn)代趨勢
攻略|教你拿下夢寐以求的Offer(多資源)
資源| 自學數(shù)據(jù)科學&機器學習?19個數(shù)學和統(tǒng)計學公開課推薦
拒絕跟風,看機器學習、數(shù)據(jù)科學、AI、深度學習、統(tǒng)計學的區(qū)別
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服