新智元報道
編輯:元子
今天,新智元要為大家推薦一個超實用、顏值超高的神經(jīng)網(wǎng)絡(luò)+機器學(xué)習(xí)+數(shù)據(jù)科學(xué)和Python的完全圖解,文末附有高清PDF版鏈接,支持下載、打印,推薦大家可以做成鼠標墊、桌布,或者印成手冊等隨手攜帶,隨時翻看。
這是一份非常詳實的備忘單,涉及具體內(nèi)容包括:
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識
神經(jīng)網(wǎng)絡(luò)圖譜
機器學(xué)習(xí)基礎(chǔ)知識
著名Python庫Scikit-Learn
Scikit-Learn算法
機器學(xué)習(xí)算法選擇指南
TensorFlow
Python基礎(chǔ)
PySpark基礎(chǔ)
Numpy基礎(chǔ)
Bokeh
Keras
Pandas
使用Pandas進行Data Wrangling
使用dplyr和tidyr進行Data Wrangling
SciPi
MatPlotLib
使用ggplot進行數(shù)據(jù)可視化
Big-O
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識
人工神經(jīng)網(wǎng)絡(luò)(ANN),俗稱神經(jīng)網(wǎng)絡(luò),是一種基于生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的計算模型。 它就像一個人工神經(jīng)系統(tǒng),用于接收,處理和傳輸計算機科學(xué)方面的信息。
基本上,神經(jīng)網(wǎng)絡(luò)中有3個不同的層:
輸入層(所有輸入都通過該層輸入模型)
隱藏層(可以有多個隱藏層用于處理從輸入層接收的輸入)
輸出層(處理后的數(shù)據(jù)在輸出層可用)
神經(jīng)網(wǎng)絡(luò)圖譜
圖形數(shù)據(jù)可以與很多學(xué)習(xí)任務(wù)一起使用,在元素之間包含很多豐富的關(guān)聯(lián)數(shù)據(jù)。例如,物理系統(tǒng)建模、預(yù)測蛋白質(zhì)界面,以及疾病分類,都需要模型從圖形輸入中學(xué)習(xí)。圖形推理模型還可用于學(xué)習(xí)非結(jié)構(gòu)性數(shù)據(jù),如文本和圖像,以及對提取結(jié)構(gòu)的推理。
用Emoji解釋機器學(xué)習(xí)
Scikit-Learn基礎(chǔ)
Scikit-learn是由Python第三方提供的非常強大的機器學(xué)習(xí)庫,它包含了從數(shù)據(jù)預(yù)處理到訓(xùn)練模型的各個方面,回歸和聚類算法,包括支持向量機,是一種簡單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。在實戰(zhàn)使用scikit-learn中可以極大的節(jié)省代碼時間和代碼量。它基于NumPy,SciPy和matplotlib之上,采用BSD許可證。
Scikit-Learn算法
這張流程圖非常清晰直觀的給出了Scikit-Learn算法的使用指南。
針對Azure Machine Learning Studios的Scikit-Learn算法
TensorFlow
Python基礎(chǔ)
溫馨提示,本圖配合《100天從Python萌新到王者》食用,效果更佳。
PySpark RDD基礎(chǔ)
Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,通過Scala語言實現(xiàn),擁有Hadoop MapReduce所具有的優(yōu)點,不同的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。PySpark是Spark 為 Python開發(fā)者提供的 API。
NumPy基礎(chǔ)
NumPy是Python語言的一個擴展程序庫。支持高端大量的維度數(shù)組與矩陣運算,此外也針對數(shù)組運算提供大量的數(shù)學(xué)函數(shù)庫,前身Numeric,主要用于數(shù)組計算。它實現(xiàn)了在Python中使用向量和數(shù)學(xué)矩陣、以及許多用C語言實現(xiàn)的底層函數(shù),并且速度得到了極大提升。
Bokeh
Bokeh是一個交互式可視化庫,面向現(xiàn)代Web瀏覽器。目標是提供優(yōu)雅、簡潔的多功能圖形構(gòu)造,并通過非常大或流數(shù)據(jù)集的高性能交互來擴展此功能。Bokeh可以實現(xiàn)快速輕松地創(chuàng)建交互式圖表、儀表板和數(shù)據(jù)應(yīng)用程序。
Keras
Keras 是一個用 Python 編寫的高級神經(jīng)網(wǎng)絡(luò) API,它能夠以 TensorFlow, CNTK, 或者 Theano 作為后端運行。Keras 的開發(fā)重點是支持快速的實驗。能夠以最小的時延把你的想法轉(zhuǎn)換為實驗結(jié)果,是做好研究的關(guān)鍵。
Pandas
pandas是一個為Python編程語言編寫的軟件庫,用于數(shù)據(jù)操作和分析,基于NumPy,納入了大量庫和一些標準的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。Pandas提供了大量快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
使用Pandas進行Data Wrangling
Data Wrangling通常被翻譯成數(shù)據(jù)整理,這個詞最開始火起來是因為2017年的電影《金剛·骷髏島》,演員馬克·埃文·杰克遜扮演的角色之一被介紹為“我們的Data Wrangler史蒂夫伍德沃德”。
使用ddyr和tidyr進行Data Wrangling
為什么使用tidyr和dplyr呢?因為雖然R中存在許多基本數(shù)據(jù)處理功能,但都有點復(fù)雜并且缺乏一致的編碼,導(dǎo)致可讀性很差的嵌套功能以及臃腫的代碼。使用ddyr和tidyr可以獲得:
更高效的代碼
更容易記住的語法
更好的語法可讀性
Scipy線性代數(shù)
SciPy是一個開源的Python算法庫和數(shù)學(xué)工具包。 SciPy包含的模塊有最優(yōu)化、線性代數(shù)、積分、插值、特殊函數(shù)、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學(xué)與工程中常用的計算。 與其功能相類似的軟件還有MATLAB、GNU Octave和Scilab。
Matplotlib
Matplotlib是Python編程語言及其數(shù)值數(shù)學(xué)擴展包NumPy的可視化操作界面。 它為利用通用的圖形用戶界面工具包,如Tkinter, wxPython, Qt或GTK+向應(yīng)用程序嵌入式繪圖提供了應(yīng)用程序接口(API)。
使用ggplot2進行數(shù)據(jù)可視化
Big-O
大O符號(英語:Big O notation),又稱為漸進符號,是用于描述函數(shù)漸近行為的數(shù)學(xué)符號。 更確切地說,它是用另一個(通常更簡單的)函數(shù)來描述一個函數(shù)數(shù)量級的漸近上界。 ... 階)的大O,最初是一個大寫希臘字母“Ο”(omicron),現(xiàn)今用的是大寫拉丁字母“O”。
聯(lián)系客服