中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
python機(jī)器學(xué)習(xí),學(xué)習(xí)路徑拆解及資源推薦

自從Alpha圍棋占據(jù)人類棋類智力頂峰以來,人工智能、機(jī)器學(xué)習(xí)等概念的熱度變?cè)絹碓礁?,機(jī)器在各大領(lǐng)域的應(yīng)用大放異彩。

·全球首個(gè)“AI合成主播”上崗,以假亂真

·OpenAIDOTA5v5 AI大戰(zhàn)人類團(tuán)隊(duì),大獲全勝

·谷歌Duplex代替人類自動(dòng)接打電話,驚艷四座

但大多數(shù)人會(huì)將人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等概念混淆,甚至以為這些概念是一個(gè)意思,實(shí)際上,機(jī)器學(xué)習(xí)只是人工智能的一個(gè)分支。

機(jī)器學(xué)習(xí)整個(gè)知識(shí)體系可總結(jié)如下:

雖然機(jī)器學(xué)習(xí)一直都被認(rèn)為是一個(gè)較難的領(lǐng)域,但經(jīng)過對(duì)學(xué)習(xí)體系的分解,按照學(xué)習(xí)路徑一步一步的學(xué)習(xí),普通人也可以成長為機(jī)器學(xué)習(xí)大神。

接下來我們分別從每一個(gè)部分展開,講講具體應(yīng)該學(xué)什么、怎么學(xué),以及各個(gè)部分主要的知識(shí)點(diǎn)進(jìn)行結(jié)構(gòu)化地展示,并有針對(duì)性地推薦學(xué)習(xí)資源。

  機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí) 

想要步入機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)學(xué)基礎(chǔ)是第一個(gè),也是最大的一個(gè)門檻。

如果你在學(xué)習(xí)機(jī)器學(xué)習(xí)過程中遭遇挫折,多半是由于數(shù)學(xué)知識(shí)的阻礙。

機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)知識(shí)有哪些?這是準(zhǔn)備入門機(jī)器學(xué)習(xí)的學(xué)習(xí)者們面臨的共同問題。

微積分和線性代數(shù)很重要,大部機(jī)器學(xué)習(xí)是對(duì)機(jī)器的模型擬合,微積分作為基礎(chǔ)中的基礎(chǔ),在大多數(shù)數(shù)據(jù)場景當(dāng)中都有應(yīng)用;

在模型使用時(shí)一般最先考慮的是線性模型,你需要用線性代數(shù)來簡潔清晰的描述問題,為分析求解奠定基礎(chǔ)。

概率論也少不了,涉及數(shù)據(jù)的問題,不確定性幾乎是不可避免的,引入隨機(jī)變量順理成章,相關(guān)理論、方法、模型非常豐富。

優(yōu)化基礎(chǔ)和信息論也需要一定的了解,因?yàn)樗鼈儠?huì)在你面對(duì)復(fù)雜問題時(shí)為你提供思路。

推薦數(shù)學(xué)基礎(chǔ)書籍和資源:

《概率論:科學(xué)的邏輯》  http://t.cn/R0MzVAA

《信息論、推理與學(xué)習(xí)算法》http://t.cn/EqirC5g

在線數(shù)學(xué)教材匯總  http://t.cn/7yiJV

免費(fèi)數(shù)學(xué)教材  http://t.cn/RvltCtQ

MIT在線教材  http://t.cn/EIhFPc5

除了數(shù)學(xué)基礎(chǔ),機(jī)器學(xué)習(xí)的另一個(gè)準(zhǔn)入門檻是一點(diǎn)簡單的編程知識(shí)。

學(xué)習(xí)機(jī)器學(xué)習(xí)不一定要精通一門編程語言,但你需要一些基礎(chǔ)知識(shí),在這里我推薦使用python,因?yàn)閜ython語言簡單易用,即使沒有計(jì)算機(jī)基礎(chǔ)的人也能快速上手。

而且python當(dāng)中包含很多基礎(chǔ)庫,直接調(diào)用就可以幫你做大多數(shù)事情。

推薦python學(xué)習(xí)資源:

《Learn Python the Hard Way》 https://dwz.cn/nhx5V5WF

Python 科學(xué)計(jì)算入門 http://suo.im/2cXycM

Python 文檔  https://dwz.cn/18rdithb     

推薦Pandas文檔:

十分鐘入門Pandas  http://t.cn/EVTGis7

Pandas中文文檔  https://www.pypandas.cn/

推薦Numpy文檔:

Nump快速入門  http://h5ip.cn/ypHr

Numpy中文文檔  https://www.numpy.org.cn/

推薦matplotlib文檔:

matplotlib中文文檔  

https://www.matplotlib.org.cn/

有一個(gè)說法是:機(jī)器學(xué)習(xí)是被美化的統(tǒng)計(jì)學(xué)。

當(dāng)然,機(jī)器學(xué)習(xí)不只是統(tǒng)計(jì)學(xué)的美化,但是我們也能看出機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)深有淵源,統(tǒng)計(jì)學(xué)注定成為機(jī)器學(xué)習(xí)基礎(chǔ)中不可或缺的一部分。

推薦統(tǒng)計(jì)學(xué)習(xí)資源:

《統(tǒng)計(jì)學(xué)習(xí)元素》  https://dwz.cn/SAc2gXl4 

《統(tǒng)計(jì)學(xué)習(xí)方法》   http://t.im/ddj4      

  機(jī)器學(xué)習(xí)算法 

機(jī)器學(xué)習(xí)算法通常被分為兩大類,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí):有訓(xùn)練樣本,帶有屬性標(biāo)簽,也可以理解成樣本有輸入有輸出。

無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)(Unsupervised learning)就是聚類,事先不知道樣本的類別,通過某種辦法,把相似的樣本放在一起歸為一類。

無論是有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí),我們需要掌握的最重要的一點(diǎn)就是算法。

所有的回歸算法和分類算法都屬于監(jiān)督學(xué)習(xí)。回歸(Regression)和分類(Classification)算法區(qū)別在于輸出變量的類型,連續(xù)變量預(yù)測稱為回歸;離散變量預(yù)測成為分類。

 無監(jiān)督學(xué)習(xí)的兩種常見用例是探索性分析和降維。常見的無監(jiān)督學(xué)習(xí)還有隨機(jī)森林(Random forests)、K均值聚類(K-means clustering)等方法。

推薦算法資源

斯坦福課程  http://uee.me/aMVF6  

監(jiān)督學(xué)習(xí)十大算法  http://uee.me/aMVF3     

算法選擇圖譜  http://uee.me/aMVF4   

  數(shù)據(jù)特征與模型優(yōu)化

機(jī)器學(xué)習(xí)的一般遵循“數(shù)據(jù)采集-數(shù)據(jù)預(yù)處理-特征工程-模型評(píng)估-模型優(yōu)化-預(yù)測”的流程,預(yù)測是機(jī)器學(xué)習(xí)的最終目的。

1.原始數(shù)據(jù)的采集

機(jī)器學(xué)習(xí)的第一步是進(jìn)行原始數(shù)據(jù)的采集,原始數(shù)據(jù)的數(shù)量和質(zhì)量直接決定了預(yù)測模型的好壞。

數(shù)據(jù)采集前需要明確哪些數(shù)據(jù)對(duì)最后的結(jié)果預(yù)測有幫助?數(shù)據(jù)從哪些渠道進(jìn)行采集?運(yùn)用什么方式來采集? 

原始數(shù)據(jù)通過各種渠道收集而來,公開數(shù)據(jù)源是獲取有效數(shù)據(jù)的捷徑,這些數(shù)據(jù)大多經(jīng)過相關(guān)機(jī)構(gòu)的收集和整理并經(jīng)過分類再公布出來,數(shù)據(jù)來源可靠,信息豐富。

另外一個(gè)采集原始數(shù)據(jù)的渠道是通過爬蟲爬取,到這里你可能就會(huì)知道為什么先修基礎(chǔ)當(dāng)中會(huì)要求一定的python基礎(chǔ)。

最后,在數(shù)據(jù)采集的過程當(dāng)中,你可能還需要注意以下幾點(diǎn):

收集完整的數(shù)據(jù),我們無法預(yù)先知道哪些屬性哪些信息對(duì)于模型預(yù)測是真正有價(jià)值的,因此需要收集完整的數(shù)據(jù)集以確保模型預(yù)測的有效性。

對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,在監(jiān)督學(xué)習(xí)的場景當(dāng)中,例如,情感分析模型需要用標(biāo)簽標(biāo)記,來幫助算法理解人類使用的俚語或諷刺挖苦的表達(dá)方式。

有時(shí)數(shù)據(jù)標(biāo)記的工作往往非常耗時(shí)耗力,在某些場景中,這類工作不僅對(duì)人的專業(yè)背景要求高,而且完成標(biāo)記所需的周期長。

推薦數(shù)據(jù)匯總資源:

數(shù)據(jù)獲取方式匯總   https://dwz.cn/Q44MsDkH

2.數(shù)據(jù)預(yù)處理

在機(jī)器學(xué)習(xí)中有一句名言:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法的應(yīng)用只是讓我們逼近這個(gè)上限。

這個(gè)說法形象深刻的說明了前期數(shù)據(jù)處理的重要性。

機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)采樣、數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)準(zhǔn)化。

·數(shù)據(jù)采樣

當(dāng)機(jī)器學(xué)習(xí)中樣本比例不平衡時(shí),通常會(huì)采取數(shù)據(jù)采樣的方法,對(duì)數(shù)據(jù)進(jìn)行采樣可以有針對(duì)性地改變數(shù)據(jù)中樣本的比例。

采樣一般有兩種方式

·over-sampling :增加樣本數(shù)較少的樣本,其方式是直接復(fù)制原來的樣本

·under-sampling:減少樣本數(shù)較多的樣本,其方式是丟棄這些多余的樣本

通常來說,當(dāng)總樣本數(shù)目較多的時(shí)候考慮 under-sampling,而樣本數(shù)數(shù)目較少的時(shí)候考慮 over-sampling。

·數(shù)據(jù)清洗

采集到的原始數(shù)據(jù)往往比較粗糙或伴隨有噪音,此時(shí)我們需要進(jìn)行數(shù)據(jù)清洗,清洗的對(duì)象是缺失值、錯(cuò)誤值、重復(fù)值和不一致的數(shù)據(jù)。

·數(shù)據(jù)標(biāo)準(zhǔn)化

與普通的數(shù)據(jù)挖掘不同,機(jī)器學(xué)習(xí)的數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。

包括與樣本尺度歸一化、逐樣本的均值相減、標(biāo)準(zhǔn)化等,這些工作簡單可復(fù)制,經(jīng)過標(biāo)準(zhǔn)化的數(shù)據(jù)能夠更好地幫助我們進(jìn)行特征處理。

另外,在預(yù)處理階段,我們還需要將數(shù)據(jù)分為三種數(shù)據(jù)集。

包括用來訓(xùn)練模型的訓(xùn)練集、開發(fā)過程中用戶調(diào)參的驗(yàn)證集以及測試時(shí)所使用的測試集。

3.特征工程

特征是數(shù)據(jù)中抽取出來的對(duì)結(jié)果預(yù)測有用的信息,可以是文本或者數(shù)據(jù)。

特征工程的目的是篩選出更好的特征,獲取更好的訓(xùn)練數(shù)據(jù)。

·特征處理:特征總體分為數(shù)值型、類別型、時(shí)間型、文本型等幾個(gè)類型 ,特征處理需要將這些類型的特征進(jìn)行歸一化、標(biāo)準(zhǔn)化等處理。

·特征選擇:從多個(gè)特征中,挑選出一些對(duì)結(jié)果預(yù)測最有用的特征。

·特征降維: 當(dāng)特征選擇完成后,可以直接訓(xùn)練模型了,但是可能由于特征矩陣過大,導(dǎo)致計(jì)算量大,訓(xùn)練時(shí)間長的問題,因此降低特征矩陣維度也是必不可少的。

常見的降維方法有主成分分析法(PCA)、線性判別分析(LDA),以及多維尺度分析。

·PCA:即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。

·LDA:PCA和LDA總是同時(shí)談到,它們都是非常有效的數(shù)據(jù)降維算法。

·MDS:即多維尺度分析,是根據(jù)具有很多維度的樣本或變量之間的相似性(距離近)或非相似性(距離遠(yuǎn),即通過計(jì)算其距離)來對(duì)其進(jìn)行分類的一種統(tǒng)計(jì)學(xué)研究方法。

推薦特征工程資源:

《機(jī)器學(xué)習(xí)模型的特征工程》   http://t.im/ddvz

PCA文檔   http://t.im/ddki

LDA視頻   http://t.im/ddls 

MDS   https://Multidimensional

4.模型評(píng)估

模型評(píng)估是準(zhǔn)確預(yù)測的關(guān)鍵。

評(píng)估指標(biāo)是把'尺子',用來評(píng)判模型優(yōu)劣水平的算法,不同的機(jī)器學(xué)習(xí)模型有著不同的'尺子'。

同時(shí)同一種機(jī)器學(xué)習(xí)模型也可以用不同的尺子來評(píng)估,只是每個(gè)尺子的的著重點(diǎn)不同而已。

通過訓(xùn)練集產(chǎn)生的模型,利用測試數(shù)據(jù)來進(jìn)行模型效果的評(píng)估,混淆矩陣、roc曲線等一系列評(píng)估指標(biāo)將幫助判斷模型是否可行以及是否滿足業(yè)務(wù)目標(biāo)。

-分類評(píng)估指標(biāo)

·對(duì)數(shù)損失函數(shù):在分類輸出中,若輸出不再是0-1,而是實(shí)數(shù)值,即屬于每個(gè)類別的概率,那么可以使用Log-loss對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)。

·精確率-召回率(Precision-Recall):精確率-召回率其實(shí)是兩個(gè)評(píng)價(jià)指標(biāo),但是它們一般都是同時(shí)使用。

精確率是指分類器分類正確的正樣本的個(gè)數(shù)占該分類器所有分類為正樣本個(gè)數(shù)的比例。

召回率是指分類器分類正確的正樣本的個(gè)數(shù)占所有的正樣本個(gè)數(shù)的比例。

·混淆矩陣:混淆矩陣顯示了分類模型相對(duì)數(shù)據(jù)的真實(shí)輸出(目標(biāo)值)的正確預(yù)測和不正確預(yù)測數(shù)目。

·ROC曲線:越遠(yuǎn)離對(duì)角線,說明模型效果越好,ROC曲線下的區(qū)域面積即為AUC值,AUC值越接近1模型的效果越好。

隨著閾值的減小,Sensitivity和1-Specificity也相應(yīng)增加,所以ROC曲線呈遞增態(tài)勢。

理想情況下,曲線快速爬向左上,表示模型準(zhǔn)確預(yù)測數(shù)據(jù)。紅色斜對(duì)角線表示隨機(jī)模型。

·AUC(Area Under the ROC Curve)指標(biāo):AUC是曲線下面積。

在模型評(píng)估階段常被用作最重要的評(píng)估指標(biāo)來衡量模型的準(zhǔn)確性,橫坐標(biāo)為其中隨機(jī)分類的模型AUC為0.5,所以模型的AUC基線值大于0.5才有意義。

-回歸評(píng)價(jià)指標(biāo)

·RMSE(root mean square error平方根誤差):回歸模型中最常用的評(píng)價(jià)模型。

·Quantiles of Errors  --誤差的分位數(shù):為了改進(jìn)RMSE的缺點(diǎn),提高評(píng)價(jià)指標(biāo)的可行性,使用誤差的分位數(shù)來代替,如中位數(shù)來代替平均數(shù)。

推薦模型評(píng)估資源:

模型選擇與評(píng)估公開課     http://t.im/ddwy

《評(píng)估機(jī)器學(xué)習(xí)模型》   http://t.im/ddx8      

5.模型優(yōu)化

機(jī)器學(xué)習(xí)模型建立過程是一個(gè)參數(shù)學(xué)習(xí)與調(diào)優(yōu)的過程,模型的應(yīng)用是循環(huán)迭代的過程,只有通過持續(xù)調(diào)整和調(diào)優(yōu)才能適應(yīng)在線數(shù)據(jù)和業(yè)務(wù)目標(biāo)。

調(diào)參是機(jī)器學(xué)習(xí)中的一項(xiàng)大工程,大多數(shù)人知道有調(diào)參這個(gè)步驟,卻并不知道調(diào)參的目的是什么?到底要調(diào)哪些東西?

調(diào)參的過程是一種基于數(shù)據(jù)集、模型、和訓(xùn)練過程細(xì)節(jié)的實(shí)證過程。

參數(shù)可以分為兩類,一類是不需要手動(dòng)設(shè)置、在訓(xùn)練過程中可以自動(dòng)被調(diào)整的參數(shù);

另一類是超參數(shù),即需要在訓(xùn)練前手動(dòng)設(shè)置的參數(shù),例如樹的數(shù)量或深度、學(xué)習(xí)率、k均值聚類中的簇?cái)?shù)……

超參數(shù)的種類多,調(diào)節(jié)范圍大,需要先進(jìn)行簡單的測試確定調(diào)參范圍。

交叉驗(yàn)證在這里提出,是因?yàn)樗勺鳛橐环N確定超參數(shù)的方法。

對(duì)訓(xùn)練集再次進(jìn)行切分,得到訓(xùn)練集以及驗(yàn)證集,通過訓(xùn)練集訓(xùn)練得到的模型,在驗(yàn)證集驗(yàn)證,從而確定超參數(shù)。(選取在驗(yàn)證集結(jié)果最好的超參數(shù))

推薦模型優(yōu)化資源:

模型優(yōu)化文檔   http://t.im/ddzl 

超參數(shù)文檔   http://t.im/ddpm             

交叉驗(yàn)證文檔   http://t.im/ddpd

集成學(xué)習(xí):集成學(xué)習(xí)(Ensemble learning)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合,從而獲得比單個(gè)學(xué)習(xí)器顯著優(yōu)越的泛化性能。

它不是一種單獨(dú)的機(jī)器學(xué)習(xí)算法,而更像是一種優(yōu)化策略,因此將它列入模型優(yōu)化當(dāng)中。

推薦集成學(xué)習(xí)資源:  

使用sklearn進(jìn)行集成學(xué)習(xí) http://uee.me/aMVFH  

  細(xì)分進(jìn)階

如果通過上面的學(xué)習(xí)你已經(jīng)具備了機(jī)器學(xué)習(xí)的基礎(chǔ),并且能夠?qū)崿F(xiàn)一個(gè)完整的機(jī)器學(xué)習(xí)流程。

那么接下來你可以嘗試進(jìn)行一些更為深入的領(lǐng)域。比如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

·強(qiáng)化學(xué)習(xí):又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測等領(lǐng)域有許多應(yīng)用。

·深度學(xué)習(xí):深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。

推薦細(xì)分進(jìn)階資源:

《強(qiáng)化學(xué)習(xí)》  http://t.im/ddon    

強(qiáng)化學(xué)習(xí)課程   http://t.im/ddod   

深度學(xué)習(xí)資源   http://t.im/ddny    

以上就是機(jī)器學(xué)習(xí)完整的學(xué)習(xí)路徑,這個(gè)框架確實(shí)有一些龐大和復(fù)雜,因?yàn)樗枰獜?qiáng)大的數(shù)學(xué)知識(shí)做支撐,并包含了大量的算法和理論。

但沒有必要感到困難和可怕,因?yàn)槲覀兪钦驹诰奕说募绨蛏蟻韺W(xué)習(xí),前人已經(jīng)給出了我們一套完整的方法,我們只需要去學(xué)習(xí)就能夠達(dá)到工程師的高度。

END

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能之遷移學(xué)習(xí)與網(wǎng)絡(luò)安全
機(jī)器學(xué)習(xí)項(xiàng)目的完整工作流程
AI算法測試之淺談
深度學(xué)習(xí)研究綜述
機(jī)器學(xué)習(xí):入門方法與學(xué)習(xí)路徑 (附資料)
【華泰金工林曉明團(tuán)隊(duì)】人工智能選股框架及經(jīng)典算法簡介——華泰人工智能系列之一
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服