中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
快速選擇合適的機器學習算法

本文主要適用于初學者到中級數(shù)據(jù)科學家或分析師,他們有興趣識別和應用機器學習算法來解決他們感興趣的問題。

一個初學者面臨各種機器學習算法的典型問題是“我應該使用哪種算法?”問題的答案取決于許多因素,包括:

  • 數(shù)據(jù)的大小、質量和性質。

  • 可用計算時間。

  • 任務的緊迫性。

  • 你想用數(shù)據(jù)做什么。

即使是經(jīng)驗豐富的數(shù)據(jù)科學家也不能在嘗試不同的算法之前,判斷哪種算法會最好。我們并不是倡導一個一步到位的方法,但是我們希望首先根據(jù)一些明確的因素來提供一些嘗試哪些算法的指導。

機器學習算法速查表

機器學習算法速查表幫助你從各種機器學習算法中選擇,以找到適合你的具體問題的算法。 本文將引導你完成如何使用速查表的過程。

由于該速查表是專為初學者數(shù)據(jù)科學家和分析師設計的,所以在討論算法時,我們將作出一些簡化的假設。

這里推薦的算法是來自幾個數(shù)據(jù)科學家和機器學習專家和開發(fā)人員的編譯反饋和提示。有幾個問題,我們還沒有達成協(xié)議,對于這些問題,我們試圖突出共性及調和差異。

稍后將會添加其他算法,因為我們的庫增長包含一套更完整的可用方法。

如何使用速查表

將圖表上的路徑和算法標簽讀為“如果 <路徑標簽> 則使用<算法>”。 例如:

  • 如果要進行降維,則使用主成分分析法。

  • 如果需要快速的數(shù)值預測,請使用決策樹或邏輯回歸。

  • 如果需要分層結果,請使用層次聚類。

有時多個分支適用,其他時候他們都不是絕配。 重要的是要記住,這些路徑旨在作為有經(jīng)驗的建議,因此有些建議并不準確。我談到的幾位數(shù)據(jù)科學家說,找到最好算法的唯一方法就是嘗試所有的算法。

機器學習算法的類型

本節(jié)提供最受歡迎的機器學習類型的概述。 如果你熟悉這些類型,并希望繼續(xù)討論特定的算法,則可以跳過本節(jié)并轉到下面的“何時使用特定算法”。

監(jiān)督學習

監(jiān)督學習算法基于一組示例進行預測。例如,可以使用歷史銷售來估計未來價格。通過監(jiān)督學習,你有一個輸入變量,由標記的訓練數(shù)據(jù)和期望的輸出變量組成。你使用算法分析訓練數(shù)據(jù),來得到將輸入映射到輸出的函數(shù)。這個推斷函數(shù)通過從訓練數(shù)據(jù)推廣來預測未知情況下的結果來映射新的未知示例。

  • 分類:當數(shù)據(jù)用于預測分類變量時,監(jiān)督學習也稱為分類。當分配標簽或指示符時,狗或貓分配給圖像就是這種情況。當只有兩個標簽時,這被稱為二進制分類。當有兩類以上時,這些問題被稱為多類分類。

  • 回歸:當預測連續(xù)值時,問題變成一個回歸問題。

  • 預測:這是基于過去和現(xiàn)在的數(shù)據(jù)來預測未來的過程。這是最常用的分析趨勢。一個常見的例子可能是根據(jù)本年和前幾年的銷售額估計下一年的銷售額。

半監(jiān)督學習

監(jiān)督學習的挑戰(zhàn)是標注數(shù)據(jù)可能是昂貴和耗時的。 如果標簽有限,你可以使用未標記的示例來增強監(jiān)督學習。 因為在這種情況下機器沒有被完全監(jiān)督,所以我們說機器是半監(jiān)督的。 使用半監(jiān)督學習,你可以使用少量標簽數(shù)據(jù)的未標記示例來提高學習準確性。

非監(jiān)督學習

執(zhí)行非監(jiān)督學習時,機器將呈現(xiàn)完全未標記的數(shù)據(jù)。 被要求發(fā)現(xiàn)基礎數(shù)據(jù)的固有模式,如聚類結構,低維流形或稀疏樹和圖。

  • 聚類:分組一組數(shù)據(jù)示例,使一個組(或一個集群)中的示例與其他組中的示例更相似(根據(jù)某些標準)。 這通常用于將整個數(shù)據(jù)集分成幾組。 可以在每個組中進行分析,以幫助用戶找到固有模式。

  • 降維:減少考慮的變量數(shù)量。在許多應用中,原始數(shù)據(jù)具有非常高的維度特征,并且一些特征是冗余的或與任務無關的。降低維度有助于找到真實的,潛在的關系。

增強學習

增強學習根據(jù)環(huán)境的反饋分析和優(yōu)化agent行為。機器嘗試不同的場景來發(fā)現(xiàn)哪些行為會產生最大的回報,而不是被告知要采取哪些行動。試誤與延遲獎勵區(qū)別增強學習與其他技術。

選擇算法時的注意事項

選擇算法時,請務必考慮這些方面:準確度,訓練時間和易用性。 許多用戶將準確度放在第一位,而初學者則傾向于關注他們最了解的算法。

當被提供一個數(shù)據(jù)集時,首先要考慮的是如何獲得結果,無論這些結果如何。 初學者傾向于選擇易于實現(xiàn)的算法,并可以快速獲得結果。 這樣做很好,因為這只是過程的第一步。 獲得一些結果并熟悉數(shù)據(jù)后,你可以花費更多時間使用更復雜的算法來加強對數(shù)據(jù)的理解,從而進一步改進結果。

即使在這個階段,最好的算法可能不是實現(xiàn)最高報告精度的方法,因為算法通常需要仔細調整和廣泛的訓練才能獲得最佳的可實現(xiàn)性能。

何時使用特定的算法

更仔細地查看各個算法可以幫助你了解它們提供的內容以及如何使用它們。 這些描述提供了更多的細節(jié),并提供了什么時候使用特定算法,與速查表對準。

線性回歸和邏輯回歸

線性回歸是對連續(xù)因變量y與一個或多個預測變量X之間的關系進行建模的方法.Y和X之間的關系可以線性建模為

。根據(jù)訓練樣本

,可以學習參數(shù)向量β。

如果因變量不是連續(xù)的而是分類的,則可以使用logit鏈接函數(shù)將線性回歸轉換為邏輯回歸。 邏輯回歸是一種簡單,快速而強大的分類算法。 這里我們討論二進制的情況,其中因變量y只取二進制值

(它可以容易地擴展到多類分類問題)。

在邏輯回歸中,我們使用不同的假設類來嘗試預測給定示例屬于“1”類的概率,而不是它屬于“-1”類的概率。 具體來說,我們將嘗試學習以下形式的函數(shù):

。這里

是sigmoid函數(shù)。給定訓練樣例

,可以通過使給定數(shù)據(jù)集β的對數(shù)似然度最大化來得知參數(shù)向量β。

線性SVM和核SVM

核機制用于將非線性可分離函數(shù)映射為更高維度的線性可分離函數(shù)。 支持向量機(SVM)訓練算法找到由超平面的法向量w和偏差b表示的分類器。 這個超平面(邊界)將不同的類分隔開盡可能大的邊距。 該問題可以轉化為約束優(yōu)化問題:

支持向量機(SVM)訓練算法找到由超平面的法向量w和偏差b表示的分類器。 這個超平面(邊界)將不同的類分隔開盡可能大的邊距。 該問題可以轉化為約束優(yōu)化問題:

當類不可線性分離時,可以使用核機制將非線性可分離空間映射到更高維度的線性可分離空間。

當大多數(shù)因變量是數(shù)字時,邏輯回歸和SVM應該是分類的第一個嘗試。 這些機型易于實現(xiàn),其參數(shù)易調,性能也相當不錯。 所以這些模式適合初學者。

樹和集成樹

決策樹、隨機森林和梯度提升都是基于決策樹的算法。決策樹有許多變種,但它們都做同樣的事情--將特征空間細分為具有相同標簽的區(qū)域。決策樹易于理解和實施。 然而,當我們剪枝并深度運行樹時往往過度擬合數(shù)據(jù)。隨機森林和梯度提升是使用樹算法實現(xiàn)良好準確性以及克服過擬合問題的兩種流行方式。

神經(jīng)網(wǎng)絡和深度學習

20世紀80年代中期,由于并行和分布式處理能力,神經(jīng)網(wǎng)絡蓬勃發(fā)展。 但是,這一領域的研究受到廣泛用于優(yōu)化神經(jīng)網(wǎng)絡參數(shù)的反向傳播訓練算法的無效性的阻礙。 支持向量機(SVM)等簡單模型,可以通過解決凸優(yōu)化問題輕松訓練,逐漸取代機器學習中的神經(jīng)網(wǎng)絡。

近年來,新的和改進的訓練技術,如非監(jiān)督的預訓練和逐層貪婪訓練,導致對神經(jīng)網(wǎng)絡興趣的興起。 越來越強大的計算能力,如圖形處理單元(GPU)和大規(guī)模并行處理(MPP),也激發(fā)了神經(jīng)網(wǎng)絡的復興。神經(jīng)網(wǎng)絡復興的研究引起了成千上萬層模型的發(fā)明。

換句話說,淺層神經(jīng)網(wǎng)絡已經(jīng)演變成深度學習神經(jīng)網(wǎng)絡。 深層神經(jīng)網(wǎng)絡對于監(jiān)督學習已經(jīng)非常成功。 當用于語言和圖像識別時,深層次的學習表現(xiàn)與甚至比人類更好。 適用于非監(jiān)督的學習任務,如特征提取,深度學習還從原始圖像或語音中提取少量人為干預的特征。

神經(jīng)網(wǎng)絡由三部分組成:輸入層,隱層和輸出層。 訓練樣本定義了輸入和輸出層。 當輸出層是分類變量時,神經(jīng)網(wǎng)絡是解決分類問題的一種方式。 當輸出層是連續(xù)變量時,網(wǎng)絡可以用來做回歸。 當輸出層與輸入層相同時,可以使用網(wǎng)絡來提取內在特征。 隱藏層的數(shù)量定義了模型的復雜性和建模能力。

K-means/ K-modes,GMM(高斯混合模型)聚類

K-means/ K-modes,GMM聚類旨在將n個觀察值分為k個集群。 K-means定義硬分配:樣本將是且僅與一個集群相關聯(lián)。 然而,GMM為每個樣本定義一個軟分配。 每個樣本具有與每個集群相關聯(lián)的概率。 當給定集群k的數(shù)量時,兩種算法都是簡單且足夠快的聚類。

DBSCAN

當聚類數(shù)k沒有給出時,可以通過密度擴散連接樣本來使用DBSCAN(基于密度的空間聚類)。

分層聚類

可以使用樹結構(樹形圖)來可視化分層分區(qū)。 它不需要集群的數(shù)量作為輸入,并且可以使用不同的K來以不同的粒度級(即,可以細化/粗化的集群)來查看分區(qū)。

PCA, SVD 和 LDA

我們通常不想將大量的特征直接饋送到機器學習算法中,因為一些特征可能是不相關的,或者“固有的”維度可能小于特征的數(shù)量。 主成分分析(PCA),奇異值分解(SVD)和潛在Dirichlet分配(LDA)均可用于降維。

PCA是一種非監(jiān)督的聚類方法,將原始數(shù)據(jù)空間映射到較低維數(shù)空間,同時保留盡可能多的信息。 PCA基本上找到一個最保留數(shù)據(jù)方差的子空間,其中子空間由數(shù)據(jù)協(xié)方差矩陣的主要特征向量定義。

SVD與PCA相關,意思是中心數(shù)據(jù)矩陣(特征與樣本)的SVD提供了定義與PCA相同的子空間的主要左奇異向量。 然而,SVD是一種更通用的技術,因為它也可以做PCA可能不做的事情。 例如,用戶對電影矩陣的SVD能夠提取可以在推薦系統(tǒng)中使用的用戶資料和電影簡介。 此外,SVD也被廣泛用作自然語言處理(NLP)中稱為潛在語義分析的主題建模工具。

NLP中的相關技術是潛在的Dirichlet分配(LDA)。 LDA是概率主題模型,它以與高斯混合模型(GMM)類似的方式將文檔分解為主題,將連續(xù)數(shù)據(jù)分解為高斯密度。 與GMM不同,LDA模型離散數(shù)據(jù),并且限制了主題根據(jù)Dirichlet分布先驗分布。

結論

這是易于遵循的工作流程。在此得出的當試圖解決一個新問題時的結論:

  • 定義問題。你想解決什么問題?

  • 從簡單的開始。熟悉數(shù)據(jù)和基線結果。

  • 然后嘗試更復雜的東西。

SAS視覺數(shù)據(jù)挖掘和機器學習為初學者學習機器學習和應用機器學習方法提供了一個良好的平臺。


本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如何通俗的解釋機器學習的10大算法?
通過機器學習算法速查表,快速選擇合適的機器學習算法(下)
初學者如何選擇合適的機器學習算法(附速查表)
【技術必備】解讀 2016 年十大機器學習算法及其應用
機器學習工程師必知的十大算法
干貨 ‖ 機器學習十大算法
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服