重磅干貨,第一時間送達
機器學(xué)習(xí)是當(dāng)今計算機科學(xué)中最令人興奮和最受歡迎的領(lǐng)域之一。這不僅關(guān)乎技術(shù),還關(guān)乎應(yīng)用先進算法來解決現(xiàn)實世界的問題。本文將介紹人工智能 (AI) 和機器學(xué)習(xí),使用該領(lǐng)域中使用的一些最常見的算法。
邏輯回歸
邏輯回歸是一種有監(jiān)督的機器學(xué)習(xí)算法,用于分類和回歸問題。它可用于預(yù)測事件發(fā)生的概率,例如患者是否會在給定時間段內(nèi)發(fā)病。
邏輯回歸使用邏輯函數(shù)來模擬自變量和因變量之間的關(guān)系。這意味著我們使用一組參數(shù)來確定每個自變量對因變量的影響程度。然后,根據(jù)這些值和其他輸入數(shù)據(jù)(例如該患者患有哪種疾?。?,我們可以預(yù)測他/她在接受藥物 X 治療后不僅存活而且完全康復(fù)的可能性有多大。
邏輯回歸算法是一種用于分類的判別分析。它可用于預(yù)測事件發(fā)生的概率,例如患者是否會在給定時間段內(nèi)死亡。邏輯回歸使用 logit 函數(shù)來模擬自變量和因變量之間的關(guān)系。這意味著我們使用一組參數(shù)來確定每個自變量對因變量的影響程度。然后,根據(jù)這些值和其他輸入數(shù)據(jù)(例如該患者患有哪種疾?。?,我們可以預(yù)測他/她在接受藥物 X 治療后不僅存活而且完全康復(fù)的可能性有多大。
決策樹和隨機森林
決策樹和隨機森林算法是決策樹的下一步。這兩種算法都使用一系列決策來預(yù)測事件的結(jié)果,例如預(yù)測用戶是否會根據(jù)他們對某物的興趣購買某物。
決策樹最適合可以拆分為小的子集(也稱為集群)的大型數(shù)據(jù)集。當(dāng)根據(jù)以前的經(jīng)驗預(yù)測結(jié)果涉及許多變量時,隨機森林特別擅長進行高精度的預(yù)測。
梯度提升機
梯度提升機(GBM)是最流行的機器學(xué)習(xí)算法之一。它是一種有監(jiān)督的機器學(xué)習(xí)算法,這意味著我們必須先在一些標記數(shù)據(jù)上對其進行訓(xùn)練,然后才能將其用于預(yù)測或分類問題。GBM 背后的想法是,當(dāng)我們的問題涉及許多變量時,使用梯度提升作為提高模型性能的一種方式。
對于具有許多變量并且難以在數(shù)據(jù)中找到任何有用結(jié)構(gòu)的問題,GBM 是一個很好的選擇。它也非常擅長處理高度相關(guān)的變量,這對于更簡單的模型來說可能是個問題。
K-均值
K-Means 是一種用于聚類數(shù)據(jù)的無監(jiān)督學(xué)習(xí)算法。它是一種迭代算法,這意味著它從一組初始化的集群開始,然后通過移動到新的中心迭代地擴展這些集群,直到無法再移動。
K-Means 可以在不同的情況下使用,但它的主要用途之一是降維或降維算法 (DR)。在這種情況下,DR 算法根據(jù)每個組的成員與整個數(shù)據(jù)集之間的某種相似性度量將我們的數(shù)據(jù)集分成組。然后使用 K-means 確定哪些組最適合我們的原始數(shù)據(jù)集;這將使我們更容易在這些組中找到模式
奇異值分解 (SVD)
奇異值分解 (SVD) 是矩陣的特征值分解。它可用于計算矩陣的主成分,也可用于計算矩陣的奇異值分解 (SVD)。
了解 PCA 是處理數(shù)據(jù)的重要部分。它被用于無數(shù)的應(yīng)用程序,從金融和統(tǒng)計到機器學(xué)習(xí)。在本文中,我們將討論 PCA 是什么、它是如何工作的,以及它如何用于降維。
主成分分析 (PCA)
主成分分析 (PCA) 是一種降維技術(shù),可以找到數(shù)據(jù)中最大方差的方向。它用于減少數(shù)據(jù)集中的特征數(shù)量,并通過查找投影方向來查找數(shù)據(jù)中的底層結(jié)構(gòu)。
另一方面,全連接層由許多神經(jīng)元組成,這些神經(jīng)元從卷積層獲取輸出并將它們與權(quán)重組合。這些權(quán)重用于確定哪些特征對分類任務(wù)最重要。
卷積神經(jīng)網(wǎng)絡(luò) (CNN)
卷積神經(jīng)網(wǎng)絡(luò)是一種人工神經(jīng)網(wǎng)絡(luò),可用于圖像識別、語音識別等。它們由卷積層和全連接層組成。卷積層由許多小型過濾器組成,這些過濾器在將輸入層中的數(shù)據(jù)傳遞到另一層之前對其進行處理。每個過濾器的大小取決于我們想從機器學(xué)習(xí)模型中學(xué)習(xí)多少(例如,我們查看的是文本還是圖像)。然后通過稱為“池化”的加權(quán)求和操作將每個過濾器的輸出與前一層的其他輸出組合在一起。這有助于減少訓(xùn)練期間的噪音,以便我們稍后在嘗試將圖像分類為“貓”、“狗”等類別時可以看到更好的結(jié)果!
遞歸神經(jīng)網(wǎng)絡(luò) (RNN)
循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 是一種可以記住先前事件的神經(jīng)網(wǎng)絡(luò)。RNN 用于自然語言處理、語音識別和機器翻譯。它們也是一種深度學(xué)習(xí)模型:LSTM 網(wǎng)絡(luò)是一種 RNN,它也可以記住以前的事件!
LSTM 的應(yīng)用:自然語言處理、語音識別和機器翻譯
這是一種更高級的算法,可用于計算矩陣的奇異值分解 (SVD)。該算法通過執(zhí)行多次 QR 分解迭代,然后對結(jié)果矩陣進行特征值分解。LSTM 是最流行的 RNN 類型之一。它們用于許多應(yīng)用程序,從 Google 翻譯到 Siri 和 Alexa。LSTM 網(wǎng)絡(luò)用于機器翻譯等任務(wù),因為它們可以學(xué)會記住之前發(fā)生的事情(并預(yù)測接下來發(fā)生的事情)。
長短期記憶網(wǎng)絡(luò) (LSTM)
LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN),可以從過去學(xué)習(xí)并預(yù)測未來。它們對于語音識別、機器翻譯和文本分類等序列學(xué)習(xí)任務(wù)非常有用。LSTM 網(wǎng)絡(luò)是一種可以從過去學(xué)習(xí)并預(yù)測未來的循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)。它們對于語音識別、機器翻譯和文本分類等序列學(xué)習(xí)任務(wù)非常有用。
馬爾可夫鏈蒙特卡羅方法
馬爾可夫鏈蒙特卡羅方法是一類用于近似隨機系統(tǒng)中事件概率的算法。該名稱來自這樣一個事實,即這些方法通過模擬難以分析建模的復(fù)雜系統(tǒng)的行為來工作。
Markov Chain Monte Carlo (MCMC) 是一種基于樣本數(shù)據(jù)和有關(guān)這些參數(shù)的先驗知識計算后驗分布的方法。它已廣泛用于貝葉斯統(tǒng)計、機器學(xué)習(xí)和計算金融(例如,利率建模)。
期望最大化算法 (EM)
期望最大化 (EM) 是一種尋找一組參數(shù)的最大似然估計的概率方法。EM 用于分類和回歸問題,可以看作是最小二乘回歸的推廣。換句話說,期望最大化 (EM) 模型使用迭代方法為每個參數(shù)找到最可能的值,以便準確地擬合數(shù)據(jù)點。
重要的是要注意 EM 不僅限于線性模型;它還成功地應(yīng)用于神經(jīng)網(wǎng)絡(luò)等非線性問題和核函數(shù)和決策樹等非參數(shù)方法。
隨機梯度下降 (SGD) 和交替最小二乘 (ALS) 算法
隨機梯度下降 (SGD) 和交替最小二乘法 (ALS) 是用于最小化損失函數(shù)、最大化似然函數(shù)和在迭代過程中找到局部最小值的簡單但有效的算法。
這兩種算法密切相關(guān),因為它們都使用梯度下降來解決這些問題。在 SGD 中,我們最小化損失函數(shù),而在 ALS 中,我們最大化似然函數(shù)。在這兩種情況下,我們都使用梯度下降來做到這一點;但是,這兩種方法之間也存在一些技術(shù)差異。
樸素貝葉斯分類器算法
樸素貝葉斯分類器是一種簡單有效的分類算法。它基于貝葉斯定理,這是概率論中的一個定理。該算法依靠歸納推理而不是演繹推理來進行預(yù)測。
樸素貝葉斯分類器算法在從文本數(shù)據(jù)或圖像等新實例學(xué)習(xí)之前使用關(guān)于類的先驗信息(例如,項目屬于 A 組還是 B 組)。
該算法用于分類,這是一項預(yù)測實例標簽或類別的任務(wù)。分類問題有兩種類型:1)二元分類和 2)多分類。在二元分類問題中,我們需要從兩個類別中預(yù)測一個標簽(例如,預(yù)測是否有人會購買我們的產(chǎn)品)。
在多分類問題中,我們需要從多個類中預(yù)測多個標簽。例如,預(yù)測某人是否是客戶(二元)或預(yù)測某人是否會購買我們的產(chǎn)品,以及他們是否有可能將其推薦給他們的朋友(多分類)。
樸素貝葉斯分類器算法是最流行和最簡單的機器學(xué)習(xí)算法之一。它用于各種應(yīng)用,例如垃圾郵件過濾、文檔分類和文本挖掘等。
Q-Learning 強化學(xué)習(xí)算法
Q-learning 是一種強化學(xué)習(xí)算法。這是一種非策略學(xué)習(xí)方法,這意味著我們不是從一個模型開始然后嘗試優(yōu)化它,而是從一個初始策略(描述模型應(yīng)該做什么的規(guī)則)開始,然后將其作為我們的起點隨著時間的推移而改善。
Q 學(xué)習(xí)也稱為時間差異學(xué)習(xí),因為它使用觀察之間的時間差異來更新其對動作值的估計。這可以被認為是在魔獸世界或 Pokemon Go 等游戲中使用經(jīng)驗值,在這些游戲中,玩家通過與怪物戰(zhàn)斗或完成任務(wù)等事情來訓(xùn)練他們的角色后變得更強大。
k-最近鄰算法(KNN)和協(xié)同過濾算法
K-Nearest Neighbors (KNN) 是一種用于分類和回歸的算法。它使用 k 最近鄰對新的數(shù)據(jù)點進行分類,然后形成監(jiān)督學(xué)習(xí)的基礎(chǔ)。KNN也稱為基于頻繁模式匹配或線性判別分析的分類方法。
該算法背后的前提是,我們的世界中可能有許多不同類型的對象,我們需要在決定其類別成員資格之前找出最適合我們訓(xùn)練集的對象。這包括根據(jù)兩個對象在其所有個體特征(如顏色、形狀等)中的相對距離來找出它們的相似度,然后使用一些數(shù)學(xué)公式(如它們之間的歐幾里得距離)來計算它們的相似度。一旦從每個類中的各種樣本/樣本中收集到此信息(稍后將使用),就可以使用這些值以及一些其他參數(shù)(例如用于決定是否應(yīng)將實例分配到其中的閾值)創(chuàng)建 LDA 模型。對應(yīng)的類標簽與否
聯(lián)系客服