機器人學(xué)是一個多領(lǐng)域的交叉學(xué)科,包含了許多學(xué)科:包括概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜性理論等。專攻計算機如何模擬或?qū)崿F(xiàn)人的學(xué)習(xí)行為,以獲得新的知識或技能,重組已有的知識結(jié)構(gòu),使其持續(xù)地提高其表現(xiàn)。計算機智能是人工智能的核心,是實現(xiàn)計算機智能化的基本途徑。若以人為例,機器學(xué)習(xí)就是人類學(xué)習(xí)和發(fā)展的能力。
線性回歸可能是統(tǒng)計學(xué)和機器學(xué)習(xí)領(lǐng)域中最為人熟知、最容易理解的算法之一。
預(yù)報模型的建立主要是為了盡量減少模型誤差,或者在犧牲可解釋性的情況下最精確地預(yù)報。為了達到這一目的,我們將借鑒、重用其他許多領(lǐng)域的算法(包括統(tǒng)計)。
該模型用方程形式表示,為輸入變量尋找特定權(quán)重(即系數(shù)B),然后描述了輸入變量(x)與輸出變量(y)之間關(guān)系的最佳擬合曲線。
邏輯Ic回歸是機器學(xué)習(xí)學(xué)到的另一項統(tǒng)計領(lǐng)域的技術(shù)。在二分類問題中,它是首選的。
和線性回歸一樣,LogisTIc回歸也是為了找出每個輸入變量的權(quán)系值。但是,不同的是,LogisTIc回歸的輸出預(yù)測結(jié)果是由一種非線性函數(shù)“l(fā)ogisTIc函數(shù)”變換而成。
這個logistic函數(shù)的形狀就像一個“S”,它可以將任何值轉(zhuǎn)換為0-1的區(qū)間。這個方法非常有用,因為我們可以對logistic函數(shù)的輸出應(yīng)用一條規(guī)則,以獲得0-1范圍內(nèi)的捕獲值(例如,將閾值設(shè)為0.5,如果函數(shù)的閾值小于0.5,那么輸出值就是1),并預(yù)測類別的值。
邏輯回歸是傳統(tǒng)的分類算法,其使用場景局限于解決二類問題。當你有兩個以上的類別時,線性鑒別分析算法(LDA)是線性分類的首選方法。
決策樹是機器學(xué)習(xí)中預(yù)測建模的重要算法。
可將決策樹表示為二叉樹。這類二叉樹在算法設(shè)計和數(shù)據(jù)結(jié)構(gòu)上都是一樣的,沒有什么特別之處。每一個節(jié)點代表一個輸入變量(x)和一個基于它的分叉點(假設(shè)變量為數(shù)值型)。
Bayes是一個簡單而又強大的預(yù)測建模算法。
此模型包括兩類概率,可以直接從訓(xùn)練數(shù)據(jù)中計算出:1)屬于每一類的概率;2)給定每個x值時,數(shù)據(jù)從屬于每一類的條件概率。只要計算出這兩種概率,就可以利用貝葉斯定理,用概率模型預(yù)測新的數(shù)據(jù)。如果您的數(shù)據(jù)為實值,則通常假定它符合高斯分布(鐘形曲線),以便您能夠輕松地估計這些概率。
最小鄰域K(KNN)算法簡單有效。模型表示KNN是完整的訓(xùn)練數(shù)據(jù)集。
通過搜索數(shù)據(jù)點最接近的K個實例(鄰近點),并歸納出這些K個實例的輸出變量,可以得到新數(shù)據(jù)點的預(yù)測結(jié)果。對回歸問題而言,預(yù)測結(jié)果可以是輸出變量的均值;對分類問題而言,它可以是眾數(shù)(或最常見的)類別的值。
重點在于如何判斷數(shù)據(jù)實例間的相似度。假如你的數(shù)據(jù)特征尺寸相同(比如,所有數(shù)據(jù)都以英寸為單位),那么最簡單的測量方法就是使用歐幾里德距離,你可以直接根據(jù)輸入變量的不同來計算它。
KNN算法的一個缺點是需要處理全部的訓(xùn)練數(shù)據(jù)。并且,學(xué)習(xí)向量量化算法(LVQ)允許選擇所需的訓(xùn)練實例數(shù),并且可以準確的學(xué)習(xí)這些實例。
SVM(SVM)可能是目前被討論得最為廣泛和流行的機器學(xué)習(xí)算法之一。
超面是一條“線”,它在輸入變量空間中被分割。該方法可以利用向量機會選擇出一個超平面,將輸入變量空間中的點分成類(類0或類1)。你可以把他想像成二維空間中的一條直線,假定所有的輸入點都能被這條直線完全分割。SVM學(xué)習(xí)算法的目標是通過超平面求取最優(yōu)分類分割系數(shù)。
隨機森林算法是一種綜合機器學(xué)習(xí)算法,是目前最流行、功能最強大的算法之一。
自我分析法是一種很有效的統(tǒng)計方法,可以從數(shù)據(jù)樣本中估算一定數(shù)量(例如平均值)。您需要從數(shù)據(jù)中提取大量樣本,計算均值,然后再將每次抽樣所計算的均值進行平均,以獲得所有數(shù)據(jù)的真實均值的更好估計。
隨機值用于次優(yōu)分割。
boosting是一種集成技術(shù),它嘗試使用大量的弱分類器來創(chuàng)建強分類器。為了實現(xiàn)Boosting方法,您首先需要使用訓(xùn)練數(shù)據(jù)構(gòu)造一個模型,然后創(chuàng)建第二個(它試圖修正第一個模型的錯誤)。在模型最終能夠完全預(yù)測訓(xùn)練集或者加入的模型已經(jīng)達到最大數(shù)量之前,我們不會再加入新模型。
聯(lián)系客服