春意影院美女视频,99在线美女视频

聚類(1)——混合高斯模型 Gaussian Mixture Model

2013.04.20

聚類(1)——混合高斯模型 Gaussian Mixture Model

分類： Machine Learning 2012-06-14 17:57 1805人閱讀評論(3) 收藏舉報

聚類的方法有很多種，k-means要數(shù)最簡單的一種聚類方法了，其大致思想就是把數(shù)據(jù)分為多個堆，每個堆就是一類。每個堆都有一個聚類中心（學習的結(jié)果就是獲得這k個聚類中心），這個中心就是這個類中所有數(shù)據(jù)的均值，而這個堆中所有的點到該類的聚類中心都小于到其他類的聚類中心（分類的過程就是將未知數(shù)據(jù)對這k個聚類中心進行比較的過程，離誰近就是誰）。其實k-means算的上最直觀、最方便理解的一種聚類方式了，原則就是把最像的數(shù)據(jù)分在一起，而“像”這個定義由我們來完成，比如說歐式距離的最小，等等。想對k-means的具體算法過程了解的話，請看這里。而在這篇博文里，我要介紹的是另外一種比較流行的聚類方法----GMM（Gaussian Mixture Model）。

GMM和k-means其實是十分相似的，區(qū)別僅僅在于對GMM來說，我們引入了概率。說到這里，我想先補充一點東西。統(tǒng)計學習的模型有兩種，一種是概率模型，一種是非概率模型。所謂概率模型，就是指我們要學習的模型的形式是P(Y|X)，這樣在分類的過程中，我們通過未知數(shù)據(jù)X可以獲得Y取值的一個概率分布，也就是訓練后模型得到的輸出不是一個具體的值，而是一系列值的概率（對應于分類問題來說，就是對應于各個不同的類的概率），然后我們可以選取概率最大的那個類作為判決對象（算軟分類soft assignment）。而非概率模型，就是指我們學習的模型是一個決策函數(shù)Y=f(X)，輸入數(shù)據(jù)X是多少就可以投影得到唯一的一個Y，就是判決結(jié)果（算硬分類hard assignment）。回到GMM，學習的過程就是訓練出幾個概率分布，所謂混合高斯模型就是指對樣本的概率密度分布進行估計，而估計的模型是幾個高斯模型加權(quán)之和（具體是幾個要在模型訓練前建立好）。每個高斯模型就代表了一個類（一個Cluster）。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影，就會分別得到在各個類上的概率。然后我們可以選取概率最大的類所為判決結(jié)果。

得到概率有什么好處呢？我們知道人很聰明，就是在于我們會用各種不同的模型對觀察到的事物和現(xiàn)象做判決和分析。當你在路上發(fā)現(xiàn)一條狗的時候，你可能光看外形好像鄰居家的狗，又更像一點點女朋友家的狗，你很難判斷，所以從外形上看，用軟分類的方法，是女朋友家的狗概率51%，是鄰居家的狗的概率是49%，屬于一個易混淆的區(qū)域內(nèi)，這時你可以再用其它辦法進行區(qū)分到底是誰家的狗。而如果是硬分類的話，你所判斷的就是女朋友家的狗，沒有“多像”這個概念，所以不方便多模型的融合。

從中心極限定理的角度上看，把混合模型假設(shè)為高斯的是比較合理的，當然也可以根據(jù)實際數(shù)據(jù)定義成任何分布的Mixture Model,不過定義為高斯的在計算上有一些方便之處，另外，理論上可以通過增加Model的個數(shù)，用GMM近似任何概率分布。

混合高斯模型的定義為：

其中K為模型的個數(shù)，πk為第k個高斯的權(quán)重，則為第k個高斯的概率密度函數(shù)，其均值為μk，方差為σk。我們對此概率密度的估計就是要求πk、μk和σk各個變量。當求出的表達式后，求和式的各項的結(jié)果就分別代表樣本x屬于各個類的概率。

在做參數(shù)估計的時候，常采用的方法是最大似然。最大似然法就是使樣本點在估計的概率密度函數(shù)上的概率值最大。由于概率值一般都很小，N很大的時候這個連乘的結(jié)果非常小，容易造成浮點數(shù)下溢。所以我們通常取log，將目標改寫成：

也就是最大化log-likelyhood function，完整形式則為：

一般用來做參數(shù)估計的時候，我們都是通過對待求變量進行求導來求極值，在上式中，log函數(shù)中又有求和，你想用求導的方法算的話方程組將會非常復雜，所以我們不好考慮用該方法求解（沒有閉合解）?？梢圆捎玫那蠼夥椒ㄊ?/span>EM算法——將求解分為兩步：第一步是假設(shè)我們知道各個高斯模型的參數(shù)（可以初始化一個，或者基于上一步迭代結(jié)果），去估計每個高斯模型的權(quán)值；第二步是基于估計的權(quán)值，回過頭再去確定高斯模型的參數(shù)。重復這兩個步驟，直到波動很小，近似達到極值（注意這里是個極值不是最值，EM算法會陷入局部最優(yōu)）。具體表達如下：

1、對于第i個樣本xi來說，它由第k個model生成的概率為：

在這一步，我們假設(shè)高斯模型的參數(shù)和是已知的（由上一步迭代而來或由初始值決定）。

（E step）

（M step）

3、重復上述兩步驟直到算法收斂（這個算法一定是收斂的，至于具體的證明請回溯到EM算法中去，而我也沒有具體關(guān)注，以后補上）。

最后總結(jié)一下，用GMM的優(yōu)點是投影后樣本點不是得到一個確定的分類標記，而是得到每個類的概率，這是一個重要信息。GMM每一步迭代的計算量比較大，大于k-means。GMM的求解辦法基于EM算法，因此有可能陷入局部極值，這和初始值的選取十分相關(guān)了。GMM不僅可以用在聚類上，也可以用在概率密度估計上。

分享到：

上一篇：聚類(序)——監(jiān)督學習與無監(jiān)督學習

下一篇：聚類(2)——層次聚類 Hierarchical Clustering

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

詳解EM算法與混合高斯模型(Gaussian mixture model, GMM)

機器學習常用聚類算法大盤點，包括：原理、使用細節(jié)、注意事項

高斯混合模型

K

ML之GMM：Gaussian Mixture Model高斯混合模型相關(guān)論文、算法步驟相關(guān)配圖

（EM算法）The EM Algorithm

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

聚類(1)——混合高斯模型 Gaussian Mixture Model