高斯分布
高斯分布(Gaussian Distribution)有時(shí)也被稱(chēng)為正態(tài)分布(Normal Distribution),是一種在自然界大量的存在的、最為常見(jiàn)的分布形式。例如人的身高、體重、年齡等特征,都符合正態(tài)分布。
正態(tài)分布的公式如下所示:
公式中包含兩個(gè)參數(shù),參數(shù) μ 表示均值,σ 表示標(biāo)準(zhǔn)差,均值對(duì)應(yīng)正態(tài)分布的中間位置,標(biāo)準(zhǔn)差衡量了數(shù)據(jù)圍繞均值分散的程度。下圖表示了在不同的均值與方差下,正態(tài)分布概率密度函數(shù)的形狀。
高斯混合模型
高斯混合模型(Gaussian Mixed Model)指的是多個(gè)高斯分布函數(shù)的線性組合,理論上GMM可以擬合出任意類(lèi)型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個(gè)不同的分布的情況(或者是同一類(lèi)分布但參數(shù)不一樣,或者是不同類(lèi)型的分布,比如正態(tài)分布和伯努利分布)。
下面我們先來(lái)模擬出兩個(gè)不同均值和方差的正態(tài)分布的數(shù)據(jù)。
可以看到,這份數(shù)據(jù),是由兩個(gè)正態(tài)分布的數(shù)據(jù)組合而成,下面點(diǎn)的顏色,代表它們的分類(lèi)。數(shù)據(jù)的生成代碼,如下所示:
執(zhí)行代碼,我們即可得到以下的數(shù)據(jù):
> data <- data.frame(x, y)
然后繪圖,即可得到上面的圖形。
通過(guò)模擬數(shù)據(jù)的代碼,我們知道,左邊的正態(tài)分布(黑色點(diǎn),標(biāo)記為c1),均值為1,方差為1,個(gè)數(shù)占比為25%,右邊的正態(tài)分布(紅色點(diǎn),標(biāo)記為c2),均值為9,方差為2,個(gè)數(shù)占比75%。
現(xiàn)在,問(wèn)題來(lái)了,如果我們不知道 y,只有 x 的值,那么如何計(jì)算出上面紅色標(biāo)記的六個(gè)指標(biāo)呢?
GMM模型的求解
我們可以通過(guò)EM算法,來(lái)求解GMM模型的參數(shù)值,EM算法的實(shí)現(xiàn)過(guò)程,我們?cè)谇懊嬉延薪榻B(傳送門(mén):概率圖模型——EM算法),下面我們使用R語(yǔ)言來(lái)實(shí)現(xiàn),EM算法求解GMM模型的過(guò)程。
執(zhí)行代碼,即可得到迭代后的結(jié)果:
prob: 0.2464328 0.7535672
mean: 0.9724929 8.996412
sd: 0.9408951 1.986688
我們來(lái)核對(duì)一下,左邊的正態(tài)分布(黑色點(diǎn),標(biāo)記為c1),均值為1(計(jì)算結(jié)果為0.9724929),方差為1(計(jì)算結(jié)果為0.9408951),個(gè)數(shù)占比為25%(計(jì)算結(jié)果為0.2464328),右邊的正態(tài)分布(紅色點(diǎn),標(biāo)記為c2),均值為9(計(jì)算結(jié)果為8.996412),方差為2(計(jì)算結(jié)果為1.986688),個(gè)數(shù)占比75%(計(jì)算結(jié)果為0.7535672)。因此,EM算法對(duì)GMM模型參數(shù)求解的結(jié)果,和我們模擬數(shù)據(jù)的真實(shí)參數(shù)值,基本上一致。
最后,我們通過(guò)繪圖,來(lái)看看EM算法對(duì)GMM模型參數(shù)的擬合過(guò)程。
執(zhí)行代碼,即可得到以下的圖形:
聯(lián)系客服