在機(jī)器學(xué)習(xí)領(lǐng)域,概率分布對(duì)于數(shù)據(jù)的認(rèn)識(shí)有著非常重要的作用。不管是有效數(shù)據(jù)還是噪聲數(shù)據(jù),如果知道了數(shù)據(jù)的分布,那么在數(shù)據(jù)建模過程中會(huì)得到很大的啟示。
首先,如下圖所示8個(gè)特征數(shù)據(jù)概率分布情況(已經(jīng)做歸一化),這些特征是正態(tài)分布、伯努利分布,還是泊松分布、冪律分布?
在高斯法則生效的領(lǐng)域,所有人跟平均值的差距不會(huì)很大;但是在冪律法則分布的領(lǐng)域,跟平均值的差距就會(huì)大到驚人。
正態(tài)法則和冪律法則,細(xì)思極恐。帶著問題,我們開始概率分布之旅。
概率分布,是指用于表述隨機(jī)變量取值的概率規(guī)律。將隨機(jī)變量作為橫軸,概率作為縱軸,把隨機(jī)變量與對(duì)應(yīng)變量畫上去,構(gòu)成一個(gè)圖形,這個(gè)圖像就是概率分布的直觀表示。通常也用概率分布函數(shù)表示
F
(
x
)
F ( x )
F(x)來描述一個(gè)概率分布,概率分布函數(shù)被定義為:
F
(
x
)
=
P
{
X
<
x
}
F ( x ) =P\{X<x\}
F(x)=P{X<x}
總之概率分布也可以理解為一個(gè)函數(shù),它刻畫了隨機(jī)變量與概率的映射關(guān)系,給定一個(gè)概率分布,就可以求任何隨機(jī)變量對(duì)應(yīng)的概率了。當(dāng)一個(gè)隨機(jī)變量與它的概率滿足某一個(gè)概率分布的映射關(guān)系時(shí),則稱這個(gè)隨機(jī)變量服從該概率分布。
如下圖為常用概率分別關(guān)系圖。
均勻分布在 [a,b] 上具有相同的概率值,是簡單概率分布。
均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結(jié)果的數(shù)量可能不受限制,并且所有事件的發(fā)生概率均相同。例如擲骰子,存在多個(gè)可能的事件,每個(gè)事件都有相同的發(fā)生概率。
伯努利分布(Bernoulli Distribution)是單個(gè)二值隨機(jī)變量的分布,是一種離散分布,又稱為 “0-1 分布” 或 “兩點(diǎn)分布”。例如拋硬幣的正面或反面,物品有缺陷或沒缺陷,病人康復(fù)或未康復(fù),此類滿足「只有兩種可能,試驗(yàn)結(jié)果相互獨(dú)立且對(duì)立」的隨機(jī)變量通常稱為伯努利隨機(jī)變量。
假設(shè)二值其中之一的概率等于 p p p,而對(duì)于互斥對(duì)立面面則是 ( 1 ? p ) (1-p) (1?p)(包含所有可能結(jié)果的互斥事件的概率總和為1)。
對(duì)于伯努利分布來說,其離散型隨機(jī)變量期望為:
E
(
x
)
=
∑
x
×
p
(
x
)
=
1
×
p
+
0
×
(
1
?
p
)
=
p
E(x) = ∑x\times p(x) = 1\times p+0\times (1?p) = p
E(x)=∑x×p(x)=1×p+0×(1?p)=p
E
(
x
2
)
=
∑
x
×
p
(
x
2
)
=
1
2
×
p
+
0
2
×
(
1
?
p
)
=
p
E(x^2) = ∑x\times p(x^2) = 1^2\times p+0^2\times (1?p) = p
E(x2)=∑x×p(x2)=12×p+02×(1?p)=p
方差為:
V
a
r
(
x
)
=
E
(
x
2
)
?
(
E
(
x
)
)
2
=
p
?
p
2
=
p
(
1
?
p
)
Var(x) = E(x^2)?(E(x))^2 = p?p^2 = p(1?p)
Var(x)=E(x2)?(E(x))2=p?p2=p(1?p)
二項(xiàng)分布(binomial distrubution)就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對(duì)立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布。
P { X = k } = ( n k ) p k ( 1 ? p ) ( n ? k ) P\{X=k\}=\binom{n}{k}p^k(1-p)^{(n-k)} P{X=k}=(kn?)pk(1?p)(n?k)
式中 k = 0 , 1 , 2 , . . . , n k=0,1,2,...,n k=0,1,2,...,n, ( n k ) = n ! k ! ( n ? k ) ! \binom{n}{k}=\frac{n!}{k!(n-k)!} (kn?)=k!(n?k)!n!?是二項(xiàng)式系數(shù),又記為 C n k C_n^k Cnk?。
二項(xiàng)式分布的主要特征是:
給定多個(gè)試驗(yàn),每個(gè)試驗(yàn)彼此獨(dú)立(一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn))。
每個(gè)試驗(yàn)只能得出兩個(gè)可能的結(jié)果(例如,獲勝或失?。涓怕史謩e為p和(1- p)。
如果獲得成功概率(p)和試驗(yàn)次數(shù)(n),則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率(x)。
E
(
X
)
=
n
p
E(X)=np
E(X)=np
V
a
r
(
X
)
=
n
p
(
1
?
p
)
Var(X)=np(1-p)
Var(X)=np(1?p)
多項(xiàng)式分布(Multinoulli distribution)二項(xiàng)分布的推廣。二項(xiàng)分布(也叫伯努利分布)的典型例子是扔硬幣,硬幣正面朝上概率為p, 重復(fù)扔n次硬幣,k次為正面的概率即為一個(gè)二項(xiàng)分布概率。而多項(xiàng)分布就像扔骰子,有6個(gè)面對(duì)應(yīng)6個(gè)不同的點(diǎn)數(shù)。
某隨機(jī)實(shí)驗(yàn)如果有k個(gè)可能結(jié)局 A 1 、 A 2 、 … 、 A k A_1、A_2、…、A_k A1?、A2?、…、Ak?,分別將他們的出現(xiàn)次數(shù)記為隨機(jī)變量 X 1 、 X 2 、 … 、 X k X_1、X_2、…、X_k X1?、X2?、…、Xk?,它們的概率分布分別是 p 1 , p 2 , … , p k p_1,p_2,…,p_k p1?,p2?,…,pk?,那么在n次采樣的總結(jié)果中, A 1 A_1 A1?出現(xiàn) n 1 n_1 n1?次、 A 2 A_2 A2?出現(xiàn) n 2 n_2 n2?次、…、 A k A_k Ak?出現(xiàn) n k n_k nk?次的這種事件的出現(xiàn)概率P有下面公式:
P ( X 1 = n 1 , X 2 = n 2 , ? , X k = n k ) = { n ! n 1 ! n 2 ! ? n k ! p 1 n 1 p 2 n 2 ? p k n k , ∑ i = 1 k n i = n 0 , o r t h e r w i s e P(X_1=n_1,X_2=n_2,?,X_k=n_k)=\left\{
多項(xiàng)分布對(duì)其每一個(gè)結(jié)果都有均值和方差,分別為:
E
(
X
i
)
=
n
p
i
E(X_i)=np_i
E(Xi?)=npi?
V
a
r
(
X
i
)
=
n
p
i
(
1
?
p
i
)
Var(X_i)=np_i(1-p_i)
Var(Xi?)=npi?(1?pi?)
泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)受到的服務(wù)請(qǐng)求的次數(shù),電話交換機(jī)接到呼叫的次數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)、DNA序列的變異數(shù)、放射性原子核的衰變數(shù)、激光的光子數(shù)分布等等。【維基百科】
P ( X = k ) = λ k k ! e ? λ , k = 0 , 1 , . . . P(X=k)= \frac{λ^k}{k!}e^{-λ} ,k=0,1,... P(X=k)=k!λk?e?λ,k=0,1,...
泊松分布的參數(shù)
λ
λ
λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。 泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
泊松分布的期望和方差均為
λ
λ
λ
若隨機(jī)變量 X X X服從一個(gè)數(shù)學(xué)期望為 μ μ μ、方差為 σ 2 \sigma ^2 σ2的正態(tài)分布,記為 N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值 μ μ μ決定了其位置,其標(biāo)準(zhǔn)差 σ σ σ決定了分布的幅度。當(dāng) μ = 0 , σ = 1 μ = 0,σ = 1 μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。
標(biāo)準(zhǔn)正態(tài)分布又稱為
u
u
u分布,是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為
N
(
0
,
1
)
N(0,1)
N(0,1)。
標(biāo)準(zhǔn)正態(tài)分布
當(dāng)
μ
=
0
,
σ
=
1
μ=0,σ=1
μ=0,σ=1時(shí),正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布:
f
(
x
)
=
1
2
π
e
(
?
x
2
2
)
f(x)=\frac {1}{\sqrt{2π}}e^{(-\frac{x^2}{2})}
f(x)=2π
?1?e(?2x2?)
伽瑪分布(Gamma Distribution),Gamma分布中的參數(shù)α,稱為形狀參數(shù)(shape parameter),β稱為尺度參數(shù)(scale parameter)。
“指數(shù)分布”和“
χ
2
χ^2
χ2分布”都是伽馬分布的特例。
令 X ~ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) X~Γ(α,β);且令 λ = 1 β \lambda = \frac{1}{\beta} λ=β1?: (即 X ~ Γ ( α , 1 λ ) ) X \sim \Gamma(\alpha, \frac{1}{\lambda})) X~Γ(α,λ1?))。
f
(
X
)
=
X
(
α
?
1
)
λ
α
e
(
?
λ
X
)
Γ
(
α
)
,
X
>
0
f(X) = \frac{X^{(\alpha -1)} \lambda^{\alpha} e^{(-\lambda X)}}{\Gamma(\alpha)},X > 0
f(X)=Γ(α)X(α?1)λαe(?λX)?,X>0
幾何分布(Geometric distribution)在伯努利試驗(yàn)中,記每次試驗(yàn)中事件 A A A發(fā)生的概率為 p p p,試驗(yàn)進(jìn)行到事件A出現(xiàn)時(shí)停止,此時(shí)所進(jìn)行的試驗(yàn)次數(shù)為 X X X,其分布列為:
P
(
X
=
k
)
=
(
1
?
p
)
(
k
?
1
)
p
,
k
=
1
,
2
,
.
.
.
P(X=k)=(1-p)^{(k-1)}p,k=1,2,...
P(X=k)=(1?p)(k?1)p,k=1,2,...
此分布列是幾何數(shù)列的一般項(xiàng),因此稱
X
X
X服從幾何分布,記為
X
~
G
E
(
p
)
X ~ GE(p)
X~GE(p) 。
實(shí)際中有不少隨機(jī)變量服從幾何分布,譬如,某產(chǎn)品的不合格率為0.05,則首次查到不合格品的檢查次數(shù)
X
~
G
E
(
0.05
)
X ~ GE(0.05)
X~GE(0.05) 。
X ~ G E ( p ) , q = 1 ? p , P ( X = r ) = p q ( r ? 1 ) X\sim GE(p),q=1-p,P(X = r) = pq^{(r-1)} X~GE(p),q=1?p,P(X=r)=pq(r?1),當(dāng) r → ∞ r→∞ r→∞時(shí):
期望和方差:
E
(
X
)
=
1
p
E(X) = \frac{1}{p}
E(X)=p1?
V
a
r
(
X
)
=
q
p
2
Var(X) = \frac{q}{p^2}
Var(X)=p2q?
在概率理論和統(tǒng)計(jì)學(xué)中,指數(shù)分布(Exponential distribution也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程。 這是伽馬分布的一個(gè)特殊情況。 它是幾何分布的連續(xù)模擬,它具有無記憶的關(guān)鍵性質(zhì)。 除了用于分析泊松過程外,還可以在其他各種環(huán)境中找到。
f ( x ) = { λ e ? ( λ x ) , x > 0 0 , x ≤ 0 f(x)=\left\{
在概率論和統(tǒng)計(jì)學(xué)中,指數(shù)分布是一種連續(xù)概率分布。指數(shù)分布可以用來表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如旅客進(jìn)機(jī)場(chǎng)的時(shí)間間隔、中文維基百科新條目出現(xiàn)的時(shí)間間隔等等。
許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布。有的系統(tǒng)的壽命分布也可用指數(shù)分布來近似。它在可靠性研究中是最常用的一種分布形式。指數(shù)分布是伽瑪分布和威布爾分布的特殊情況,產(chǎn)品的失效是偶然失效時(shí),其壽命服從指數(shù)分布。
期望與方差:
E
(
X
)
=
1
λ
E(X)=\frac{1}{λ}
E(X)=λ1?
V
a
r
(
X
)
=
1
λ
2
Var(X) = \frac{1}{λ^2}
Var(X)=λ21?
卡方分布(chi-square distribution),也稱為 X 2 X^2 X2分布,若 n n n個(gè)相互獨(dú)立的隨機(jī)變量 ξ 1 , ξ 2 , . . . , ξ n ξ_1,ξ_2,...,ξ_n ξ1?,ξ2?,...,ξn?,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這 n n n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。
χ 2 ( n ) χ^2 ( n ) χ2(n) 分 布 , 就 是 Γ Γ Γ 分 布 的 一 種 特 殊 形 式:
其中 α = n 2 , β = 1 2 α = \frac{n}{ 2} , β = \frac{1}{ 2} α=2n?,β=21?
f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n 2 ? 1 e ? 1 2 x , x > 0 0 , x ≤ 0 f ( x ) = \left\{
定義 如果隨機(jī)變臉
X
i
X_i
Xi? 之 間 相 互 獨(dú) 立 且 服 從
N
(
0
,
1
)
N ( 0 , 1 )
N(0,1) , 分 布 , 則 稱 隨 機(jī) 變 量
χ
2
=
X
1
2
+
X
2
2
+
.
.
.
+
X
n
2
χ^2 = X_1^ 2 + X_ 2^2 + ... + X_n^2
χ2=X12?+X22?+...+Xn2? 服從自由度為
n
n
n 的
χ
2
χ^2
χ2 分 布 記 為
χ
2
~
X
2
(
n
)
χ^2\sim X^2(n)
χ2~X2(n)
貝塔分布(Beta Distribution) 是一個(gè)作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù),在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)學(xué)中有重要應(yīng)用。在概率論中,貝塔分布,也稱
B
Β
B分布,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。
f
(
x
:
α
,
β
)
=
1
B
(
α
,
β
)
x
(
α
?
1
)
(
1
?
x
)
(
β
?
1
)
f(x:α ,β)=\frac{1}{B(α ,β)}x^{(α-1)}(1-x)^{(β-1)}
f(x:α,β)=B(α,β)1?x(α?1)(1?x)(β?1)
其中
Γ
(
z
)
Γ(z)
Γ(z) 是
Γ
Γ
Γ函數(shù)。隨機(jī)變量
X
X
X服從參數(shù)為
(
α
,
β
)
(α ,β)
(α,β) 的
B
Β
B分布通常寫作
X
~
B
e
B
(
α
,
β
)
X \sim BeB(α ,β)
X~BeB(α,β)
冪律分布是指某個(gè)具有分布性質(zhì)的變量,且其分布密度函數(shù)是冪函數(shù)(由于分布密度函數(shù)必然滿足“歸一律”,所以這里的冪函數(shù),一般規(guī)定小于負(fù)1)的分布。
冪律分布表現(xiàn)為一條斜率為冪指數(shù)的負(fù)數(shù)的直線,這一線性關(guān)系是判斷給定的實(shí)例中隨機(jī)變量是否滿足冪律的依據(jù)。
假設(shè)變量x服從參數(shù)為 的冪律分布,則其概率密度函數(shù)可以表示為:
f
(
x
)
=
c
x
?
α
?
1
,
x
→
∞
f(x)=cx^{-α-1}, x→∞
f(x)=cx?α?1,x→∞
Zipf定律與Pareto定律(帕累托定律)
對(duì)“長尾”分布研究做出重要貢獻(xiàn)的是Zipf和Pareto ,雖然他們并不是這種分布的最早發(fā)現(xiàn)者。Zipf定律與Pareto定律都是簡單的冪函數(shù),我們稱之為冪律分布。
回顧本文的開始,冪律分布的長尾現(xiàn)象很普遍,大數(shù)據(jù)中小概率數(shù)據(jù)普遍存在,如何解決呢?
我的方法是把數(shù)據(jù) x 3 \sqrt[3]{x} 3x ?,對(duì)模型的精度結(jié)果影響只有不到千分之一,也就是說數(shù)據(jù)變換縮短尾巴效果有限。另外的方法,是從整體模型上考慮細(xì)分,二八原則中,把20%的分離出來,自頂向下逐步精確。
參考:
【1】視學(xué)算法,數(shù)據(jù)分析必須掌握的概率分布!建議收藏! CSDN博客 ,2019.11
【2】數(shù)據(jù)派THU,深度學(xué)習(xí)必懂的 13 種概率分布(附鏈接) CSDN博客,2020.02
【3】馬同學(xué)圖解數(shù)學(xué), 如何通俗理解泊松分布? CSDN博客,2019.04
【4】劉之帥,機(jī)器學(xué)習(xí)中的“分布” CSDN博客,2020.04
【5】我是8位的,概率統(tǒng)計(jì)14——幾何分布 博客園 ,2020.01
【6】sam-X,正態(tài)和伽馬分布族 CSDN博客,2018.09
【7】娜娜醬,生存法則—正態(tài)分布和冪律分布 知乎,2018.07
聯(lián)系客服