選自 Medium & analyticsvidhya
機(jī)器之心編譯
機(jī)器之心編輯部
本文從最基礎(chǔ)的概率論到各種概率分布全面梳理了基本的概率知識(shí)與概念,這些概念可能會(huì)幫助我們了解機(jī)器學(xué)習(xí)或開拓視野。這些概念是數(shù)據(jù)科學(xué)的核心,并經(jīng)常出現(xiàn)在各種各樣的話題上。重溫基礎(chǔ)知識(shí)總是有益的,這樣我們就能發(fā)現(xiàn)以前并未理解的新知識(shí)。
簡(jiǎn)介
在本系列文章中,我想探討一些統(tǒng)計(jì)學(xué)上的入門概念,這些概念可能會(huì)幫助我們了解機(jī)器學(xué)習(xí)或開拓視野。這些概念是數(shù)據(jù)科學(xué)的核心,并經(jīng)常出現(xiàn)在各種各樣的話題上。重溫基礎(chǔ)知識(shí)總是有益的,這樣我們就能發(fā)現(xiàn)以前并未理解的新知識(shí),所以我們開始吧。
第一部分將會(huì)介紹概率論基礎(chǔ)知識(shí)。
概率
我們已經(jīng)擁有十分強(qiáng)大的數(shù)學(xué)工具了,為什么我們還需要學(xué)習(xí)概率論?我們用微積分來處理變化無限小的函數(shù),并計(jì)算它們的變化。我們使用代數(shù)來解方程,我們還有其他幾十個(gè)數(shù)學(xué)領(lǐng)域來幫助我們解決幾乎任何一種可以想到的難題。
難點(diǎn)在于我們都生活在一個(gè)混亂的世界中,多數(shù)情況下無法準(zhǔn)確地測(cè)量事物。當(dāng)我們研究真實(shí)世界的過程時(shí),我們想了解許多影響實(shí)驗(yàn)結(jié)果的隨機(jī)事件。不確定性無處不在,我們必須馴服它以滿足我們的需要。只有如此,概率論和統(tǒng)計(jì)學(xué)才會(huì)發(fā)揮作用。
如今,這些學(xué)科處于人工智能,粒子物理學(xué),社會(huì)科學(xué),生物信息學(xué)以及日常生活中的中心。
如果我們要談?wù)摻y(tǒng)計(jì)學(xué),最好先確定什么是概率。其實(shí),這個(gè)問題沒有絕對(duì)的答案。我們接下來將闡述概率論的各種觀點(diǎn)。
頻率
想象一下,我們有一枚硬幣,想驗(yàn)證投擲后正反面朝上頻率是否相同。我們?nèi)绾谓鉀Q這一問題?我們?cè)囍M(jìn)行一些實(shí)驗(yàn),如果硬幣正面向上記錄 1,如果反面向上記錄 0。重復(fù)投擲 1000 次并記錄 0 和 1 的次數(shù)。在我們進(jìn)行了一些繁瑣的時(shí)間實(shí)驗(yàn)后,我們得到了這些結(jié)果:600 個(gè)正面(1)和 400 反面(0)。如果我們計(jì)算過去正面和反面的頻率,我們將分別得到 60%和 40%。這些頻率可以被解釋為硬幣出現(xiàn)正面或者反面的概率。這被稱為頻率化的概率。
條件概率
通常,我們想知道某些事件發(fā)生時(shí)其它事件也發(fā)生的概率。我們將事件 B 發(fā)生時(shí)事件 A 也發(fā)生的條件概率寫為 P(A | B)。以下雨為例:
打雷時(shí)下雨的概率有多大?
晴天時(shí)下雨的概率有多大?
從這個(gè)歐拉圖,我們可以看到 P(Rain | Thunder)= 1 :當(dāng)我們看到雷聲時(shí),總會(huì)下雨(當(dāng)然,這不完全正確,但是我們?cè)谶@個(gè)例子中保證它成立)。
P(Rain | Sunny)是多少呢?直覺上這個(gè)概率很小,但是我們?cè)鯓硬拍茉跀?shù)學(xué)上做出這個(gè)準(zhǔn)確的計(jì)算呢?條件概率定義為:
換句話說,我們用 Rain 且 Sunny 的概率除以 Sunny 的概率。
相依事件與獨(dú)立事件
如果一個(gè)事件的概率不以任何方式影響另一個(gè)事件,則該事件被稱為獨(dú)立事件。以擲骰子且連續(xù)兩次擲得 2 的概率為例。這些事件是獨(dú)立的。我們可以這樣表述
但是為什么這個(gè)公式可行?首先,我們將第一次投擲和第二次投擲的事件重命名為 A 和 B,以消除語(yǔ)義影響,然后將我們看到的兩次投擲的的聯(lián)合概率明確地重寫為兩次投擲的單獨(dú)概率乘積:
現(xiàn)在用 P(A)乘以 P(B)(沒有變化,可以取消)并重新回顧條件概率的定義:
如果我們從右到左閱讀上式,我們會(huì)發(fā)現(xiàn) P(A | B) = P(A)。這就意味著事件 A 獨(dú)立于事件 B!P(B)也是一樣,獨(dú)立事件的解釋就是這樣。
貝葉斯概率論
貝葉斯可以作為一種理解概率的替代方法。頻率統(tǒng)計(jì)方法假設(shè)存在我們正在尋找的模型參數(shù)的一個(gè)最佳的具體組合。另一方面,貝葉斯以概率方式處理參數(shù),并將其視為隨機(jī)變量。在貝葉斯統(tǒng)計(jì)中,每個(gè)參數(shù)都有自己的概率分布,它告訴我們給已有數(shù)據(jù)的參數(shù)有多種可能。數(shù)學(xué)上可以寫成
這一切都從一個(gè)允許我們基于先驗(yàn)知識(shí)來計(jì)算條件概率的簡(jiǎn)單的定理開始:
盡管貝葉斯定理很簡(jiǎn)單,但它具有巨大的價(jià)值,廣泛的應(yīng)用領(lǐng)域,甚至是貝葉斯統(tǒng)計(jì)學(xué)的特殊分支。有一個(gè)關(guān)于貝葉斯定理的非常棒的博客文章,如果你對(duì)貝葉斯的推導(dǎo)感興趣---這并不難。
抽樣與統(tǒng)計(jì)
假設(shè)我們正在研究人類的身高分布,并渴望發(fā)表一篇令人興奮的科學(xué)論文。我們測(cè)量了街上一些陌生人的身高,因此我們的測(cè)量數(shù)據(jù)是獨(dú)立的。我們從真實(shí)人群中隨機(jī)選擇數(shù)據(jù)子集的過程稱為抽樣。統(tǒng)計(jì)是用來總結(jié)采樣值數(shù)據(jù)規(guī)律的函數(shù)。你可能見過的統(tǒng)計(jì)量是樣本均值:
另一個(gè)例子是樣本方差:
這個(gè)公式可以得出所有數(shù)據(jù)點(diǎn)偏離平均值的程度。
分布
什么是概率分布?這是一個(gè)定律,它以數(shù)學(xué)函數(shù)的形式告訴我們?cè)谝恍?shí)驗(yàn)中不同可能結(jié)果的概率。對(duì)于每個(gè)函數(shù),分布可能有一些參數(shù)來調(diào)整其行為。
當(dāng)我們計(jì)算硬幣投擲事件的相對(duì)頻率時(shí),我們實(shí)際上計(jì)算了一個(gè)所謂經(jīng)驗(yàn)概率分布。事實(shí)證明,世界上許多不確定的過程可以用概率分布來表述。例如,我們的硬幣結(jié)果是一個(gè)伯努利分布,如果我們想計(jì)算一個(gè) n 次試驗(yàn)后硬幣正面向上的概率,我們可以使用二項(xiàng)式分布。
引入一個(gè)類似于概率環(huán)境中的變量的概念會(huì)方便很多--隨機(jī)變量。每個(gè)隨機(jī)變量都具有一定的分布。隨機(jī)變量默認(rèn)用大寫字母表示,我們可以使用 ~ 符號(hào)指定一個(gè)分布賦給一個(gè)變量。
上式表示隨機(jī)變量 X 服從成功率(正面向上)為 0.6 的伯努利分布。
連續(xù)和離散概率分布
概率分布可分為兩種:離散分布用于處理具有有限值的隨機(jī)變量,如投擲硬幣和伯努利分布的情形。離散分布是由所謂的概率質(zhì)量函數(shù)(PMF)定義的,連續(xù)分布用于處理連續(xù)的(理論上)有無限數(shù)量的值的隨機(jī)變量。想想用聲音傳感器測(cè)量的速度和加速度。連續(xù)分布是由概率密度函數(shù)(PDF)定義的。
這兩種分布類型在數(shù)學(xué)處理上有所不同:通常連續(xù)分布使用積分 ∫ 而離散分布使用求和Σ。以期望值為例:
下面我們將詳細(xì)介紹各種常見的概率分布類型,正如上所說,概率分布可以分為離散型隨機(jī)變量分布和連續(xù)性隨機(jī)變量分布。離散型隨機(jī)變量分布常見的有伯努利分布(Bernoulli Distribution)、二項(xiàng)分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常見的連續(xù)型隨機(jī)變量分布包括均勻分布(Uniform Distribution)、指數(shù)分布(Exponential Distribution)、正態(tài)分布等。
常見的數(shù)據(jù)類型
在解釋各種分布之前,我們先看看常見的數(shù)據(jù)類型有哪些,數(shù)據(jù)類型可分為離散型和連續(xù)型。
離散型數(shù)據(jù):數(shù)據(jù)只能取特定的值,比如,當(dāng)你擲一個(gè)骰子的時(shí)候,可能的結(jié)果只有 1,2,3,4,5,6 而不會(huì)是 1.5 或者 2.45。
連續(xù)型數(shù)據(jù):數(shù)據(jù)可以在給定的范圍內(nèi)取任何值,給定的范圍可以是有限的或無限的,比如一個(gè)女孩的體重或者身高,或者道路的長(zhǎng)度。一個(gè)女孩的體重可以是 54 kgs,54.5 kgs,或 54.5436kgs。
分布的類型
伯努利分布
最簡(jiǎn)單的離散型隨機(jī)變量分布是伯努利分布,我們從這里開始討論。
一個(gè)伯努利分布只有兩個(gè)可能的結(jié)果,記作 1(成功)和 0(失?。?,只有單次伯努利試驗(yàn)。設(shè)定一個(gè)具有伯努利分布的隨機(jī)變量 X,取值為 1 即成功的概率為 p,取值為 0 即失敗的概率為 q 或者 1-p。
若隨機(jī)變量 X 服從伯努利分布,則概率函數(shù)為:
成功和失敗的概率不一定要相等。比如當(dāng)我和一個(gè)運(yùn)動(dòng)員打架的時(shí)候,他的勝算應(yīng)該更大,在這時(shí)候,我的成功概率是 0.15,而失敗概率是 0.85。
下圖展示了我們的戰(zhàn)斗的伯努利分布。
如上圖所示,我的成功概率=0.15,失敗概率=0.85。期望值是指一個(gè)概率分布的平均值,對(duì)于隨機(jī)變量 X,對(duì)應(yīng)的期望值為:E(X) = 1*p + 0*(1-p) = p,而方差為 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)
實(shí)際上還有很多關(guān)于伯努利分布的例子,比如明天是晴天還是雨天,這場(chǎng)比賽中某一隊(duì)輸還是贏,等等。
二項(xiàng)分布
現(xiàn)在回到擲硬幣的案例中,當(dāng)擲完第一次,我們可以再擲一次,也就是存在多個(gè)伯努利試驗(yàn)。第一次為正不代表以后也會(huì)為正。那么設(shè)一個(gè)隨機(jī)變量 X,它表示我們投擲為正面的次數(shù)。X 可能會(huì)取什么值呢?在投擲硬幣的總次數(shù)范圍內(nèi)可以是任何非負(fù)整數(shù)。
如果存在一組相同的隨機(jī)事件,即一組伯努利試驗(yàn),在上例中為連續(xù)擲硬幣多次。那么某隨機(jī)事件出現(xiàn)的次數(shù)即概率服從于二項(xiàng)分布,也稱為多重伯努利分布。
任何一次試驗(yàn)都是互相獨(dú)立的,前一次試驗(yàn)不會(huì)影響當(dāng)前試驗(yàn)的結(jié)果。兩個(gè)結(jié)果概率相同的試驗(yàn)重復(fù) n 次的試驗(yàn)稱為多次伯努利試驗(yàn)。二項(xiàng)分布的參數(shù)為 n 和 p,n 是試驗(yàn)的總次數(shù),p 是每一次試驗(yàn)的成功概率。
根據(jù)以上所述,一個(gè)二項(xiàng)分布的性質(zhì)為:
1. 每一次試驗(yàn)都是獨(dú)立的;
2. 只有兩個(gè)可能的結(jié)果;
3. 進(jìn)行 n 次相同的試驗(yàn);
4. 所有試驗(yàn)中成功率都是相同的,失敗的概率也是相同的。
二項(xiàng)分布的數(shù)學(xué)表達(dá)式為:
成功概率和失敗概率不相等的二項(xiàng)分布看起來如下圖所示:
而成功概率和失敗概率相等的二項(xiàng)分布看起來如下圖所示:
二項(xiàng)分布的平均值表示為 μ = n*p,而方差可以表示為 Var(X) = n*p*q。
泊松分布
如果你在一個(gè)呼叫中心工作,一天內(nèi)會(huì)接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分布建模。這里有幾個(gè)例子:
1. 一天內(nèi)醫(yī)院接到的緊急呼叫次數(shù);
2. 一天內(nèi)陸方接到的偷竊事件報(bào)告次數(shù);
3. 一小時(shí)內(nèi)光顧沙龍的人數(shù);
4. 一個(gè)特定城市里報(bào)告的自殺人數(shù);
5. 書的每一頁(yè)的印刷錯(cuò)誤次數(shù)。
現(xiàn)在你可以按相同的方式構(gòu)造很多其它的例子。泊松分布適用于事件發(fā)生的時(shí)間和地點(diǎn)隨機(jī)分布的情況,其中我們只對(duì)事件的發(fā)生次數(shù)感興趣。泊松分布的主要特點(diǎn)為如下:
1. 任何一個(gè)成功事件不能影響其它的成功事件;
2. 經(jīng)過短時(shí)間間隔的成功概率必須等于經(jīng)過長(zhǎng)時(shí)間間隔的成功概率;
3. 時(shí)間間隔趨向于無窮小的時(shí)候,一個(gè)時(shí)間間隔內(nèi)的成功概率趨近零。
在泊松分布中定義的符號(hào)有:
λ是事件的發(fā)生率;
t 是事件間隔的長(zhǎng)度;
X 是在一個(gè)時(shí)間間隔內(nèi)的事件發(fā)生次數(shù)。
設(shè) X 是一個(gè)泊松隨機(jī)變量,那么 X 的概率分布稱為泊松分布。以μ表示一個(gè)時(shí)間間隔 t 內(nèi)平均事件發(fā)生的次數(shù),則 μ=λ*t;
X 的概率分布函數(shù)為:
泊松分布的概率分布圖示如下,其中μ為泊松分布的參數(shù):
下圖展示了均值增加時(shí)的分布曲線的變化情況:
如上所示,當(dāng)均值增加時(shí),曲線向右移動(dòng)。泊松分布的均值和方差為:
均值:E(X) = μ
方差: Var(X) = μ
均勻分布
假設(shè)我們?cè)趶?a 到 b 的一段線段上等距地選擇一個(gè)區(qū)間的概率是相等的,那么概率在整個(gè)區(qū)間 [a,b] 上是均勻分布的,概率密度函數(shù)也不會(huì)隨著變量的更改而更改。均勻分布和伯努利分布不同,隨機(jī)變量的取值都是等概率的,因此概率密度就可以表達(dá)為區(qū)間長(zhǎng)度分之一,如果我們?nèi)‰S機(jī)變量一半的可能值,那么其出現(xiàn)的概率就為 1/2。
假定隨機(jī)變量 X 服從均勻分布,那么概率密度函數(shù)為:
均勻分布曲線圖如下所示,其中概率密度曲線下面積為隨機(jī)變量發(fā)生的概率:
我們可以看到均勻分布的概率分布圖呈現(xiàn)為一個(gè)矩形,這也就是均勻分布又稱為矩形分布的原因。在均勻分布中,a 和 b 都為參數(shù),也即隨機(jī)變量的取值范圍。
服從均勻分布的隨機(jī)變量 X 也有均值和方差,它的均值為 E(X) = (a+b)/2,方差為 V(X) = (b-a)^2/12
標(biāo)準(zhǔn)均勻分布的密度函數(shù)參數(shù) a 取值為 0,b 取值為 1,因此標(biāo)準(zhǔn)均勻分布的概率密度可以表示為:
指數(shù)分布
現(xiàn)在我們?cè)俅慰紤]電話中心案例,那么電話間隔的分布是怎么樣的呢?這個(gè)分布可能就是指數(shù)分布,因?yàn)橹笖?shù)分布可以對(duì)電話的時(shí)間間隔進(jìn)行建模。其它案例可能還有地鐵到達(dá)時(shí)間的建模和空調(diào)設(shè)備周期等。
在深度學(xué)習(xí)中,我們經(jīng)常會(huì)需要一個(gè)在 x=0 處取得邊界點(diǎn) (sharp point) 的分布。為了實(shí)現(xiàn)這一目的,我們可以使用指數(shù)分布(exponential distribution):
指數(shù)分布使用指示函數(shù) (indicator function)1x≥0,以使當(dāng) x 取負(fù)值時(shí)的概率為零。
其中 λ >0 為概率密度函數(shù)的參數(shù)。隨機(jī)變量 X 服從于指數(shù)分布,則該變量的均值可表示為 E(X) = 1/λ、方差可以表示為 Var(X) = (1/λ)^2。如下圖所示,若λ較大,則指數(shù)分布的曲線下降地更大,若λ較小,則曲線越平坦。如下圖所示:
以下是由指數(shù)分布函數(shù)推導(dǎo)而出的簡(jiǎn)單表達(dá)式:
P{X≤x} = 1 – exp(-λx),對(duì)應(yīng)小于 x 的密度函數(shù)曲線下面積。
P{X>x} = exp(-λx),代表大于 x 的概率密度函數(shù)曲線下面積。
P{x1
正態(tài)分布(高斯分布)
實(shí)數(shù)上最常用的分布就是正態(tài)分布(normal distribution),也稱為高斯分布(Gaussian distribution)。因?yàn)樵摲植嫉钠毡樾?,尤其是中心極限定理的推廣,一般疊加很多較小的隨機(jī)變量都可以擬合為正態(tài)分布。正態(tài)分布主要有以下幾個(gè)特點(diǎn):
1. 所有的變量服從同一均值、方差和分布模式。
2. 分布曲線為鐘型,并且沿 x=μ對(duì)稱。
3. 曲線下面積的和為 1。
4. 該分布左半邊的精確值等于右半邊。
正態(tài)分布和伯努利分布有很大的不同,然而當(dāng)伯努利試驗(yàn)的次數(shù)接近于無窮大時(shí),他們的分布函數(shù)基本上是相等的。
若隨機(jī)變量 X 服從于正態(tài)分布,那么 X 的概率密度可以表示為:
隨機(jī)變量 X 的均值可表示為 E(X) = μ、方差可以表示為 Var(X) = σ^2。其中均值μ和標(biāo)準(zhǔn)差σ為高斯分布的參數(shù)。
隨機(jī)變量 X 服從于正態(tài)分布 N (μ, σ),可以表示為:
標(biāo)準(zhǔn)正態(tài)分布可以定義為均值為 0、方差為 1 的分布函數(shù),以下展示了標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)和分布圖:
分布之間的關(guān)系
伯努利分布和二項(xiàng)分布的關(guān)系
1. 二項(xiàng)分布是伯努利分布的單次試驗(yàn)的特例,即單詞伯努利試驗(yàn);
2. 二項(xiàng)分布和伯努利分布的每次試驗(yàn)都只有兩個(gè)可能的結(jié)果;
3. 二項(xiàng)分布每次試驗(yàn)都是互相獨(dú)立的,每一次試驗(yàn)都可以看作一個(gè)伯努利分布。
泊松分布和二項(xiàng)分布的關(guān)系
以下條件下,泊松分布是二項(xiàng)分布的極限形式:
1. 試驗(yàn)次數(shù)非常大或者趨近無窮,即 n → ∞;
2. 每次試驗(yàn)的成功概率相同且趨近零,即 p →0;
3.np =λ 是有限值。
正態(tài)分布和二項(xiàng)分布的關(guān)系 & 正態(tài)分布和泊松分布的關(guān)系
以下條件下,正態(tài)分布是二項(xiàng)分布的一種極限形式:
1. 試驗(yàn)次數(shù)非常大或者趨近無窮,即 n → ∞;
2.p 和 q 都不是無窮小。
參數(shù) λ →∞的時(shí)候,正態(tài)分布是泊松分布的極限形式。
指數(shù)分布和泊松分布的關(guān)系
如果隨機(jī)事件的時(shí)間間隔服從參數(shù)為 λ的指數(shù)分布,那么在時(shí)間周期 t 內(nèi)事件發(fā)生的總次數(shù)服從泊松分布,相應(yīng)的參數(shù)為 λt。
測(cè)試
讀者可以完成以下簡(jiǎn)單的測(cè)試,檢查自己對(duì)上述概率分布的理解程度:
1. 服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量計(jì)算公式為:
a. (x+μ) / σ
b. (x-μ) / σ
c. (x-σ) / μ
2. 在伯努利分布中,計(jì)算標(biāo)準(zhǔn)差的公式為:
a. p (1 – p)
b. SQRT(p(p – 1))
c. SQRT(p(1 – p))
3. 對(duì)于正態(tài)分布,均值增大意味著:
a. 曲線向左移
b. 曲線向右移
c. 曲線變平坦
4. 假定電池的生命周期服從 λ = 0.05 指數(shù)分布,那么電池的最終使用壽命在 10 小時(shí)到 15 小時(shí)之間的概率為:
a.0.1341
b.0.1540
c.0.0079
結(jié)語(yǔ)
在本文中,我們從最基本的隨機(jī)事件及其概念出發(fā)討論對(duì)概率的理解。隨后我們討論了最基本的概率計(jì)算方法與概念,比如條件概率和貝葉斯概率等等。文中還討論了隨機(jī)變量的獨(dú)立性和條件獨(dú)立性。此外,本文更是詳細(xì)介紹了概率分布,包括離散型隨機(jī)變量分布和連續(xù)型隨機(jī)變量分布。本文主要討論了基本的概率定理與概念,其實(shí)這些內(nèi)容在我們大學(xué)的概率論與數(shù)理統(tǒng)計(jì)課程中基本上都有詳細(xì)的解釋。而對(duì)于機(jī)器學(xué)習(xí)來說,理解概率和統(tǒng)計(jì)學(xué)知識(shí)對(duì)理解機(jī)器學(xué)習(xí)模型十分重要,以它為基礎(chǔ)我們也能進(jìn)一步理解結(jié)構(gòu)化概率等新概念。
原文鏈接:
https://medium.com/towards-data-science/probabiliy-theory-basics-4ef523ae0820
https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/
本文為機(jī)器之心編譯,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@jiqizhixin.com
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
廣告&商務(wù)合作:bd@jiqizhixin.com
聯(lián)系客服