貝葉斯 - 《貝葉斯統(tǒng)計(jì)》筆記
2017年04月21日 17:13:28
閱讀數(shù):5255
茆詩(shī)松《貝葉斯統(tǒng)計(jì)》目前看過(guò)的講貝葉斯方法最通俗易懂的書了下載了在這里
? 統(tǒng)計(jì)學(xué)的兩個(gè)主要學(xué)派:頻率學(xué)派,貝葉斯學(xué)派
? 統(tǒng)計(jì)推斷的三種信息:
1)總體信息:總體分布,總體所屬分布族提供的信息。
2)樣本信息:從總體抽樣的樣本提供的信息。通過(guò)對(duì)樣本的加工處理對(duì)總體特征進(jìn)行估計(jì)。
----------------------- 基于以上兩種信息的統(tǒng)計(jì)推斷為“經(jīng)典統(tǒng)計(jì)學(xué)”。
----------------------- 基本觀點(diǎn):把數(shù)據(jù)(樣本)看做總體(具有一定概率分布的總體)
3)先驗(yàn)信息:抽樣之前有關(guān)統(tǒng)計(jì)問(wèn)題的一些信息。來(lái)源于經(jīng)驗(yàn)和歷史資料。
----------------------- 基于以上三種信息的統(tǒng)計(jì)推斷為“貝葉斯統(tǒng)計(jì)學(xué)”
? 貝葉斯統(tǒng)計(jì)重視已經(jīng)發(fā)生的樣本觀察值。
? 貝葉斯學(xué)派基本觀點(diǎn):任一未知量θ,都具有不確定性,可以看做一個(gè)隨機(jī)變量,可以用一個(gè)概率分布來(lái)描述(概率分布適合描述不確定性)。這個(gè)概率分布就是θ的先驗(yàn)(Prior)分布(抽樣前已知的描述)
如:極有可能是40歲左右。
分析:“極有可能”表示90%的把握?!白笥摇笨衫斫鉃樯舷缕?span lang="EN-US">3歲。
假設(shè)年齡為未知變量θ,那么對(duì)這段話的概率分布描述如下
其一、對(duì)于未知變量θ可以談?wù)撈涓怕?,?span lang="EN-US">P(37≤θ≤43)=0.9(貝葉斯學(xué)派把未知變量看做是隨機(jī)變量,可以討論起概率)
而在經(jīng)典統(tǒng)計(jì)學(xué)認(rèn)為未知變量雖然其具體值未知,但是是確定的,因此對(duì)于經(jīng)典統(tǒng)計(jì)學(xué),P(37≤θ≤43)=1或0(事件發(fā)生或不發(fā)生),而不能P(37≤θ≤43)=0.9
其二、這個(gè)“極有可能是40歲左右”的概率分布是根據(jù)經(jīng)驗(yàn)推斷得到的,而不是根據(jù)樣本數(shù)據(jù)得到的。在貝葉斯統(tǒng)計(jì)中稱為先驗(yàn)概率(主觀概率)
而頻率學(xué)派中不存在主觀的推斷,只存在從樣本數(shù)據(jù)統(tǒng)計(jì)得來(lái)的客觀頻率。
(貝葉斯學(xué)派:使用主觀概率將概率統(tǒng)計(jì)的研究推廣到不能大量的重復(fù)隨機(jī)中來(lái))
對(duì)于誤用主觀概率的情況,Berger(1995)給出的建議是:
1、進(jìn)行教育;2、分開列出,以便后人評(píng)判。
? 事件形式
? 隨機(jī)變量的密度函數(shù):
經(jīng)典統(tǒng)計(jì)中記為p(x; θ)或pθ(x),表示在參數(shù)空間Θ={θ}中不同的θ對(duì)應(yīng)著不同的分布
貝葉斯統(tǒng)計(jì)中記為p(x|θ),表示隨機(jī)變量θ給定某個(gè)值是,x的條件分布。
? 先驗(yàn)分布π(θ),貝葉斯學(xué)派研究重點(diǎn)
? 貝葉斯觀點(diǎn)的樣本x=(x1,…,xn)產(chǎn)生:
step1、根據(jù)先驗(yàn)分布π(θ)產(chǎn)生樣本θ’,這一步是老天爺做的,人們看不到。
(這是樣本產(chǎn)生的假設(shè),假設(shè)樣本θ’是根據(jù)先驗(yàn)分布π(θ)產(chǎn)生的)
step2、從總體分布p(x|θ’)產(chǎn)生一個(gè)樣本x=(x1,…,xn),這個(gè)是人產(chǎn)生的具體樣本。
得到這個(gè)樣本的概率由如下概率密度函數(shù)描述
(似然函數(shù))
這個(gè)概率密度函數(shù)綜合了“總體信息”和“樣本信息” => 被稱為“似然函數(shù)”L(θ’)
step3、由于樣本θ’的產(chǎn)生是在先驗(yàn)概率π(θ)的假設(shè)基礎(chǔ)上的,因此不能只考慮θ’一個(gè)值,而要考慮全部可能值(概率分布,也就是π(θ)),因此得到樣本x和參數(shù)θ的聯(lián)合概率分布h(x|θ)=p(x|θ) π(θ) (綜合了三種信息)
? 目標(biāo):對(duì)未知參數(shù)θ進(jìn)行統(tǒng)計(jì)推斷(估計(jì))
沒有樣本x之前,只能根據(jù)假設(shè)(先驗(yàn)分布π(θ))進(jìn)行推斷
得到樣本x之后,可依據(jù)h(x, θ)進(jìn)行推斷。因此,h(x, θ)可以分解為兩部分:與θ有關(guān)的π(θ|x)和與θ無(wú)關(guān)的m(x)。也就是h(x|θ)= π(θ|x)m(x)。
m(x)為x的邊緣概率密度函數(shù),與θ無(wú)關(guān)(不包含任何θ信息)
因此只能由π(θ|x)對(duì)θ作出推斷,π(θ|x)為給定樣本x情況下θ的分布(后驗(yàn)分布:集中了總體、樣本、先驗(yàn)三種信息,排除了無(wú)關(guān)信息后得到的)
? 概率密度函數(shù)形式
θ為連續(xù)隨機(jī)變量
θ為離散隨機(jī)變量
? 后驗(yàn)分布π(θ|x):三種信息的綜合,利用總體信息+樣本信息(綜合稱為抽樣信息)對(duì)先驗(yàn)分布π(θ)作出調(diào)整得到。
? 貝葉斯假設(shè):在對(duì)事件A沒有了解的情況下,假設(shè)先驗(yàn)分布為(0,1)上的均勻分布U(0,1),(沒一點(diǎn)機(jī)會(huì)均等,沒有偏愛)。
? 實(shí)例1:后驗(yàn)概率估計(jì)
Step1、先驗(yàn)概率:對(duì)事件A沒有了解,根據(jù)貝葉斯假設(shè),其先驗(yàn)概率為均勻分布U(0,1)
Step2、似然函數(shù):n次獨(dú)立觀察,事件A出現(xiàn)次數(shù)為X,顯然獨(dú)立重復(fù)試驗(yàn)中A服從二項(xiàng)分布b(n,θ),(假設(shè)事件A出現(xiàn)的概率為θ,π(A)=θ)
Step3、聯(lián)合概率分布h(x|θ)=p(x|θ) π(θ)
Step4、邊緣概率:將聯(lián)合概率分布對(duì)θ積分求出x的邊緣概率m(x)
Step5、后驗(yàn)概率
? 實(shí)例2、后驗(yàn)概率估計(jì)(驗(yàn)證決策的真實(shí)可信度)
? 實(shí)例3、樣本x對(duì)先驗(yàn)π(A)的影響
? 定義:設(shè)θ是總體分布的參數(shù),π(θ)是θ的先驗(yàn)密度函數(shù)。假如后驗(yàn)密度函數(shù)π(θ|x)與先驗(yàn)密度函數(shù)π(θ)有相同的函數(shù)形式,那么π(θ)為θ的共軛先驗(yàn)函數(shù)。
? 共軛先驗(yàn)分布指對(duì)某一分布中的參數(shù)而言(如正態(tài)分布的均值,正態(tài)分布的方差,泊松分布的方差),離開參數(shù)及其所在分布談是沒有意義的。
? 后驗(yàn)分布計(jì)算:π(θ|x)= p(x|θ) π(θ)/ m(x),由于m(x)與θ無(wú)關(guān),僅是一個(gè)正則化因子(常數(shù)),
則貝葉斯公式等價(jià)于π(θ|x)∝p(x|θ) π(θ)
? 超參數(shù):先驗(yàn)分布中位置的參數(shù)
? 一般共軛先驗(yàn)分布(有信息先驗(yàn)分布)含有超參數(shù),無(wú)信息先驗(yàn)分布不含超參數(shù)。
? 定義:設(shè)x=(x1,…,xn)是來(lái)自分布函數(shù)F(x|θ)的一個(gè)樣本,T=T(x)是其統(tǒng)計(jì)量,假如在給定T(x)=t的條件下,x的條件分布于θ無(wú)關(guān),則T為θ的充分統(tǒng)計(jì)量。
? 驗(yàn)證:判別充分條件:(經(jīng)典統(tǒng)計(jì))因子分解定理;(貝葉斯統(tǒng)計(jì))
? 未知參數(shù)θ的后驗(yàn)分布π(θ|x)包含了總體、樣本、先驗(yàn)三種信息(所有可利用信息)。統(tǒng)計(jì)推斷(點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)等)都是從這個(gè)后驗(yàn)分布中提取信息,來(lái)完成推斷的。
? 條件觀點(diǎn):只考慮已出現(xiàn)的數(shù)據(jù)(樣本觀察值),而認(rèn)為未出現(xiàn)的數(shù)據(jù)與推斷無(wú)關(guān)。
? 條件方法:基于條件觀點(diǎn)進(jìn)行統(tǒng)計(jì)推斷。
? 舉例:貝葉斯推斷不考慮無(wú)偏性。
? 貝葉斯估計(jì):
目的:估計(jì)總體分布p(x|θ)的參數(shù)θ。
方法:
Step1、抽取樣本x=(x1,…,xn)
Step2、選擇先驗(yàn)分布π(θ)
Step3、計(jì)算后驗(yàn)分布π(θ|x)
Step4、選用后驗(yàn)分布的某個(gè)位置特征量(眾數(shù)、中位數(shù)、期望值)作為參數(shù)θ的估計(jì)值
? 最大后驗(yàn)估計(jì)θMD:選取后驗(yàn)分布π(θ|x)的最大值
后驗(yàn)中位數(shù)估計(jì)θMe:選取后驗(yàn)分布π(θ|x)的中位數(shù)
后驗(yàn)期望估計(jì)θR:選取后驗(yàn)分布π(θ|x)的期望值
? 對(duì)于先驗(yàn)分布為二項(xiàng)分布((0,1)上的均勻分布U(0,1))的θ來(lái)說(shuō),就是經(jīng)典統(tǒng)計(jì)中的極大似然估計(jì)。
? 貝葉斯估計(jì)誤差
在樣本給定后,貝葉斯估計(jì)θ~就是一個(gè)數(shù)值,按照后驗(yàn)分布π(θ|x)取值的=>因此采用θ對(duì)θ~的后驗(yàn)均方差((θ-θ~)^2的期望)來(lái)度量估計(jì)誤差
(θ~的后驗(yàn)均方差)
其中Eθ|x表示用條件分布π(θ|x)求期望。
? 當(dāng)θ~等于后驗(yàn)均值時(shí),θ~的后驗(yàn)均方差最小,因此常取后驗(yàn)均值作為貝葉斯估計(jì)。
? θ~的后驗(yàn)均方差值依賴于樣本,不依賴于θ,樣本給定之后就是數(shù)值,可以立即應(yīng)用。
? 后驗(yàn)均方差與后驗(yàn)方差的關(guān)系MSE(θ~|x)=Var(θ|x)+( θ~E-θ~)^2,θ~E=E(θ|x)為后期望
? 定義
? 在條件方法下,給定樣本x和可信水平1-α通過(guò)后驗(yàn)分布可求得可行區(qū)間。
如θ的可信水平為0.9的可信區(qū)間為[1.5,2.6],那么P(1.5≤θ≤2.6|x)=0.9(θ屬于這個(gè)區(qū)間的概率是0.9)
這在經(jīng)典統(tǒng)計(jì)中的置信區(qū)間是不允許的,要么在,要么不在。
? 貝葉斯假設(shè)檢驗(yàn)
Step1、建立原假設(shè)H0,被擇假設(shè)H1
(Θ0和Θ1是參數(shù)空間Θ中的兩個(gè)不相交非空子集)
Step2、獲得后驗(yàn)分布概率π(θ|x),計(jì)算H0和H1的后驗(yàn)概率
Step3、計(jì)算后驗(yàn)概率比
α0/α1 >1:接收H0
α0/α1 <1:接收H1
α0/α1 ~= 1:不做判決,需要進(jìn)一步抽樣或收集先驗(yàn)信息
? 貝葉斯因子:依賴于數(shù)據(jù)x和先驗(yàn)分布π
? 含義:對(duì)隨機(jī)變量未來(lái)的觀察值的統(tǒng)計(jì)推斷。
? 設(shè)隨機(jī)變量X ~ p(x|θ),根據(jù)有無(wú)觀察值x分為兩種情況
? 無(wú)觀察值:利用先驗(yàn)分布π(θ)獲得數(shù)據(jù)x的分布,即“邊緣分布”,或“先驗(yàn)預(yù)測(cè)分布”
對(duì)過(guò)去數(shù)據(jù)沒有要求,使用m(x)的某個(gè)特征值(期望、中位數(shù)、眾數(shù)等)作為x的預(yù)測(cè)值
或使用預(yù)測(cè)區(qū)間pm(a≤X≤b)=0.9(pm表示使用分布m(x)來(lái)計(jì)算概率)
? 有觀察值:x=(x1,…,xn),利用后驗(yàn)分布π(θ|x)獲得未知觀察值的分布。預(yù)測(cè)總體g(z|θ)
m(z|x)稱為“后驗(yàn)預(yù)測(cè)分布”
? 似然函數(shù):
樣本x=(x1,…,xn)是來(lái)自密度函數(shù)p(x|θ)的一個(gè)樣本,則其乘積為
? 當(dāng)參數(shù)θ給定時(shí),p(x|θ)是樣本x的聯(lián)系概率密度函數(shù)
? 當(dāng)觀測(cè)值x給定時(shí),p(x|θ)是未知參數(shù)θ的似然函數(shù)L(θ)
? 似然函數(shù)是θ的函數(shù),樣本x指示一組數(shù)據(jù)。所有與θ有關(guān)的信息都包含在L(θ)中。
? θ使L(θ)越大,則這個(gè)θ越接近于真實(shí)值。
? 極大似然估計(jì):在參數(shù)空間Θ中找到θ使L(θ)取到最大值–> 這個(gè)值最接近于真實(shí)值
? 貝葉斯統(tǒng)計(jì)中:使用歷史資料和經(jīng)驗(yàn)確定先驗(yàn)分布式一個(gè)重要的研究問(wèn)題。
? 貝葉斯學(xué)派認(rèn)為:一個(gè)事件的概率是人們根據(jù)經(jīng)驗(yàn)對(duì)該時(shí)間發(fā)生可能性給出的信念 -- 主觀概率
頻率學(xué)派認(rèn)為:一個(gè)事件的概率必須得到頻率解釋 – 客觀概率
? 主觀概率必須滿足三條公理
? 直方圖法
? 選定先驗(yàn)密度函數(shù)再估計(jì)超參數(shù)
? 定分度法、變分度法
3.3 利用邊緣概率m(x)確定先驗(yàn)密度請(qǐng)求2
? 貝葉斯假設(shè):無(wú)信息分布用均勻分布做先驗(yàn)。參數(shù)空間中任何值概率均等,沒有偏愛。
? 當(dāng)先驗(yàn)分布的超參數(shù)難以確定是,可以對(duì)超參數(shù)再給出一個(gè)先驗(yàn)(超先驗(yàn));由先驗(yàn)和超先驗(yàn)決定的新的先驗(yàn)就是多層先驗(yàn)。
? 決策過(guò)程分為兩部分:
(1) 把決策敘述清楚
(2) 如何決策使收益最大
? 狀態(tài)集Θ={θ}。其中每個(gè)元素θ表示一種可能的狀態(tài),所有可能狀態(tài)組成狀態(tài)集。
行動(dòng)集A={a}。其中每個(gè)元素a表示一種可能的行動(dòng),有可能行動(dòng)組成行動(dòng)集。
收益函數(shù)Q(θ,a).在狀態(tài)θ,行動(dòng)a情況下的收益大小。
? 做決策:在當(dāng)前狀態(tài)θ下,從行動(dòng)集中選取行動(dòng)a,使收益Q最大。
? 剔除不必要行動(dòng):若在狀態(tài)集Θ上,處處有Q(θ,a1)≥Q(θ,a2),那么a2沒必要存在(a2行動(dòng)不允許)。
? 悲觀準(zhǔn)則:保守準(zhǔn)則,在最不利的狀態(tài)下能夠爭(zhēng)取較多的利益
Step1、對(duì)每個(gè)行動(dòng)選取最小收益。
Step2、在選出的最小收益中選出最大值 –> 采用這個(gè)最大值所對(duì)應(yīng)的行動(dòng)
? 樂(lè)觀準(zhǔn)則:冒險(xiǎn)準(zhǔn)則,在最有利的狀態(tài)下能夠爭(zhēng)取最多的利益
Step1、對(duì)每個(gè)行動(dòng)選取最大收益。
Step2、在選出的最大收益中選出最大值 –> 采用這個(gè)最大值所對(duì)應(yīng)的行動(dòng)
? 折中準(zhǔn)則:赫維斯(Hurwicz)準(zhǔn)則
Step1、選取樂(lè)觀系數(shù)a∈[0,1],表示決策者的樂(lè)觀程度,越接近于1越樂(lè)觀。
Step2、計(jì)算每個(gè)行動(dòng)a的評(píng)價(jià)函數(shù)H(a)
:行動(dòng)a的最大收益
:行動(dòng)a的最小收益
Step3、選取最優(yōu)行動(dòng)a0
? 含義:該賺的錢沒賺到。本應(yīng)該采取行動(dòng)a1收益A1,然而采取了a2收益為-A2,那么損失為A1+A
? 定義:狀態(tài)集Θ,行動(dòng)集A,損失函數(shù)L(θ,a)
? 悲觀準(zhǔn)則:保守策略,最小化損失
Step1、選取每個(gè)行動(dòng)的最大損失值
Step2、從最大損失值中選出最小值 .
? 先驗(yàn)期望準(zhǔn)則:
? 含義:度量收益和損失效果的函數(shù),比如顯示問(wèn)題中的貨幣,這個(gè)函數(shù)衡量了一個(gè)單位的收益或損失對(duì)應(yīng)的正真價(jià)值。
? 效用測(cè)定:馮·諾依曼的“新效應(yīng)理論”
? 可供決策使用的兩種信息:
先驗(yàn)信息:人們?cè)谶^(guò)去對(duì)各種狀態(tài)發(fā)生可能性的認(rèn)識(shí)。
抽樣信息(實(shí)驗(yàn)信息):將狀態(tài)θ放到環(huán)境中觀察實(shí)驗(yàn)(抽樣),從獲得的樣本中得到狀態(tài)θ的最新信息。
? 三種決策和兩類信息的關(guān)系(●使用,?不使用)
5.2 后驗(yàn)風(fēng)險(xiǎn)準(zhǔn)則
? 后驗(yàn)風(fēng)險(xiǎn):用后驗(yàn)分布計(jì)算損失函數(shù)的期望(在后驗(yàn)分布下的平均損失),記為R(a|x)=Eθ|x[L(θ,a)]
在給定樣本x下,不同的行動(dòng)a帶來(lái)不同的后驗(yàn)風(fēng)險(xiǎn)
在確定的行動(dòng)a下,不同的樣本x帶來(lái)不同的后驗(yàn)風(fēng)險(xiǎn)。
? 決策函數(shù):從樣本空間X到行動(dòng)集A的映射函數(shù)δ(x),所有映射構(gòu)成決策函數(shù)類D={δ(x)}
? 后驗(yàn)風(fēng)險(xiǎn)準(zhǔn)則:決策函數(shù)δ(x)的后驗(yàn)風(fēng)險(xiǎn)R(δ|x)=Eθ|x[L(θ, δ(x))]
? 貝葉斯決策函數(shù):在決策函數(shù)類D={δ(x)}中具有最小后驗(yàn)風(fēng)險(xiǎn)的決策函數(shù)δ’(x)為最優(yōu)決策函數(shù) (貝葉斯估計(jì))
三個(gè)前提:
(1)樣本空間的聯(lián)合概率密度函數(shù)p(x|θ)
(2)參數(shù)空間Θ的先驗(yàn)分布π(θ)
(3)定義在Θ*A上的損失函數(shù)L(θ,a)
? 為了消除收集抽樣信息的麻煩
? 完全信息:決策者掌握的信息能夠肯定狀態(tài)即將發(fā)生,該信息稱為完全信息。
? 完全信息先驗(yàn)期望:a’為先驗(yàn)期望準(zhǔn)則下的最優(yōu)行動(dòng),那么在a’下的損失函數(shù)的先驗(yàn)期望EVPI=EθL(θ,a’)為完全信息先驗(yàn)期望(記為 “先驗(yàn)EVPI”)(表示決策者能夠掌握完全信時(shí)的期望損失)。
? 完全信息的后驗(yàn)期望:后驗(yàn)EVPI= Eθ|xL(θ, δ’(x))。
? 后驗(yàn)EVPI只有在給定樣本x時(shí)才能計(jì)算。在抽樣還沒有發(fā)生(沒有獲得樣本x)時(shí),后驗(yàn)EVPI仍然是一個(gè)隨機(jī)變量。
后驗(yàn)EVPI期望= Ex (Eθ|xL(θ, δ’(x)))
? 一般來(lái)說(shuō),抽樣值(樣本x)的獲得會(huì)掌握更多信息,后驗(yàn)EVPI期望將減小 -> 這個(gè)減小的量就是抽樣信息期望EVSI(樣本帶來(lái)的信息量的期望)
EVSI=先驗(yàn)EVPI-后驗(yàn)EVPI期望 (EVSI= EθL(θ,a’) - Ex (Eθ|xL(θ, δ’(x))))
聯(lián)系客服