第一時(shí)間獲取價(jià)值內(nèi)容
讀完估計(jì)需要10min
我們借助概率論來(lái)解釋分析機(jī)器學(xué)習(xí)為什么是這樣的,有什么依據(jù),同時(shí)反過(guò)來(lái)借助概率論來(lái)推導(dǎo)出更多機(jī)器學(xué)習(xí)算法。很多人說(shuō)機(jī)器學(xué)習(xí)是老中醫(yī),星座學(xué),最主要的原因是機(jī)器學(xué)習(xí)的很多不可解釋性,我們應(yīng)用概率知識(shí)可以解釋一部分,但還是很多值得我們?nèi)ソ忉尷斫獾臇|西,同時(shí),什么時(shí)候機(jī)器學(xué)習(xí)更多的可解釋了,反過(guò)來(lái),可以用那些理論也可以繼續(xù)為機(jī)器學(xué)習(xí)的,對(duì)人工智能創(chuàng)造推出更多的理論,等到那一天,也許真的能脫離更多的人工智障了。
這是因?yàn)闄C(jī)器學(xué)習(xí)通常必須處理不確定量,有時(shí)也可能需要處理隨機(jī) (非確定性的) 量。不確定性和隨機(jī)性可能來(lái)自多個(gè)方面。總結(jié)如下,
不確定性有三種可能的來(lái)源:
被建模系統(tǒng)內(nèi)在的隨機(jī)性:例如一個(gè)假想的紙牌游戲,在這個(gè)游戲中我們假設(shè)紙牌被真正混洗成了隨機(jī)順序。假如這個(gè)時(shí)候你要對(duì)這個(gè)這個(gè)游戲建模(預(yù)測(cè)抽的牌點(diǎn)數(shù)也好,預(yù)測(cè)怎么玩才會(huì)贏也罷),雖然牌的數(shù)量和所有牌有什么是確定的,但是若我們隨機(jī)抽一張,這個(gè)牌是什么是隨機(jī)的。這個(gè)時(shí)候就要使用概率去建模了。
不完全觀測(cè):例如一個(gè)游戲節(jié)目的參與者被要求在三個(gè)門之間選擇,并且會(huì)贏得放置在選中門后的獎(jiǎng)品。其中兩扇門通向山羊,第三扇門通向一輛汽車。選手的每個(gè)選擇所導(dǎo)致的結(jié)果是確定的,但是站在選手的角度,結(jié)果是不確定的。在機(jī)器學(xué)習(xí)中也是這樣,很多系統(tǒng)在預(yù)測(cè)的時(shí)候,是不確定的,這個(gè)時(shí)候我們就要用一個(gè)”軟度量“即概率去描述它。
不完全建模:假設(shè)我們制作了一個(gè)機(jī)器人,它可以準(zhǔn)確地觀察周圍每一個(gè)對(duì)象的位置。在對(duì)這些對(duì)象將來(lái)的位置進(jìn)行預(yù)測(cè)時(shí),如果機(jī)器人采用的是離散化的空間,那么離散化的方法將使得機(jī)器人無(wú)法確定對(duì)象們的精確位置:因?yàn)槊總€(gè)對(duì)象都可能處于它被觀測(cè)到的離散單元的任何一個(gè)角落。也就是說(shuō),當(dāng)不完全建模時(shí),我們不能明確的確定結(jié)果,這個(gè)時(shí)候的不確定,就需要概率來(lái)補(bǔ)充。
這塊就是告訴我們,概率很重要,機(jī)器學(xué)習(xí)離不開(kāi)它
簡(jiǎn)單的理解的話:
頻率學(xué)派:研究的是事件本身,所以研究者只能反復(fù)試驗(yàn)去逼近它從而得到結(jié)果。比如:想要計(jì)算拋擲一枚硬幣時(shí)正面朝上的概率,我們需要不斷地拋擲硬幣,當(dāng)拋擲次數(shù)趨向無(wú)窮時(shí)正面朝上的頻率即為正面朝上的概率。
貝葉斯學(xué)派:研究的是觀察者對(duì)事物的看法,所以你可以用先驗(yàn)知識(shí)和收集到的信息去描述他,然后用一些證據(jù)去證明它。還是比如拋硬幣,當(dāng)小明知道一枚硬幣是均勻的,然后賦予下一次拋出結(jié)果是正面或反面都是50%的可信度(概率分布),可能是出于認(rèn)為均勻硬幣最常見(jiàn)這種信念,然后比如小明隨機(jī)拋了1000次,發(fā)現(xiàn)結(jié)果正是這樣,那么它就通過(guò)這些證據(jù)驗(yàn)證了自己的先驗(yàn)知識(shí)。(也有存在修改的時(shí)候,比如發(fā)現(xiàn)硬幣的材質(zhì)不一致,總之就是這么一個(gè)過(guò)程)
不是很懂?那我們繼續(xù)舉起”栗子“來(lái):如果一個(gè)醫(yī)生診斷了病人,并說(shuō)該病人患流感的幾率為40%,這就不好辦了,因?yàn)檫@意味著非常不同的事情——我們既不能讓病人有無(wú)窮多的副本,也沒(méi)有任何理由去相信病人的不同副本在具有不同的潛在條件下表現(xiàn)出相同的癥狀。若我們用概率來(lái)表示一種信任度,其中1表示非??隙ú∪嘶加辛鞲?,而0表示非??隙ú∪藳](méi)有流感。這樣醫(yī)生也就變的好辦了。然后前面那種概率,直接與事件發(fā)生的頻率相聯(lián)系,被稱為頻率派概率;而后者,涉及到確定性水平,被稱為貝葉斯概率。(當(dāng)然,這知識(shí)舉例,不是說(shuō)貝葉斯學(xué)派優(yōu)于概率學(xué)派)
來(lái)個(gè)比喻:概率學(xué)派像唯物主義,世間事物不會(huì)以你的意識(shí)的轉(zhuǎn)移而轉(zhuǎn)變,概率就是事物客觀的存在的現(xiàn)象。
貝葉斯學(xué)派就是我思故我在,同一個(gè)事件,對(duì)于觀察者來(lái)說(shuō),他若知道,那就是確定性事件,如果不知道,就是隨機(jī)事件,鬼知道它到底存不存在。
總的來(lái)說(shuō),兩個(gè)學(xué)派站的角度不一樣,貝葉斯概率論為人的知識(shí)(knowledge)建模來(lái)定義概率這個(gè)概念。頻率學(xué)派試圖描述的是事物本體,而貝葉斯學(xué)派試圖描述的是觀察者知識(shí)狀態(tài)在新的觀測(cè)發(fā)生后如何更新,描述的是觀察這的對(duì)事物看法。
上面就是科普一樣,我們有概率學(xué)派和貝葉斯學(xué)派,有興趣可以了解一下!
隨機(jī)變量:隨機(jī)變量可以隨機(jī)地取不同值的變量。我們通常用小寫(xiě)字母來(lái)表示隨機(jī)變量本身,而用帶數(shù)字下標(biāo)的小寫(xiě)字母來(lái)表示隨機(jī)變量能夠取到的值。例如,
都是隨機(jī)變量X可能的取值。對(duì)于向量值變量,我們會(huì)將隨機(jī)變量寫(xiě)成 X ,它的一個(gè)值為
。就其本身而言,一個(gè)隨機(jī)變量只是對(duì)可能的狀態(tài)的描述;它必須伴隨著一個(gè)概率分布來(lái)指定每個(gè)狀態(tài)的可能性。隨機(jī)變量可以是離散的或者連續(xù)的。離散隨機(jī)變量擁有有限或者可數(shù)無(wú)限多的狀態(tài)。注意這些狀態(tài)不一定非要是整數(shù);它們也可能只是一些被命名的狀態(tài)而沒(méi)有數(shù)值。連續(xù)隨機(jī)變量伴隨著實(shí)數(shù)值。注意:下面很多在知識(shí)點(diǎn)都會(huì)分離散和連續(xù)的分別講述,但其實(shí)原理類似。
當(dāng)隨機(jī)變量是離散的,我們稱是離散型隨機(jī)變量,如果是連續(xù)的,我們會(huì)說(shuō)是連續(xù)型隨機(jī)變量。
舉例:比如,一次擲20個(gè)硬幣,k個(gè)硬幣正面朝上,k是隨機(jī)變量,k的取值只能是自然數(shù)0,1,2,…,20,而不能取小數(shù)3.5、無(wú)理數(shù)√20,因而k是離散型隨機(jī)變量。
公共汽車每15分鐘一班,某人在站臺(tái)等車時(shí)間x是個(gè)隨機(jī)變量,x的取值范圍是[0,15),它是一個(gè)區(qū)間,從理論上說(shuō)在這個(gè)區(qū)間內(nèi)可取任一實(shí)數(shù)3.5、√20等,因而稱這隨機(jī)變量是連續(xù)型隨機(jī)變量。
概率分布:給定某隨機(jī)變量的取值范圍,概率分布就是導(dǎo)致該隨機(jī)事件出現(xiàn)的可能性。而從機(jī)器學(xué)習(xí)的角度來(lái)說(shuō)的話,概率分布就是符合隨機(jī)變量取值范圍的某個(gè)對(duì)象屬于某個(gè)類別或服從某種趨勢(shì)的可能性。
這一節(jié)很重要,重要程度相當(dāng)于學(xué)數(shù)學(xué)時(shí)的1+1=2,簡(jiǎn)單基礎(chǔ)又及其重要。
條件概率:其記號(hào)為P(A|B),表示在給定條件B下A事件發(fā)生的概率。
舉個(gè)“栗子”:P(第二次投硬幣是正面|第一次投硬幣是正面):就是在“第一次投硬幣是正面”時(shí)“第二次投硬幣是正面”的概率。不過(guò),既然舉了這個(gè)例子,那么就順帶問(wèn)一下:你以為P(第二次投硬幣是正面|第一次投硬幣是正面)的結(jié)果是多少呢?1/4?錯(cuò)。答案是1/2,是不是很意外?看完下面的兩種情況你就明白了。
條件概率的兩種情況:
B事件的結(jié)果不會(huì)影響到A事件的發(fā)生。如上面的例子,兩次投幣正面向上的概率不會(huì)相互干擾。所以A事件發(fā)生的概率=A事件單獨(dú)發(fā)生的概率。記為:P(A|B) =P(A)
B事件的結(jié)果會(huì)影響A事件的發(fā)生。如:若頭天下雨,則第二天下雨的可能性會(huì)增大。即:A事件在B事件之后發(fā)生的概率> A事件單獨(dú)發(fā)生的概率。記為:P(A|B)> P(A)
條件概率鏈?zhǔn)椒▌t:
任何多維隨機(jī)變量的聯(lián)合概率分布,都可以分解成只有一個(gè)變量的條件概率相乘的形式:
這個(gè)規(guī)則被稱為概率的鏈?zhǔn)椒▌t或者乘法法則。它可以直接從條件概率的定義中得到。例如,使用兩次定義可以得到
聯(lián)合概率:聯(lián)合概率為兩個(gè)事件同時(shí)發(fā)生的概率。記為:P(A and B)或直接P(AB)
然后,因?yàn)閮蓚€(gè)事件的發(fā)生會(huì)有先后,所以聯(lián)合概率可以進(jìn)一步描述為:“事件A發(fā)生的概率”和“事件A發(fā)生后,事件B發(fā)生的概率”。于是:P(A and B)= P(A)P(B|A)
結(jié)合剛才“條件概率的兩種情況”,可以得出:P(A and B) 根據(jù)不同的情況有如下兩種結(jié)果:
P(A and B) = P(A)P(B) -- A和B的結(jié)果互不影響,即:P(B|A) = P(B)
P(A and B) = P(A)P(B|A) -- 反之
全概率公式:公式表示若事件B1,B2,…,Bn構(gòu)成一個(gè)完備事件組且都有正概率,則對(duì)任意一個(gè)事件A都有公式成立。注意:Bi是兩兩互斥的,如下圖:
舉例:某地盜竊風(fēng)氣盛行,且偷竊者屢教不改。我們根據(jù)過(guò)往的案件記錄,推斷A今晚作案的概率是0.8,B今晚作案的概率是0.1,C今晚作案的概率是0.5,除此之外,還推斷出A的得手率是0.1,B的得手率是1.0,C的得手率是0.5。今晚只有一個(gè)小偷出手,那么,今晚村里有東西被偷的概率是多少?
通過(guò)閱讀上述文字,我們大概對(duì)A、B、C三人有了一個(gè)初步的印象。首先,A的腦子可能有些問(wèn)題,特別喜歡偷,但是技術(shù)相當(dāng)爛。B看來(lái)是個(gè)江湖高手,一般不出手,一出手就絕不失手。C大概是追求中庸,各方面都很普通。
我們將文字描述轉(zhuǎn)換為數(shù)學(xué)語(yǔ)言,根據(jù)作案頻率可知
P(A)=0.8,P(B)=0.1,P(C)=0.5
將“村里有東西被偷”記為S,根據(jù)得手率可以得到
P(S|A)=0.1,P(S|B)=1.0,P(S|C)=0.5
很簡(jiǎn)單,所求得的就是
P(S)=P(A)P(S|A)+P(B)P(S|B)+P(C)P(S|C)=0.43
祝這個(gè)村晚上好運(yùn)吧。
這三個(gè)公式是基礎(chǔ)公式,像條件概率,在深度學(xué)習(xí)中很多conditional的做法,就是條件概率嘛,然后全概率,下面的貝葉斯公式和全概率息息相關(guān),重要的很!
未完待續(xù)!
聯(lián)系客服