第一章, 概論
1、 統(tǒng)計(jì)學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行分析的一門學(xué)科(統(tǒng)計(jì)機(jī)器學(xué)習(xí));人工智能:感知、處理、反饋網(wǎng)絡(luò);研究對(duì)象是數(shù)據(jù),研究方法是概率統(tǒng)計(jì)模型;
2、 統(tǒng)計(jì)學(xué)習(xí)關(guān)注的三個(gè)要素:模型、策略、方法;介紹模型選擇,包括正則化、交叉驗(yàn)證、學(xué)習(xí)泛化的能力;介紹生成模型、判別模型;最后介紹監(jiān)督學(xué)習(xí)方法的應(yīng)用:分類、回歸、標(biāo)注;
3、 什么是學(xué)習(xí):如果一個(gè)系統(tǒng)能夠通過執(zhí)行某個(gè)過程改進(jìn)它的性能,這就是學(xué)習(xí);思考:這不是就是反饋嘛,是否可以這樣定義,一個(gè)能夠?qū)ψ陨硎┘臃答佔(zhàn)饔玫倪^程就具有學(xué)習(xí)能力;反饋:反饋的基礎(chǔ)設(shè)施、反饋的處理、效果評(píng)價(jià);數(shù)據(jù)是反饋的內(nèi)容,統(tǒng)計(jì)方法是反饋處理的方法;不穩(wěn)定系統(tǒng)、穩(wěn)定系統(tǒng);因果;線性;時(shí)不變;信號(hào)與系統(tǒng):我們用GPS導(dǎo)航的時(shí)候,感知系統(tǒng)獲取到了反饋信息,并依據(jù)地圖對(duì)當(dāng)前情況進(jìn)行評(píng)價(jià);行為可以被自身感知,并作用于自身的系統(tǒng);你不了這個(gè)人,是因?yàn)槟銦o法感知他的信息,如何感知他的信息呢,只有與他交往才能感知,交往的越深了解的越深;開放系統(tǒng)還是封閉系統(tǒng),你發(fā)了一個(gè)信號(hào)對(duì)方?jīng)]有反饋(信號(hào)沒有價(jià)值被屏蔽);
4、 科學(xué)發(fā)現(xiàn)很多時(shí)候出現(xiàn)在意外,而不是正常:比如田中耕一,為什么會(huì)出錯(cuò)呢,因?yàn)樽龅奶嗔?,黑天鵝事件在科學(xué)研究中也會(huì)出現(xiàn);創(chuàng)新在一個(gè)規(guī)范的系統(tǒng)中很難誕生,而再一個(gè)雜亂的系統(tǒng)中才能誕生的原因;創(chuàng)新系統(tǒng)-制造系統(tǒng)不能同時(shí)出現(xiàn),管理的機(jī)制也不同;學(xué)校是一個(gè)創(chuàng)新的系統(tǒng),鼓勵(lì)自由,而不是規(guī)范化;
5、 思想:一個(gè)封閉系統(tǒng)熵增加:封閉系統(tǒng)不就是沒有反饋/反饋無法被有效處理嘛;人為什么會(huì)死,就是變成了一個(gè)封閉系統(tǒng)了;為什么生病了要吃藥,就是因?yàn)槿诉@個(gè)反饋、處理機(jī)制遇到了異常;細(xì)胞為什么會(huì)分裂成不同的組織?(nature)
6、 統(tǒng)計(jì)學(xué)習(xí)處理的對(duì)象:數(shù)據(jù)是信息記錄的載體,可能只是記錄了一方面;還有很多信息是無法被量化、記錄和處理的;
7、 統(tǒng)計(jì)學(xué)習(xí)的基本假設(shè):(基本假設(shè)就是改理論的局限性),同一類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律,即具有某種相同的性質(zhì);可以用隨機(jī)變量描述數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)統(tǒng)計(jì)規(guī)律;
8、 東西就是某種存在;為什么有些人就會(huì)相互吸引,有些人就會(huì)相互排斥;什么呢?天生就會(huì)有感覺的,我感覺他不喜歡我,但是又說不出原因,不愿意親近。核心問題是啥呢?
9、 統(tǒng)計(jì)學(xué)習(xí)的目的:用于對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè);(一維、多緯),特別是對(duì)未知新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析,對(duì)數(shù)據(jù)的預(yù)測(cè)可以使計(jì)算機(jī)更加智能化?數(shù)據(jù)分為連續(xù)變量、離散變量,本書以討論離散變量的方法為主。對(duì)數(shù)據(jù)觀測(cè)和收集不做討論;
10、 統(tǒng)計(jì)學(xué)習(xí)的方法:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí);本書討論的是監(jiān)督學(xué)習(xí):從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集合出發(fā),假設(shè)數(shù)據(jù)是獨(dú)立同分布產(chǎn)生的,并且假設(shè)要學(xué)習(xí)的模型屬于某個(gè)函數(shù)集合(函數(shù)就是規(guī)律、模型、映射),稱為假設(shè)空間,應(yīng)用某個(gè)評(píng)價(jià)準(zhǔn)則,從假設(shè)空間選取一個(gè)最優(yōu)化模型,使它對(duì)已知訓(xùn)練數(shù)據(jù)及未知測(cè)試數(shù)據(jù)在給定的評(píng)價(jià)準(zhǔn)則下有最優(yōu)的預(yù)測(cè);這里面有個(gè)邏輯問題:1、假定謬誤,你的假定是正確的么,未知數(shù)據(jù)的規(guī)律一定是可以描述的么?2、歸納謬誤:對(duì)未知模型的預(yù)測(cè)是基于一直事實(shí)的歸納,未知數(shù)據(jù)集是無法窮舉的情況下如何驗(yàn)證模型一定是普適的;3、評(píng)價(jià)謬誤:評(píng)價(jià)集的選擇是否客觀的,未知數(shù)據(jù)集的投影;
11、 統(tǒng)計(jì)學(xué)習(xí)研究:統(tǒng)計(jì)學(xué)習(xí)方法、統(tǒng)計(jì)學(xué)習(xí)理論、統(tǒng)計(jì)學(xué)習(xí)應(yīng)用三個(gè)方面。統(tǒng)計(jì)學(xué)習(xí)方法的研究旨在開發(fā)新的學(xué)習(xí)方法;學(xué)習(xí)方法在于開發(fā)新的學(xué)習(xí)方法、理論在與研究方法的有效性效率及基本理論、應(yīng)用考慮實(shí)際應(yīng)用。
12、 統(tǒng)計(jì)學(xué)習(xí)的基本問題;分類、標(biāo)注與回歸問題,應(yīng)用在自然語(yǔ)言處理、信息檢索、文本數(shù)據(jù)挖掘等領(lǐng)域;
13、 自然語(yǔ)言:人類剛出生可以發(fā)出150種聲音,一種語(yǔ)言使用的符號(hào):70多種,還不到一半;文字是語(yǔ)言的載體,聾啞人則用視覺符號(hào)代替了聲音,用觸覺代替了視覺;聲音是對(duì)外據(jù)世界描述、編碼工具;世界是原子組成的,人為什么要吃呢?原子團(tuán)-另外一個(gè)原子團(tuán)-原子團(tuán);
14、 統(tǒng)計(jì)學(xué)習(xí)的重要性:統(tǒng)計(jì)學(xué)習(xí)是處理海量數(shù)據(jù)的有效工具;統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)智能化的有效手段;統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)科學(xué)發(fā)展的重要組成部分;
15、 監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)的任務(wù),是學(xué)習(xí)一個(gè)模型,使得模型可以對(duì)任意給定的輸入,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè);
a) 基本概念:輸入空間(可能的輸入值給定的集合)、特征空間(輸入常用特征值來表征,特征值構(gòu)成的空間,有必要么?輸入空間不是特征空間的超集嘛,是否都可以映射到特征空間,模型是定義在特征空間上的)、輸出空間()
b) 監(jiān)督學(xué)習(xí)中:將輸入和輸出看作是定義在輸入空間與輸出空間上的隨機(jī)變量取值。輸入輸出變量用大寫字母表示,習(xí)慣上輸入變量寫作X,輸出變量寫作Y。輸入輸出變量的取值寫作X,輸出變量的取值寫作y。
c) 監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù):集合中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。訓(xùn)練數(shù)據(jù)由輸入、輸出對(duì)組成,訓(xùn)練通常表示為T={(X,Y),(XY)…}
d) 監(jiān)督學(xué)習(xí)的問題:輸入變量和輸出變量可以是不同類型,如連續(xù)、離散,人們根據(jù)輸入輸出變量的類型,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱:兩者均為連續(xù)變量稱為回歸問題;輸出變量為有限離散變量預(yù)測(cè)問題稱為分類問題;輸入變量與輸出變量均為變量序列,稱為標(biāo)注問題;
e) 聯(lián)合概率分布:監(jiān)督學(xué)習(xí)假設(shè)輸入X和輸出Y遵循聯(lián)合概率分布函數(shù)p(x,y),或者分布密度函數(shù)。學(xué)習(xí)過程中,假設(shè)這個(gè)分布是存在的,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依P(X,Y)獨(dú)立同分布產(chǎn)生的,統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律。X和Y具有聯(lián)合概率分布的假定就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
16、 問題形式化:監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)模型,在用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)。由于這個(gè)過程中需要訓(xùn)練數(shù)據(jù)集,而訓(xùn)練數(shù)據(jù)集往往是人工給出的,所以稱為監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)過程。什么是形式化:就是用數(shù)學(xué)的方式來描述問題;學(xué)習(xí)的目標(biāo)是什么:學(xué)習(xí)的就是一個(gè)聯(lián)合概率分布,假定這個(gè)分布是存在的,這個(gè)就是監(jiān)督學(xué)習(xí);
17、 統(tǒng)計(jì)學(xué)習(xí)三要素:
建立一個(gè)決策函數(shù)模型/概率分布模型,按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型;
a) 模型:統(tǒng)計(jì)學(xué)習(xí)首要考慮的問題是學(xué)習(xí)什么樣的模型。在監(jiān)督學(xué)習(xí)過程中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù);由:決策函數(shù)|概率模型定義;
b) 策略:有了模型的假設(shè)空間,統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型;將預(yù)測(cè)的輸出值與實(shí)際值相比較,度量預(yù)測(cè)錯(cuò)誤的程度。學(xué)習(xí)目標(biāo)就是選擇選擇期望風(fēng)險(xiǎn)最小的模型
i. 損失函數(shù)和風(fēng)險(xiǎn)函數(shù):0-1損失函數(shù);平方損失函數(shù);絕對(duì)損失函數(shù);對(duì)數(shù)損失函數(shù);損失函數(shù)的值越小,模型就越好。學(xué)習(xí)的目標(biāo)是聯(lián)合概率分布,但是風(fēng)險(xiǎn)函數(shù)包括了聯(lián)合概率分布,所以用訓(xùn)練集的聯(lián)合概率分布代替要學(xué)習(xí)的概率分布函數(shù)?
ii. 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型就是最優(yōu)的模型;樣本量足夠大的時(shí)候,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果;在現(xiàn)實(shí)中被廣泛采用:比如—極大似然估計(jì)就是風(fēng)險(xiǎn)最小化的一個(gè)例子;當(dāng)模型是概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就是極大似然估計(jì);這個(gè)要樣本量足夠大,當(dāng)樣本量不夠大的時(shí)候?qū)W習(xí)效果未必好,出現(xiàn)過擬合現(xiàn)象;
iii. 結(jié)構(gòu)風(fēng)險(xiǎn)最小化:為了防止過擬合而提出的策略。結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于正則化。結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)或罰項(xiàng),在假設(shè)空間、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,結(jié)構(gòu)風(fēng)險(xiǎn)的定義如書上公式p9;復(fù)雜度越大的模型懲罰因子越大,模型越簡(jiǎn)單懲罰因子越?。恍枰?jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同事小。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對(duì)訓(xùn)練機(jī)未知測(cè)試數(shù)據(jù)都有較好的預(yù)測(cè)。如:貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì);當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí),結(jié)構(gòu)化風(fēng)險(xiǎn)最小等價(jià)與最大后驗(yàn)概率估計(jì);
iv. 總結(jié):策略核心就是要找到使得模型經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化、結(jié)構(gòu)風(fēng)險(xiǎn)最小化的方案;對(duì)于模型是條件概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)、模型復(fù)雜度模型由模型的先驗(yàn)概率表示時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)、結(jié)構(gòu)風(fēng)險(xiǎn)可以用極大似然估計(jì)、最大后驗(yàn)概率估計(jì)來表示;
c) 算法:是具體的計(jì)算方法,統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后考慮最優(yōu)模型的計(jì)算方法;統(tǒng)計(jì)學(xué)習(xí)問題歸結(jié)為最優(yōu)化問題,如果最優(yōu)化問題有顯式解析解,這個(gè)最優(yōu)化問題比較簡(jiǎn)單,如果解析解不存在,需要用數(shù)值計(jì)算的方法求解,如果保證找到全局最優(yōu)解,使得求解的過程非常高效成為一個(gè)重要的問題。
d) 模型評(píng)估與選擇:當(dāng)損失函數(shù)給定時(shí),可以定義出訓(xùn)練誤差和測(cè)試誤差,兩者之間的一致性是判斷算法優(yōu)劣的標(biāo)準(zhǔn);
e) 過擬合與模型選擇
i. 當(dāng)假設(shè)空間含有不同復(fù)雜度的模型時(shí),面臨模型選擇問題;如果假設(shè)空間存在真的模型,那么選擇的模型應(yīng)該是逼近真模型:逼近指模型參數(shù)個(gè)數(shù)與真模型相同,參數(shù)向量與真模型相近
ii. 如果一味追求提高訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選的模型有可能復(fù)雜度高于真實(shí)模型,稱為過擬合;指學(xué)習(xí)時(shí)模型選擇參數(shù)過多,以至于出現(xiàn)這一模型對(duì)已知數(shù)據(jù)結(jié)果很好,但是對(duì)未知數(shù)據(jù)預(yù)測(cè)很差;模型選擇避免過擬合,并提高預(yù)測(cè)能力。預(yù)測(cè)股價(jià)變動(dòng)模型:哪些因素呢?多了就是過擬合;反之就是欠擬合,復(fù)雜度低于真實(shí)模型,對(duì)既有模型的擬合度不高;
iii. 正則化與交叉驗(yàn)證:正則化:結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng),正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜正則化值越大。正則化項(xiàng)可以是模型參數(shù)向量的范數(shù);正則化項(xiàng)可以取不同的形式,如回歸問題,損失函數(shù)是平方損失;正則化,符合奧卡姆剃刀原則:能夠很好的解釋已知數(shù)據(jù)并十分簡(jiǎn)單的才是好模型。從貝葉斯估計(jì)的角度看,正則化項(xiàng)對(duì)應(yīng)于模型的先驗(yàn)概率,可以假設(shè)復(fù)雜模型有較小的先驗(yàn)概率,簡(jiǎn)單模型有較大的先驗(yàn)概率。思考:(防止過擬合就是在經(jīng)驗(yàn)?zāi)P蜕霞由险齽t化項(xiàng),對(duì)于復(fù)雜結(jié)構(gòu)改項(xiàng)目就大,概率小,簡(jiǎn)單結(jié)構(gòu)該項(xiàng)小,概率大);
iv. 交叉驗(yàn)證:另一種常用的模型評(píng)價(jià)方法是交叉驗(yàn)證:如果給定的樣本數(shù)據(jù)足夠充分,進(jìn)行模型選擇的一種簡(jiǎn)單方式是隨機(jī)將數(shù)據(jù)集切分為三部分,分別為訓(xùn)練集、測(cè)試集、驗(yàn)證集;用于各自的目的;在學(xué)習(xí)到的不同復(fù)雜度的模型中,選擇對(duì)驗(yàn)證集有最小預(yù)測(cè)誤差的模型。1、簡(jiǎn)單驗(yàn)證交叉:2、S折交叉驗(yàn)證:將S集合分為S個(gè),隨機(jī)用S-1個(gè)訓(xùn)練,剩余的進(jìn)行驗(yàn)證,重復(fù)該過程選擇誤差最小的;留一交叉驗(yàn)證:上一個(gè)方法的特殊情況稱為留一,適用于數(shù)據(jù)缺乏的情況下;
f) 泛化能力:
i. 泛化誤差:指預(yù)測(cè)未來的能力;往往通過研究泛化誤差的上界進(jìn)行,上界是樣本容量的函數(shù),樣本容量增加,泛化上屆趨于0;假設(shè)空間的容量越大,模型越難學(xué),泛化誤差上界越大;
18、 生成模型與判別模型;
a) 監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型,應(yīng)用這個(gè)模型,對(duì)給定的輸入預(yù)測(cè)響應(yīng)的輸出,這個(gè)模型的一般形式為決策函數(shù)/概率分布;
b) 生成方法:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后求出條件概率分布作為預(yù)測(cè)模型;P(Y|X)=P(x,y)/P(x);因?yàn)槟P捅硎窘o定了輸入X產(chǎn)生輸出Y的生成關(guān)系。典型的方法包括:樸素貝葉斯法和隱馬爾科夫模型;
c) 判別方法:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)fx或者條件概率分布P(Y|X)作為預(yù)測(cè)模型,關(guān)心對(duì)給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y。典型的判別模型包括K近鄰、感知機(jī)、決策樹、邏輯斯遞歸、最大熵、支持向量機(jī)、提升方法和條件歲場(chǎng);
d) 兩者比較:生成方法可以還原出聯(lián)合概率分布P(x,y),而判別方法則不能,因?yàn)樗侵苯痈鶕?jù)數(shù)據(jù)求出P(Y|X);生成方法的收斂速度更快,當(dāng)樣本容量增加,學(xué)到的模型可以更快的收斂于真實(shí)模型;當(dāng)存在隱變量時(shí),仍可用生成方法學(xué)習(xí),此時(shí)判別方法就不能用;
19、 分類問題
a) 分類問題:監(jiān)督學(xué)習(xí)的一個(gè)核心問題,當(dāng)輸出變量Y取有限個(gè)離散值的時(shí)候,預(yù)測(cè)問題便成為分類問題。輸入變量可以是連續(xù)的也可以是離散的,監(jiān)督學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)一個(gè)分類模型或分類決策函數(shù),稱為分類器,分類器對(duì)新的輸入進(jìn)行輸出的預(yù)測(cè)稱為分類,能輸出的類稱為類;輸出的分類為多類分類;分類問題包括學(xué)習(xí)、分類兩個(gè)過程
b) 分類器性能評(píng)價(jià)的:精確率、召回率;
c) 分類的應(yīng)用:已知類型,將輸入進(jìn)行歸類:如文本類型歸類,經(jīng)濟(jì)、政治、體育等等;輸入文本的特征向量,輸出是文本的類別;每一個(gè)單詞是一個(gè)特征;根據(jù)單次屬性的集合判斷文本的屬性;
20、 標(biāo)注問題:
a) 標(biāo)注是一個(gè)監(jiān)督學(xué)習(xí)的問題??梢哉J(rèn)為標(biāo)準(zhǔn)問題是分類問題的一個(gè)推廣,優(yōu)勢(shì)更復(fù)雜的結(jié)構(gòu)預(yù)測(cè)問題的簡(jiǎn)單形式。標(biāo)注問題的輸入是一個(gè)觀測(cè)序列,輸出的是一個(gè)標(biāo)記序列或者狀態(tài)序列。標(biāo)注問題的目標(biāo)在于學(xué)習(xí)一個(gè)模型,使它能夠?qū)τ^測(cè)學(xué)列給出標(biāo)記序列作為預(yù)測(cè)。可能的標(biāo)記個(gè)數(shù)是有限的,其組合所成的標(biāo)記序列的個(gè)數(shù)指數(shù)增長(zhǎng)的,背包問題、商旅問題等等;標(biāo)注問題包括:學(xué)習(xí)和標(biāo)注兩個(gè)過程,首先給定一個(gè)訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)系統(tǒng)基于訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)模型,表示為條件概率分布;以這個(gè)學(xué)習(xí)到的概率分布模型來預(yù)測(cè)新的輸入的概率;
b) 標(biāo)注模型的指標(biāo)和分類模型一樣,準(zhǔn)確率、精確率和召回率來定義;
c) 常用的統(tǒng)計(jì)學(xué)習(xí)方法:隱馬爾可夫模型、條件隨機(jī)場(chǎng)
d) 標(biāo)注問題在信息抽取、自然預(yù)研處理等領(lǐng)域被廣泛應(yīng)用,是這些領(lǐng)域的基本問題;自然語(yǔ)言中的詞性標(biāo)注,給定一個(gè)單詞序列預(yù)測(cè)其對(duì)應(yīng)的詞性標(biāo)注序列
21、 回歸問題
a) 是監(jiān)督學(xué)習(xí)的另一個(gè)重要的問題,用于預(yù)測(cè)輸入變量和輸出變量之間的關(guān)系,特別當(dāng)輸入變量的值發(fā)生變化時(shí),輸出變量的值隨之發(fā)生的變化?;貧w模型正式表示從輸入變量到輸出變量之間映射的函數(shù);回歸問題的學(xué)習(xí)等價(jià)于函數(shù)擬合:選擇一條函數(shù)曲線使其很好的擬合已知數(shù)據(jù)且很好地預(yù)測(cè)未知數(shù)據(jù);包括學(xué)習(xí)、預(yù)測(cè)過程;給定一個(gè)訓(xùn)練集,
b) 回歸問題按照輸入變量個(gè)數(shù),分為一元回歸和多元回歸;按照輸入變量和輸出變量之間關(guān)系的類型即模型的類型,線性回歸和非線性回歸;回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù),回歸問題可以由最著名的最小二乘法求解;確定了損失函數(shù),擬合問題轉(zhuǎn)化為對(duì)殘差平法和的最優(yōu)化問題;
c) 許多領(lǐng)域的問題都可以形式化為回歸問題;市場(chǎng)趨勢(shì)預(yù)測(cè),產(chǎn)品質(zhì)量管理,客戶滿意度調(diào)查,投資風(fēng)險(xiǎn)分析工具。股價(jià)信息預(yù)測(cè):目標(biāo)是從過去的數(shù)據(jù)學(xué)習(xí)一個(gè)模型,使它可以基于當(dāng)前信息預(yù)測(cè)該公司下一個(gè)時(shí)間節(jié)點(diǎn)的股票價(jià)格
第二章, 感知機(jī)(1957)
1、模型:分類問題:二分類、線性分類模型
2、策略:找到一個(gè)超平面,將訓(xùn)練數(shù)據(jù)進(jìn)行線性劃分為正負(fù)兩類的分類超平面,屬于判別問題;定義損失函數(shù),并將損失函數(shù)極小化;找到這個(gè)損失函數(shù),思想就是求出誤分類點(diǎn)到平面的距離之和最小;
3、算法:感知機(jī)問題轉(zhuǎn)化為求解損失函數(shù)最優(yōu)化的問題,最優(yōu)化的方法是梯度下降法。算法是誤分類點(diǎn)驅(qū)動(dòng)的,更新參數(shù)w=w+ayixi b=b+ayi 0<a<1,為步長(zhǎng);yi(wxi+b)<0,說明分類錯(cuò)誤,更新參數(shù);
4、有界性證明;誤分類次數(shù)是有上界的,經(jīng)過有限次搜所可以找到將訓(xùn)練數(shù)據(jù)完全正確分開的分離超平面,如果訓(xùn)練集可分,感知機(jī)學(xué)習(xí)算法原始形式迭代是收斂的。感知機(jī)學(xué)習(xí)算法存在許多解,依賴于迭代過程中參數(shù)的選擇順序,為了得到唯一超平面,需要對(duì)分離超平面增加約束條件,這就是支持向量機(jī)的想法,當(dāng)訓(xùn)練集不可分時(shí),感知機(jī)算法不收斂。迭代結(jié)果會(huì)發(fā)生震蕩;
5、對(duì)偶形式:見書34頁(yè),略;
6、擴(kuò)展:口袋算法、表決感知機(jī)、帶邊緣感知機(jī);
第三章, K近鄰
1、 k近鄰算法是一種基本的分類與回歸方法;K近鄰的輸入為實(shí)例的特征向量,對(duì)應(yīng)于空間的點(diǎn),輸出為實(shí)例的類別,可以取多類.
2、 模型:分類/回歸,對(duì)應(yīng)于特征空間的劃分;
3、 策略:假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集,其中的實(shí)例類別已定,分類時(shí),對(duì)新的實(shí)例,根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過多數(shù)表決等方式進(jìn)行預(yù)測(cè);不具有顯示的學(xué)習(xí)過程,就是沒有一個(gè)優(yōu)化調(diào)整的過程,與感知機(jī)有區(qū)別;實(shí)際上利用訓(xùn)練數(shù)據(jù)集對(duì)特征空間進(jìn)行劃分,并作為其分類模型。K值的選擇、距離度量、分類決策規(guī)則是它的三個(gè)基本要素;
4、 距離度量:特征空間中兩個(gè)實(shí)例點(diǎn)的距離是兩個(gè)實(shí)例點(diǎn)相似程度的反映,K近鄰模型的特征空間一般是n緯實(shí)數(shù)向量空間Rn,使用距離是歐式距離,也可以是其他距離。不同的距離結(jié)果不同;
5、 K值的選擇:k是領(lǐng)域的范圍,K值越小近似誤差越小,但是估計(jì)誤差會(huì)增大,噪聲影響較大;K值越大近似誤差越大,估計(jì)誤差越小,抗噪能力增強(qiáng);在應(yīng)用中,一般選取一個(gè)較小的數(shù)值,用交叉驗(yàn)證的方法選取最優(yōu)的值;
6、 分類決策規(guī)則:通常是多數(shù)表決方法,由輸入實(shí)例的k個(gè)近鄰的多數(shù)類決定輸入的實(shí)例;
7、 算法:k近鄰算法的核心是考慮對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行快速近鄰搜索,這點(diǎn)在特征空間的維數(shù)大及訓(xùn)練數(shù)據(jù)容量大時(shí)尤其必要;最簡(jiǎn)單的辦法是蠻力法,線性掃描計(jì)算每一個(gè)實(shí)例的距離;更快的方法用kd樹來提高檢索的效率(二叉樹);找到所在區(qū)域的葉子節(jié)點(diǎn),遞歸回到父節(jié)點(diǎn)比較是否存在區(qū)域的交集,如果不存在就不用繼續(xù)找了,如果存在比較父節(jié)點(diǎn)中子節(jié)點(diǎn)的距離,如果是小就更新最小距離,繼續(xù)回溯;平均算法度復(fù)雜度logn,適用于實(shí)例數(shù)遠(yuǎn)大于緯度數(shù);
第四章, 樸素貝葉斯法
1、 樸素貝葉斯法是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類方法;對(duì)于給定的訓(xùn)練集,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布;然后基于此模型,對(duì)給定的輸入x,利用貝葉斯定理求出后驗(yàn)概率最大的輸出y。實(shí)現(xiàn)簡(jiǎn)單,學(xué)習(xí)和預(yù)測(cè)效率都很高;
2、 將分類問題轉(zhuǎn)化為后驗(yàn)概率最大問題的,等價(jià)于期望風(fēng)險(xiǎn)最小化;
3、 算法:貝葉斯公式,生成后驗(yàn)概率;已知先驗(yàn)概率分布(樣本集給出),條件概率分布;
P(x,y)=p(x).p(y|x),適用于X,Y是有限值,樣本分布已知;特殊情況:概率有可能出現(xiàn)0的情況,用貝葉斯估計(jì)修正極大似然估計(jì);
第五章, 決策樹
1、 基本的分類與回歸方法;基于特征對(duì)對(duì)實(shí)例的分類方法;
2、 表示基于特征對(duì)實(shí)例空間與類空間上的條件概率分布;學(xué)習(xí)時(shí),利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化原則建立決策樹模型,預(yù)測(cè)時(shí),對(duì)新的數(shù)據(jù)利用決策模型進(jìn)行分類。包括三個(gè)步驟:特征選擇、決策樹生成和決策樹修剪;ID5算法和C4.5算法;
3、 決策樹:樹形結(jié)構(gòu),兩類節(jié)點(diǎn),葉子節(jié)點(diǎn)表示一個(gè)類,內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性;決策樹對(duì)應(yīng)的路徑或規(guī)則集合有一個(gè)重要的特征:互斥、完備;每一個(gè)實(shí)例都被一條路徑或者規(guī)則覆蓋,而且只被一條規(guī)則或路徑覆蓋;
4、 決策樹與條件概率分布:決策樹是基于特征的概率分布,當(dāng)某個(gè)單元條件概率>0.5,認(rèn)為這個(gè)單元屬于正類;
5、 決策樹學(xué)習(xí):學(xué)習(xí)的目標(biāo)是依據(jù)給定的訓(xùn)練集建立一個(gè)決策樹模型;歸納出一組分類規(guī)則;困難:符合要求的決策樹可能有多個(gè),也可能一個(gè)都沒有;要找到一個(gè)與訓(xùn)練數(shù)據(jù)矛盾較小的樹,同時(shí)有很好的泛化能力;
6、 決策樹學(xué)習(xí)損失函數(shù)表示這一目標(biāo);損失函數(shù)是正則化的極大似然函數(shù);確定損失函數(shù)后,決策樹選擇最優(yōu)問題;從所有決策樹中選擇最優(yōu)是NP完全問題;采用啟發(fā)式方法求解這一最優(yōu)化問題;孫正義給出了30道題目,讓管理層回答,能夠全部回答與他自己答案完全相同的寥寥無幾,一致的概率是非常小的。軟銀的成功是不可復(fù)制的的;為什么成功是不可復(fù)制的,應(yīng)為成功取決于一系列決策,這個(gè)決策可能是成百、上千個(gè),每個(gè)決策下面有N個(gè)選擇,不可能用模型去量化每一個(gè)決策。讓你做阿里巴巴一樣做不成,所以成功是小概率事件;求解這類問題,我們有兩種方式,1、蠻力法,窮舉試錯(cuò);2、動(dòng)態(tài)規(guī)劃的方法,選擇局部最優(yōu)的方式逼近全局最優(yōu);3、迭代改進(jìn)的方法,給定一個(gè)可行解,不斷優(yōu)化系統(tǒng)參數(shù);
7、 決策樹生成方法:對(duì)待分集合不斷選擇最優(yōu)的劃分方法;特征選擇是決策樹最核心的問題;
8、 特征選擇問題:如果利用一個(gè)特征進(jìn)行分類的結(jié)果與隨機(jī)分裂的結(jié)果沒有很大差距,稱為沒有分類能力;通常選擇特征的準(zhǔn)則是信息增益、或者信息增益比;
a) 信息熵:表示隨機(jī)變量不確定性的度量;H=-PLOGP;熵只依賴于X的分布,而與X的取值無關(guān),所以也可以將X的熵記作H(x);單位是比特或者nat;熵越大,隨機(jī)變量的不確定度越大;
b) 條件熵:就是H(Y|X),X就是約束,在X約束下Y的不確定度,如果X,Y相互獨(dú)立,在X給定條件下Y的條件概率的分布的熵的數(shù)學(xué)期望;當(dāng)熵和條件熵中的概率有數(shù)據(jù)估計(jì)得到時(shí),所對(duì)應(yīng)的熵與條件熵分別稱為經(jīng)驗(yàn)熵和經(jīng)驗(yàn)條件熵;
c) 信息增益:信息增益表示得知特征的X的信息而使得類Y的信息bud確定度減少的程度;即在X已知的情況下Y的熵變化;G(D,A)=H(D)-H(D|A)
d) 互信息(信息增益):一般的,熵與條件熵的差稱為互信息,決策樹學(xué)習(xí)中的信息增益等價(jià)于訓(xùn)練數(shù)據(jù)集中類與特征的互信息;
e) 信息增益選擇法則:對(duì)訓(xùn)練數(shù)據(jù)集D,計(jì)算每個(gè)特征的信息增益,選擇最大的特征。
f) 使用信息增益熵作為劃分訓(xùn)練數(shù)據(jù)集的特征,存在偏向取值較多的特征的問題,為解決這個(gè)問題,可以對(duì)其矯正,采用信息增益比來進(jìn)行。G(D,A)=G(D,A)/H(D),將信息增益比率化,可以消除數(shù)量的影響;
9、 決策樹生成ID3、C4.5
a) ID3算法的核心是在決策樹各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸的構(gòu)建決策樹;D,A,E(閾值,E過小容易導(dǎo)致過擬合)
b) C4.5與ID3算法相同,選用信息比來進(jìn)行選擇;
10、 決策樹的剪枝:
a) 決策樹的局限性就是泛化,對(duì)于未知數(shù)據(jù)的劃分是否準(zhǔn)確;常常出現(xiàn)過擬合;原因是經(jīng)驗(yàn)誤差+結(jié)構(gòu)誤差,因?yàn)榻Y(jié)構(gòu)誤差過大,而導(dǎo)致模型過擬合現(xiàn)象;
b) 減少?gòu)?fù)雜度的方法:剪枝;原理:依據(jù)最小化損失函數(shù)來剪枝,損失函數(shù)用經(jīng)驗(yàn)熵來表示;
c) 決策樹生成只考慮了通過提高信息增益對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行更好的擬合,而決策剪枝則考慮到減少樹的復(fù)雜度;決策樹生成學(xué)習(xí)局部的模型,而決策樹剪枝學(xué)習(xí)整體的模型;剪枝的結(jié)果是熵增加,不確定度增加,選擇的原則就是找到哪些剪掉了以后還使得樹的熵增加的分支或者節(jié)點(diǎn)消去;損失函數(shù)本質(zhì)是無序程度+復(fù)雜度;為什么在生成之前不能應(yīng)用,因?yàn)闊o法看到整體;就是在已知整體的情況下優(yōu)化局部;裁員的原理:裁撤某些人以后對(duì)組織沒有影響,那就裁掉;(我應(yīng)該是第一個(gè)被裁撤的么?)
d) 決策樹的剪枝算法可以用動(dòng)態(tài)規(guī)劃的算法實(shí)現(xiàn);
e) CART算法:分類與回歸樹;包括特征選擇、樹生成、剪枝;在給定輸入隨機(jī)變量條件下輸出隨機(jī)變量Y的條件概率分布;
i. 回歸樹:將集合遞歸的劃分為若干個(gè)子集,構(gòu)成一個(gè)二叉樹,每一個(gè)劃分要求兩個(gè)集合均方誤差之和最小;最小二乘法;
ii. 分類樹形成:
11、 決策樹本質(zhì)上來講是一個(gè)集合劃分問題,即將一個(gè)S集合劃分為N個(gè)不相交的子集;是一個(gè)組合策略,所以是NP完全問題;
第六章, 邏輯斯諦回歸與最大熵模型
1、 模型:是統(tǒng)計(jì)學(xué)中的經(jīng)典分類方法,最大熵是概率模型學(xué)習(xí)的一個(gè)準(zhǔn)確,屬于對(duì)數(shù)線性模型;
2、 策略:X是連續(xù)隨機(jī)變量,X服從邏輯斯第分布具有指數(shù)分布函數(shù)和密度;類似階躍函數(shù)和沖擊函數(shù);階躍函數(shù)不連續(xù),無法求導(dǎo);(所以選擇logistic函數(shù)來模擬)
3、 二項(xiàng)式邏輯斯諦回歸模型:輸入的對(duì)數(shù)幾率是輸入X的線性函數(shù),或者說輸出y=1的對(duì)數(shù)機(jī)率是由輸入x的線性函數(shù)表示的模型。
4、 邏輯應(yīng)該是這樣的:二分類問題---》如果輸入可以被分成兩類,是不是可以用一個(gè)logistic函數(shù)來模擬概率分布,如果嚴(yán)格可分的,那就是一個(gè)階躍函數(shù),但是不是嚴(yán)格可分的情況下,連續(xù)曲線;猜想了一個(gè)分布函數(shù),來模擬階躍函數(shù);
a) 模型參數(shù)估計(jì):
5、 最大熵模型
a) 學(xué)習(xí)概率模型中,所有可能的概率模型中,熵最大的模型是最好的模型;最大熵原理是統(tǒng)計(jì)學(xué)的一般原理;也可以表述為在滿足約束條件下的模型集合中選取熵最大的模型;
b) 熵:信息的不確定性,0<h(p)<logx,熵和對(duì)象的信息有關(guān);當(dāng)且僅當(dāng)X是均勻分布的時(shí)候,右邊的等號(hào)成立,當(dāng)X服從均勻分布的時(shí)候,熵最大;在沒有更多信息的情況下,不確定的部分都是等可能的;當(dāng)隨機(jī)變量服從均勻分布的時(shí)候,熵最大;
c) 最大熵原理認(rèn)為:要選擇的概率模型首先必須滿足已有的事實(shí),即約束條件,在沒有更多信息的時(shí)候,哪些不確定性的部分都是等可能的,最大熵原理通過熵的最大化來表示等可能性。P(A)+P(B)+P(C)+P(D)+P(E)=1,滿足這個(gè)約束的概率分布有無窮多個(gè),如果沒有任何其他信息,仍要對(duì)這個(gè)概率分布進(jìn)行估計(jì),一個(gè)辦法就是認(rèn)為這個(gè)分布中取值的各個(gè)概率都是相等的。也體現(xiàn)了對(duì)系統(tǒng)的無知;你可以測(cè)試一個(gè)人對(duì)某個(gè)點(diǎn)的掌握程度,讓他說出概率有多大,如果說50-50,那就說明他對(duì)這個(gè)事情一無所知;一旦加上約束,比如P(A)+P(B)=3/10,那響應(yīng)的部分的概率會(huì)更加清晰了;以上模型的算法就是滿足了最大熵原理;
d) 最大熵模型:就是對(duì)輸入輸出模型應(yīng)用最大熵原理,求的概率分布P(X|Y);
e) 特征函數(shù)關(guān)于經(jīng)驗(yàn)分布的期望值(平均值),
f) 最大熵模型:H(P)=-P(X)P(Y|X))LOGP(Y|X), 滿足約束集為C定義在條件概率分布P(X|Y)上的條件熵;最大熵模型就是求解他的過程;
g) 最大熵模型又稱作為對(duì)數(shù)線性模型;
6、 模型的最優(yōu)化算法:
a) 邏輯斯特回歸和最大熵歸結(jié)為以似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題,通常通過迭代算法求解;目標(biāo)函數(shù)具有很好的性質(zhì),是光滑的凸函數(shù),能保證找到全局最優(yōu)解;
b) 最大熵模型的算法優(yōu)化沒有看懂需要沉下來好好看;
第七章, 支持向量機(jī)
支持向量機(jī)是一種二分分類模型,基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知機(jī),支持向量機(jī)包括核技巧,使它稱為實(shí)質(zhì)上的非線性分類器;學(xué)習(xí)策略就是間隔最大化,形式化為一個(gè)求解凸二次規(guī)劃的問題,等價(jià)于正則化的合頁(yè)損失函數(shù)的最小化問題;算法:求解凸二次規(guī)劃的最優(yōu)化算法;
1、 線性可分支持向量機(jī)與硬間隔最大化
考慮一個(gè)二分分類問題,假設(shè)輸入空間與特征空間為兩個(gè)不同空間,輸入空間為歐式空間或離散集合,輸出空間為歐式空間、希爾伯特空間;線支持向量機(jī)和線性支持向量機(jī)建設(shè)這兩個(gè)空間的元素一一對(duì)應(yīng),并將輸入空間中的輸入映射為特征空間中的特征向量;
一個(gè)輸入對(duì)應(yīng)特征空間的特征向量;
a) ( 歐幾里得空間,希爾伯特空間,巴拿赫空間或者是拓?fù)淇臻g都屬于函數(shù)空間。函數(shù)空間 = 元素 + 規(guī)則 ,即一個(gè)函數(shù)空間由 元素 與 元素所滿足的規(guī)則 定義,而要明白這些函數(shù)空間的定義首先得從距離,范數(shù),內(nèi)積,完備性等基本概念說起。
https://blog.csdn.net/lulu950817/article/details/80424288);
b) 非線性支持向量機(jī)利用一個(gè)從輸入空間到特征空間的非線性映射將輸入映射為特征向量,所以輸入都由輸入空間轉(zhuǎn)換到特征空間,支持向量機(jī)的學(xué)習(xí)是在特征空間進(jìn)行的。支持向量機(jī)的學(xué)習(xí)是在特征空間中的,目標(biāo)實(shí)在特征空間中找到一個(gè)分離超平面,能將實(shí)例分到不同的類;
c) 函數(shù)間隔:用y(wx+b)定義,后項(xiàng)能夠表示X距離超平面的遠(yuǎn)近,與符號(hào)是否一致能夠表示分類是否正確;找到那個(gè)優(yōu)化對(duì)象,這個(gè)優(yōu)化對(duì)象就是函數(shù)間隔;可以表示分類預(yù)測(cè)的正確性及確信度,但是選擇分類超平面時(shí)這個(gè)還不夠,只要成比例的改變w和b,函數(shù)間隔會(huì)增加,對(duì)函數(shù)間隔進(jìn)行規(guī)范化,知識(shí)函數(shù)間隔稱為幾何間隔;變成了對(duì)幾何間求最優(yōu)值;
d) 支持向量機(jī)的想法:求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面,對(duì)線性可分訓(xùn)練數(shù)據(jù)集而言,線性可分分離超平面有無窮多個(gè),但是幾何間隔最大的分離超平面是唯一的;這里的間隔最大化稱為硬間隔最大化。通過變換,將該問題變換為一個(gè)凸二次規(guī)劃問題;
e) 算法:最大間隔法;
f) 支持向量和間隔邊界:在線性可分的情況下,訓(xùn)練數(shù)據(jù)的樣本點(diǎn)中與分類超平面距離最近的樣本點(diǎn)的實(shí)例為支持向量,支持向量是使約束條件等號(hào)成立的點(diǎn);決定分離超平面的時(shí)候,只有支持向量起作用,其他實(shí)例點(diǎn)并不起作用,如果移動(dòng)支持向量,將改變所求的解;由于支持向量對(duì)分類模型起著決定性作用,所以稱為支持向量機(jī);
g) 學(xué)習(xí)時(shí)的對(duì)偶算法:利用拉格朗日對(duì)偶性,通過求解對(duì)偶問題,得到原始問題的最優(yōu)解;優(yōu)點(diǎn):對(duì)偶問題更容易求解;自然引入核函數(shù),進(jìn)而推剛到非線性分類問題;
2、 線性支持向量機(jī)與軟間隔最大化
a) 加上一個(gè)松弛變量,將優(yōu)化目標(biāo)增加一個(gè)松弛變量的求和;
b) 求最優(yōu)化的方法與線性可分支持向量機(jī)的模式一樣;
3、 非線性支持向量機(jī)與核函數(shù)
a) 對(duì)于非線性可分問題,超曲面分類的空間,變分的思想;將其從變換到新空間的線性可分問題;在新空間里面訓(xùn)練線性模型;
b) 變化的方法:核函數(shù)的方法,k(x,z)=p(x).p(z)
c) 用核函數(shù)來替代元素之間的內(nèi)積;
d) 核函數(shù)的取法并不是唯一的,有多種取法;
4、 SMO算法:序列最小優(yōu)化
a) 啟發(fā)式算法:如果所有變量的解都滿足此最優(yōu)化問題的KKT條件,那么這個(gè)最優(yōu)化問題就解決了。
b) 如果無法驗(yàn)證,選擇兩個(gè)變量,固定其他變量,針對(duì)這兩個(gè)變量構(gòu)建一個(gè)二次規(guī)劃問題;子問題有兩個(gè)變量,一個(gè)是違反KKT條件最嚴(yán)重的那個(gè),另一個(gè)由自由約束條件自動(dòng)確定。SMO算法不斷將問題分解為子問題并對(duì)子問題求,從而達(dá)到目的。
第八章, 提升方法(boosting)
1、 提升方法是一種常用的統(tǒng)計(jì)學(xué)習(xí)方法,應(yīng)用廣泛且有效。在分類問題中,它通過改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類器。(減治、分治、變治)
2、 本章首先介紹提升方法的思路和代表性的提升算法adaBoost;通過訓(xùn)練誤差分析探討它為什么能夠提高學(xué)習(xí)精度;
3、 提升方法AdaBoost算法(迭代+分治+變治)
a) 提升方法的基本思路:對(duì)一個(gè)復(fù)雜任務(wù)來說,將多個(gè)專家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的判斷(三個(gè)臭皮匠頂個(gè)諸葛亮算法),將多個(gè)專家的判斷進(jìn)行適當(dāng)?shù)木C合得出的判斷。
b) 幾個(gè)基本概念:強(qiáng)可學(xué)習(xí),弱可學(xué)習(xí)—在概率近似正確(PAC)的學(xué)習(xí)框架中,一個(gè)概念如果存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法,并且正確率很高,那么就稱這個(gè)概念是強(qiáng)可學(xué)習(xí)的;同上描述如果學(xué)習(xí)的正確率僅比隨機(jī)猜測(cè)略好,則稱為弱可學(xué)習(xí)的。后來有人證明,強(qiáng)可學(xué)習(xí)和弱可學(xué)習(xí)是等價(jià)的。問題變?yōu)槿绻呀?jīng)發(fā)現(xiàn)了弱學(xué)習(xí)算法,那么能否可以將其提升為強(qiáng)學(xué)習(xí)算法;因?yàn)楸入S機(jī)猜測(cè)略好,所以可以采用疊加的方式,使其收斂與強(qiáng)學(xué)習(xí);
c) 給定一個(gè)訓(xùn)練樣本集,求比較粗糙的規(guī)則要比求精確的分類規(guī)則容易的多;提升方法就是從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),一個(gè)人比較笨的人使用這個(gè)方法也可以得到聰明的結(jié)論;弱分類器也叫做基本分類器;提升方法就是從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列弱分類器,然后組合這些弱分類器構(gòu)成一個(gè)強(qiáng)分類器;大多數(shù)的提升方法都是改變訓(xùn)練數(shù)據(jù)的概率分布,針對(duì)不同的訓(xùn)練數(shù)據(jù)分布調(diào)用弱學(xué)習(xí)算法學(xué)習(xí)一些列若分類器;
d) 弱學(xué)習(xí)算法的核心問題:1、每一輪如何改變訓(xùn)練數(shù)據(jù)的權(quán)值或概率分布?2、如何將弱分類器的結(jié)論組合起來。
e) Adbaboost:1、提高哪些被前一輪弱分類器分類錯(cuò)誤分類樣本的權(quán)值,降低哪些被正確分類樣本的權(quán)值;2、組合的方式用加權(quán)多數(shù)表決的方法;
4、 Adaboost算法的訓(xùn)練誤差分析
5、 Adaboost算法的解釋:模型是假發(fā)模型,損失函數(shù)是指數(shù)函數(shù),學(xué)習(xí)算法為前向分布算法時(shí)的二分類學(xué)習(xí)方法;
6、 提升樹:以分類數(shù)或回歸樹為基本分類器的提升方法,提升樹被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)性能最好的方法之一;
a) 模型:提升方法實(shí)際采用的是加法模型(基函數(shù)的線性組合),以決策樹為基函數(shù);
b) 作為回歸問題提升樹算法中的殘差近似值擬合一個(gè)回歸樹;
7、
第九章, EM算法及其推廣
1、 EM算法是一種迭代算法,用于含有隱變量的概率模型參數(shù)的極大似然估計(jì),或極大后驗(yàn)概率估計(jì)。算法的每次迭代由兩步組成,E步:求期望;M步,求極大。所以這個(gè)算法稱為期望極大算法。
2、 EM算法的思想:
a) 概率模型含有觀測(cè)變量,又含有隱變量或者潛在變量。如果概率模型只是觀測(cè)變量,那么給定數(shù)據(jù),可以直接用極大似然估計(jì)法,或者貝葉斯估計(jì)法估計(jì)參數(shù)模型,但當(dāng)模型含有隱變量時(shí),就不能簡(jiǎn)單的使用這些估計(jì)方法。三硬幣問題,有3枚硬幣,ABC,他們出現(xiàn)正面的概率是abc,根據(jù)A結(jié)果選擇B,C,記錄投BC出現(xiàn)的結(jié)果,根據(jù)觀測(cè)值推測(cè)ABC出現(xiàn)的概率,由于A的值無法觀測(cè),稱為隱變量;
b)
c) 算法:
d) 在非監(jiān)督學(xué)習(xí)中的應(yīng)用:監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)為輸入輸出對(duì),可以解決分類、回歸、標(biāo)注等任務(wù),有時(shí)訓(xùn)練數(shù)據(jù)中只有輸入沒有對(duì)應(yīng)的輸出,這樣的數(shù)據(jù)學(xué)習(xí)模型為非監(jiān)督學(xué)習(xí)問題;EM算法可以用于生成模型的非監(jiān)督學(xué)習(xí),可以認(rèn)為非監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)是聯(lián)合概率分布產(chǎn)生的數(shù)據(jù),X為觀測(cè)數(shù)據(jù),Y為未觀測(cè)數(shù)據(jù);
3、 EM算法的收斂性:
a) 提供一種近似計(jì)算含有隱變量概率模型的極大似然估計(jì)的方法,最大的優(yōu)點(diǎn)就是簡(jiǎn)單性和普適性;
4、 EM算法在高斯混合模型學(xué)習(xí)中的應(yīng)用
a) 如觀測(cè)數(shù)據(jù)由高斯混合模型生成,可以估計(jì)生成模型的參數(shù);
i. 明確隱變量,寫出完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù);
ii. EM算法的E步,確定Q函數(shù);
iii. 確定EM算法的M步,迭代M步秋熟Q函數(shù)的對(duì)隱變量極大值;
5、 EM算法的推廣
a) EM算法還可以解釋為F函數(shù)的極大-極大算法;廣義期望極大算法;
b) 、
第十章, 隱馬爾科夫模型
1、 隱馬爾科夫模型是可用于標(biāo)注問題的統(tǒng)計(jì)學(xué)習(xí)模型,描述由隱藏馬爾科夫鏈隨機(jī)生成觀測(cè)序列的過程,屬于生成模型。
2、 定義:隱馬爾科夫模型是時(shí)序模型,描述由一個(gè)隱藏的馬爾科夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)隨機(jī)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生觀測(cè)隨機(jī)序列的過程。隱藏的馬爾科夫鏈隨機(jī)生成的狀態(tài)序列稱為狀態(tài)序列,每個(gè)狀態(tài)生成的一個(gè)觀測(cè),由此產(chǎn)生的觀測(cè)的隨機(jī)序列稱為觀測(cè)序列,序列的每一個(gè)位置又可以看作是一個(gè)時(shí)刻。
3、 隱馬爾科夫模型的基本假設(shè):1、齊次馬爾科夫假設(shè):任意時(shí)刻的狀態(tài)只與前一個(gè)狀態(tài)有關(guān),與其他時(shí)刻的狀態(tài)無關(guān);2、觀測(cè)獨(dú)立性:任意時(shí)刻的觀測(cè)只依賴于該市可的,
4、 隱馬爾可夫模型的三個(gè)問題:
a) 概率計(jì)算問題:給定模型和觀測(cè)序列,計(jì)算在模型下觀測(cè)序列X出現(xiàn)的概率;
b) 學(xué)習(xí)問題:已知觀測(cè)序列,估計(jì)模型參數(shù),使得該模型下觀測(cè)序列概率最大;
c) 預(yù)測(cè)問題:稱為解碼問題,已知模型和觀測(cè)序列,求對(duì)給定觀測(cè)序列最大狀態(tài)序列;
5、 貝葉斯定理:后驗(yàn)概率=先驗(yàn)概率*調(diào)整因子(調(diào)整因子=后驗(yàn)概率/先驗(yàn)概率)P(B|A)=P(B)*P(A|B)/P(A)
6、 概率計(jì)算問題:
a) 窮舉法
b) 前向算法
c) 后向算法
7、 學(xué)習(xí)問題:
a) 根據(jù)訓(xùn)練數(shù)據(jù)是包括觀測(cè)序列和對(duì)應(yīng)的狀態(tài)序列還是只有觀測(cè)序列,可以分別由監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)實(shí)現(xiàn)。本節(jié)先介紹監(jiān)督學(xué)習(xí)算法,而后介紹非監(jiān)督學(xué)習(xí)算法。
8、 預(yù)測(cè)問題:
第十一章, 條件隨機(jī)場(chǎng)
1、 給定一組輸入隨機(jī)變量條件下,另一組輸出隨機(jī)變量的條件概率分布模型,其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫隨機(jī)場(chǎng)。條件隨機(jī)場(chǎng)可以用于不同的預(yù)測(cè)問題,本書主要討論標(biāo)注問題的應(yīng)用。講述線性鏈條件隨機(jī)場(chǎng),問題變成了由輸入序列對(duì)輸出序列預(yù)測(cè)的判別模型,形式為對(duì)數(shù)線性模型,學(xué)習(xí)方法是極大似然估計(jì)、正則化的極大似然估計(jì)。
2、 馬爾科夫隨機(jī)長(zhǎng):概率的無向模型圖,是一個(gè)可以由無向圖表示的聯(lián)合概率分布。
3、 概率無向圖:節(jié)點(diǎn)是隨機(jī)變量,邊是隨機(jī)變量之間的概率依賴關(guān)系;是一種概率分布的圖形表示;用概率無向圖建?!狦OOGLE pagerank算法;
a) 成對(duì)馬爾科夫性:在概率無向圖中,任意兩個(gè)無邊連接的點(diǎn),條件概率是獨(dú)立的;
b) 局部馬爾科夫性:在概率無向圖中,無邊連接的點(diǎn)之間的概率分布式相互獨(dú)立的;換句話說概率分布只與和它直接相連的點(diǎn)有關(guān);
c) 全局馬爾科夫性:無直接相連的節(jié)點(diǎn)組之間是相互獨(dú)立的;
d) 概率無向圖模型定義:聯(lián)合概率分布滿足成對(duì)、局部或者全局馬爾科夫性,稱為聯(lián)合概率分布為概率無向圖模型;
e) 問題:求聯(lián)合概率分布,對(duì)給定的概率無向圖模型,我們希望將整體的聯(lián)合概率寫成若干子聯(lián)合概率的乘積的形式,就是將聯(lián)合概率進(jìn)行因子分解,通過馬爾科夫性進(jìn)行分解,核心思想是減治問題(分治、變治);
f) 定義最大團(tuán):任何兩個(gè)結(jié)點(diǎn)均有邊連接的節(jié)點(diǎn)子集稱為團(tuán)。若C是無向圖G的一個(gè)團(tuán),并且不能再加進(jìn)任何一個(gè)G的節(jié)點(diǎn)使其稱為一個(gè)更大的團(tuán),則稱為最大團(tuán);(最大的可分割的單位,具有全局馬爾科夫性的團(tuán)?);將概率五項(xiàng)圖模型的聯(lián)合概率分布表示為其最大團(tuán)上的隨機(jī)變量的函數(shù)的乘積形式的操作,稱為概率無向圖模型的因子分解;增加規(guī)范化因子約束,保證P(Y)構(gòu)成一個(gè)概率分布(函數(shù));0<P(Y)<1;
g)
4、 條件隨機(jī)場(chǎng)的定義與形式
a) 條件隨機(jī)場(chǎng)定義:給定隨機(jī)變量X條件下,隨機(jī)變量的馬爾科夫隨機(jī)場(chǎng)。定義在線性鏈條上的特殊條件隨機(jī)場(chǎng),稱為線性鏈條隨機(jī)場(chǎng),可以用于標(biāo)注問題。這是條件概率模型中的p(y|x)中,y是輸出變量,表示標(biāo)記序列,X是輸入變量,表示要標(biāo)記的觀測(cè)序列。利用訓(xùn)練數(shù)據(jù)集,通過極大似然估計(jì)或者正則化的極大似然估計(jì)得到條件概率模型;預(yù)測(cè)時(shí),對(duì)于給定的輸入序列X,求出條件概率P的最大輸出序列;在是A的前提下B的概率,選擇A的前提下選B的概率,這就是條件概率;給定一個(gè)句子,包括了N多單詞,在給定這個(gè)組合的情況下正確意思的概率;
b) 線性鏈條件隨機(jī)場(chǎng):節(jié)點(diǎn)之間的關(guān)系類似一個(gè)鏈表;
聯(lián)系客服