中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
邏輯回歸的深入理解總結(jié)

Logistic回歸與多重線性回歸實(shí)際上有很多相同之處,最大的區(qū)別就在于它們的因變量不同,其他的基本都差不多。正是因?yàn)槿绱?,這兩種回歸可以歸于同一個(gè)家族,即廣義線性模型(generalizedlinear model)。

這一家族中的模型形式基本上都差不多,不同的就是因變量不同。

  • 如果是連續(xù)的,就是多重線性回歸;
  • 如果是二項(xiàng)分布,就是Logistic回歸;
  • 如果是Poisson分布,就是Poisson回歸;
  • 如果是負(fù)二項(xiàng)分布,就是負(fù)二項(xiàng)回歸。

Logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的Logistic回歸。

Logistic回歸的主要用途:

  • 尋找危險(xiǎn)因素:尋找某一疾病的危險(xiǎn)因素等;
  • 預(yù)測:根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大;
  • 判別:實(shí)際上跟預(yù)測有些類似,也是根據(jù)模型,判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個(gè)人有多大的可能性是屬于某病。

Logistic回歸主要在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某疾病的危險(xiǎn)因素,根據(jù)危險(xiǎn)因素預(yù)測某疾病發(fā)生的概率,等等。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。

常規(guī)步驟

Regression問題的常規(guī)步驟為:

  1. 尋找h函數(shù)(即hypothesis);
  2. 構(gòu)造J函數(shù)(損失函數(shù));
  3. 想辦法使得J函數(shù)最小并求得回歸參數(shù)(θ)

構(gòu)造預(yù)測函數(shù)h

Logistic回歸雖然名字里帶“回歸”,但是它實(shí)際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個(gè)類別),所以利用了Logistic函數(shù)(或稱為Sigmoid函數(shù)),函數(shù)形式為:

Sigmoid 函數(shù)在有個(gè)很漂亮的“S”形,如下圖所示(引自維基百科):

下面左圖是一個(gè)線性的決策邊界,右圖是非線性的決策邊界。

對(duì)于線性邊界的情況,邊界形式如下:

構(gòu)造預(yù)測函數(shù)為:

函數(shù)

的值有特殊的含義,它表示結(jié)果取1的概率,因此對(duì)于輸入x分類結(jié)果為類別1和類別0的概率分別為:

構(gòu)造損失函數(shù)J

Cost函數(shù)和J函數(shù)如下,它們是基于最大似然估計(jì)推導(dǎo)得到的。

下面詳細(xì)說明推導(dǎo)的過程:

(1)式綜合起來可以寫成:

取似然函數(shù)為:

對(duì)數(shù)似然函數(shù)為:

取為下式,即:

梯度下降法求的最小值

θ更新過程:

θ更新過程可以寫成:

向量化Vectorization

Vectorization是使用矩陣計(jì)算來代替for循環(huán),以簡化計(jì)算過程,提高效率。

如上式,Σ(...)是一個(gè)求和的過程,顯然需要一個(gè)for語句循環(huán)m次,所以根本沒有完全的實(shí)現(xiàn)vectorization。

下面介紹向量化的過程:

約定訓(xùn)練數(shù)據(jù)的矩陣形式如下,x的每一行為一條訓(xùn)練樣本,而每一列為不同的特稱取值:

θ更新過程可以改為:

綜上所述,Vectorization后θ更新的步驟如下:

正則化Regularization

過擬合問題

對(duì)于線性回歸或邏輯回歸的損失函數(shù)構(gòu)成的模型,可能會(huì)有些權(quán)重很大,有些權(quán)重很小,導(dǎo)致過擬合(就是過分?jǐn)M合了訓(xùn)練數(shù)據(jù)),使得模型的復(fù)雜度提高,泛化能力較差(對(duì)未知數(shù)據(jù)的預(yù)測能力)。

下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。

問題的主因

過擬合問題往往源自過多的特征。

解決方法

1)減少特征數(shù)量(減少特征會(huì)失去一些信息,即使特征選的很好)

  • 可用人工選擇要保留的特征;
  • 模型選擇算法;

2)正則化(特征較多時(shí)比較有效)

  • 保留所有特征,但減少θ的大小

正則化方法

正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)或懲罰項(xiàng)。正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化項(xiàng)就越大。

從房價(jià)預(yù)測問題開始,這次采用的是多項(xiàng)式回歸。左圖是適當(dāng)擬合,右圖是過擬合。

lambda是正則項(xiàng)系數(shù):

  • 如果它的值很大,說明對(duì)模型的復(fù)雜度懲罰大,對(duì)擬合數(shù)據(jù)的損失懲罰小,這樣它就不會(huì)過分?jǐn)M合數(shù)據(jù),在訓(xùn)練數(shù)據(jù)上的偏差較大,在未知數(shù)據(jù)上的方差較小,但是可能出現(xiàn)欠擬合的現(xiàn)象;
  • 如果它的值很小,說明比較注重對(duì)訓(xùn)練數(shù)據(jù)的擬合,在訓(xùn)練數(shù)據(jù)上的偏差會(huì)小,但是可能會(huì)導(dǎo)致過擬合。

正則化后的梯度下降算法θ的更新變?yōu)椋?/p>

正則化后的線性回歸的Normal Equation的公式為:

其他優(yōu)化算法

  • Conjugate gradient method(共軛梯度法)
  • Quasi-Newton method(擬牛頓法)
  • BFGS method
  • L-BFGS(Limited-memory BFGS)

后二者由擬牛頓法引申出來,與梯度下降算法相比,這些算法的優(yōu)點(diǎn)是:

  • 第一,不需要手動(dòng)的選擇步長;
  • 第二,通常比梯度下降算法快;

但是缺點(diǎn)是更復(fù)雜。

多類分類問題

對(duì)于多類分類問題,可以將其看做成二類分類問題:保留其中的一類,剩下的作為另一類。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
監(jiān)督學(xué)習(xí)(機(jī)器學(xué)習(xí))
學(xué)渣筆記 | logistic回歸和感知器(吳恩達(dá)CS229《機(jī)器學(xué)習(xí)》lecture 3-3)
【視頻】R語言邏輯回歸(Logistic回歸)模型分類預(yù)測病人冠心病風(fēng)險(xiǎn)|數(shù)據(jù)分享
SoftMax回歸詳解
開源機(jī)器學(xué)習(xí):R Meets Weka
機(jī)器學(xué)習(xí)十七:感知機(jī)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服