海贼王美女视频,范冰冰梁家辉视频,哥伦比亚美女视频

用人話講明白邏輯回歸Logistic regression

F2967527 >《數(shù)據(jù)分析》

2020.05.11

關(guān)注

文章目錄

從線性回歸說起
sigmond函數(shù)
推廣至多元場景
似然函數(shù)
最大似然估計
損失函數(shù)
梯度下降法求解
結(jié)尾

【提示：頭條號編輯器不支持Markdown，因此涉及公式的部分全部轉(zhuǎn)為圖片顯示】

今天梳理一下邏輯回歸，這個算法由于簡單、實(shí)用、高效，在業(yè)界應(yīng)用十分廣泛。注意咯，這里的“邏輯”是音譯“邏輯斯蒂（logistic）”的縮寫，并不是說這個算法具有怎樣的邏輯性。

前面說過，機(jī)器學(xué)習(xí)算法中的監(jiān)督式學(xué)習(xí)可以分為2大類：

分類模型：目標(biāo)變量是分類變量（離散值）；
回歸模型：目標(biāo)變量是連續(xù)性數(shù)值變量。

邏輯回歸通常用于解決分類問題，例如，業(yè)界經(jīng)常用它來預(yù)測：客戶是否會購買某個商品，借款人是否會違約等等。

實(shí)際上，“分類”是應(yīng)用邏輯回歸的目的和結(jié)果，但中間過程依舊是“回歸”。

為什么這么說？

因?yàn)橥ㄟ^邏輯回歸模型，我們得到的計算結(jié)果是0-1之間的連續(xù)數(shù)字，可以把它稱為“可能性”（概率）。對于上述問題，就是：客戶購買某個商品的可能性，借款人違約的可能性。

然后，給這個可能性加一個閾值，就成了分類。例如，算出貸款違約的可能性>0.5，將借款人預(yù)判為壞客戶。

1.從線性回歸說起

考慮最簡單的情況，即只有一個自變量的情況。比方說廣告投入金額x和銷售量y的關(guān)系，散點(diǎn)圖如下，這種情況適用一元線性回歸。

線性回歸的介紹文章戳這里：用人話講明白線性回歸LinearRegression

但在許多實(shí)際問題中，因變量y是分類型，只取0、1兩個值，和x的關(guān)系不是上面那樣。假設(shè)我們有這樣一組數(shù)據(jù)：給不同的用戶投放不同金額的廣告，記錄他們購買廣告商品的行為，1代表購買，0代表未購買。

假如此時依舊考慮線性回歸模型，得到如下擬合曲線：

這種形式，非常像單位階躍函數(shù)：

圖像如下：

我們發(fā)現(xiàn)，把階躍函數(shù)向右平移一下，就可以比較好地擬合上面的散點(diǎn)圖呀！但是階躍函數(shù)有個問題，它不是連續(xù)函數(shù)。

理想的情況，是像線性回歸的函數(shù)一樣，X和Y之間的關(guān)系，是用一個單調(diào)可導(dǎo)的函數(shù)來描述的。

2.sigmond函數(shù)

實(shí)際上，邏輯回歸算法的擬合函數(shù)，叫做sigmond函數(shù)：

函數(shù)圖像如下（百度圖片搜到的圖）：

sigmoid函數(shù)是一個s形曲線，就像是階躍函數(shù)的溫和版，階躍函數(shù)在0和1之間是突然的起跳，而sigmoid有個平滑的過渡。

從圖形上看，sigmoid曲線就像是被掰彎捋平后的線性回歸直線，將取值范圍(?∞,+∞)映射到(0,1) 之間，更適宜表示預(yù)測的概率，即事件發(fā)生的“可能性” 。

3.推廣至多元場景

在用人話講明白梯度下降Gradient Descent一文中，我們講了多元線性回歸方程的一般形式為：

到目前為止，邏輯函數(shù)的構(gòu)造算是完成了。找到了合適的函數(shù)，下面就是求函數(shù)中的未知參數(shù)向量β了。求解之前，我們需要先理解一個概念——似然性。

4.似然函數(shù)

我們常常用概率(Probability) 來描述一個事件發(fā)生的可能性。

而似然性(Likelihood) 正好反過來，意思是一個事件實(shí)際已經(jīng)發(fā)生了，反推在什么參數(shù)條件下，這個事件發(fā)生的概率最大。

用數(shù)學(xué)公式來表達(dá)上述意思，就是:

因此，最優(yōu)β，就是使當(dāng)前觀察到的數(shù)據(jù)出現(xiàn)的可能性最大的β。

5.最大似然估計

在二分類問題中，y只取0或1，可以組合起來表示y的概率:

因?yàn)橐幌盗械膞i和yi都是我們實(shí)際觀測到的數(shù)據(jù)，式子中未知的只有β。因此，現(xiàn)在問題就變成了求β在取什么值的時候，L(β)能達(dá)到最大值。

L(β)是所有觀測到的y發(fā)生概率的乘積，這種情況求最大值比較麻煩，一般我們會先取對數(shù)，將乘積轉(zhuǎn)化成加法。

取對數(shù)后，轉(zhuǎn)化成下式：

接下來想辦法求上式的最大值就可以了，求解前，我們要提一下邏輯回歸的損失函數(shù)。

6.損失函數(shù)

在機(jī)器學(xué)習(xí)領(lǐng)域，總是避免不了談?wù)摀p失函數(shù)這一概念。損失函數(shù)是用于衡量預(yù)測值與實(shí)際值的偏離程度，即模型預(yù)測的錯誤程度。也就是說，這個值越小，認(rèn)為模型效果越好，舉個極端例子，如果預(yù)測完全精確，則損失函數(shù)值為0。

在線性回歸一文中，我們用到的損失函數(shù)是殘差平方和SSE：

很遺憾，這個不是凸函數(shù)，不易優(yōu)化，容易陷入局部最小值，所以邏輯函數(shù)用的是別的形式的函數(shù)作為損失函數(shù)，叫對數(shù)損失函數(shù)（log loss function）。

這個對數(shù)損失，就是上一小節(jié)的似然函數(shù)取對數(shù)后，再取相反數(shù)喲：

這個對數(shù)損失函數(shù)好理解嗎？我還是舉個具體例子吧。

用文章開頭那個例子，假設(shè)我們有一組樣本，建立了一個邏輯回歸模型P(y=1)=f(x)，其中一個樣本A是這樣的：

公司花了x=1000元做廣告定向投放，某個用戶看到廣告后購買了，此時實(shí)際的y=1，f(x=1000)算出來是0.6，這里有-0.4的偏差，是嗎？在邏輯回歸中不是用差值計算偏差哦，用的是對數(shù)損失，所以它的偏差定義為log0.6（其實(shí)也很好理解為什么取對數(shù)，因?yàn)槲覀兯愕氖荘(y=1)，如果算出來的預(yù)測值正好等于1，那么log1=0，偏差為0）。

樣本B：x=500，y=0，f(x=500)=0.3，偏差為log(1-0.3)=log0.7。

根據(jù)log函數(shù)的特性，自變量取值在[0,1]間，log出來是負(fù)值，而損失一般用正值表示，所以要取個相反數(shù)。因此計算A和B的總損失，就是：-log0.6-log0.7。

之前我們在用人話講明白梯度下降中解釋過梯度下降算法，下面我們就用梯度下降法求損失函數(shù)的最小值（也可以用梯度上升算法求似然函數(shù)的最大值，這兩是等價的）。