從線性回歸說起
sigmond函數(shù)
推廣至多元場景
似然函數(shù)
最大似然估計
損失函數(shù)
梯度下降法求解
結(jié)尾
【提示:頭條號編輯器不支持Markdown,因此涉及公式的部分全部轉(zhuǎn)為圖片顯示】
今天梳理一下邏輯回歸,這個算法由于簡單、實(shí)用、高效,在業(yè)界應(yīng)用十分廣泛。注意咯,這里的“邏輯”是音譯“邏輯斯蒂(logistic)”的縮寫,并不是說這個算法具有怎樣的邏輯性。
前面說過,機(jī)器學(xué)習(xí)算法中的監(jiān)督式學(xué)習(xí)可以分為2大類:
分類模型:目標(biāo)變量是分類變量(離散值);
回歸模型:目標(biāo)變量是連續(xù)性數(shù)值變量。
邏輯回歸通常用于解決分類問題,例如,業(yè)界經(jīng)常用它來預(yù)測:客戶是否會購買某個商品,借款人是否會違約等等。
實(shí)際上,“分類”是應(yīng)用邏輯回歸的目的和結(jié)果,但中間過程依舊是“回歸”。
為什么這么說?
因?yàn)橥ㄟ^邏輯回歸模型,我們得到的計算結(jié)果是0-1之間的連續(xù)數(shù)字,可以把它稱為“可能性”(概率)。對于上述問題,就是:客戶購買某個商品的可能性,借款人違約的可能性。
然后,給這個可能性加一個閾值,就成了分類。例如,算出貸款違約的可能性>0.5,將借款人預(yù)判為壞客戶。
考慮最簡單的情況,即只有一個自變量的情況。比方說廣告投入金額x和銷售量y的關(guān)系,散點(diǎn)圖如下,這種情況適用一元線性回歸。
線性回歸的介紹文章戳這里:用人話講明白線性回歸LinearRegression
但在許多實(shí)際問題中,因變量y是分類型,只取0、1兩個值,和x的關(guān)系不是上面那樣。假設(shè)我們有這樣一組數(shù)據(jù):給不同的用戶投放不同金額的廣告,記錄他們購買廣告商品的行為,1代表購買,0代表未購買。
假如此時依舊考慮線性回歸模型,得到如下擬合曲線:
這種形式,非常像單位階躍函數(shù):
圖像如下:
我們發(fā)現(xiàn),把階躍函數(shù)向右平移一下,就可以比較好地擬合上面的散點(diǎn)圖呀!但是階躍函數(shù)有個問題,它不是連續(xù)函數(shù)。
理想的情況,是像線性回歸的函數(shù)一樣,X和Y之間的關(guān)系,是用一個單調(diào)可導(dǎo)的函數(shù)來描述的。
實(shí)際上,邏輯回歸算法的擬合函數(shù),叫做sigmond函數(shù):
函數(shù)圖像如下(百度圖片搜到的圖):
sigmoid函數(shù)是一個s形曲線,就像是階躍函數(shù)的溫和版,階躍函數(shù)在0和1之間是突然的起跳,而sigmoid有個平滑的過渡。
從圖形上看,sigmoid曲線就像是被掰彎捋平后的線性回歸直線,將取值范圍(?∞,+∞)映射到(0,1) 之間,更適宜表示預(yù)測的概率,即事件發(fā)生的“可能性” 。
在用人話講明白梯度下降Gradient Descent一文中,我們講了多元線性回歸方程的一般形式為:
到目前為止,邏輯函數(shù)的構(gòu)造算是完成了。找到了合適的函數(shù),下面就是求函數(shù)中的未知參數(shù)向量β了。求解之前,我們需要先理解一個概念——似然性。
我們常常用概率(Probability) 來描述一個事件發(fā)生的可能性。
而似然性(Likelihood) 正好反過來,意思是一個事件實(shí)際已經(jīng)發(fā)生了,反推在什么參數(shù)條件下,這個事件發(fā)生的概率最大。
用數(shù)學(xué)公式來表達(dá)上述意思,就是:
因此,最優(yōu)β,就是使當(dāng)前觀察到的數(shù)據(jù)出現(xiàn)的可能性最大的β。
在二分類問題中,y只取0或1,可以組合起來表示y的概率:
因?yàn)橐幌盗械膞i和yi都是我們實(shí)際觀測到的數(shù)據(jù),式子中未知的只有β。因此,現(xiàn)在問題就變成了求β在取什么值的時候,L(β)能達(dá)到最大值。
L(β)是所有觀測到的y發(fā)生概率的乘積,這種情況求最大值比較麻煩,一般我們會先取對數(shù),將乘積轉(zhuǎn)化成加法。
取對數(shù)后,轉(zhuǎn)化成下式:
接下來想辦法求上式的最大值就可以了,求解前,我們要提一下邏輯回歸的損失函數(shù)。
在機(jī)器學(xué)習(xí)領(lǐng)域,總是避免不了談?wù)摀p失函數(shù)這一概念。損失函數(shù)是用于衡量預(yù)測值與實(shí)際值的偏離程度,即模型預(yù)測的錯誤程度。也就是說,這個值越小,認(rèn)為模型效果越好,舉個極端例子,如果預(yù)測完全精確,則損失函數(shù)值為0。
在線性回歸一文中,我們用到的損失函數(shù)是殘差平方和SSE:
很遺憾,這個不是凸函數(shù),不易優(yōu)化,容易陷入局部最小值,所以邏輯函數(shù)用的是別的形式的函數(shù)作為損失函數(shù),叫對數(shù)損失函數(shù)(log loss function)。
這個對數(shù)損失,就是上一小節(jié)的似然函數(shù)取對數(shù)后,再取相反數(shù)喲:
這個對數(shù)損失函數(shù)好理解嗎?我還是舉個具體例子吧。
用文章開頭那個例子,假設(shè)我們有一組樣本,建立了一個邏輯回歸模型P(y=1)=f(x),其中一個樣本A是這樣的:
公司花了x=1000元做廣告定向投放,某個用戶看到廣告后購買了,此時實(shí)際的y=1,f(x=1000)算出來是0.6,這里有-0.4的偏差,是嗎?在邏輯回歸中不是用差值計算偏差哦,用的是對數(shù)損失,所以它的偏差定義為log0.6(其實(shí)也很好理解為什么取對數(shù),因?yàn)槲覀兯愕氖荘(y=1),如果算出來的預(yù)測值正好等于1,那么log1=0,偏差為0)。
樣本B:x=500,y=0,f(x=500)=0.3,偏差為log(1-0.3)=log0.7。
根據(jù)log函數(shù)的特性,自變量取值在[0,1]間,log出來是負(fù)值,而損失一般用正值表示,所以要取個相反數(shù)。因此計算A和B的總損失,就是:-log0.6-log0.7。
之前我們在用人話講明白梯度下降中解釋過梯度下降算法,下面我們就用梯度下降法求損失函數(shù)的最小值(也可以用梯度上升算法求似然函數(shù)的最大值,這兩是等價的)。
要開始頭疼的公式推導(dǎo)部分了,不要害怕哦,我們還是從最簡單的地方開始,非常容易看懂。
加上求和號:
文章寫到這里就結(jié)束了,其實(shí)邏輯回歸還有很多值得深入學(xué)習(xí)和討論的,但是“講人話”系列的定位就是個入門,我自己目前的水平也有限,所以本篇不再往后寫了。
最后,歡迎各位一起學(xué)習(xí)討論~
聯(lián)系客服