中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
【NLP機(jī)器學(xué)習(xí)基礎(chǔ)】從線性回歸和Logistic回歸開始

古語常云:“大道至簡”,萬事萬物紛繁復(fù)雜,最終卻歸至幾個最簡單的道理。我常常在想,如今很火的AI領(lǐng)域是否也是如此。將AI真正學(xué)懂學(xué)會的過程就像一場遙不可及的漫長攀登,起始于晦澀難懂的數(shù)學(xué)領(lǐng)域(高數(shù)/線代/概率論),踉蹌于公式滿篇的機(jī)器學(xué)習(xí),還要翻越神經(jīng)網(wǎng)絡(luò)、編程與數(shù)據(jù)科學(xué)庫等重重大山,最終抵達(dá)應(yīng)用的那個分岔路口,也從不是彼岸,只是新的開始。

這個系列文章【NLP機(jī)器學(xué)習(xí)基礎(chǔ)】,從最基礎(chǔ)的機(jī)器學(xué)習(xí)算法入手,著重算法的理解推導(dǎo)和應(yīng)用實踐,是機(jī)器學(xué)習(xí)在自然語言處理中應(yīng)用不可或缺的技術(shù),當(dāng)然,它也適用于通用的機(jī)器學(xué)習(xí)問題。

作者&編輯 | Miss思

1 概述

“現(xiàn)在的時代是深度學(xué)習(xí)的時代。”

我時常聽到有人這么說,一度也是這么認(rèn)為,將各種STOA模型的理解和復(fù)現(xiàn)似乎才是重中之重,至于機(jī)器學(xué)習(xí),都是統(tǒng)計學(xué)習(xí)時代的老古董了,干嘛那么認(rèn)真去學(xué)呢?

這種想法讓我在研究生入學(xué)第一階段的基礎(chǔ)學(xué)習(xí)過程中一度變得輕慢而浮躁,尤其是發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法的實踐只需要那小小幾行代碼的時候,是啊,調(diào)個庫,調(diào)個包,誰不會呢?誰會那么傻,還一頁頁去啃西瓜書,去推《統(tǒng)計學(xué)習(xí)方法》?那些數(shù)學(xué)公式也太麻煩了吧~

可是我忽略了太多冰山下面的東西,就像學(xué)習(xí)武術(shù)伊始,沒有學(xué)好扎馬步。

機(jī)器學(xué)習(xí)一直以來是一門非常關(guān)鍵的學(xué)科,他的重要地位從未因為他所蘊(yùn)含的數(shù)學(xué)內(nèi)容而受到任何撼動,反而由于其嚴(yán)密的邏輯性和可解釋性成為機(jī)器學(xué)習(xí)算法強(qiáng)大的背后力量。

機(jī)器學(xué)習(xí)的優(yōu)越之處其一在于他扎根數(shù)據(jù)的分析。從實實在在的數(shù)據(jù)樣本分布出發(fā),從千百年前數(shù)學(xué)家提出的統(tǒng)計概率理論出發(fā),每個公式的證明和每個公式的推導(dǎo)都有著清晰明了的理論依據(jù)。從最大似然估計到最小二乘法的最優(yōu)參數(shù)選擇,從中心極限定理到高斯分布,雖然是基于假設(shè)去做推論,但每一步都走的扎實。

機(jī)器學(xué)習(xí)的優(yōu)越之處其二在于他對于數(shù)據(jù)樣本的寬容性。眾所周知,深度學(xué)習(xí)時代的神經(jīng)網(wǎng)絡(luò)模型是極度依賴于大量數(shù)據(jù)樣本的,這也催生了如今的數(shù)據(jù)標(biāo)注行業(yè)的火爆,也有了那句極具諷刺意義的“有人工才有智能”。不論是CV行業(yè)圖片的標(biāo)注,還是NLP行業(yè)文本的數(shù)據(jù)標(biāo)注,是這些非?;A(chǔ)卻又一直重復(fù)的底層工作,成就了上層監(jiān)督學(xué)習(xí)模型璀璨的光芒。而傳統(tǒng)機(jī)器學(xué)習(xí)對于數(shù)據(jù)的依賴相對較輕,他并不需要巨大無比的數(shù)據(jù)量,而只是需要使用一部分?jǐn)?shù)據(jù)進(jìn)行算法嘗試即可獲得不錯的效果。


在數(shù)據(jù)量少時先進(jìn)行嘗試,再決定是否投入大批人力物力財力進(jìn)行數(shù)據(jù)標(biāo)注,這是一種很常見的思路。如今火爆的預(yù)訓(xùn)練模型+利用小批量數(shù)據(jù)微調(diào)其實也是這樣的思路,只是機(jī)器學(xué)習(xí)比他早了很多年。

我從不提倡單純?nèi)W(xué)習(xí)某一層面而批判另一個層面,相反,最佳的結(jié)合莫過于兩者聯(lián)手。在擁有充足數(shù)據(jù)資源的情況下使用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行特征提取,再結(jié)合機(jī)器學(xué)習(xí)思想或算法進(jìn)一步處理,往往是更完美的做法,事實上,人們確實也這么做了。我曾讀過組里師兄的一篇優(yōu)秀論文,其核心就是從目前棘手的問題入手,思考如何利用機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型進(jìn)行解決,他巧妙地對數(shù)學(xué)公式進(jìn)行變換,以一種相當(dāng)強(qiáng)大的邏輯自洽完成了對一種經(jīng)典NLP應(yīng)用的算法優(yōu)化,獲得了國際會議的一致好評。

你看,強(qiáng)強(qiáng)聯(lián)手就是這么酷。

2 回歸基礎(chǔ)

首先我們要明白一件事,機(jī)器學(xué)習(xí)究竟要做什么?

我們都學(xué)過數(shù)學(xué),對函數(shù)也并不陌生,記得高考最頭痛的數(shù)學(xué)題也和函數(shù)有關(guān),但我們所接觸的往往是已經(jīng)給出的一個函數(shù),參數(shù)固定,而x未知,對嗎?

機(jī)器學(xué)習(xí)要做的這件事卻和我們的認(rèn)知相悖,他是基于過去的已知數(shù)據(jù)樣本,根據(jù)某種算法來利用機(jī)器學(xué)出參數(shù)來,并以此來預(yù)測未來的重要事件。

如今是疫情時期,我們就拿現(xiàn)在大家都關(guān)心的疫情預(yù)測來舉例吧,我曾在微博上看到清華AI團(tuán)隊預(yù)測疫情將會在2.16日左右出現(xiàn)拐點(diǎn),這個預(yù)測時間是如何確定的,我猜測很大可能也是機(jī)器學(xué)習(xí)算法,根據(jù)過往疫情爆發(fā)的數(shù)據(jù)選用合適的模型學(xué)習(xí)出準(zhǔn)確率較高的參數(shù),進(jìn)而對未來可能發(fā)生的事件進(jìn)行預(yù)測。

從這個例子中,我們發(fā)現(xiàn)了機(jī)器學(xué)習(xí)的三要素,模型、策略、算法,這也是李航老師在《統(tǒng)計學(xué)習(xí)方法》中所提出的核心概念。模型定義了解空間,在監(jiān)督學(xué)習(xí)算法中,他就是包含了所有可能的條件概率分布或決策函數(shù);我們將學(xué)習(xí)過程看作一個在解空間中進(jìn)行搜索的過程,那么策略就是考慮用什么樣的準(zhǔn)則學(xué)習(xí)以優(yōu)化目標(biāo),從而使其預(yù)測值更加接近于訓(xùn)練集的真實值;而算法就是指學(xué)習(xí)模型的具體方法,如著名的梯度下降法。

我們首先來看模型,模型的確定往往與數(shù)據(jù)樣本密切相關(guān)。

比如,什么是分類,什么是回歸,就可以從數(shù)據(jù)樣本長什么樣來確定,y是連續(xù)的,OK,你是回歸,y是離散的,你就是分類,就是這么簡單粗暴。你也可以從圖形角度來看,回歸往往是造出一條連續(xù)的曲線與數(shù)據(jù)樣本的真實值進(jìn)行擬合,而分類則是在離散的樣本里切上幾刀,像分蛋糕一樣。

那么,科學(xué)家們是如何將數(shù)據(jù)轉(zhuǎn)化為可以推理和預(yù)測的數(shù)據(jù)公式呢?這里蘊(yùn)藏著一些概率與數(shù)理統(tǒng)計的知識。首先,我們會假設(shè)所有樣本都是獨(dú)立同分布的,那么其誤差即服從均值為0,方差為某定值的高斯分布。Why? 因為中心極限定理。

中心極限定理假設(shè)有無窮多樣本進(jìn)行分布,且x1,x2....xn互相獨(dú)立,則樣本們服從同一分布,且具有相同的期望和方差,并一定會收斂到標(biāo)準(zhǔn)正態(tài)分布。在實際問題中,很多隨機(jī)現(xiàn)象可以看作眾多因素的獨(dú)立分布影響的綜合反應(yīng),近似正態(tài)分布的應(yīng)用前提往往是大量樣本確實存在。

以上內(nèi)容,是理解下面三種回歸算法的前提。

3  回歸算法

在詳細(xì)講解回歸算法之前,我們首先來了解一下這些算法有哪些應(yīng)用。

線性回歸處理的是數(shù)值問題,也就是最后預(yù)測出的結(jié)果是數(shù)字。比如根據(jù)大批量房產(chǎn)數(shù)據(jù)及價格做房價預(yù)測,又比如利用過去股市的數(shù)據(jù)選取模型做股價擬合和股價預(yù)測。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測結(jié)果是離散的分類。比如推斷這封郵件是否是垃圾郵件,以及用戶是否會點(diǎn)擊此廣告等等。

回歸算法是后面若干強(qiáng)大算法的基石,他分為兩個重要的子類:線性回歸與邏輯斯特回歸。將這兩個算法理解透徹,將能夠更容易理解接下來的機(jī)器學(xué)習(xí)算法。下面,我們首先來看線性回歸。

3.1  線性回歸

給定由d個屬性描述的數(shù)據(jù)樣本x = (x1;x2;...;xd),其中xi是x在第i個屬性上的取值,線性模型試圖學(xué)得一個通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù),即f(x) = w1x1+w2x2+...+wnxn,一般用向量形式會寫成 f(x) = w的轉(zhuǎn)秩*x+b,其中樣本固定,而w作為參數(shù)也是一個n維的向量,當(dāng)w和b確定后,線性模型也就得以確定。

而我們要做的線性回歸,就是在面對預(yù)測值連續(xù),且擁有多個屬性一定數(shù)據(jù)樣本的情況下,學(xué)出參數(shù)向量w和b,從而確定出一個函數(shù)來,這個函數(shù)就是我們通常所說的模型,他在預(yù)測這種情況下的未來值時,同樣具有較高的準(zhǔn)確率。

那么,我們從機(jī)器學(xué)習(xí)的三要素考慮,模型層面,由上一節(jié)內(nèi)容我們可以知道由中心極限定理,樣本服從高斯分布,那么策略層面,我們選用什么準(zhǔn)則以優(yōu)化學(xué)習(xí)目標(biāo),算法層面,我們又使用什么具體方法利用機(jī)器進(jìn)行參數(shù)學(xué)習(xí)呢?

從嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分布角度來說,有興趣的伙伴可以跟著我推一推。由于數(shù)據(jù)服從正態(tài)分布,即所有樣本都是獨(dú)立同分布的,那么就可以用似然函數(shù)進(jìn)行推理(具體過程如下圖所示),可以看到,在x(i),參數(shù)確定下表示出y(i)的概率,再進(jìn)行最大似然估計,使用對數(shù)函數(shù)將連乘優(yōu)化為加和后,最終結(jié)果若要取最大,則在其他式子數(shù)值固定的前提下,包含theta參數(shù)的那個式子就要取最小,將他提取出來后得到的J(theta)即是傳說中的最小二乘估計,這也是線性回歸的目標(biāo)函數(shù)(損失函數(shù))。這個值越小,損失函數(shù)越小,模型所預(yù)測的結(jié)果與真實值相比差距就越小,模型就越好。這也揭示了最小二乘法的本質(zhì):高斯分布+最大似然估計——>最小二乘。

當(dāng)然,我也閱讀了《西瓜書》,書中并未對此進(jìn)行如此細(xì)致的推導(dǎo),直接告知讀者使用基于均方誤差最小化來進(jìn)行模型求解的“最小二乘法”來進(jìn)行模型優(yōu)化,并直接給出推導(dǎo)出的公式結(jié)論也是非常容易理解的,不過我想,經(jīng)過推導(dǎo)的話,可能理解會更深刻吧~

OK,當(dāng)推導(dǎo)出損失函數(shù)之后,我們策略方面就得到了完美的解答,接下來就是算法層面了。怎樣優(yōu)化損失函數(shù),讓損失函數(shù)值最???

我們可以引入線性代數(shù),將樣本與參數(shù)全部用向量表示,使用線性代數(shù)的已知推論進(jìn)行駐點(diǎn)的求取,將X的每一行對應(yīng)一個樣本,共M個樣本,將X的每一列對應(yīng)樣本的一個維度,共N維,則求取梯度就變成了純粹的線性代數(shù)運(yùn)算,過程如下圖所示。這樣求出的theta就是最小二乘意義下的參數(shù)最優(yōu)解。

為了防止過擬合,theta往往還會加上lambda擾動,即線性回歸的復(fù)雜度懲罰因子,希望他的參數(shù)不要過多,其參數(shù)和不要過大,因而就有了我們都知道的L1正則(LASSO)(擁有特征選擇能力),L2正則(Ridge回歸),以及L3正則(Elastic Net,將L1和L2正則進(jìn)行加權(quán)結(jié)合)。

然而,使用線性代數(shù)進(jìn)行算法計算依舊是人力層面的推導(dǎo)計算,不符合利用計算機(jī)進(jìn)行“機(jī)器學(xué)習(xí)"的初衷??茖W(xué)家因而研究出了”梯度下降算法”,使參數(shù)theta沿著負(fù)梯度方向迭代,更新后的theta使損失函數(shù)越來越小。

了解完線性回歸后,我們再來看Logistic回歸。

3.2  Logistic回歸

Logistic回歸則與線性回歸在一開始的應(yīng)用出發(fā)點(diǎn)就有所不同,雖然二者看似都是回歸,但一個用于回歸,一個用于分類。我們可以將Logistic回歸看作是加了sigmoid函數(shù)的線性回歸,他的形狀很像S形,所以才會以Sigmoid命名。

Sigmoid函數(shù)在之后的深度學(xué)習(xí)中也會被頻繁用到,因為他的作用將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率,接著我們依據(jù)這個概率進(jìn)行預(yù)測,比如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性等等。

他的表現(xiàn)形式如下圖所示,由于服從二項分布,因此獨(dú)特的表達(dá)方式讓他的參數(shù)估計和求導(dǎo)都變得與眾不同。

但讓人感到詫異的是,他參數(shù)的學(xué)習(xí)規(guī)則與線性回歸的學(xué)習(xí)規(guī)則是完全一致的,都如下圖所示:

二者的差異只是在于模型所服從的分布不同,也可以認(rèn)為是函數(shù)表達(dá)式的不同。邏輯斯特回歸服從二項分布,由最大似然估計推導(dǎo)出最終的損失函數(shù),而線性回歸則服從正態(tài)分布。因此,我們可以認(rèn)為是對數(shù)幾率函數(shù)Sigmoid函數(shù)的出現(xiàn),將線性回歸的數(shù)值轉(zhuǎn)化為0~1之間的概率,從而用于分類作用。在Logistic函數(shù)的表達(dá)式中,中z = theta的轉(zhuǎn)秩*x,而y = 1/1+e^z,這個公式則完全體現(xiàn)了數(shù)值轉(zhuǎn)化的過程。

綜上,我們對線性回歸和Logistic回歸算法進(jìn)行了詳細(xì)的講解。我們分別從算法的作用、算法的數(shù)學(xué)形式、算法損失函數(shù)的推導(dǎo)及計算參數(shù)的策略進(jìn)行了探索,并對兩者算法的異同點(diǎn)進(jìn)行了對比分析。

希望學(xué)到這里的你能夠心得滿滿,并且有所收獲:)

下期我將會從實際應(yīng)用入手,為大家講解回歸在機(jī)器學(xué)習(xí)及NLP中有哪些實踐應(yīng)用。

總結(jié)

回歸算法是后面若干強(qiáng)大算法的基石,將回歸算法理解透徹,將能夠更容易理解接下來的機(jī)器學(xué)習(xí)算法。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
機(jī)器學(xué)習(xí)十七:感知機(jī)
7分鐘搞懂邏輯回歸的來龍去脈
【A.K.應(yīng)用平臺】- 影像組學(xué)之機(jī)器學(xué)習(xí)方法概述
用人話講明白邏輯回歸Logistic regression
學(xué)渣筆記 | logistic回歸和感知器(吳恩達(dá)CS229《機(jī)器學(xué)習(xí)》lecture 3-3)
機(jī)器學(xué)習(xí)算法入門:Logistic回歸學(xué)習(xí)筆記
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服