【磐創(chuàng)AI導(dǎo)讀】:作為機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)背后的線性代數(shù)知識系列開篇,本篇主要介紹了機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)背后的數(shù)學(xué)技術(shù)十大應(yīng)用之基礎(chǔ)機(jī)器學(xué)習(xí)部分與降維部分。想要獲取更多的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)資源,歡迎大家的公眾號:磐創(chuàng)AI。
線性代數(shù)為各種各樣的數(shù)據(jù)科學(xué)算法或應(yīng)用提供支撐
我們將介紹十種強(qiáng)大的線性代數(shù)應(yīng)用示例,他可以幫助你成為更好的數(shù)據(jù)科學(xué)家
我們將這些應(yīng)用細(xì)分到各個(gè)領(lǐng)域--基礎(chǔ)機(jī)器學(xué)習(xí)(ML),降維,自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)
線性代數(shù)與數(shù)據(jù)科學(xué)的關(guān)系就像羅賓與蝙蝠俠。這位數(shù)據(jù)科學(xué)忠實(shí)的伙伴經(jīng)常會被大家所忽視,但實(shí)際上,它是數(shù)據(jù)科學(xué)主要領(lǐng)域--包括計(jì)算機(jī)視覺(CV)與自然語言處理(NLP)等熱門領(lǐng)域的強(qiáng)力支撐。
數(shù)據(jù)開發(fā)者往往會因?yàn)閿?shù)學(xué)太難而嘗試避開這個(gè)主題。因?yàn)橛泻芏喱F(xiàn)成的數(shù)據(jù)處理庫可以幫助他們避開線性代數(shù)這個(gè)煩惱。
這是極其錯(cuò)誤的想法。線性代數(shù)是我們所熟知的所用強(qiáng)大機(jī)器學(xué)習(xí)算法的背后核心,同樣是數(shù)據(jù)科學(xué)家技能的重要組成部分,接下來就讓我們一起詳細(xì)剖析下線性代數(shù)在數(shù)據(jù)科學(xué)中的強(qiáng)大應(yīng)用。
在本文中,我會詳細(xì)解釋線性代數(shù)在數(shù)據(jù)科學(xué)中的十大應(yīng)用。這些應(yīng)用大致分為四個(gè)領(lǐng)域:
機(jī)器學(xué)習(xí)
降維
自然語言處理(NLP)
計(jì)算機(jī)視覺(CV)
另外每一個(gè)應(yīng)用還為大家準(zhǔn)備了相關(guān)的資源,以便感興趣的同學(xué)更進(jìn)一步了解。
為什么學(xué)習(xí)線性代數(shù)
機(jī)器學(xué)習(xí)中的線性代數(shù)
損失函數(shù)
正則化
協(xié)方差矩陣
支持向量機(jī)分類器
降維中的線性代數(shù)
主成分分析(PCA)
奇異值分解(SVD)
自然語言處理中的線性代數(shù)
詞嵌入(Word Embeddings)
潛在語義分析
計(jì)算機(jī)視覺中的線性代數(shù)
圖像用張量表示
卷積與圖像處理
我也曾多次問過自己這個(gè)問題。當(dāng)只需導(dǎo)入Python包就可以構(gòu)建模型時(shí),為什么還要花時(shí)間學(xué)習(xí)線性代數(shù)呢?我是這樣認(rèn)為的,線性代數(shù)是數(shù)據(jù)科學(xué)的基礎(chǔ)之一,假如沒有堅(jiān)實(shí)的基礎(chǔ),就無法建造一棟真正的摩天大樓。比如:
當(dāng)你希望使用主成分分析(PCA)來減少數(shù)據(jù)的維數(shù)時(shí),如果你不知道算法的機(jī)制(數(shù)學(xué)原理),那么你就無法確定該怎樣調(diào)整組件,以及會對數(shù)據(jù)產(chǎn)生什么影響。
通過對線性代數(shù)的理解,可以對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法有更深一層的感悟,而不是將它們視為黑盒子。從而可以選擇適當(dāng)?shù)某瑓?shù),建立更好的模型。
最大的問題是,機(jī)器學(xué)習(xí)在什么地方需要線性代數(shù)?讓我們看一下非常熟悉的四個(gè)應(yīng)用。
你需要非常熟悉模型是如何擬合給定的數(shù)據(jù)(如線性回歸模型):
從一些預(yù)測函數(shù)開始(線性回歸模型的線性函數(shù))
使用數(shù)據(jù)的獨(dú)立特征預(yù)測輸出
計(jì)算預(yù)測輸出與實(shí)際結(jié)果的距離
使用Gradient Descent等策略根據(jù)距離優(yōu)化預(yù)測函數(shù)
如何計(jì)算預(yù)測輸出與實(shí)際結(jié)果的差異?損失函數(shù)。
損失函數(shù)是向量范數(shù)在線性代數(shù)中的應(yīng)用。范數(shù)可以簡單地說是向量的量綱。有許多類型的向量范數(shù)。
L1范數(shù):也稱為曼哈頓距離或Taxicab 范數(shù)。如果只允許行進(jìn)方向與空間軸平行,從原點(diǎn)到矢量的距離,在L1范數(shù)的距離就是你行進(jìn)的距離。
在這個(gè)2D空間中,您可以通過沿x軸行進(jìn)3個(gè)單位然后沿y軸平行移動4個(gè)單位(如圖所示)到達(dá)矢量(3,4)?;蛘吣梢韵妊貀軸行進(jìn)4個(gè)單位,然后沿x軸行進(jìn)3個(gè)單位。在任何一種情況下,您將共旅行7個(gè)單位。
L2范數(shù):也稱為歐幾里德距離。L2 范數(shù)是向量距原點(diǎn)的最短距離,如下圖中的紅色路徑所示:
這個(gè)距離是用畢達(dá)哥拉斯定理計(jì)算的。它是的平方根,等于5。
但是,范數(shù)如何用于找出預(yù)測值與真實(shí)值之間的差異?假設(shè)預(yù)測值存儲在向量P中,并且真實(shí)值存儲在向量E中。P-E是它們之間的差異。P-E的范數(shù)就是預(yù)測的總損失。
正則化是數(shù)據(jù)科學(xué)中非常重要的概念。它是用來防止模型過擬合的方法。正則化實(shí)際上是規(guī)范化的另一種應(yīng)用。
如果模型在訓(xùn)練時(shí)發(fā)生了過擬合,模型就會對新數(shù)據(jù)的預(yù)測結(jié)果不好,因?yàn)槟P蜕踔翆W(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲。它無法預(yù)測之前沒有訓(xùn)練過的數(shù)據(jù)。下面的圖片揭示了這個(gè)思想:
正則化通過向損失函數(shù)添加權(quán)重向量來懲罰過于復(fù)雜的模型。由于我們希望最小化成本函數(shù),因此需要最小化此范數(shù)。正則化的結(jié)果是權(quán)重向量中無關(guān)緊要的部分變?yōu)榱?,防止預(yù)測函數(shù)過于復(fù)雜。
我們上面討論的L1和L2范數(shù)用于兩種類型的正則化:
L1正則化與Lasso 回歸一起使用
L2正則化與Ridge 回歸一起使用
雙變量分析是數(shù)據(jù)探索中的重要一步。我們想研究變量對之間的關(guān)系。協(xié)方差或相關(guān)性是用于研究兩個(gè)連續(xù)變量之間關(guān)系的度量。
協(xié)方差表示變量之間線性關(guān)系的方向。正協(xié)方差表示一個(gè)變量的增加或減少在另一個(gè)變量中同樣增加或減少。負(fù)協(xié)方差表明一個(gè)變量的增加或減少同時(shí)另一個(gè)變量與它相反。
ia_100002534 (1)另一方面,相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化值。 相關(guān)性值告訴我們線性關(guān)系的強(qiáng)度和方向,范圍從-1到1。
您可能會認(rèn)為這是統(tǒng)計(jì)學(xué)而非線性代數(shù)的概念。好吧,記得我告訴過你線性代數(shù)是無處不在的嗎?使用線性代數(shù)中的轉(zhuǎn)置和矩陣乘法的概念,協(xié)方差矩陣有一個(gè)非常簡潔的表達(dá)式:
其中X是包含所有數(shù)字特征的標(biāo)準(zhǔn)化數(shù)據(jù)矩陣。
支持向量機(jī)(SVM)是最常見的分類算法之一,經(jīng)常產(chǎn)生令人印象深刻的結(jié)果。它是向量空間概念在線性代數(shù)中的應(yīng)用。
支持向量機(jī)是一種判別分類器,通過查找決策面來工作。它是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法。
在此算法中,我們將每個(gè)數(shù)據(jù)項(xiàng)繪制為n維空間中的點(diǎn)(其中n是特征數(shù)),每個(gè)特征的值是特定坐標(biāo)的值。然后,通過找到最好的區(qū)分兩個(gè)類的超平面來進(jìn)行分類,即最大余量,下面的例子中是C.
但是,如果數(shù)據(jù)像下面的情況那樣該怎樣線性分離呢?
我們一般認(rèn)為決策面必須是圓形或橢圓形,但怎么找到它?這里,使用了內(nèi)核轉(zhuǎn)換的概念。在線性代數(shù)中,從一個(gè)空間轉(zhuǎn)換到另一個(gè)空間的想法非常普遍。
讓我們介紹一個(gè)變量。如果我們沿z軸和x軸繪制數(shù)據(jù),就是下面的樣子:
這顯然可以通過 z=a 線性分離,其中a是一些正常數(shù)。在轉(zhuǎn)換回原始空間時(shí),我們得到
作為決策曲面,這是一個(gè)圓圈!最后的部分?我們不需要手動添加其他函數(shù)。SVM有一種稱為內(nèi)核技巧的技術(shù)。閱讀有關(guān)支持向量機(jī)的這篇文章(https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/?utm_source=blog&utm_medium=10-applications-linear-algebra-data-science),了解SVM,內(nèi)核技巧以及如何在Python中實(shí)現(xiàn)它。
您將經(jīng)常使用具有數(shù)百甚至數(shù)千個(gè)變量的數(shù)據(jù)集。這是行業(yè)運(yùn)作的方式。查看每個(gè)變量并確定哪個(gè)變量更重要是否切合實(shí)際?
這并沒有多大意義。我們需要降低變量的數(shù)量來執(zhí)行任何類型的連貫性分析。這就是為什么減少維數(shù)的原因?,F(xiàn)在,我們來看看常用的兩種降維方法。
主成分分析(PCA)是一種無監(jiān)督降維技術(shù)。PCA會找到最大方差的方向并沿著它們的投影以減小維度。
在不深入數(shù)學(xué)的情況下,這些方向就是數(shù)據(jù)的協(xié)方差矩陣的特征向量。
方陣的特征向量是特殊的非零向量,即使在對矩陣應(yīng)用線性變換(乘法)之后,其方向也不會改變。它們顯示為下圖中的紅色矢量:
您可以使用scikit-learn包中的PCA類輕松地在Python中實(shí)現(xiàn)PCA:
from sklearn.decomposition import PCA
// say you want to reduce to 2 features
pca = PCA(n_components = 2)
// obtain transformed data
data_transformed = pca.fit_transform(data)
我在sklearn 的Digits(https://scikit-learn.org/stable/auto_examples/datasets/plot_digits_last_image.html)數(shù)據(jù)集上應(yīng)用了PCA - 一組8×8的手寫數(shù)字圖像。我獲得的結(jié)果相當(dāng)令人印象深刻。數(shù)字看起來很好地聚集在一起:
參閱我們的12維降維技術(shù)綜合指南(https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/?utm_source=blog&utm_medium=10-applications-linear-algebra-data-science),并用Python代碼深入了解PCA和其他11種降維技術(shù)。老實(shí)說,這是你可以找到關(guān)于這個(gè)主題的最好的文章之一。
在我看來,奇異值分解(SVD)被低估了,沒有進(jìn)行足夠的討論。這是一種令人驚嘆的矩陣分解技術(shù),具有多種應(yīng)用。我將在以后的文章中嘗試介紹其中的一些內(nèi)容。
現(xiàn)在,讓我們談?wù)劸S度降低中的SVD。具體而言,這稱為截?cái)郤VD。
我們從大的mxn數(shù)值數(shù)據(jù)矩陣A開始,其中m是行數(shù),n是特征的數(shù)量
將其分解為3個(gè)矩陣,如下所示:
根據(jù)對角矩陣選擇k個(gè)奇異值,并相應(yīng)地截?cái)啵ㄐ藜簦?個(gè)矩陣:
最后,將截?cái)嗟木仃囅喑艘垣@得變換后的矩陣A_k。它的尺寸為mx k。因此,它具有k < n的k個(gè)特征
以下是在Python中實(shí)現(xiàn)截?cái)嗟腟VD的代碼(它與PCA非常相似):
from sklearn.decomposition import TruncatedSVD
//減少到2個(gè)特征
svd = TruncatedSVD(n_features = 2)
//獲取轉(zhuǎn)換后的數(shù)據(jù)
data_transformed = svd.fit_transform(data)
在將截?cái)嗟腟VD應(yīng)用于Digits數(shù)據(jù)時(shí),我得到了下面的圖。您會注意到它不像我們在PCA之后獲得的那樣集群:
作為機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)背后的線性代數(shù)知識系列開篇,本篇主要介紹了機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)背后的數(shù)學(xué)技術(shù)十大應(yīng)用之基礎(chǔ)機(jī)器學(xué)習(xí)部分與降維部分。涵蓋損失函數(shù)、正則化、協(xié)方差矩陣、支持向量機(jī)(SVM)、主成分分析(PCA)與奇異值分解(SVD)背后的線性代數(shù)知識。相信這也是各位數(shù)據(jù)科學(xué)愛好者常用的各項(xiàng)技術(shù),希望可以幫大家理清思路和對這些算法有更進(jìn)一步的認(rèn)識。
聯(lián)系客服