數(shù)據(jù)科學 | 算法工程師必備的數(shù)學基礎(chǔ)（上）

520jefferson >《機器學習/深度學習/tensorflow》

2020.05.25

關(guān)注

『運籌OR帷幄』原創(chuàng)

作者：華校專

華校專，曾任阿里巴巴資深算法工程師、智易科技首席算法研究員，現(xiàn)任騰訊高級研究員，《Python 大戰(zhàn)機器學習》的作者。

編者按

對于想要了解模型的底層邏輯，優(yōu)化算法性能的工程師，線性代數(shù)、高等數(shù)學、概率論都是必備的基礎(chǔ)知識。作者以淺顯的語言，深入淺出的總結(jié)了算法中涉及的主要數(shù)學知識，對于工作中速查和深入學習都大有裨益。

線性代數(shù)和概率論，是算法的基礎(chǔ)知識。掌握這些知識，對于公式推導(dǎo)及算法理解大有裨益。

我們在計算損失函數(shù)時，一般需要加入正則化的范數(shù)項，那么范數(shù)的計算公式還記得么？

線性代數(shù)

一、基本知識

1.本書中所有的向量都是列向量的形式：

本書中所有的矩陣都表示為：

簡寫為：或者。

2.矩陣的F范數(shù)：設(shè)矩陣，則其F 范數(shù)為：

。

它是向量的范數(shù)的推廣。

3.矩陣的跡：設(shè)矩陣，則的跡為：。

跡的性質(zhì)有：

的F范數(shù)等于的跡的平方根：。
的跡等于的跡：。
交換律：假設(shè)，則有
結(jié)合律：

。

過濾算法中的歐氏距離和余弦相似度是如何計算的？

二、向量操作

1.一組向量是線性相關(guān)的：指存在一組不全為零的實數(shù) ，使得：。

一組向量是線性無關(guān)的，當且僅當時，才有：。

2.一個向量空間所包含的最大線性無關(guān)向量的數(shù)目，稱作該向量空間的維數(shù)。

3.三維向量的點積：

4.三維向量的叉積：

其中分別為軸的單位向量。

1. 和的叉積垂直于構(gòu)成的平面，其方向符合右手規(guī)則。

叉積的模等于構(gòu)成的平行四邊形的面積

5.三維向量的混合積：

其物理意義為：以為三個棱邊所圍成的平行六面體的體積。當構(gòu)成右手系時，該平行六面體的體積為正號。

6.兩個向量的并矢：給定兩個向量，則向量的并矢記作：

也記作或者。

熟悉下貝葉斯估計的基本假設(shè):獨立同分布。

概率論與隨機過程

一、概率與分布

1.1 條件概率與獨立事件

1.條件概率：已知事件發(fā)生的條件下發(fā)生的概率，記作，它等于事件的概率相對于事件的概率，即：。其中必須有。

2.條件概率分布的鏈式法則：對于個隨機變量，有：

3.兩個隨機變量相互獨立的數(shù)學描述：。記作：。

4.兩個隨機變量關(guān)于隨機變量條件獨立的數(shù)學描述：。記作：。

特征工程中的相關(guān)性系數(shù)與協(xié)方差計算，你還記得多少？

二、期望和方差

2.3 協(xié)方差與相關(guān)系數(shù)

1.對于二維隨機變量 (X,Y) ，可以討論描述 X 與 Y 之間相互關(guān)系的數(shù)字特征。

定義為隨機變量與的協(xié)方差，記作。
定義為隨機變量與的相關(guān)系數(shù)，它是協(xié)方差的歸一化。

2.由定義可知：

3.協(xié)方差的性質(zhì)：

為常數(shù)。

4.協(xié)方差的物理意義：

協(xié)方差的絕對值越大，說明兩個隨機變量都遠離它們的均值。
協(xié)方差如果為正，則說明兩個隨機變量同時趨向于取較大的值或者同時趨向于取較小的值；如果為負，則說明一個隨變量趨向于取較大的值，另一個隨機變量趨向于取較小的值。
兩個隨機變量的獨立性可以導(dǎo)出協(xié)方差為零。但是兩個隨機變量的協(xié)方差為零無法導(dǎo)出獨立性。因為獨立性也包括：沒有非線性關(guān)系。有可能兩個隨機變量是非獨立的，但是協(xié)方差為零。如：假設(shè)隨機變量。定義隨機變量的概率分布函數(shù)為：

定義隨機變量，則隨機變量是非獨立的，但是有：。

5.相關(guān)系數(shù)的物理意義：考慮以隨機變量的線性函數(shù) 近似表示Y。以均方誤差

來衡量以近似表達的好壞程度。越小表示近似程度越高。

為求得最好的近似，則對分別取偏導(dǎo)數(shù)，得到：

因此有以下定理：

（是絕對值）。
的充要條件是：存在常數(shù) 使得。

6.當較大時，較小，意味著隨機變量和聯(lián)系較緊密。于是是一個表征之間線性關(guān)系緊密程度的量。

7.當時，稱和不相關(guān)。

不相關(guān)是就線性關(guān)系來講的，而相互獨立是一般關(guān)系而言的。
相互獨立一定不相關(guān)；不相關(guān)則未必獨立。

常見的概率分布，你還記得幾種？

五、常見概率分布

5.1 均勻分布

離散隨機變量的均勻分布：假設(shè) 有個取值：，則均勻分布的概率密度函數(shù)(probability mass function:PMF)為：

連續(xù)隨機變量的均勻分布：假設(shè) X 在上均勻分布，則其概率密度函數(shù)(probability density function：PDF)為：

5.2 伯努利分布

1.伯努利分布：參數(shù)為。隨機變量。

概率分布函數(shù)為：。
期望：。方差：。

2.categorical分布：它是二項分布的推廣，也稱作multinoulli分布。假設(shè)隨機變量，其概率分布函數(shù)為：

其中為參數(shù)，它滿足，且。

5.3 二項分布

1.假設(shè)試驗只有兩種結(jié)果：成功的概率為，失敗的概率為。則二項分布描述了：獨立重復(fù)地進行次試驗中，成功次的概率。

概率質(zhì)量函數(shù)：

期望：。方差：。

5.4 高斯分布

正態(tài)分布是很多應(yīng)用中的合理選擇。如果某個隨機變量取值范圍是實數(shù)，且對它的概率分布一無所知，通常會假設(shè)它服從正態(tài)分布。有兩個原因支持這一選擇：

建模的任務(wù)的真實分布通常都確實接近正態(tài)分布。中心極限定理表明，多個獨立隨機變量的和近似正態(tài)分布。

在具有相同方差的所有可能的概率分布中，正態(tài)分布的熵最大（即不確定性最大）。

以上如想閱讀全文，請點擊以下鏈接：

線性代數(shù)

(http://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/1_algebra.html

概率論與隨機過程(http://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/2_probability.html)

文章作者：華校專

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

讀書筆記-（統(tǒng)計學習）

高等數(shù)學

2018考研數(shù)學三到六月復(fù)習策略

深入剖析機器學習中的統(tǒng)計思想

數(shù)學一二三考研區(qū)別

獨立成分分析（Independent Component Analysis）

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

線性代數(shù)

一、基本知識

二、向量操作

概率論與隨機過程

一、概率與分布

1.1 條件概率與獨立事件

二、期望和方差

2.3 協(xié)方差與相關(guān)系數(shù)

五、常見概率分布

5.1 均勻分布

5.2 伯努利分布

5.3 二項分布

5.4 高斯分布

一、基本知識

二、向量操作