作者:華校專
華校專,曾任阿里巴巴資深算法工程師、智易科技首席算法研究員,現(xiàn)任騰訊高級研究員,《Python 大戰(zhàn)機器學習》的作者。
編者按
對于想要了解模型的底層邏輯,優(yōu)化算法性能的工程師,線性代數(shù)、高等數(shù)學、概率論都是必備的基礎(chǔ)知識。作者以淺顯的語言,深入淺出的總結(jié)了算法中涉及的主要數(shù)學知識,對于工作中速查和深入學習都大有裨益。
線性代數(shù)和概率論,是算法的基礎(chǔ)知識。掌握這些知識,對于公式推導(dǎo)及算法理解大有裨益。
我們在計算損失函數(shù)時,一般需要加入正則化的范數(shù)項,那么范數(shù)的計算公式還記得么?
1.本書中所有的向量都是列向量的形式:
本書中所有的矩陣 都表示為:
簡寫為: 或者 。
2.矩陣的F范數(shù):設(shè)矩陣 ,則其F 范數(shù)為:
。
它是向量的范數(shù)的推廣。
3.矩陣的跡:設(shè)矩陣 ,則 的跡為: 。
跡的性質(zhì)有:
的F
范數(shù)等于的跡的平方根:。
的跡等于的跡: 。
交換律:假設(shè),則有
結(jié)合律:
。
過濾算法中的歐氏距離和余弦相似度是如何計算的?
1.一組向量 是線性相關(guān)的:指存在一組不全為零的實數(shù) ,使得: 。
一組向量 是線性無關(guān)的,當且僅當 時,才有: 。
2.一個向量空間所包含的最大線性無關(guān)向量的數(shù)目,稱作該向量空間的維數(shù)。
3.三維向量的點積:
4.三維向量的叉積:
其中 分別為 軸的單位向量。
1. 和 的叉積垂直于 構(gòu)成的平面,其方向符合右手規(guī)則。
叉積的模等于 構(gòu)成的平行四邊形的面積
5.三維向量的混合積:
其物理意義為:以 為三個棱邊所圍成的平行六面體的體積。當構(gòu)成右手系時,該平行六面體的體積為正號。
6.兩個向量的并矢:給定兩個向量 ,則向量的并矢記作:
也記作 或者 。
熟悉下貝葉斯估計的基本假設(shè):獨立同分布。
1.條件概率:已知事件發(fā)生的條件下發(fā)生的概率,記作,它等于事件的概率相對于事件的概率,即: 。其中必須有 。
2.條件概率分布的鏈式法則:對于個隨機變量,有:
3.兩個隨機變量相互獨立的數(shù)學描述:。記作:。
4.兩個隨機變量關(guān)于隨機變量條件獨立的數(shù)學描述:。記作: 。
特征工程中的相關(guān)性系數(shù)與協(xié)方差計算,你還記得多少?
1.對于二維隨機變量 (X,Y) ,可以討論描述 X 與 Y 之間相互關(guān)系的數(shù)字特征。
定義為隨機變量與的協(xié)方差,記作 。
定義 為隨機變量與的相關(guān)系數(shù),它是協(xié)方差的歸一化。
2.由定義可知:
3.協(xié)方差的性質(zhì):
為常數(shù)。
4.協(xié)方差的物理意義:
協(xié)方差的絕對值越大,說明兩個隨機變量都遠離它們的均值。
協(xié)方差如果為正,則說明兩個隨機變量同時趨向于取較大的值或者同時趨向于取較小的值;如果為負,則說明一個隨變量趨向于取較大的值,另一個隨機變量趨向于取較小的值。
兩個隨機變量的獨立性可以導(dǎo)出協(xié)方差為零。但是兩個隨機變量的協(xié)方差為零無法導(dǎo)出獨立性。因為獨立性也包括:沒有非線性關(guān)系。有可能兩個隨機變量是非獨立的,但是協(xié)方差為零。如:假設(shè)隨機變量 。定義隨機變量的概率分布函數(shù)為:
定義隨機變量 ,則隨機變量 是非獨立的,但是有: 。
5.相關(guān)系數(shù)的物理意義:考慮以隨機變量的線性函數(shù) 近似表示Y。以均方誤差
來衡量以近似表達的好壞程度。越小表示近似程度越高。
為求得最好的近似,則對 分別取偏導(dǎo)數(shù),得到:
因此有以下定理:
( 是絕對值)。
的充要條件是:存在常數(shù) 使得 。
6.當 較大時, 較小,意味著隨機變量 和 聯(lián)系較緊密。于是 是一個表征 之間線性關(guān)系緊密程度的量。
7.當 時,稱 和 不相關(guān)。
不相關(guān)是就線性關(guān)系來講的,而相互獨立是一般關(guān)系而言的。
相互獨立一定不相關(guān);不相關(guān)則未必獨立。
常見的概率分布,你還記得幾種?
離散隨機變量的均勻分布:假設(shè) 有 個取值: ,則均勻分布的概率密度函數(shù)(probability mass function:PMF)
為:
連續(xù)隨機變量的均勻分布:假設(shè) X 在 上均勻分布,則其概率密度函數(shù)(probability density function:PDF)
為:
1.伯努利分布:參數(shù)為 。隨機變量 。
概率分布函數(shù)為: 。
期望: 。方差: 。
2.categorical
分布:它是二項分布的推廣,也稱作multinoulli
分布。假設(shè)隨機變量,其概率分布函數(shù)為:
其中 為參數(shù),它滿足 ,且 。
1.假設(shè)試驗只有兩種結(jié)果:成功的概率為 ,失敗的概率為 。則二項分布描述了:獨立重復(fù)地進行次試驗中,成功 次的概率。
正態(tài)分布是很多應(yīng)用中的合理選擇。如果某個隨機變量取值范圍是實數(shù),且對它的概率分布一無所知,通常會假設(shè)它服從正態(tài)分布。有兩個原因支持這一選擇:
建模的任務(wù)的真實分布通常都確實接近正態(tài)分布。中心極限定理表明,多個獨立隨機變量的和近似正態(tài)分布。
在具有相同方差的所有可能的概率分布中,正態(tài)分布的熵最大(即不確定性最大)。
以上如想閱讀全文,請點擊以下鏈接:
線性代數(shù)
(http://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/1_algebra.html
概率論與隨機過程(http://www.huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/2_probability.html)
文章作者:華校專
聯(lián)系客服