中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
數(shù)學(xué)工具系列之內(nèi)核與內(nèi)核函數(shù)是美麗的數(shù)學(xué)概念,解決復(fù)雜問題

內(nèi)核或內(nèi)核函數(shù)是美麗的數(shù)學(xué)概念,以不同的形式用于機(jī)器學(xué)習(xí)和統(tǒng)計。如果您是初學(xué)者,您可能很想知道內(nèi)核的確切定義,但您可能會對 Internet 上博客/網(wǎng)站上解釋的內(nèi)核的多種定義感到困惑。

核函數(shù)是一個令人困惑的概念,只是因為圍繞它的知識分散在其應(yīng)用程序中,并且缺少將它們聯(lián)系起來的共同直覺。這個(龐大的)博客旨在統(tǒng)一不同 ML 應(yīng)用程序中使用的內(nèi)核的所有知識。和大多數(shù)初學(xué)者一樣,核函數(shù)讓我很長一段時間都處于迷茫狀態(tài),直到我形成了一種可以連接所有環(huán)節(jié)的直覺。

我們從非參數(shù)模型開始我們的旅程,然后我們開始討論不同類型的內(nèi)核及其在統(tǒng)計和 ML 中的典型應(yīng)用。與核函數(shù)類似,我試圖從數(shù)學(xué)上解釋 PCA,同時考慮所有觀點(diǎn)。

非參數(shù)模型

非參數(shù)模型是那些沒有隨輸入大小而增長的參數(shù)的統(tǒng)計模型。請注意,非參數(shù)模型并不意味著“零參數(shù)模型”,而是它們使用一組固定的參數(shù),也稱為超參數(shù),這些參數(shù)不會隨著輸入維數(shù)的增加而增加。香草線性回歸模型,具有參數(shù)θ確定超平面的斜率,其大小取決于輸入x的維數(shù),

等式 1. 具有可調(diào)參數(shù)的簡單線性回歸模型,其大小取決于特征數(shù)N。函數(shù)f表示給定

等式 1. 具有可調(diào)參數(shù)的簡單線性回歸模型,其大小取決于特征數(shù)N。函數(shù)f表示給定輸入x的因變量y的期望值,即E[y|x]

接下來,考慮 KNN 模型,我們通過分析測試樣本的K 個最近鄰居的類別來確定測試樣本的類別。如果K = 1,我們假設(shè)測試樣本與最近鄰樣本屬于同一類。該模型沒有任何會隨著輸入維度的增加而增長的參數(shù)。對于 vanilla 實(shí)現(xiàn),我們只需要一個參數(shù)K,即使我們使用大輸入(在維度方面)也是如此。

KNN 是一個非參數(shù)模型,它有一個由用戶提供的超參數(shù)K。乍一看,非參數(shù)似乎是一個顯而易見的選擇,因為,

他們沒有對數(shù)據(jù)的分布做出任何先驗假設(shè)。例如,在香草線性回歸的情況下,它是一個參數(shù)模型,我們假設(shè)給定X (特征)的Y (因變量)的條件分布是高斯分布,其平均值是特征的線性組合(其中權(quán)重是θ)和方差等于σ2

2.給定X和參數(shù)θ的Y的條件分布是正態(tài)分布,我們希望從中獲取X 的均值。常數(shù)方差是同方差假設(shè)的結(jié)果

這可能并不總是成立,因為,

對于每個測試樣本,他們需要將整個訓(xùn)練數(shù)據(jù)保存在內(nèi)存中,這對于 KNN 模型也是如此。對于每個樣本,我們需要計算它與每個訓(xùn)練樣本的距離,因此我們需要在內(nèi)存中檢索/存儲每個樣本,這對于大型數(shù)據(jù)集甚至具有大量特征的更小數(shù)據(jù)集可能不可行。

非參數(shù)模型的基本思想是從數(shù)據(jù)中收集一些有用的見解并用于解決給定的問題,而不用在可調(diào)參數(shù)中編碼有關(guān)數(shù)據(jù)的信息。

接下來,我們繼續(xù)討論內(nèi)核,它們在 ML 中具有不同的用例,并且它們在每種情況下的含義略有不同。到目前為止,在為這個博客進(jìn)行研究之后,以及我之前嘗試將內(nèi)核作為一個整體來理解之后,我覺得內(nèi)核是提供關(guān)于給定數(shù)據(jù)點(diǎn)的鄰居信息的機(jī)器(作為機(jī)器的輸入)。然后將此本地信息(即位于所考慮數(shù)據(jù)點(diǎn)附近數(shù)據(jù)點(diǎn)的信息)用于給定問題。一旦我們在每個數(shù)據(jù)點(diǎn)上使用核函數(shù),我們就可以清楚地了解數(shù)據(jù)的局部性

我們將探討內(nèi)核的這三個方面,這是三個不同的概念及其在 ML 中的主要應(yīng)用,

  • 密度內(nèi)核
  • 美世內(nèi)核
  • 圖像處理中的內(nèi)核

密度內(nèi)核:使用內(nèi)核進(jìn)行密度估計

密度核、核密度估計、核回歸

我們可以使用核來估計給定測試樣本的概率密度,方法是使用訓(xùn)練樣本對基礎(chǔ)概率分布進(jìn)行建模??紤]到 ML 術(shù)語,術(shù)語“測試”樣本和“訓(xùn)練”樣本分別僅指未觀察到的樣本和觀察到的樣本。

對于連續(xù)隨機(jī)變量X ,我們可以在一個合適的范圍內(nèi)對X的概率密度函數(shù)進(jìn)行積分,比如從x_1x_2 ,我們就可以得到X在[ x_1 , x_2 ]范圍內(nèi)取值的概率。

密度核和核密度估計 (KDE)

讓我們從一個問題開始我們的討論。Panchal博士住在一個擁擠的街區(qū),四面都是房屋。當(dāng)?shù)鼐狡刚埩艘幻麄商?,其工作是確定住在醫(yī)生家中的人數(shù)或他的家庭成員,以確保事情進(jìn)展順利。偵探不能按醫(yī)生的鈴,問有多少家庭成員住在那里,因為如果有可疑的東西,它會警告醫(yī)生。

偵探首先會審問與 Panchal 博士家相鄰的房屋,因為他們可以清楚地看到里面的東西。期望偵探對從這些直接鄰居獲得的信息給予更高的權(quán)重/重要性。接下來,為了獲得更多見解,偵探審問了稍微遠(yuǎn)一些的房子,這些房子不能直接看到 Panchal 博士的房子,但可能有他們鄰居的良好信息。偵探不太重視從這些鄰居那里收到的信息,因為他們的觀察可能不如直接鄰居(他們的房子與 Panchal 的房子相鄰)那么正確。偵探進(jìn)行了幾次這樣的回合以降低重要性,離開了 Panchal 博士的房子。

密度核的作用類似于捕獲給定點(diǎn)周圍的相鄰信息。如果我們給定一個包含N個樣本的數(shù)據(jù)集D,其中每個樣本都是實(shí)數(shù),

上面代碼片段中的內(nèi)核是 Epanechnikov(拋物線)內(nèi)核。核函數(shù)在這里有一些特殊的性質(zhì)

  • 屬性 1:核函數(shù)或偵探與 x 或某個鄰居的房子位于哪個方向無關(guān)。從右邊的兩所房子或左邊的兩所房子獲得的信息是相同的。
  • 屬性 2:核函數(shù)代表一個有效的 PDF,它在整個實(shí)域上積分為 1。
  • 屬性 3 :核的支持度是所有值u的集合,使得K(u)不等于 0。它表示偵探的覆蓋區(qū)域,從那里收集的信息將被賦予一些非零重要性。如果偵探?jīng)Q定在 5 公里半徑內(nèi)的所有房屋中進(jìn)行審訊,則支持將是該 5 公里圈內(nèi)的所有房屋。

每種類型的內(nèi)核都將執(zhí)行類似的編碼相鄰信息的任務(wù),每個內(nèi)核都有不同的策略來執(zhí)行此操作。與我們的偵探不同,當(dāng)他離開 Panchal 博士的房子時,他會慢慢降低審訊的重要性(高斯內(nèi)核會做到這一點(diǎn)),另一名偵探可能會繼續(xù)對所有審訊給予同等重視,在一定程度上忽略距離(a統(tǒng)一內(nèi)核)。想象一下,從我們的數(shù)據(jù)集D中,所有x_i的分布是,

我們的目標(biāo)是創(chuàng)建X的概率分布估計。我們將通過估計每個樣本x_i 的密度并使用核來收集鄰近信息來做到這一點(diǎn),


如果x_i遠(yuǎn)離x,| x — x_i | 將具有較大的值,從而為K( x — x_i )產(chǎn)生一個非常小的值,并減少x_i在確定x處的概率密度時的發(fā)言權(quán)。參數(shù)h是稱為內(nèi)核帶寬的平滑參數(shù)。h的值越大,預(yù)測的概率密度就越平滑。

內(nèi)核回歸

核回歸是線性回歸模型的非參數(shù)版本,我們在其中對結(jié)果變量的條件期望進(jìn)行建模。在簡單線性回歸的情況下,我們對條件期望E[ Y | X ]直接表示為自變量的線性組合。這產(chǎn)生了一個判別模型,而核回歸是一個生成模型,因為我們通過核密度估計對聯(lián)合概率分布P( X , Y )P( X )進(jìn)行建模。

推導(dǎo)E[ Y |的估計量 X ]沒有任何附加參數(shù)。在簡單線性回歸的情況下,E[ Y | X ]將被建模為所有X_i的加權(quán)線性組合,其中權(quán)重是參數(shù)。

觀察結(jié)果表達(dá)式,您會發(fā)現(xiàn)預(yù)測結(jié)果y_hat是所有y_i的加權(quán)組合,其中權(quán)重由所有x_i的核函數(shù)值確定。

Mercer Kernels:更高維度的點(diǎn)積

Mercer 內(nèi)核和正定性,在 SVM 中使用 Mercer 內(nèi)核

Mercer Kernels 或 Positive definite kernels 是接受兩個輸入并產(chǎn)生一個實(shí)數(shù)的函數(shù),該實(shí)數(shù)表征兩個輸入(或其高維表示)在其他空間中的接近度。事實(shí)證明,從計算的角度來看,這些內(nèi)核很有用,因為它們可以幫助我們計算高維向量的點(diǎn)積,而無需明確執(zhí)行任何轉(zhuǎn)換以將我們自己的向量帶入該高維空間。

美世內(nèi)核

讓我們從定義內(nèi)核函數(shù)及其一些屬性開始我們的討論,

  1. Mercer 內(nèi)核是一個函數(shù),它從我們的數(shù)據(jù)集D中獲取兩個數(shù)據(jù)點(diǎn),并輸出一個實(shí)數(shù),表示這兩個數(shù)據(jù)點(diǎn)在特征空間中的接近度。
  2. 如果我們的數(shù)據(jù)集D中有n 個數(shù)據(jù)點(diǎn),并且我們在每對數(shù)據(jù)點(diǎn)上運(yùn)行 Mercer 內(nèi)核并將結(jié)果輸出排列在一個矩陣中,我們將獲得一個正定矩陣。這個描述數(shù)據(jù)點(diǎn)之間相似性的矩陣稱為 Gram 矩陣。

考慮到它們的譜特性,正定矩陣是特殊的。它們具有正特征值,相應(yīng)的特征向量構(gòu)成正交基。對于 mercer 內(nèi)核,我們有一個特殊的屬性,使用該屬性可以將核函數(shù)的值表示為兩個變換向量的點(diǎn)積,


人們可能有一種沖動,想感受一下這句話背后的直覺,但它存在于希爾伯特空間的圣殿中,值得單獨(dú)寫一篇博客。目前,最好理解具有兩個輸入向量的核函數(shù)的值被描述為其他兩個更高維向量的點(diǎn)積。

Mercer 內(nèi)核為計算這兩個高維向量之間的點(diǎn)積提供了一種捷徑,而無需顯式計算這些向量。因此,我們可以利用高維空間的優(yōu)勢有時在機(jī)器學(xué)習(xí)中很有用,尤其是當(dāng)樣本不是線性可分的時候。

對于一些優(yōu)化問題,比如優(yōu)化 SVM 時遇到的問題,我們需要計算兩個變換后的樣本(兩個高維向量)之間的點(diǎn)積。核函數(shù)的使用將幫助我們輕松計算此點(diǎn)積,而無需對樣本執(zhí)行任何顯式轉(zhuǎn)換。

在 SVM 中使用 Mercer Kernel

SVM 是適合超平面的線性分類器,因此在兩類樣本之間形成決策邊界。為了確定最佳超平面,即將樣本分為兩類并最大化“邊距”的超平面,我們需要解決包含給定參數(shù)約束的目標(biāo)函數(shù)(最大化或最小化的函數(shù))的優(yōu)化問題的目標(biāo)。

向量 w 和 b 表征形成決策邊界的超平面。支持向量之間的邊距/寬度在下面的第一個表達(dá)式中給出。此外,我們將匹配 SVM 所做的預(yù)測和目標(biāo)標(biāo)簽,或者更準(zhǔn)確地說,匹配w.xi + byi的符號,

我們用拉格朗日乘數(shù)解決這個優(yōu)化問題,所以第一步是建立一個拉格朗日并將其參數(shù)的偏導(dǎo)數(shù)等同于零。這將產(chǎn)生一個w的表達(dá)式,它使拉格朗日量最小化。

將這些結(jié)果代入拉格朗日量后,我們得到一個表達(dá)式,它清楚地描述了核函數(shù)的作用,

為了獲得最佳超平面,我們需要計算數(shù)據(jù)集中樣本對之間的點(diǎn)積。在某些情況下,不可能找到最佳超平面,因為樣本可能不是線性可分的,即不能僅通過畫一條線/平面將樣本分為兩類。我們可以增加樣本的維數(shù),通過它我們可以很容易地發(fā)現(xiàn)一個分離超平面。

這種技術(shù)通常被稱為內(nèi)核技巧,是 Mercer 定理的直接結(jié)果。我們能夠計算兩個高維特征的點(diǎn)積,而無需將數(shù)據(jù)樣本顯式轉(zhuǎn)換到該高維空間。有了更多的維度,我們就有更大的自由度來確定最佳超平面。通過選擇不同的內(nèi)核,可以控制特征所在空間的維數(shù)。

內(nèi)核函數(shù)有一個更簡單的表達(dá)式來計算,就像下面列出的那樣,

卷積核:圖像處理

卷積和圖像處理中使用的內(nèi)核

內(nèi)核是固定大小的矩陣,它們在圖像或特征圖上進(jìn)行卷積以從中提取有用的信息。在圖像處理術(shù)語中,核矩陣也稱為卷積矩陣,用于對圖像進(jìn)行運(yùn)算。每個內(nèi)核都有自己的專門操作,可在卷積后轉(zhuǎn)換圖像。

卷積和內(nèi)核

卷積是一種數(shù)學(xué)運(yùn)算符,它接受兩個函數(shù)并產(chǎn)生另一個函數(shù)。如果我們對兩個函數(shù)或信號進(jìn)行卷積,則卷積的結(jié)果是一個表示兩個函數(shù)之間重疊區(qū)域的函數(shù)。在數(shù)學(xué)上,卷積運(yùn)算定義為,

描述卷積運(yùn)算及其數(shù)學(xué)定義的動畫圖。這類似于密度估計中執(zhí)行的“內(nèi)核滑動”。我們將內(nèi)核滑動到數(shù)據(jù)分布上,收集“鄰域信息”,然后估計特定點(diǎn)的密度。

在離散意義上,卷積運(yùn)算是通過在信號上滑動核函數(shù),將信號與核的相應(yīng)值相乘,并將所有這些乘積的和放入結(jié)果信號中來執(zhí)行的。在數(shù)學(xué)意義上,最好考慮用離散信號求和,而不是連續(xù)信號求和。

對一維離散信號進(jìn)行卷積運(yùn)算。上面的表達(dá)式顯示了相同的數(shù)學(xué)公式。

對于圖像,我們將在給定圖像上滑動 2D 內(nèi)核并執(zhí)行相同的操作。內(nèi)核的運(yùn)動在這里是二維的,與內(nèi)核在一維信號上的一維(單向)運(yùn)動相反。輸出將是一個矩陣,因為卷積運(yùn)算也在 2D 輸入上執(zhí)行。

與內(nèi)核矩陣的卷積。

我們可以使用不同的內(nèi)核從輸入中提取各種特征,或者增強(qiáng)圖像以進(jìn)行進(jìn)一步的操作。例如,sharpen kernel會銳化圖像中存在的邊緣。許多其他內(nèi)核在卷積時從圖像中提取有趣的特征,

CNN 中的內(nèi)核

我們剛剛看到的內(nèi)核是不變的,但如果我們可以參數(shù)化內(nèi)核并控制提取哪些特征呢?這將有助于卷積神經(jīng)網(wǎng)絡(luò),我們可以在其中微調(diào)內(nèi)核以最大程度地減少 NN 造成的總體損失。用內(nèi)核構(gòu)建的非參數(shù)模型的概念在這里會消失,因為 CNN 可以有大量的參數(shù),但鄰域信息提取的基本概念仍然有效。

這里內(nèi)核的功能類似于銳化或 Sobel X 內(nèi)核,但它將矩陣中的值視為參數(shù)而不是固定數(shù)字。這些可訓(xùn)練內(nèi)核通過反向傳播進(jìn)行優(yōu)化,以減少 CNN 中損失值的值。卷積層可以有許多這樣的內(nèi)核,統(tǒng)稱為過濾器。

第一個卷積層產(chǎn)生的輸出被傳遞到下一層。這創(chuàng)建了一個分層特征提取過程,其中圖像的低級特征由初始卷積層提取,高級特征由最終/最后一個卷積層跟蹤。這樣的一堆卷積與可訓(xùn)練的內(nèi)核相結(jié)合,使 CNN 能夠非常精確地識別圖像中的對象,從而打開了現(xiàn)代計算機(jī)視覺的大門。

結(jié)束

我希望這次穿越內(nèi)核世界的旅程讓您對這個概念著迷。內(nèi)核在各種主題中很容易混淆,但它們的核心思想保持不變,我們在博客中多次重復(fù)了這一點(diǎn)作為鄰域特征提取。核函數(shù)不是使用參數(shù)來捕獲數(shù)據(jù)中的模式,而是可以對樣本的相對接近度進(jìn)行編碼以捕獲數(shù)據(jù)中的趨勢。但是,必須了解參數(shù)模型有其自身的優(yōu)勢,并且它們的使用并沒有過時。大多數(shù)神經(jīng)網(wǎng)絡(luò)模型都是擁有數(shù)百萬個參數(shù)的巨大參數(shù)模型,它們可以解決諸如目標(biāo)檢測、圖像分類、語音合成等復(fù)雜問題。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
核函數(shù)(Kernel function)(舉例說明,通俗易懂)
基于MeanShift的目標(biāo)跟蹤算法及實(shí)現(xiàn)
高斯過程回歸(Gaussian Process Regression)——數(shù)學(xué)基礎(chǔ)
libSVM簡介及核函數(shù)模型選擇
基于支持向量機(jī)(SVM)的人臉識別
支持向量機(jī)(svm)新手入門篇
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服