本文轉(zhuǎn)載至:機器之心
許多數(shù)據(jù)科學家主要是從一個數(shù)據(jù)從業(yè)者的角度來研究機器學習(ML)。因此,關(guān)于機器學習,我們應(yīng)該盡可能多地把注意力放在新的程序包、框架、技術(shù)等方面,而不是關(guān)于核心理論的深入研究。在本文中,我所定義的機器學習包含所有的統(tǒng)計機器學習方法,因此不僅僅指深度學習。
然而,經(jīng)過一番努力的探究和思考后,我們可以提出很多不錯的機器學習問題,而當我們試圖回答和分析這些問題時,就可以很好地揭示問題更深層次的內(nèi)涵?;旧希@些問題可能有助于我們擺脫上面所說的那堆問題。我們并非只想一直對數(shù)據(jù)集進行操作,我們想更加深入地研究機器學習技術(shù)的特性、奇怪的地方以及復雜的細節(jié),并最終能夠很好地接受它們。
事實上,網(wǎng)絡(luò)上有很多關(guān)于「機器學習面試問題」的文章,本文希望能稍微用不一樣的、有趣的方式來討論這些問題。
聲明:我將這些問題列舉出來只是為了啟發(fā)大家的思考,促進相關(guān)的討論。這個問題并沒有現(xiàn)成的答案。我們會對某些問題給出提示,而這只是為了引發(fā)進一步的討論,而不是給出了一個確切的答案。每個問題都值得被更詳細地討論,因此也就沒有固定答案。有些問題是經(jīng)過設(shè)計特意提出的,而有些只是為了逗大家開心。
問題
1. 我在 95% 的置信區(qū)間下構(gòu)建了一個線性回歸模型。這是否意味著我的模型參數(shù)對于試圖近似的函數(shù)有 95% 的概率是真實的估計值?(提示:這實際上意味著在 95% 的試驗情況下...)
2. Hadoop 文件系統(tǒng)和 KNN(k 最近鄰)算法有什么相似之處呢?(提示:都很「懶」)
3. 哪個模型結(jié)構(gòu)的表示能力更強大?(例如,它可以精確地表示一個給定的布爾函數(shù)),是一個單層感知機還是一個兩層的決策樹?(提示:以異或函數(shù)為例)
4. 對于一個兩層決策樹和一個不帶有任何激活函數(shù)的兩層神經(jīng)網(wǎng)絡(luò),誰更加強大?(提示:考慮一下非線性函數(shù)的情況?)
5. 神經(jīng)網(wǎng)絡(luò)可以作為降維的工具嗎?請詳細解釋一下。(提示:自編碼器)
6. 似乎很多人都忽視了截距項在線性回歸模型中的作用,請告訴我一個截距項的功能。(提示:噪聲(「垃圾」)收集器)
7. Lasso 正則化可以將系數(shù)降低到正好為零。嶺回歸可以將系數(shù)降低到非常小的非零值。你能從兩個簡單的函數(shù)「|x| 和 x2」的圖像中直觀地解釋他們的不同之處嗎?(提示:請注意 |x| 函數(shù)圖像中的尖點)
8. 假設(shè)你對數(shù)據(jù)集(連續(xù)值)的分布一無所知,你不能假設(shè)它是高斯分布。請用最簡單的論證來說明:無論真是的分布是什么,你都能保證有大約 89% 的數(shù)據(jù)會落在均值附近 +/- 3 個標準差的范圍內(nèi)。(提示:馬爾可夫的博士導師是誰?)
9. 大多數(shù)機器學習算法涉及到一些對矩陣的操作,例如矩陣乘法和求逆矩陣。請給出一個簡單的數(shù)學證明,說明為什么這種機器學習算法的 mini-batch 版本可能比在整個數(shù)據(jù)集上進行訓練的計算效率更高?(提示:矩陣乘法的時間復雜度...)
10. 難道你不認為時間序列是一個非常簡單的線性回歸問題,它僅僅有一個因變量和一個自變量(時間)?在使用時序數(shù)據(jù)時,線性回歸擬合(可能是多項式回歸)的方法有什么問題?(提示:過去的信息預示著未來...)
11. 請給出一個簡單的數(shù)學證明,說明在所有可能的樹結(jié)構(gòu)中找到適用于分類問題的最優(yōu)決策樹是一個復雜度為指數(shù)級的問題。(提示:森林中究竟會有多少棵樹?)
12. 決策樹和神經(jīng)網(wǎng)絡(luò)都是非線性分類器,也就是說,通過復雜的決策邊界來分割解空間。那么,直觀地看,為什么我們認為使用決策樹模型比深度神經(jīng)網(wǎng)絡(luò)要容易得多呢?
13. 反向傳播是深度學習的關(guān)鍵算法。請列舉一些可能替代反向傳播算法來訓練神經(jīng)網(wǎng)絡(luò)的技術(shù)。(提示:隨機搜索...)
14. 假設(shè)你現(xiàn)在有兩個問題(線性回歸和 logistic 回歸)。其中哪一個更有可能從超快大型矩陣乘法算法中獲益?為什么?(提示:哪個算法更可能使用矩陣操作?)
15. 自變量之間的相關(guān)性對主成分分析有何影響?你將如何對其進行處理?
16. 你需要建立一個關(guān)于隕石撞地球的分類模型(這是對于人類文明很重要的項目)。經(jīng)過初步分析后,你得到了 99% 的準確率。你應(yīng)該感到高興嗎?為什么?你能為此做些什么?(提示:小概率事件...)
17. 是否有可能捕獲連續(xù)變量和類別變量之間的關(guān)系?如果以的話,需要怎么做?
18. 如果你正在研究基因表達數(shù)據(jù),通常會有數(shù)百萬個自變量,而只有幾百個樣本。請給出簡單的數(shù)學證明,說明為什么在這種情況下,使用最小二乘法構(gòu)建一個回歸模型并不是一個好的選擇。(提示:從矩陣代數(shù)的角度思考...)
19. 請解釋,為什么 k 折交叉驗證對于時序模型效果并不好。你能做些什么來改善這種情況?(提示:剛剛過去的信息對于未來有較強的指導作用...)
20. 對于回歸問題來說,從訓練數(shù)據(jù)中通過簡單隨機抽樣得到訓練集和驗證集是很有效的。但是對于一個分類問題來說,這種方法會存在什么問題?為此我們能做些什么?(提示:所有類別的樣本是否能被公平地抽取出來?)
21. 模型的準確率和性能,哪一個對你來說更重要?
22. 如果你可以利用多個 CPU 內(nèi)核,你會更喜歡提升樹算法而不是隨機森林嗎?為什么?(提示:如果你有 10 只手去完成一項任務(wù),你會如何利用它)
23. 假設(shè)已知數(shù)據(jù)集是線性可分的,而你需要保證算法能夠收斂并且具有最大的迭代次數(shù)/訓練步數(shù)(由于計算資源有限)。在這種情況下你會使用梯度下降法嗎?你會選擇什么方法呢?(提示:哪種簡單的算法能夠保證找到解?)
24. 假設(shè)你擁有的內(nèi)存/存儲空間非常小。你會更喜歡 logistic 回歸還是 KNN 算法?為什么?(提示:空間復雜度)
25. 為了構(gòu)建一個機器學習模型,你準備了 100 個數(shù)據(jù)點和 5 種特征。為了減少偏差,你又引入了 5 個特征變量,并且又收集了 100 個數(shù)據(jù)點。請解釋這種方法是否正確。(提示:機器學習會遇到的(維度)災(zāi)難,你聽說過嗎?)
原文鏈接:https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa
聯(lián)系客服