动漫美女扒开屁股眼视频,范冰冰苹果浴室戏9分57视频

本文轉(zhuǎn)載至：機器之心

許多數(shù)據(jù)科學家主要是從一個數(shù)據(jù)從業(yè)者的角度來研究機器學習（ML）。因此，關(guān)于機器學習，我們應(yīng)該盡可能多地把注意力放在新的程序包、框架、技術(shù)等方面，而不是關(guān)于核心理論的深入研究。在本文中，我所定義的機器學習包含所有的統(tǒng)計機器學習方法，因此不僅僅指深度學習。

然而，經(jīng)過一番努力的探究和思考后，我們可以提出很多不錯的機器學習問題，而當我們試圖回答和分析這些問題時，就可以很好地揭示問題更深層次的內(nèi)涵?；旧希@些問題可能有助于我們擺脫上面所說的那堆問題。我們并非只想一直對數(shù)據(jù)集進行操作，我們想更加深入地研究機器學習技術(shù)的特性、奇怪的地方以及復雜的細節(jié)，并最終能夠很好地接受它們。

事實上，網(wǎng)絡(luò)上有很多關(guān)于「機器學習面試問題」的文章，本文希望能稍微用不一樣的、有趣的方式來討論這些問題。

聲明：我將這些問題列舉出來只是為了啟發(fā)大家的思考，促進相關(guān)的討論。這個問題并沒有現(xiàn)成的答案。我們會對某些問題給出提示，而這只是為了引發(fā)進一步的討論，而不是給出了一個確切的答案。每個問題都值得被更詳細地討論，因此也就沒有固定答案。有些問題是經(jīng)過設(shè)計特意提出的，而有些只是為了逗大家開心。

問題

1. 我在 95% 的置信區(qū)間下構(gòu)建了一個線性回歸模型。這是否意味著我的模型參數(shù)對于試圖近似的函數(shù)有 95% 的概率是真實的估計值？（提示：這實際上意味著在 95% 的試驗情況下...）

2. Hadoop 文件系統(tǒng)和 KNN（k 最近鄰）算法有什么相似之處呢？（提示：都很「懶」）

3. 哪個模型結(jié)構(gòu)的表示能力更強大？（例如，它可以精確地表示一個給定的布爾函數(shù)），是一個單層感知機還是一個兩層的決策樹？（提示：以異或函數(shù)為例）

4. 對于一個兩層決策樹和一個不帶有任何激活函數(shù)的兩層神經(jīng)網(wǎng)絡(luò)，誰更加強大？（提示：考慮一下非線性函數(shù)的情況？）

5. 神經(jīng)網(wǎng)絡(luò)可以作為降維的工具嗎？請詳細解釋一下。（提示：自編碼器）

6. 似乎很多人都忽視了截距項在線性回歸模型中的作用，請告訴我一個截距項的功能。（提示：噪聲（「垃圾」）收集器）

7. Lasso 正則化可以將系數(shù)降低到正好為零。嶺回歸可以將系數(shù)降低到非常小的非零值。你能從兩個簡單的函數(shù)「|x| 和 x2」的圖像中直觀地解釋他們的不同之處嗎？（提示：請注意 |x| 函數(shù)圖像中的尖點）

8. 假設(shè)你對數(shù)據(jù)集（連續(xù)值）的分布一無所知，你不能假設(shè)它是高斯分布。請用最簡單的論證來說明：無論真是的分布是什么，你都能保證有大約 89% 的數(shù)據(jù)會落在均值附近 +/- 3 個標準差的范圍內(nèi)。（提示：馬爾可夫的博士導師是誰？）

9. 大多數(shù)機器學習算法涉及到一些對矩陣的操作，例如矩陣乘法和求逆矩陣。請給出一個簡單的數(shù)學證明，說明為什么這種機器學習算法的 mini-batch 版本可能比在整個數(shù)據(jù)集上進行訓練的計算效率更高？（提示：矩陣乘法的時間復雜度...）

10. 難道你不認為時間序列是一個非常簡單的線性回歸問題，它僅僅有一個因變量和一個自變量（時間）？在使用時序數(shù)據(jù)時，線性回歸擬合（可能是多項式回歸）的方法有什么問題？（提示：過去的信息預示著未來...）

11. 請給出一個簡單的數(shù)學證明，說明在所有可能的樹結(jié)構(gòu)中找到適用于分類問題的最優(yōu)決策樹是一個復雜度為指數(shù)級的問題。（提示：森林中究竟會有多少棵樹？）

12. 決策樹和神經(jīng)網(wǎng)絡(luò)都是非線性分類器，也就是說，通過復雜的決策邊界來分割解空間。那么，直觀地看，為什么我們認為使用決策樹模型比深度神經(jīng)網(wǎng)絡(luò)要容易得多呢？

13. 反向傳播是深度學習的關(guān)鍵算法。請列舉一些可能替代反向傳播算法來訓練神經(jīng)網(wǎng)絡(luò)的技術(shù)。（提示：隨機搜索...）

14. 假設(shè)你現(xiàn)在有兩個問題（線性回歸和 logistic 回歸）。其中哪一個更有可能從超快大型矩陣乘法算法中獲益？為什么？（提示：哪個算法更可能使用矩陣操作？）

15. 自變量之間的相關(guān)性對主成分分析有何影響？你將如何對其進行處理？

16. 你需要建立一個關(guān)于隕石撞地球的分類模型（這是對于人類文明很重要的項目）。經(jīng)過初步分析后，你得到了 99% 的準確率。你應(yīng)該感到高興嗎？為什么？你能為此做些什么？（提示：小概率事件...）

17. 是否有可能捕獲連續(xù)變量和類別變量之間的關(guān)系？如果以的話，需要怎么做？

18. 如果你正在研究基因表達數(shù)據(jù)，通常會有數(shù)百萬個自變量，而只有幾百個樣本。請給出簡單的數(shù)學證明，說明為什么在這種情況下，使用最小二乘法構(gòu)建一個回歸模型并不是一個好的選擇。（提示：從矩陣代數(shù)的角度思考...）

19. 請解釋，為什么 k 折交叉驗證對于時序模型效果并不好。你能做些什么來改善這種情況？（提示：剛剛過去的信息對于未來有較強的指導作用...）

20. 對于回歸問題來說，從訓練數(shù)據(jù)中通過簡單隨機抽樣得到訓練集和驗證集是很有效的。但是對于一個分類問題來說，這種方法會存在什么問題？為此我們能做些什么？（提示：所有類別的樣本是否能被公平地抽取出來？）

21. 模型的準確率和性能，哪一個對你來說更重要？

22. 如果你可以利用多個 CPU 內(nèi)核，你會更喜歡提升樹算法而不是隨機森林嗎？為什么？（提示：如果你有 10 只手去完成一項任務(wù)，你會如何利用它）

23. 假設(shè)已知數(shù)據(jù)集是線性可分的，而你需要保證算法能夠收斂并且具有最大的迭代次數(shù)/訓練步數(shù)（由于計算資源有限）。在這種情況下你會使用梯度下降法嗎？你會選擇什么方法呢？（提示：哪種簡單的算法能夠保證找到解？）

24. 假設(shè)你擁有的內(nèi)存/存儲空間非常小。你會更喜歡 logistic 回歸還是 KNN 算法？為什么？（提示：空間復雜度）

25. 為了構(gòu)建一個機器學習模型，你準備了 100 個數(shù)據(jù)點和 5 種特征。為了減少偏差，你又引入了 5 個特征變量，并且又收集了 100 個數(shù)據(jù)點。請解釋這種方法是否正確。（提示：機器學習會遇到的（維度）災(zāi)難，你聽說過嗎？）

原文鏈接：https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频