本人情況:雙非本末流985研二,愛奇藝NLP日常實習(xí)經(jīng)歷,無論文,投的都是 NLP 算法崗。
目前到手:微軟、騰訊,應(yīng)該是選微軟了吧
阿里達(dá)摩院(掛)
一面(45分鐘)
上來面試官介紹他們組情況,問我有什么想問的?我有點懵逼,這不是一般最后的環(huán)節(jié)嗎。
- 研究內(nèi)容有提到 DSSM,詢問是否知道現(xiàn)在對 DSSM 的改進(jìn)模型,回答不知,現(xiàn)在更多做的生成模型,因此問題轉(zhuǎn)到生成模型;
- 詢問對生成模型的了解,發(fā)展情況,詢問項目中的難點,回答解碼策略,談到了 Beam Search 和 Random Sample 策略。
- CNN 模型中池化層的作用,Max Pooling 是如何反向傳遞梯度的。
- 機(jī)器學(xué)習(xí)中正則化做什么的?約束模型參數(shù),防止過擬合。
- 正則化有 L1 和 L2 正則化,區(qū)別是什么?扯了一下解空間什么的,這一部分參看《百面機(jī)器學(xué)習(xí)》中 【L1 正則化與稀疏性】部分的內(nèi)容,基本就是我遇到的問題了,我沒回答上。
- 問深度學(xué)習(xí),Transformer 模型架構(gòu)說一下?按照圖結(jié)構(gòu) balabala 說下。
- Dropout 有什么作用?類似于 Bagging 。在 Transformer 模型中 dropout 主要用在哪里?dropout 在每個子層之間,設(shè)置為 0.1。看過源碼嗎?看過源碼,看的哈佛實現(xiàn)的那一版本。(面試官應(yīng)該也看過這個版本,說寫的很好)
- Transformer 用的 Layer Normalize 還是 Batch Normalize?Layer,有什么區(qū)別?...
- 傳統(tǒng)機(jī)器學(xué)習(xí)會哪些?決策樹和 GBDT 區(qū)別說下。
- Sigmoid 和 ReLU 區(qū)別,ReLU 解決了什么問題。
- 怎么學(xué)統(tǒng)計機(jī)器學(xué)習(xí)的?看視頻...
- Python、C++、Java 哪個用的多一點?值傳遞和引用傳遞區(qū)別。
- Python 垃圾回收了解嗎?用過,細(xì)節(jié)不清楚。
- Linux 多個進(jìn)程如何通信的?socket 和管道
- 開放問題,海量商家和海量語料,語料不平衡,語料對商家 group by 后按照時間排序,怎么解決。先扯了下哈希分桶,不平衡用歸并排序。
結(jié)束,他覺得還 OK,問了下有啥改進(jìn)的?他說問機(jī)器學(xué)習(xí)這部分可以多看看,因為一方面部門有發(fā)論文要求,另一部分可以看出一個人的求知欲。。。
二面(80 分鐘)
面試官是個學(xué)術(shù)大佬,全程項目細(xì)節(jié)+前沿模型理論+項目落地實踐,談的多的主要包括有:
- 預(yù)訓(xùn)練模型:Transformer、BERT、UniLM 等等模型細(xì)節(jié),區(qū)別,模型中的 Attention 使用、Mask 使用
- 文本生成任務(wù)實際問題:一對多訓(xùn)練如何訓(xùn)練(從數(shù)據(jù)角度、模型角度創(chuàng)建一對一條件)、如何創(chuàng)造無監(jiān)督標(biāo)簽、如何提高生成文本的信息含量避免安全回復(fù)生成。
卒
騰訊
投的 WXG,打電話問了下時間就再也沒后續(xù)了,被 PCG 撈了,難受。
QQ 看點 一面(60分鐘,掛)
- 個人研究內(nèi)容,做法模型細(xì)節(jié)
- 愛奇藝實習(xí)內(nèi)容,細(xì)節(jié)
- 非做題部分大概有 50 分鐘,做題給了 15 分鐘,實際可能 5 分鐘。
不知為何掛了。。。
騰訊新聞 一面(80 分鐘)
面試官感覺沒看過簡歷,非常不耐煩什么的,語氣也不是很好
- 談下你做過項目(就是問簡歷),說了下研究內(nèi)容與實習(xí)
- Dropout 了解嗎,說下作用,白板編碼實現(xiàn)一下?
- 一堆惡意文本 case,怎么檢測去除(一些網(wǎng)頁上的廣告評論),傳統(tǒng)方法、AI 方法
- 最長重復(fù)子序列,我自己實現(xiàn)了個暴力,又寫了個動態(tài)規(guī)劃。
- 有序含重復(fù)值數(shù)組找某個值第一次出現(xiàn)的位置。
騰訊新聞 二面(80 分鐘)
- 研究內(nèi)容,并畫出 Seq2Seq 模型結(jié)構(gòu);
- 實習(xí)工作細(xì)節(jié),如何引入知識圖譜(不會,隨便說了下);
- Python 列表合并方法有哪些:加法、extend,區(qū)別,舊內(nèi)存如何處理;
- 概率題:甲乙扔骰子,獲勝概率相同,投 10 次,已經(jīng) 5 次了,甲已經(jīng)贏了 3 次,問甲獲勝概率。
騰訊新聞 HR 面
起床前來了個電話大概五分鐘,談了下實習(xí)時間、地點,實習(xí)不一定能轉(zhuǎn)正什么的。官網(wǎng)狀態(tài)變成了已完成,說本周或者下周一二給 Offer。
微軟
一面 IC1(50 分鐘)
- Transformer 結(jié)構(gòu),BERT 有幾種 Embedding 編碼,分詞方法?
- 能否實現(xiàn)下 Word Piece ?忘了步驟了,換成實現(xiàn)一下從若干文件中生成一個詞典,即 word2idx 和 idx2word
- 算法題:給一個數(shù)組 A = [2, 4, 8, 3] 輸出一個數(shù)組 B,其中 B[i] 值為 A 中小于 A[i] 的元素值之和,B 應(yīng)該為 [0, 5, 9, 2](小于 2 的有 [0],小于 4 的有 [2, 3] ...)
- 上述題目用到了 sort 能否自己寫一下 sort 函數(shù),寫了個快排
二面 Lead(60 分鐘)
微軟有 IC1 和 IC2 平行兩輪,任意一輪通過則進(jìn)入 Lead 面,后續(xù)可選可能存在 AA 面。
- 問研究方向和實習(xí)工作內(nèi)容(30分鐘左右),主要還是研究方向的背景和任務(wù)、實習(xí)期間的工作,遇到什么問題,怎么解決的
- 算法題 1:原地移動數(shù)組,使得元素對應(yīng)順序不變,0 值移動到末尾,LeetCode 283
美團(tuán)
一面(40 分鐘)
- 開放性問題:如何根據(jù)美團(tuán)的商品評論,生成商品的描述。傳統(tǒng)抽取方法,語料大后上深度模型。采用類似于 TF-IDF 的思想避免抽取的描述太大眾化沒有特點。
- 算法題:打印 N 個數(shù)組整體最大的 Top K:有 N 個長度不一的數(shù)組,所有的數(shù)組都是有序的,請從大到小打印這 N 個數(shù)組整體最大的前 K 個數(shù)。
二面(60 分鐘)
- 算法題 1:牛妹在練習(xí)打字,現(xiàn)在按照時間順序給出牛妹按下的鍵(以字符串形式給出, '<' 代表回退 backspace,其余字符均是牛妹打的字符,字符只包含小寫字母與 '<'),牛妹想知道最后在屏幕上顯示的文本內(nèi)容是什么。(用個棧即可)
- 算法題 2:在這個特殊的假期里,由于牛牛在家特別無聊,于是他發(fā)明了一個小游戲,游戲規(guī)則為:將字符串?dāng)?shù)字中為偶數(shù)位的數(shù)字進(jìn)行翻轉(zhuǎn),將翻轉(zhuǎn)后的結(jié)果進(jìn)行輸出。(頭尾雙指針)
- 算法題 3:牛牛有一個 n 個數(shù)字的序列,現(xiàn)在牛牛想把這個序列分成 k 段連續(xù)段,牛牛想知道分出來的 k 個連續(xù)段的段內(nèi)數(shù)字和的最小值最大可以是多少?(我用的遞歸,似乎大數(shù)據(jù)過不了,應(yīng)該考慮尾遞歸或者用個 Map 存一下已經(jīng)計算過的片段值)
三面(50 分鐘)
- 研究內(nèi)容細(xì)節(jié),實現(xiàn)方法,準(zhǔn)備如何使用 BERT,BERT 這一塊問的很多,包括對 BERT 怎么理解的等等。
- 實習(xí)經(jīng)歷細(xì)節(jié)
- 提問環(huán)節(jié):問了下對方工作內(nèi)容與現(xiàn)行技術(shù),基本以 BERT 為主的各種文本任務(wù)。
百度
官網(wǎng)投遞,筆試兩道編程都沒 AC,其他倒是寫了很多
一面 (50 分鐘)
- 項目研究內(nèi)容,粗談一下,沒問細(xì)節(jié);
- 概率題,三個硬幣,一個硬幣兩面人頭,一個硬幣一面人頭一面數(shù)字,一個硬幣兩面數(shù)字,問隨機(jī)拿去一個硬幣,其中人頭向上,問另一面人頭也向上概率;
- 編程題:升序倒序數(shù)組找 target,做題有點久,其他很短
二面(40 分鐘)
- 談?wù)?Transformer、BERT、GPT2
- Sigmoid、Tanh 函數(shù)與導(dǎo)數(shù)
保留節(jié)目
面試錦囊一開始的初衷就是一個完美的循環(huán),知識整理?面經(jīng)分享?內(nèi)推實戰(zhàn),然后繼續(xù)知識整理,只要膽子夠大,你可以瘋狂循(tiao)環(huán)(cao)。后面會在每一期面經(jīng)末尾,給大家留一個內(nèi)推資源,盡可能是覆蓋多個崗位的,方便挑選自己合適的,不啰嗦了需要的自取吧!