本課程是《機(jī)器學(xué)習(xí)》《Python機(jī)器學(xué)習(xí)》課程的姐妹篇,旨在加強(qiáng)學(xué)員的實(shí)際訓(xùn)練,以案例作為基本講解單元,圍繞案例講解分析思路,特征和模型選擇,編寫代碼等。
本課程的受眾主要是沒有經(jīng)過專業(yè)訓(xùn)練的IT專業(yè)人員,他們可能是程序員,運(yùn)維,IT系統(tǒng)架構(gòu)師等等,也適合沒有經(jīng)過科班訓(xùn)練的數(shù)據(jù)分析師。數(shù)據(jù)分析是一個(gè)業(yè)務(wù)+算法+IT的交叉領(lǐng)域,同時(shí)熟悉這三方面知識(shí)的人,可以玩轉(zhuǎn)大數(shù)據(jù),產(chǎn)生無窮無盡的花樣,產(chǎn)生巨大的價(jià)值。但很無奈的情況是這種人才太少,IT人員即使熟悉本公司的業(yè)務(wù),但同時(shí)又熟悉算法的人極少。一般只能做一些簡單的維度統(tǒng)計(jì),指標(biāo)計(jì)算等等,如果說到開發(fā)更高智能的系統(tǒng),知識(shí)上鞭長莫及。本課程的目標(biāo),正是要打破知識(shí)的鴻溝,向IT人員普及算法知識(shí),并把這些知識(shí)用于實(shí)際項(xiàng)目,把中國的機(jī)器學(xué)習(xí)應(yīng)用能力提高一個(gè)臺(tái)階。
每期班的學(xué)員都會(huì)被加入到一個(gè)微信群,除了平時(shí)的問題解答外,還會(huì)另外安排約5次固定時(shí)間微課思路分享和答疑,與10次講授共計(jì)學(xué)習(xí)時(shí)間約十幾周左右。
Kaggle簡介:
Kaggle創(chuàng)立于2010,是一個(gè)專注于舉辦數(shù)據(jù)科學(xué)周邊的線上競賽的網(wǎng)站。它吸引了大量數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者的參與,為各類現(xiàn)實(shí)中的商業(yè)難題開發(fā)基于數(shù)據(jù)的算法解決方案。競賽的獲勝者、領(lǐng)先者,在收獲對(duì)方公司提供的優(yōu)厚報(bào)酬之外,還將引起業(yè)內(nèi)科技巨頭的注意,獲得各路 HR 青睞,為自己的職業(yè)道路鋪上紅地毯。
Kaggle 是當(dāng)今最大的數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者社區(qū),其行業(yè)地位獨(dú)一無二。
課程目標(biāo):
課程從已完結(jié)的競賽中選取了10個(gè)比較有代表性的案例,通過分析優(yōu)勝參賽者的解決思路和方法,從中學(xué)習(xí)問題的解決思路、數(shù)據(jù)的預(yù)處理方法,各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域中的優(yōu)秀算法,讓學(xué)員可以將這些方法解決各種實(shí)際數(shù)據(jù)分析問題。
課程大綱:
第一課:Crowdflower Search Results Relevance
案例介紹:預(yù)測來自電子商務(wù)站點(diǎn)的搜索結(jié)果的準(zhǔn)確性,將搜索得到的網(wǎng)頁按相關(guān)性排序
獲獎(jiǎng)?wù)咚梅椒ǎ和ㄟ^ensemble learning整合多個(gè)模型的結(jié)果
涉及算法:Ensemble learning
第二課:Santander Product Recommendation
案例介紹:根據(jù)銀行客戶1.5年內(nèi)的行為數(shù)據(jù),預(yù)測用戶會(huì)下一步會(huì)投資的新產(chǎn)品
獲獎(jiǎng)?wù)咚梅椒ǎ和ㄟ^XGBoost構(gòu)建了多個(gè)基本模型,然后將基本模型整合為一個(gè)總模型
涉及算法:XGBoost
第三課:TalkingData Mobile User Demographics
案例介紹:根據(jù)用戶的手機(jī)應(yīng)用下載和使用行為來預(yù)測用戶的人口統(tǒng)計(jì)數(shù)據(jù)(年齡、性別等)
獲獎(jiǎng)?wù)咚梅椒ǎ?先預(yù)測性別的概率;使用性別的預(yù)測值作為額外的特征加入到模型中,預(yù)測年齡;通過條件概率得到兩個(gè)目標(biāo)變量的預(yù)測概率
涉及算法:兩段預(yù)測,XGBoost
第四課:Facebook V: Predicting Check Ins
案例介紹:預(yù)測用戶會(huì)在哪個(gè)地方登陸Facebook
獲獎(jiǎng)?wù)咚梅椒ǎ禾卣鬟x擇:數(shù)據(jù)塊的最近鄰計(jì)算;模型構(gòu)建:基于XGBoost的兩步模型
涉及算法:XGboost
第五課:Bosch Production Line Performance
案例介紹:為了避免賣家發(fā)布各種經(jīng)過少量改動(dòng)的廣告導(dǎo)致買家難以分辨,參賽者需要設(shè)計(jì)一個(gè)模型,自動(dòng)識(shí)別配對(duì)中的廣告是否同一個(gè)廣告
獲獎(jiǎng)?wù)咚梅椒ǎ禾卣鬟x擇:采用了FTIM方法測試特征的不穩(wěn)定性,提出過度擬合的特征。通過XGBoost和Keras構(gòu)建一層模型;然后通過底層模型構(gòu)建XGBoost 和隨機(jī)森林,最終綜合兩者結(jié)果得到最終結(jié)果
涉及算法:FTIM;元模型
第六課:Click-Through Rate Prediction
案例介紹:預(yù)測某個(gè)廣告是否會(huì)被點(diǎn)擊
獲獎(jiǎng)?wù)咚梅椒ǎ簩?shù)據(jù)拆分成不同的子集,構(gòu)建不同的子模型,再整合
涉及算法:LIBFFM
第七課:Avito Context Ad Clicks
案例介紹:預(yù)測俄羅斯最大的一般分類網(wǎng)站的用戶在瀏覽網(wǎng)站時(shí),是否點(diǎn)擊上下文廣告
獲獎(jiǎng)?wù)咚梅椒ǎ侯A(yù)處理:散列技巧和消極的抽樣。 學(xué)習(xí)方法:FFM、FM和XGBoost。
涉及算法:FFM;FM;XGboost
第八課:Outbrain Click Prediction Outbrain點(diǎn)解預(yù)測
聯(lián)系客服