機(jī)器學(xué)習(xí)并不是簡(jiǎn)單的玩數(shù)學(xué)游戲,它是能真刀真槍的解決很多實(shí)際問題的。簡(jiǎn)單歸納總結(jié)一下,機(jī)器學(xué)習(xí)主要解決六大類任務(wù)或者叫問題:分類問題、聚類問題、回歸問題、關(guān)聯(lián)問題、序列問題。
異常檢測(cè)問題
1. 分類問題(Classification)
抽象來看,分類問題就是構(gòu)造一個(gè)分類器(Classifier),可以對(duì)數(shù)據(jù)樣本的類別進(jìn)行預(yù)測(cè)。分類器可以理解為一個(gè)函數(shù):y=f(x),其中x是自變量,y是因變量并且y的取值不是數(shù)值而是一個(gè)類別標(biāo)簽。當(dāng)我們知道了x的取值之后,就可以根據(jù)f(x)來預(yù)測(cè)y的值。分類問題屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)。
典型的分類問題有:
判斷一封郵件是否是垃圾郵件
判斷一篇文章屬于什么類型(例如體育類,財(cái)經(jīng)類,娛樂類等)
判斷貸款申請(qǐng)者的信用度好壞
檢測(cè)信用卡消費(fèi)是否存在欺詐行為
圖像分類:識(shí)別圖片中的物體
預(yù)測(cè)用戶是否會(huì)流失
預(yù)測(cè)用戶對(duì)營(yíng)銷活動(dòng)是否會(huì)響應(yīng)
預(yù)測(cè)用戶對(duì)廣告是否會(huì)點(diǎn)擊
預(yù)測(cè)用戶對(duì)商品是否有興趣購買
2.聚類問題(Clustering)
“物以類聚,人以群分”,這就是聚類,它的目的就是要把相似的數(shù)據(jù)聚在一起。例如通信運(yùn)營(yíng)商可以對(duì)手機(jī)用戶的通話行為進(jìn)行聚類,把喜歡上網(wǎng)的聚類一類,喜歡夜間打電話的聚為另外一類。你也可以對(duì)大量的文章進(jìn)行聚類,把相似的文章聚為一類然后歸到同一個(gè)文件夾中。聚類問題屬于機(jī)器學(xué)習(xí)中的非監(jiān)督學(xué)習(xí)。
典型的聚類問題有:
用戶分群:企業(yè)對(duì)用戶的消費(fèi)行為進(jìn)行聚類,把用戶劃分為不同的人群,然后對(duì)用戶進(jìn)行差異化的營(yíng)銷和服務(wù)。
相似文檔歸類:對(duì)大量的文檔進(jìn)行聚類分析后,把文檔分為若干個(gè)不同的類
注意:聚類和分類都有一個(gè)“類”字,但是它們有顯著的差別:分類問題的“類”就是訓(xùn)練樣本的標(biāo)簽,這個(gè)標(biāo)簽是訓(xùn)練模型之前需要事先標(biāo)記好的,分類算法的目標(biāo)是建立一個(gè)對(duì)標(biāo)簽進(jìn)行預(yù)測(cè)的模型;而聚類的“類”,是聚類算法需要對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)之后才能得到的結(jié)果,在訓(xùn)練模型之前我們是不知道樣本的類標(biāo)簽的。
3.回歸問題(Regression)
回歸問題和分類問題非常像,它們都屬于監(jiān)督學(xué)習(xí)的范疇。分類問題要構(gòu)建的是分類器(Classifier),而回歸問題需要構(gòu)建的就是一個(gè)回歸器(Regressor)?;貧w器也是一個(gè)函數(shù):y=f(x),其中x是自變量,y是因變量,與分類問題不同的是,y的取值是數(shù)值而不是類別。當(dāng)知道了x的值之后,就可以通過f(x)來預(yù)測(cè)y的值。
典型的回歸問題有:
根據(jù)房屋的特征來預(yù)測(cè)房屋的價(jià)格
根據(jù)商品的特征來預(yù)測(cè)商品的銷量
4.關(guān)聯(lián)問題(Association Rule)
關(guān)聯(lián)問題最有名的案例就是啤酒和尿布的故事。關(guān)聯(lián)規(guī)則算法可以從交易型數(shù)據(jù)中發(fā)現(xiàn)頻繁關(guān)聯(lián)出現(xiàn)的Item(商品),又稱為購物籃分析和關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)規(guī)則挖掘?qū)儆诜潜O(jiān)督學(xué)習(xí)。
典型的關(guān)聯(lián)問題有:
買了還買:買了A商品的用戶,同時(shí)還有多少比例會(huì)買其他商品
看了還看:看了A電影的用戶,同時(shí)還有多少比例會(huì)看其他電影
5.序列問題(Sequence)
序列問題包括時(shí)間序列的預(yù)測(cè),序列型關(guān)聯(lián)規(guī)則(例如先看了速度與激情1,接下來看速度與激情2的可能性比較大)等。語言模型(哪些詞經(jīng)常可以搭配在一起)也屬于序列問題。序列問題既可以是非監(jiān)督學(xué)習(xí)的方法(類似關(guān)聯(lián)規(guī)則算法),也可以轉(zhuǎn)換為回歸,分類等監(jiān)督學(xué)習(xí)的問題。
典型的序列問題有:
根據(jù)用戶之前購買的商品預(yù)測(cè)接下來可能會(huì)買的商品
時(shí)間序列預(yù)測(cè):如預(yù)測(cè)股票和預(yù)測(cè)天氣等
中文分詞:判斷哪些字組合在一起最有可能像一個(gè)詞語
6.異常檢測(cè)問題(Outlier Detection)
異常檢測(cè)就是檢測(cè)樣本取值是否顯著的偏離常規(guī),從中發(fā)現(xiàn)有意義的孤立點(diǎn)和異常值。監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)都可以應(yīng)用于異常檢測(cè)問題。
典型的異常檢測(cè)問題有:
信用卡異常消費(fèi)檢測(cè)(欺詐檢測(cè))
網(wǎng)絡(luò)安全檢測(cè)
不合格產(chǎn)品檢測(cè)
日常工作中,你遇到的機(jī)器學(xué)習(xí)問題基本上都逃不出這六大任務(wù)。
聯(lián)系客服