對(duì)于二分類問題,機(jī)器預(yù)測(cè)的和實(shí)際的還是會(huì)有所偏差,所以我們引入以下幾個(gè)概念來評(píng)價(jià)
分類器的優(yōu)良。
首先有關(guān)TP、TN、FP、FN的概念。TP與TN都是機(jī)器(預(yù)測(cè))分類分對(duì)了的情況,TP是預(yù)測(cè)為正類且預(yù)測(cè)正確,TN是預(yù)測(cè)為負(fù)類且預(yù)測(cè)正確。FP與FN都是機(jī)器(預(yù)測(cè))分類分錯(cuò)了的情況,F(xiàn)P是把實(shí)際負(fù)類分類(預(yù)測(cè))成了正類,而FN則是把實(shí)際正類分類(預(yù)測(cè))成了負(fù)類。(T則代表分類正確,F(xiàn)代表分類錯(cuò)誤;P代表全體類中實(shí)際正類,N代表全體類中實(shí)際負(fù)類。)
【舉例】一個(gè)班里有男女生,我們來進(jìn)行分類,把女生看成正類,男生看成是負(fù)類。我們可以用混淆矩陣來描述TP、TN、FP、FN。
混淆矩陣 相關(guān)(Relevant),正類P無關(guān)(NonRelevant),負(fù)類N
預(yù)測(cè)為正類True Positives(TP,正類判定為正類。即女生判定為女生。)False Positives(FP,負(fù)類判定為正類,即“存?zhèn)巍?。男生判定為女生。?div style="height:15px;">
預(yù)測(cè)為負(fù)類False Negatives(FN,正類判定為負(fù)類,即“去真”。女生判定為男生。)True Negatives(TN,負(fù)類判定為負(fù)類。即男生判定為男生。)
明確這三個(gè)概念的英文名稱:
精確率(Precision),準(zhǔn)確率(Accuracy),召回率(Recall)。
1.準(zhǔn)確率(Accuracy)。顧名思義,就是所有預(yù)測(cè)正確的(包括正類和負(fù)類)占總的的比例。
2.精確率(Precision),查準(zhǔn)率。即正確預(yù)測(cè)為正類的占全部預(yù)測(cè)為正類的的比例。個(gè)人理解:在所有預(yù)測(cè)為正類中真正為正類的占所有預(yù)測(cè)為正類的的比例。
精確率是針對(duì)我們預(yù)測(cè)結(jié)果而言的,它表示的是預(yù)測(cè)為正類的樣本中有多少是真正的正類樣本。那么預(yù)測(cè)為正類就有兩種可能了,一種就是把正類預(yù)測(cè)為正類(TP),另一種就是把負(fù)類預(yù)測(cè)為正類(FP)。
3.召回率(Recall),查全率。即正確預(yù)測(cè)為正類的占全部實(shí)際為正類的的比例。個(gè)人理解:在所有預(yù)測(cè)為正類中真正為正類的占總體實(shí)際為正類的的比例。
召回率是針對(duì)我們?cè)紭颖径缘?,它表示的是全體樣本中的所有正類樣本有多少被預(yù)測(cè)正確了。也有兩種可能,一種是把正類預(yù)測(cè)為正類(TP),另一種就是把正類預(yù)測(cè)為負(fù)類(FN)。
對(duì)于精確率和召喚率,其實(shí)就是分母不同,一個(gè)分母是預(yù)測(cè)為正類的樣本數(shù),另一個(gè)是原始樣本中所有的正類樣本數(shù)。
精確率和召喚率的區(qū)別:
舉例:
假設(shè)我們手上有60個(gè)正樣本,40個(gè)負(fù)樣本,我們要找出所有的正樣本。系統(tǒng)查找出50個(gè)正樣本,其中只有40個(gè)是真正的正樣本,計(jì)算上述各指標(biāo)。
TP:將正類預(yù)測(cè)為正類的樣本數(shù) 40
FN:將正類預(yù)測(cè)為負(fù)類的樣本數(shù) 20
FP:將負(fù)類預(yù)測(cè)為正類的樣本數(shù) 10
TN:將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù) 30
準(zhǔn)確率(accuracy) = 預(yù)測(cè)對(duì)的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精確率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3
為什么這樣起名?
召回率 (Recall):該類樣本有多少被找出來了(召回了多少)。
精確率 (Precision):你認(rèn)為的該類樣本,有多少猜對(duì)了(猜的精確性如何)。