召回率
編輯
召回率(Recall Rate,也叫
查全率)是檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率,衡量的是檢索系統(tǒng)的
查全率;精度是檢索出的相關文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是
檢索系統(tǒng)的
查準率。
召回率(Recall)和精度(Precise)是廣泛用于信息檢索和統(tǒng)計學分類領域的兩個度量值,用來評價結果的質量。
對于數(shù)據(jù)測試結果有下面4種情況:
TP: 預測為正,實際為正
FP: 預測為正,實際為負
TN:預測為負,實際為負
FN: 預測為負,實際為正
精確率、準確率:Accuracy=(TP+TN)/(TP+TN+FN+FP)
精準率、查準率: P = TP/ (TP+FP)
召回率、查全率: R = TP/ (TP+FN)
真正例率(同召回率、查全率):TPR = TP/ (TP+FN)
假正例率:FPR =FP/ (FP+TN)
F1-score: 2*TP/(2*TP + FP + FN)
召回率和精度示意圖
假定:從一個大規(guī)模數(shù)據(jù)集合中檢索文檔時,可把文檔分成四組:
- 系統(tǒng)檢索到的相關文檔(A)
- 系統(tǒng)檢索到的不相關文檔(B)
- 相關但是系統(tǒng)沒有檢索到的文檔(C)
- 不相關且沒有被系統(tǒng)檢索到的文檔(D)
則:
- 召回率R:用實際檢索到相關文檔數(shù)作為分子,所有相關文檔總數(shù)作為分母,即R = A / ( A + C )
- 精度P:用實際檢索到相關文檔數(shù)作為分子,所有檢索到的文檔總數(shù)作為分母,即P = A / ( A + B )
舉例來說:
一個數(shù)據(jù)庫有500個文檔,其中有50個文檔符合定義。系統(tǒng)檢索到75個文檔,但是實際只有45個符合定義。則:
召回率R=45/50=90%
精度P=45/75=60%
本例中,系統(tǒng)檢索是比較有效的,召回率為90%。但是結果有很大的噪音,有近一半的檢索結果是不相關。 研究表明:在不犧牲精度的情況下,獲得一個高召回率是很困難的。
[1] 對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。所以常用11種召回率下11種精度的平均值來衡量一個檢索系統(tǒng)的精度。我們也可以將這兩個
度量值融合成一個度量值,如F度量(F-measure)。對于搜索引擎系統(tǒng)來講,因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁,所以召回率很難計算。
搜索引擎系統(tǒng)都非常關心精度。
影響一個搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。
“召回率”與“
準確率”雖然沒有必然的關系,然而在大規(guī)模數(shù)據(jù)集合中,這兩個指標卻是相互制約的。
由于“檢索策略”并不完善,希望更多相關的文檔被檢索到時,放寬“檢索策略”,往往也會伴隨出現(xiàn)一些不相關的結果,從而使準確率受到影響。
而希望去除檢索結果中的不相關文檔時,務必要將“檢索策略”定的更加嚴格,這樣也會使有一些相關的文檔不再能被檢索到,從而使召回率受到影響。
凡是設計到大規(guī)模數(shù)據(jù)集合的檢索和選取,都涉及到“召回率”和“準確率”這兩個指標。而由于兩個指標相互制約,我們通常也會根據(jù)需要為“檢索策略”選擇一個合適的度,不能太嚴格也不能太松,尋求在召回率和準確率中間的一個平衡點,這個平衡點由具體需求決定。
[2] TP —— True Positive (真正, TP)被模型預測為正的正樣本;可以稱作判斷為真的正確率
TN —— True Negative(真負 , TN)被模型預測為負的負樣本 ;可以稱作判斷為假的正確率
FP ——False Positive (假正, FP)被模型預測為正的負樣本;可以稱作誤報率
FN——False Negative(假負 , FN)被模型預測為負的正樣本;可以稱作漏報率
True Positive Rate(真正率 , TPR)或靈敏度(sensitivity)
TPR = TP /(TP + FN)
被預測為正的正樣本結果數(shù) / 正樣本實際數(shù)
True Negative Rate(真負率 , TNR)或特指度(specificity)
TNR = TN /(TN + FP)
被預測為負的負樣本結果數(shù) / 負樣本實際數(shù)
False Positive Rate (假正率, FPR)
FPR = FP /(TN + FP)
被預測為正的負樣本結果數(shù) /負樣本實際數(shù)
False Negative Rate(假負率 , FNR)
FNR = FN /(TP + FN)
被預測為負的正樣本結果數(shù) / 正樣本實際數(shù)