1. 寫在前面
模型“好”與“壞”的評價指標直接由業務目標/任務需求決定。我們需要做的是:根據具體的業務目標/任務需求去選擇相應的評價指標,繼而選出符合業務目標/任務需求的好模型。在此之前,我們需要全面了解一個任務的評價指標體系。
在二分類任務評價指標(上)中,我們已經學習了如何利用混淆矩陣來計算二分類的精度、錯誤率指標。今天,我們繼續來學習二分類任務的其他評價指標。
2. 查準率、查全率
2.1 精度、錯誤率指標的局限
acc(精度、準確率)、error_rate(錯誤率)是分類任務中最常用的性能評價指標,多數情況下使用精度、錯誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問題中,如果我們關心的僅是“有多少西瓜被判別正確或錯誤”,那么精度和錯誤率就很適合。
但是,如果我們關心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時,精度和錯誤率就不適合了。
再比如,在工業生產的「機器故障」預測應用中,業務目標是希望模型能將機器所有發生故障的時間預測出來,顯然精度指標并不適合這樣的場景。為什么呢?
首先,我們知道精度衡量的是分類正確的樣本數占總樣本數的比例,然而通常來說機器發生故障的次數是比較少的(比如只有2%的時間發生故障)。那么,即便每次機器發生故障時模型都預測錯誤,它的精度也可高達到98%。這樣一個模型完全就是一個擺設,在實際生產中毫無用處。
2.2 查準率、查全率
在上面精度、錯誤率不適用的場景中,查準率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評價指標。
2.2.1 查準率、查全率指標定義
我們還是利用混淆矩陣來計算二分類任務的查準率和查全率。
真實類別 | 預測類別 | |
正例 | 負例 | |
正例 | TP(真正例) | FN(假負例) |
負例 | FP(假正例) | TN(真負例) |
假設我們有如上混淆矩陣,那么查準率的定義如下:
即查準率是預測正確的正例(TP)占所有預測為正例的樣本(TP+FP)的比例。
查全率定義如下:
即查全率是預測正確的正例(TP)占總正例(TP+FN)的比例。
2.2.2 查準率、查全率含義
在「好瓜壞瓜」西瓜問題中:
查準率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;
查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;
在「機器故障預測」問題中:
查準率:衡量了“被預測發生故障的時間中有多少比例確實發生了故障” ;
查全率:衡量了“機器發生故障的所有時間中有多少比例被預測出來了” ;
類似的,在「信息檢索/web搜索」中:
查準率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”
查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來了”
在「垃圾郵件檢測」中:
查準率:衡量了“被預測為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”
查全率:衡量了“所有垃圾郵件中有多少比例被檢測出來了”
在「詐騙電話檢測」中:
查準率:衡量了“被預測為詐騙電話的來電中有多少比例是詐騙電話”
查全率:衡量了“所有詐騙電話中有多少比例被檢測出來了”
2.2.3 查準率、查全率的矛盾
我們當然希望模型不僅有高查準率,也有高查全率。但事實上,查準率與查全率通常情況下是相互矛盾的,或者說查準率、查全率是一對相互矛盾的指標。
知乎上有個例子可以幫助我們直觀地理解這個“矛盾性”。假設我們的模型是找到人群中隱藏的壞人,那么:
看重查全率: “寧可錯殺一千,不可漏過一個”。
看重查準率: “寧可漏過壞人,不可錯殺無辜的好人”。
更具體地,比如在「好瓜壞瓜」西瓜問題中,假設“好瓜”和“壞瓜”并沒有那么容易區分(復雜問題),這時要想獲得高查全率,就需要降低篩選標準,極端一點我們將所有西瓜都預測為好瓜,那么查全率就是100%,但是查準率就很低;而要想獲得高查準率,就需要提高篩選標準,極端一點我們只將一個最有把握的西瓜預測為好瓜,并且預測準確了,那么查準率就是100%,但是查全率就很低。
3.
既然查準率、查全率是一對相互矛盾的指標,我們就需要明確在不同的業務目標/任務需求中到底是希望查準率比較高還是查全率比較高。
3.1
當然,在二分類任務中,我們也有綜合考慮了查準率和查全率的評價指標 F-Mesure(F-Score, ),它的定義如下:
其中 ()可視為權重參數,它度量了查準率和查全率的相對重要性。換句話說是查準率和查全率的加權調和平均。
由上式 的倒數的定義可知,當 時,相當于查全率被放大了,所以查全率有更大的影響;當 時,相當于查全率被縮小了,所以準率有更大的影響。
也就是說:
:更看重查全率指標。
:更看重查準率指標。
3.2 F1
在 中,當 時,也退化成了我們常見的 指標:
顯然,根據下面的等價形式,可以知道在F1指標中,查準率和查全率同樣重要:
編輯:何安
-
矩陣
+關注
關注
0文章
425瀏覽量
34642 -
模型
+關注
關注
1文章
3305瀏覽量
49220
原文標題:、
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論