混同行列・偽陽性/偽陰性・閾値調整
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
ROC-AUC(Receiver Operating Characteristic - Area Under the Curve)と PR-AUC(Precision-Recall - Area Under the Curve)は、二値分類モデルの性能を「閾値に依存せず」 1 つの数で比較するための指標である。両者は同じ予測スコアから計算できるが、不均衡データ(陽性クラスが極端に少ないデータ)における振る舞いが大きく違うため、目的によって使い分ける。 ...
回帰モデルの予測 ŷ と正解 y のずれを定量化する指標として、RMSE(root mean squared error)、MAE(mean absolute error)、R²(決定係数, coefficient of determination)の 3 つが標準的に使われる。それぞれ「外れ値の扱い」「単位の解釈性」「ベースラインとの比較」という異なる視点を持ち、評価時にはセットで報告するのが筋がよい。 ...
確率の校正(probability calibration)は、分類モデルが出す predict_proba の値を「実際の正例比率」と一致させる後処理である。多くのモデルは「分類は正しいが確率値は信用できない」状態で出てくる。例えば「0.9 の確率で陽性」と予測した 100 件のうち、実際の陽性が 70 件しかないなら、確率出力は校正されていない(過信、overconfidence)と言える。 ...