機械学習の学習ノートで扱った判断軸を、自分でも試せる形式にまとめたクイズ集。問題文と選択肢が先に表示され、解答は折りたたみで隠してある。解答を見る をクリックすると正解と解説が現れる仕組み。
各問題は、Claudeに出題させた問題・解答と関連ノートへのリンクを添えて記事化したものとなる。
問題は順次追加していく。最新のセッションが下に積まれる。
Q1: 不均衡データでの評価指標選定
ある二値分類タスクで「ローン申込から不正取引を検出する」モデルを作っている。データは 10 万件あり、不正ラベルは全体の 2%(不均衡)。ビジネス側から「不正をできるだけ見逃したくないが、正常取引を不正と誤判定する数も抑えたい」と言われた。
このとき、モデルを評価する指標として「最も優先すべきもの」を 1 つ選び、選んだ理由(なぜ他の指標ではダメか)も短く述べてください。
選択肢:
- a) Accuracy(正解率)
- b) ROC-AUC
- c) PR-AUC
- d) MSE(平均二乗誤差)
解答を見る
正解: c) PR-AUC
不均衡データ(不正 2%)で「見逃しを減らし、誤判定も抑えたい」場面では PR-AUC が最優先となる。理由は ROC-AUC の構成要素である FPR の分母メカニズムにある。
- ROC-AUC は
FPR = FP/(FP+TN)の分母に陰性総数(FP+TN)を持つ。陰性が 98% を占めるデータでは TN が圧倒的に大きく、FP が多少増えても FPR がほとんど動かない。結果として ROC 曲線が左上に張り付き、AUC が楽観的に高く出る - PR-AUC は Precision (
TP/(TP+FP)) と Recall (TP/(TP+FN)) で構成され、両者とも陽性クラスに直接関係する量。Positive のレアさを素直に反映する - Accuracy は不均衡だと「全部陰性と予測すれば 98%」のように本質的でない高得点が出てしまう
- MSE は回帰用の指標で、二値分類の評価には使わない
判断軸: 陽性 5% 未満の強い不均衡では PR-AUC を主指標、ROC-AUC は補助で見る。
関連ノート: ROC-AUC / PR-AUC / 混同行列
Q2: モデル別の標準化の必要性
scikit-learn でいくつかの分類モデルを試したい。データには金額(円、〜数十万)と年齢(〜100)と取引回数(〜数千)など、スケールが大きく違う連続値の特徴量が混ざっている。
StandardScaler で特徴量を標準化(平均 0・分散 1 に揃える)する効果が「最も小さい」モデルはどれか。1 つ選び、「なぜ他のモデルは標準化の影響を強く受けるのか」も短く述べてください。
選択肢:
- a) kNN
- b) RandomForest
- c) LogisticRegression(L2 正則化あり)
- d) k-means
解答を見る
正解: b) RandomForest
標準化の影響度は、モデルが「特徴量の値そのものを使うか・順序だけを使うか」で決まる。
- RandomForest は決定木の集まりで、各分割は「特徴量 X が閾値 t 以下か」という順序ベース判定。値のスケールに依存しない(経験則ではなく構造から導かれる帰結)
- kNN / k-means は距離ベース。金額(〜数十万)と年齢(〜100)を混ぜると距離が金額に支配され、年齢が事実上無視される
- LogisticRegression(L2 正則化あり)は係数
wの大きさが||w||^2でペナルティを受けるため、スケールの大きい特徴量に有利な非対称が生じる。本来重要な特徴量の係数が不当に縮められる
判断軸として頭に入れたい整理:
| モデル種別 | 標準化の必要性 |
|---|---|
| 距離ベース(kNN, k-means, SVM RBF) | 必須 |
| 正則化付き線形モデル(LR/Ridge/Lasso) | 必須 |
| 木系(Decision Tree, RF, GBDT) | ほぼ不要 |
| 確率モデル(Naive Bayes) | 不要 |
関連ノート: 標準化 / RandomForest / kNN / LogisticRegression / k-means
Q3: モデル比較で次に取る行動
二値分類のモデルを作っていて、scikit-learn で次の 4 つのモデルを順番に試した結果、テストデータでの ROC-AUC が以下のようになった。
LogisticRegression (L2, C=1.0): 0.78
LogisticRegression (L2, C=0.001): 0.71
RandomForest (n_estimators=300): 0.85
RandomForest (n_estimators=300, max_depth=3): 0.79
このとき、「追加で試すべき行動として最も筋が良いもの」を 1 つ選び、なぜ他のものは優先度が下がるのか短く理由を述べてください。
選択肢:
- a) RandomForest をさらに大きく(
n_estimators=1000)して再評価する - b) LogisticRegression に多項式特徴量(
PolynomialFeatures(degree=2))を加えて再評価する - c) GradientBoosting(
HistGradientBoostingClassifierまたは LightGBM)を試す - d) 全モデルで 交差検証 のスコアを取って、テストスコアのブレを確認する
解答を見る
正解: d) 交差検証でスコアのブレを確認する
4 つのスコアはすべて「テスト分割 1 回分」の数字でしかない。手元のデータが 1000 件規模なら ±0.02〜0.05 のブレは普通に起こり、LR=0.78 と RF=0.85 の差 0.07 が「モデルの差」なのか「分割の運」なのかを CV を取らないと判別できない。
CV で各モデルの「平均 ± 標準偏差」を出して信頼区間が重なるか確認するのが先決。次の 2 パターンに分岐する。
- 信頼区間が重ならない → RF が本当に強い → a, b, c の検討に進む
- 信頼区間が大きく重なる → 差は誤差範囲 → 別の軸(速度・解釈性)で判断
各選択肢への評価:
- a) RF を 1000 本に: 収穫逓減が強く、誤差範囲に埋もれることが多い
- b) 多項式特徴量を LR に: LR が非線形を扱える手段だが、現時点で「非線形が必要」と疑う根拠が薄い
- c) GradientBoosting を試す: モデル候補を増やすのは悪くないが、土台のスコアが信頼できないまま新モデルを足してもまた 1 回分の数字で判断することになる
判断軸: 新しいモデルを試す前に、今あるモデルのスコア信頼区間を確認する。
関連ノート: 交差検証 / ROC-AUC / PR-AUC / ハイパーパラメータ / 標準偏差
Q4: データ分割の判断軸
機械学習プロジェクトを始めるとき、データセットを train(訓練)/valid(検証)/test(テスト)の 3 つに分けるのが教科書的だが、しばしば train と test の 2 分割だけで進めるケースもある。
「3 分割(train/valid/test)が必要な状況」と「2 分割(train/test)で十分な状況」を切り分ける判断軸として、最も適切なものはどれか。1 つ選び、理由も短く述べてください。
選択肢:
- a) データ件数が多いか少ないか(1 万件未満は 2 分割、それ以上は 3 分割)
- b) ハイパーパラメータ 調整や早期停止のように「テスト以外のデータでモデル選定の意思決定をする」工程があるか
- c) 交差検証 を使うかどうか(CV なら 2 分割、なしなら 3 分割)
- d) 教師あり学習か教師なし学習か
解答を見る
正解: b) モデル選定の意思決定をする工程があるか
判断軸の核心は「テストデータは最終評価専用であり、それ以外の判断には一切使ってはいけない」という原則にある。途中で意思決定(ハイパラ調整、early stopping、特徴量選択、モデルアーキテクチャの選定、精度以外の判断軸)をするとき、その判断をテストデータを見ながら行うと、テストスコアが「その判断によって楽観的に出た数字」になり、本番性能を高く見積もりすぎる(過学習 の一種)。
役割分担:
- 何度も触る判定用データ →
valid(検証) - 一度しか触らない最終評価用データ →
test
状況別の使い分け:
| 状況 | 分割 |
|---|---|
| ハイパラ固定で 1 回学習する | 2 分割で十分 |
| ハイパラ調整・early stopping・モデル選定をする | 3 分割が必要 |
| データが少なくて valid を確保しづらい | 2 分割 + train で 交差検証 で代用 |
各選択肢への評価:
- a) データ件数で判断: ハズレ。件数が少なくても 3 分割の必要性は残る(CV で代用するかは別の話)
- c) CV を使うかどうか: 惜しいが、CV は valid を擬似的に作る仕組みの 1 つに過ぎず、判断軸の主軸ではない
- d) 教師あり/教師なし: 無関係。教師なしでもハイパラ(k-means の
k、PCA のn_components)の選定で valid 相当が必要
Q5: 相関係数の解釈
ある回帰タスクで、特徴量 A と目的変数 y のピアソン相関係数 を計算したところ、+0.8 という値が得られた。このことから「言えるのは次のどれか」。1 つ選び、他の選択肢がなぜ言えないのかも短く述べてください。
選択肢:
- a)
Aの値が分かればyを高精度に予測できる - b)
Aはyの原因である - c)
Aとyには線形な関係が強くある - d)
Aとyには何らかの非線形な関係もある
解答を見る
正解: c) 線形な関係が強くある
ピアソン相関係数は「線形関係の強さ」を −1〜+1 で測る量で、+0.8 は強い線形関係を示す。他の選択肢は誤読の典型例で、相関係数を扱う際の落とし穴として頭に入れておきたい。
- a) 高精度予測の保証ではない:
R² = r² = 0.64程度で残り 36% は別要因。外れ値が支配的だと「数値上は高相関でも予測力は無い」現象も起きる - b) 因果ではない: 共通の第三因子が両方を動かしている「疑似相関」の可能性がある。アイスクリームの売上と溺死事故件数のように、気温(隠れ変数)が原因の例
- d) 非線形の有無は判定できない: ピアソンは線形性しか測らない。むしろ「相関係数が 0 でも強い非線形関係がある」(
y = x²や円形クラスタ)ことの方が落とし穴になる
判断軸:
- 相関 ≠ 予測精度(モデル全体と特徴量の組み合わせで決まる別物)
- 相関 ≠ 因果関係(因果推論には介入実験や DAG が必要)
- 相関 0 ≠ 関係が無い(線形以外を見るには相互情報量や Spearman 相関を併用)