Scikit-Learn on Debimate

混同行列・偽陽性/偽陰性・閾値調整

Sun, 24 May 2026 00:00:00 +0000

混同行列（confusion matrix）は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性（False Positive, FP）と偽陰性（False Negative, FN）のバランスを見ることで、誤りの種類を把握できる。

ROC-AUC / PR-AUC

Sun, 24 May 2026 00:00:00 +0000

ROC-AUC（Receiver Operating Characteristic - Area Under the Curve）と PR-AUC（Precision-Recall - Area Under the Curve）は、二値分類モデルの性能を「閾値に依存せず」 1 つの数で比較するための指標である。両者は同じ予測スコアから計算できるが、不均衡データ（陽性クラスが極端に少ないデータ）における振る舞いが大きく違うため、目的によって使い分ける。

過学習（overfitting）

Sun, 24 May 2026 00:00:00 +0000

過学習（overfitting）は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。
訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。

正則化（regularization）

Sun, 24 May 2026 00:00:00 +0000

正則化（regularization）は、過学習を抑えるためにモデルの「複雑さ」へペナルティを課す仕組みである。
学習時に最小化する損失関数に、パラメータの大きさを表す項を足すことで、極端に大きな重みを持つモデルが選ばれにくくなる。

交差検証（cross validation）

Sun, 24 May 2026 00:00:00 +0000

交差検証（cross validation, CV）は、限られた学習データを「訓練用」と「検証用」に何通りも分け直して評価することで、モデルの性能をより安定して見積もる手法である。
1 回だけの分割では「たまたま簡単／難しい分割を引いた」せいで結果がブレるので、分割の組み合わせを変えながら平均を取って判断する。

ハイパーパラメータ（hyperparameter）

Sun, 24 May 2026 00:00:00 +0000

ハイパーパラメータ（hyperparameter）は、機械学習モデルを学習させる前に人間が決める設定値のこと。
データから自動で決まる「パラメータ（parameter）」と区別される。

標準化と特徴量スケーリング - Standardization

Sun, 24 May 2026 00:00:00 +0000

特徴量スケーリングは、複数の特徴量のスケール（値の取り得る範囲・分散）を揃える前処理である。代表は標準化（standardization, Z-score）と正規化（normalization, Min-Max）の 2 つで、scikit-learn ではそれぞれ StandardScaler と MinMaxScaler が対応する。

LogisticRegression - ロジスティック回帰

Sun, 24 May 2026 00:00:00 +0000

LogisticRegression（ロジスティック回帰）は、線形回帰の出力をシグモイド関数で 0〜1 の確率に押し込めることで二値分類を可能にしたモデルである。線形回帰の枠組みをほぼそのまま使いつつ、「実数の予測値」を「クラスに属する確率」に変換する点だけが異なる。名前に「回帰」と付いているが、実用上は二値分類の代表的なベースラインモデルとして使われる。

kNN - k近傍法（k-Nearest Neighbors）

Sun, 24 May 2026 00:00:00 +0000

kNN（k近傍法、k-Nearest Neighbors）は、新しい点を予測するとき、訓練データの中で「その点に最も近い k 個のサンプル」を見て、多数決（分類）または平均（回帰）で答えを決める手法である。
モデルを学習で作るのではなく、訓練データをそのまま記憶しておくのが特徴。「怠惰な学習（lazy learning）」とも呼ばれる。

RandomForest - ランダムフォレスト

Sun, 24 May 2026 00:00:00 +0000

RandomForest は、複数の決定木を組み合わせて予測するアンサンブル手法（Bagging）。
アンサンブル手法は、複数のモデルの出力をまとめて、単体より安定・高精度を狙う方法。 Bagging（Bootstrap Aggregating）は、ブートストラップで作った複数の学習セットで別々のモデルを学習し、予測を平均/多数決で集約する考え方。それぞれの木は「ブートストラップサンプル」と「特徴量のランダム選択」で多様性を持たせ、分類は多数決、回帰は平均でまとめる。

GradientBoosting - 勾配ブースティング

Sun, 24 May 2026 00:00:00 +0000

GradientBoosting（勾配ブースティング）は、浅い決定木のような弱い学習器を 1 本ずつ順番に足していき、前のモデルが取りこぼした「誤差（残差）」を次の木で説明させることで予測精度を高める教師あり学習の手法である。最終的な予測は、これまで足したすべての木の出力を足し合わせた加法モデル F(x) = f_1(x) + f_2(x) + ... + f_M(x) として表される。

k-means - K-means／k平均法

Sun, 24 May 2026 00:00:00 +0000

k-means（k平均法）は、データを「k個のクラスタ」に分け、各クラスタの中心（重心）に最も近い点同士を集める教師なし学習の手法である。
目的は「クラスタ内のばらつきを最小化し、クラスタ間の分離を良くする」こと。分類器ではなく、分割・要約のための手法。

PCA - Principal Component Analysis／主成分分析

Sun, 24 May 2026 00:00:00 +0000

PCA（主成分分析）は、多次元データの「ばらつき（分散）が大きい方向」を見つけ、座標軸をその方向へ回転させてから、重要な軸だけ残す方法である。
目的は「情報量（分散）をできるだけ保ったまま、次元を減らす」こと。PCAは予測や分類のモデルではなく、前処理として使われる。