混同行列・偽陽性/偽陰性・閾値調整
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
ROC-AUC(Receiver Operating Characteristic - Area Under the Curve)と PR-AUC(Precision-Recall - Area Under the Curve)は、二値分類モデルの性能を「閾値に依存せず」 1 つの数で比較するための指標である。両者は同じ予測スコアから計算できるが、不均衡データ(陽性クラスが極端に少ないデータ)における振る舞いが大きく違うため、目的によって使い分ける。 ...
平均(算術平均, mean)は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理など、統計学のほぼ全ての領域で土台として登場する。後から学ぶ 分散 ・ 標準偏差 ・ 相関係数 も内部で平均を使っており、平均を理解することは統計を理解することと言い換えてもよいと考えられる。 ...
中央値(median)は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。 定義はデータ数 n で場合分けする。 n が奇数: ちょうど真ん中の値((n+1)/2 番目) n が偶数: 真ん中 2 つの平均(n/2 番目と n/2+1 番目の平均) 中央値は「四分位点 の Q2(50% 点)」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計(外れ値や歪んだ分布に強い手法の総称)の入口に位置する指標と言える。 ...
過学習(overfitting)は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。 訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。 ...
四分位点(quartile)は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値 を「2 等分する位置」と捉えると、四分位点はその拡張になっている。 ...
正則化(regularization)は、過学習を抑えるためにモデルの「複雑さ」へペナルティを課す仕組みである。 学習時に最小化する損失関数に、パラメータの大きさを表す項を足すことで、極端に大きな重みを持つモデルが選ばれにくくなる。 ...
交差検証(cross validation, CV)は、限られた学習データを「訓練用」と「検証用」に何通りも分け直して評価することで、モデルの性能をより安定して見積もる手法である。 1 回だけの分割では「たまたま簡単/難しい分割を引いた」せいで結果がブレるので、分割の組み合わせを変えながら平均を取って判断する。 ...
分散(variance)は、データの散らばり具合を「平均 からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿(正規分布なら完全に決まる)が記述できる。 ...
ハイパーパラメータ(hyperparameter)は、機械学習モデルを学習させる前に人間が決める設定値のこと。 データから自動で決まる「パラメータ(parameter)」と区別される。 ...
標準偏差(standard deviation, stddev)は、分散 の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長(cm)のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。 ...
特徴量スケーリングは、複数の特徴量のスケール(値の取り得る範囲・分散)を揃える前処理である。代表は標準化(standardization, Z-score)と正規化(normalization, Min-Max)の 2 つで、scikit-learn ではそれぞれ StandardScaler と MinMaxScaler が対応する。 ...
歪度(skewness、わいど)は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均 が分布の中心、分散 と標準偏差 が広がりを表すのに対して、歪度は「形のバランス」を表す。 ...
LogisticRegression(ロジスティック回帰)は、線形回帰の出力をシグモイド関数で 0〜1 の確率に押し込めることで二値分類を可能にしたモデルである。線形回帰の枠組みをほぼそのまま使いつつ、「実数の予測値」を「クラスに属する確率」に変換する点だけが異なる。名前に「回帰」と付いているが、実用上は二値分類の代表的なベースラインモデルとして使われる。 ...
カーネル密度推定(Kernel Density Estimation, KDE)は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布(カーネル)を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。 ...
kNN(k近傍法、k-Nearest Neighbors)は、新しい点を予測するとき、訓練データの中で「その点に最も近い k 個のサンプル」を見て、多数決(分類)または平均(回帰)で答えを決める手法である。 モデルを学習で作るのではなく、訓練データをそのまま記憶しておくのが特徴。「怠惰な学習(lazy learning)」とも呼ばれる。 ...
相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。 ...
RandomForest は、複数の決定木を組み合わせて予測するアンサンブル手法(Bagging)。 アンサンブル手法は、複数のモデルの出力をまとめて、単体より安定・高精度を狙う方法。 Bagging(Bootstrap Aggregating)は、ブートストラップで作った複数の学習セットで別々のモデルを学習し、予測を平均/多数決で集約する考え方。 それぞれの木は「ブートストラップサンプル」と「特徴量のランダム選択」で多様性を持たせ、分類は多数決、回帰は平均でまとめる。 ...
GradientBoosting(勾配ブースティング)は、浅い決定木のような弱い学習器を 1 本ずつ順番に足していき、前のモデルが取りこぼした「誤差(残差)」を次の木で説明させることで予測精度を高める教師あり学習の手法である。最終的な予測は、これまで足したすべての木の出力を足し合わせた加法モデル F(x) = f_1(x) + f_2(x) + ... + f_M(x) として表される。 ...
k-means(k平均法)は、データを「k個のクラスタ」に分け、各クラスタの中心(重心)に最も近い点同士を集める教師なし学習の手法である。 目的は「クラスタ内のばらつきを最小化し、クラスタ間の分離を良くする」こと。分類器ではなく、分割・要約のための手法。 ...
PCA(主成分分析)は、多次元データの「ばらつき(分散)が大きい方向」を見つけ、座標軸をその方向へ回転させてから、重要な軸だけ残す方法である。 目的は「情報量(分散)をできるだけ保ったまま、次元を減らす」こと。PCAは予測や分類のモデルではなく、前処理として使われる。 ...
機械学習の学習ノートで扱った判断軸を、自分でも試せる形式にまとめたクイズ集。問題文と選択肢が先に表示され、解答は折りたたみで隠してある。解答を見る をクリックすると正解と解説が現れる仕組み。 ...