混同行列・偽陽性/偽陰性・閾値調整
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
混同行列(confusion matrix)は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性(False Positive, FP)と偽陰性(False Negative, FN)のバランスを見ることで、誤りの種類を把握できる。 ...
ROC-AUC(Receiver Operating Characteristic - Area Under the Curve)と PR-AUC(Precision-Recall - Area Under the Curve)は、二値分類モデルの性能を「閾値に依存せず」 1 つの数で比較するための指標である。両者は同じ予測スコアから計算できるが、不均衡データ(陽性クラスが極端に少ないデータ)における振る舞いが大きく違うため、目的によって使い分ける。 ...
回帰モデルの予測 ŷ と正解 y のずれを定量化する指標として、RMSE(root mean squared error)、MAE(mean absolute error)、R²(決定係数, coefficient of determination)の 3 つが標準的に使われる。それぞれ「外れ値の扱い」「単位の解釈性」「ベースラインとの比較」という異なる視点を持ち、評価時にはセットで報告するのが筋がよい。 ...
確率の校正(probability calibration)は、分類モデルが出す predict_proba の値を「実際の正例比率」と一致させる後処理である。多くのモデルは「分類は正しいが確率値は信用できない」状態で出てくる。例えば「0.9 の確率で陽性」と予測した 100 件のうち、実際の陽性が 70 件しかないなら、確率出力は校正されていない(過信、overconfidence)と言える。 ...
損失関数(loss function, あるいは cost function, objective function)は、モデルの予測 ŷ と正解 y のずれを「1 つの数」に変換する関数である。学習はこの損失関数の値を最小化する操作で、モデル設計の選択肢の中で「どの損失関数を選ぶか」は「どのモデルを選ぶか」と同じくらい結果に効く。 ...
過学習(overfitting)は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。 訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。 ...
バイアス-バリアンス分解(bias-variance decomposition, バイアス-バリアンス分解)は、教師あり学習の期待誤差を「Bias の 2 乗」「Variance」「ノイズ(既約誤差)」の 3 項に切り分ける枠組みである。モデルが外す原因を「表現力が足りない(high bias)」と「訓練データの揺らぎに過敏(high variance)」のどちらか(あるいは両方)に診断し、次の打ち手を選ぶための判断軸として使う。 ...
正則化(regularization)は、過学習を抑えるためにモデルの「複雑さ」へペナルティを課す仕組みである。 学習時に最小化する損失関数に、パラメータの大きさを表す項を足すことで、極端に大きな重みを持つモデルが選ばれにくくなる。 ...
交差検証(cross validation, CV)は、限られた学習データを「訓練用」と「検証用」に何通りも分け直して評価することで、モデルの性能をより安定して見積もる手法である。 1 回だけの分割では「たまたま簡単/難しい分割を引いた」せいで結果がブレるので、分割の組み合わせを変えながら平均を取って判断する。 ...
ハイパーパラメータ(hyperparameter)は、機械学習モデルを学習させる前に人間が決める設定値のこと。 データから自動で決まる「パラメータ(parameter)」と区別される。 ...
データリーク(data leakage)は、学習時には観測できるはずのない情報がモデルに混入し、評価指標を不当に高く出してしまう現象である。過学習 と紛らわしいが、過学習が「複雑なモデルが訓練データを覚えすぎる」のに対し、データリークは「特徴量や前処理の組み方が予測対象の情報を漏らしている」点で原因が違う。 ...
クラス不均衡(class imbalance)は、分類問題でクラス間のサンプル数が大きく偏っている状況を指す。不正検知(不正取引 1% 未満)、希少疾患の診断(陽性 0.1% 程度)、迷惑メール(ハム多数)など、実問題では「興味のあるクラスが少数派」というのが典型的なパターンとなる。 ...
次元の呪い(curse of dimensionality)は、特徴量の次元が高くなるにつれて距離・体積・サンプル密度の常識的な感覚が崩れ、距離ベースのアルゴリズムが機能しなくなる現象群の総称である。1961 年に Bellman が制御理論の文脈で命名した古い用語だが、機械学習の文脈では「特徴量を増やすほど精度が上がるとは限らない、むしろ kNN や RBF カーネルがほぼ動かなくなる」という現実問題として現れる。 ...
特徴量スケーリングは、複数の特徴量のスケール(値の取り得る範囲・分散)を揃える前処理である。代表は標準化(standardization, Z-score)と正規化(normalization, Min-Max)の 2 つで、scikit-learn ではそれぞれ StandardScaler と MinMaxScaler が対応する。前処理の順序として、まず 欠損値処理 で NaN を埋めた後にスケーリングを当てる、というのが定石となる。 ...
カテゴリ変数のエンコーディング(categorical encoding)は、文字列やカテゴリ値で表された特徴量を数値ベクトルに変換する前処理操作の総称である。機械学習モデルの大半(ロジスティック回帰 / kNN / ニューラルネット / GradientBoosting など)は数値入力を前提とするため、category='electronics' や prefecture='東京' のような値はそのままでは渡せない。 ...
欠損値(missing values)は実データに付き物の汚れで、何も対処せずに学習器に渡すと多くの実装でエラーになるか、無視されてサンプル数が激減する。「平均で埋める」「行ごと削除する」のような素朴な対応も状況次第では正しいが、欠損が起きるメカニズム(MCAR / MAR / MNAR)を理解せずに当てると分析結果がバイアスする。 ...
特徴量選択(feature selection)は、使える特徴量の中からモデルにとって有用な部分集合を選び出し、それ以外を捨てる前処理である。目的は (1) 過学習 の抑制、(2) 学習・推論コストの削減、(3) モデルの説明性向上、(4) 次元の呪い の緩和、の 4 点に集約される。 ...
線形回帰(linear regression)は、入力特徴量の線形和でターゲットを予測する最も基本的な教師あり回帰モデルである。 ŷ = w_1 x_1 + w_2 x_2 + ... + w_d x_d + b = w · x + b ...
LogisticRegression(ロジスティック回帰)は、線形回帰 の出力をシグモイド関数で 0〜1 の確率に押し込めることで二値分類を可能にしたモデルである。線形回帰の枠組みをほぼそのまま使いつつ、「実数の予測値」を「クラスに属する確率」に変換する点だけが異なる。名前に「回帰」と付いているが、実用上は二値分類の代表的なベースラインモデルとして使われる。 ...
kNN(k近傍法、k-Nearest Neighbors)は、新しい点を予測するとき、訓練データの中で「その点に最も近い k 個のサンプル」を見て、多数決(分類)または平均(回帰)で答えを決める手法である。 モデルを学習で作るのではなく、訓練データをそのまま記憶しておくのが特徴。「怠惰な学習(lazy learning)」とも呼ばれる。 ...
決定木(decision tree)は、入力空間を「if-then-else」の分割で繰り返し切り分け、葉ノードに到達した時点でクラス(分類)または値(回帰)を出すモデルである。学習は「分割すると不純度が最も下がる特徴量と閾値」を貪欲的に選ぶことを再帰的に繰り返すアルゴリズムで、最終的には軸に平行な階段状の決定境界を作る。 ...
サポートベクターマシン(SVM, support vector machine)は、2 クラスのデータを「マージン(境界と最も近い点との距離)が最大になる超平面」で分離する分類器である。1990 年代から 2000 年代前半にかけて分類の標準アルゴリズムとして広く使われ、カーネルトリック(kernel trick)により非線形分離まで自然に拡張できる柔軟性を持つ。 ...
RandomForest は、複数の決定木を組み合わせて予測するアンサンブル学習 の代表的手法(Bagging)。 アンサンブル手法は、複数のモデルの出力をまとめて、単体より安定・高精度を狙う方法。 Bagging(Bootstrap Aggregating)は、ブートストラップで作った複数の学習セットで別々のモデルを学習し、予測を平均/多数決で集約する考え方。 それぞれの木は「ブートストラップサンプル」と「特徴量のランダム選択」で多様性を持たせ、分類は多数決、回帰は平均でまとめる。 ...
GradientBoosting(勾配ブースティング)は、浅い 決定木 のような弱い学習器を 1 本ずつ順番に足していき、前のモデルが取りこぼした「誤差(残差)」を次の木で説明させることで予測精度を高める教師あり学習の手法である。最終的な予測は、これまで足したすべての木の出力を足し合わせた加法モデル F(x) = f_1(x) + f_2(x) + ... + f_M(x) として表される。 ...
アンサンブル学習(ensemble learning)は、複数の弱いモデル(weak learner)を組み合わせて 1 つの強いモデルを作る一般的な枠組みである。アプローチは大きく 3 系統に分かれる。 ...
時系列予測(time series forecasting)は、「過去の観測値から未来の値を予測する」教師あり学習の一系統である。需要予測、株価、気温、サーバー負荷、医療モニタリングなど、ビジネスでも研究でも頻出する。 ...
k-means(k平均法)は、データを「k個のクラスタ」に分け、各クラスタの中心(重心)に最も近い点同士を集める教師なし学習の手法である。 目的は「クラスタ内のばらつきを最小化し、クラスタ間の分離を良くする」こと。分類器ではなく、分割・要約のための手法。 ...
PCA(主成分分析)は、多次元データの「ばらつき(分散)が大きい方向」を見つけ、座標軸をその方向へ回転させてから、重要な軸だけ残す方法である。 目的は「情報量(分散)をできるだけ保ったまま、次元を減らす」こと。PCAは予測や分類のモデルではなく、前処理として使われる。 ...
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、点の密度に基づいてクラスタを構成するクラスタリングアルゴリズムである。k-means と違い「クラスタ数 k を事前に決める必要がない」「非凸(曲がった)形状のクラスタも見つけられる」「外れ値(noise)を別カテゴリとして扱う」という 3 つの強みを持ち、形状が不規則だったりノイズが混じるデータで威力を発揮する。 ...
階層的クラスタリング(hierarchical clustering)は、データ点を徐々にマージしていく(または分割していく)ことで、樹形図(dendrogram)として全階層のクラスタ構造を可視化するアルゴリズムである。k-means や DBSCAN のように「事前に k やパラメータを決める」必要がなく、樹形図を見てから「どこで切るか」で粒度を選べる。 ...
t-SNE(t-distributed Stochastic Neighbor Embedding)と UMAP(Uniform Manifold Approximation and Projection)は、高次元データを 2 〜 3 次元に圧縮して可視化するための非線形次元削減アルゴリズムである。PCA が線形変換に限定されるのに対し、t-SNE / UMAP は曲がった多様体(manifold)構造を保ったまま低次元化できる。 ...
異常検知(anomaly detection, outlier detection)は、「正常データから外れた点」を検出する教師なし学習の一系統である。不正検知、故障予測、ネットワーク侵入検知、品質管理、医療診断など、「興味のあるクラスのサンプルが極端に少ない / 事前にラベルが取れない」場面で使われる。 ...
特徴量重要度(feature importance)は、「学習済みモデルにとってどの特徴量がどれだけ予測に効いているか」を定量化する値である。モデルの説明性を上げる、不要な特徴量を捨てる、データ収集の優先順位を決める、といった目的で使われる。 ...
パーセプトロン(perceptron)は 1958 年に Frank Rosenblatt が提案した、神経細胞の動作を模した最も基本的な分類器である。入力特徴量に重みを掛けて足し合わせ、その和がある閾値を超えるかどうかでクラスを判定するだけの単純な構造を持つ。 ...