Machine-Learning

実験管理（experiment tracking）

実験管理（experiment tracking）は、機械学習モデルの学習を「再現可能な記録」として残す仕組みである。1 回の学習を「実験（experiment）」と捉え、そこに入った設定（hyperparameter、データセット、コードバージョン）、出てきた結果（metric、可視化、学習曲線）、副産物（学習済み weight、前処理後データ、評価レポート）を 1 セットで保存する。 ...

混同行列・偽陽性/偽陰性・閾値調整

混同行列（confusion matrix）は、分類結果を「正解/不正解」と「陽性/陰性」の組み合わせで整理した 2×2 の表である。偽陽性（False Positive, FP）と偽陰性（False Negative, FN）のバランスを見ることで、誤りの種類を把握できる。 ...

モデルレジストリとバージョニング（model registry）

モデルレジストリ（model registry）は、学習済みモデルに「名前 + バージョン + ステージ」を付けて中央管理する仕組みである。コードの世界での Git や npm レジストリに相当するもので、機械学習モデル特有のメタデータ（学習データ、ハイパーパラメータ、評価指標、承認者、デプロイ履歴）も一緒に管理する。 ...

ROC-AUC / PR-AUC

ROC-AUC（Receiver Operating Characteristic - Area Under the Curve）と PR-AUC（Precision-Recall - Area Under the Curve）は、二値分類モデルの性能を「閾値に依存せず」 1 つの数で比較するための指標である。両者は同じ予測スコアから計算できるが、不均衡データ（陽性クラスが極端に少ないデータ）における振る舞いが大きく違うため、目的によって使い分ける。 ...

平均（算術平均）

平均（算術平均, mean）は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理の定義に直接現れる。後から学ぶ分散・標準偏差・相関係数も内部で平均を使っており、後続の統計量を読むときの基準点として最初に押さえる量となる。 ...

回帰の評価指標（RMSE / MAE / R²）

回帰モデルの予測 ŷ と正解 y のずれを定量化する指標として、RMSE（root mean squared error）、MAE（mean absolute error）、R²（決定係数, coefficient of determination）の 3 つが標準的に使われる。それぞれ「外れ値の扱い」「単位の解釈性」「ベースラインとの比較」という異なる視点を持ち、評価時にはセットで報告するのが筋がよい。 ...

推論サービング（inference serving）: バッチ推論とオンライン推論

推論サービング（inference serving）は、学習済みモデルに本番トラフィックを流して予測を返す仕組みである。設計の最も大きな分岐点は「リクエストが来たらすぐ返す（オンライン推論）」か「データを溜めて一気に処理する（バッチ推論）」かの 2 系統で、どちらを選ぶかでアーキテクチャ・コスト・モニタリング設計がすべて変わる。 ...

中央値（メジアン）

中央値（median）は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。定義はデータ数 n で場合分けする。 n が奇数: ちょうど真ん中の値（(n+1)/2 番目） n が偶数: 真ん中 2 つの平均（n/2 番目と n/2+1 番目の平均）中央値は「四分位点の Q2（50% 点）」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計（外れ値や歪んだ分布に強い手法の総称）の入口に位置する指標と言える。 ...

確率の校正（probability calibration）: Platt scaling / Isotonic

確率の校正（probability calibration）は、分類モデルが出す predict_proba の値を「実際の正例比率」と一致させる後処理である。多くのモデルは「分類は正しいが確率値は信用できない」状態で出てくる。例えば「0.9 の確率で陽性」と予測した 100 件のうち、実際の陽性が 70 件しかないなら、確率出力は校正されていない（過信、overconfidence）と言える。 ...

データドリフト（data drift / concept drift）

データドリフト（data drift）は、本番運用しているモデルが時間の経過とともに精度を落としていく現象の総称である。学習時には観測できなかった「入力データや入力と出力の関係の変化」が本番で起きるため、コードもモデルも変えていないのに性能が劣化する。 ...

四分位点（分位点）

四分位点（quartile）は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値を「2 等分する位置」と捉えると、四分位点はその拡張になっている。 ...

モデル性能劣化の監視（model performance monitoring）

モデル性能劣化の監視（model performance monitoring）は、本番運用しているモデルの予測品質を継続的に観測し、劣化を早期に検知する仕組みである。学習時の精度は本番でずっと維持されるわけではなく、データドリフトや仕様変更で時間とともに落ちていく。劣化に気づかず放置すると、ユーザー体験やビジネス指標がじわじわ悪化し、最悪の場合は気づいたときには手遅れになる。 ...

損失関数（loss function）: MSE と交差エントロピー

損失関数（loss function, あるいは cost function, objective function）は、モデルの予測 ŷ と正解 y のずれを「1 つの数」に変換する関数である。学習はこの損失関数の値を最小化する操作で、モデル設計の選択肢の中で「どの損失関数を選ぶか」は「どのモデルを選ぶか」と同じくらい結果に効く。 ...

分散（バリアンス）

分散（variance）は、データの散らばり具合を「平均からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿（正規分布なら完全に決まる）が記述できる。 ...

再学習パイプライン（retraining pipeline）

再学習パイプライン（retraining pipeline）は、本番のモデルを「新しいデータで再学習 → 評価 → デプロイ」の流れを自動化した仕組みである。一度学習したモデルを永遠に使い続けることはできないため（データドリフトのノート参照）、定期的に新しいデータで作り直す必要がある。これを人手でやらずにパイプラインとして組むのが MLOps の中核作業の 1 つとなる。 ...

過学習（overfitting）

過学習（overfitting）は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。 ...

標準偏差

標準偏差（standard deviation, stddev）は、分散の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長（cm）のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。 ...

バイアス-バリアンス分解（bias-variance tradeoff）

バイアス-バリアンス分解（bias-variance decomposition, バイアス-バリアンス分解）は、教師あり学習の期待誤差を「Bias の 2 乗」「Variance」「ノイズ（既約誤差）」の 3 項に切り分ける枠組みである。モデルが外す原因を「表現力が足りない（high bias）」と「訓練データの揺らぎに過敏（high variance）」のどちらか（あるいは両方）に診断し、次の打ち手を選ぶための判断軸として使う。 ...

歪度（skewness）と log1p 変換

歪度（skewness、わいど）は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均が分布の中心、分散と標準偏差が広がりを表すのに対して、歪度は「形のバランス」を表す。 ...

カーネル密度推定（KDE）

カーネル密度推定（Kernel Density Estimation, KDE）は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布（カーネル）を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。 ...

正則化（regularization）

正則化（regularization）は、過学習を抑えるためにモデルの「複雑さ」へペナルティを課す仕組みである。学習時に最小化する損失関数に、パラメータの大きさを表す項を足すことで、極端に大きな重みを持つモデルが選ばれにくくなる。 ...

交差検証（cross validation）

交差検証（cross validation, CV）は、限られた学習データを「訓練用」と「検証用」に何通りも分け直して評価することで、モデルの性能をより安定して見積もる手法である。 1 回だけの分割では「たまたま簡単／難しい分割を引いた」せいで結果がブレるので、分割の組み合わせを変えながら平均を取って判断する。 ...

相関係数

相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。 ...

期待値（expectation / expected value）

期待値（expected value, E[X]）は、確率変数 X を「無限回サンプリングして平均を取ったときの収束先」を表す量である。離散の場合は E[X] = Σ_x x P(x)、連続の場合は E[X] = ∫ x f(x) dx と書ける。「確率で重み付けした和（または積分）」が中心の定義で、物理で言う質量分布の重心と同じ構造を持つ。 ...

ハイパーパラメータ（hyperparameter）

ハイパーパラメータ（hyperparameter）は、機械学習モデルを学習させる前に人間が決める設定値のこと。データから自動で決まる「パラメータ（parameter）」と区別される。 ...

データリーク（data leakage）

データリーク（data leakage）は、学習時には観測できるはずのない情報がモデルに混入し、評価指標を不当に高く出してしまう現象である。過学習と紛らわしいが、過学習が「複雑なモデルが訓練データを覚えすぎる」のに対し、データリークは「特徴量や前処理の組み方が予測対象の情報を漏らしている」点で原因が違う。 ...

同時分布・周辺分布・条件付き分布

確率変数が複数あるとき、それらの関係を表す分布には 3 種類ある。同時分布（joint distribution, P(x, y)）、周辺分布（marginal distribution, P(x) や P(y)）、条件付き分布（conditional distribution, P(y|x)）の 3 つで、機械学習の本や論文で繰り返し出てくる基本概念である。 ...

クラス不均衡への対処（class imbalance）

クラス不均衡（class imbalance）は、分類問題でクラス間のサンプル数が大きく偏っている状況を指す。不正検知（不正取引 1% 未満）、希少疾患の診断（陽性 0.1% 程度）、迷惑メール（ハム多数）など、実問題では「興味のあるクラスが少数派」というのが典型的なパターンとなる。 ...

代表的な確率分布（probability distributions）

確率分布（probability distribution）は、確率変数 X が取りうる値とその確率を対応づける関数のことである。離散変数なら確率質量関数（PMF, P(X = k)）、連続変数なら確率密度関数（PDF, f(x)）で記述される。機械学習で「データはこんな分布から生成されたとモデル化する」「予測モデルはこんな分布を出力する」と語るとき、必ず特定の分布族を念頭に置くことになる。 ...

ベイズの定理（Bayes' theorem）

ベイズの定理（Bayes’ theorem）は、ある仮説に対する確率を「観測したデータ」を踏まえて更新する規則である。式で書くと、 P(H | D) = P(D | H) × P(H) / P(D) ...

次元の呪い（curse of dimensionality）

次元の呪い（curse of dimensionality）は、特徴量の次元が高くなるにつれて距離・体積・サンプル密度の常識的な感覚が崩れ、距離ベースのアルゴリズムが機能しなくなる現象群の総称である。1961 年に Bellman が制御理論の文脈で命名した古い用語だが、機械学習の文脈では「特徴量を増やすほど精度が上がるとは限らない、むしろ kNN や RBF カーネルがほぼ動かなくなる」という現実問題として現れる。 ...

対数・指数関数の性質と log-odds（log / exp / logit）

対数関数 log(x) と指数関数 exp(x) は互いに逆関数の関係にあり、機械学習では「積を和に変換する」「桁の違うスケールを揃える」「確率を log-odds に変換する」といった用途で繰り返し登場する。特に分類器の出力を「線形和としてモデル化する」発想は、p / (1 - p) を対数化した log-odds（対数オッズ）で表す形で実装されており、ロジスティック回帰の中核を成す。 ...

標準化と特徴量スケーリング - Standardization

特徴量スケーリングは、複数の特徴量のスケール（値の取り得る範囲・分散）を揃える前処理である。代表は標準化（standardization, Z-score）と正規化（normalization, Min-Max）の 2 つで、scikit-learn ではそれぞれ StandardScaler と MinMaxScaler が対応する。前処理の順序として、まず欠損値処理で NaN を埋めた後にスケーリングを当てる、というのが定石となる。 ...

情報理論（information theory）: エントロピー・KL ダイバージェンス・相互情報量

情報理論（information theory）は、Claude Shannon が 1948 年に創始した「情報を定量化する」枠組みである。中核となる量がエントロピー（entropy, 不確実性）、KL ダイバージェンス（2 分布の距離）、相互情報量（mutual information, 2 変数の依存性）の 3 つで、機械学習の損失関数・特徴量選択・決定木の分割基準・変分推論などに直接現れる。 ...

カテゴリ変数のエンコーディング（categorical encoding）

カテゴリ変数のエンコーディング（categorical encoding）は、文字列やカテゴリ値で表された特徴量を数値ベクトルに変換する前処理操作の総称である。機械学習モデルの大半（ロジスティック回帰 / kNN / ニューラルネット / GradientBoosting など）は数値入力を前提とするため、category='electronics' や prefecture='東京' のような値はそのままでは渡せない。 ...

ベクトルと行列の演算（内積・行列積）

ベクトル（vector）は数を 1 列に並べたもの、行列（matrix）は数を 2 次元に並べたものである。機械学習では、データ 1 件を「特徴量ベクトル」、データ集合を「行列」、モデルの重みを「ベクトル」または「行列」で表すのが標準で、内積・行列積といった演算がほぼすべてのアルゴリズムの計算基盤になっている。 ...

欠損値処理（missing values）: MCAR / MAR / MNAR と imputation

欠損値（missing values）は実データに付き物の汚れで、何も対処せずに学習器に渡すと多くの実装でエラーになるか、無視されてサンプル数が激減する。「平均で埋める」「行ごと削除する」のような素朴な対応も状況次第では正しいが、欠損が起きるメカニズム（MCAR / MAR / MNAR）を理解せずに当てると分析結果がバイアスする。 ...

固有値・固有ベクトルと固有値分解（eigenvalue / eigenvector / spectral decomposition）

固有ベクトル（eigenvector）は、ある正方行列 A をかけても向きが変わらないベクトルのことで、固有値（eigenvalue）はその「向きが変わらないベクトル」が A によってスカラー倍された倍率である。式で書くと、 ...

特徴量選択（feature selection）

特徴量選択（feature selection）は、使える特徴量の中からモデルにとって有用な部分集合を選び出し、それ以外を捨てる前処理である。目的は (1) 過学習の抑制、(2) 学習・推論コストの削減、(3) モデルの説明性向上、(4) 次元の呪いの緩和、の 4 点に集約される。 ...

線形回帰（linear regression）

線形回帰（linear regression）は、入力特徴量の線形和でターゲットを予測する最も基本的な教師あり回帰モデルである。 ŷ = w_1 x_1 + w_2 x_2 + ... + w_d x_d + b = w · x + b ...

偏微分と勾配（partial derivative / gradient）

偏微分（partial derivative）は、複数の変数を持つ関数 f(x, y, ...) を「ある 1 変数だけ動かして、他は固定する」と決めて、その 1 変数についての変化率を取った量である。勾配（gradient, ∇f）は、全変数についての偏微分をベクトルに並べたもので、そのベクトルが「f が最も急に増える向き」を指す性質を持つ。 ...

最急降下法・確率的勾配降下法（gradient descent / SGD）

最急降下法（gradient descent, GD）は、関数 f(x) を最小化するために「現在地から見て最も急に下る方向（= 負の勾配 -∇f）に少しずつ進む」反復アルゴリズムである。確率的勾配降下法（stochastic gradient descent, SGD）は、勾配を全データではなくランダムな 1 サンプル（または小バッチ）から推定して更新する派生で、大規模データでの学習に欠かせない手法となる。 ...

LogisticRegression - ロジスティック回帰

LogisticRegression（ロジスティック回帰）は、線形回帰の出力をシグモイド関数で 0〜1 の確率に押し込めることで二値分類を可能にしたモデルである。線形回帰の枠組みをほぼそのまま使いつつ、「実数の予測値」を「クラスに属する確率」に変換する点だけが異なる。名前に「回帰」と付いているが、実用上は二値分類の代表的なベースラインモデルとして使われる。 ...

凸関数と凸最適化（convex functions / convex optimization）

凸関数（convex function）は、グラフが「下に凸」（U 字型）で、任意の 2 点を結んだ弦が関数の上にくる関数のことである。凸関数の最大の特徴は「局所最小値が必ず大域最小値」になる点で、これが凸最適化が「解ける」「保証がある」と言われる根拠となる。 ...

kNN - k近傍法（k-Nearest Neighbors）

kNN（k近傍法、k-Nearest Neighbors）は、新しい点を予測するとき、訓練データの中で「その点に最も近い k 個のサンプル」を見て、多数決（分類）または平均（回帰）で答えを決める手法である。モデルを学習で作るのではなく、訓練データをそのまま記憶しておくのが特徴。「怠惰な学習（lazy learning）」とも呼ばれる。 ...

決定木（decision tree）

決定木（decision tree）は、入力空間を「if-then-else」の分割で繰り返し切り分け、葉ノードに到達した時点でクラス（分類）または値（回帰）を出すモデルである。学習は「分割すると不純度が最も下がる特徴量と閾値」を貪欲的に選ぶことを再帰的に繰り返すアルゴリズムで、最終的には軸に平行な階段状の決定境界を作る。 ...

大数の法則と中心極限定理（LLN / CLT）

大数の法則（Law of Large Numbers, LLN）と中心極限定理（Central Limit Theorem, CLT）は、統計学の 2 大基本定理である。両者とも「独立同分布のサンプル X_1, X_2, ..., X_n の平均」が大きな n でどう振る舞うかを記述する。 ...

サポートベクターマシン（SVM, support vector machine）

サポートベクターマシン（SVM, support vector machine）は、2 クラスのデータを「マージン（境界と最も近い点との距離）が最大になる超平面」で分離する分類器である。1990 年代から 2000 年代前半にかけて分類の標準アルゴリズムとして広く使われ、カーネルトリック（kernel trick）により非線形分離まで自然に拡張できる柔軟性を持つ。 ...

仮説検定・p 値・信頼区間（hypothesis testing / p-value / confidence interval）

仮説検定（hypothesis testing）は、ある主張（帰無仮説）が正しいと仮定したときに、観測されたデータがどれくらい「ありえない」かを定量化して結論を出す統計的手続きである。p 値（p-value）はその「ありえなさ」を 1 つの確率として表した量、信頼区間（confidence interval）は推定値の周りに「真値があると考えられる範囲」を区間で示したものとなる。 ...

RandomForest - ランダムフォレスト

RandomForest は、複数の決定木を組み合わせて予測するアンサンブル学習の代表的手法（Bagging）。アンサンブル手法は、複数のモデルの出力をまとめて、単体より安定・高精度を狙う方法。 Bagging（Bootstrap Aggregating）は、ブートストラップで作った複数の学習セットで別々のモデルを学習し、予測を平均/多数決で集約する考え方。それぞれの木は「ブートストラップサンプル」と「特徴量のランダム選択」で多様性を持たせ、分類は多数決、回帰は平均でまとめる。 ...

GradientBoosting - 勾配ブースティング

GradientBoosting（勾配ブースティング）は、浅い決定木のような弱い学習器を 1 本ずつ順番に足していき、前のモデルが取りこぼした「誤差（残差）」を次の木で説明させることで予測精度を高める教師あり学習の手法である。最終的な予測は、これまで足したすべての木の出力を足し合わせた加法モデル F(x) = f_1(x) + f_2(x) + ... + f_M(x) として表される。 ...

アンサンブル学習（ensemble learning）: bagging / boosting / stacking

アンサンブル学習（ensemble learning）は、複数の弱いモデル（weak learner）を組み合わせて 1 つの強いモデルを作る一般的な枠組みである。アプローチは大きく 3 系統に分かれる。 ...

時系列予測（time series forecasting）

時系列予測（time series forecasting）は、「過去の観測値から未来の値を予測する」教師あり学習の一系統である。需要予測、株価、気温、サーバー負荷、医療モニタリングなど、ビジネスでも研究でも頻出する。 ...

k-means - K-means／k平均法

k-means（k平均法）は、データを「k個のクラスタ」に分け、各クラスタの中心（重心）に最も近い点同士を集める教師なし学習の手法である。目的は「クラスタ内のばらつきを最小化し、クラスタ間の分離を良くする」こと。分類器ではなく、分割・要約のための手法。 ...

PCA - Principal Component Analysis／主成分分析

PCA（主成分分析）は、多次元データの「ばらつき（分散）が大きい方向」を見つけ、座標軸をその方向へ回転させてから、重要な軸だけ残す方法である。目的は「情報量（分散）をできるだけ保ったまま、次元を減らす」こと。PCAは予測や分類のモデルではなく、前処理として使われる。 ...

DBSCAN（density-based spatial clustering）

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）は、点の密度に基づいてクラスタを構成するクラスタリングアルゴリズムである。k-means と違い「クラスタ数 k を事前に決める必要がない」「非凸（曲がった）形状のクラスタも見つけられる」「外れ値（noise）を別カテゴリとして扱う」という 3 つの強みを持ち、形状が不規則だったりノイズが混じるデータで威力を発揮する。 ...

階層的クラスタリング（hierarchical clustering）

階層的クラスタリング（hierarchical clustering）は、データ点を徐々にマージしていく（または分割していく）ことで、樹形図（dendrogram）として全階層のクラスタ構造を可視化するアルゴリズムである。k-means や DBSCAN のように「事前に k やパラメータを決める」必要がなく、樹形図を見てから「どこで切るか」で粒度を選べる。 ...

t-SNE と UMAP: 非線形次元削減

t-SNE（t-distributed Stochastic Neighbor Embedding）と UMAP（Uniform Manifold Approximation and Projection）は、高次元データを 2 〜 3 次元に圧縮して可視化するための非線形次元削減アルゴリズムである。PCA が線形変換に限定されるのに対し、t-SNE / UMAP は曲がった多様体（manifold）構造を保ったまま低次元化できる。 ...

異常検知（anomaly detection）: Isolation Forest / LOF / One-Class SVM

異常検知（anomaly detection, outlier detection）は、「正常データから外れた点」を検出する教師なし学習の一系統である。不正検知、故障予測、ネットワーク侵入検知、品質管理、医療診断など、「興味のあるクラスのサンプルが極端に少ない / 事前にラベルが取れない」場面で使われる。 ...

特徴量重要度（feature importance）と permutation importance

特徴量重要度（feature importance）は、「学習済みモデルにとってどの特徴量がどれだけ予測に効いているか」を定量化する値である。モデルの説明性を上げる、不要な特徴量を捨てる、データ収集の優先順位を決める、といった目的で使われる。 ...