Machine Learning

機械学習初心者（私）が、機械学習の初歩を学ぶ際に残した記録です。

ソースコード・Jupyter Notebook・実行環境は、GitHub 上の debimate/projects/ml/ を参照してください。記載内容の誤り（認識違い）の指摘は大歓迎です。

コンテンツ一覧

Mathematics（数学の基礎）

No.	項目	カテゴリ
1	平均（算術平均）	代表値
2	中央値（メジアン）	代表値
3	四分位点（quantile）	代表値・散らばり
4	分散（バリアンス）	散らばり
5	標準偏差	散らばり
6	歪度（skewness）と log1p 変換	分布の形
7	カーネル密度推定（KDE）	分布の可視化
8	相関係数	2 変数の関係
9	期待値	確率分布の基礎
10	同時分布・周辺分布・条件付き分布	確率分布の基礎
11	代表的な確率分布	確率分布
12	ベイズの定理	確率推論
13	対数・指数関数の性質と log-odds	関数
14	情報理論（エントロピー / KL / 相互情報量）	情報理論
15	ベクトルと行列の演算（内積・行列積）	線形代数
16	固有値・固有ベクトルと固有値分解	線形代数
17	偏微分と勾配	微分
18	最急降下法・確率的勾配降下法（SGD）	最適化
19	凸関数と凸最適化	最適化
20	大数の法則と中心極限定理（LLN / CLT）	統計的推論
21	仮説検定・p 値・信頼区間	統計的推論

Machine Learning（評価・概念・アルゴリズム）

No.	項目	カテゴリ
1	混同行列・偽陽性/偽陰性・閾値調整	評価指標
2	ROC-AUC / PR-AUC	評価指標
3	回帰の評価指標（RMSE / MAE / R²）	評価指標
4	確率の校正（Platt scaling / Isotonic）	評価指標
5	損失関数（MSE / 交差エントロピー）	学習概念
6	過学習（overfitting）	学習概念
7	バイアス-バリアンス分解（bias-variance tradeoff）	学習概念
8	正則化（regularization）	学習概念
9	交差検証（cross validation）	学習概念
10	ハイパーパラメータ（hyperparameter）	学習概念
11	データリーク（data leakage）	学習概念
12	クラス不均衡への対処（class imbalance）	学習概念
13	次元の呪い（curse of dimensionality）	学習概念
14	標準化と特徴量スケーリング（standardization）	前処理
15	カテゴリ変数のエンコーディング（categorical encoding）	前処理
16	欠損値処理（MCAR / MAR / MNAR）	前処理
17	特徴量選択（feature selection）	前処理
18	線形回帰（linear regression）	教師あり
19	LogisticRegression - ロジスティック回帰	教師あり
20	kNN - k近傍法	教師あり
21	決定木（decision tree）	教師あり
22	サポートベクターマシン（SVM）	教師あり
23	RandomForest - ランダムフォレスト	教師あり
24	GradientBoosting - 勾配ブースティング	教師あり
25	アンサンブル学習（bagging / boosting / stacking）	学習概念
26	時系列予測（time series forecasting）	時系列
27	k-means - K-means／k平均法	教師なし
28	PCA - Principal Component Analysis	教師なし
29	DBSCAN（density-based clustering）	教師なし
30	階層的クラスタリング（hierarchical clustering）	教師なし
31	t-SNE と UMAP（非線形次元削減）	教師なし
32	異常検知（Isolation Forest / LOF / One-Class SVM）	教師なし
33	特徴量重要度（permutation importance）	解釈性
34	パーセプトロン（perceptron）	深層学習
35	活性化関数（sigmoid / ReLU / GELU）	深層学習
36	誤差逆伝播法（backpropagation）	深層学習

MLOps

No.	項目	カテゴリ
1	実験管理（experiment tracking）	開発
2	モデルレジストリとバージョニング	開発
3	推論サービング（バッチ / オンライン）	配信
4	データドリフト（data drift / concept drift）	監視
5	モデル性能劣化の監視	監視
6	再学習パイプライン	運用

理解度チェック

学習で扱った判断軸を自分でも試せる形式にまとめたクイズ集。問題と折りたたみ解答で構成されており、判断軸の定着を確認したいときに使う（Claude製）。

No.	項目
1	機械学習の判断軸クイズ集

Notebooks

No.	内容
1	クレカ不正検出

プロジェクト構成

projects/ml/
├── notes/        ← このページ配下のMarkdown本体
│   ├── math/
│   ├── ml/
│   └── mlops/
├── notebooks/    ← Jupyter Notebooks
├── datasets/     ← 分析対象データ（再取得可能なので Git 非追跡）
├── scripts/      ← データセット取得スクリプト
└── pyproject.toml

前提

Python 3.12 以上
uv（Python パッケージ・環境管理）
Visual Studio Code ＋ Jupyter 拡張
Kaggle アカウント（API トークンを ~/.kaggle/kaggle.json に配置）

インストール

cd projects/ml
uv sync

データセットのダウンロード

uv run python scripts/download_datasets.py

コンテンツ一覧#

Mathematics（数学の基礎）#

Machine Learning（評価・概念・アルゴリズム）#

MLOps#

理解度チェック#

Notebooks#

プロジェクト構成#

前提#

インストール#

データセットのダウンロード#

参考文献（手元にある書籍）#