機械学習初心者(私)が、機械学習の初歩を学ぶ際に残した記録です。

ソースコード・Jupyter Notebook・実行環境は、GitHub 上の debimate/projects/ml/ を参照してください。記載内容の誤り(認識違い)の指摘は大歓迎です。


コンテンツ一覧

Mathematics(数学の基礎)

No.項目カテゴリ
1平均(算術平均)代表値
2中央値(メジアン)代表値
3四分位点(quantile)代表値・散らばり
4分散(バリアンス)散らばり
5標準偏差散らばり
6歪度(skewness)と log1p 変換分布の形
7カーネル密度推定(KDE)分布の可視化
8相関係数2 変数の関係
9期待値確率分布の基礎
10同時分布・周辺分布・条件付き分布確率分布の基礎
11代表的な確率分布確率分布
12ベイズの定理確率推論
13対数・指数関数の性質と log-odds関数
14情報理論(エントロピー / KL / 相互情報量)情報理論
15ベクトルと行列の演算(内積・行列積)線形代数
16固有値・固有ベクトルと固有値分解線形代数
17偏微分と勾配微分
18最急降下法・確率的勾配降下法(SGD)最適化
19凸関数と凸最適化最適化
20大数の法則と中心極限定理(LLN / CLT)統計的推論
21仮説検定・p 値・信頼区間統計的推論

Machine Learning(評価・概念・アルゴリズム)

No.項目カテゴリ
1混同行列・偽陽性/偽陰性・閾値調整評価指標
2ROC-AUC / PR-AUC評価指標
3回帰の評価指標(RMSE / MAE / R²)評価指標
4確率の校正(Platt scaling / Isotonic)評価指標
5損失関数(MSE / 交差エントロピー)学習概念
6過学習(overfitting)学習概念
7バイアス-バリアンス分解(bias-variance tradeoff)学習概念
8正則化(regularization)学習概念
9交差検証(cross validation)学習概念
10ハイパーパラメータ(hyperparameter)学習概念
11データリーク(data leakage)学習概念
12クラス不均衡への対処(class imbalance)学習概念
13次元の呪い(curse of dimensionality)学習概念
14標準化と特徴量スケーリング(standardization)前処理
15カテゴリ変数のエンコーディング(categorical encoding)前処理
16欠損値処理(MCAR / MAR / MNAR)前処理
17特徴量選択(feature selection)前処理
18線形回帰(linear regression)教師あり
19LogisticRegression - ロジスティック回帰教師あり
20kNN - k近傍法教師あり
21決定木(decision tree)教師あり
22サポートベクターマシン(SVM)教師あり
23RandomForest - ランダムフォレスト教師あり
24GradientBoosting - 勾配ブースティング教師あり
25アンサンブル学習(bagging / boosting / stacking)学習概念
26時系列予測(time series forecasting)時系列
27k-means - K-means/k平均法教師なし
28PCA - Principal Component Analysis教師なし
29DBSCAN(density-based clustering)教師なし
30階層的クラスタリング(hierarchical clustering)教師なし
31t-SNE と UMAP(非線形次元削減)教師なし
32異常検知(Isolation Forest / LOF / One-Class SVM)教師なし
33特徴量重要度(permutation importance)解釈性
34パーセプトロン(perceptron)深層学習
35活性化関数(sigmoid / ReLU / GELU)深層学習
36誤差逆伝播法(backpropagation)深層学習

MLOps

No.項目カテゴリ
1実験管理(experiment tracking)開発
2モデルレジストリとバージョニング開発
3推論サービング(バッチ / オンライン)配信
4データドリフト(data drift / concept drift)監視
5モデル性能劣化の監視監視
6再学習パイプライン運用

理解度チェック

学習で扱った判断軸を自分でも試せる形式にまとめたクイズ集。問題と折りたたみ解答で構成されており、判断軸の定着を確認したいときに使う(Claude製)。

No.項目
1機械学習の判断軸クイズ集

Notebooks

No.内容
1クレカ不正検出

プロジェクト構成

projects/ml/
├── notes/        ← このページ配下のMarkdown本体
│   ├── math/
│   ├── ml/
│   └── mlops/
├── notebooks/    ← Jupyter Notebooks
├── datasets/     ← 分析対象データ(再取得可能なので Git 非追跡)
├── scripts/      ← データセット取得スクリプト
└── pyproject.toml

前提

インストール

cd projects/ml
uv sync

データセットのダウンロード

uv run python scripts/download_datasets.py

参考文献(手元にある書籍)