機械学習初心者(私)が、機械学習の初歩を学ぶ際に残した記録です。
ソースコード・Jupyter Notebook・実行環境は、GitHub 上の debimate/projects/ml/ を参照してください。記載内容の誤り(認識違い)の指摘は大歓迎です。
コンテンツ一覧
Mathematics(数学の基礎)
| No. | 項目 | カテゴリ |
|---|---|---|
| 1 | 平均(算術平均) | 代表値 |
| 2 | 中央値(メジアン) | 代表値 |
| 3 | 四分位点(quantile) | 代表値・散らばり |
| 4 | 分散(バリアンス) | 散らばり |
| 5 | 標準偏差 | 散らばり |
| 6 | 歪度(skewness)と log1p 変換 | 分布の形 |
| 7 | カーネル密度推定(KDE) | 分布の可視化 |
| 8 | 相関係数 | 2 変数の関係 |
Machine Learning(評価・概念・アルゴリズム)
| No. | 項目 | カテゴリ |
|---|---|---|
| 1 | 混同行列・偽陽性/偽陰性・閾値調整 | 評価指標 |
| 2 | ROC-AUC / PR-AUC | 評価指標 |
| 3 | 過学習(overfitting) | 学習概念 |
| 4 | 正則化(regularization) | 学習概念 |
| 5 | 交差検証(cross validation) | 学習概念 |
| 6 | ハイパーパラメータ(hyperparameter) | 学習概念 |
| 7 | 標準化と特徴量スケーリング(standardization) | 前処理 |
| 8 | LogisticRegression - ロジスティック回帰 | 教師あり |
| 9 | kNN - k近傍法 | 教師あり |
| 10 | RandomForest - ランダムフォレスト | 教師あり |
| 11 | GradientBoosting - 勾配ブースティング | 教師あり |
| 12 | k-means - K-means/k平均法 | 教師なし |
| 13 | PCA - Principal Component Analysis | 教師なし |
MLOps
作成中。
理解度チェック
学習で扱った判断軸を自分でも試せる形式にまとめたクイズ集。問題と折りたたみ解答で構成されており、判断軸の定着を確認したいときに使う(Claude製)。
| No. | 項目 |
|---|---|
| 1 | 機械学習の判断軸クイズ集 |
Notebooks
| No. | 内容 |
|---|---|
| 1 | クレカ不正検出 |
プロジェクト構成
projects/ml/
├── notes/ ← このページ配下のMarkdown本体
│ ├── math/
│ ├── ml/
│ └── mlops/
├── notebooks/ ← Jupyter Notebooks
├── datasets/ ← 分析対象データ(再取得可能なので Git 非追跡)
├── scripts/ ← データセット取得スクリプト
└── pyproject.toml
前提
- Python 3.12 以上
- uv(Python パッケージ・環境管理)
- Visual Studio Code + Jupyter 拡張
- Kaggle アカウント(API トークンを
~/.kaggle/kaggle.jsonに配置)
インストール
cd projects/ml
uv sync
データセットのダウンロード
uv run python scripts/download_datasets.py