Unsupervised

k-means - K-means／k平均法

k-means（k平均法）は、データを「k個のクラスタ」に分け、各クラスタの中心（重心）に最も近い点同士を集める教師なし学習の手法である。目的は「クラスタ内のばらつきを最小化し、クラスタ間の分離を良くする」こと。分類器ではなく、分割・要約のための手法。 ...

PCA - Principal Component Analysis／主成分分析

PCA（主成分分析）は、多次元データの「ばらつき（分散）が大きい方向」を見つけ、座標軸をその方向へ回転させてから、重要な軸だけ残す方法である。目的は「情報量（分散）をできるだけ保ったまま、次元を減らす」こと。PCAは予測や分類のモデルではなく、前処理として使われる。 ...

DBSCAN（density-based spatial clustering）

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）は、点の密度に基づいてクラスタを構成するクラスタリングアルゴリズムである。k-means と違い「クラスタ数 k を事前に決める必要がない」「非凸（曲がった）形状のクラスタも見つけられる」「外れ値（noise）を別カテゴリとして扱う」という 3 つの強みを持ち、形状が不規則だったりノイズが混じるデータで威力を発揮する。 ...

階層的クラスタリング（hierarchical clustering）

階層的クラスタリング（hierarchical clustering）は、データ点を徐々にマージしていく（または分割していく）ことで、樹形図（dendrogram）として全階層のクラスタ構造を可視化するアルゴリズムである。k-means や DBSCAN のように「事前に k やパラメータを決める」必要がなく、樹形図を見てから「どこで切るか」で粒度を選べる。 ...

t-SNE と UMAP: 非線形次元削減

t-SNE（t-distributed Stochastic Neighbor Embedding）と UMAP（Uniform Manifold Approximation and Projection）は、高次元データを 2 〜 3 次元に圧縮して可視化するための非線形次元削減アルゴリズムである。PCA が線形変換に限定されるのに対し、t-SNE / UMAP は曲がった多様体（manifold）構造を保ったまま低次元化できる。 ...

異常検知（anomaly detection）: Isolation Forest / LOF / One-Class SVM

異常検知（anomaly detection, outlier detection）は、「正常データから外れた点」を検出する教師なし学習の一系統である。不正検知、故障予測、ネットワーク侵入検知、品質管理、医療診断など、「興味のあるクラスのサンプルが極端に少ない / 事前にラベルが取れない」場面で使われる。 ...