Supervised

線形回帰（linear regression）

線形回帰（linear regression）は、入力特徴量の線形和でターゲットを予測する最も基本的な教師あり回帰モデルである。 ŷ = w_1 x_1 + w_2 x_2 + ... + w_d x_d + b = w · x + b ...

LogisticRegression - ロジスティック回帰

LogisticRegression（ロジスティック回帰）は、線形回帰の出力をシグモイド関数で 0〜1 の確率に押し込めることで二値分類を可能にしたモデルである。線形回帰の枠組みをほぼそのまま使いつつ、「実数の予測値」を「クラスに属する確率」に変換する点だけが異なる。名前に「回帰」と付いているが、実用上は二値分類の代表的なベースラインモデルとして使われる。 ...

kNN - k近傍法（k-Nearest Neighbors）

kNN（k近傍法、k-Nearest Neighbors）は、新しい点を予測するとき、訓練データの中で「その点に最も近い k 個のサンプル」を見て、多数決（分類）または平均（回帰）で答えを決める手法である。モデルを学習で作るのではなく、訓練データをそのまま記憶しておくのが特徴。「怠惰な学習（lazy learning）」とも呼ばれる。 ...

決定木（decision tree）

決定木（decision tree）は、入力空間を「if-then-else」の分割で繰り返し切り分け、葉ノードに到達した時点でクラス（分類）または値（回帰）を出すモデルである。学習は「分割すると不純度が最も下がる特徴量と閾値」を貪欲的に選ぶことを再帰的に繰り返すアルゴリズムで、最終的には軸に平行な階段状の決定境界を作る。 ...

サポートベクターマシン（SVM, support vector machine）

サポートベクターマシン（SVM, support vector machine）は、2 クラスのデータを「マージン（境界と最も近い点との距離）が最大になる超平面」で分離する分類器である。1990 年代から 2000 年代前半にかけて分類の標準アルゴリズムとして広く使われ、カーネルトリック（kernel trick）により非線形分離まで自然に拡張できる柔軟性を持つ。 ...

RandomForest - ランダムフォレスト

RandomForest は、複数の決定木を組み合わせて予測するアンサンブル学習の代表的手法（Bagging）。アンサンブル手法は、複数のモデルの出力をまとめて、単体より安定・高精度を狙う方法。 Bagging（Bootstrap Aggregating）は、ブートストラップで作った複数の学習セットで別々のモデルを学習し、予測を平均/多数決で集約する考え方。それぞれの木は「ブートストラップサンプル」と「特徴量のランダム選択」で多様性を持たせ、分類は多数決、回帰は平均でまとめる。 ...

GradientBoosting - 勾配ブースティング

GradientBoosting（勾配ブースティング）は、浅い決定木のような弱い学習器を 1 本ずつ順番に足していき、前のモデルが取りこぼした「誤差（残差）」を次の木で説明させることで予測精度を高める教師あり学習の手法である。最終的な予測は、これまで足したすべての木の出力を足し合わせた加法モデル F(x) = f_1(x) + f_2(x) + ... + f_M(x) として表される。 ...

アンサンブル学習（ensemble learning）: bagging / boosting / stacking

アンサンブル学習（ensemble learning）は、複数の弱いモデル（weak learner）を組み合わせて 1 つの強いモデルを作る一般的な枠組みである。アプローチは大きく 3 系統に分かれる。 ...

時系列予測（time series forecasting）

時系列予測（time series forecasting）は、「過去の観測値から未来の値を予測する」教師あり学習の一系統である。需要予測、株価、気温、サーバー負荷、医療モニタリングなど、ビジネスでも研究でも頻出する。 ...

パーセプトロン（perceptron）

パーセプトロン（perceptron）は 1958 年に Frank Rosenblatt が提案した、神経細胞の動作を模した最も基本的な分類器である。入力特徴量に重みを掛けて足し合わせ、その和がある閾値を超えるかどうかでクラスを判定するだけの単純な構造を持つ。 ...