Preprocessing

標準化と特徴量スケーリング - Standardization

特徴量スケーリングは、複数の特徴量のスケール（値の取り得る範囲・分散）を揃える前処理である。代表は標準化（standardization, Z-score）と正規化（normalization, Min-Max）の 2 つで、scikit-learn ではそれぞれ StandardScaler と MinMaxScaler が対応する。前処理の順序として、まず欠損値処理で NaN を埋めた後にスケーリングを当てる、というのが定石となる。 ...

カテゴリ変数のエンコーディング（categorical encoding）

カテゴリ変数のエンコーディング（categorical encoding）は、文字列やカテゴリ値で表された特徴量を数値ベクトルに変換する前処理操作の総称である。機械学習モデルの大半（ロジスティック回帰 / kNN / ニューラルネット / GradientBoosting など）は数値入力を前提とするため、category='electronics' や prefecture='東京' のような値はそのままでは渡せない。 ...

欠損値処理（missing values）: MCAR / MAR / MNAR と imputation

欠損値（missing values）は実データに付き物の汚れで、何も対処せずに学習器に渡すと多くの実装でエラーになるか、無視されてサンプル数が激減する。「平均で埋める」「行ごと削除する」のような素朴な対応も状況次第では正しいが、欠損が起きるメカニズム（MCAR / MAR / MNAR）を理解せずに当てると分析結果がバイアスする。 ...

特徴量選択（feature selection）

特徴量選択（feature selection）は、使える特徴量の中からモデルにとって有用な部分集合を選び出し、それ以外を捨てる前処理である。目的は (1) 過学習の抑制、(2) 学習・推論コストの削減、(3) モデルの説明性向上、(4) 次元の呪いの緩和、の 4 点に集約される。 ...